作者利用美国股票数据(1955年-2017年)进行机器学习分类,采用多类分类与回归模型预测股票回报,并通过深度神经网络构建深度动量策略。策略将股票分类为十分位,选择高动量股票做多、低动量股票做空。双峰现象揭示动量股票的回报特性,机器学习模型在回报和夏普比率方面表现优异。

策略概述

作者使用来自证券价格研究中心(CRSP)的美国股票市场数据,涵盖1955年1月至2017年1月在纽约证券交易所(NYSE)、美国证券交易所(Amex)和纳斯达克(Nasdaq)上市的股票。通过对数据收集和筛选设置条件,最终分析了22,919家公司。研究将训练期和测试期分开,前20年用于训练,后续年份用于测试。作者使用机器学习模型将股票分类为十分位,并通过准确率、损失等指标评估其表现。为了提升分类性能,还应用了重新分类策略,并分析了这些策略的效果。此外,论文还探讨了基于分类结果构建的投资组合的财务表现。结果表明,所提出的模型在回报率和夏普比率方面优于其他策略和模型。

论文第二部分探讨了股票回报的双峰特性,重点分析了动量股票回报的横截面分布。研究使用1955年至2017年的美国市场数据,根据一年的价格动量将股票分为十组动量组。由此产生的概率质量函数被称为横截面相对回报分布。高动量股票通常产生较高回报并集中于高回报组,而低动量股票则产生较低回报并集中于低回报组。该部分展示了这些分布,并强调了双峰现象的持续存在,尤其是在极端的十分位中。双峰模式不仅限于一年动量,还出现在各种动量特征中。论文进一步探讨了市场衰退和复苏期间的变化,揭示了低动量股票分布的变化。双峰现象不仅限于动量;其他公司特征如贝塔值、账面市值比、流动性、规模和波动性也表现出双峰分布。这表明双峰现象与回报预测性之间存在联系。尽管存在双峰模式,高动量股票仍表明未来回报较高,这促使进一步研究如何增强动量的预测能力。

论文的第三部分重点讨论通过机器学习构建深度动量策略。它讨论了使用非线性关系和多种特征提高动量预测能力的背景和方法。主要提出了两种方法:多类分类和回归。
在多类分类方法中,目标是预测股票的未来回报类别,类似于传统的分位模型。这种方法适用于相对回报策略,也可扩展用于预测绝对回报。随机森林和人工神经网络等机器学习算法被用于这一监督学习问题。
回归方法旨在通过最小化实际回报和预测回报之间的差异来预测股票的绝对回报。尽管该方法在预测绝对回报方面取得了成功,但在资产定价文献中,横截面预测表现出更大的成功。鉴于相对回报分布的双峰特性,点估计不足以充分描述,因此论文采用了多类分类方法。
为了实现这一方法,论文使用了深度神经网络(DNN)进行股票分类。DNN 估计每个回报类别的概率,并将具有最高概率的类别作为预测类别。该部分介绍了名义分类器并讨论了其训练过程。
论文还强调了在资产定价中实施机器学习的挑战,包括预测类别与实际类别不匹配以及类别分布不平衡的问题。为了解决这些问题,论文提出了五种重新分类方法。

在构建深度动量策略的背景下,论文讨论了两种主要的回报预测问题的机器学习方法:多类分类和回归。

<多类分类方法>

– 输入(特征)
输入特征(解释变量)表示为x = {x1, …, xM},其中M代表特征数量。
– 输出(目标)
目标变量表示为c,代表给定股票的预测类别(未来回报类别)。使用one-hot编码方案表示真实类别y。如果股票的可能回报类别为1, …, K,且真实类别为k,则c = k,y是一个K维向量,第k个元素为1,其余为0。

– 目标
此方法的目标是预测股票的未来回报类别。这类似于传统的横截面预测模型,在该模型中股票根据预测量进行排序并被分类为分位数。

– 问题类型

此方法适用于相对回报策略,如多空策略。它也可以扩展为预测绝对回报。由于在训练样本中未来回报已知,因此这是一个监督学习问题。

– 机器学习算法

机器学习提供了多种用于此目的的多类分类算法,如随机森林和人工神经网络。

<回归方法>

– 输入(特征)

与多类分类方法相似,输入特征表示为x = {x1, …, xM}。

– 输出(目标)

目标变量是股票的绝对回报。

– 目标

目标是通过最小化实际回报和预测回报之间的差异来预测股票的绝对回报。

– 问题类型

此方法涉及回归,其中预测输出是一个连续值。

<机器学习算法>

资产定价中的机器学习研究通常采用这种回归方法来预测绝对回报。

在多类分类方法中,深度神经网络(DNN)用于股票分类。DNN估计每个回报类别的概率,并选择具有最高概率的类别作为预测类别。这种方法提供了股票回报分布的离散化版本。

– 输入:输入特征x。

– 输出:预测类别c及每个类别的相关概率,P(c = k),其中k = 1, …, K。

策略合理性

该论文的功能性源于其基于机器学习的资产回报预测与投资组合构建的新颖方法。它旨在弥合机器学习预测与财务表现之间的差异,利用深度神经网络估计回报分布并预测财务结果。通过重新分类,它缓解了动量股票中的双峰问题,使得投资组合的表现优于传统模型。该“深度动量”(DM)框架超越了传统动量策略,利用了隐藏的非线性信息。论文解决了投资组合构建中的数据不平衡问题,并引入了五种有效的重新分类方法。跨越数十年的实证测试验证了DM模型的稳健性和盈利能力,即使在交易成本的影响下也优于传统策略。通过将机器学习预测与投资目标相结合,论文强调了财务表现在资产定价模型中的重要性。基于过去回报发现高夏普比率的现象引发了关于特征和模型在资产定价中的作用的思考。总体而言,本文推动了资产定价文献的发展,提供了通过机器学习增强股票回报可预测性的全新视角。

论文来源

Bimodal Characteristic Returns and Predictability Enhancement via Machine Learning [点击浏览原文]

<摘要>

本文记录了动量股票的双峰性:无论是高动量还是低动量股票,都存在较高和较低回报的非平凡概率。双峰性使得动量策略从根本上变得风险更大,可能导致巨大损失。为缓解双峰性并提高回报的可预测性,本文通过机器学习开发了一种新颖的横截面预测模型。通过基于预测的财务表现对股票进行重新分类,该模型显著优于现成的机器学习模型。在美国市场测试中,当回归至Fama-French五因素模型加上动量和短期反转因素时,一个市值加权的多空组合获得了每月2.4%的阿尔法值(t值=6.63)。

回测表现

年化收益率36%
波动率19.35%
BetaN/A
夏普比率1.86
索提诺比率N/A
最大回撤N/A
胜率N/A

Leave a Reply

Discover more from Quant Buffet

Subscribe now to keep reading and get access to the full archive.

Continue reading