
“该策略使用随机森林根据历史数据预测收益公告前后的异常股票回报。当预测回报超过阈值时,进行头寸操作,正向预测做多,负向预测做空。”
资产类别: 股票 | 地区: 美国 | 周期: 每日 | 市场: 股票 | 关键词: 机器学习、财务报表
I. 策略概要
该投资范围包括Compustat北美中具有可用财务数据的公司股票,数据使用SoftImpute进行缺失值过滤。使用的模型是随机森林,每个森林有200棵树。使用5个季度的滑动窗口进行训练和测试,其中前四个季度作为自变量,当前季度的市场反应作为因变量。该模型预测收益公告前后30天内的股票回报,重点关注即时反应和收益公告后漂移。预测代表异常回报,损失函数为均方误差。仅当预测的异常回报绝对值大于0.1时才进行头寸操作,正向预测做多,负向预测做空。
II. 策略合理性
研究表明,随机森林在预测市场对收益公告的反应方面优于其他模型,实现了高准确性。该模型通过平均决策树的输出来纠正过拟合。需要仔细选择阈值以平衡交易量和流动性。在epsilon为0.1时,即使排除微盘股和小盘股,该策略也能产生巨额回报。模型选择的最重要预测因子是会计变量,特别是那些与自由现金流相关的变量,这些变量也已知能预测股票回报。这解释了该策略成功的一部分原因。
III. 来源论文
Machine Learning-Based Financial Statement Analysis [点击查看论文]
- 阿米尔·阿梅尔-扎德(Amir Amel-Zadeh)、扬-彼得·卡利斯(Jan-Peter Calliess)、丹尼尔·凯泽(Daniel Kaiser)和斯蒂芬·罗伯茨(Stephen Roberts),牛津大学赛德商学院,牛津大学牛津-曼量化金融研究所,牛津大学牛津-曼量化金融研究所,牛津大学牛津-曼量化金融研究所
<摘要>
本文探讨了机器学习方法在财务报表分析中的应用。我们比较了机器学习领域中一系列模型在仅基于过去的财务报表数据预测收益公告前后异常股票回报的符号和幅度方面的能力。随机森林产生了最准确的预测和最高的异常回报。(非线性)神经网络模型在预测极端市场反应方面表现相对更好,而线性方法在预测适度市场反应方面表现相对更好。基于模型预测的多空投资组合产生了可观的异常回报,这些回报似乎会随着时间的推移而衰减。异常回报对各种风险因素具有鲁棒性,并以预期的方式体现在规模、价值和应计项目上。通过分析随机森林表现的潜在经济驱动因素,我们发现模型选择的最重要预测因子是预测自由现金流所需的财务变量和已知为股票回报横截面预测因子的公司特征。


IV. 回测表现
| 年化回报 | 47.47% |
| 波动率 | 18% |
| β值 | N/A |
| 夏普比率 | 2.64 |
| 索提诺比率 | N/A |
| 最大回撤 | N/A |
| 胜率 | N/A |