“该研究评估了不同日内时间区间的股票收益预测性,使用2004年2月至2016年10月的日内交易数据,包括标普500及其成分股。研究使用线性(AR1、Lasso、岭回归等)和非线性模型(随机森林、梯度增强树、神经网络)进行收益预测。结果表明,线性模型在统计预测能力上表现更好,尤其是在R2值方面;但在扣除交易成本后,非线性模型在经济显著性(夏普比率和回报)上表现优异,尤其在短时间区间(如1分钟)内更具优势。”
资产类别:股票 | 地区:美国 | 频率:日内 | 市场:股票 | 关键词:日内股票、机器学习
策略概述
该研究的方法旨在评估不同日内时间区间的股票收益预测性。为此,研究依赖于从2004年2月到2016年10月的大规模日内交易数据集(包括TAQ、NYSE、AMEX和NASDAQ),其中包括像标普500及其成分股的股票组合信息。股票收益的预测变量基于这些股票组合的滞后收益,创建了大量的协变量。研究使用多种线性和非线性机器学习模型来建模这些预测变量与预期股票收益之间的关系。模型包括线性方法,如自回归模型(AR1)和惩罚回归(例如岭回归和Lasso),以及非线性方法,如随机森林、梯度增强回归树和不同隐藏层的神经网络。研究采用滚动窗口方法进行模型估计,使用每月向前移动的训练集、验证集和测试集,涵盖了总计142个月的数据。研究还通过Fama-MacBeth回归和标准化技术来评估不同公司特征对统计预测能力的影响。
研究结果展示了市场和行业组合在不同日内时间区间的统计预测能力和经济显著性,并考虑了交易成本。研究发现,在线性模型中,惩罚线性模型(如OLS、LAS、RID、EN)表现优异,R2值较高,而非线性模型如随机森林(RF)、梯度增强树(GBT)和神经网络(NN1-NN5)通常R2值较低。尽管如此,线性模型在统计预测能力上表现更强。经济显著性方面,在扣除交易成本前,除了AR1之外的许多模型在夏普比率上优于买入并持有策略,表明它们具有经济可行性。然而,扣除交易成本后,非线性模型在保持高夏普比率和产生可观回报方面优于线性模型。
研究还对个别标普500成分股在不同日内时间区间的预测性进行了评估,并比较了不同机器学习技术在样本外R2值和年化夏普比率上的表现(包括考虑交易成本前后的表现)。结果表明,惩罚线性模型如LAS和EN通常在R2值上优于非线性模型,但随着时间区间的延长,个股的可预测性下降。在交易的经济显著性方面,非线性模型通常表现优于线性模型,特别是在1分钟时间区间内,长-短组合表现出积极且可观的夏普比率。
策略合理性
该策略的核心功能是利用机器学习技术挖掘日内股票回报的可预测性,尤其在量化对冲基金中具有应用前景。策略通过基于模型预测的交易决策,即便在考虑交易成本后,也能实现经济上的盈利,尽管随着交易时间的延长,盈利能力会降低。非线性模型通常优于线性模型,这说明在捕捉日内预测性时,模型的复杂性至关重要。此外,策略还考虑了日内交易中的资本缓慢移动效应、股票流动性和交易活动对可预测性的影响,以及不同股票特征在日内预测性中的作用。这种全面的策略为长期和高频交易策略之间架起了一座桥梁,揭示了日内股票回报的预测性及其经济意义。
论文来源
Intraday Stock Predictability Everywhere [点击浏览原文]
- Fred Liu 和 Lars Stentoft(圭尔夫大学;西安大略大学经济系;跨大学研究与组织分析中心(CIRANO);奥胡斯大学-CREATES)
<摘要>
我们通过大约9亿个观测值,进行了迄今为止最大规模的使用机器学习技术的日内股票收益预测性研究,发现市场、行业和个股收益在不同时间区间内具有一致的样本外可预测性。尽管线性模型具有最强的统计预测能力,但非线性模型在经济上优于它们,基于预测结果构建的机器学习日内长-短投资组合在扣除交易成本后达到了4的夏普比率。预测性是短暂的,且在交易日的中间时段最强,对流动性较差的公司尤为明显,这表明资本流动缓慢是定价错误的经济来源。


回测表现
| 年化收益率 | 10.4% |
| 波动率 | 10% |
| Beta | N/A |
| 夏普比率 | 1.04 |
| 索提诺比率 | N/A |
| 最大回撤 | N/A |
| 胜率 | N/A |
