“该策略投资于新兴市场的大市值股票,采用机器学习算法基于36个公司级特征进行回报预测。使用集成模型(ENS)结合GBRT和RF树基模型以及多个神经网络。每月选取前10%的股票组成投资组合,保持上个月选中的股票,未跌出前30%的继续持有。策略按市值加权并每月重新调整。”
资产类别:股票 | 区域:新兴市场 | 频率:月度 | 市场:股票 | 关键词:机器学习,新兴市场
策略概述
投资领域由新兴市场的大市值股票构成。买入并持有的多头策略基于机器学习算法,利用36个公司级特征的回报预测(公式(15)),通过ENS模型计算并考虑交易成本(公式(14))。ENS模型结合了更高级的机器学习方法,允许非线性关系和交互作用,包括两种树基模型(GBRT、RF)和包含五种不同神经网络(NN_1−5)的集成模型。在GBTR模型中,森林中的树数量T为[50, 52, …, 500],最大深度D为[1, 2, …, 8],分离标准是最小化均方误差(MSE),学习率LR范围为[0.01, 0.02, …, 0.1],基于自助样本比例B。对于RF模型,树的数量T为[100, 102, …, 600],最大深度D相同,且树还使用特征的随机子集R:[0.01, 0.02, …, 1]来生长分支。这些超参数通过验证步骤进行优化。前馈神经网络有一个输入层和一个输出层,以及1到4个隐藏层。第一个隐藏层包含32个节点,后续每个隐藏层的节点数按照几何金字塔规则减少为前一层节点数的一半。超参数批次大小为10000,训练轮数为100。
每个月,最终投资组合由当前属于前10%(最高十分位)的股票组成,外加上个月选中的股票,且未跌出前30%的股票(上个月在最高十分位的股票,如果本月不在前30%,则卖出)。可通过做空广泛的新兴市场股票指数对投资组合进行对冲。策略按市值加权,并按月度重新调整。
策略合理性
近年机器学习(ML)在量化金融领域蓬勃发展,主要由于其可访问性提高和使用成本降低。过去五年,众多研究文献探讨了这一话题。研究表明,机器学习策略在新兴市场中的高回报并非主要来源于高风险月份,且回报不会迅速回归,这表明“反应不足”比“风险基础解释”更有可能成为其根本原因。ML模型优于线性模型的可能原因包括:ML更好地利用了低风险月份的数据表现、在新兴市场的先发优势(市场整合)、ML模型对更长持有期的考虑更充分、以及对套利限制的更好调整。
论文来源
Machine Learning and The Cross-Section of Emerging Market Stock Returns [点击浏览原文]
- Matthias X. Hanauer,慕尼黑工业大学(TUM)
- Tobias KalsbachRobeco,资产管理公司
<摘要>
本文比较了各种机器学习模型在预测新兴市场股票回报横截面方面的表现。我们记录到,允许非线性和交互作用的模型在样本外回报方面显著优于传统线性模型。尽管我们发现线性和机器学习模型对与更高套利限制相关的股票具有更高的可预测性,但非线性模型的这种效应不太显著。此外,考虑到交易成本、卖空限制,并将投资范围仅限于大市值股票时,可以获得显著的净回报。


回测表现
| 年化收益率 | 2.8% |
| 波动率 | 5.32% |
| Beta | N/A |
| 夏普比率 | 0.53 |
| 索提诺比率 | N/A |
| 最大回撤 | N/A |
| 胜率 | N/A |
