“该策略投资于NYSE、AMEX和NASDAQ的股票,排除价格低于1美元的股票。文章数据来自《华尔街日报》,利用文本分析处理并分类为相关行业。通过Google word2vec模型,构建机构预测得分,并结合股票财务信息进行回报预测。根据市值、账面市值比和动量等因素,股票被分为多组。策略做多高预测、高异常组合,做空高预测、低异常组合,每月重新平衡投资组合。”
资产类别:股票 | 地区:美国 | 频率:每月 | 市场:股票 | 关键词:动量,机构预测
策略概述
投资范围包括NASE、AMEX和NASDAQ的股票,这些股票的代码为10和11,且具有正的账面权益价值。价格低于1美元的股票被排除在外。公司财务信息来自标准普尔的Compustat数据库,月度股票回报来自CRSP数据库,股票的机构持股信息来自Thompson-Reuters的机构持股数据库(13F)。新闻数据集结合了1979年至2020年《华尔街日报》发表的文章全文(由道琼斯新闻提供)。
策略合理性
对于每篇文章,所有字符被转换为小写,删除常见的停用词以及少于四个字母的词,将文本分解为更小的单位。然后,将词语的屈折形式转换为相同形式(轻量化词形还原)。接下来,生成单元词组(uni-grams),并将其转换为双词组(bi-grams),基于文章原始的词序排列。排除不涉及行业经济新闻的文章,如关于书籍、体育、娱乐、生活方式、艺术和评论的文章,以及《华尔街日报》与非经济主题相关的栏目(如Books、Bookshelf、Off Duty、Life & Arts和Golf Journal)。
文章分类和机构预测得分的构建
将文章按照内容分类到不同的行业中。对于关于上市公司的文章,可以从道琼斯数据库获取公司的股票代码,并将这些文章与公司的行业SIC代码进行匹配,然后将SIC代码分组为Fama-French48行业分类。如果没有股票代码,则使用机器学习算法将文章分类到Fama-French48行业。匹配多个行业的文章将被排除。
接下来,构建文章层面的机构预测得分,并将其聚合到FF48行业,并与股票数据合并。机构投资者相关性的衡量分两步进行:首先,使用Google的word2vec嵌入模型,识别与双词组“institutional investor”(机构投资者)强相关的词语,选择前250个词汇(如“fixed_income”、“portfolio_manager”、“investment_management”、银行和对冲基金的名称等)。接着,计算每篇《华尔街日报》文章与这些词汇的余弦相似度分数,分数在0到1之间。以同样的方法构建“prediction”(预测)的得分,最终得分是这两个得分的乘积。将该得分聚合到FF48行业和月度级别,并对得分进行标准化,以表明较高的媒体报道覆盖度。标准化的两步程序详见论文第15页。
回报预测
最后,使用Fama-MacBeth的月度回归预测股票的下个月回报:因变量是t+1月份的回报,回归变量是股票从t−12到t−1月的累计回报(动量异常)或股票账面市值比的自然对数(价值异常),以及前面构建的股票FF48行业的《华尔街日报》机构预测指标“InstPred”,加上一系列控制变量。
每个月,根据NYSE股票的市值中位数将股票分为两组。股票还根据NYSE股票的账面市值比(价值异常)或过去回报(动量异常)的30%和70%分位点分为三组。此外,股票也根据NYSE股票的InstPred的30%和70%分位点分为三组。对于每个18个投资组合,构建等权重的超额回报。3×3投资组合的回报是每类大盘股和小盘股投资组合的平均回报。我们对动量(股票过去t−12到t−1的回报)和价值(账面市值比的对数)异常分别进行处理。对于两种异常情况,我们做多高InstPred和高异常组合,做空高InstPred和低异常组合。每月重新平衡。
经济基础
作者假设该策略的预测能力来源于机构投资者之间的合作,这种合作使他们能够共同利用单个投资者无法利用的市场异常。当某位投资者收到定价错误的信号时,他们通过媒体与其他机构投资者分享这一信息。随着更多投资者了解到并分享信息,投资者的数量增加,最终达到一个临界规模。此时,套利交易开始进行,异常回报显现,价格得以修正。这个过程通过InstPred变量捕捉,该变量反映了讨论机构投资者预测的新闻文章的强度,因此能够预测他们的异常交易行为。
论文来源
Wisdom of the Institutional Crowd: Implications for Anomaly Returns [点击浏览原文]
- AJ Chen, Gerard Hoberg, Miao Ben Zhang, 南加州大学马歇尔商学院 – 金融与商业经济学系
<摘要>
我们假设,当价格修正所需的资本超出任何单个投资者的能力时,机构投资者通过媒体进行众包式协调交易。当机构群体达成共识后,协同交易发生,价格得以修正,异常回报随之产生。我们使用了1980年至2020年间的超过一百万篇《华尔街日报》文章,开发了一个新的文本指标,衡量机构投资者在媒体上做出的预测(InstPred)。我们发现:(i)当InstPred较高时,价值和动量异常回报增加34%到63%;(ii)这些影响主要由那些在《华尔街日报》文章中被高度引用的股票的机构投资者推动;(iii)当InstPred较高时,机构投资者集体更积极地交易这些异常现象。我们的结果无法通过现有的指标(如文档语调)来解释。


回测表现
| 年化收益率 | 5.58% |
| 波动率 | 12.56% |
| Beta | N/A |
| 夏普比率 | 0.44 |
| 索提诺比率 | N/A |
| 最大回撤 | N/A |
| 胜率 | N/A |
