NLP新闻分析方法简介 |
发表时间:2021-07-05 阅读次数:939 |
从交易的角度来看,期货品种的定价取决于交易所的供需动态,现实中各品种的交易价格受到无数因素的影响,其中许多因素很难同时衡量,想要开发一个预测模型是一个非常具有挑战性的事情。然而,以新闻形式有关的短期机会还是存在的。以铜为例,与几乎所有品种一样,铜价对重大消息几乎立即作出反应。基于NLP的交易模型可以利用这些短期价格波动,将公告解析为tokens,评估潜在的情绪,然后在预期价格波动之前,或者在波动期间持仓。
现货价格对市场事件的反应最为敏感,在获取铜每日现货价格数据后,使用一个名为GetOldTweets3(GOT3)的库提取历史Twitter数据。GOT3允许用户访问大量的Twitter数据历史。给出一个属于财经新闻媒体的 Twitter用户列表和一些相关的关键字,可以定义想要获取数据的搜索参数。在获得与铜价相关的历史Twitter文本数据后,对这些文本数据进行处理,以便为主题和情感模型提供可解释性。
将Tweets中通常包含的句柄标签、标签和文章链接等无关信息删除,之后通过检查tweets的组成来对Twitter数据进行一些基本分析,比如单个tweet的长度(每条tweet的字数)、字符数等。另外我们可以通过检查N-Grams来尝试理解在我们的tweets 数据中词序的重要性,通过生成的N-Grams图,一个基于NLP的预测模型将从我们的N-Gram特征中学到更多的东西。之后使用Lemmatizer WordNetLemmatizer来规范我们的数据中的单词,WordNetLemmatizer利用了词性(POS)标注,可以帮助提高我们的主题模型的准确性。
最后使用 NLTK 的 Valence Aware Dictionary 和 sEntiment Reasoner (VADER)来分析处理好的推文数据,并根据每条推文中每个词的基本强度之和,生成一个介于 -1和1之间的情感得分。当应用经典的平滑方法并计算情绪分数的滚动平均值时,我们观察到21天滚动平均复合得分与铜现货价格之间近乎对称,成反比关系。
在海外市场,量化投资领域对另类数据的应用在过去两三年内已实现阶段性发展,另类数据如资讯情绪,产业链及供应链数据等已被广泛纳入量化策略。从2017年的《NLP for Sentiment Detection》开始,J.P.Morgan用超过25万份报告,搭建了其自己的情绪分类库,他们使用训练好的分类器来阅读基于英文的股票新闻,并使用情绪评分进行交易。2020年J.P.Morgan发布了一篇关于中国A股市场的量化研究报告:《News Sentiment in China – Using Chinascope NLP for Trade Timing A-Shares》。报告中,JPM对从China Scope(数库)中获取的每一篇中国大陆主流财经媒体及主要行业网站中的新闻进行提取基本信息、智能标签识别和情绪判断,再将生成的数据与相应的交易日进行匹配。ChinaScope(数库)抓取的信息源新闻更新频率(按照新闻站点抓取相邻两篇新闻更新时间差计算),集中分布在半个小时以内。新闻更新峰值主要集中在股市开盘及收盘前后。由于日度信号可以有多种方式转换为月度因子,在J.P.Morgan的测试中,他们对每个月每个股票的日度情绪计算平均值,这样使得新闻情绪因子在沪深300的覆盖度上大幅提升。由于新闻情绪因子的高换手率,所以J.P. Morgan还结合情绪因子与其他低换手的因子模型,综合进行回测。比如将ChinaScope情绪与P/B一起测试,夏普从之前的0.49上升到1.03。总体来说从中国大陆主流财经媒体及主要行业网站中获取的数据和生成的新闻情绪因子在A股中表现强劲,产生了很好的交易信号,这与J.P. Morgan从英语新闻测试中观察到的情绪信号表现以及量化策略表现基本一致。
(来源:公开发表媒体)
|