芷瀚动态
1. 拥挤带来的风险与机会 拥挤是一个很难定义的有趣话题。期货市场与股市都存在着拥挤的情境。 拥挤交易通常会导致资产价格超出基本面的上涨或下跌,也就是我们常说的泡沫。当泡沫破裂时,投资者又会争相抛出平仓。因此拥挤交易存在于泡沫从产生到破裂的整个周期。 在过热的市场中,拥挤交易带来的尾部风险(泡沫的破灭)尤其会在分析师们都一致看多或看空时将投资者杀个措手不及。策略的拥挤也可能导致投资者的预期回报减少(潜在阿尔法的衰减)。相对而言,后者更难被我们所检测到。 然而,拥挤也可能创造机会。例如,从资产定量研究的角度来看,我们经常将拥挤视为阿尔法的一个潜在来源。并且,当我们定义拥挤时,考虑参照是非常重要的,因为不同的策略的容量是不同的。市场流动性对于决定策略或市场的拥挤程度也很重要。 在激烈竞争的市场环境中,企图规避风险和获利的投资管理者,恐怕不得不在其策略的可行能力范围内,监控拥挤对其总体回报的影响。 2. 拥挤背后的原因 造成拥挤的最大因素是投资者倾向于做同样的事情。观察来看,投资者有一种倾向,即用相同的统计技术分析相同的数据集,从而最终得到大量重叠的头寸。他们会倾向于从不同的策略中追求回报高的那个策略,这加剧了拥挤效应。拥挤的另一个原因是投资经理们普遍在使用类似的标准的投资组合构建技术。消息面与市场情绪的扩大也可能导致投资者们在短时间内做出疯狂的相似行动。 3. 拥挤的识别 考虑到拥挤具有多方面的性质,我们在识别拥挤时,可能会侧重于不同维度的识别指标。 例如:如果你对拥挤可能带来的尾部风险感兴趣,那么持仓数据可能是重要的衡量标准,因为这些数据能让你了解面临类似风险的投资者的头寸。而如果你更关心拥挤对策略阿尔法的影响,相关性度量可能是拥挤对回报影响更直接的度量。(以股票的策略交易为例。如果我们观察到该策略的顶部篮子的股票之间或底部篮子的股票之间的日内相关性增加,那么这可能意味着有许多参与者都在遵循该策略,同时进行买卖。) 直观上最显而易见的拥挤特征就是成交量和价格的大幅提升(如:动量、流动性和乖离率指标)。除此之外,市场波动率增大(如:波动率指标)、量价变化趋势不匹配(如:量价相关性指标)等异常现象,也表明当前市场风险正在累积,可能存在交易拥挤。 4. 拥挤交易信号识别及策略构建的案例解读 下面我们将简单分享Kinlaw W , Kritzman M, Turkington D(2019)在论文《Crowded Trades: Implications for Sector Rotation and Factor Timing》中所探讨的有趣话题。该论文指出:如果我们能足够早的识别出泡沫,并且在泡沫破裂之前出场,那么是能够从泡沫中获利的。 核心内容:该论文使用“资产中心度(集中度)”和“相对价值”两个指标相结合来区分泡沫上升期出现的拥挤交易和泡沫破灭期出现的拥挤交易。证据表明,基于拥挤交易的行业轮动策略能够显著跑赢市场基准,并取得较优的风险回报比,且拥挤交易在因子择时中的应用也能带来显著的超额收益。需要指出的是,作者是用股市的数据进行这项研究的,但其背后的思想在期货市场也是值得借鉴的。 度量交易是否拥挤的方法: 首先,我们使用资产中心度(集中度)来衡量判断是否存在交易拥挤。 行业在某一时间的资产中心度C_i定义如下: 其中 注:N是资产的数量,wij是资产i在第j个特征向量中的权重。σ(E_j)2是第j个特征向量的方差,σ(A_i)2是第i个资产的方差。AR是第j个特征向量的吸收度,通常用来衡量风险集中度。直观上来讲,ARj度量了第j个特征向量对样本总方差的解释力度,而C_i则度量了资产i对总样本方差的影响力。我们可以这样理解,某一资产中心度越大,代表着该资产和其他资产关联度高,且自身的波动率也更大。 资产中心度指标本身可以用来测量拥挤交易的程度,据此来找到泡沫。如下图展示了1985至2017年美股11个行业的资产中心度。但是单凭此无法得知当 前处于泡沫的哪个阶段。为此,还需要其他指标的辅助。 我们用相对价值指标来区分泡沫的膨胀期和破灭期。 可以采用市净率PB来衡量资产的价值。分为3步:首先,获取各行业的市净率数据;其次,将各行业的PB除以过去n年的PB均值,得到归一化的市净率;最后,将上述结果除以横截面其他所有行业的均值,便得到了相对价值。 如果资产中心度高且相对价值指标高(过高估值),则认为该资产处在泡沫破灭期。如果资产中心度高且相对价值指标低(估值正常),则认为该资产处于泡沫膨胀期。 我们可以用历史数据的回测来看看这两个指标的效果。在过去30年里,我们熟知的两个大泡沫分别是1998年-2000年的科技股泡沫和2008年的次贷危机。 上面两张图分别展示了这两个泡沫时期的资产价格、资产中心度(集中度)及相对价值指标的走势。可以看出,资产中心度(集中度)指标可以定位泡沫开始膨胀的时间,但之后该指标一直上升,无法预知泡沫的变化阶段。而相对价值指标则可以定位泡沫开始破灭的时间。显然,上述两个指标的结合要比单个指标的使用更能准确的区分泡沫的各个阶段。 由于基本面、政策、资金乃至于市场情绪的影响,不同行业在某些时间段会受到市场资金的集中热捧,并由此产生泡沫。接下来,作者基于以上两个指标,区分泡沫膨胀期和泡沫破灭期。并基于不同阶段的行业,构建了行业轮动交易策略。除了在行业轮动中的应用,作者还讨论了拥挤交易在因子择时(包括规模、价值、质量及低波动等因子)中的应用。 关于本文的参考说明如下,感兴趣的读者可以进一步了解。 (关于行业轮动策略与因子择时策略的具体细节,我们并没有仔细展开,感兴趣的朋友可以进一步参考公众号“量化投资与机器学习”的一篇精彩文章:《拥挤交易:行业轮动与因子择时策略的构建》:https://mp.weixin.qq.com/s/EO7uQic_wbH2WOI7x5R8aA。该文章对上述这篇论文的主要内容做了详细阐释,也是本文分享这篇论文案例的主要来源。) (值得一提的是华宝证券研究创新部也延用这篇论文的方法,在国内的股市上验证了该方法的有效性,并做了进一步延伸测试。请见:《基于“集中度”的拥挤交易信号识别及策略构建》:https://xueqiu.com/2598256636/158317389。) (在交易拥挤效应的认知介绍上,本文还借鉴了第三方平台的两篇文章,分别是:《交易的拥挤效应》:https://zhuanlan.zhihu.com/p/73708544和《如何有效识别拥挤交易风险》:https://zhuanlan.zhihu.com/p/45563432。拥挤度指标的设定上可以参考华泰金工的报告《拥挤度指标在行业配置中的应用》:http://finance.sina.com.cn/stock/stockzmt/2020-02-11/doc-iimxyqvz1928427.shtml。在此对相关的分享者一并谢过。)
遗传算法,是计算数学中用于解决最优化的搜索算法,是进化算法的一种。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的,这些现象包括遗传、突变、自然选择以及杂交等。 遗传算法通常实现方式为一种计算机模拟。对于一个最优化问题,一定数量的候选解(称为个体)可抽象表示为染色体,使种群向更好的解进化。传统上,解用二进制表示(即0和1的串),但也可以用其他表示方法。进化从完全随机个体的种群开始,之后一代一代发生。在每一代中评价整个种群的适应度,从当前种群中随机地选择多个个体(基于它们的适应度),通过自然选择和突变产生新的生命种群,该种群在算法的下一次迭代中成为当前种群。 遗传算法中每一条染色体,对应着遗传算法的一个解决方案,一般我们用适应性函数(fitness function)来衡量这个解决方案的优劣。所以从一个基因组到其解的适应度形成一个映射。可以把遗传算法的过程看作是一个在多元函数里面求最优解的过程。 可以这样想象,这个多维曲面里面有数不清的“山峰”,而这些山峰所对应的就是局部最优解。而其中也会有一个“山峰”的海拔最高的,那么这个就是全局最优解。而遗传算法的任务就是尽量爬到最高峰,而不是陷落在一些小山峰。 首先寻找一种对问题潜在解进行“数字化”编码的方案。(建立表现型和基因型的映射关系)然后用随机数初始化一个种群(那么第一批爬山的袋鼠就被随意地分散在山脉上),种群里面的个体就是这些数字化的编码。接下来,通过适当的解码过程之后(得到袋鼠的位置坐标),用适应性函数对每一个基因个体作一次适应度评估(袋鼠爬得越高,越是受我们的喜爱,所以适应度相应越高)。用选择函数按照某种规定择优选择(我们要每隔一段时间,在山上射杀一些所在海拔较低的袋鼠,以保证袋鼠总体数目持平。)。让个体基因变异(让袋鼠随机地跳一跳)。然后产生子代(希望存活下来的袋鼠是多产的,并在那里生儿育女)。遗传算法并不保证你能获得问题的最优解,但是使用遗传算法的最大优点在于你不必去了解和操心如何去“找”最优解。(你不必去指导袋鼠向那边跳,跳多远。)而只要简单的“否定”一些表现不好的个体就行了。(把那些总是爱走下坡路的袋鼠射杀,这就是遗传算法的精粹) 所以我们总结出遗传算法的一般步骤: 开始循环直至找到满意的解。 1.评估每条染色体所对应个体的适应度。 2.遵照适应度越高,选择概率越大的原则,从种群中选择两个个体作为父方和母方。 3.抽取父母双方的染色体,进行交叉,产生子代。 4.对子代的染色体进行变异。 5.重复2,3,4步骤,直到新种群的产生。 结束循环 遗传算法的有趣应用很多,诸如寻路问题,8数码问题,囚犯困境,动作控制,找圆心问题(在一个不规则的多边形中,寻找一个包含在该多边形内的最大圆圈的圆心),TSP问题,生产调度问题,人工生命模拟等。下面以策略回测参数优化应用为例简单讲解 从应用的角度来讲,与遗传算法(或者其他任何智能优化算法)对应的,叫做穷举算法(又名暴力求解,Brute-force Search),我们以vn.py中的经典CTA策略(AtrRsiStrategy)为例简单讲解效果 atr_length参数(默认22):从10到40,步进1,总样本32 atr_ma_length参数(默认10):从4到20,步进2,总样本9 rsi_length参数(默认5):从3到20,步进1,总样本18 如果用穷举算法的话,我们一共执行 32 x 9 x 18 = 5184 次回测计算(三个参数所有样本的排列组合数量),即时在一台8核机器上也要跑648轮,相当长的一段时间了。 我们知道,随着策略的参数变化,最终的优化结果(又称目标函数,比如Sharpe Ratio)的变化并不是完全随机的,而是存在着一定的相关性,比如当atr_length处于18-25范围内的优化结果可能都比较好(先不考虑另外两个参数),如果到38上方可能就全都是亏钱的情况。 以布林带策略(BollStrategy)的参数优化为例: 使用的机器是一台阿里云的2核4G云服务器(CPU主频2.5G) 使用3年的股指连续合约的1分钟线数据,一共有三个参数参与优化,总样本空间韦13824个 多进程穷举算法的总优化时间为357分钟(双核跑满) 单进程遗传算法的总优化时间为27分钟(单核跑满) 由此可以看出,遗传算法相比穷举算法大大缩短了时间,提高了效率。 本文案例测试部分引用知乎vnpy专栏下博主【用python的交易员】的原创文章,原文链接:https://zhuanlan.zhihu.com/p/66403128
1.疫情的流行趋势与地区政策 美洲: 美国作为目前新增确诊病例数最多的国家,当前主要流行的依旧是具有高感染力的delta毒株。九月的开学季致使儿童到家庭的传播激增,从而导致美国在四季度进入新冠感染的新高峰。政府就目前传播情况拟推出第三针加强针计划,但该计划尚未被卫生部证实。 欧洲: 英国疫情在16岁以上人口接种率81%情况下,9月依然开始反复。 东南亚: 疫情发展速度迅猛,目前印尼,马来,菲律宾,越南、泰国五国加起来每百万人日单增感染数约为英国的两倍。加之东南亚普遍疫苗接种率偏低,当地政府受经济压力影响计划解除疫情封锁,改为地区性限制。尽管当前政府导向依旧以提高疫苗接种率为主,但有接受疫情常态化的趋势,为东来亚的疫情发展带来巨大的风险。 2.病毒变化:新型变种MU 新型变种MU 全球感染率0.1%,致死率暂未有详细数据公布。但该新型变种感染力更强,且传播速度和广度都不低于delta变种。目前全美都有感染病例,东京大学的研究也证实现有各种疫苗均对Mu变种无效。MU病毒突变能躲避之前感染或接种疫苗带来的免疫力,或许成为新冠疫情的加剧的又一推动力。 3.主流国家后疫情时代货币政策变化趋势 - 美国:当前失业率5.2%,非农就业新增23.5万人,创2月以来新低,通胀水平5.3%,核心CPI4%。综合来看,受疫情扰动持续影响,非农就业数据远不及预期,加上通胀水平逐渐见顶,美缩减购债规模的速度大概率在后续会放缓,但缩减购债的主旋律保持不变。 - 欧洲:欧盟上调对经济增速预期由原来的4.8%提升到5%,通胀预期由原来的1.9%上调到2.2%,同时早前宣布缩减PEPP购债速度。综合来看,对疫情下是经济恢复预期向好,加上上调通胀传递出的稳物价信号,在22年3月以前停止PEPP的可能性很大,但紧缩的节奏以缓步加码为主。 - 中国:8月公布社融规模305万亿,同比增10.3%;同月M1同比增速4.2%,创19个月来新低;短期流动性指标DR007为2.2826%。总结来看,疫情后国内经济活动有回暖信号,短期流动性宽裕,但消费及工业增加值均不及预期,其中黑色金属冶炼,电力热力的生产和供应,芯片短缺以及限电产冲击行业累积拖累工业增加值0.44%。7月降准后政策导向没有太大变化,后市宏观预期以结构性宽信用为主,叠加全球疫情4季度末见好转可能性大,市场总体货币量不会增加太多,国内4季度预期依旧降准大于降息。 4.新冠疫情对主要商品产区与贸易的影响 受疫情影响,港口吞吐量与国际贸易通道整体受阻,大宗CIF价在航运巨头冻结运价的情况下依旧大幅上升。细分商品板块来看: 马来西亚:受疫情影响,马来棕榈采摘工人明显短缺,马来政府预取消对外国劳工的招聘限制,但因劳动力短缺导致的马棕产量的大幅缩减在短时间内依旧难以恢复。 泰国:目前泰国胶水产区进入增产期,胶水放量,四季度以供应宽松为主。但泰国疫情仍未得到有效控制,加上泰胶种植区、加工密集区与疫情区交叠,天然胶供应可能不及预期。 中国:受东南亚地区疫情的影响,棉纱的进口需求难见起色,同比国内消费依旧萎靡,往年的金九银十现象很难重现。 5.总结 当前新冠疫苗的有效性依旧存疑,加上抗疫苗毒株的传播,全球疫情仍将持续一段时间。在后疫情时代,美联储退出量宽脚步放缓,美元指数与金价之间出现博弈;国内方面以结构性宽松的货币政策为主,黑色系依旧是政策关注的主体。受东南亚疫情恶化影响,需关注棕榈油、天然橡胶、棉花等软商品的供需。
一、页岩油简介 页岩油是一种非常规石油。制备方法是加热分解油页岩,这个过程把在岩石中的有机物质转变为合成石油和天然气合成原料。所得的油状物,可以立即作为燃料或用于提供炼油厂。原料的性质可以通过加入氢和除去杂质(如硫和氮)等来改变,其制成的产品可用于和原油相同的目的。 页岩油是含有低渗透性的含石油地层中的轻质原油,严格来说属于致密油(tight oil)的一种。在美国能源信息署(EIA)的报告中,基本将页岩油和致密油作为同样的概念使用。 (图源: U.S. Environmental Protection Agency) 二、页岩油的发展 美国页岩油产量占全球的 90% 左右。根据 EIA,2010 年后由于技术改进,美国页岩油产量大幅增长,2016 年美国页岩油产量为 424 万桶/日,是全球最主要的页岩油开采国家。除了美国以外,2016 年加拿大页岩油产量在 40 万桶/日以下,阿根廷仍处于商业页岩油生产的早期阶段,自 2015 年尝试进行页岩油开采,2016 年页岩油产量约为 3万桶/日,而拥有大量页岩油技术可采资源的俄罗斯、墨西哥、哥伦比亚、澳大利亚和其他国家在 2015 年尚未进行页岩油的商业生产。 (图源:U.S. EnergyInformationAdministration) 页岩油开采是美国实现能源独立、保障能源安全的重要方式。根据 BP 能源统计数据,2008 年前美国原油对外依存度不断走高,2005-2007 年间,美国原油对外依存度保持在 67%左右的高位,但随后由于页岩油的大规模开发,美国国内原油产量大幅增加,至 2017 年达到 1147 万桶/日,近 10 年复合增速为 6.5%,而美国原油消费量同期复合增速为-0.7%,在两方面作用下,2017 年美国原油对外依存度已下降至 34.4%,较 2007年下降 32.8 个百分点。为遏制美国页岩油行业的发展,中东石油生产国曾通过扩大生产来降低国际原油价格,一度使部分实力不够强劲的页原油公司破产,但降低原油价格并非长久之计,迫于OPCE各国国内经济需要,中东石油产量逐渐恢复正常,原油价格也逐渐回升,美国大型的页岩油公至此之后得以蓬勃发展,产量提升显著。 2007-2017 年间,美国页岩油产量增加了 427 万桶/日,而同期美国原油总产量增加了 429 万桶/日,美国页岩油几乎贡献了美国国内原油产量的全部增量。 (图源:U.S. EnergyInformationAdministration) 2020年3月起,油价暴跌重创页岩油产业,美国原油产量大幅削减,较疫情前水平一度下降25%; 随着疫苗问世,全球经济复苏,航空等行业对原油的需求提升,原油价格回升。 (图源:文化财经) 尽管7、8月份德尔塔变异毒株在全球蔓延,且美国日均新增感染人数屡创2021年新高,美国大有将新冠疫情作季节性流感处理的趋势,人民群众日常生活未受较大影响,美国原油产量及产能分别提升明显。如下图所示,7月份平均产量为786.5万桶/天,8月份平均产量为790.7万桶/天,每天的产量提升4.2万桶。 (图源:U.S. EnergyInformationAdministration) 此数据来源于EIA,与路透社报道的页岩油的8月新增产量一致,可见美国新增原油产量几乎全部来自于页岩油。2007年美国的页岩油平均产量为40万桶/天,2014年达到了400万桶/天,如今达到了790.7万桶/天,较之2007年提升了近20倍。 (图源:Reuters) 三、页岩油企业现状 投资者要求回报,生产商目标由“扩张”转向“盈利” 随着2020年多家页岩油企业因杠杆过高而宣告破产,页岩油行业过往高负债、低回报的发展模式越来越不被投资者接受。资本约束、偿还债务、正向自由现金流和提高股东回报成为页岩油企业经营优先事项。页岩油企业的资本支出占经营性现金流比例从2015-2016年间的160%大幅下降至62%。 现金流情况已明显改善,资本支出仍较谨慎 预计2021年二季度自由现金流可恢复至疫情前水平。目前油价已超过疫情前水平,高于盈亏平衡点,页岩油企业资本支出随之回升,但仍未恢复至疫情前水平。以雪佛龙为例,目前其自由现金流为两年来最高,并以每年2-3亿美元速度回购股票,计划继续控制上游支出,下半年将在成本较低的二叠纪增加钻机和钻探人员。 大型页岩油企业抓住机会并购重组,集中效应正在兑现 美国先锋自然资源公司收购欧芹能源公司和双点能源公司,康菲石油收购康乔,雪佛龙收购来宝能源,德文能源收购WPX能源等。相较小公司,这些规模较大的公司拥有更强的风险承受能力,更严格的投资纪律,通过分散成本、资源累积等来度过亏损期,并快速调整生产计划,行业集中效应正兑现。 四、环保政策对页岩油行业的影响 从美国政策看,清洁能源政策限制页岩油行业扩张。 拜登总统上任以来,多次提出加大清洁能源投资,具体措施包括收紧联邦土地上新的石油和天然气钻探配额,增加甲烷排放税收标准,并扩大清洁能源汽车的生产规模等。短期看这些限制措施不会给页岩油行业造成较大的影响,因为大部分页岩油企业都有提前囤好的可钻探量,现有许可的油井供应还可支持两年。但政策引导将长期遏制行业发展上限。 从世界范围看,“碳中和、碳达峰”大势所趋。 根据《巴黎协定》,全球要在2065-2070年左右实现碳中和,世界能源结构转型势在必行,各能源巨头均做出能源转型的战略安排。如碧辟公司在其2020年的新战略中提出在2030年前,对低碳行业投资提升十倍,其运营产生的碳排放将下降30-35%;壳牌公司提出在2030年前,其运营产生的碳排放将下降20%,至2050年下降100%;必和必拓出售原油业务。 五、展望 全球范围看,原油产能总体供过于求。当前原油市场主要依靠OPEC+减产协议控制供应,稳定价格。预期年内,美国页岩油企业仍偏谨慎,部分低成本地区开采力度或加大,有望推动美国产量回升,但增速较低不足以逆转全球供给偏紧格局。 国际油价如低于80美元/桶,随着能源转型和页岩油企业经营模式转变,美国页岩油供给弹性将持续下降,难现2016-2018年产量高增速场景,也很难作为OPEC+的供给决策重点考虑变量,对油价的趋势性影响将渐弱。 当国际油价高于约50美元/桶盈亏平衡点时,页岩油企业就会主动扩大生产。当国际油价达80美元/桶以上时,上游投资意愿将明显回升,促使页岩油产量回归高位,届时若OPEC+和非OPEC利益难以平衡,产量难以有效管控,将反噬高油价。 短期来看美国页岩油产量仍难对油价构成重大影响,中长期页岩油增产对市场冲击也相对有限,不过美国页岩油的发展仍将限制高油价的出现。
从交易的角度来看,期货品种的定价取决于交易所的供需动态,现实中各品种的交易价格受到无数因素的影响,其中许多因素很难同时衡量,想要开发一个预测模型是一个非常具有挑战性的事情。然而,以新闻形式有关的短期机会还是存在的。以铜为例,与几乎所有品种一样,铜价对重大消息几乎立即作出反应。基于NLP的交易模型可以利用这些短期价格波动,将公告解析为tokens,评估潜在的情绪,然后在预期价格波动之前,或者在波动期间持仓。 现货价格对市场事件的反应最为敏感,在获取铜每日现货价格数据后,使用一个名为GetOldTweets3(GOT3)的库提取历史Twitter数据。GOT3允许用户访问大量的Twitter数据历史。给出一个属于财经新闻媒体的 Twitter用户列表和一些相关的关键字,可以定义想要获取数据的搜索参数。在获得与铜价相关的历史Twitter文本数据后,对这些文本数据进行处理,以便为主题和情感模型提供可解释性。 将Tweets中通常包含的句柄标签、标签和文章链接等无关信息删除,之后通过检查tweets的组成来对Twitter数据进行一些基本分析,比如单个tweet的长度(每条tweet的字数)、字符数等。另外我们可以通过检查N-Grams来尝试理解在我们的tweets 数据中词序的重要性,通过生成的N-Grams图,一个基于NLP的预测模型将从我们的N-Gram特征中学到更多的东西。之后使用Lemmatizer WordNetLemmatizer来规范我们的数据中的单词,WordNetLemmatizer利用了词性(POS)标注,可以帮助提高我们的主题模型的准确性。 最后使用 NLTK 的 Valence Aware Dictionary 和 sEntiment Reasoner (VADER)来分析处理好的推文数据,并根据每条推文中每个词的基本强度之和,生成一个介于 -1和1之间的情感得分。当应用经典的平滑方法并计算情绪分数的滚动平均值时,我们观察到21天滚动平均复合得分与铜现货价格之间近乎对称,成反比关系。 在海外市场,量化投资领域对另类数据的应用在过去两三年内已实现阶段性发展,另类数据如资讯情绪,产业链及供应链数据等已被广泛纳入量化策略。从2017年的《NLP for Sentiment Detection》开始,J.P.Morgan用超过25万份报告,搭建了其自己的情绪分类库,他们使用训练好的分类器来阅读基于英文的股票新闻,并使用情绪评分进行交易。2020年J.P.Morgan发布了一篇关于中国A股市场的量化研究报告:《News Sentiment in China – Using Chinascope NLP for Trade Timing A-Shares》。报告中,JPM对从China Scope(数库)中获取的每一篇中国大陆主流财经媒体及主要行业网站中的新闻进行提取基本信息、智能标签识别和情绪判断,再将生成的数据与相应的交易日进行匹配。ChinaScope(数库)抓取的信息源新闻更新频率(按照新闻站点抓取相邻两篇新闻更新时间差计算),集中分布在半个小时以内。新闻更新峰值主要集中在股市开盘及收盘前后。由于日度信号可以有多种方式转换为月度因子,在J.P.Morgan的测试中,他们对每个月每个股票的日度情绪计算平均值,这样使得新闻情绪因子在沪深300的覆盖度上大幅提升。由于新闻情绪因子的高换手率,所以J.P. Morgan还结合情绪因子与其他低换手的因子模型,综合进行回测。比如将ChinaScope情绪与P/B一起测试,夏普从之前的0.49上升到1.03。总体来说从中国大陆主流财经媒体及主要行业网站中获取的数据和生成的新闻情绪因子在A股中表现强劲,产生了很好的交易信号,这与J.P. Morgan从英语新闻测试中观察到的情绪信号表现以及量化策略表现基本一致。 (来源:公开发表媒体)