投资逻辑模型介绍及原理解析(2023年10月21日)

+
目录
1.模型介绍及原理解读
?大语言模型与模型演化历程
#
?模型表现优异背后的逻辑 #
2.提示安装工程介绍及使用手册
#
?提示公式
?提示安装工程分类
?思维链提示(Chain-of-) #
3.因子挖掘实操
#
?周频变异系数因子建立与检测疗效.
#
?低频买卖盘力量因子建立与检测疗效 #
?代码输出检测:因子检测与组合优化 #
4.小结
摘要 #
■投资逻辑
#
模型介绍及原理解读
#
GPT(Pre-)是一种大语言模型(LLM),才能学习大量文本数据,并推测出文本中字词之间的关系。才能进行连续对话,综合上下文内容进行交流,能完成翻译、撰写电邮、代码等任务。该模型相较于传统LSTM模型的改进之处在于其引用了模型,对键入数据的不同部份给与不同权重。 #
之所以还能荣获这么高的智能水平,参数人数提高所带给的涌现现象(Law)和加入RLHF(人类反馈的加强学习)所带给的对于人类喜好理解的增强起到了重要作用。RLHF训练共分为3步,首先聘任40名标明员对指令进行标明,对模型进行微调。之后对模型的不同输出结果进行排序,使其更符合人类预期,并运用排序结果训练一个打分模型(Model)。最终取样新的指令作为键入数据,按照打分模型逐步优化模型的输出结果。结合打分模型训练,得到最终的模型。
#
提示安装工程介绍及使用手册 #
提示安装工程()主要适于开发和优化语言模型中的提示,有效地将适于各式应用和研究主题。把握并应用好提示安装工程的技能,除了就能增加使用人工智能系统的精确性和效率,也才能增加费用并提高使用感受。最基本的提示公式包括角色、任务及指令三个部份,其主要目的在于使模型对于所须要的回答类别和回答方法有一定的对准性。提示的内容越详细、精确,模型还能给出的回答更能符合我们的预期,以便更方便得到我们还要的结果。除标准的提示公式外,还有多种针对不同任务类别的提示方法。一种奇特的提示方法为思维链提示(Chain-of-),其主要思路为将一个复杂问题拆分成多个方法,引导模型进一步探讨并进行纠偏,最终得到还要的结果。
因子挖掘实操 #
在量化研究领域同样拥有广泛的使用前景,我们以最常见的因子挖掘作为检测场景,视察模型经过一定的提示后,能够给出符合需求的结果。在中高频领域,给出了价和量的变异系数因子,我们运用5日滚动数据建立因子并进行周度调仓检测。发觉因子IC指标表现较差,但多头组超额利润较低,无法成功建立投资策略。 #
另外,我们令模型尝试运用低频数据建立出奇特因子,并限定其数据使用范围为委托价和委托量。模型经过一定指导后给出了买卖盘力量因子,经过检测发觉买卖盘力量差距因子在日频上表现优异,多头年化超额利润率达到17.29%,但因子衰减速率较快。为符合交易实际,我们针对买盘和抛压力量因子分别降至周频进行检测,发觉似乎因子整体多空单调性通常,但多头组合表现尚可,多头年化超额利润率分别为9.77%和10.20%。最终,我们运用相对表现较差的抛压力量因子建立中证1000指数提升策略。发觉在单边千分之二的手续费率下,策略的年化超额利润率为7.17%,信息百分比为0.57。 #
据悉我们对于代码能力进行检测,发觉针对常用的量化研究所需框架、函数等能较精确的给出结果,但使用时还要留意代码细节,确保其符合实际需求。对模型所给代码进行微调可以急剧增强研究效率。 #
风险提示:
1、模型具备一定的随机性,在部份状况下或许回答错误,不符合用户需求与认知,并影响到用户分辨。
#
2、以上因子检测结果通过历史数据统计、建模和推算完成,在新政、市场环境发生变化时模型存在失效的风险。 #
3、策略根据一定的假定通过历史数据回测得到,当交易费用增加或其他条件改变时,或许造成策略利润增长并且出现巨亏。
#
正文
一、模型介绍及原理解读 #
在前期系列报告中,我们运用低频数据早已建立出了一系列表现优异的跟庄因子。本篇报告作为Alpha鹈鹕系列的第五篇,同时只是量化研究系列的第一篇,将使用探求其在量化研究领域的表现。经过检测,发觉模型经过一定的引导才能挖掘出具备一定创新性的低频因子,最终得到了买卖盘力量因子。在将因子降至周频后,成功建立出了才能满足机构投资者要求的中证1000指数提升策略。 #
1.1大语言模型与模型演化历程 #
(真名:ChatPre-)是由人工智能研究试验室在今年11月30日发布的一款AI聊天程序,一经公布便在全球开启了一波风潮,短短2个月内用户数已过亿。该模型是一款人工智能技术驱动的自然语言处理工具,使用的是GPT-3.5构架的千亿参数大语言,还能进行连续对话、综合上下文内容进行交流的自然语言处理(NLP)模型,并通过加强学习进行训练,继而理解人类的语言来进行对话,并且能完成编写电邮、视频脚本、文案、翻译、代码,写论文等任务。只是至今为止AI大模型最接近商用落地的成果,输出内容十分接近人类的常识、认知、需求和价值观。这项新的科技革命正在持续回暖,所覆盖的范围在新媒体、编程、教育、医疗、广告、电商平台等各行各业。因此针对二级市场投资研究领域,模型能带来如何的改革,相关研究较少,本文将从量化研究领域为读者带给该模型的使用方式和疗效演示。
GPT(Pre-)作为一种大语言模型(LLM),才能学习大量文本数据,并推测出文本中字词之间的关系。随着过去几年估算能力的不断发展,键入数据集和参数空间(space)的不断提高,LLM的能力也在不断提高。 #
语言模型的一项基本任务是预测一句话中的单个词,或依据上文推论下文。传统的LSTM(LongShort-Term)模型在处理这类问题时存在两大缺陷: #
2023年论文《isAllYouNeed》中的引进有效解决了上述问题。它通过跟踪序列数据中的关系来学习上下文并学习句子的含意,运用自留意力模式(Self-)予以键入数据的不同部份赋于不同权重,这一革新让LLM拥有了更大的成长空间,同时也就能处理更大的数据集。 #
2023年6月公布的GPT-1模型就早已开始使用模型,该模型包括了编码器和解码器结构,参数数目大概为1.17亿个。2023年2月GPT-2模型的参数数目早已达到15亿,在自然语言处理领域取得了十分明显的进展。GPT-3模型的参数人数高达1750亿,成为那时最先进的自然语言处理领域的最先进模型。2023年3月公布的GPT-4模型,将传统的文本键入拓展到了图片,同时它的理解能力也得到了明显提高,在处理复杂问题时表现出了更高的精确性和洞察力。
1.2模型表现优异背后的逻辑 #
拥有这么高度的智能水平背后有着多重诱因的共同作用,包括随着参数人数提高带给的涌现现象(law)、加入RLHF(人类反馈的加强学习)所带给的对于人类喜好理解的提高等都给模型提供了较强的增强作用。
#
RLHF是一种适于提高语言模型功耗的技术,运用关系网路和潜在因子来提高模型的表示能力和泛化能力。这些方法可以帮助其更好地理解和学习文本中的句法关系和结构,生成愈发精确和流畅的文本。其训练基本方法如下: #
在这些训练方式下,AI逐渐具有了一些“常识”。自GPT-2开始,只需给模型投喂一些样例,才能使其举一反三给出还要的结果。基本的训练方式分类包括:
#
然而,因为很大的参数目和大量的预训练,拥有极强的学习能力,可以在不同的任务中做到足够强悍的表现。
#
二、提示安装工程介绍及使用手册 #
大语言模型还能处理的任务十分广泛,人类与其交流的灵活度和自由度也达到了空前的高度。因此怎样正确与其对话、进行合适的提示对于获取最终还要的结果至关重要。提示安装工程()作为一门新兴学科,主要适于开发和优化语言模型中的提示,有效地将适于各类应用和研究主题。把握并应用好提示安装工程的技能,除了才能提升使用人工智能系统的精确性和效率,也才能增加费用并提高使用感受。对于研究人员而言,还有助于更好地理解模型的能力和局限性,通过交互和提示,格外便于精确地使给出我们还要的结果。 #
2.1提示公式 #
提示安装工程的核心是通过设计和提供有效提示或起始动词,指导语言模型的文本生成。通常的提示安装工程一般由以下3个元素组成:
提示公式通常方式为:“作为一个【角色】,根据某些指示生成【任务】:【指令】”。如希望充当客服的角色完成日常的顾客答疑等场景需求,则提示公式可以为: #
限制提示方法的一个重要作用在于,这些方法才能向模型宣扬一种“角色”,使得起到“约束行为”的作用,因而能使模型根据人类的期望完成回答。 #
据悉,我们可以为模型设置更详细化的角色以满足我们的要求。如我们还要模型能给出一个足够专业的回答时,可以针对【角色】部分稍加修饰,以使模型的回复更具针对性。针对【指令】部分,我们也可以建立、丰富提示信息,逐步限制模型的回答范围,以便更方便得到我们还要的结果。如: #
借此为基础,我们可以逐步限定因子类型、构建方法和使用数据,最终得到一个符合我们基本还要的因子。在右图样例中,我们将提示的【指令部份】进行拓展,针对其回答中或许存在的误差进行限制,因而大大提高了因子的有效性。
可以看出,经过详尽的、严格的限制后,模型早已能给出一些基本符合要求的因子。在样例2中,模型除了正确使用了逐项成交数据中的数组,且依照提示中的限制条件,给出了使用估算均值的方式将因子进行降频的操作。样例3中,因子的建立模式可以显著看出模型参考了一些现有文献和研究结果,在其已有知识的基础上进行一定变型、组合得到了新的跟庄因子。
#
2.2提示安装工程分类 #
除标准化的提示安装工程此外,我们可以使用多种类别的提示方法,使模型完成不同类别任务,满足用户的各种需求。
针对其中感情剖析类别,我们截取了两段不同的新闻热点,以供模型辨识。发觉因为血管网路模型原本具备一定的随机性,当键入文本没有非常明晰的感情词时,模型给出的结果会有出一定的不确定性。但整体而言,仍能保证一定的精确率。
#
2.3思维链提示(Chain-of-) #
Weietal(2022)发觉运用思维链(Chainof)才能极大提高大语言模型在处理复杂逻辑问题上的表现。通过简略的思维链提示的方法能够大大提高一些通用任务、符号化的推理任务和算数任务的精确率。这些提示方法通常选用分方法探讨的方法(thinkstepbystep)进行,引导模型将后边推论过程呈现下来。通常而言,思维链提示更多适于英语推理增强的演示,此处我们提供样例说明思维链提示的方法也能让模型对于量化研究领域提高其回答疗效。
#
我们晓得,IC指标(秩相关系数)作为一种因子评价方法被广泛使用,仍存在一些显著的漏洞。对于两个相似IC值得因子,若其因子值与利润率的相关性在不同区间范围内有着显著的差别,或许会造成使用该因子在投资时实际疗效会大打折扣。如右图所示,我们给出了两个因子值排序和对预收益率的一一对应关系。两因子的IC值分别为:0.22和0.25。因此由图可知,A因子即使IC值相对较低,但多头表现较差。而B因子虽IC值相对较高但多头组却表现最差。这一现象会促使按照因子进行实际投资时得到与IC指标迥然相反的疗效。 #
通常而言,依照分组赋于IC不同权重,多头组权重更高,求得加权IC是一个比较直接的解决方案。接下去我们运用思维链提示的方法引导模型探讨,判定其能够精确意识到这一问题。并依据此问题得出改进解决方案。 #
我们首先尝试了直接打听,有何种方法可以改进IC指标,发觉其回答在不经适当引导的状况下很难给出我们探讨的问题和改进视角。
可以看出,经过我们的初步提示,早已认识到我们关注的IC指标存在的问题并及时给出了一个解决方案:每组内分别估算IC值,再将所有组内的相关系数求均值得到横截面IC值。但其逻辑思维能力仍有一定漏洞2023变异系数的计算公式,我们直接强调后,成功得到了想要的解决方法:估算加权平均IC来改进IC指标,以反映不同组对整体IC值的贡献程度。但因为其对于股票市场A股的加仓限制或许认识不足,我们逐步提示后,最终给出了应该给加仓组赋于更高权重的回答。但还要留意的是,被训练时接受了海量的文本和数据,其处理实际问题时仍存在一些“生搬硬套”的现象还要不断提示纠正。 #
三、因子挖掘实操
#
由以上案例可以说明,在量化研究领域诠释出了一定的实用价值。我们此处以常见的因子挖掘作为研究方向,视察经过一定程度的提示(),模型是否能给出符合需求的结果。
3.1周频变异系数因子建立与检测结果
首先我们在中高频上维度上对的因子挖掘能力进行检测。此处考虑基于量价数据让模型给出一些新颖、原创的因子。
该因子在午盘价和成交量两个领域分别估算其变异系数,并相加得到一个综合的跟庄因子。拿来考量股票的波动性和流动性。之外,我们考虑对因子进行适当变型,将二者变异系数除数,得到新的变异系数因子()。借助日频的量价数据,取过去5天的售价和成交量变异系数进行估算,对该因子进行完善: #
我们同样在2023年至今年8月的区间范围内,中证1000指数成分股上进行检测。以周度速率进行调仓,每天初开盘价作为卖出报价,每天最后一个交易日午盘价作为买入报价,因子的IC指标如下。初步来看,四个因子IC的T值均小于2,IC均值从2.79%至5.36%不等。可以说明售价和成交量的波动率均为越低越好,基本符合低波动异象的状况。
我们按照非常位组合建立出了因子的多空组合净值,此处展示了多空净值曲线和几个关键指标。 #
从净值曲线可以看出,除因子外,其余因子的多空曲线行情较为平缓。不过对于我们更关注的多头组合年化超额利润率,发觉似乎因子的IC指标整体表现较差,但多头表现颇佳,因子单调性整体不够显著。其中较高的VLI因子,多头年化超额利润率为2.75%,多头东芝百分比为0.17。
3.2低频买卖盘力量因子建立与检测结果 #
运用低频数据建立跟庄因子作为现今市场关注度较高的一个领域,拥挤度相对较低。且运用这些数据所能挖掘到的因子常常与传统因子有一定的独立性。我们此处限定在低频领域进行挖掘,使用思维链提示的方法,探究模型的创新性和逻辑性水平。此处首先限定因子的数据使用范围,即结合低频数据里独有的委托量和委托价进行完善,并限制因子应当有一定的原创性,在经过一定程度的引导后,得到了买卖盘力量因子。 #
由此,我们依照模型所给出的因子重构方法,运用已有的A股tick数据进行完善并进行因子检测。使用与前期系列报告中相同的处理方法,对每只股票一天的3秒快照数据分别求出前十档的卖出委托价、买入委托量和买入委托价、卖出委托量,最终每位交易日求出均值得到买盘力量、卖盘力量和买卖盘力量差距因子。此处买卖盘力量差距因子我们考虑到逻辑合理智,还要做标准化以做到横截面可比,所以建立过程中我们对因子进行了修正。 #
我们首先对因子进行了日频调仓的检测,检测时间范围为2023年1月-今年8月,股票范围为所有中证1000指数成分股。以隔日开盘价作为卖出报价,检测结果如下: #
可以看出,在日频的调仓速率下,表现相对较差的是抛压力量因子()和买卖盘力量差距因子(),二者的T统计量均小于2,IC均值也在1%以上。我们按照非常位组合建立出了因子的多空净值,此处展示了多空净值曲线和一些关键指标。
从多空组合的表现来看,尽管买盘力量因子的IC值不如抛压力量因子明显,但其多空组合差距更显著,多头还有11.17%的年化超额利润,多空力量因子因为其综合考虑了两个方向的因子并考量了买卖盘力量缺失的特征,相较于单一方向的因子有显著提升,多空东芝百分比为4.51,多头年化超额利润率为17.29%。可以说明,运用所给模式,欧盘tick数据中的委托价和委托量所建立的买盘力量、卖盘力量才能有效预测隔日的股票横截面回报率差别。
考虑到日频调仓的费用偏高,对于实际投资的赢利水平影响较大,无法荣获实际回报。我们此处逐步将因子降为周频检测其疗效,在中证1000指数成分股上,每天第一个交易日的开盘价成交进行检测。因为买卖盘力量差距因子()衰减速渡过快,在第二天基本早已失效,我们此处仅使用抛压力量和抛压力量因子进行降频检测,其检测疗效如下:
两个因子在降为周频后,尽管多空单调性通常,但多头组合表现尚可。多头年化超额利润率分别为9.77%和10.20%,多头东芝百分比分别为0.48和0.49。说明使用所给模式建立买盘力量和抛压力量因子表现具备一定的持续性。 #
但因为两因子的相关性较高,我们不再考虑做因子合成,直接使用表现较差的抛压力量因子()建立中证1000指数提升策略。策略回测期为2023年1月至今年8月,以每天第一个交易日的开盘价卖出进行周频调仓。每天对前5%的股票等权卖出,以中证1000指数为基准进行比较。在单边千分之二的手续费率下,检测结果如下。 #
可以看出,买卖盘力量因子在2023和2023年表现相对较多,但后续年份基本都表现出了较高的超额利润。多头年化超额利润率为7.17%,信息百分比为0.57。且因子的换手率相对较低,双边的周度换手率均值为12.72%,可以为现有的多因子组合提供一定的提高空间。
#
3.3代码输出检测:因子检测与组合优化 #
值得一提的是,除了在文字、数学和表格类回答方式能给用户较差的反馈,其同样也可以直接输出代码以便帮助我们提高在量化研究中的代码工作量,同时也能为不熟悉编程的研究员提供挺好的迅速上相机会。因子检测作为因子量化研究中必不可少的重要环节,有着相对固定和成熟的框架,我们此处尝试令写出一个因子检测框架以观察其代码撰写能力。 #
由上图可以看出,因为经过大量数据、文献、代码等海量知识的训练,模型早已能较完整的写出一个因子检测框架,包括了我们所须要的基本功能,如IC值指标估算、十分组检测等。因此,细究发觉,我们猜测因为其所接受到的训练大部份来自于境外文献和境外代码,在因子检测的常用操作中与国外业界常用做法并不相符。在经过指导纠正后,模型也无法精确地将我们的提示理解,或许早已身陷了其“知识盲点”,最终的IC和年化利润率估算方法无法正确提供相应代码。
然而,若需使用实现代码输出以提高效率,需更加留意其细节处理方法是否符合我们预期。在某些状况下或许会出现一些bug仍需我们自动处理。同时,因为代码能够正常运行与我们的数据源格式有巨大关系,我们仍需将数据源调整为代码所默认的格式,或则更改相关数据处理代码以斩获正常结果。 #
综上,我们更建议,对于一些并不熟悉的函数和模型,可以迅速使用帮助我们了解其基本用法和思路。在所给代码的基础上进行修正,因而大大提高研究效率。我们以组合优化为例,令分别写出了使用均值残差模型进行最大化东芝和使用Black-模型的组合优化代码。可以看出,比较精确地给出了相关库和函数的基本用法,有助于研究员迅速把握学习并进行修正调试使用。 #
四、总结 #
通过研究、测试,我们发觉作为一种大语言模型,在量化研究领域也能提供太多不同方式的解决方案。从量化研究的概念和知识、到挖掘创新性低频因子和输出代码等工作都能在一定程度上提高研究人员的工作效率,帮助提供疑惑解惑和创新亮点都能取得令人满意的疗效。我们运用一定的提示安装工程方式和方法,对加以引导和限制,发觉模型还能结合其原本训练得到的知识加以改进创新,最终得到基本符合我们需求的低频因子。 #
我们对买卖盘力量因子进行重构并检测2023变异系数的计算公式,发觉在日度的调仓速率下,买卖盘力量差距因子多头年化超额利润率达到17.29%,最大回撤为4.88%。考虑交易实际,我们将因子进行降频,在周度的调仓速率下,买卖盘力量因子仍然有10%左右的多头年化超额利润率。为考虑手续费对因子赢利性形成的影响,我们运用该因子建立了中证1000指数提升策略,在2023年1月至今年8月其间,手续费率为单边千分之二的状况下,策略的年化超额利润率为7.17%,信息百分比为0.57,作为一个具备相对新颖数据来源的低频因子,买卖盘力量因子可以为现有的多因子组合提供一定的提高空间。
最后,我们检测了输出代码的能力,发觉其对于量化研究常用的框架、函数都能基本把握,但在一些细节问题上一直还要我们进行纠正微调。因而,对于一些并不熟悉的函数和模型,可以迅速使用帮助我们了解其基本用法和思路。并在所给代码的基础上进行修正,因而大大提高研究效率。 #
风险提示 #
1、模型具备一定的随机性,在部份状况下或许回答错误,不符合用户需求与认知,并影响到用户分辨。
2、以上因子检测结果通过历史数据统计、建模和推算完成,在新政、市场环境发生变化时模型存在失效的风险。
3、策略根据一定的假定通过历史数据回测得到,当交易费用增加或其他条件改变时,或许造成策略利润增长并且出现巨亏。 #
往期报告
主动量化系列 #
》
#
Alpha鹈鹕系列 #
Beta猎手系列 #
系列
#
量化掘基系列 #
基金量化观察月报
#
TMT主题基金业绩领先》
#
》
量化观市月报 #
》
#
》
#
》 #
“数”看证券月报
》 #
》
《数 #
量化浅谈系列 #
年度投资策略
#
+
#
报告信息
#
期货研究报告:《Alpha鹈鹕系列之五:怎么运用挖掘低频跟庄因子?》