在IDEA最新研究报告中首次提出了Quant 4.0的研究流程,在深度学习不断融入量化研究的时代,非常值得处于量化行业的我们仔细研读。
今天,公众号将与大家一起分享研究报告中量化研究过程的演进。
(资料图)
Quant 1.0的特点包括:
在该模式中,数百甚至数千名投资研究人员使用标准化的评估标准、标准化的回测流程和标准化的参数配置,在同一条流水线上工作,从大量的数据中挖掘有效的Alpha因子。这些Alpha挖掘研究者通过提交合格的Alpha因子而获得奖励,这些因子通常具有高回测收益率,高夏普比率,合理的换手率以及与Alpha数据库中现有因子的低相关性。尽管越来越复杂的机器学习因子也被挖掘出来,传统上,每个Alpha因子都是一个数学表达式,表征股票的某种模式,或股票之间的某种关系。典型的因子包括动量因子、均值回归因子、事件驱动因子、量价分布因子、成长因子等。由Alpha研究者提交的许多Alpha因子被组合到投资组合经理的统计模型或机器学习模型中,在适当的风险中和后确定最优的权重。
造成这一现象的原因是策略的市场容量的有限性、发现新的有效阿尔法算法的难度越来越大,甚至是人工智能在策略空间中搜索所有可能性的局限性。
与Quant 2.0将更多的研究精力和人力投入到挖掘复杂的Alpha因子上不同,Quant 3.0更注重深度学习建模。在使用相对简单的因子下,深度学习仍然有潜力通过其强大的端到端学习能力和灵活的模型拟合能力,学习出一个表现与Quant2.0一样好的预测模型。在Quant 3.0中,Alpha挖掘的人力成本至少部分被算力成本所取代,特别是对于昂贵的GPU服务器。但总的来说,从长远来看,这是一种更有效的量化研究方式。
尽管Quant 3.0在高频股票和期货交易等策略场景中已经证明了它的成功,但它有三个主要局限性:
1、一般来说,构建一个好用的深度学习模型是非常耗时的。这其中包括繁重的网络架构设计和模型超参数调优工作,以及非常耗时耗力的交易端模型部署和维护工作。
2、解释一个深度学习模型是一个挑战,这对于那些非常关心金融市场机制并希望知道盈亏来源的投资者和研究人员来说非常不友好。
3、深度学习需要大量的数据,因此于该模式只适用于高频交易或至少具有大广度的中等频率的横截面alpha策略。这种现象阻碍了深度学习技术在低频率投资场景中的应用,如价值投资、基本面CTA和全球宏观策略。
下图蓝色部分为传统量化研究的流程,其中包括数据预处理、因子挖掘、建模、组合优化、执行及风险分析。
数据预处理通常是量化研究的第一步。原始数据可能存在许多问题。最常见的就是数据缺失的问题。虽然传统的方法可以用来估计和填补缺失的记录,但我们必须避免在输入过程中使用未来的信息。其次,金融数据包含极端值和异常值,这些异常值可能来自错误记录、数据存储问题、数据传输问题或极端市场,这些异常值可能导致投资决策中的风险偏差。异常值可以通过数据winsorization方法消除,该方法将极值限制在一定的每百分位数范围内,但我们必须注意到,一些异常值实际上是量化交易的强烈信号,而不是噪声,并且必须在数据预处理期间将两者区分开来。第三,许多金融数据,如新闻事件数据,数据覆盖率低,更新频率不规律。第四,不同的数据特征在取值范围上有很大的差异,因此在建模中一些“大”的特征可能会支配“小”的特征。
因此,采用数据标准化方法对特征范围进行规范化。为了减少信息的丢失,我们必须注意标准化数据的方法。
因子挖掘是特征工程的一项任务,它使用金融和经济领域的知识从原始数据中设计、搜索或提取因子。通常,一个较大的因子值表示一个更重要的交易信号。因子挖掘的动机是从原始数据中发现市场预测的信号,提高下游建模任务的质量。传统上,因子可以用公式或基于规则的表达式来表示。
建模是指使用因子构建统计或机器学习模型并预测市场趋势、资产价格变动、最佳交易时间或最有/最没有价值的资产的任务。模型的选择必须考虑许多因素,如预测精度、模型可解释性、模型鲁棒性和计算复杂性,并根据最终目标找到最佳方案。特别是,我们必须注意到,大多数统计或机器学习模型并不是专门为金融时间序列开发的,我们必须调整这些模型在量化建模中的应用。首先,金融时间序列预测必须避免使用未来信息,因此我们更倾向于前向验证(随着时间的推移将时间序列分成训练、验证和测试块),而不是模型超参数优化中的交叉验证。
其次,金融时间序列通常是非平稳的,与许多机器学习模型所要求的独立和同分布(i.i.d)假设相去甚远。因此,需要进行数据转换,使数据分布更接近i.i.d.,如果可能的话,看起来更像正态分布。第三,市场风格随时间变化,导致金融时间序列分布的变化。因此,为了使模型适应市场风格的变化,定期对模型进行再训练是必要的。
组合优化的目的是寻找最优的资产配置,获得更高收益和更低风险。预测模型告诉我们买什么或什么时候买/卖,而投资组合优化则指定买/卖多少。一个典型的投资组合优化器试图解决一个约束凸二次规划问题,该问题是由马科维茨的有效前沿理论扩展而来的。该优化问题的关键是如何估计波动率矩阵,当历史数据不够长时,波动矩阵的估计通常是不稳定的,在这种情况下,正则化和因子化等降维技巧有助于提高估计的鲁棒性。
订单执行是一项以最优价格和最小市场影响买卖订单的任务。通常一次买入(或卖出)一大笔订单会将目标资产的价格推向不利的方向(市场受到这一大笔订单的影响),从而增加交易成本。一个广泛使用的解决方案是订单分割,将一个大订单分成许多小订单,以减少市场影响。从最简单的时间加权平均价格(TWAP)和成交量加权平均价格(VWAP)到复杂的强化学习方法,算法交易提供了一系列的数学工具来分割订单,其中最优订单流被建模为一个(部分可观察的)马尔可夫决策过程。
风险分析是量化研究和量化交易不可缺少的一项任务。为了更好地控制量化研究和交易中不必要的和有害的风险,我们必须发现和理解每一个可能的风险暴露。在监控模块中,风险被实时测量,以帮助量化研究人员改进他们的策略。股票交易中最流行的风险模型是BARRA模型,该模型将投资组合的波动性分解为多个预定义风险因子的敞口,包括风格因子(规模、成长性、流动性等)和行业因子。然而,BARRA模型只能解释总波动率的30%左右,其余70%的风险仍然未知。
Quant 4.0的自动化量化研究流程如上图(橙色部分)所示。在本节的以下部分中,我们将集中讨论自动化流程中的三个核心模块:
应用自动化特征工程技术来搜索和评估由元因素产生的重要金融因素。我们将介绍流行的搜索算法,并演示如何设计算法工作流程。量化研究中的特征工程是指从原始数据中提取因子的过程,由于其固有的噪声,很难对其进行有效的模式识别。
在Quant4.0中,我们提出将特征工程作为一个搜索问题,并利用相应的算法生成具有令人满意的大规模回测性能的因子,从而实现因子挖掘过程的自动化。特别是,根据它们的表达形式,我们将因子分类为:
符号因子挖掘可以看作是符号回归的一个特例。传统的符号回归算法通常从给定的操作数和运算符中生成大量的符号表达式,并选择使预定目标函数最大化的符号表达式。下图为一个自动符号因子挖掘的框架,它由四个核心部分组成:操作数空间、运算符空间、搜索算法和评估准则。
操作空间定义了哪些元因子可以用于因子挖掘。元因子是因子构建的基本组成部分。典型的元因子包括基本的价格和成交量信息、行业分类、从限价/订单中提取的基本特征、常见的技术指标、分析师的基本统计数据、财务报告中的重要信号、上市公司的公告和其他研究报告、投资者情绪的情绪信号。
算子空间定义了哪些算子可以在因子挖掘过程中使用。例如,在横截面选股中,操作者可分为构建符号因子的主算子和标准化不同交易环境下因子的后处理算子。主算子可进一步分类为元素级算子(element-wise operator),如()和log();时间序列运算符,如ts_rank()和ts_mean(),分别计算每只股票的排名顺序和平均值;横截面运算符,如rank()和quantile(),在特定交易时间沿横截面计算排名和分位数;分组运算符,如group_rank(),分别计算每组(例如,行业或部门)的排名顺序。后处理操作符用于“微调”生成的因子。典型的后处理算子有标准化算子,如用于异常值处理的winsorization算子和用于统一数据量纲的归一化算子,以及用于风险中性化的算子,用于限制选股范围的分组算子,以及用于控制换手率以降低交易成本的衰减算子。
搜索算法的目的是尽可能高效地搜索和发现有效或合格的因子。生成新因子的一种简单方法是蒙特卡罗(MC)算法,该算法在操作数和操作符空间中随机选取元素,递归地生成符号表达式树。不幸的是,搜索时间可能会随着生成公式的长度和复杂性呈指数增长,并迫使我们考虑更有效的替代方案。第一种选择是马尔可夫链蒙特卡罗(Markov-chain Monte Carlo, MCMC)算法,该算法从后验分布中以重要方式生成采样因子,因此比MC效率更高。第二种选择是遗传规划,它是一种特殊的用于采样和优化树型数据的进化算法。第三种选择是基于梯度的方法,如神经网络,它用连续的非线性函数近似离散的符号公式,沿着梯度方向搜索,比随机搜索效率高得多。
评估标准衡量的是因子的质量。利用回测对所生成因子进行了评价。典型的评价标准包括信息系数(IC)、基于信息系数的信息比率(ICIR)、年化收益率、最大回收量、夏普比率和换手率。此外,通过过滤掉与其他因子高度相关的冗余因素,保持因子之间信息的多样性是非常重要的。
符号因子具有简单易懂的优点,在实践中得到了广泛的应用。然而,它们的表示能力受到操作数和操作符的限制。另一方面,机器学习因子在表示上更灵活,以适应更复杂的非线性关系,因此它们有可能在市场预测中表现得更好。特别是,挖掘机器学习因子是一个拟合神经网络的过程,其中梯度为快速搜索解决方案提供了最佳方向。
机器学习因子也有一些局限性。首先,由于机器学习的黑箱性质,它们通常很难解释和理解。其次,神经网络的梯度搜索可能会卡在局部最优点,导致模型不稳定问题。最后,神经网络由于其灵活性可能会遭受更严重的过拟合,并且由于数据具有极大的噪声,这种情况在量化中会变得更糟。
在本文中,我们关注最先进的深度学习自动化问题,将AutoML技术应用于发现最优深度学习模型,自动选择最合适的模型和最优模型结构,并调整最佳超参数。由于建模中的端到端特性和网络架构问题,该问题更加复杂。深度学习模型的配置包括架构、超参数和目标三部分,它们共同决定了模型的最终性能。传统上,这些配置是手动调优的。在Quant4.0中,它们使用各种AutoML算法进行搜索和优化。一个标准的AutoML系统需要回答以下三个问题:搜索什么(即搜索空间),如何搜索(即搜索算法),以及为什么要搜索(即性能评估)。
给定搜索空间,我们可以使用搜索算法来找到最佳的模型配置。表2列出了各种类型的搜索算法及其相应的任务:网络架构搜索(NAS)、超参数优化(HPO)[83]和训练目标选择(TOS)。