跳转至

Cognitive Alpha Mining via LLM-Driven Code-Based Evolution

Ch01.530 Cognitive Alpha Mining via LLM-Driven Code-Based Evolution

📊 Level ⭐⭐ | 6.7KB | entities/cogalpha-acl2026-alpha-mining.md

Cognitive Alpha Mining via LLM-Driven Code-Based Evolution

论文标题: Cognitive Alpha Mining via LLM-Driven Code-Based Evolution 论文作者: Fengyuan Liu, Yi Huang, Sichun Luo, Yuqi Wang, Yazheng Yang, Xinye Li, Zefa Hu, Junlan Feng, Qi Liu (Grace Investment Machine + 香港大学) 会议: ACL 2026 Recommended Oral arXiv: 2511.18850v3

相关实体

原文存档

深度分析

将Alpha表示从数学公式升级为可执行Python代码,这一范式转换的意义远超表达能力本身。公式化的因子受限于预定义的数学结构,搜索空间封闭;而代码化的因子可以包含条件分支、循环逻辑、状态检查甚至注释解释——这意味着因子不再只是"计算一个数字",而是"描述一个可验证的投资逻辑"。当因子以代码形式存在时,其经济语义可以通过注释和逻辑结构显式表达,这为因子的可解释性和可验证性提供了结构性基础,而不仅仅依赖事后归因分析。

7层21个智能体的探索体系本质上是对冲基金量化研究团队分工协作模式的算法重建。传统遗传编程在Alpha挖掘中的失效并非因为其演化机制有缺陷,而是因为它缺乏结构性指导——个体随机变异和交叉无法保证探索覆盖研究问题的语义空间。CogAlpha的分层设计将"市场结构与周期""价量关系""趋势与反转"等研究主题显式映射为独立的探索层,每层由专门化的智能体负责,这确保了探索既有广度又有语义上的完整性,避免了遗传编程在局部空间过度优化的老问题。

两档筛选机制(65分位合格、80分位精英)是控制演化方向与多样性之间张力的关键设计。传统遗传编程的高选择压会导致种群快速趋同,多样性崩溃后演化陷入局部最优。CogAlpha的精英因子设计让最优秀的个体有更多机会贡献基因给下一代,同时合格因子的存在保证了种群多样性不会过快丧失。多样化提示策略(轻度/中度/创造性改写)进一步强化了这种张力管理——稳定改写防止优秀基因被破坏,创造性改写持续引入新的研究视角,这套组合拳使得系统在演化过程中既能聚焦有效方向又能保持探索宽度。

闭源推理模型表现弱于预期这一反直觉发现具有重要的方法论含义。它表明在Alpha挖掘这类需要"结构化探索-反馈-迭代"的任务中,模型的能力上限并非决定性因素,真正的关键是任务流程与LLM认知架构的契合程度。推理型模型可能在单一答案质量上更强,但在需要多次生成、评估、筛选、变异的迭代循环中,其过长的推理链反而拖累了执行效率和探索广度。这个发现对LLM应用架构设计的启示是:在需要结构化多步探索的任务中,应优先优化工作流结构而非追求更强的底层模型。

CogAlpha本质上是一个Agentic Research系统的量化金融落地案例。将研究任务拆解为层级化的认知单元(7层探索)、为每个单元设定明确的职责边界(市场结构、价量关系、多尺度复杂性等)、通过反馈驱动系统持续演化——这套框架的泛化能力远超Alpha挖掘本身。在更广泛的研究自动化场景中(如药物发现、材料设计、实验优化),同样的"LLM驱动代码演化"架构都可能适用,核心差异只在于评价函数和约束条件的领域特异性。

实践启示

在构建LLM驱动的探索系统时,优先设计分层的任务架构而非依赖单一超强模型。参考CogAlpha的7层分工模式,将研究问题拆解为语义互补的子任务,每个子任务由专门化的LLM实例或提示词模板负责,这种分工结构比堆砌模型规模更能保证探索的完整性和方向性。

因子的代码化表示应作为研究标准化流程的一部分:在生成候选Alpha时强制要求附带完整注释和逻辑解释,而非仅输出计算结果。可解释的因子代码不仅便于事后审计和归因分析,更重要的是它强制研究者显式化自己的投资逻辑——"价格上行幅度除以成交量衡量流动性冲击"这个注释本身就是对因子经济含义的验证,若逻辑不自洽,注释的撰写本身就会暴露问题。

建立多档筛选机制以平衡收敛性与多样性:精英档(80分位)确保优秀基因有足够的遗传机会,合格档(65分位)防止种群趋同。配合轻度/中度/创造性的三级改写策略,在保持核心因子竞争力的前提下持续引入新范式。这种设计比单纯提高变异率更能有效避免局部最优陷阱,同时避免过低选择压导致的演化停滞。

对研究流程类任务,应关注工作流结构与LLM认知架构的契合度,而非盲目追求推理型或大规模模型。CogAlpha的经验表明,认知工作流的结构设计(分层探索-反馈-迭代)才是拉开差距的关键因素。在实际应用中,应优先进行流程设计验证(小规模实验确认工作流有效性),再考虑模型规模和类型的优化。

回测与真实交易环境的差距是所有量化研究方法的共同局限,CogAlpha也不例外。在将研究结果转化为实盘策略时,必须进行模拟盘验证和分阶段实盘验证,同时关注Qlib框架与实际撮合环境的差异(滑点、流动性冲击、延迟等)。回测结果应被视为探索有效性的参考而非实盘业绩的预测。