網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GIM和港大這篇ACL主會(huì)，把量化因子挖掘重做了一遍

2026-05-05 14:21:56　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

如果把量化投資里最難的一件事挑出來(lái)，很多人都會(huì)指向同一個(gè)詞：Alpha。

說(shuō)白了，就是那些能提前告訴你"這只股票后面大概率怎么走"的有效信號(hào)。

問(wèn)題也恰恰出在這里。市場(chǎng)噪聲太大，數(shù)據(jù)維度太高，真正有用的信號(hào)又少得可憐。人手搓因子，慢；遺傳編程容易在局部打轉(zhuǎn)，產(chǎn)出一堆長(zhǎng)得差不多、經(jīng)濟(jì)意義也不強(qiáng)的東西；深度學(xué)習(xí)雖然猛，但很多時(shí)候你知道它有效，卻說(shuō)不清它為什么有效，換個(gè)市場(chǎng)、換個(gè)周期，就不一定穩(wěn)了。

現(xiàn)在，一篇來(lái)自香港大學(xué)和 Grace Investment Machine（GIM）的工作想把這件事?lián)Q個(gè)做法。

他們做了一個(gè)叫 CogAlpha 的框架，入選 ACL 2026 推薦 Oral。

一句話概括：不再讓大模型只當(dāng)"寫(xiě)公式的助手"，而是把它當(dāng)成會(huì)分工、會(huì)反思、會(huì)迭代、還會(huì)自己改代碼的研究員團(tuán)隊(duì)，去自動(dòng)挖掘 Alpha。

在來(lái)自中美港三個(gè)市場(chǎng)的 5 個(gè)數(shù)據(jù)集上，這套方法穩(wěn)定跑贏了 21 個(gè)基線方法。主實(shí)驗(yàn) CSI300、10 天預(yù)測(cè)任務(wù)上，年化超額收益達(dá)到 16.39%，信息比率1.8999。

這事有點(diǎn)意思了。

論文標(biāo)題：
Cognitive Alpha Mining via LLM-Driven Code-Based Evolution
論文作者：
Fengyuan Liu, Yi Huang, Sichun Luo, Yuqi Wang, Yazheng Yang, Xinye Li, Zefa Hu, Junlan Feng, Qi Liu, Grace Investment Machine
論文鏈接：
https://arxiv.org/abs/2511.18850

這篇論文到底做了什么？

CogAlpha 的第一個(gè)關(guān)鍵變化，是把 Alpha 從"公式"升級(jí)成了"代碼"。

這不是小改動(dòng)。用公式表達(dá)因子，表達(dá)能力受限。一旦換成 Python 代碼，因子的搜索空間會(huì)一下被打開(kāi)——大模型不再只是吐一個(gè)數(shù)學(xué)表達(dá)式，而是能寫(xiě)出帶注釋、帶邏輯、能執(zhí)行、能檢查的候選因子程序。

然后，作者又在這個(gè)基礎(chǔ)上，給大模型搭了一個(gè)"研究組織架構(gòu)"。

整個(gè)系統(tǒng)里最抓眼球的部分，是一個(gè)7 層、21 個(gè)智能體的探索體系。這 7 層不是隨便分的，而是按量化研究的思考方式，從宏觀到微觀一路拆下去：

第 1 層看市場(chǎng)結(jié)構(gòu)與周期，比如長(zhǎng)期趨勢(shì)和階段切換；
第 2 層盯極端風(fēng)險(xiǎn)和脆弱性，比如尾部風(fēng)險(xiǎn)和崩盤(pán)前兆；
第 3 層研究?jī)r(jià)量關(guān)系，流動(dòng)性、買(mǎi)賣(mài)失衡；
第 4 層看趨勢(shì)延續(xù)、短期反轉(zhuǎn)、波動(dòng)聚集；
第 5 層處理多尺度復(fù)雜性，比如回撤結(jié)構(gòu)和分形粗糙度；
第 6 層做穩(wěn)定性和狀態(tài)門(mén)控，讓信號(hào)按不同市場(chǎng)狀態(tài)決定要不要激活；
第 7 層負(fù)責(zé)幾何特征和融合，K 線形態(tài)、多因子合成、非線性改寫(xiě)。

你可以把它理解成：不是讓一個(gè)大模型悶頭想因子，而是讓一整個(gè)分工明確的研究團(tuán)隊(duì)，同時(shí)從不同角度去挖。

它不是生成一次就完了，而是會(huì)"進(jìn)化"

這篇論文最像人類(lèi)研究流程的地方，不在生成，而在后面那套迭代機(jī)制。

CogAlpha 走了一條很像研究員反復(fù)打磨的路徑：先生成一批候選 Alpha，再檢查代碼能不能跑、邏輯有沒(méi)有問(wèn)題，然后用 IC、RankIC、ICIR、RankICIR 和互信息 MI 五個(gè)指標(biāo)做篩選，接著把好的候選拿去做變異、交叉和進(jìn)化，最后不斷迭代，把差的淘汰，把更有潛力的留下來(lái)。

篩選分兩檔：超過(guò)同代 65 分位的算合格因子，超過(guò) 80 分位的算精英，后者進(jìn)入下一輪演化。

為了防止系統(tǒng)越來(lái)越保守、最后只會(huì)圍著幾個(gè)套路打轉(zhuǎn)，作者還設(shè)計(jì)了多樣化提示策略：輕度改寫(xiě)保證穩(wěn)定，中度改寫(xiě)引入自然變體，創(chuàng)造性改寫(xiě)則鼓勵(lì)模型從不同研究角度重新理解同一個(gè)方向。

這個(gè)設(shè)計(jì)很關(guān)鍵。Alpha 挖掘最怕的，不是找不到一個(gè)好因子，而是老在同一類(lèi)因子里繞圈。

結(jié)果有多強(qiáng)？消融實(shí)驗(yàn)說(shuō)得很清楚

論文最硬的一組結(jié)果，來(lái)自 CSI300 成分股、10 天預(yù)測(cè)任務(wù)。

在這里，CogAlpha 相比 21 個(gè)基線方法拿到了最好的整體表現(xiàn)。

換句話說(shuō)，CogAlpha 在這項(xiàng)核心實(shí)驗(yàn)里，年化超額收益大約翻倍，IR 也明顯拉開(kāi)。

值得一提的是，論文里有個(gè)不符合直覺(jué)的發(fā)現(xiàn)：閉源模型并沒(méi)有天然更強(qiáng)，推理型模型表現(xiàn)甚至偏弱。Alpha 挖掘不是單純比"誰(shuí)更聰明"，而是比誰(shuí)的結(jié)構(gòu)更適合探索、篩選和演化。真正拉開(kāi)差距的，是這套認(rèn)知式工作流本身，而不是底層模型的能力上限。

可解釋性，量化圈真正在意的

量化圈一個(gè)老問(wèn)題是：很多因子能跑，但解釋不清。

CogAlpha 生成的每個(gè) Alpha 不只是一個(gè)數(shù)字結(jié)果，而是附帶詳細(xì)注釋、完整代碼實(shí)現(xiàn)，解釋這個(gè)因子的邏輯和想法。論文展示的一個(gè)例子，是用"價(jià)格上行幅度除以成交量"衡量流動(dòng)性沖擊——如果股票價(jià)格沖得快但成交量并不大，意味著流動(dòng)性很薄、價(jià)格沖擊更大，短期收益也許更值得關(guān)注。

不復(fù)雜，但講得通。

對(duì)機(jī)構(gòu)來(lái)說(shuō)，這點(diǎn)很重要。真正能進(jìn)研究流程、進(jìn)交易流程的，不只是高分因子，而是能被理解、能被復(fù)核、能被追責(zé)的因子。

這篇 ACL，真正有價(jià)值的地方是什么？

如果只把它理解成"又一篇用大模型做量化的論文"，有點(diǎn)低估它了。

這篇工作更大的價(jià)值，可能在于它給出了一種新范式：讓大模型不只是生成內(nèi)容，而是參與研究流程本身；不只是給答案，而是組織探索、篩選、反思和進(jìn)化。

放在量化里，這叫自動(dòng)化 Alpha 發(fā)現(xiàn)。再往外看，更像一種 Agentic Research 的落地案例——把研究任務(wù)拆成層級(jí)化認(rèn)知單元，給每個(gè)單元設(shè)定職責(zé)，再讓系統(tǒng)通過(guò)反饋?zhàn)龀掷m(xù)演化。

如果這套方法能在 Alpha 挖掘里成立，那別的高噪聲、低信號(hào)、需要?jiǎng)?chuàng)造性探索的研究任務(wù)，是不是也可以這么干？材料發(fā)現(xiàn)、策略生成、實(shí)驗(yàn)設(shè)計(jì)、復(fù)雜工業(yè)優(yōu)化，這個(gè)問(wèn)題值得繼續(xù)看。

當(dāng)然，作者自己也寫(xiě)得比較克制：回測(cè)全在 Qlib 框架里完成，和真實(shí)交易環(huán)境還有距離；LLM 輸出有隨機(jī)性，數(shù)據(jù)規(guī)模越大執(zhí)行時(shí)間越長(zhǎng)。CogAlpha 現(xiàn)在更像一個(gè)很強(qiáng)的研究引擎，而不是能無(wú)腦接到交易端的即插即用系統(tǒng)。

但這不妨礙它的重要性。很多真正改變行業(yè)的東西，第一步都不是立刻商用，而是先證明一件此前沒(méi)人證明清楚的事：

原來(lái)這條路，真的走得通。

量化投資過(guò)去幾十年，一直在和同一個(gè)問(wèn)題纏斗：怎么在充滿噪聲的市場(chǎng)里，持續(xù)找到新信號(hào)。現(xiàn)在，大模型以另一種身份加入了這場(chǎng)游戲——不是聊天機(jī)器人，也不是寫(xiě)摘要的工具，而是一個(gè)會(huì)分工、會(huì)寫(xiě)代碼、會(huì)自查、會(huì)進(jìn)化的研究系統(tǒng)。

CogAlpha 讓人第一次比較具體地看到：AI 也許真的可以參與"發(fā)現(xiàn)"本身，而不只是參與"表達(dá)"與"執(zhí)行"。

About GIM

在 GIM（Grace Investment Machine）我們相信，AI技術(shù)正處在在重塑資本市場(chǎng)的關(guān)鍵節(jié)點(diǎn)。因此，我們致力于融合最前沿的AI與大模型技術(shù)，打造新一代智能投資范式——不僅是量化方法的升級(jí)，更是投資決策邏輯的重構(gòu)。

我們希望通過(guò)智能分析師與交易系統(tǒng)，將金融市場(chǎng)洞察與執(zhí)行效率提升至全新量級(jí)。我們核心團(tuán)隊(duì)來(lái)自全球頂尖對(duì)沖基金、DeepMind、Meta、Anthropic 等前沿AI實(shí)驗(yàn)室，以及牛津、清華、北大、港大等知名高校。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.