<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      一個預測未來的模型,它賺到錢了

      0
      分享至

      RESEARCH

      UniPat AI 做了一件事:讓 AI 去預測還沒發生的事,比如下個月哪家公司市值最高、某國會不會對另一個國家加關稅、某個政客會不會在社交媒體上發超過 100 條帖子

      他們搭了一套系統叫 ECHO,里面有一個專門訓練過的預測模型 EchoZ-1.0。這個模型會自己去網上搜信息、讀新聞、查數據,然后給出一個概率判斷,憑借超出行業的準確率,在交易市場上賺到了錢


      比如「NVIDIA 在 3 月 31 日仍然是全球市值最高的公司」,EchoZ 給出的概率是 98%。它還會附上判斷依據:市值領先第二名 7000 億美元,期權市場沒有定價大幅回調,監管風險已經解除


      EchoZ 的預測報告樣例,概率分布、證據鏈、判斷依據全部結構化輸出

      在他們自建的排行榜上,EchoZ 以 1034.2 的 Elo 分排第一,排在 Gemini-3.1-Pro、Claude-Opus-4.6、GPT-5.2 前面,也排在人類交易者的共識結果前面


      General AI Prediction Leaderboard,11 個模型的 Elo 排名,EchoZ 排第一

      周末的時候,和他們團隊的人又聊了聊...為什么說又呢,因為是老朋友了。這次 ECHO 是同一套方法論在預測領域的第二次驗證

      UniPat 背后,有多個頂級資本的加持,目前還不給說hhhh。在我看來,這家公司在下一個時代能賺迎上不少機會,不止是金融領域

      這套東西的方法,目前已經開放出來了,就在官網上

      本篇內容,不涉及任何的投資建議,是對他們官方模型信息的一個再次解讀

      訓練預測模型,最大的困難在哪

      反饋來自未來

      現在訓模型,無論 SFT 還是 RL,都需要反饋信號。模型做一道題,你告訴它對不對,它根據反饋去調整

      但預測題的答案發生在未來。今天讓模型預測一個月后的事,反饋要等一個月才能拿到。預測一年后的事,就要等一年

      這在工程上幾乎不可訓練

      之前有些團隊的做法叫 Train-on-Past(基于過去訓練):找已經有答案的歷史預測題,把當時的互聯網環境緩存下來,讓模型假裝回到過去做預測。聽起來合理,但有兩個死穴

      第一個,互聯網狀態不可能完美緩存。網頁每天都在更新,有些頁面過了就永遠拿不到了。你緩存的是一個月前的快照,但模型在推理時調用搜索引擎,搜到的結果已經包含了這一個月里新增的信息。答案就藏在這些新信息里,防不住

      第二個,真實世界有大量隨機性。模型推理得很好但碰上小概率事件,答案錯了,會被懲罰。模型瞎猜但運氣好蒙對了,會被獎勵。用最終結果做反饋信號,訓出來的模型會學到幸存者偏差

      這兩個問題在技術上被稱為 Deficiency I(工程悖論)和 Deficiency II(結果導向偏差)。第一個是環境層面的,第二個是信號層面的,兩個方向上都堵死了

      面向未來訓練:評價過程,不等答案

      UniPat 的解法叫 Train-on-Future(面向未來訓練)

      TRAIN-ON-PAST 緩存歷史環境 快照不完整 → 模型預測 假裝回到過去 → 對比答案 信號有噪聲 ? 答案泄露,環境不可恢復 ? 隨機性導致幸存者偏差 ? TRAIN-ON-FUTURE 動態合成新題 關于未來的真實問題 → 模型預測 搜索+推理+輸出 → 評價過程 Rubrics 打分 ? 零數據泄露 ? 信號穩定,可即時訓練

      訓練預測模型的兩條路:基于過去 vs 面向未來

      思路很直接:既然拿不到答案,那就不用答案來訓練。讓模型去預測真正還沒發生的事,然后評價它的「預測行為」好不好

      什么叫預測行為?就是模型在搜索信息、組織推理、輸出概率的整個過程中,表現出來的一系列具體動作

      比如:有沒有去查一手數據源(法院文件、官方公報),還是只看了新聞標題?有沒有識別出矛盾的信息并嘗試驗證?有沒有用歷史基線來錨定概率,還是拍腦袋給了個數字?

      這些動作可以被評價,不需要等答案揭曉

      一個推理過程好的模型,長期來看預測準確率一定高

      評價一個分析師也是這個邏輯。不只看他這次押對了沒有,更看他的分析框架、信息源、邏輯鏈條。好的分析師偶爾也會錯,但長期勝率高

      具體的訓練流程分三步。第一步,動態問題合成:一個自動化的 Pipeline 持續從宏觀經濟指標和前沿動態中生成新的預測題,所有題目都關于未來,從源頭消除數據泄露。第二步,Rubrics Search(下一節細說):用數據驅動搜索出評分標準,對模型的預測過程打分,作為訓練的 Reward 信號。第三步,Map-Reduce Agent 架構:在推理階段,把一個大問題拆成多個子任務,派出多個 Agent 并行搜索和推理(Map),再由一個聚合節點解決跨源沖突、對齊因果鏈、輸出最終的概率判斷(Reduce)。這個循環可以跑多輪,直到信息覆蓋和推理深度都到了平臺期

      EchoZ-1.0 基于 ReAct 框架,每一步都是「思考→行動→觀察」的三元組。可調用的工具包括網絡搜索、學術文獻檢索、網頁抓取和代碼執行,單次推理最多跑 100 輪工具調用

      誰來定義「好的推理」

      這件事 UniPat 也沒有交給人來拍腦袋

      不同領域的「好推理」差異很大。政治預測需要區分政客的口頭威脅和正式行政執行,需要去查一手的法院文件和軍方報告。體育預測需要的完全是另一套東西。讓人來寫一套通用的評分標準,寫不出來

      UniPat 的做法是用數據驅動來搜索評分標準,他們叫 Rubrics Search

      流程大概是:先準備一組候選評分維度(比如「信息源可靠性」「概率校準嚴謹性」「矛盾信息處理」),每個維度有 5/3/1 三檔評分。然后用這些維度去給模型的預測過程打分,排出名次。再看這個名次和真實的 Elo 排名(基于最終結果算出來的)吻合度有多高

      吻合度越高,說明這套評分標準越接近「好推理」的真實特征

      搜索的優化目標是最大化 Spearman 相關系數 ρ(Rubric 打分排名 vs Elo 排名)。按領域分別搜索,每輪由 LLM 根據上一輪的反饋生成新的候選 Rubric,在留出的驗證集上評估,保留最優的進入下一輪


      Rubric Search 的效果,政治領域 ρ=0.873,Esports 提升最大(+0.91)

      政治領域搜出來的最優評分標準有 20 個維度,體育領域也有 20 個,但內容完全不同

      舉幾個政治領域的維度:「缺席信號識別」,模型是否會主動把「什么都沒發生」當作重要的預測信號(法院沒有新的立案、軍方沒有新的公報,這本身就是信息);「言行分離判斷」,模型能否區分一個政客在社交媒體上的聲明和實際的行政、法律、軍事執行;「報告時滯感知」,模型是否考慮到官方數據通常有 24-48 小時的發布延遲,不把「今天沒報告」等同于「今天沒發生」

      這些維度全部是數據搜出來的,人拍腦袋想不到這個粒度。搜出來之后拿去訓練模型,訓練信號比「答案對不對」穩定得多,因為評價的是過程,不受單次結果隨機性的影響

      怎么公平地比較預測能力

      ECHO 的排行榜解決了預測評測的一個老問題:時間不對稱

      同一道題,不同時間去預測,難度完全不一樣。一個月后的大選結果,今天預測和選舉前兩天預測,可用的信息量差了一個量級。之前的預測排行榜沒法控制這個變量,各家模型提交預測的時間不一樣,沒法直接比

      ECHO 的做法叫 Multi-Point Aligned Elo。核心是:只在兩個模型「同一天預測同一道題」的那些點上做比較。每一次比較算一場 Battle,用 Brier Score 差值映射成連續的勝負標簽(保留了概率校準的精度差異)。長周期的預測比短周期的權重更高,因為信息更少、難度更大。最終用 Bradley-Terry 模型做極大似然估計,L-BFGS-B 求解,收斂到全局最優


      ECHO 的三階段評測架構:數據采集 → 預測調度 → Battle 構建 + Elo 評分

      題目來源有三個:Polymarket 上的預測市場合約、Agent 從實時熱點中自動合成的新題、以及領域專家基于日常工作中真實不確定性出的題


      覆蓋 7 個領域,政治治理占比最大(34.5%),經濟金融第二(19.8%)

      第三類題目來源最有意思。一個做東南亞旅游業的專家,關心的預測題可能是某條航線的客流量變化。這種長尾需求只有行業里的人提得出來

      為了控制每道題在生命周期內的預測采樣密度,他們還設計了一個兩階段調度算法:第一階段用對數壓縮來分配總預測次數(10 天的題大約 4 次,90 天的題大約 7 次,避免長周期題的成本線性爆炸);第二階段用優先級評分來決定每天預測哪些題,久未被采樣的題和即將到期的題優先級更高

      驗證實驗做了四組

      第一組,穩健性。模擬各家模型因為 API 故障或服務器中斷缺交預測的情況,隨機丟掉 10% 到 70% 的預測數據,看排名會不會亂。結果是 Elo 排名的波動始終比 Brier Score 平均分排名小 1.4 到 1.8 倍


      丟掉 70% 的數據,Elo 排名波動仍然只有 Brier Score 的一半多

      第二組,可靠性。從排行榜里隨機去掉 1 到 6 個模型,重新算排名,看剩下的模型排序會不會變。去掉 1 個模型時,Kendall's τ 是 0.994(幾乎完全一致)。去掉 6 個,τ 降到 0.978,排序依然非常穩定


      Leave-K-Out 實驗,去掉 6 個模型后排序幾乎不變

      第三組,收斂速度。模擬一個新模型剛加入排行榜的情況,看它的排名多久能穩定下來。Elo 在第 5.4 天就收斂到和 20 天后一致的排名,Brier Score 要到第 14.5 天,Elo 快了 2.7 倍


      Elo 5.4 天收斂,Brier Score 要 14.5 天

      第四組,參數敏感性。Elo 框架里有一個參數 σ,控制 Brier Score 差值映射成勝負概率的敏感度。把 σ 從 0.01 掃到 0.50,EchoZ 在所有設定下都穩定排第一。GPT-5.2 波動最大,從 #2 到 #9


      σ 從 0.01 到 0.50,EchoZ 始終第一

      賺錢了嗎

      EchoZ 對人類市場共識的勝率:政治領域 63.2%,長期預測(7 天以上)59.3%,市場不確定區間 57.9%

      50% 政治與治理 63.2 % 長期 · 7天+ 59.3 % 不確定區間 57.9 % EchoZ vs 人類市場共識,三個維度都在 57% 以上

      60% 多看起來不算高。但了解過交易的人知道,在一個靠判斷分勝負的市場里,統計意義上的 60% 勝率意味著什么。超過 50% 就有正期望,60% 已經是很顯著的優勢了

      然后,團隊在一些靠判斷能賺錢的交易市場上,賺了不少錢,你知道我在說什么

      后面的事

      團隊說后續可能會把預測能力做成商業化 API,面向企業和開發者開放。目前還在第一階段,學術發布和品牌建設

      Train-on-Future 這個訓練范式如果經得起更長時間的驗證,應用場景遠不止金融。供應鏈、天氣、政策風險、行業趨勢,任何需要對未來做判斷的地方,理論上都可以用同一套方法。但未來具體是什么,其實也都說不準,感興趣的可以在他們網站上看

      ECHO 官網:echo.unipat.ai

      Blog:unipat.ai/blog/Echo

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      5月8日俄烏最新:以牙還牙

      5月8日俄烏最新:以牙還牙

      西樓飲月
      2026-05-08 18:40:39
      81年彭真會見江青,江青大罵一句,彭真一臉淡定:你還有什么要求

      81年彭真會見江青,江青大罵一句,彭真一臉淡定:你還有什么要求

      大運河時空
      2026-05-09 09:30:03
      剛剛,全線拉升!美聯儲,降息大消息

      剛剛,全線拉升!美聯儲,降息大消息

      中國基金報
      2026-05-08 22:34:31
      韓國寺廟給機器人剃度:1.35萬美元的Gabi成 Buddhist monk

      韓國寺廟給機器人剃度:1.35萬美元的Gabi成 Buddhist monk

      碼上閑敘
      2026-05-08 09:40:01
      中方關鍵時刻伸出援手,給生死存亡的老杜家族,送出了一絲希望

      中方關鍵時刻伸出援手,給生死存亡的老杜家族,送出了一絲希望

      阿七說體育
      2026-05-09 08:03:51
      太突然了!杜鋒被曝可能不再續約,廣東隊第一個消息就讓球迷破防

      太突然了!杜鋒被曝可能不再續約,廣東隊第一個消息就讓球迷破防

      小娛樂悠悠
      2026-05-09 08:40:45
      全部推倒重建!天津一爛尾豪宅已拆除,項目要被盤活了!近期規劃又有調整

      全部推倒重建!天津一爛尾豪宅已拆除,項目要被盤活了!近期規劃又有調整

      天津人
      2026-05-09 06:08:07
      人民網三問鴻蒙智行

      人民網三問鴻蒙智行

      新浪財經
      2026-05-08 09:10:45
      辣眼睛!韓安冉和景區里的NPC吻得難分難舍,路過的人都看呆了!

      辣眼睛!韓安冉和景區里的NPC吻得難分難舍,路過的人都看呆了!

      樂悠悠娛樂
      2026-05-09 10:31:53
      充電速度“行業墊底”,特斯拉的充電這么慢!為何沒有車主吐槽?

      充電速度“行業墊底”,特斯拉的充電這么慢!為何沒有車主吐槽?

      少數派報告Report
      2026-05-09 04:41:12
      中方沒想到,金磚國家赴美求和,給美國送上稀土資源,動機不簡單

      中方沒想到,金磚國家赴美求和,給美國送上稀土資源,動機不簡單

      半身Naked
      2026-05-09 08:51:58
      28歲守寡,村里一光棍趁雨夜翻墻進來,我沒喊,反而給他煮了碗面

      28歲守寡,村里一光棍趁雨夜翻墻進來,我沒喊,反而給他煮了碗面

      一口娛樂
      2026-05-09 05:47:03
      心理學有個殘忍發現:讓一個人終身困在焦慮里、無法自拔,從不是缺愛缺安全感,而是這兩道“埋在意識底層的心理門檻”

      心理學有個殘忍發現:讓一個人終身困在焦慮里、無法自拔,從不是缺愛缺安全感,而是這兩道“埋在意識底層的心理門檻”

      心理觀察局
      2026-05-09 09:10:05
      美國政府突然公開UFO檔案,看完有點無語

      美國政府突然公開UFO檔案,看完有點無語

      萬物皆可科普2啊
      2026-05-09 03:36:41
      三兄弟買下4臺挖掘機,稱僅用幾個月就被人悄悄拖走 經銷商方:和上級代理商的經濟糾紛傷及無辜

      三兄弟買下4臺挖掘機,稱僅用幾個月就被人悄悄拖走 經銷商方:和上級代理商的經濟糾紛傷及無辜

      紅星新聞
      2026-05-08 19:39:36
      “4只皮皮蝦1035元”店主事發次日病逝,年僅43歲;家人稱其有基礎病,事發前已腦出血,店鋪收到多起威脅電話,不打算繼續開業

      “4只皮皮蝦1035元”店主事發次日病逝,年僅43歲;家人稱其有基礎病,事發前已腦出血,店鋪收到多起威脅電話,不打算繼續開業

      揚子晚報
      2026-05-08 12:46:41
      湖人G2慘敗陷絕境!詹姆斯賽后一針見血,盡顯巨星擔當!

      湖人G2慘敗陷絕境!詹姆斯賽后一針見血,盡顯巨星擔當!

      田先生籃球
      2026-05-08 14:02:52
      過去30年,中國男性平均身高實現驚人跨越,平均身高增長超8厘米

      過去30年,中國男性平均身高實現驚人跨越,平均身高增長超8厘米

      張可象博士
      2026-05-01 10:53:19
      大瓜!許家印昔日恒大奢靡細節流出,丁玉梅海外包養30歲白人小伙

      大瓜!許家印昔日恒大奢靡細節流出,丁玉梅海外包養30歲白人小伙

      壹月情感
      2026-05-09 00:00:07
      上海一男子進理發店扔法拉利鑰匙炫富,完成約1000元染發后借口上廁所逃單,店員:跑得跟法拉利一樣快;目前店家尚未找到該男子

      上海一男子進理發店扔法拉利鑰匙炫富,完成約1000元染發后借口上廁所逃單,店員:跑得跟法拉利一樣快;目前店家尚未找到該男子

      大象新聞
      2026-05-09 00:14:07
      2026-05-09 12:07:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      428文章數 53關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      年輕女子190元買榴蓮僅退款被拘留 代收點離家3公里

      頭條要聞

      年輕女子190元買榴蓮僅退款被拘留 代收點離家3公里

      體育要聞

      成立128年后,這支升班馬首奪頂級聯賽冠軍

      娛樂要聞

      張藝謀《印象劉三姐》全裸鏡頭引爭議

      財經要聞

      Meta瘋狂擁抱人工智能:員工苦不堪言

      汽車要聞

      全系智能泊車 鉑智3X年款升級限時權益價9.48萬起

      態度原創

      本地
      游戲
      旅游
      時尚
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      吃相難看!三大主機集體坐地漲價 玩家吐槽毫無底線

      旅游要聞

      名畫跑進咖啡杯!徐悲鴻紀念館“上新”文創咖啡空間

      盧昱曉真的要被審判到這種程度嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲综合第一色| 国产午夜亚洲精品福利| 国产亚洲精品成人aa片新蒲金| 日韩成人无码影院| 精品国产18禁久久久久久久| 欧美色女人| av天堂亚洲| 色8久久人人97超碰香蕉987| 亚洲色av天天天天天天| 久热99热这里只有精品| 中文字幕色偷偷人妻久久| 一区二区无码精油按摩| 国产精品国产三级国产专i| 青草精品视频在线观看| 亚洲色AV一区| 亚洲av电影天堂网| av色蜜桃一区二区三区| 四虎跳转到新域名| 色综合天天综合网国产成人网| 日本高清www午色夜免费观看 | 乱女乱妇熟女熟妇综合网| 九九三级影视| 库车县| 欧美成a人片在线播放| 国产AV影片麻豆精品传媒| 伊人激情影院| 成人国产亚洲| 亚洲熟女乱伦性爱图片| 国产不卡精品视频男人的天堂| 亚洲综合无码久久精品综合| 无码AV午夜福利一区| free性开放小少妇| 久久综合一本中文字幕| A片免费在线观看| 精品国产美女福到在线不卡| 婷婷六月色| 久久久久久久久熟女AV| 婷婷四房综合激情五月在线| 永寿县| 欧美日本视频在线观看| 久久国产乱子伦精品免|