<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      勝率直逼人類大師!這套Agent揭開中國AI「玄學真相」

      0
      分享至


      新智元報道

      【新智元導讀】沒有信息泄漏的專業術數題庫面前,Claude、GPT等主流模型集體「翻車」。但一個叫Tianfu Agent的系統,卻一舉將準確率提升至50%,逼近本屆術數大賽人類Top20選手的53.5%平均水平。

      把當前最先進的通用大模型,放在中國傳統術數專業選擇題(四選一)面前,會發生什么?


      需要說明的是,評測對通用模型已經做了「讓步」:所有基線模型的Prompt中都提供了預計算的盤面數據,避免引入計算幻覺,而是直接考察推理能力。

      DestinyLinker研究團隊基于術數大賽(HKJFMA主辦,3069名選手參與)的官方題庫的評測集基準Mingli-Bench,測試了當下主流大模型,技術報告和測試結果在x上獲得了百萬關注。


      MingLi-Bench開源倉庫:https://github.com/DestinyLinker/MingLi-

      Bench Tianfu Agent技術報告:https://destinylinker.github.io/MingLi-Bench/

      結果有點意外,這些模型在這套幾乎沒有信息泄漏的最新比賽選擇題上,準確率清一色徘徊在23%到40%之間。

      注意,四選一選擇題的隨機猜測線就是25%。

      為了驗證模型能力能否支撐專業術數推理,該團隊研發了Tianfu Agent的系統,實現一整套針對中國傳統術數領域harness工程系統——

      200多個原子工具、3大流派規則函數庫、多Sub-Agent協作,以及一套貫穿全鏈路的置信度量化機制,一舉達到了50%的截尾準確率,逼近本屆賽事人類Top 20選手的平均水平53.5%。


      Harness之路

      編碼智能體的經驗還遠遠不夠

      本測試案例使用了馬斯克命盤,測試中的1971/12/30并非其真實生日,因為他出生于南半球,需對其生辰進行節氣轉換

      Claude Code、Cursor這些工具在復雜工程任務中表現良好,不是因為模型本身變強了,而是它被放進了一個領域專用的工具環境里,有文件I/O,有終端,有測試反饋。

      Tianfu Agent把同樣的邏輯搬進了中國傳統術數領域,在推理鏈路上,采用多Sub-Agent協作的漸進式發現策略:多個Sub-Agent各自維護獨立的工具集和上下文,并根據環境反饋逐步展開推理。

      然而,僅依靠Coding Agent的成功經驗還是遠遠不夠的,例如:

      • 除了常見的刑沖查詢、飛宮路徑等,術數領域還涉及大量數據邏輯運算,此部分由大模型生成并不可靠,但一次性交給模型調用又會污染上下文;

      • 規則需要經驗選擇,并非使用越多越好,且每一條規則的使用后都可能出現矛盾的結論;

      • 缺乏「單元測試」等輔助驗證手段,在長鏈路推理下,很容易積累偏差。


      其他垂直領域應用,如醫療、法律等很可能也面臨著類似的困境

      200多個工具如何管理?

      四級可見性控制

      通用Agent用十幾個工具就夠了,200+工具帶來的第一個工程問題不是「能不能寫出來」,而是模型選不對

      該研究團隊按「LLM可理解性」和「可窮舉性」兩個維度,將工具分成四級:

      • 自動注入型(可理解+可窮舉):十神、星耀、宮位等零歧義概念,自動加載到上下文中,不需要模型選擇。

      • 按需調用型(可理解+不可窮舉):生克關系、飛宮計算等,模型能理解語義并自行判斷參數。

      • 轉譯調用型(不可理解+可窮舉):模型容易產生歧義或非市面常見的專業術語,通過預設翻譯層轉換工具名稱后調用。

      • 觸發注入型(不可理解+不可窮舉):僅特定Sub-Agent可調用,并配備專屬背景知識和校驗方法。

      這套機制的核心是動態控制工具的可見范圍——不同推理階段、不同Sub-Agent看到的工具集不同,避免選項過載導致的選擇退化。

      這個思路對其他垂直領域的Agent開發有一定參考價值:當工具數量超過模型的可靠選擇閾值后,工具管理本身就成了一個獨立的工程問題。

      繁雜規則怎么用?

      也封裝成可調用函數

      通用Agent經常把規則寫進System Prompt或Few-shot,本質是讓模型「記住并遵循」。

      術數領域規則繁雜(僅子平母法就超過百條)、適用條件互相耦合、流派之間還會互相矛盾,靠記憶遵循的直接后果就是選擇性忽略、推理路徑不可控。

      Tianfu Agent的做法,是把每一條復雜規則封裝成一個帶元數據的可調用函數。

      人類專家預先標注適用場景、時間跨度、事件類型、優先級;函數內部可以再調LLM;輸入盤面狀態,返回結論和置信度;只在滿足驗證時才注入上下文。

      這一步等于把LLM從「記規則的考生」變成「調規則的工程師」——規則不再是Prompt里一段需要模型自覺遵守的文字,而是一個有明確簽名和觸發條件的工程構件。

      沒有單元測試?

      三層不確定性量化

      編碼Agent的一個天然優勢是有「測試」作為驗證手段。

      代碼寫完跑測試,通過就是正反饋,失敗就有明確的報錯信息。

      術數領域,或者說絕大多數專業領域,都沒有這個條件實現所謂的「單元測試」。

      Tianfu Agent的方案是引入不確定性量化,在三個層面給出置信度評估:

      • 工具輸出層:非確定性工具(如強弱判斷、多象吉兇)由內置算法提供置信度,直接由算法層面進行確定性評估。

      • Sub-Agent層:每個子智能體在單一理論體系下完成推理后,由LLM自評本次推理結論中每個觀點的顯著性。

      • 多流派合參層:不同流派的結論可能相互矛盾,通過人工經驗置信度加權調和,再次進行判斷。

      這不是一個能替代“自動驗證”的方案——在報告中也坦承了這一點。但在缺乏驗證手段的領域,「知道自己有多不確定」本身就是有價值的信息,至少給上層決策提供了量化參考,而非將所有結論等權堆砌。


      如果用一句話總結這套harness的設計哲學:在Tianfu Agent里,工具不僅是計算函數,它還包括規則、子推理流程,乃至Sub-Agent本身。

      對垂直領域Agent落地的啟示

      拋開領域特殊性本身不談,這個項目提供了一些對垂直領域Agent開發有參考價值的工程經驗:

      1. 工具化范式,在「規則密集+語料稀缺」的領域收益最大。通用領域的模型已經從海量語料中內化了規則,工具環境是錦上添花。但在訓練數據極少的垂直領域,工具環境直接彌補了模型的知識盲區,Tianfu Agent比最強通用模型高出10個百分點即為例證。

      2. 工具數量膨脹后,工具管理本身成為獨立的工程問題。四級分類加動態注入的思路,對其他需要大量專業工具的垂直Agent有直接借鑒意義。

      3. 在缺乏自動驗證的領域,不確定性量化是務實的次優方案。編碼Agent有測試,醫療Agent有循證指南,但很多領域沒有——雖然術數是一個極端案例,但這種情況下置信度機制的作用值得關注。

      4. 「知識即接口」,在規則密度高的場景比「知識即提示詞」更可靠。把規則從Prompt搬進函數,是解決模型長上下文「選擇性失憶」的一種直接手段。

      Coding Agent的Harness時代已經到來。Tianfu Agent某種程度上證明了,這條路不只屬于編程——在足夠結構化的垂直領域,該范式可能同樣成立。

      參考資料:

      MingLi-Bench開源倉庫:https://github.com/DestinyLinker/MingLi-Bench Tianfu Agent技術報告:https://destinylinker.github.io/MingLi-Bench/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      飆漲近4%!港股硬科技再創上市新高

      飆漲近4%!港股硬科技再創上市新高

      每日經濟新聞
      2026-05-25 10:36:39
      可能在吸“毒”!這個網紅神器徹底火了,專家緊急提醒,很多杭州人在玩

      可能在吸“毒”!這個網紅神器徹底火了,專家緊急提醒,很多杭州人在玩

      都市快報橙柿互動
      2026-05-25 14:37:34
      炸了!五冠傳奇哈珀怒懟裁判:NBA到底是誰在比賽?

      炸了!五冠傳奇哈珀怒懟裁判:NBA到底是誰在比賽?

      觀星娛記
      2026-05-24 13:13:19
      景甜攤上大事了?曝富豪已走程序,應是湊不齊五千萬才鬧掰!

      景甜攤上大事了?曝富豪已走程序,應是湊不齊五千萬才鬧掰!

      精彩背后的故事
      2026-05-25 00:09:31
      烏軍收復590平方公里領土,俄呼吁國際社會阻止烏襲擊煉油廠

      烏軍收復590平方公里領土,俄呼吁國際社會阻止烏襲擊煉油廠

      史政先鋒
      2026-05-23 14:58:09
      最牛“空中四合院”!河北這村真敢干,樓頂直通車道,還帶立交橋

      最?!翱罩兴暮显骸?!河北這村真敢干,樓頂直通車道,還帶立交橋

      筆墨V
      2026-05-25 10:15:06
      浙江一女子家中多件貴重金器失竊,懷疑是前夫偷的,果斷報警,為了“自證清白”前夫無奈出面對質,真相令人意外

      浙江一女子家中多件貴重金器失竊,懷疑是前夫偷的,果斷報警,為了“自證清白”前夫無奈出面對質,真相令人意外

      勵職派
      2026-05-25 12:43:25
      他是工程專家,全力托舉妻子上太空,為她寫20多封家書,與有榮焉

      他是工程專家,全力托舉妻子上太空,為她寫20多封家書,與有榮焉

      小小科普員
      2026-05-25 14:27:10
      看了劉浩存高中時的照片,完全理解為何她被張藝謀相中了,太靈了

      看了劉浩存高中時的照片,完全理解為何她被張藝謀相中了,太靈了

      真的八卦小學弟
      2026-05-25 11:30:17
      教育最大的亂象:不是教師不作為,而是家長越位、學生缺位

      教育最大的亂象:不是教師不作為,而是家長越位、學生缺位

      細說職場
      2026-05-24 16:18:24
      1983年,紅衛兵頭子被判刑,晚年淪落到撿菜葉子充饑,活到2019年

      1983年,紅衛兵頭子被判刑,晚年淪落到撿菜葉子充饑,活到2019年

      米果說識
      2024-09-12 04:20:03
      日媒:丑聞實錘,高市成了笑話,日專家“日本大選被玩成真人秀”

      日媒:丑聞實錘,高市成了笑話,日專家“日本大選被玩成真人秀”

      吳紒愛體育
      2026-05-24 22:50:18
      48集戰爭大劇來襲,張嘉益、胡歌、宋佳領銜,血與淚的悲壯史!

      48集戰爭大劇來襲,張嘉益、胡歌、宋佳領銜,血與淚的悲壯史!

      樂楓電影
      2026-04-01 14:39:06
      16場0球!3000萬大中鋒淪為“水貨”,1數據創造意甲歷史最差!

      16場0球!3000萬大中鋒淪為“水貨”,1數據創造意甲歷史最差!

      英超這些事兒
      2026-05-25 14:34:41
      圓滿結果的最后一戰,很好地指出了卡里克要解決的終極問題

      圓滿結果的最后一戰,很好地指出了卡里克要解決的終極問題

      寫球的牧子
      2026-05-25 11:33:34
      曼晚:隊內氛圍好是曼聯一大變化,這離不開阿莫林打下的基礎

      曼晚:隊內氛圍好是曼聯一大變化,這離不開阿莫林打下的基礎

      懂球帝
      2026-05-25 13:46:23
      女生主動起來讓男生措手不及!網友:讓我遞給她毛巾,瞬間就懂了

      女生主動起來讓男生措手不及!網友:讓我遞給她毛巾,瞬間就懂了

      另子維愛讀史
      2026-05-19 07:55:37
      尾盤操作思路:半導體大漲是走是留?一句話直接告訴你!

      尾盤操作思路:半導體大漲是走是留?一句話直接告訴你!

      龍行天下虎
      2026-05-25 14:28:32
      章子怡驕傲了!醒醒鋼琴公演氣場全開,汪峰帶三個孩子一起去支持

      章子怡驕傲了!醒醒鋼琴公演氣場全開,汪峰帶三個孩子一起去支持

      甜心貓女
      2026-05-25 10:16:45
      于正談《給阿嬤的情書》:全程樸素且克制,但歌頌了人與人之間最美好的鏈接

      于正談《給阿嬤的情書》:全程樸素且克制,但歌頌了人與人之間最美好的鏈接

      現代快報
      2026-05-25 13:45:04
      2026-05-25 15:11:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15303文章數 66887關注度
      往期回顧 全部

      科技要聞

      華為發表半導體演進新定律

      頭條要聞

      騎馬造勢的車企原董事長落馬 2個月前曾公開出席活動

      頭條要聞

      騎馬造勢的車企原董事長落馬 2個月前曾公開出席活動

      體育要聞

      如果不好好守門,他可能早就繼承家業了

      娛樂要聞

      廣電總局發布2026年“微短劇+”行動計劃推薦劇目

      財經要聞

      退市!33年“A股不死鳥”落幕

      汽車要聞

      國民家轎再上新 帝豪向上系列限時5.59萬起

      態度原創

      藝術
      健康
      數碼
      教育
      手機

      藝術要聞

      他把葡萄畫成了美少女

      外泌體 ≠ 生長因子!它們之間究竟有何區別?

      數碼要聞

      英偉達親自下場造CPU!聯想內部流出“N1x”項目

      教育要聞

      考前焦慮最可怕的,不是成績,而是“我不能失敗”

      手機要聞

      華為nova 16系列官網上架預訂:四款機型齊發 外觀設計全公開

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩欧美aⅴ综合网站发布| 男人天堂2019| 天天躁日日躁狠狠躁欧美老妇小说| 亚洲AV噜噜在线成人网站| 亚洲二页| 深夜av免费在线观看| 亚洲综合一区国产精品| 国产不卡一区二区三区视频| 浏阳市| 亚洲国产中文在线二区三区免| 久久久久久久久久8888| 不卡乱辈伦在线看中文字幕| 毛片内射久久久一区| 伊人狠狠色j香婷婷综合| 综合一区二区| 精品一区二区三区在线观看视频| 国产专区一va亚洲v天堂| 亚洲中文字幕一区二区| 中文毛片无遮挡高潮免费| 亚洲第一色区| 国产成人精品电影在线观看| 91亚洲一区| 91青青草视频在线观看的| 久久久精品日韩免费观看| 韩国青草无码自慰直播专区| 国产综合一区二区三区麻豆| 岛国一区| 日韩久久无码免费毛片软件| 伊人久久大香线蕉AV网| 国产一区二区精品久久| 国产黄色自拍视频| 亚洲gay片在线gv网站| 韩国精品一区二区三区在线观看| 欧美激情一区二区亚洲专区| 国产a在视频线精品视频下载| 国产精品高清国产三级囯产AV | 亚洲精品一,二,三,四区AV| 亚洲一区二区三区无码国产| 色www88| 成人免费乱码大片a毛片| 夜夜躁狠狠躁日日躁|