<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      金融大模型哪家強?11款主流達模型橫向測評,中國平安“險勝”DeepSeek登頂權威榜單

      0
      分享至

      保觀 | 聚焦保險創新

      由于近期公眾號推送機制改變,歡迎您在公眾號首頁點擊右上【···】,將保觀設為“星標”,及時跟蹤行業最新資訊

      隨著人工智能技術的快速發展,大模型已經成為驅動金融行業生態變革的重要力量。在這一大背景下,如何科學、客觀地評估金融大模型的真實能力,成為全行業所關注的焦點。

      近日,由上海人工智能實驗室聯合金融行業權威機構共同推出的CNFinBench評測榜單正式發布,引起了業內的廣泛關注。

      據悉,該榜單分別從金融專業知識、業務理解和分析、推理和計算、合規性和風險控制、應用程序安全性五個核心維度,對國內外主流大語言模型進行了全方位的專業評估,為金融行業選擇大模型應用提供了重要參考依據。


      具體來看,本次榜單共收錄11款全球領先的金融大模型,涵蓋國內外開源與閉源兩大類型。同時11款大模型在五大測評維度中各有側重,反映出不同研發主體在金融大模型領域的技術優勢與布局方向

      具體來看,“金融專業知識問答”考察的是模型對金融概念、法規的掌握程度,DeepSeek-R1以73.5的單項得分排名第一;

      “金融業務理解與分析”評估的是模型處理實際業務流程的能力,Gemini-2.5-Flash以65.2的單項得分排名第一;

      “金融事實推理與計算”評估的是模型在復雜金融場景下的邏輯推演能力,PinganGPT-Qwen3-32B以78.0的單項得分排名第一;

      “金融合規與風險控制”評估的是模型對監管要求的敏感性與判斷力,Doubao-1.5-pro以57.4的單項得分排名第一;

      “金融內生與應用安全”評估的是模型在應用過程中的穩定性和安全性,Gemini-2.5-Flash以99.7的單項得分排名第一。

      其中由平安集團推出的金融大模型PinganGPT-Qwen3-32B以綜合得分66.1分的成績摘得榜單第一名,成為本次測評中的最大亮點。在加速迭代的AI浪潮中,平安在金融領域多年沉淀的技術實力仍然不容小覷。

      本文將對上榜的11款大模型進行深度分析,解讀各模型的測評表現、技術特點等。

      1.PinganGPT-Qwen3-32B

      發布時間:2026年2月5日

      綜合評分:66.1

      PinganGPT-Qwen3-32B由中國平安旗下團隊Omni-Sinitic研發,于2026年2月5日正式發布,并在3月4日完成更新,作為一款閉源金融大模型,參數量僅32B,卻以66.1的綜合得分斬獲榜單第一。

      在測評表現上,該模型的金融專業知識評分為69.3分、業務理解和分析為56.7分、推理和計算為78分、合規性和風險控制為54.7分、應用程序安全性為72分,其中推理和計算得分是五大測評維度中評分最高的一項,其他維度得分同樣處于上游水平,全方位的優異表現印證了平安集團在金融垂直領域的技術積累。

      具體來看,該款模型依托平安30萬億字節的海量金融數據、3.2 萬億高質量文本語料訓練而成,能夠實現復雜金融場景下的精準數值計算與嚴謹邏輯推理,如今已經廣泛的應用于平安生態內的車險報案、智能問數、費用審核等97個實際業務場景。

      此外,中國平安依托于全金融牌照和自主研發的金融大模型,將人工智能技術嵌入到客戶服務、風險減量、信貸風控等多個領域,實現內部效率重構到外部生態賦能的完整閉環。截至2025年前三個季度,中國平安已沉淀30萬億字節數據,覆蓋近2.50億個人客戶,超75億圖片語料,以海量數據為基礎,讓AI持續拓展場景應用的深度和廣度。

      2.DeepSeek-R1

      發布時間:2025年5月28日

      綜合評分:66.0

      DeepSeek-R1由DeepSeek研發,于2025年5月28日正式發布,作為一款開源大模型,671B的超大參數量成為本次榜單的一大亮點,并以66.0的綜合得分位居榜單第二名,充分展現出在金融大模型領域的強勁競爭力。

      在測評表現上,該模型的金融專業知識評分為73.5分、業務理解和分析為54.4分、推理和計算為76.9分、合規性和風險控制為48.8分、應用程序安全性為76.6分。其中金融專業知識問答是11家大模型中評分最高的,合規與風險控制得分稍低,也是與第一名拉開差距的關鍵因素之一。

      具體來看,DeepSeek-R1最大的優勢就是能夠在超大參數量支撐下,具備較強的知識儲備與推理能力,在金融專業知識的覆蓋度與準確性上表現突出,但在風險預警等場景下,性能仍有較大提升空間。

      3.Doubao-1.5-pro

      發布時間:2025年1月22日

      綜合評分:64.3

      Doubao-1.5-pro由字節跳動研發,于2025年1月22日正式發布,作為一款閉源大模型,其參數量未公開,憑借64.3的綜合得分,位居榜單第三名,是國內自研金融大模型的重要代表之一。

      在測評表現上,該模型展現出均衡的發展特點,其中金融專業知識評分為72.9分、業務理解和分析為52.8分、推理和計算為66.0分、合規性和風險控制為57.4分、應用程序安全性為72.4分。

      作為字節跳動在大模型領域的核心成果,Doubao-1.5-pro依托字節跳動在自然語言處理、人工智能技術上的數據積累,具備較強的自然語言交互能力與場景適配能力,能滿足金融客服、智能咨詢等標準化的金融場景需求。同時在合規風險把控上表現尤為突出,進一步滿足了金融融行業監管和政策法規要求。

      4.Claude-sonnet4

      發布時間:2025年5月22日

      綜合評分:63.5

      Claude-sonnet4由美國科技公司Anthropic研發,于2025年 5月22日正式發布,作為海外的頭部科技企業的閉源大模型,其參數量未公開,以63.5的綜合得分位居榜單第四名,潛力十分巨大。

      在測評表現上,該模型金融專業知識評分為71.3分、業務理解和分析為61.2分、推理和計算為52.7分、合規性和風險控制為51.5分、應用程序安全性為80.8分。其中除了合規與風險控制是短板,其他領域的得分都處于上游水平。

      與其他大模型有所不同,Claude-sonnet4在自然語言理解、復雜業務場景分析上具備不小的優勢,可以根據任務復雜度靈活分配算力,從而進行快速響應,以及復雜問題分析。所以目前Claude-sonnet4主要用于日常開發或者企業級落地應用中,憑借其出色的成本效益和穩定可靠性,成為眾多開發團隊的首選主力模型。

      5.Qwen3-235B-A22B-Instruct

      發布時間:2025年7月21日

      綜合評分:62.2

      Qwen3-235B-A22B-Instruct由阿里巴巴研發,于2025年7月21日正式發布,參數量在本次上榜開源模型中處于中等水平,綜合得分62.2分,位居榜單第5名。

      在測評表現上,該模型表現較為均衡。具體來看,金融專業知識評分為63.4分、業務理解和分析為60.4分、推理和計算為62.3分、合規性和風險控制為51.6分、應用程序安全性為73.1分,僅應用程序安全性這一項得分突破了70。

      作為阿里系大模型在金融領域的重要布局,該模型與阿里旗下的電商、金融生態深度融合,在推理能力、多語言支持、工具調用上具備天然的優勢。不過在金融專業知識深度、合規風險把控上仍有提升空間。未來有望依托阿里的技術生態,在更多的金融場景里實現落地。

      6.Gemini-2.5-Flash

      發布時間:2025年4月17日

      綜合評分:58.9

      Gemini-2.5-Flash由海外頭部科技企業谷歌研發,于2025年4月17日正式發布,作為閉源大模型,其參數量未公開,以58.9的綜合得分位居榜單第六名。

      在測評表現上,與其他的大模型有所不同,該模型呈現出極度不均衡的特點,99.7的金融內生與應用安全得分創下本次榜單的最高分,而金融專業知識問答得分僅23.0、合規與風險控制得分僅36.6,均位列榜單倒數,成為其綜合得分偏低的主要原因。

      作為谷歌旗下的重要大模型之一,Gemini-2.5-Flash在模型安全、業務場景分析、邏輯推理上具備一定的優勢,這體現了谷歌在人工智能安全、數據隱私保護上的技術積淀。但值得注意的是,海外大模型進入中國市場時,期監管政策適配性、專業術語的理解成為了進入中國市場的主要障礙。

      7.TouchstoneGPT-7B-Instruct

      發布時間:2024年11月8日

      綜合評分:58.4

      TouchstoneGPT-7B-Instruct由粵港澳大灣區數字經濟研究院研發,于2024年11月8日正式發布,是一款開源小參數量大模型,以 58.4的綜合得分位居榜單第七名,是中小科研機構在金融大模型領域的代表案例之一。

      在測評表現上,該模型表現中規中矩,金融專業知識評分為64.8分、業務理解和分析為40.8分、推理和計算為59.3分、合規性和風險控制為53.5分、應用程序安全性為73.4分。

      TouchstoneGPT-7B-Instruct最大的特點是部署成本低、運行效率高,適合中小金融機構進行部署運用。但是因為受限于參數量的影響,該模型在金融業務理解與分析上存在不小的短板,難以滿足復雜的金融場景需求,所以不適合大型金融機構進行部署運用。

      8.GPT-4o

      發布時間:2025年5月13日

      綜合評分:56.6

      GPT-4o由海外科技公司OpenAI研發,于2025年5月13日正式發布,其參數量暫未公開,以56.6的綜合得分位居榜單第八名,表現低于外界預期。

      在測評表現上,該模型的發展較為均衡,但整體得分水平偏下。其中金融專業知識評分為37.5分、業務理解和分析為63.9分、推理和計算為69.0分、合規性和風險控制為41.8分、應用程序安全性為70.8分。

      作為全球領先的通用大模型,GPT-4o的優勢是成本與效率優化顯著、綜合性能領先,同時可以深度集成至ChatGPT全平臺。但該模型受限于研發時間與行業數據積累,在金融專業知識、業務理解、合規風控上存在明顯的不足。

      9.Kimi-K2-Instruct

      發布時間:2025年9月5日

      綜合評分:53.6

      Kimi-K2-Instruct由Moonshot研發,于2025年9月5日正式發布,作為一款超大參數量的開源大模型,其1000B的參數量為本次榜單之最,與超大參數量形成鮮明反差的是綜合得分僅53.6,位居榜單第九名。

      在測評表現上,該模型呈現兩極分化的特點。其中金融專業知識評分為35.4分、業務理解和分析為53.8分、推理和計算為59.8分、合規性和風險控制為24.3分、應用程序安全性為69.0分。

      作為千億參數量的開源大模型,Kimi-K2-Instruct在需要強計算能力的場景中具備較強的優勢,比如數據建模、金融量化分析、邏輯推理等等。但在金融專業知識、合規風控上存在明顯短板。這說明大參數量并非金融大模型的核心競爭力,未來還需要結合金融行業數據進行專項訓練。

      10.Fin-R1

      發布時間:2025年3月21日

      綜合評分:49.5

      Fin-R1由上海財經大學團隊研發,于2025年3月21日正式發布,作為一款由高校科研實驗室推出的開源小參數量大模型,綜合得分為49.5,居榜單第十名。

      在測評表現上,該模型得分均處于下游水平。其中金融專業知識評分為36.8分、業務理解和分析為50.8分、推理和計算為60.1分、合規性和風險控制31.4分、應用程序安全性為68.5分。

      作為高校科研成果,Fin-R1的研發重點更多的放在技術創新上,因此在金融專業知識、合規風險控制、業務理解等方面并不占據優勢,因此難以與商業金融場景進行適配。

      11.Llama3.3-70B-Instruct

      發布時間:2024年12月6日

      綜合評分:46.0

      Llama3.3-70B-Instruct由海外科技巨頭Meta研發,于2024年12月6日正式發布,70B的參數量處于中等水平,以46.0的綜合得分成為本次榜單的最后一名。

      在測評表現上,該模型得分均位列下游。其中金融專業知識評分為22.9分、業務理解和分析為53.8分、推理和計算為59.8分、合規性和風險控制24.3分、應用程序安全性為69.0分。

      該模型最大的特點就是成本低、性能優秀,且在大模型領域具備一定的技術影響力。而在此次測評中的不佳表現的主要原因是該模型的側重點放在了自然語言交互,而在金融領域中缺乏針對性的訓練與優化。

      最后,CNFinBench發布的金融大模型測評榜單,為行業提供了專業的評估和參考。同時以平安集團為代表的金融大模型,已經充分展現出國內在金融大模型領域的技術實力和數據積累。未來隨著AI技術與金融業務的持續融合,金融大模型將發揮愈加重要的作用。

      保觀知識星球

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      俄羅斯讓中國心涼?真正恐怖的并非西方圍堵,而是我們低估了自己

      俄羅斯讓中國心涼?真正恐怖的并非西方圍堵,而是我們低估了自己

      混沌錄
      2026-04-09 16:27:09
      華為韜定律改寫半導體規則!博主感慨1.4萬買麒麟手機為支持 突破美國封鎖這錢花的值

      華為韜定律改寫半導體規則!博主感慨1.4萬買麒麟手機為支持 突破美國封鎖這錢花的值

      快科技
      2026-05-25 15:52:16
      白天作陪晚上同宿?明碼標價8000一回!高端伴游淪為色情交易窩點

      白天作陪晚上同宿?明碼標價8000一回!高端伴游淪為色情交易窩點

      網絡易不易
      2026-01-20 10:17:46
      兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

      兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

      三農老歷
      2026-04-13 17:10:06
      男子冒充大老板,訂購5輛奔馳,總價450萬。美女銷售為促成大單,為其墊付6000余元食宿,誰知,3天后,男子突然消失,女銷售才發現被騙

      男子冒充大老板,訂購5輛奔馳,總價450萬。美女銷售為促成大單,為其墊付6000余元食宿,誰知,3天后,男子突然消失,女銷售才發現被騙

      大愛三湘
      2026-05-08 11:09:27
      刷爆紀錄!文班33+8+5+3帽再創歷史第一 統治攻防盡顯外星人本色

      刷爆紀錄!文班33+8+5+3帽再創歷史第一 統治攻防盡顯外星人本色

      醉臥浮生
      2026-05-25 10:48:16
      上海已試行出租車限制名單措施

      上海已試行出租車限制名單措施

      澎湃新聞
      2026-05-25 14:04:12
      毛主席83歲給華國鋒的珍貴書法,練字真的有意義嗎?

      毛主席83歲給華國鋒的珍貴書法,練字真的有意義嗎?

      書畫相約
      2026-05-11 10:09:02
      留在英超的熱刺:主業賺錢,副業踢球?

      留在英超的熱刺:主業賺錢,副業踢球?

      體育產業生態圈
      2026-05-25 18:11:12
      特朗普宣布,與伊朗握手言和!以色列得罪27國,中方領銜多國介入

      特朗普宣布,與伊朗握手言和!以色列得罪27國,中方領銜多國介入

      面包夾知識
      2026-05-25 15:12:03
      電影“阿嬤”中國爆火,新加坡媒體立馬抹黑,反遭網友集體扒祖墳

      電影“阿嬤”中國爆火,新加坡媒體立馬抹黑,反遭網友集體扒祖墳

      譚談社會
      2026-05-24 17:28:42
      科創50指數大漲近6%,超3200只個股下跌,A股只剩抱團追高一條路

      科創50指數大漲近6%,超3200只個股下跌,A股只剩抱團追高一條路

      東方豪俠
      2026-05-25 17:11:02
      形勢有多嚴峻?老公7年大廠經驗,43歲被裁員,沒有面試機會…

      形勢有多嚴峻?老公7年大廠經驗,43歲被裁員,沒有面試機會…

      慧翔百科
      2026-05-25 12:21:58
      保安用手接下跳樓女孩,被砸癱瘓無錢救治,女孩家屬:你多管閑事

      保安用手接下跳樓女孩,被砸癱瘓無錢救治,女孩家屬:你多管閑事

      莫地方
      2026-05-25 01:05:03
      徐帆回應離婚幾個月后,68歲馮小剛再惹爭議,養女徐朵成導火索!

      徐帆回應離婚幾個月后,68歲馮小剛再惹爭議,養女徐朵成導火索!

      鄉野小珥
      2026-05-18 08:58:28
      人口大遷徙大勢所趨?明后年,越來越多人會流入這4座城市

      人口大遷徙大勢所趨?明后年,越來越多人會流入這4座城市

      墜入二次元的海洋
      2026-05-25 17:02:19
      粟裕升任司令員,得知此人給自己做副手,粟裕:他應為正,我為副

      粟裕升任司令員,得知此人給自己做副手,粟裕:他應為正,我為副

      興趣知識
      2026-05-25 16:06:58
      若老人大規模去世,雖不用發養老金了,但很有可能產生次生危害?

      若老人大規模去世,雖不用發養老金了,但很有可能產生次生危害?

      混沌錄
      2026-05-25 18:50:08
      毛澤東躲入農婦家避敵搜查,她竟大喊:共產黨在此,快來抓!

      毛澤東躲入農婦家避敵搜查,她竟大喊:共產黨在此,快來抓!

      鑒史錄
      2026-05-24 16:35:50
      手機里的飛行模式作用太大了 如果每天不用,那就太可惜了

      手機里的飛行模式作用太大了 如果每天不用,那就太可惜了

      小柱解說游戲
      2026-05-25 18:57:08
      2026-05-25 19:27:00
      保觀 incentive-icons
      保觀
      保險科技資訊平臺!
      3108文章數 1333關注度
      往期回顧 全部

      財經要聞

      紙包火的秘密:前發審委員的冒險游戲

      頭條要聞

      牛彈琴:伊朗現在哭笑不得 美官員讓伊別理特朗普推文

      頭條要聞

      牛彈琴:伊朗現在哭笑不得 美官員讓伊別理特朗普推文

      體育要聞

      如果不好好守門,他可能早就繼承家業了

      娛樂要聞

      李晨鄭愷跑男停宣:12年元老被邊緣化

      科技要聞

      華為:沒有先進光刻機也能造出高端芯片

      汽車要聞

      啟境GT7定檔5月29日預售 提供三電機版本

      態度原創

      家居
      親子
      健康
      房產
      公開課

      家居要聞

      生與命相依 舊公寓改造

      親子要聞

      卵巢功能衰退還能懷孕嗎?促排期間只有七個卵泡怎么辦啊?

      外泌體 ≠ 生長因子!它們之間究竟有何區別?

      房產要聞

      工抵房騙局!134套房款入私賬!海南這個盤,坑慘買房人!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 97精品亚成在人线免视频| 国产日韩精品一区二区在线观看播放 | 国产自产对白一区| 国产伦久视频免费观看视频| 国产xxxxxxx| 国产美女精品免费视频| 精品国产91久久久久久亚瑟| 久操热在线视频免费观看| 亚洲精品国产中文字幕| 久久婷婷综合色丁香五月| 久久色窝窝| 亚洲精品亚洲中文字幕| 3p小视频| 国产在线一区二区不卡| 日本一区不卡高清更新二区| www.尤物视频.com| 91狼友社| 人妻av天堂一区二区| 亚洲一区二区三区 无码| 国产精品激情av在线播放| 免费网站观看www在线观| 亚洲av永久中文在线| 自拍视频在线观看成人| 国产不卡精品视频男人的天堂| 大屁股av| 国模粉嫩小泬视频在线观看| 欧洲精品码一区二区三区| 精品福利一区二区三区免费视频| 亚洲大尺度在线观看| 国产成人免费ā片在线观看 | 亚洲成A人片在线观看中文| 久久精品国产热久久精品国产亚洲| 一本大道久久久久精| 成人精品视频一区二区三区| 天天躁日日躁狠狠躁一级毛片| 免费精品国自产拍在线不卡| 中文日产乱幕九区无线码| 日韩高清不卡一区二区三区| 精品人妻av区乱码| 色偷偷亚洲精品一区二区| 人妻?日韩?欧美?综合?制服|