【TechWeb】5月8日消息,繼今年早些時候發布全球首個面向信貸場景的多模態評測基準FCMBench-V1.0與V1.1后,奇富科技近日再推重磅成果,正式發布信貸場景專屬的視頻評測任務FCMBench-Video-V1.0,旨在通過視頻任務推動信貸AI評測從“看懂一張圖”進階到“理解一段過程”。這為信貸場景中的視頻理解能力提供了一把可量化的新標尺,標志著AI評測從“靜態識別”向“動態研判”邁出了關鍵一步。
![]()
一張精心PS的證件照可能騙過靜態審核系統,但一段手持拍攝的連續視頻卻會“泄密”:人物動作的連貫性、光照變化的連續性、對焦漂移的過程,乃至紙張翻頁時的物理褶皺,這些天然攜帶的真實性信息極難被完美偽造。
FCMBench-Video正是錨定這一特性,將多模態大模型的評測,從二維圖像推向了三維時空。
如果說FCMBench解決的是“模型能否讀懂靜態證照”的問題,那么FCMBench-Video關注的則是更具挑戰性的能力邊界。視頻帶來的不僅是更多畫面,而是時間維度的引入,以及信息在時間軸上的組織方式。模型不僅需要識別內容,還需要理解這些內容在何時出現、是否重復出現、是否與前后信息一致,以及在復雜干擾下是否仍能保持穩定判斷。這些能力直接關系到反欺詐鏈條中的關鍵環節,也是傳統評測體系難以覆蓋的盲區。
舉個例子。一段視頻里同一個證件反復出現,模型得學會“去重”,不能數一次就算一次;連續出現好幾份文件,模型得會“對賬”,比一比它們之間有沒有矛盾;如果出了風險,模型還得能說出“我是根據第幾秒的畫面下的判斷”。這些不再是簡單的識別,而是考驗記憶、推理和判斷的綜合題。
更值得關注的是,FCMBench-Video還創新性加入“防忽悠”測試,專門檢驗模型的反欺詐能力。測試中,研究人員會在視頻末尾故意添加“已核實通過”等誤導性提示,觀察模型會不會因此忽略前面發現的風險。結果顯示,不同模型的反欺詐能力差距懸殊,且暫無通用方法能規避此類誤導,這一發現直接點明視頻AI模型的安全性需專項測試、持續優化,為行業技術迭代指明了關鍵方向。在數據構建層面,FCMBench-Video延續了來源于業務、服務于業務的原則,同時進一步平衡了真實性與合規性之間的關系。通過模擬真實拍攝過程,結合多種現實環境下的畫質變化,并在此基礎上構建不同復雜度的視頻樣本,使評測既具備真實世界的挑戰性,又避免涉及敏感信息。這種方法不僅保證了評測結果的參考價值,也為行業提供了一種可復制的數據構建路徑。
從整體評測結果來看,當前主流視頻多模態模型之間仍存在較大能力差距,即使是表現最優的模型,在部分關鍵任務上也未達到可以直接應用于生產環境的水平。這意味著,視頻理解能力在信貸場景中的落地仍處于早期階段,更印證了FCMBench-Video具備極強的能力區分度,能精準衡量模型的真實水平與提升空間,為企業技術選型、科研機構研究提供權威參考。
作為FCMBench評測基準的重要組成部分,FCMBench-Video延續開放共享理念,配套數據集與工具已同步開源開放,旨在匯聚更多科研工作者及行業機構參與信貸AI能力建設,為信貸AI技術落地實際應用搭建堅實橋梁。
需要說明的是,當前版本的FCMBench-Video所覆蓋的文檔視頻分析,僅為信貸場景視頻分析任務的細分維度之一。本次任務設計,提煉自奇富科技當前迭代打磨中的視頻盡調AI產品。AI視頻盡調不僅要求模型具備準確的文檔內容理解能力,更需要對企業經營現場開展全方位綜合研判,涵蓋廠房環境、生產設備、原料庫存、工藝流程、人員作業狀態等關鍵維度,進而推演企業真實經營現狀、償債履約水平及潛在經營風險。這類真實業務訴求,對視頻盡調AI模型的產業化落地提出了更高標準與全新挑戰。
FCMBench-Video所構建的評測方法論,能夠助力復雜視頻盡調場景筑牢核心技術底座,推動多模態信貸AI評測從“看懂一張圖”升級為“理解一座工廠”,逐步完善覆蓋信貸全業務流程的評測能力體系,實現評測基準源于業務場景、賦能業務落地。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.