網易首頁 > 網易號 > 正文申請入駐

清華大學與智譜AI聯手打造的"全能助手"GLM-5V-Turbo

2026-05-07 21:10:49　來源: 科技行者

北京舉報

分享至

這項由清華大學與智譜AI（Z.ai）團隊聯合開展的研究，于2026年4月29日以技術報告形式發布于arXiv預印本平臺，編號為arXiv:2604.26752。報告詳細介紹了新一代多模態智能體基礎模型GLM-5V-Turbo的核心設計理念、技術突破與實際應用成效，有興趣深入了解的讀者可通過該編號在arXiv上獲取完整原文。

一、為什么一個"只會讀文字"的AI已經不夠用了

長久以來，人工智能助手的主要本領是處理文字——讀一段話，寫一段話，回答一個問題。但現實世界遠不止文字那么簡單。當你打開電腦，屏幕上有按鈕、圖標、圖表、照片；當你瀏覽網頁，頁面上有圖片、表格、視頻；當你處理工作文件，里面有公式、截圖、設計稿。一個真正有用的AI助手，必須能像人一樣同時看懂這一切，并據此做出判斷和行動。

GLM-5V-Turbo正是為了解決這個問題而生的。研究團隊把這種能力稱為"多模態智能體"——所謂"多模態"，就是能同時處理文字、圖片、視頻、網頁、文檔等各種形式的信息；所謂"智能體"，就是能主動規劃、執行任務，而不只是被動回答問題。把這兩者結合起來，就是GLM-5V-Turbo的核心野心：讓AI真正能在真實的數字世界里"看、想、動"。

可以把這個目標理解成培養一名能勝任各種工作的"全能辦公室助手"。這位助手不僅要能讀懂文件（處理文字），還要能看懂設計圖（理解圖片），能操作電腦界面（GUI交互），能在網上查資料（使用工具搜索），甚至能寫代碼、做報告、制作PPT。GLM-5V-Turbo的整個研發過程，就是在系統性地訓練這樣一位"全能助手"。

二、給AI裝上一雙真正能看懂細節的眼睛：CogViT視覺編碼器

普通人的眼睛不只是拍照片的相機，而是能辨認出一張臉、分清楚兩個相似的漢字、感知空間距離的精密儀器。過去的AI視覺系統在這方面往往差強人意——能認出"這是一只貓"，但認不出"這只貓比那只貓大兩倍"，或者"這個按鈕在屏幕的左上角還是右下角"。

為了解決這個問題，研究團隊專門開發了一個叫做CogViT的全新視覺編碼器。所謂"視覺編碼器"，可以理解成AI的"眼睛處理中樞"——負責把看到的圖像轉化為AI能理解的信息。CogViT的特別之處在于，它不僅擅長認出"這是什么"，還擅長理解"在哪里"和"多大"，以及各種精細的細節。

研究團隊采用了一種"雙師授課"的訓練方式來打磨CogViT。在第一階段，他們讓CogViT同時向兩位"老師"學習：一位負責教它理解語義（圖像的意思），另一位負責教它感知紋理細節（圖像的質感和細節）。具體做法是：把圖像的35%遮住，讓CogViT猜出被遮住的部分應該長什么樣——就像玩拼圖游戲，練著練著就對整幅圖有了深刻理解。訓練數據方面，80%是高質量的自然圖片，10%是需要遵從指令的圖片，10%是科學圖像，覆蓋面相當廣。

第二階段，CogViT轉而學習"圖文對齊"——也就是理解文字描述和圖像之間的對應關系，就像學習"貓"這個詞對應的是哪種動物的樣子。這一階段做了三項重要升級：首先，把固定的圖片尺寸改成了靈活可變的尺寸，這樣無論圖片是橫的寬的還是豎的窄的，都能保持原比例處理，不再變形；其次，把訓練批次擴大到了64000張圖片同時處理，讓學習更穩定高效；第三，使用了80億條中英雙語圖文數據，讓CogViT同時具備中英文理解能力。

訓練完成后，CogViT（4.03億參數）和幾個知名的大型視覺編碼器（SigLIP2、DFN-H、MetaCLIP2-H，參數量都在4到6億之間）進行了比拼。結果顯示，CogViT在ImageNet零樣本識別上達到了83.5%的準確率，在38個CLIP基準測試的平均分上以76.4分領先，在14個通用目標識別基準的平均分上以45.1分位居前列。更關鍵的是，CogViT在細粒度理解和空間感知上的表現，為整個GLM-5V-Turbo系統后續的高難度任務打下了堅實基礎。

三、解決"圖片和文字如何在AI大腦里共處"的難題：多模態多詞預測

訓練好了"眼睛"，還有一個棘手的工程問題需要解決：當AI同時處理文字和圖片時，怎么保證兩者在"大腦"里和諧共存、高效運轉？

現代大型語言模型通常有一個叫做"多詞預測（MTP）"的設計，可以同時預測接下來的多個詞，這樣能大大加快生成速度。但當加入圖片之后，麻煩來了——圖片在AI內部不是用普通的"詞語編號"表示的，而是用一大串浮點數（視覺特征向量）表示的。這些視覺特征怎么傳遞給多詞預測模塊，成了一個需要仔細設計的問題。

研究團隊系統性地比較了三種方案。第一種方案是直接把圖片的視覺特征向量傳遞過去，這聽起來最直觀，但實際上會帶來復雜的工程問題：在大規模分布式訓練時，需要跨多臺機器傳輸大量數據，通信負擔很重。第二種方案是干脆把圖片部分全部屏蔽掉，讓多詞預測模塊只處理文字——這雖然簡單，但等于放棄了圖片信息的利用。

四、"全科培訓"而非"偏科速成"：超過30個任務類別的聯合強化學習

有了好的"眼睛"和高效的"大腦架構"，接下來的關鍵是如何訓練。研究團隊在這里做出了一個重要的戰略選擇：不走"專項突破"的路線，而是全面鋪開，同時訓練超過30個不同類別的任務。

這30多個任務涵蓋了感知、推理和智能體行動三大層次。在感知層面，包括圖片中物體的定位（比如"指出圖中的貓在哪里"）、視頻理解、文字識別（OCR）、圖表理解、三維空間感知等；在推理層面，包括數學題、邏輯題、科學問題解答等；在智能體行動層面，包括操作圖形界面、編寫代碼、使用搜索工具等。

這種"全科培訓"的方式，帶來了一系列可以量化的顯著提升。與之前的監督微調階段相比，強化學習階段在圖片定位任務上提升了4.8%，在視頻理解任務上提升了5.6%，在三維空間定位上提升了7.7%，在文字識別上提升了4.2%，在圖表理解上提升了7.7%，在數學和邏輯推理上提升了約1.8%，在圖形界面操作任務上提升了4.9%，在代碼生成任務上提升了0.2%，在綜合工具使用上提升了3.5%。

更有意思的是，研究團隊在這個過程中觀察到了一些規律性現象，對整個AI訓練領域都有參考價值。

第一個現象是：強化學習比監督微調更不容易造成"顧此失彼"。用監督微調（SFT）的方式，往往是訓練好了A技能就會影響B技能；但用強化學習（RL）訓練多個任務，多個任務往往可以同時穩定提升，相互干擾更少。

第二個現象是：多任務聯合訓練能讓單個任務學得更穩。那些數據量較少、單獨訓練容易震蕩不穩定的任務，放到多任務聯合訓練中反而變得更穩定——因為其他任務的存在給模型提供了更豐富的策略空間，避免它在某個小任務上"鉆牛角尖"。

第三個現象是"思維遷移"：在某個領域學到的推理方式，有時候能自然遷移到另一個領域，產生意外的正面效果。比如，在界面截圖轉代碼的任務上訓練，能夠支撐更復雜的多輪代碼編寫能力。

第四個現象是一個警示：強化學習覆蓋不到的任務，有時候會在訓練后性能下降。原因可能是隨著強化學習的推進，模型的"注意力"和"思維模式"越來越集中在被訓練的任務類型上，對完全不相關的任務產生遺忘效應。這意味著，選擇哪些任務加入強化學習的覆蓋范圍，本身就是一個需要認真規劃的決策。

五、訓練幾十個任務的"后勤保障"：大規模多模態強化學習基礎設施

要同時訓練幾十個不同類型的任務，還要用到圖片、視頻等多媒體內容，背后的工程挑戰是巨大的。研究團隊專門對訓練基礎設施進行了系統性重新設計，從四個維度入手解決工程難題。

第一個維度是統一任務和獎勵管理。不同任務需要不同的"評分方式"——有些任務可以用規則直接判斷對錯（比如數學題答案是否正確），有些任務需要另一個AI模型來評判（比如生成的代碼是否符合要求）。研究團隊構建了一個統一的"VLM強化學習訓練場"，讓所有任務都能在同一套框架下運行，同時設計了獨立的獎勵評估系統，規則型評估和模型型評估各自運行、靈活組合，不會相互干擾。每個訓練樣本還會標記來自哪個任務類型，這樣就能分別追蹤不同任務的學習進展。

第二個維度是流水線解耦和異步重疊。可以把訓練過程想象成一個流水線工廠：有的工人負責"生產樣本"（推理生成），有的工人負責"質檢"（獎勵計算），有的工人負責"打包運輸"（批次構建和參數更新）。傳統做法是這些工人必須按順序工作，前一步完成才能開始下一步。研究團隊改造后，讓這些環節盡可能并行：質檢可以在生產的同時進行，打包運輸可以和其他環節重疊，甚至那些遲遲沒有完成的"長尾樣本"也有專門的提前終止和緩存復用機制，不會拖累整條流水線。

第三個維度是針對多媒體內容的精細內存管理。圖片和視頻會消耗大量的GPU內存，如果不加控制，隨著處理圖片數量的增加，內存會線性爆炸。研究團隊為處理視覺內容的模塊設計了專門的內存管理策略，結合"按需重新計算"和"臨時卸載到CPU內存"兩種方式，在保持計算效率的同時大幅降低了運行時的內存壓力。

第四個維度是感知拓撲的智能分配和動態負載均衡。處理長視頻時，不同樣本的序列長度差異可能非常大，如果簡單地平均分配計算任務，有些計算節點會忙得喘不過氣，而另一些卻在閑等。研究團隊把數據分割的工作提前到數據加載階段，并通過異步的全局通信機制，讓每個計算節點只接收它真正需要處理的那部分數據。此外還實現了"聯合裝箱"——把序列長度和視覺內容量兩個維度都考慮進來，盡量讓每個批次在計算量和內存占用上都保持均衡。這些改進使得大規模多模態強化學習訓練在工程上變得切實可行。

六、從"會看圖"到"能干活"：多模態工具鏈的全面擴展

訓練好的模型如果只能回答問題，還遠遠不夠。現實世界中，真正有用的"全能助手"需要能主動使用各種工具——就像一個聰明的人類員工，不只是靠腦子想，還會用手機查資料、用Excel算數據、用相機拍照片。

GLM-5V-Turbo為此構建了一套系統性的多模態工具集，按照使用場景分為三大類。

通用場景工具涵蓋了識別類、搜索類、瀏覽器類和圖像處理類。識別類工具能認出植物（zai_recognize_plant）、識別地點（zai_recognize_location）、辨別人物（zai_recognize_person）；搜索類工具支持文字搜索網頁、以圖搜圖、搜索學術文獻等多種方式；瀏覽器類工具能從URL加載圖片、讀取網頁內容；圖像處理類工具則能裁剪圖片、在圖片上標注邊界框、標記點位、繪制幾何圖形、繪制三維邊界框，乃至追蹤視頻中的運動物體軌跡。

創作場景工具分為網頁創作和幻燈片創作兩類，支持從生成網頁大綱到輸出完整HTML代碼的全流程，以及從規劃PPT結構到生成幻燈片的一站式創作。

深度研究工具是最具特色的一類，包括在沙箱環境中運行Python代碼、以多模態方式打開URL并讀取其中的圖片、訪問圖片內容、執行搜索、搜索圖片資源，以及用"以圖搜圖"的方式進行圖像溯源。所有以"zai_"開頭的工具是智譜AI自研的專有工具，同時GLM-5V-Turbo也保持了與用戶自定義工具的兼容性。

有了這套工具鏈，GLM-5V-Turbo就能在真實任務中展現出"先看、再想、再動"的完整工作循環。比如復現一個真實網站時，模型可以先用GUI智能體工具截圖探索目標網站的布局和交互方式，理解清楚后再用UI轉代碼的能力重建頁面，如果需要用到原網站的圖片素材，還能直接用圖像工具裁取并嵌入輸出結果。整個過程不需要人類介入，完全自主完成。

這套工具鏈的實際效果也體現在了基準測試上。與上一代模型GLM-4.6V相比，GLM-5V-Turbo在復雜多模態任務上取得了大幅度進步：在MMSearchPlus（測試模型在網絡上進行多模態搜索的能力）上得分30.0，是上一代得分的近八倍；在BrowseComp-VL（測試模型瀏覽網頁并提取深層視覺信息的能力）上得分51.9，在ImageMining（后文詳細介紹）上得分30.7。

七、把AI接入真實工作流：與Claude Code和AutoClaw的深度整合

一個能力強的AI模型，還需要能無縫融入真實的工作環境。研究團隊把GLM-5V-Turbo接入了兩個當前最流行的AI工作框架：Anthropic公司的Claude Code和智譜AI自研的AutoClaw。

Claude Code是一個專注于軟件開發的AI助手框架，讓AI能在終端環境和本地文件系統中執行代碼、管理文件、解決工程問題。把GLM-5V-Turbo接入Claude Code之后，模型就不再只是"說說代碼該怎么寫"，而是能真正看懂終端輸出的錯誤信息、理解文件結構截圖，成為一個能實際操作的系統級合作者。

AutoClaw則是專注于瀏覽器操作和圖形界面自動化的框架，相當于給AI裝上了一雙能操作鼠標和鍵盤的"手"。GLM-5V-Turbo在AutoClaw中承擔的角色是"視覺語言控制器"——它的眼睛和大腦負責理解屏幕上發生了什么，然后指揮AutoClaw的"手"執行點擊、輸入、滾動等具體操作。

這種三者融合（GLM-5V-Turbo的感知與推理 + Claude Code的代碼執行 + AutoClaw的界面操作）構成了一個完整的感知-規劃-執行閉環。對于復雜的真實任務，GLM-5V-Turbo不再需要獨自承擔所有工作，而是作為"認知核心"負責理解和規劃，把具體的執行操作交給更專業的工具模塊，從而實現更穩健、更高效的任務完成。

八、"帶著眼睛去搜索"：ImageMining基準測試的誕生

為了衡量多模態智能體在現實任務中的真實水平，研究團隊還專門創建了一個全新的基準測試：ImageMining。這個名字很形象——像在礦山里挖礦一樣，從圖片中深度"挖掘"有價值的信息。

ImageMining與傳統的視覺問答測試有本質區別。傳統測試往往只需要模型"看一眼圖片，回答一個問題"。而ImageMining要求模型主動地、多步驟地使用工具來挖掘圖片信息——比如先把圖片中某個細小區域放大裁剪，再根據裁剪結果搜索相關信息，再根據搜索結果進一步推理。整個過程就像一個偵探根據現場證據一步一步追蹤線索，而不是只靠第一眼印象做判斷。

ImageMining包含217個精心設計的測試案例，橫跨七個領域：社交媒體、娛樂、商品、地點、富文本、自然和科學。在推理類型上，測試覆蓋了五類：精細識別（認出圖中特定的動植物或器物）、時空推理（從視覺線索推斷地點或時間）、事件推理（理解新聞事件或產品發布背景）、文本推理（讀懂圖中嵌入的學術論文或報告內容）和視覺搜索（通過以圖搜圖找到特定的藝術品或圖像）。

為了讓GLM-5V-Turbo具備這些能力，研究團隊構建了一套多階段的自動化數據管道，核心約束是"視覺跳轉"——在生成訓練數據時，推理鏈條中的每一步跳轉都必須經過圖片，強迫模型真正去分析圖片內容，而不是靠文字捷徑或背誦的知識來蒙混。此外還專門構建了針對圖表、地圖、海報等場景的OCR搜索數據，要求模型先識別并裁剪出圖中的關鍵元素，再基于這些元素發起搜索，把圖片從靜態的"看"變成動態的"探索"。

九、不只是搜資料，還能生成完整的多模態報告

除了回答單個問題，GLM-5V-Turbo還被賦予了完成端到端"深度研究"任務的能力。傳統的AI研究助手主要處理文字信息，而GLM-5V-Turbo能同時理解和利用圖片、圖表、截圖等視覺信息，從而訪問到那些"只存在于圖片里"的關鍵證據——比如學術論文中的實驗圖表、產品介紹頁面的設計截圖、新聞報道中的信息圖表。

完成研究之后，GLM-5V-Turbo還能以多種形式輸出成果。它可以生成圖文交織的深度報告，把搜集到的圖片和文字解說有機結合，類似于一篇專業的期刊綜述文章；可以把研究成果整理成結構化的幻燈片，自動規劃頁面布局，平衡文字和視覺內容；還可以生成博客風格的文章或結構化筆記，保留研究發現中視覺證據和文字結論的內在聯系。

研究報告中展示的一個具體例子是：給模型一篇學術論文PDF，讓它自動生成一個介紹該論文核心內容的網站。模型讀取PDF內容，理解論文的結構和關鍵圖表，然后生成一個包含文字介紹和嵌入圖表的完整網頁——全程無需人工介入。另一個例子是：要求模型比較兩個AI智能體系統，并生成一份包含從互聯網收集的相關圖片的綜合報告，模型會自動搜索圖片、判斷質量、挑選合適的配圖，整合進最終輸出文檔。

十、研究團隊總結的三條實踐經驗

在整個GLM-5V-Turbo的研發過程中，研究團隊積累了三條具有普遍指導意義的經驗，他們稱之為"設計視角"。

第一條經驗是：感知能力始終是多模態能力的基石。近年來，AI研究界的關注點越來越轉向規劃、推理等高層能力，但研究團隊發現，即使是當前最強大的視覺語言模型，在精細感知和空間理解上仍然頻繁出錯，而這些錯誤往往是更高層錯誤的根源——問題表面上看是"推理出了錯"，追根溯源卻是"沒看清楚"。他們還發現，讓模型學會批評自己的感知——比如在訓練中加入"找出這段推理中感知錯誤在哪里"的數據——能有效減少幻覺（AI胡編亂造的現象）。

第二條經驗是：智能體能力的培養適合分層進行，而不是一上來就扔給模型最難的長程任務。以圖形界面操作為例，研究團隊構建了一個從"識別單個界面元素"到"定位操作目標"到"預測單步動作"再到"規劃完整操作路徑"的多級任務體系，分層訓練，逐步提升。這樣做的好處是兩方面的：低層任務數據更容易收集和標注；而且在底層能力還不扎實的時候，強行堆高層任務往往事倍功半，反而讓訓練不穩定。

第三條經驗是：端到端長程任務要能作為有效的優化目標，關鍵在于任務定義清晰、驗證方法可靠、評估過程受控。現實中很多智能體任務是開放性的，目標模糊，執行邊界不清，結果難以評判，這樣的任務就算完成了也很難產生可復用的優化信號。研究團隊以他們開發的Vision2Web（視覺網站開發）基準為例說明這一點：每個任務不只有一句文字描述，還配有產品需求文檔、設計稿、參考頁面和資源素材，讓任務定義更精確；評估不只看最終結果，而是用基于工作流的驗證方式，逐步檢查每個依賴步驟的完成情況，讓失敗原因更容易被定位和分析。

十一、成績單：GLM-5V-Turbo的實際表現

在一系列基準測試上，GLM-5V-Turbo展現出了與研究目標高度一致的表現格局：多模態任務上成績突出，文字編程能力得以保留。

多模態編程測試方面，在Design2Code（把設計圖轉成代碼）上得分94.8，超越了同期Claude Opus 4.6（77.3分）和Kimi K2.5（91.3分）；在Flame-VLM-Code上得分93.8；在Vision2Web（視覺網站開發）上得分31.0。

多模態工具使用方面，ImageMining得分30.7，BrowseComp-VL得分51.9，MMSearch得分72.9，MMSearchPlus得分30.0（是上一代約八倍），SimpleVQA得分78.2，Facts得分58.6，V*（視覺搜索基準）得分89.0。

圖形界面智能體方面，AndroidWorld得分75.7（對比Kimi K2.5的43.1分和Claude Opus 4.6的62.0分），OSWorld得分62.3，WebVoyager得分88.5。

文字編程和Claw框架方面，在CC-Backend上得分22.8（超越了作為其基礎模型的GLM-5-Turbo的20.5分），在CC-Frontend上得分68.4，在CC-RepoExploration上得分72.2；在PinchBench（最佳得分）上達到87.0，在ClawEval上得分57.7（Pass@3為75.0），在ZClawBench上得分57.6。

這些成績表明，增加多模態視覺能力并沒有削弱文字編程能力，在某些維度上反而有所提升——這正是研究團隊最希望達到的效果：視覺感知不是"額外附加功能"，而是作為核心能力融入了整個系統。

十二、誠實面對：還有哪些難題沒解決

研究報告難能可貴地坦誠討論了當前仍然存在的挑戰，而不是只展示成功。

第一個挑戰是：如何讓AI發展出真正新穎的智能體策略，而不只是在人類示范的路徑上做微調。目前的訓練仍然嚴重依賴人工篩選的"冷啟動軌跡"（也就是人類演示的操作過程），這固然有效，但也從一開始就限定了模型能探索的策略空間。研究團隊發現，增加冷啟動階段的軌跡多樣性，能讓后續強化學習更容易發現更好的方案，這是一個有益的方向。但更根本的目標——讓AI完全自主地探索出比人類示范更優的策略，乃至發現"子智能體分工合作"或"多智能體協同"這樣更高層次的組織方式——仍然是未解決的難題。

第二個挑戰是：多模態內容在長程任務中的上下文管理。圖片消耗的"記憶空間"比文字多得多，視頻更是如此。當任務軌跡變長，早期的視覺觀察往往不得不被丟棄。文字信息可以通過壓縮摘要來保留核心內容，但視覺信息的壓縮要難得多——空間關系、細節特征、隨時間變化的視覺狀態，都很難用文字來忠實地概括。現有的記憶機制本質上還是以文字為中心的，面對長程多模態任務力不從心。研究團隊明確指出，這需要一種從根本上以多模態為原生設計出發點的記憶和上下文管理機制。

第三個挑戰是：模型和運行框架（harness）越來越深度地相互塑造，使得單純提升模型本身已不足夠。任務分解方式、工具調用策略、記憶設計、驗證循環——這些屬于"框架層面"的設計，都會影響整個系統能做到什么。同一個模型，在不同的框架設計下，表現可能大相徑庭。反過來，框架的最優設計也取決于模型當前的能力水平——某些框架設計在模型能力較弱時毫無用處，卻在模型跨過某個能力門檻后變得至關重要。這意味著，模型研發和框架研發必須協同進行，不能各自為政。

說到底，GLM-5V-Turbo代表的是AI從"問答機器"向"數字世界工作者"轉變過程中的一個重要節點。它證明了把視覺感知真正整合進AI的核心推理能力是可行的，而且整合之后，文字能力不但沒有退步，在某些維度上還因為視覺的加持而得到了強化。

歸根結底，這項研究最值得關注的不只是那些評測數字，而是它揭示的一個方向：感知是思維的前提，工具是行動的延伸，框架是能力的放大器——把這三者系統性地設計在一起，才能造就真正能在現實世界里工作的AI助手。對于我們普通用戶而言，這意味著未來的AI工具將不再需要你把截圖轉成文字再描述給它聽，而是能直接看懂你屏幕上的內容，然后幫你把事情做完。

有興趣深入了解這項研究所有技術細節的讀者，可以在arXiv平臺上通過編號2604.26752查閱完整的技術報告，報告公開免費獲取。

Q&A

Q1：GLM-5V-Turbo的CogViT視覺編碼器和普通的視覺處理模塊有什么區別？

A：CogViT是清華大學與智譜AI專為多模態智能體任務定制開發的視覺編碼器，核心優勢在于不僅能識別"這是什么"，還能精準理解"在哪里""有多大""空間關系如何"。它采用了"雙師蒸餾"的預訓練方式，同時向語義理解和紋理細節兩位"老師"學習，并支持可變尺寸圖片輸入。實測中，它以4.03億參數量在多個基準上超越了參數量更大的同類模型。

Q2：GLM-5V-Turbo的多模態工具鏈具體能幫用戶做哪些事情？

A：工具鏈覆蓋了三大場景。日常識別與搜索方面，能認植物、識地點、辨人物，支持以圖搜圖和學術文獻檢索。創作方面，能自動生成完整網頁HTML代碼和PPT幻燈片，支持從網址復制網站。深度研究方面，能自主瀏覽網頁截圖、讀取圖文混排內容、運行Python代碼，并生成圖文交織的綜合報告。這些工具可以通過chat.z.ai體驗，部分工具以"zai_"前綴調用。

Q3：ImageMining基準測試和普通視覺問答測試有什么本質不同？

A：普通視覺問答通常只需模型"看一眼圖回答一個問題"，是被動的單步任務。ImageMining則要求模型像偵探一樣主動展開多步驟調查：先對圖片局部進行裁剪放大，再根據視覺細節發起搜索，再根據搜索結果繼續推理，每一步的中間跳轉都必須經過圖片而非文字捷徑。它包含217個案例，跨越社交、商品、科學等七個領域，測試的是真正的"帶眼睛思考"能力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.