網易首頁 > 網易號 > 正文申請入駐

HyperEyes：并行多模態搜索智能體的效率革命

2026-05-19 18:49:37　來源: 機器之心Pro

天津舉報

分享至

現有的開源多模態搜索智能體普遍受困于「裁剪 - 再搜索」的串行處理模式，面對多目標時往往陷入交互冗長、錯誤級聯累積的泥沼。

為此，小紅書研究團隊提出了一款全新架構的模型：HyperEyes。通過統一定位與搜索的動作空間、構建并行可學習數據以及雙粒度效率感知強化學習的全棧設計，HyperEyes 成功實現了從「搜得更深」到「搜得更寬」的并行多模態搜索范式躍遷。

論文地址：https://arxiv.org/abs/2605.07177
代碼地址：https://github.com/DeepExperience/HyperEyes

背景：多模態搜索智能體的「串行困局」

當前主流的 Agent 在面對包含多個實體的復雜圖片時，往往只能采用笨拙的「N 輪串行調用」策略。

這種傳統的處理路徑帶來了三重難以逾越的困境：首先是極大的交互冗余，原本一句話的多實體查詢被迫退化為多次單實體搜索，導致延遲劇增；其次是錯誤放大的多米諾骨牌效應，前置定位一旦發生偏差，后續的搜索結果將被全部污染；最后是模型訓練中普遍存在的獎勵偏差與「信用分配」問題。

現有模型往往僅以「最終答案對錯」作為唯一獎勵標準，這不僅會導致智能體為了追求表面準確率而養成「暴力多搜」的壞習慣，引入更多噪聲；更致命的是，這種粗粒度的稀疏獎勵會帶來粗暴的「連坐懲罰」—— 在那些最終失敗的探索軌跡中，原本正確、富有邏輯的中間推理和工具調用也被一并全盤否定，導致模型根本無法從失敗中有效汲取局部經驗。

方法：從動作空間、數據到 RL 的「全棧式」效率重塑

為了讓智能體真正具備「一次出手，多目標并發」的內生能力，HyperEyes 研究團隊在動作空間、數據合成與強化學習三個維度上進行了徹底的底層重構。

傳統的智能體通常將「視覺裁剪」和「網絡搜索」作為兩個獨立的步驟，而HyperEyes 打破了這一隔離，提出了「統一定位即搜索」（UGS）的動作空間重構方案。它將視覺定位框直接作為檢索動作的內嵌參數，使得一次函數調用就能并發攜帶多個目標框。這一設計從物理層面徹底打通了單輪交互內多目標并發的通路。

然而，空有架構還不夠，開源社區長期缺乏「并行搜索」的訓練語料。為此，研究團隊設計了一套精密的合成流水線。他們首先將多類圖片拼接，合成出必須同時進行定位與檢索才能解答的視覺查詢；接著基于圖譜隨機游走，構造出多約束的交集問題并嚴格剔除捷徑解；最后，通過漸進式拒絕采樣（PRS）技術，在嚴格的遞增輪次預算下，提純出 3 萬條「零冗余」的并行行為種子數據，完美解決了模型 SFT 冷啟動的難題。

在最核心的強化學習（RL）對齊階段，HyperEyes 徹底顛覆了傳統 RL 的「唯結果論」范式。傳統的稀疏獎勵往往會引發雙重隱患：缺乏效率約束的獎勵機制會縱容模型養成「冗余試錯」的惰性，以犧牲推理速度為代價換取準確率；更糟糕的是，在處理長周期任務時，粗暴的結果導向會帶來極其不公平的「連坐懲罰」—— 即便是一次堪稱完美的中間推理過程，也會因為最終環節的失誤被徹底抹殺，導致模型在復雜探索中迷失方向。

針對這一問題，團隊創新性地提出了「宏觀 + 微觀」的雙粒度效率感知強化學習框架。在宏觀軌跡層面，系統引入了 TRACE（動態參考的成本效率獎勵）機制。這并不是一個一刀切的步數死命令，而是一把「自我超越」的動態標尺。系統會將模型當前的工具調用表現與標尺對比，只有比標尺更高效才能獲得獎勵。在每個 Epoch 結束后，系統會自動用本輪表現最好、步數最少的軌跡去刷新并收緊標尺。這就像跳高比賽，橫桿隨著模型能力的提升越調越高，逼迫模型不斷擠出水分。

而在微觀 Token 層面，為了精準搶救失敗軌跡中的「正確中間過程」，HyperEyes 引入了 OPD（策略內蒸餾）機制。這一機制只在軌跡最終答錯時才會啟動，屆時會引入一個 235B 的滿血版教師模型，為失敗軌跡中的每一步提供稠密的 Token 級監督信號，精準打撈那些原本正確的中間規劃。

這種「僅在失敗時蒸餾」的非對稱設計，完美避免了對學生模型「高效并發」本能的覆蓋。成功時由宏觀獎勵主導效率，失敗時由微觀蒸餾托底糾偏，宏微觀的嚴絲合縫，徹底釋放了多模態大模型的并發檢索天性。

IMEB Benchmark：把「搜索效率」作為重要評估維度

現有多模態榜單普遍存在「只看準不看快」的弊端。為了糾正這一導向，團隊發布了首個包含 300 條極具挑戰性多實體視覺評測基準的 IMEB (Image Multi-Entity Benchmark)。

與之配套，團隊還提出了「成本感知評分」 (CAS)。該評分標準在統一標尺下，將準確率、Token 消耗和工具調用輪次進行聯合評估，把傳統的答案質量換算為「單位延遲下的有效信息密度」，從根本上遏制了大模型靠堆砌算力暴力刷榜的行為。

實驗結果與核心發現

在隨后的 6 大主流基準測試中，HyperEyes 展現出了極具統治力的表現，實現了準確率與效率的 Pareto 占優。全面建立開源 SOTA 并非虛言 ——HyperEyes-30B 以64.0%的準確率超越同量級最強開源模型 VDR 達9.9%，而其平均工具調用輪次僅為 VDR 的不到五分之一（2.2 對比 11.6）。而其 235B 版本更是以僅1.1%的微弱差距逼近閉源旗艦 Gemini-3.1-Pro。

在極為嚴苛的 CAS 成本效率評分中，30B 版本的表現達到了次優開源模型的7.6倍，證明其每一單位算力輸出的信息密度都極高。消融實驗也證實了，這種底層的動作空間重構設計，對傳統的「LLM 外掛裁剪」或「代碼沙箱裁剪」構成了降維打擊。

更有意思的是其面對噪聲的強魯棒性。在真假證據混合的干擾測試中，HyperEyes 這種「敢于少搜、一次看全」的并行策略，反而大幅規避了過度檢索帶來的幻覺陷阱。

在一個面對 6 人同框復雜問答的真實測試案例中，傳統 Agent 因為「逐一裁剪 + 搜索」的笨拙邏輯將流程拖拽至 12 輪，最終因噪聲累積而答錯；而 HyperEyes 首輪即并發定位并檢索了全部 6 人，僅用 3 輪便給出精準答案，直觀地展現了什么叫「一次出手，看清全局」。

結語：多模態搜索智能體的下一站，是「效率即智能」

長期以來，大家普遍認為多模態搜索必須通過串行加深來保證準確度，而 HyperEyes 打破了這一固有慣性。它用翔實的實驗證明了，在 Agent 訓練中，「準確率」與「效率」完全可以協同進化。

隨著多模態 Agent 逐漸步入電商比價、視覺檢索、實時交互等真實的高并發業務場景，從「搜得更深」轉向「搜得更寬」，必將成為下一代智能體角逐的核心競爭力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.