網易首頁 > 網易號 > 正文申請入駐

別再把長文切碎了，HiLight讓AI直接在原文里劃重點

2026-05-11 10:39:41　來源: 機器之心Pro

河北舉報

分享至

在實際應用中，模型常常會忽略關鍵線索，這就是 “Lost in the Middle” 現象，即模型對出現在輸入中間位置的信息關注度明顯下降。現有的優化思路大致分為兩類：

硬選擇：先檢索或裁剪出相關片段，再送入模型，但可能會丟失對推理至關重要的上下文。
軟選擇：通過摘要或壓縮來縮短輸入，但有損壓縮難免引入失真。

兩類方法都在 “動” 原始輸入或原始權重。那么，能不能既保留完整的上下文，又能準確地告訴模型 “重點看哪里”？HiLight 提出一條 “輸入側干預” 的新路徑：在原文中插入少量高亮標簽，引導模型的注意力。

方法概述

在實際部署當中，大模型往往是API 付費調用、規模巨大，甚至權重不開放的黑盒服務，直接對它做 SFT 或 RL 微調往往不現實。因此，HiLight 選擇了一條更實用的路徑：凍結推理模型，訓練一個輕量的 “助手模型” 來幫助它劃重點。

論文標題：Learning Evidence Highlighting for Frozen LLMs
論文地址：https://arxiv.org/abs/2604.22565
作者：Shaoang Li1,?, Yanhang Shi1,?, Yufei Li2, Mingfu Liang2, Xiaohan Wei2, Yunchen Pu2, Fei Tian2, Chonglin Sun2, Frank Shyu2, Luke Simon2, Sandeep Pandey2, Xi Liu2,?, Jian Li1,?
機構：1 石溪大學（Stony Brook University），2 Meta AI
說明：? 共同第一作者；? 共同通訊作者

流程如下：

1. 輕量模型（Emphasis Actor）閱讀完整的上下文，為每個 token 打出重要性分數。

2. 輕量模型在得分最高的片段兩邊插入高亮標簽，如 < start_important > 和 < end_important>。

3. 凍結的推理模型（Solver LLM）接收帶標簽的文本，完成推理并輸出結果。

該訓練過程只用 Solver 的任務獎勵作為反饋信號，不需要任何人工標注的證據。在訓練方式上，因為沒有 token 級別的證據標注，研究者將高亮選擇建模為強化學習問題，用下游任務指標（如 HR@10、EM、F1）作為獎勵信號，通過分組策略梯度來更新 Actor。

為了防止 Actor “全部高亮” 的偷懶行為，該框架還引入了高亮預算機制：輕量語言模型最多只能標注一定比例的 token，并通過 span 合并策略將零散的 token 級選擇合并為語義連貫的片段。

實驗表明，HiLight 對預算取值并不敏感。這意味著，在實際部署時無需精細調參，選取一個合理的中間值即可。

實驗結果

研究者在四個任務上進行了評測：Amazon-Beauty（序列推薦）、HotpotQA（多跳問答）、SQuAD 2.0（閱讀理解）和 PubMedQA（生物醫學分類）。對比方法涵蓋了當前主流的 prompt optimization 方法，包括 PRL、BFRS、OPRO、DSPy（MIPROv2）和 APE。

提升幅度最大的是序列推薦（Amazon-Beauty），在其它任務上，雖然提升相對溫和，但依然一致正向。

高亮＞裁剪，保留上下文的優勢

消融實驗做了一個有趣的對比：把 Actor 選擇的高亮片段單獨裁剪出來喂給 Solver，會怎么樣？

結果顯示，在 Amazon-Beauty 上，裁剪也能取得不錯的效果。但在 HotpotQA 上出現了相反的情況。因為多跳問答推理需要保留連接性的上下文，裁剪雖然能選出關鍵證據，卻破壞了語義的完整性。而HiLight 在標注重點的同時保留了完整語境。

一個高亮模型，服務多個大模型

Actor 學習到的高亮策略具有很強的遷移能力。研究者用 Qwen3-14B 作為 Solver 訓練 Actor，直接將其應用到五個從未見過的 Solver 上。與之相對比的做法是讓目標 Solver 自己先高亮證據再作答。

結果顯示，HiLight 的 Actor 高亮在五個 Solver 上的效果都明顯優于自我高亮。原因也很簡單，專門訓練的輕量模型，比大模型自己猜 “哪里重要” 更靠譜。HiLight 的 Actor 是通過任務獎勵顯式訓練出來的，知道什么樣的證據能真正提升下游指標。

沒有人工標注，卻與人工高度重合

盡管訓練過程中沒有任何 token 級別的證據標注，但Actor 的高亮區域與 HotpotQA 數據集中人工標注的支持事實高度重合，最高達到 0.78 F1。隨著 Actor 規模從 0.6B 增大到 8B，F1 從 0.68 單調上升到 0.78。

如圖所示，Precision、Recall、F1 三項指標都隨 Actor 規模單調提升，Precision 甚至達到 0.84，說明Actor 高亮的 token 中，絕大多數都是人工判定的關鍵證據。

上圖展示了一個 HotpotQA 樣本上的 token 級分數分布：藍色曲線是 Actor 打出的重要性分數，紅色陰影區是人工標注的支持事實所在區間。在一個包含 1200 多個 token 的長上下文中，Actor 只在兩個狹窄的區域打出高分，而這兩個區域正是數據集標注的 ground-truth 證據所在。

低部署成本

Solver 端 token 開銷：< 1.01 倍（僅插入少量標簽 token）。
Actor 推理延遲：0.6B 模型約 0.05 秒，4B 模型約 0.23 秒（p50），相比 Solver 的 8 至 18 秒可忽略不計。
訓練成本：僅需約 12K 次 Solver 調用，而 PRL 需要 120K 次，APE 需要 60K 次。

一個直觀案例：序列推薦優化

在 Amazon-Beauty 的一個典型案例中，模型需要通過給定的用戶歷史購買摘要和一批候選商品，依據用戶下一個可能感興趣的商品，對候選商品進行重排序。Actor 精準地高亮標記了兩個關鍵內容。這兩個信號幫助 Solver 將真實目標商品（一款主打 “Grips Makeup To Last” 的底妝產品）的推薦排序從第 14 名提升到第 5 名，是一個顯著的排序改進。

與黑盒注意力機制不同，HiLight 直接告訴用戶：模型之所以提升該商品的排名，是因為看到了這兩段高亮文本。這大大提升了模型推薦結果的可信度。

結語

HiLight 的思路非常簡單，用一個輕量模型劃重點，讓大模型集中精力推理。這種方式帶來了幾個好處：

性能提升：推薦任務性能提升可達 27%，問答任務也正向提升。
不用改模型：Solver 凍結，API 友好。
可解釋：高亮標簽能夠直接告訴人類 “模型在看哪里”，以及模型決策的依據。
可遷移：一個 Actor 可以服務于多個不同的大模型。
低成本：訓練成本低，額外延遲和推理成本小。

隨著越來越多系統通過 API 調用大模型，HiLight 提供了一種不必改動 Solver 也能實現性能提升的辦法。

值得一提的是，本文作者名單與 Meta 的 GR2（Generative Reasoning Re-ranker，arXiv:2602.07774）團隊有相當程度的重疊，HiLight 這套做法很可能在不遠的將來被用進 GR2 這樣的生產級 re-ranking 系統里。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.