<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      百萬 Token 也能無損壓縮?C3 模型用“級聯壓縮”重新定義長上下文挑戰

      0
      分享至


      【編者按】百萬級別 Token 的輸入,正在成為大型語言模型(LLMs)長上下文任務中的計算與內存“噩夢”。DeepSeekOCR 憑借“上下文光學壓縮”技術實現了 10 倍 Token 壓縮率,引發全網熱議。但透過現象看本質,高壓縮率的秘密,真的在于“圖像化”嗎?

      作者 |劉帆帆

      出品丨作者投稿

      DeepSeekOCR 的成功讓許多人誤以為“視覺編碼”是壓縮的關鍵。然而,研究團隊經過深入分析發現,高壓縮率的核心其實源自 Latent Tokens(潛在 Token)本身——這是一種比離散文本 Token 更高效、密度更高的信息載體。

      基于這一洞察,作者所在的研究團隊提出了一種直擊本質的全新路徑:Context Cascade Compression (C3,上下文級聯壓縮)。

      將兩種路徑進行對比:

      • DeepSeek OCR 路徑: 文本 → 圖像 → 視覺 Token → 語言模型(引入了布局、噪點、視覺編碼器等無關干擾)

      • C3 路徑: 文本 → 文本 Latent Tokens → 語言模型(純粹、無損、直接)

      具體來說,一個小型 LLM 作為第一級,通過將長上下文壓縮成一組潛在 token(例如,長度為 32 或 64),實現高比例的文本 token 到潛在 token 的壓縮。 一個大型 LLM 作為第二級,然后對這個壓縮的上下文執行解碼任務。

      這一設計也驗證了近期熱門論文《LANGUAGE MODELS ARE INJECTIVE AND HENCE INVERTIBLE》中關于「LLM 本質是無損壓縮」的論斷。

      實驗表明,在 20 倍壓縮比(文本 token 數量是潛在 token 數量的 20 倍)下,C3 實現了 98% 的解碼準確率,而 DeepSeek OCR 大約為60%。當我們進一步將壓縮比增加到 40 倍時,準確率仍保持在約 93%。這表明在上下文壓縮領域,C3 壓縮比光學字符壓縮展示了更優越的性能和可行性。

      目前模型與代碼現已開源:

      • 原文:https://arxiv.org/pdf/2511.15244

      • 代碼:https://github.com/liufanfanlff/C3-Context-Cascade-Compression

      • 模型:https://huggingface.co/liufanfanlff/C3-Context-Cascade-Compression


      架構

      在介紹 C3 之前,先帶大家來了解一下 DeepSeek-OCR 的工作原理。DeepSeek-OCR 采用了一種創新的"視覺壓縮"思路,這種方法的優勢在于利用了視覺編碼器強大的特征提取能力,但也面臨著圖像布局復雜性、低分辨率下的模糊等固有限制。C3 提出了一個更直接的壓縮思路:跳過視覺中介,沒有中間商賺差價,直接在文本域進行壓縮。其核心架構包括:

      1.雙 LLM 級聯設計

      • 小型 LLM(算力消耗低)作為壓縮編碼器,壓縮上下文信息。

      • 大型 LLM(推理生成能力強)作為解碼器執行下游任務。

      2.壓縮機制

      • 引入可學習的"上下文查詢"(Context Query)嵌入

      • 將長文本壓縮為固定長度的潛在token(如32或64個)。

      • 完全保留預訓練 LLM 的語言壓縮能力



      性能表現

      在 Fox 基準測試中,C3 展現出顯著優勢:

      • 在約 20 倍壓縮時,C3 保持 98.4% 精度,而D eepSeek-OCR 降至59.1%

      • 即使在極限的 40 倍壓縮率下(32 個潛在 token),C3 仍能維持 93% 以上的重建精度

      獨特的"遺忘模式":更接近人類記憶


      研究還發現了 C3 的一個有趣特性:當壓縮率過高導致信息損失時,錯誤往往集中在文本末尾,呈現序列性信息衰減。這與光學壓縮方法的"全局模糊"不同,反而更類似人類記憶的漸進式遺忘過程。

      這種特性使得 C3 在實際應用中更具可預測性——重要信息可以優先放置在文本前部,確保關鍵內容的完整保留。

      測試


      無論是在長英文文本還是中文古文上均做到了近乎完美的壓縮還原

      甚至對于 LLM 一直難以處理的亂序文本也能精準還原


      應用前景

      1. 超長上下文處理:C3 可作為現有 LLM 的"前端壓縮器",將百萬級 token 的輸入(如整本書籍、大型代碼庫)壓縮到可處理范圍,降低計算成本。

      2. 多模態:級連輕量級 VLM 和 LLM,輕量級 VLM 作為視覺 encoder 進行信息壓縮,處理視覺信息豐富的長文檔等。

      3. 下一代模型的基礎組件 :C3 的編碼-解碼架構可直接應用于擴散語言模型和潛在自回歸模型,將可變長度文本轉換為固定長度潛在表示。

      這是一個在有限的人力、算力與數據背景下誕生的“小而美”項目。

      目前 C3 的代碼與權重開源,希望開源社區的研究者們能接過這一棒,激發出C3 的巨大潛能。


      【活動推薦】2025 年是 C++ 正式發布以來的 40 周年,也是全球 C++ 及系統軟件技術大會舉辦 20 周年。這一次,C++ 之父 Bjarne Stroustrup 將再次親臨「2025 全球 C++及系統軟件技術大會」北京現場,與全球頂尖的系統軟件工程師、編譯器專家、AI 基礎設施研究者同臺對話。

      本次大會共設立現代 C++ 最佳實踐、架構與設計演化、軟件質量建設、安全與可靠、研發效能、大模型驅動的軟件開發、AI 算力與優化、異構計算、高性能與低時延、并發與并行、系統級軟件、嵌入式系統十二大主題,共同構建了一個全面而立體的知識體系,確保每一位參會者——無論是語言愛好者、系統架構師、性能優化工程師,還是技術管理者——都能在這里找到自己的坐標,收獲深刻的洞見與啟發。詳情參考官網:https://cpp-summit.org/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      49 歲馬伊琍爆炸頭官宣新狀態!文章攜新歡亮相,兩人各自安好

      49 歲馬伊琍爆炸頭官宣新狀態!文章攜新歡亮相,兩人各自安好

      橙星文娛
      2026-05-14 10:09:49
      阿森納迷惑操作!19 歲天才剛坐穩主力,就要被 7000萬先生擠走?

      阿森納迷惑操作!19 歲天才剛坐穩主力,就要被 7000萬先生擠走?

      奶蓋熊本熊
      2026-05-15 01:10:37
      多地村鎮理發店被起訴商標侵權 “標榜”“東尼”商標使用權為何到了一家英國公司之手|紅星調查

      多地村鎮理發店被起訴商標侵權 “標榜”“東尼”商標使用權為何到了一家英國公司之手|紅星調查

      紅星新聞
      2026-05-14 18:01:16
      國家發改委、國家糧食和物資儲備局、財政部、交通運輸部、農業農村部、中國人民銀行、國家市場監督管理總局等聯合印發重要通知

      國家發改委、國家糧食和物資儲備局、財政部、交通運輸部、農業農村部、中國人民銀行、國家市場監督管理總局等聯合印發重要通知

      農民日報
      2026-05-14 16:45:33
      特朗普來了,成都也火了

      特朗普來了,成都也火了

      城市財經
      2026-05-14 11:36:41
      賣不動了,日系車集體退守中國

      賣不動了,日系車集體退守中國

      21世紀經濟報道
      2026-05-13 23:28:25
      他帶了一個轟動全球的豪華天團訪華,卻唯獨把老婆留在了美國?

      他帶了一個轟動全球的豪華天團訪華,卻唯獨把老婆留在了美國?

      菁菁子衿
      2026-05-13 22:15:32
      全球最毒的十大垃圾食品榜單,泡面未上榜,“真兇”很多人喜歡吃

      全球最毒的十大垃圾食品榜單,泡面未上榜,“真兇”很多人喜歡吃

      小談食刻美食
      2026-05-14 08:01:03
      Model Y降價到24.99萬仍是智商稅?三電、空間遭國產車降維打擊!

      Model Y降價到24.99萬仍是智商稅?三電、空間遭國產車降維打擊!

      阿芒娛樂說
      2026-05-14 11:16:01
      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      顧蔡衛
      2026-05-15 02:35:49
      5月13日向太終于發聲!向佐郭碧婷分居真相,根本不是婚變

      5月13日向太終于發聲!向佐郭碧婷分居真相,根本不是婚變

      小椰的奶奶
      2026-05-14 00:14:20
      馬卡:伯納烏安保清除反弗洛倫蒂諾橫幅,現場仍顯緊張

      馬卡:伯納烏安保清除反弗洛倫蒂諾橫幅,現場仍顯緊張

      懂球帝
      2026-05-15 04:13:11
      中美會晤結束,特朗普松開中方的手,鄰國總統:中美穩定利好全球

      中美會晤結束,特朗普松開中方的手,鄰國總統:中美穩定利好全球

      鐵甲觀
      2026-05-14 17:10:40
      特朗普:美國最高法院門楣上刻著孔子雕像!

      特朗普:美國最高法院門楣上刻著孔子雕像!

      看看新聞Knews
      2026-05-14 21:28:04
      當你見過的人夠多了就會懂:越是骨子里帶著狠勁和匪氣,敢硬剛,敢擺態度,不退縮的,才是真正能成事的狠人,能翻盤,能扛事

      當你見過的人夠多了就會懂:越是骨子里帶著狠勁和匪氣,敢硬剛,敢擺態度,不退縮的,才是真正能成事的狠人,能翻盤,能扛事

      心理觀察局
      2026-05-14 09:29:14
      教你一個玄學法則:當你的孩子主動給你買衣服、買吃的,或者主動給你發紅包,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下

      教你一個玄學法則:當你的孩子主動給你買衣服、買吃的,或者主動給你發紅包,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下

      心理觀察局
      2026-05-13 09:18:07
      徹底涼透!偷稅網紅白冰復出賣慘翻車,哭訴被陷害,結局大快人心

      徹底涼透!偷稅網紅白冰復出賣慘翻車,哭訴被陷害,結局大快人心

      喜歡歷史的阿繁
      2026-05-15 02:54:49
      馬斯克攜幼子現身北京人民大會堂 外國網友:孩子那身新中式簡直太棒

      馬斯克攜幼子現身北京人民大會堂 外國網友:孩子那身新中式簡直太棒

      快科技
      2026-05-14 19:00:09
      哎,上海人在公共場合豪橫地用上海話聊天,似乎已經成了一種常態

      哎,上海人在公共場合豪橫地用上海話聊天,似乎已經成了一種常態

      上海云河
      2026-05-13 19:55:38
      川普來了也得提一杯,這曲”懂王破陣曲“絕了!

      川普來了也得提一杯,這曲”懂王破陣曲“絕了!

      談芯說科技
      2026-05-14 23:23:31
      2026-05-15 05:08:49
      AI科技大本營 incentive-icons
      AI科技大本營
      連接AI技術的創造者和使用者
      2691文章數 7683關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      游戲
      親子
      家居
      手機
      房產

      《極限競速地平線6》畫面對比 最佳游玩平臺在PC

      親子要聞

      孤獨癥特教老師的工作,遠不止“教說話”!(下)

      家居要聞

      精神奢享 對話塔尖需求

      手機要聞

      比上代多賣了七成!華為Pura 90系列越賣越猛,蘋果該緊張了

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产乱人妻精品秘?入口ktv-百度| 国产不卡精品视频男人的天堂| 熟妇自拍| 国产探花AV在线日韩精品| 一本大道久久久久精| 国产成人精品性色av麻豆| 国产丰满麻豆videossexhd| 国产精品熟女高潮视频| 97人妻免费公开视频| 免费黄色大全一区二区三区 | 久久国产精品无码一区二区三区 | 国产精品第八页| 四虎无码视频| 91精品国产91久久久无码色戒 | 通海县| 日韩精品原创一区二区| 欧美福利电影A在线播放| 亚洲制服丝袜在线 | 亚洲无码一卡二卡三卡| 午夜一区二区三区视频| 中文字幕日本一区久久| 精品久久人妻果冻传媒| 欧美成人一区二区三区不卡| 二区中文字幕在线观看| 一区二区三区av| 国产娇喘| 日韩AV无码免费大片BD| 亚洲一区二区三区四区| 丁香婷婷综合激情五月色| 日日噜噜夜夜狠狠久久蜜桃| 51精品国产人成在线观看| 人妻蜜臀久久av不卡| 久久精品国产亚洲av久| eeuss国产一区二区三区| 国产亚洲av| 国产91福利在线精品剧情尤物 | 97精品人妻一二三区| 黑人巨大AV在线播放无码| 日韩久久久久久中文人妻| 亚洲欧美日韩成人综合一区| 天堂а√在线中文在线新版|