<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      MiniCPM-o 4.5 技術報告發布:全雙工全模態 API 開放,RTX5070 即可實時運行

      0
      分享至


      作者 | OpenBMB 團隊

      你有沒有想過,不用聯網僅用一張消費級顯卡,就能在個人電腦上擁有一個「邊看、邊聽、邊說、還能主動提醒」的類人 AI 助手?它既能實時感知環境變化、同步理解你的意圖,又能全程保護隱私。

      這就是MiniCPM-o 4.5所能做到的。在技術創新下,它僅憑 9B 參數,實現了業界首個端到端全雙工全模態大模型,讓端側 AI 普惠成為現實。其自 2026 年 2 月模型發布以來,在 Hugging Face 上的下載量已突破 25 萬 +。

      ? 模型用例展示:https://openbmb.github.io/minicpm-o-4_5-omni/

      ? 在線體驗(無需注冊 / 下載):https://minicpmo45.modelbest.cn/

      今天,面壁智能聯合 OpenBMB 開源社區、清華大學 THUNLP 實驗室和 THUMAI 實驗室正式發布MiniCPM-o 4.5 技術報告,首次公開面壁智能在全雙工全模態交互領域的核心技術——Omni-Flow 流式全模態框架

      ? 技術報告:https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

      在技術報告發布的同時,MiniCPM-o 4.5 同步推出在線體驗 Demo、全模態全雙工 API、端側安裝包 Comni 和 Demo 倉庫。

      在線體驗 Demo

      在線 Demo 是 MiniCPM-o 4.5 的原型示例網頁應用,展現傳統輪次交互、語音雙工交互、視頻雙工交互三大類應用原型,并完整開放模型支持的全部配置,包括 prompt 和參考音頻設置。

      Demo 可在手機、電腦端直接訪問,并配套提供排隊、錄制、保存、分享、回看等功能,提升用戶體驗。

      ? 在線體驗(手機端推薦)

      https://minicpmo45.modelbest.cn/mobile/

      ? 在線體驗(電腦端推薦)

      https://minicpmo45.modelbest.cn/

      全模態全雙工 API

      同步開放的 MiniCPM-o 4.5 API 支持全模態全雙工實時交互,全雙工下無需 VAD 機制控制對話輪次,便于開發者基于 MiniCPM-o 4.5 構建應用。

      API 目前免費開放。詳細使用方式見官網中的 API 文檔 :https://minicpmo45.modelbest.cn/docs。

      Windows / macOS 端側安裝包 Comni

      MiniCPM-o 4.5 已基于 llama.cpp 完成模型量化和推理性能優化,實測最低 12GB 顯存的 RTX 5070 即可流暢運行全雙工模式(RTF0.4),極大降低了個人端側部署的準入門檻。

      為進一步降低端側部署的操作門檻,桌面軟件Comni集成了模型下載、環境安裝和 Demo 運行能力,提供 Windows / macOS 版本。軟件包下載鏈接如下:

      上方視頻展示了 MiniCPM-o 4.5 在個人筆記本上的完整部署與運行過程,包括全雙工語音對話、實時視覺理解、主動提醒等能力演示

      Demo 倉庫開源和 Linux 部署

      上述 Demo 的全棧代碼已開源,Linux 用戶可克隆代碼倉并部署完整的 Demo 服務。這也是首批可本地部署的全雙工全模態交互演示項目之一。

      ?Demo GitHub 倉庫:https://github.com/OpenBMB/MiniCPM-o-Demo

      為什么「全雙工」是

      AI 交互的下一站?

      人類交流是流暢、并行的。我們邊聽邊思考,甚至可以打斷對方。

      但過去,AI 與人類的交互模式是半雙工的,像用對講機:你說完,它才能處理;它說的時候,又聽不見你的新指令。

      AI 與人類的不同頻,使得大多數用戶無法在與大模型產品的交互中獲得良好的體驗感,甚至由于交流的「時空割裂」逐漸失去耐心。長此以往,大模型在多模態場景的落地無疑大大受阻。

      而 MiniCPM-o 4.5 在全球范圍內首創「全雙工全模態」,模型能在持續感知環境(看視頻、聽聲音)的同時進行思考和響應,這讓 AI 從一個被動的工具變成了一個可以主動幫助人類的真正助手。

      這背后離不開面壁智能與清華大學共同研發的Omni-Flow 流式全模態框架。本次技術報告也首次披露了 Omni-Flow 的技術核心:

      簡單來說,它創造了一個共享的「時間軸」,把視覺、音頻、語言等所有信息流都對齊到毫秒級的時間片上。模型在每個極小的時間片內,完成一次「感知 - 思考 - 響應」的循環。

      這套機制從底層賦予了模型持續感知即時反應的能力,是 MiniCPM-o 實現全雙工的基石。

      此外,MiniCPM-o 4.5 本次發布并堅持開源可本地部署的 Web Demo,這對開發者與用戶意味著:

      • 絕對的隱私安全:全天候陪伴式 AI 會接觸大量敏感信息。數據不出本地,是最好的隱私保護。

      • 斷網也能跑的可靠性:沒有網絡也能用。即使在隧道、野外,你的 AI 助手也不會「掉線」。

      • 開發者的游樂場:完整的 Demo 前后端代碼已開源。你可以基于此快速構建自己的全雙工多模態應用,無論是智能座艙、無障礙輔助還是具身智能,MiniCPM-o 4.5 都能成為你將想象變成現實的助推器。

      技術報告深度解讀:

      揭秘 MiniCPM-o 4.5 的實現之道

      MiniCPM-o 4.5 采用端到端全模態架構,總參數量 9B。核心設計包括:

      • 全模態端到端架構:多模態編碼器 / 語音解碼器與 LLM 通過逐 token 級隱藏狀態緊密連接,在高壓縮率下實現通用視覺、聽覺感知和語音對話。

      • 時分復用機制:將并行多模態流劃分為周期性時間片內的順序信息組,實現高效的流式處理。

      • 可配置語音建模:支持文本 + 音頻雙系統提示,通過參考音頻和角色提示詞即可實現聲音克隆角色扮演。

      • 雙模式支持:同一模型支持傳統的輪次交互模式與 Omni-Flow 全模態全雙工模式。

      實時交互:Omni-Flow 流式全模態框架

      傳統多模態模型將交互視為一系列孤立的回合,而 Omni-Flow 將其重塑為一個連續的過程


      圖 1:交互范式的演進,MiniCPM-o 4.5 實現了最右側的全雙工流式交互

      如圖所示,Omni-Flow 將視覺、音頻輸入流和模型的文本、語音輸出流,在時間上進行精確切片和對齊。模型不再是被動地等待用戶輸入完成,而是以極高的頻率(例如每秒一次)持續刷新自己的“世界觀”,并自主決定在哪個時間點介入(說話或提醒)。

      這套機制原生支持了打斷、插話等高級交互行為,徹底擺脫了對外部 VAD (語音活動檢測) 等輔助工具的依賴。

      端到端架構:9B 模型如何協同工作?

      為了實現 Omni-Flow,面壁智能團隊設計了一套高效的端到端全模態架構,總參數量 9B。


      圖 2:MiniCPM-o 4.5 的端到端全模態架構

      其核心組件包括:

      • 視覺編碼器(0.4B):SigLIP-ViT,負責「看」。

      • 音頻編碼器(0.3B):Whisper-Medium,負責「聽」。

      • LLM 基座(8B):Qwen3-8B,負責「思考」和理解。

      • 語音 Token 解碼器(0.3B):輕量級 Llama 架構,負責將 LLM 的「想法」(文本)轉化為語音單元。

      • 聲碼器: 將語音單元合成為最終的波形。

      這個架構最巧妙的設計之一是:LLM 基座只生成文本 Token,而專業的語音合成任務「外包」給了一個更小、更專業的語音解碼器。這避免了讓大模型直接處理復雜的聲學任務,從而保證了其核心的語言和推理能力不受損害。同時通過各模塊的 token 級稠密連接,保證了模型能力的高上限。

      為實時而生:TAIL 語音生成方案

      流式語音的一大難題是延遲。為了讓語音聽起來自然,模型通常需要「預讀」一大段文本,但這會導致輸出的語音遠遠滯后于用戶的輸入。在需要「即時打斷」的全雙工場景里,這是致命的。

      因此,面壁智能團隊提出了TAIL(Time-Aligned Interleaving)方案,可以讓每個語音塊的生成都緊緊跟隨實時最新的文本內容,而不是讓文本「搶跑」太多。

      同時,通過一個輕量級的「預讀」(pre-look) 機制,解決了跨詞發音的連貫性問題。最終,TAIL 在保證音頻流暢悅耳的同時,將語音輸出與交互發生的延遲降到了最低。

      性能表現:9B 模型硬剛業界頂尖

      參數規模小不等于模型性能弱。MiniCPM-o 4.5 在多個維度的評測中,展現了與 SOTA 大模型掰手腕的實力。



      • 推理效率:在顯存方面,MiniCPM-o 4.5 的 INT4 量化版僅需 12GB 顯存即可運行,幾乎是 Qwen3-Omni INT4 版本的一半,使得其在消費級顯卡上的本地部署成為可能。在性能方面,MiniCPM-o 4.5 的推理速度也更快,其 INT4 版本的解碼速度達到了 212 tokens/s,比 Qwen3 快了 40% 以上,響應延遲更低。



      • 綜合視覺能力:在 OpenCompass、MMBench 等多個視覺基準上,9B 的 MiniCPM-o 4.5與 Gemini 2.5 Flash 表現相當

      • 全模態與全雙工交互:在需要聯合音視頻理解的基準上,MiniCPM-o 4.5全面超越了 Gemini 2.5 Flash 和 Qwen3-Omni。在全雙工視頻理解基準 LiveSports-3K-CC 上,其勝率(54.4%)更是大幅領先專用的流式視頻模型。

      • 語音生成:無論是中文還是英文,MiniCPM-o 4.5 的語音生成質量(字符 / 單詞錯誤率更低)和情感表現力都優于 Qwen3-Omni 和業界領先的 CosyVoice2。

      真 · 全雙工,潛力無限

      全雙工全模態大模型不是一個遙遠的概念,而是會催生一系列全新的應用,例如:

      • 主動式伴侶:在你烹飪、修理或運動時,給你實時的指導和提醒。

      • 無障礙輔助:成為視障人士的「眼睛」,為視障人士持續觀察環境,主動播報綠燈亮起、水杯將滿等關鍵環境信息,幫助他們安全生活。

      • 智能座艙:持續監控路況和駕駛員狀態,主動提示「左側有可用車位」并引導泊車,提供更智能、更及時的安全預警和駕駛輔助。

      • 具身智能:作為機器人的「大腦」,持續感知動態環境并自主決策交互時機。

      這些場景的共同點是:需求并非一次性問答,而是需要 AI 作為「沉默的觀察者」和「及時的提醒者」融入動態生活流——這正是傳統輪次對話模型無法勝任的。

      MiniCPM-o 4.5 是原生全雙工模型,擺脫了對 VAD 的依賴。這意味著:支持 general 聲音感知(環境噪音、音樂等,不僅是語音);畫面變化跟進更快(native 全雙工,無需等上句說完);AI 說話時可被實時引導改變內容。

      當然,MiniCPM-o 4.5 目前還存在可提升空間,如長時間交互的穩定性、主動行為的豐富性等。多模態智能的下一個前沿,不僅在于模型能力的擴展,更在于重新思考智能表達的交互范式。Omni-Flow 和 MiniCPM-o 4.5 是面壁智能在這一方向上的關鍵探索。

      ? 技術報告 PDF:

      https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

      ? 在線體驗:

      https://minicpmo45.modelbest.cn/

      ? GitHub Demo(含本地安裝包):

      https://github.com/OpenBMB/MiniCPM-o-Demo

      ? Hugging Face 下載鏈接:

      https://huggingface.co/openbmb/MiniCPM-o-4_5

      ? ModelScope 下載鏈接:

      https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5

      會議推薦

      世界模型的下一個突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發體系不重構,還能撐多久?

      AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業級研發體系重構。14 個專題全面開放征稿。

      誠摯邀請你登臺分享實戰經驗。AICon 2026,期待與你同行。

      今日薦文

      你也「在看」嗎?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      極目深度丨河池皮卡墜河10人遇難:車快通過橋面時出事,死者大多沾親帶故,平時靠打零工日掙百元

      極目深度丨河池皮卡墜河10人遇難:車快通過橋面時出事,死者大多沾親帶故,平時靠打零工日掙百元

      極目新聞
      2026-05-20 09:39:07
      離開北京前,魯比奧著急立規矩,臺灣問題,中方說不松口就不松口

      離開北京前,魯比奧著急立規矩,臺灣問題,中方說不松口就不松口

      聞識
      2026-05-19 17:25:55
      法網20日戰報:中國金花2勝2負,鄭欽文爆冷4號種子

      法網20日戰報:中國金花2勝2負,鄭欽文爆冷4號種子

      春日筆記
      2026-05-20 06:18:47
      誰錯了?曹暉坐在馬斯克身邊,幾乎沒有與馬斯克交流,被網友笑話

      誰錯了?曹暉坐在馬斯克身邊,幾乎沒有與馬斯克交流,被網友笑話

      蝴蝶花雨話教育
      2026-05-20 00:05:10
      生父當街搶走2歲幼子事件,法院裁定:三日內將婚生子送回母親處,禁止孩子生父實施搶奪、轉移、藏匿孩子的行為;孩子媽媽是清華博士

      生父當街搶走2歲幼子事件,法院裁定:三日內將婚生子送回母親處,禁止孩子生父實施搶奪、轉移、藏匿孩子的行為;孩子媽媽是清華博士

      揚子晚報
      2026-05-20 07:13:45
      西決G1裁判報告:兩次錯漏判都是馬刺吃虧 文班仍率隊雙加時險勝

      西決G1裁判報告:兩次錯漏判都是馬刺吃虧 文班仍率隊雙加時險勝

      羅說NBA
      2026-05-20 05:13:48
      5個已被證實卻讓人難以接受的科學真理,顛覆你對世界的認知

      5個已被證實卻讓人難以接受的科學真理,顛覆你對世界的認知

      心中的麥田
      2026-05-18 19:34:44
      福建毒楊梅再升級!記者遭死亡威脅,另一地更囂張,不止商戶下藥

      福建毒楊梅再升級!記者遭死亡威脅,另一地更囂張,不止商戶下藥

      青橘罐頭
      2026-05-19 07:43:43
      35萬的瑪莎拉蒂,刺痛了多少豪車玩家!

      35萬的瑪莎拉蒂,刺痛了多少豪車玩家!

      蔣東文
      2026-05-19 21:24:32
      樊同學父親身份疑似曝光,5000元獎金都是她父親出的?扣4500沒錯

      樊同學父親身份疑似曝光,5000元獎金都是她父親出的?扣4500沒錯

      江山揮筆
      2026-05-20 08:31:02
      0-2!澳大利亞球員掩面而泣,U17男足慶祝方式曝光,太理智和冷靜

      0-2!澳大利亞球員掩面而泣,U17男足慶祝方式曝光,太理智和冷靜

      何老師呀
      2026-05-20 06:56:19
      曝詹姆斯今夏沒興趣簽底薪!或將留守湖人?騎勇尼掘簽他難度大增

      曝詹姆斯今夏沒興趣簽底薪!或將留守湖人?騎勇尼掘簽他難度大增

      羅說NBA
      2026-05-20 06:46:35
      潔麗雅公示相關鑒定、材料:章曉梅、章曉燕DNA鑒定為無關個體,被傳“私生子”的石晶為婚后所生

      潔麗雅公示相關鑒定、材料:章曉梅、章曉燕DNA鑒定為無關個體,被傳“私生子”的石晶為婚后所生

      魯中晨報
      2026-05-19 18:06:15
      博主揭國產芯片大廠亂象,近70%工作靠外包,自研乏力內耗嚴重

      博主揭國產芯片大廠亂象,近70%工作靠外包,自研乏力內耗嚴重

      風向觀察
      2026-05-19 23:55:25
      月入5萬,陪人爬山:爬著爬著,變味了

      月入5萬,陪人爬山:爬著爬著,變味了

      深度報
      2026-05-18 22:49:46
      國民黨妄稱“臺灣不是中華人民共和國的一部分”,鄭麗文應解釋!

      國民黨妄稱“臺灣不是中華人民共和國的一部分”,鄭麗文應解釋!

      素衣讀史
      2026-05-19 21:01:52
      偷情過后,男人和女人誰更想“再來一次”?答案很真實

      偷情過后,男人和女人誰更想“再來一次”?答案很真實

      心理觀察局
      2026-05-20 07:40:06
      1983年,紅衛兵頭子被判刑,晚年淪落到撿菜葉子充饑,活到2019年

      1983年,紅衛兵頭子被判刑,晚年淪落到撿菜葉子充饑,活到2019年

      米果說識
      2024-09-12 04:20:03
      曲終人散!歐冠結束,薩爾布呂肯俱樂部態度變了,樊振東錯付了?

      曲終人散!歐冠結束,薩爾布呂肯俱樂部態度變了,樊振東錯付了?

      天天熱點見聞
      2026-05-20 08:08:38
      1990年德國統一代價:割讓19萬平方公里領土永不收復,割肉求生

      1990年德國統一代價:割讓19萬平方公里領土永不收復,割肉求生

      掠影后有感
      2026-05-18 11:35:54
      2026-05-20 10:43:00
      AI前線 incentive-icons
      AI前線
      面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
      1509文章數 149關注度
      往期回顧 全部

      科技要聞

      一文看懂谷歌I/O2026:谷歌打響智能體大戰

      頭條要聞

      "父子娶堂姐妹"等倫理傳聞的發酵 讓毛巾大王坐不住了

      頭條要聞

      "父子娶堂姐妹"等倫理傳聞的發酵 讓毛巾大王坐不住了

      體育要聞

      文班亞馬:沒拿到MVP,就證明自己是MVP

      娛樂要聞

      舒淇大方承認:卸了妝就是50 歲的模樣

      財經要聞

      白酒榜|汾酒營收凈利雙增 口子窖"造富"

      汽車要聞

      煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

      態度原創

      數碼
      健康
      親子
      房產
      軍事航空

      數碼要聞

      技嘉推出“半鏡面”26.5" QHD 240Hz QD-OLED顯示器GO27Q24A

      藥監局為何沒批抗衰老干細胞產品?

      親子要聞

      警惕“電子帶娃”,陪伴才是成長最好的禮物

      房產要聞

      7516元/㎡,161套一次全甩!海口住宅最低價出現了!

      軍事要聞

      特朗普暫緩打擊伊朗 稱系應中東三國請求

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 乱人伦中文视频在线| 国精产品一区一区三区有限公司| 久久国产精品三级av| 国产精品一区二区三区色| 97成人精品一区二区三区狼人| 亚洲激情综合| 精品玖玖玖视频在线观看| 久久96| 国产一区二区三区在线观看免费| 国产精品青草久久久久福利99| 亚洲综合日韩av在线| 国产亚洲精品久久久久四川人| 久久99久久99精品免视看动漫| 精品国产香蕉伊思人在线又爽又黄 | 亚洲一区二区欧美色妞影院| 人成午夜免费视频在线观看| 日韩深夜免费在线观看| 国产精品国产三级免费| 精品福利一区二区免费视频| 免费人成网站免费看视频| 性爱视频网址| 成人国产精品三上悠亚久久| 肏屄的视频| 国产精品亚洲а∨天堂2021 | 国产91精品一区麻豆亚洲| 精品国产乱弄九九99久久| 在线中文字幕亚洲日韩2020 | 精品人妻一区二区免费蜜桃| 欧美成人精品三级网站下载| 无码av中文字幕久久专区| 无码精品a∨动漫在线观看| 久久无码人妻一区二区三区午夜| 人妻?无码中出| 欧美a√| 综合久久视频| 精品一区二区三区中文字幕在线| 男人天堂亚洲天堂女人天堂| 国产欧美久久一区二区| 国产美女一级做a爱视频| 一本一本久久A久久精品综合不卡| 无码精品黑人|