<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      MiniCPM-o 4.5 技術報告發(fā)布:全雙工全模態(tài) API 開放,RTX5070即可實時運行

      0
      分享至


      附 Windows / macOS 一鍵安裝包,最低 12GB 顯存 GPU 即可運行。

      你有沒有想過,不用聯(lián)網、僅用一張消費級顯卡,就能在個人電腦上擁有一個「邊看、邊聽、邊說、還能主動提醒」的類人 AI 助手?它既能實時感知環(huán)境變化、同步理解你的意圖,又能全程保護隱私。

      這就是MiniCPM-o 4.5所能做到的。在技術創(chuàng)新下,它僅憑 9B 參數,實現(xiàn)了業(yè)界首個端到端全雙工全模態(tài)大模型,讓端側 AI 普惠成為現(xiàn)實。其自 2026 年 2 月模型發(fā)布以來,在 Hugging Face 上的下載量已突破 25 萬+。

      ? 模型用例展示:https://openbmb.github.io/minicpm-o-4_5-omni/

      ? 在線體驗(無需注冊/下載):

      https://minicpmo45.modelbest.cn/

      今天,面壁智能聯(lián)合 OpenBMB 開源社區(qū)、清華大學 THUNLP 實驗室和 THUMAI 實驗室正式發(fā)布MiniCPM-o 4.5 技術報告,首次公開面壁智能在全雙工全模態(tài)交互領域的核心技術——Omni-Flow 流式全模態(tài)框架

      ? 技術報告:https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

      在技術報告發(fā)布的同時,MiniCPM-o 4.5 同步推出在線體驗 Demo、全模態(tài)全雙工 API、端側安裝包 Comni 和 Demo 倉庫。

      在線體驗 Demo

      在線 Demo 是 MiniCPM-o 4.5 的原型示例網頁應用,展現(xiàn)傳統(tǒng)輪次交互、語音雙工交互、視頻雙工交互三大類應用原型,并完整開放模型支持的全部配置,包括 prompt 和參考音頻設置。

      Demo 可在手機、電腦端直接訪問,并配套提供排隊、錄制、保存、分享、回看等功能,提升用戶體驗。

      ? 在線體驗(手機端推薦)

      https://minicpmo45.modelbest.cn/mobile/

      ? 在線體驗(電腦端推薦)

      https://minicpmo45.modelbest.cn/

      全模態(tài)全雙工 API

      同步開放的 MiniCPM-o 4.5 API 支持全模態(tài)全雙工實時交互,全雙工下無需 VAD 機制控制對話輪次,便于開發(fā)者基于 MiniCPM-o 4.5 構建應用。

      API 使用 https://api.modelbest.cn/minicpmo45/v1/ 端點,目前免費開放。詳細使用方式見 API 文檔。

      ? MiniCPM-o 4.5 API 文檔

      https://api.modelbest.cn/minicpmo45/docs

      Windows / macOS 端側安裝包 Comni

      MiniCPM-o 4.5 已基于 llama.cpp 完成模型量化和推理性能優(yōu)化,實測最低 12GB 顯存的 RTX 5070 即可流暢運行全雙工模式(RTF0.4),極大降低了個人端側部署的準入門檻。

      為進一步降低端側部署的操作門檻,桌面軟件Comni集成了模型下載、環(huán)境安裝和 Demo 運行能力,提供 Windows / macOS 版本。軟件包下載鏈接如下:

      ?平臺: Windows

      下載鏈接:GitHub:https://github.com/tc-mb/llama.cpp-omni/releases/latest/download/Comni-Setup-win64.exe;

      ModelScope:https://modelscope.cn/models/OpenBMB/MiniCPM-o-4_5-gguf/resolve/master/app/Comni-Windows-x64.exe

      硬件要求:12GB+ 顯存 GPU,如 RTX 5070 / RTX 5080 / RTX 5090

      ?平臺: macOS

      下載鏈接:GitHub:https://github.com/tc-mb/llama.cpp-omni/releases/latest/download/Comni-macOS-arm64.dmg;

      ModelScope:https://modelscope.cn/models/OpenBMB/MiniCPM-o-4_5-gguf/resolve/master/app/Comni-macOS-arm64.dmg

      硬件要求:M1-M5 Max / M5 Pro

      (上方視頻展示了 MiniCPM-o 4.5 在個人筆記本上的完整部署與運行過程,包括全雙工語音對話、實時視覺理解、主動提醒等能力演示。)

      Demo 倉庫開源和 Linux 部署

      上述 Demo 的全棧代碼已開源,Linux 用戶可克隆代碼倉并部署完整的 Demo 服務。這也是首批可本地部署的全雙工全模態(tài)交互演示項目之一。

      ?Demo GitHub 倉庫

      https://github.com/OpenBMB/MiniCPM-o-Demo

      01


      為什么「全雙工」是 AI 交互的下一站?

      人類交流是流暢、并行的。我們邊聽邊思考,甚至可以打斷對方。

      但過去,AI 與人類的交互模式是半雙工的,像用對講機:你說完,它才能處理;它說的時候,又聽不見你的新指令。

      AI 與人類的不同頻,使得大多數用戶無法在與大模型產品的交互中獲得良好的體驗感,甚至由于交流的「時空割裂」逐漸失去耐心。長此以往,大模型在多模態(tài)場景的落地無疑大大受阻。

      而 MiniCPM-o 4.5 在全球范圍內首創(chuàng)「全雙工全模態(tài)」,模型能在持續(xù)感知環(huán)境(看視頻、聽聲音)的同時進行思考和響應,這讓 AI 從一個被動的工具變成了一個可以主動幫助人類的真正助手。

      這背后離不開面壁智能與清華大學共同研發(fā)的Omni-Flow 流式全模態(tài)框架。本次技術報告也首次披露了 Omni-Flow 的技術核心:

      簡單來說,它創(chuàng)造了一個共享的「時間軸」,把視覺、音頻、語言等所有信息流都對齊到毫秒級的時間片上。模型在每個極小的時間片內,完成一次「感知-思考-響應」的循環(huán)。

      這套機制從底層賦予了模型持續(xù)感知即時反應的能力,是 MiniCPM-o 實現(xiàn)全雙工的基石。

      此外,MiniCPM-o 4.5 本次發(fā)布并堅持開源可本地部署的 Web Demo,這對開發(fā)者與用戶意味著:

      ?絕對的隱私安全:全天候陪伴式 AI 會接觸大量敏感信息。數據不出本地,是最好的隱私保護。

      ?斷網也能跑的可靠性:沒有網絡也能用。即使在隧道、野外,你的 AI 助手也不會「掉線」。

      ?開發(fā)者的游樂場:完整的 Demo 前后端代碼已開源。你可以基于此快速構建自己的全雙工多模態(tài)應用,無論是智能座艙、無障礙輔助還是具身智能,MiniCPM-o 4.5 都能成為你將想象變成現(xiàn)實的助推器。

      02


      技術報告深度解讀:

      揭秘 MiniCPM-o 4.5 的實現(xiàn)之道

      MiniCPM-o 4.5 采用端到端全模態(tài)架構,總參數量 9B。核心設計包括:

      ?全模態(tài)端到端架構:多模態(tài)編碼器/語音解碼器與 LLM 通過隱藏狀態(tài)緊密連接,在高壓縮率下實現(xiàn)通用視覺、聽覺感知和語音對話。

      ?時分復用機制:將并行多模態(tài)流劃分為周期性時間片內的順序信息組,實現(xiàn)高效的流式處理。

      ?可配置語音建模:支持文本+音頻雙系統(tǒng)提示,通過參考音頻和角色提示詞即可實現(xiàn)聲音克隆角色扮演。

      ?雙模式支持:同一模型支持傳統(tǒng)的輪次交互模式與Omni-Flow全模態(tài)全雙工模式。

      ▎實時交互:Omni-Flow 流式全模態(tài)框架

      傳統(tǒng)多模態(tài)模型將交互視為一系列孤立的回合,而 Omni-Flow 將其重塑為一個連續(xù)的過程


      圖1:交互范式的演進,MiniCPM-o 4.5 實現(xiàn)了最右側的全雙工流式交互

      如圖所示,Omni-Flow 將視覺、音頻輸入流和模型的文本、語音輸出流,在時間上進行精確切片和對齊。模型不再是被動地等待用戶輸入完成,而是以極高的頻率(例如每秒一次)持續(xù)刷新自己的“世界觀”,并自主決定在哪個時間點介入(說話或提醒)。

      這套機制原生支持了打斷、插話等高級交互行為,徹底擺脫了對外部 VAD (語音活動檢測) 等輔助工具的依賴。

      ▎端到端架構:9B 模型如何協(xié)同工作?

      為了實現(xiàn) Omni-Flow,面壁智能團隊設計了一套高效的端到端全模態(tài)架構,總參數量 9B。


      圖2:MiniCPM-o 4.5 的端到端全模態(tài)架構

      其核心組件包括:

      ?視覺編碼器(0.4B):SigLIP-ViT,負責「看」。

      ?音頻編碼器(0.3B):Whisper-Medium,負責「聽」。

      ?LLM 基座(8B):Qwen3-8B,負責「思考」和理解。

      ?語音 Token 解碼器(~0.3B):輕量級 Llama 架構,負責將 LLM 的「想法」(文本)轉化為語音單元。

      ?聲碼器: 將語音單元合成為最終的波形。

      這個架構最巧妙的設計之一是:LLM 基座只生成文本 Token,而專業(yè)的語音合成任務「外包」給了一個更小、更專業(yè)的語音解碼器。這避免了讓大模型直接處理復雜的聲學任務,從而保證了其核心的語言和推理能力不受損害。

      ▎為實時而生:TAIL 語音生成方案

      流式語音的一大難題是延遲。為了讓語音聽起來自然,模型通常需要「預讀」一大段文本,但這會導致輸出的語音遠遠滯后于用戶的輸入。在需要「即時打斷」的全雙工場景里,這是致命的。

      因此,面壁智能團隊提出了TAIL(Time-Aligned Interleaving)方案,可以讓每個語音塊的生成都緊緊跟隨其對應的文本塊,而不是讓文本「搶跑」太多。

      同時,通過一個輕量級的「預讀」(pre-look) 機制,解決了跨詞發(fā)音的連貫性問題。最終,TAIL 在保證音頻流暢悅耳的同時,將語音輸出與交互發(fā)生的延遲降到了最低。

      ▎性能表現(xiàn):9B 模型硬剛業(yè)界頂尖

      參數規(guī)模小不等于模型性能弱。MiniCPM-o 4.5 在多個維度的評測中,展現(xiàn)了與 SOTA 大模型掰手腕的實力。


      ?推理效率:在顯存方面,MiniCPM-o 4.5 的 INT4 量化版僅需 11GB 顯存即可運行,幾乎是 Qwen3-Omni INT4 版本的一半,使得其在消費級顯卡上的本地部署成為可能。在性能方面,MiniCPM-o 4.5 的推理速度也更快,其 INT4 版本的解碼速度達到了 212 tokens/s,比 Qwen3 快了 40% 以上,響應延遲更低。


      ?綜合視覺能力:在 OpenCompass、MMBench 等多個視覺基準上,9B 的 MiniCPM-o 4.5與 Gemini 2.5 Flash 表現(xiàn)相當


      ?全模態(tài)與全雙工交互:在需要聯(lián)合音視頻理解的基準上,MiniCPM-o 4.5全面超越了 Gemini 2.5 Flash 和 Qwen3-Omni。在全雙工視頻理解基準 LiveSports-3K-CC 上,其勝率(54.4%)更是大幅領先專用的流式視頻模型。


      ?語音生成:無論是中文還是英文,MiniCPM-o 4.5 的語音生成質量(字符/單詞錯誤率更低)和情感表現(xiàn)力都優(yōu)于 Qwen3-Omni 和業(yè)界領先的 CosyVoice2。


      03


      真 · 全雙工,潛力無限

      全雙工全模態(tài)大模型不是一個遙遠的概念,而是會催生一系列全新的應用,例如:

      ?主動式伴侶:在你烹飪、修理或運動時,給你實時的指導和提醒。

      ?無障礙輔助:成為視障人士的「眼睛」,為視障人士持續(xù)觀察環(huán)境,主動播報綠燈亮起、水杯將滿等關鍵環(huán)境信息,幫助他們安全生活。

      ?智能座艙:持續(xù)監(jiān)控路況和駕駛員狀態(tài),主動提示「左側有可用車位」并引導泊車,提供更智能、更及時的安全預警和駕駛輔助。

      ?具身智能:作為機器人的「大腦」,持續(xù)感知動態(tài)環(huán)境并自主決策交互時機。

      這些場景的共同點是:需求并非一次性問答,而是需要 AI 作為「沉默的觀察者」和「及時的提醒者」融入動態(tài)生活流——這正是傳統(tǒng)輪次對話模型無法勝任的。

      MiniCPM-o 4.5 是原生全雙工模型,擺脫了對VAD的依賴。這意味著:支持 general 聲音感知(環(huán)境噪音、音樂等,不僅是語音);畫面變化跟進更快(native全雙工,無需等上句說完);AI 說話時可被實時引導改變內容。

      當然,MiniCPM-o 4.5 目前還存在可提升空間,如長時間交互的穩(wěn)定性、主動行為的豐富性等。多模態(tài)智能的下一個前沿,不僅在于模型能力的擴展,更在于重新思考智能表達的交互范式。Omni-Flow 和 MiniCPM-o 4.5 是面壁智能在這一方向上的關鍵探索。

      開放與協(xié)作將持續(xù)推動人機交互演進。歡迎所有開發(fā)者試用模型、參與討論、貢獻代碼,共同探索人機交互的未來!

      ? 技術報告 PDF:

      https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

      ? 在線體驗:

      https://minicpmo45.modelbest.cn/

      ? GitHub Demo(含本地安裝包):

      https://github.com/OpenBMB/MiniCPM-o-Demo

      ? Hugging Face 下載鏈接:

      https://huggingface.co/openbmb/MiniCPM-o-4_5

      ? ModelScope 下載鏈接:

      https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5

      對于demo安裝、api調用或模型使用中您遇到任何問題、或者想分享交流,歡迎掃碼加入飛書群。

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區(qū)進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      曹操撩寡婦時說的金句,如今成了約會開場白,男人經常掛在嘴邊

      曹操撩寡婦時說的金句,如今成了約會開場白,男人經常掛在嘴邊

      掠影后有感
      2026-05-11 11:31:38
      溫莎血脈基因優(yōu)良!哈里夫婦帶一雙兒女出游,阿奇兄妹給梅根爭光

      溫莎血脈基因優(yōu)良!哈里夫婦帶一雙兒女出游,阿奇兄妹給梅根爭光

      楓塵余往逝
      2026-05-13 14:45:33
      突發(fā)!南京又一機構跑路!

      突發(fā)!南京又一機構跑路!

      南京擇校
      2026-05-14 20:12:40
      合川呆呆再登熱搜!母親節(jié)殺雞宴翻車,網友:套路都被玩爛了

      合川呆呆再登熱搜!母親節(jié)殺雞宴翻車,網友:套路都被玩爛了

      童叔不飆車
      2026-05-14 14:29:11
      馬斯克:每年休息兩三天,試過睡不到6小時結果腦子很痛效率很低

      馬斯克:每年休息兩三天,試過睡不到6小時結果腦子很痛效率很低

      頂級大佬思維
      2026-05-09 14:23:20
      我國都有哪些常見毒蛇?哪種蛇最毒?盤點我國十大毒蛇,第一名致死率超65%

      我國都有哪些常見毒蛇?哪種蛇最毒?盤點我國十大毒蛇,第一名致死率超65%

      農夫也瘋狂
      2026-05-13 11:40:43
      千萬網紅董赤赤賬號僅剩9000元,欠54萬!更背后誰拿走了網紅的錢

      千萬網紅董赤赤賬號僅剩9000元,欠54萬!更背后誰拿走了網紅的錢

      眼界縱橫
      2026-05-14 14:50:49
      張柏芝現(xiàn)身 4S 店,為剛考取駕照的大兒子 Lucas 提國產新車

      張柏芝現(xiàn)身 4S 店,為剛考取駕照的大兒子 Lucas 提國產新車

      老吳教育課堂
      2026-05-14 17:43:56
      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      知法而形
      2026-05-14 20:05:30
      女足亞洲杯太殘酷了:隨著中國女足2-4,4大勁旅已無緣爭冠

      女足亞洲杯太殘酷了:隨著中國女足2-4,4大勁旅已無緣爭冠

      俯身沖頂
      2026-05-14 21:23:59
      廣廈半決賽主場vs深圳票價:最低100元,最高1500元

      廣廈半決賽主場vs深圳票價:最低100元,最高1500元

      懂球帝
      2026-05-14 15:16:18
      正式棄用!斷崖式下滑!頂薪合同正式泡湯

      正式棄用!斷崖式下滑!頂薪合同正式泡湯

      籃球教學論壇
      2026-05-14 19:27:46
      廣東松源一在建橋梁因暴雨垮塌?當地:無人員傷亡,水流沖擊所致,只是一個架子

      廣東松源一在建橋梁因暴雨垮塌?當地:無人員傷亡,水流沖擊所致,只是一個架子

      瀟湘晨報
      2026-05-14 17:12:18
      “給兒子吃得大腦缺氧了!”一頓全碳水早餐,暴露了寶媽的低認知

      “給兒子吃得大腦缺氧了!”一頓全碳水早餐,暴露了寶媽的低認知

      妍妍教育日記
      2026-05-14 13:30:26
      買車半年維修9次!蔚來車主:不敢開了,要求退車

      買車半年維修9次!蔚來車主:不敢開了,要求退車

      深圳晚報
      2026-05-14 08:45:16
      杜鋒下課?廣東男籃做法有深意,遠超外界猜測,徐杰或成交易籌碼

      杜鋒下課?廣東男籃做法有深意,遠超外界猜測,徐杰或成交易籌碼

      萌蘭聊個球
      2026-05-13 16:32:05
      很多男人已經養(yǎng)不起家了,無數普通頂梁柱被壓垮!

      很多男人已經養(yǎng)不起家了,無數普通頂梁柱被壓垮!

      黯泉
      2026-05-14 10:57:59
      爽快!中美會晤提出的第一個要求,中方開場白定調,太高明了

      爽快!中美會晤提出的第一個要求,中方開場白定調,太高明了

      愛看劇的阿峰
      2026-05-14 18:59:00
      隨著騎士3-2領先活塞,馬刺3-2森林狼,NBA季后賽最終4強基本出爐

      隨著騎士3-2領先活塞,馬刺3-2森林狼,NBA季后賽最終4強基本出爐

      球場沒跑道
      2026-05-14 11:16:03
      美國眾議院議員強行將援助烏克蘭的法案賦予投票

      美國眾議院議員強行將援助烏克蘭的法案賦予投票

      山河路口
      2026-05-14 12:33:23
      2026-05-14 22:03:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7274文章數 20751關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      體育要聞

      爭議抽象天王山,和季后賽最穩(wěn)定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發(fā)布

      態(tài)度原創(chuàng)

      旅游
      親子
      教育
      家居
      健康

      旅游要聞

      長江三峽翠屏林立 呈現(xiàn)碧水青山詩意畫卷

      親子要聞

      監(jiān)控下的幼兒園小可愛,主動幫老師搬桌開門,邏輯超在線

      教育要聞

      南京秦淮、雨花臺、玄武、建鄴2026高考考點公布!

      家居要聞

      精神奢享 對話塔尖需求

      專家揭秘干細胞回輸的安全風險

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久亚洲第一视频黄色| 黃色一级毛片9299步免费| 欧美人妻少妇| 日韩av一区二区高清不卡 | 东京热av无码电影一区二区| 国产福利深夜在线播放| 亚洲欧洲中文日韩乱码av| 国产成人露脸自拍视频| 久久人妻少妇嫩草av无码专区| 亚洲精品不卡av在线播放| 日韩毛片在线免费观看| www.国产在线| 国产精品一亚洲AV日韩AV欧| 国内精品九九久久久精品| 国产精品久久国产精麻豆| 亚洲人妻系列| 欧美老肥妇做爰bbww| 717午夜伦伦电影理论片| 激情人妻超碰免费在线| 国内精品免费久久久久电影院97| 三上悠亚ssⅰn939无码播放| 国内精品久久久久久久齐齐| 亚洲图片在线| 亚洲V天堂V手机在线| 日韩有码中文字幕av| 特黄aaaaaaa片免费视频| 国产超碰伊人| 3atv精品不卡视频| 日韩欧美在线综合网另类| 欧美日产国产精品| 精品熟女999| 亚洲精品成人无| 2021精品国产品免费观看| 少妇高潮惨叫久久久久久| 欧美成人精品一区二区三区色欲| 好紧太爽了视频免费无码| 国产综合有码无码中文字幕| 国产精品福利自产拍久久| 亚洲A综合一区二区三区| av无码成人高潮| 三级网在线|