<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      不用人類手寫訓練框架了!AI自己寫代碼,訓出1B端側「小鋼炮」

      0
      分享至



      機器之心編輯部

      你的電腦里,或許很快會住進一只會聊天的「小怪獸」。

      它不需要龐大的云端算力,也不必每一次對話都把請求發往遠處的數據中心。它可以安靜地待在本地設備里,隨時被喚醒,陪你聊天、回答問題、處理簡單任務,甚至在沒有網絡的時候繼續運行。

      這聽起來像是一個輕量、有趣的 AI「桌寵」場景,但背后其實對應著大模型行業正在發生的一次路線分化。

      過去很長一段時間,大模型給人的印象都是龐然大物:數百億甚至上千億參數起步,推理依賴云端數據中心,背后是高昂的算力、電力和調用成本。模型越大,能力越強,幾乎成了行業默認的進步方向。

      但端側模型不能簡單復制這條路。

      它要進入個人電腦、手機、車機和邊緣設備,就必須足夠高效、足夠快,也必須足夠省資源;并且,端側模型要真正留在用戶身邊,還需要低延遲、低成本,最好還能本地運行、斷網可用。

      這也是面壁一直押注的方向:用極致高效模型,盡可能換取極強的能力。

      5 月 25 日,面壁開源最新一代端側文本基座大模型 MiniCPM5-1B。這是一款面向開發者和終端設備的 1B 級「小鋼炮」模型,主打低成本部署、高效運行和端側友好

      相比動輒幾十億、幾百億參數的主流模型,面壁發布的 1B 規模已經小到一個近乎反直覺的程度。但在終端設備上,這個模型已經具備本地部署的基礎條件,可以支撐一類輕量、本地化的 AI 應用,如回答問題,輔助工作,陪你聊天,甚至驅動一只桌面上隨時待命的數字「桌寵」。

      基于面壁 MiniCPM 系列端側模型開發的 AI 桌寵交互演示。項目地址:https://github.com/OpenBMB/MiniCPM-Desk-Pet(本項目基于 clawd-on-desk 項目二次開發)

      面壁想讓 MiniCPM5-1B 成為「每個人都養得起的 AI」。

      更特別的是,MiniCPM5-1B 背后還「站著」ForgeTrain,全球首個完全由 AI 編寫的生產級大模型訓練框架,訓練效果與英偉達 Megatron 對齊,訓練速度比后者快 10%,相當于同等算力下成本降低 10%。

      也就是說,面壁這次不只是開源了一個 1B 小尺寸模型,更是一條完整的路線:用 AI 編寫預訓練框架,再由這個框架參與端側基座模型的預訓練,已經跑通了。

      榜單上的小鋼炮:僅憑 1B 參數,超越不止一檔

      端側模型的難點在于,模型越小,能力損失往往越明顯。

      在云端,大模型可以通過更大的參數規模、更高的訓練成本、更復雜的推理機制來換取能力。

      但端側模型不能簡單走這條路,它需要在有限參數、有限算力、有限內存中,盡可能榨出更高的智能密度。還要盡可能減少延遲,在網絡不穩定甚至斷網的情況下保持可用。

      這也是 MiniCPM5-1B 最值得關注的地方。它不是單純把參數規模壓到 1B,而是在壓縮模型體量的同時,盡可能保住了端側模型最需要的通用能力。

      在公開榜單中,MiniCPM5-1B 在同尺寸模型中打出了很強的競爭力:綜合知識、數學推理、代碼編程、工具調用等核心能力維度,均超越了同規模的主要競爭對手,包括 Qwen3.5-0.8B/think 和 LFM2.5-1.2B-Thinking 等。





      在權威模型評測榜單 Artificial Analysis Intelligence Index(AA-Index)上,MiniCPM5-1B 再次刷新模型的智能密度上限:僅以 1B 參數規模取得17.9 分位列「小尺寸模型」榜單第一,超越了所有 2B 參數以下模型,相比 3 個月前發布的 Qwen3.5-2B(16.3 分),MiniCPM5-1B 不僅效果更優,參數量還減少了一半。

      這一結果進一步驗證了面壁持續觀察到的密度定律大模型的智能密度正在以約每 3.5 個月翻一番的速度持續提升。更小的模型,正在承載更高的智能密度





      由此可見,MiniCPM5-1B 的應用邊界被進一步打開。過去,這類小模型更多被用于簡單對話、基礎問答和輕量任務;但 MiniCPM5-1B 的表現說明,在有限參數和有限算力條件下,小尺寸模型也可以承載更復雜的推理、代碼和工具調用能力。

      低門檻部署,才是端側 AI 的入口

      對于開發者來說,MiniCPM5-1B 最實在的價值在于:它真的很好部署。

      這件事聽起來簡單,但在端側大模型里并不容易。很多模型在論文和榜單上表現不錯,一到真實設備上就會遇到各種問題:模型權重太大,普通電腦內存根本吃不消;顯存要求太高,消費級設備跑不動;量化后能力掉點明顯;推理框架適配麻煩;環境配置復雜;換一臺設備,又要重新踩一遍坑。

      結果就是,模型雖然開源了,但真正能把它順利跑起來的開發者并不多。對普通用戶而言,更不用說把它放進本地應用里長期使用了。

      這正是端側模型面臨的困境:它不只是要「開源可下載」,還要「本地能部署」。MiniCPM5-1B 很好的解決了這些問題。

      從精度選擇上看,FP16 精度權重約 2GB,適合 GPU 和高端筆記本以及服務器;INT8 量化后約 1GB,幾乎無性能損失,覆蓋主流筆電和邊緣計算盒子;INT4 / Q4 量化后僅 0.5GB,手機、平板、車機都能跑。也就是說,一張半張 SD 卡的空間,就能裝進一個達到同級全球最優水平的語言模型。

      更進一步,MiniCPM5-1B 還支持純 CPU 環境運行,也可以在瀏覽器中部署。這表明它不再只屬于服務器和高端顯卡,更是有機會進入普通設備,成為一個真正本地化的語言模型。

      這帶來的變化很直接:許多輕量 AI 應用不必再完全依賴云端 API,也不必每一次交互都把請求發往數據中心。只要設備性能滿足要求,模型就可以在本地完成推理,在弱網甚至離線環境下繼續運行。

      這也是端側模型真正走向應用的前提:不是讓用戶知道模型已經開源,而是讓開發者真的能把它裝進設備、接入應用,并在真實場景里跑起來。

      從本地助手到 AI 桌寵:小模型真正進入應用

      一個端側模型好不好用,還取決于能不能方便微調、推理、部署和集成。

      MiniCPM5-1B 在微調側支持 LlamaFactory、ms-swift,開發者如果想基于私有數據做領域適配,可以直接接入已有工具鏈,而不必從頭搭建訓練流程。

      推理側,支持 SGLang、vLLM、llama.cpp、Ollama、Hugging Face、ArcLight 等工具和框架,如此一來開發者不需要從零搭建一整套模型使用鏈路,而可以在已有生態中快速上手。

      更進一步,面壁還提供了安裝部署相關的 skills。用戶可以直接調用自己的龍蝦,或者使用 Claude Code 等代碼智能體,按照 skills 自動完成安裝和部署。這進一步降低了從「下載模型」到「本地跑起來」之間的操作門檻。

      Skills 鏈接:https://github.com/OpenBMB/MiniCPM/tree/minicpm5#agent-skills--one-click-deploy--finetune

      上述這些能力對端側模型來說非常重要。

      因為端側應用的場景非常碎片化,大家需求各不相同,比如離線客服、桌面寵物、車機交互等,這些場景有一個共同點,它們不一定需要最大的模型,但需要一個足夠輕、便宜、容易部署、還足夠穩定的模型。

      MiniCPM5-1B 正好適配這些場景,它讓開發者有機會把一個具備真實語言能力的模型,放進日常的終端入口里。

      前面提到的 AI 桌寵就是一個很好的例子。

      首先,桌寵需要長期常駐。它不能像一個臨時打開的網頁應用,用完即走,而是要像一個輕量系統組件一樣停留在用戶桌面上。這就要求模型足夠小,不能長期占用太多內存和算力。

      其次,桌寵需要即時響應。用戶問它一個問題,或者讓它提醒一個事項,它都要快速給出反饋。如果每次都依賴云端調用,不僅延遲更高,成本也會隨著使用頻率迅速增加。

      這正是 MiniCPM5-1B 這類端側模型的優勢所在。它小到可以被放進普通終端,支持本地運行,可以減少對云端 API 的依賴;還保留了對話、理解、推理和工具調用等基礎能力,足以支撐一類輕量但高頻的本地 AI 應用。

      MiniCPM5-1B 不僅能聊天,更擁有深入系統底層的端側 Agent 自主執行能力。

      當模型足夠小,開發者才有空間把它放進更多設備;從而圍繞它做二次開發。這是大模型走向「個人 AI」時代的一個微小但堅實的腳印。

      模型尺寸變小以后,數據質量變得更重要

      性能躍升的背后,是數據質量的底層支撐。

      這次,面壁同步開放了數據治理相關成果,包括開源高質量預訓練數據集 UltraData(含最新版本Ultra?FineWeb?L3)。

      現階段,大模型訓練中有一個逐漸被行業接受的判斷:單純擴大數據規模的邊際收益在下降,模型能力的提升越來越依賴數據質量而不是數據數量。

      這對小尺寸模型尤其重要。

      大模型參數多,多少還能吸收一部分數據噪聲;但對 1B 級模型來說,什么數據進入訓練集、數據如何配比、低質量數據如何剔除等等,都會直接影響最終能力。

      面壁建立了一套從 L0 到 L4 的分級數據治理體系,對高知識密度的中文網頁、英文網頁和數學語料進行了大量數據合成工作,最終形成的開源數據集隨模型一起發布。



      來源論文:https://arxiv.org/pdf/2602.09003

      基于這套開源數據,開發者可以直接微調或訓練自己的小模型,而不必從頭建立數據處理管線。這是面壁在小模型路線上一貫的開放策略,開源不只是發布權重,而是把整個工程體系的關鍵環節都開放出來。

      ForgeTrain:AI 寫出的訓練框架

      MiniCPM5-1B 有兩個發布版本:一個后訓練版本;另一個是預訓練完成的 Base Model 版本。而這個 Base Model,有一個不尋常的出身,由 ForgeTrain 參與預訓練完成。

      ForgeTrain 是一個大模型訓練框架,類似于英偉達的 Megatron。但 ForgeTrain 有一個根本性的不同:構成它的每一行代碼,沒有一位人類工程師參與,都是由 AI 完成的

      這和 Vibe Coding 有根本上的不同,ForgeTrain 使用 Harness + Agent loop 技術,一旦 Agent 開始編寫代碼,不需要人類介入。此外,作為訓練框架,它要處理分布式訓練、并行策略、顯存管理、通信效率、算子調用、硬件適配和訓練穩定性。任何一個細節出錯,都可能讓一次預訓練消耗掉大量算力。

      所以,ForgeTrain 真正要證明的是 AI 能不能寫出一套能支撐真實模型訓練的生產級系統軟件。

      其結果是,在英偉達 H100 GPU 上,ForgeTrain 的訓練效果與 Megatron 對齊,速度領先 10%。換算成成本,相當于同等計算預算下,訓練成本有望下降約 10%。在大模型預訓練這種高成本環節里,幾個百分點的效率提升,都會直接對應算力、電力和時間成本的下降。

      更重要的是,ForgeTrain 也完成了對華為昇騰系列等國產算力的適配。ForgeTrain 在華為昇騰上預訓練 MiniCPM5-1B,相比昇騰大模型訓練框架 MindSpeed 也有10%的加速。

      未來國產芯片的軟件生態,或許不再需要完全依賴人力去一點點修補和追趕,而可以由 AI 快速「鍛造」出來。

      由此可見,MiniCPM5-1B 不只是一個模型版本,它更像是一次真實壓力測試:AI 寫出的訓練框架,已經開始參與訓練新的 AI 模型。

      這也是「AI 制造 AI」在這次發布中最實在的一層含義:AI 還沒有替代完整模型研發流程,但已經進入了模型生產鏈路中的關鍵軟件環節。

      業內對這一方向已有共識。Anthropic 創始人 Dario Amodei 將自動化 AI 研究定性為 AGI 時間表最強的加速器;OpenAI、谷歌 DeepMind、xAI 也把「AI 加速 AI 研究」寫進戰略核心;Andrej Karpathy 今年 3 月提出的 AutoResearcher,則從算法層面展示了 AI 自主優化模型的可行性。

      但在此之前,所有探索都停留在算法層面或研究原型階段。面壁的 ForgeTrain,第一次在「生產級訓練框架」這一基礎設施粒度上完成了驗證,是率先交卷的。

      這背后,是面壁首創的「鍛造工程」(Forge Engineering)軟件范式在支撐,它不是維護一個通用框架,而是讓 AI 為每一款芯片、每一個模型「現場鍛造」出專屬的、高效的軟件。

      結語

      MiniCPM5-1B 背后,是面壁兩年多來在「極致端側大模型」這條路上的持續積累。

      2024 年 2 月,第一代 MiniCPM 以 2.4B 的身軀超越了 Mistral-7B,打響了「小鋼炮」系列的第一炮。MiniCPM 3.0 將 4B 參數做出了超越 GPT-3.5 的水準,量化后僅 2GB 內存,讓「端側 ChatGPT 時刻」第一次不再是噱頭。MiniCPM 4.0 則把稀疏架構引入端側,以 22% 的訓練開銷追平 Qwen3-8B,并實現了 600 Token/s 的極速推理。

      而 MiniCPM5-1B 的特殊之處在于兩點:能力更強,用 1B 體量實現對同級甚至更高級模型的性能超越;出身不同,其基座模型版本,由 AI 自己編寫的訓練框架 ForgeTrain 鍛造而成。

      面壁選擇的這條路線,從來不是單純把模型做小。而是在小參數、低內存、低算力的約束下,依然保住足夠高的智能密度。

      MiniCPM5-1B 要回答的,正是這個問題:當一個模型足夠輕、足夠便宜、足夠容易部署時,它還能不能足夠聰明?

      這一次,面壁給出的答案不只來自模型本身。ForgeTrain 參與 Base Model 預訓練,表明 MiniCPM5-1B 是「AI 制造 AI」路線的一次模型級驗證;UltraData 則指向另一條暗線,小規模模型要做強,不能只靠堆數據規模,更要依賴高質量的數據治理。

      MiniCPM5-1B 的發布,不只是「小鋼炮」系列的又一次升級。它更像是面壁把端側模型背后的生產方式也一起推到了臺前:模型能力、訓練框架、數據治理、部署生態,共同決定了一個 1B 模型能走多遠。

      如果說云端大模型的主戰場是能力上限,那么端側模型的主戰場就是智能密度。MiniCPM5-1B 的意義正在于此:一個足夠小的模型,也可以在合適的工程體系支撐下,進入個人電腦、手機、車機和邊緣設備,成為開發者真正能部署、用戶真正能感知的本地智能。

      現在,MiniCPM5-1B 已經開源,部署指南與微調文檔同步上線。

      下一只住進你電腦里的 AI「桌寵」,或許就從這個 MiniCPM5-1B 模型開始。

      最后,附上一些鏈接供大家參考:

      • Hugging Face 鏈接:https://huggingface.openbmb.com/model/openbmb/MiniCPM5-1B
      • GitHub 鏈接:https://github.com/OpenBMB/MiniCPM
      • ModelScope 鏈接:https://modelscope.cn/models/OpenBMB/MiniCPM5-1B
      • GitCode:https://ai.gitcode.com/OpenBMB/MiniCPM5-1B
      • 魔樂社區:https://modelers.cn/models/OpenBMB/MiniCPM5-1B
      • ForgeTrain開源鏈接:https://github.com/OpenBMB/ForgeTrain

      文中視頻鏈接:https://mp.weixin.qq.com/s/2tdHV01FL_YGUmZQ12DS2A

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      浙江包工頭多器官衰竭,醫院一直沒找出病因,母親煮餃子察覺蹊蹺

      浙江包工頭多器官衰竭,醫院一直沒找出病因,母親煮餃子察覺蹊蹺

      二十一號故事鋪
      2024-10-18 19:35:03
      日本福島核區野豬變“超級豬”!可全年無休止周期性繁殖

      日本福島核區野豬變“超級豬”!可全年無休止周期性繁殖

      DeepAuto車探
      2026-05-26 22:26:05
      Hi-Fi品牌做兩百多元的降噪耳機,音質和安靜全都要?

      Hi-Fi品牌做兩百多元的降噪耳機,音質和安靜全都要?

      微型計算機
      2026-05-24 22:47:05
      武契奇哭了,有了這塊勛章他就算回去被推翻,也是民族功臣!

      武契奇哭了,有了這塊勛章他就算回去被推翻,也是民族功臣!

      阿龍聊軍事
      2026-05-26 11:34:05
      為隊友發聲!米切爾:很多人都是唯冠軍論,卻忽略了哈登的偉大

      為隊友發聲!米切爾:很多人都是唯冠軍論,卻忽略了哈登的偉大

      懂球帝
      2026-05-26 15:01:09
      殲-15近乎全退役,成全球最短命艦載機,有何短板?

      殲-15近乎全退役,成全球最短命艦載機,有何短板?

      緊跟時代脈搏
      2026-05-20 13:55:55
      我剛調到市公安局,在電梯里被人拍了肩膀:新來的去幫我買個飯

      我剛調到市公安局,在電梯里被人拍了肩膀:新來的去幫我買個飯

      千秋文化
      2026-05-17 20:33:12
      外媒警告:如果臺海開戰,解放軍首波攻勢會是“無人機海”

      外媒警告:如果臺海開戰,解放軍首波攻勢會是“無人機海”

      子桑說
      2026-05-26 14:19:43
      “騎一萬塊的智能電驢通勤”,誰會用它充體面

      “騎一萬塊的智能電驢通勤”,誰會用它充體面

      新周刊
      2026-05-26 09:15:51
      2026年最值得買的4款燃油車,開十年無大修

      2026年最值得買的4款燃油車,開十年無大修

      西莫的藝術宮殿
      2026-05-24 12:42:41
      1000臺光刻機成“定心丸”!荷蘭專家:中國囤貨這步棋,走得太妙

      1000臺光刻機成“定心丸”!荷蘭專家:中國囤貨這步棋,走得太妙

      瘋狂小菠蘿
      2026-05-26 11:56:57
      日本性感寫真女星自曝:從小胸就很大卻只能穿破內衣,17歲就想逃離這個家。。。

      日本性感寫真女星自曝:從小胸就很大卻只能穿破內衣,17歲就想逃離這個家。。。

      日本物語
      2026-05-26 21:51:29
      人倫之亂,正在悄悄毀掉無數家庭!看完一身冷汗

      人倫之亂,正在悄悄毀掉無數家庭!看完一身冷汗

      三農老歷
      2026-05-08 19:20:12
      兩千五百將士槍械充足,這支王牌部隊為何鮮為人知

      兩千五百將士槍械充足,這支王牌部隊為何鮮為人知

      嘮叨說歷史
      2026-05-25 17:59:52
      事關濃縮鈾,伊朗寧求中國不求俄?特朗普緊急表態,給出兩個選擇

      事關濃縮鈾,伊朗寧求中國不求俄?特朗普緊急表態,給出兩個選擇

      好賢觀史記
      2026-05-26 19:51:05
      你至少必須擁有一個不良嗜好,真的,能續命!

      你至少必須擁有一個不良嗜好,真的,能續命!

      貓大夫醫學科普
      2026-05-16 06:49:56
      新賽季將扣除32萬英鎊積分!中國一哥丁俊暉恐很難保住前16的位置

      新賽季將扣除32萬英鎊積分!中國一哥丁俊暉恐很難保住前16的位置

      世界體壇觀察家
      2026-05-26 17:22:44
      每瓶僅含0.01克,喝幾千瓶才抵一個桃!“飲料一哥”也翻車了?杭州多家超市在售,你可能也喝過

      每瓶僅含0.01克,喝幾千瓶才抵一個桃!“飲料一哥”也翻車了?杭州多家超市在售,你可能也喝過

      都市快報橙柿互動
      2026-05-24 20:48:16
      定都南方為什么會亡國

      定都南方為什么會亡國

      荊棘阿甘
      2026-05-27 09:29:36
      紐約州長太離譜:剛喊完富人快回家開支票,轉頭就要征第二套房稅

      紐約州長太離譜:剛喊完富人快回家開支票,轉頭就要征第二套房稅

      流年顛簸
      2026-04-19 16:29:10
      2026-05-27 11:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13090文章數 142653關注度
      往期回顧 全部

      科技要聞

      美光股價大漲超19% 市值破萬億美元

      頭條要聞

      媒體:魯比奧訪印 美印之間"蜜里藏刀"三大痛點很微妙

      頭條要聞

      媒體:魯比奧訪印 美印之間"蜜里藏刀"三大痛點很微妙

      體育要聞

      這群老阿姨,是最硬核的馬刺球迷

      娛樂要聞

      小S曬歸寧宴舊照,大S穿吊帶裙扎丸子頭

      財經要聞

      ST巖石退市背后:A股“炒殼”時代終結

      汽車要聞

      試駕新紅旗HQ9 2.0T混動+雙電機四驅

      態度原創

      健康
      親子
      游戲
      教育
      軍事航空

      外泌體抗衰,什么時候能用上?

      親子要聞

      孩子發音不好別忽視不一定是腭裂,可能是神經系統在“報警”

      PS PLUS港服會員折扣上線!最高可享67折 不容錯過

      教育要聞

      尋找優秀實習生|北京大學出版社經管圖書事業部崗位開放中

      軍事要聞

      多國接到撤離警告 俄升級對烏報復性打擊

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 在线aⅴ亚洲中文字幕| √天堂资源在线中文8在线最新版| 国产盗摄XXXX视频XXXX| 国产在线超清日本一本| 日本色88网站| 日照市| 国产精品国产三级欧美二区| 免费一区二三区三区蜜桃| 图片区偷拍区小说区五月| 日产国产精品亚洲系列| 亚洲国产精品综合久久20| 在线观看国产精品日韩av| 五月丁香亚洲综合| 黑人又大又粗免费视频| 青春草在线视频观看| 欧美成人a在线网站| a午夜国产一级黄片| 亚洲熟妇无码久久精品疯| 四虎成人在线观看免费| 国产精品久久久| AV资源吧| 日韩精品乱码AV一区二区| 夜夜添狠狠添高潮出水| 女人张开腿无遮无挡视频| 大型成人综合色区| 中文字幕亚洲高清在线一区| 四虎国产精品永久在线下载| 亚洲熟女乱色综一区二区| 老少配老妇老熟女中文普通话| 巴青县| 国内精品久久人妻无码AV探花影视| 无极县| 欧美13一14娇小xxxx| 五月天国产成人av免费观看| 伊人久久大香线蕉AV网禁呦| 色欲久久久天天天综合网 | 房东老头揉捏吃我奶头影片| jizzjizz少妇亚洲水多| 无码视频一区二区三区| 亚洲国产成人无码AV在线| 精品va在线观看|