網易首頁 > 網易號 > 正文申請入駐

ollama v0.23.1 發布：原生支持 Gemma4 MTP 多令牌解碼，Mac 端編碼推理速度直接翻倍

2026-05-07 00:11:39　來源: moonfdd

北京舉報

分享至

前言

2026年5月6日，ollama正式推送v0.23.1最新穩定版本，作為小版本迭代更新，本次版本看似版本號跨度不大，實則帶來了Mac平臺MLX運行器核心能力升級、Gemma4 MTP多令牌推測解碼正式適配、底層依賴版本升級、CI編譯流程修復、命令行功能增強、模型創建規則重構等一系列重量級變更。

本次更新累計包含7次代碼提交、61個文件發生變更、實現5047行代碼新增與488行代碼刪除，由4名代碼貢獻者共同完成迭代。更新覆蓋MLX與MLX-C底層庫線程問題修復、Go語言版本升級至1.26、Gemma4 MTP推測解碼功能新增、Windows文件路徑適配、CI編譯配置修復、Docker鏡像構建優化、CUDA編譯參數調整、Modelfile創建命令規則重構、單元測試用例新增、日志錯誤匹配規則擴充、Gemma4模型推理權重加載與KV緩存邏輯重構等全方位內容，本文將完整復刻官方更新日志與代碼差異全部內容，無刪減、無新增、無遺漏，全方位拆解ollama v0.23.1所有變更細節與技術價值。

一、版本基礎信息與核心亮點概述

ollama v0.23.1為當前最新發布版本，正式發布時間為2026年5月6日，核心主打功能為MLX運行器適配Gemma 4 MTP多令牌處理機制。

Gemma 4 MTP多令牌推測解碼現已正式在Mac設備上提供支持，針對Gemma 4 31B編碼專用模型，在代碼編寫、程序開發類推理任務場景下，能夠實現超過2倍的推理速度提升，大幅降低Mac本地部署大模型進行編碼開發、代碼補全、程序調試的等待耗時，徹底優化Apple芯片設備運行超大參數量編碼模型的體驗。

用戶可通過官方原生命令直接拉起適配MTP加速的Gemma4 31B模型，執行命令如下：
ollama run gemma4:31b-coding-mtp-bf16

除核心的MTP推理加速功能外，本次版本三大核心代碼變更要點清晰明確，分別為：
第一，更新MLX和MLX-C依賴庫，完成底層線程相關問題修復，解決舊版本中MLX引擎并發運行、多線程調度存在的隱性bug，提升Mac平臺模型運行穩定性；
第二，將項目Go語言基礎版本升級至1.26，跟進Go官方新版本特性，同時兼容新版語法、標準庫能力與編譯優化特性；
第三，新增Gemma 4 MTP推測解碼完整邏輯，從模型注冊、推理調度、Draft草稿模型配置、令牌策略設定多維度完成全鏈路適配。

二、版本提交記錄與迭代時間線明細

本次ollama v0.23.1從代碼提交到正式發布，迭代周期集中在2026年5月4日至5月5日，全部提交記錄與變更內容完整如下：

1. 2026年5月4日：完成MLX和MLX-C庫更新，同步修復底層線程相關缺陷，對應合并請求編號15845；
2. 2026年5月4日：完成項目Go語言版本升級至1.26，對應合并請求編號15904；
3. 2026年5月5日：新增MLX引擎對Gemma4 MTP功能的底層支持，搭建核心推理框架；
4. 2026年5月5日：執行gofumpt代碼格式化與靜態語法檢測工具適配，統一項目代碼規范；
5. 2026年5月5日：針對Windows系統文件路徑解析邏輯進行適配修復，解決跨平臺路徑識別異常問題；
6. 2026年5月5日：將Draft草稿令牌策略設置為常量固定配置，統一MTP解碼全局規則；
7. 2026年5月5日：修復MLX引擎對應的CI持續集成編譯配置，解決自動化構建流程報錯問題。

整體迭代過程緊湊高效，從底層依賴修復、語言版本升級，到核心功能開發、代碼規范格式化、跨平臺適配、編譯流程修復全覆蓋，同時整體代碼變更規模為5047行新增代碼、488行代碼刪除，61個業務與配置文件參與修改，整體變更范圍覆蓋編譯配置、容器鏡像、命令行邏輯、模型推理、單元測試、開發文檔、底層引擎等全模塊。

三、各文件代碼變更細節完整解析 3.1 工作流配置文件.github/workflows/release.yaml變更

本次發布流水線配置存在7處代碼變更，5行新增、2行刪除，核心調整ollama各架構組件打包歸檔規則：
原有配置中將lib/ollama/mlx*目錄文件統一歸入通用歸檔包，新版本進行規則拆分，將mlx相關組件單獨拆分歸檔至ollama- {{ matrix.arch }}-mlx.tar.in，其余include類目錄保持原有歸檔規則不變。

同時在Linux amd64架構、ROCm硬件適配場景下，補充編譯構建參數配置，完善多平臺多硬件架構下的發布打包邏輯，區分通用版本、MLX專屬版本、Jetpack5/Jetpack6版本、ROCm版本歸檔隔離，避免不同加速引擎文件混雜打包，提升版本分發與安裝部署的規范性。

3.2 編譯配置文件CMakeLists.txt變更

CMakeLists.txt存在8處代碼變更，8行新增無刪除，主要針對MLX引擎編譯安裝規則進行補充：
在啟用MLX引擎的編譯條件下，新增jaccl目標庫的安裝配置，分別指定運行時文件、庫文件、框架文件的安裝目錄，并歸屬至MLX組件分類下。

同時保留原有macOS arm64架構下Metal運行庫的專屬安裝注釋與邏輯，明確Metal后端僅為Apple Silicon arm64架構編譯適配，不支持x86_64架構設備，完善跨架構編譯依賴庫的安裝管理，保證MLX引擎依賴組件完整部署。

3.3 編譯預設配置CMakePresets.json變更

該文件僅2處變更，1行新增1行刪除，調整CUDA編譯核心參數：
將CMAKE_CUDA_FLAGS編譯參數從-t 4修改為-t 2，同時固定CUDA架構適配列表，涵蓋從75-virtual到121-virtual全系列架構，保持cuda_v13運行器目錄配置不變，平衡CUDA編譯線程數與硬件兼容性，避免高線程編譯導致的資源占用過高、編譯失敗問題。

3.4 容器構建Dockerfile變更

Dockerfile存在5處代碼變更，4行新增1行刪除，優化Ubuntu 24.04基礎鏡像構建流程：
新增APT_MIRROR鏡像源參數變量，默認使用官方ubuntu歸檔源，通過sed命令動態替換系統軟件源配置，執行軟件包更新、證書依賴、Vulkan運行庫、OpenBLAS數學庫安裝，安裝完成后還原默認軟件源配置，最后清理apt緩存與無用目錄，精簡鏡像體積。

該優化解決了國內及不同網絡環境下Docker構建拉取軟件包超時、失敗的問題，同時保留多階段構建邏輯，從編譯鏡像、運行鏡像分層拷貝二進制文件與依賴庫，保證ollama容器鏡像輕量化與完整性。

3.5 底層依賴版本標識文件MLX_C_VERSION、MLX_VERSION

兩個版本標識文件各2處變更，均為1行哈希值替換無刪除：
分別更新MLX-C與MLX核心庫的提交哈希標識，切換至修復線程問題后的最新版本，讓項目編譯時自動拉取修復后的依賴源碼，無縫接入底層線程bug修復能力，無需手動修改依賴引入邏輯。

3.6 命令行核心邏輯cmd/cmd.go變更

cmd/cmd.go共計61處變更，54行新增7行刪除，是本次版本命令行功能升級的核心文件：

1. 新增多包依賴導入，補充xcreate、xcreateclient相關模塊引用，支撐實驗性模型創建能力；
2. 新增isLocalhost本地地址判斷函數，用于校驗遠程與本地模型創建場景區分；
3. 新增resolveExperimentalLocalModelDir實驗性本地模型目錄解析函數，支持基于Modelfile文件路徑解析相對模型目錄，識別safetensors與tensor格式模型目錄合法性；
4. 新增resolveExperimentalDraftDir草稿模型目錄解析函數，校驗Draft草稿模型路徑是否為合法safetensors目錄，同時限制非絕對路徑下僅支持本地相對目錄引用，暫不支持遠程模型引用；
5. 重構CreateHandler模型創建核心處理函數，增加--draft-quantize參數校驗邏輯，強制要求draft-quantize量化參數必須搭配--experimental實驗性參數使用，否則直接返回錯誤提示；
6. 重構實驗性模式下本地模型目錄、Draft草稿模型目錄的路徑解析邏輯，替換原有簡單路徑拼接為專用解析函數，提升路徑兼容性與合法性校驗能力；
7. 擴展CreateModel入參配置結構體，新增DraftQuantize草稿模型量化參數傳遞，適配MTP模式下草稿模型單獨量化需求；
8. 重構CLI命令初始化的參數校驗邏輯，在非實驗模式下禁止draft-quantize參數傳入，強化參數約束規則；
9. 為create命令新增--draft-quantize命令行參數，用于指定Draft草稿模型量化等級，與--experimental參數強綁定。

整體重構了ollama create命令的實驗性模式、草稿模型引用、模型路徑解析、量化參數管控全流程規則，讓Modelfile中DRAFT關鍵字、草稿模型量化功能具備規范的使用約束與路徑解析能力。

3.7 命令行單元測試cmd/cmd_test.go變更

該文件存在82處變更，82行新增無刪除，批量新增完整單元測試用例，覆蓋本次命令行所有新增邏輯：

1. 新增TestCreateHandlerDraftQuantizeRequiresExperimental測試用例，校驗draft-quantize參數不攜帶experimental參數時是否正常拋出錯誤；
2. 新增TestCreateHandlerDraftRequiresExperimental測試用例，校驗Modelfile中配置DRAFT關鍵字但未開啟實驗模式時的錯誤攔截邏輯；
3. 新增TestResolveExperimentalLocalModelDir測試用例，覆蓋模型名稱引用、本地相對目錄引用兩種場景，驗證目錄解析函數準確性；
4. 新增TestResolveExperimentalDraftDir測試用例，校驗合法本地草稿目錄解析、非法遠程模型引用報錯兩種場景，匹配官方約束規則。

所有測試用例均基于臨時目錄生成Modelfile與模型目錄，模擬真實使用場景，保證命令行新增邏輯的穩定性與兼容性，避免后續迭代引入功能回歸問題。

3.8 開發文檔docs/development.md變更

開發文檔存在29處變更，無新增內容、刪除29行原有注釋說明：
完整移除原有關于go1.24版本synctest實驗包的說明文檔，包括synctest包啟用背景、CI編譯失敗排查方式、臨時啟用命令、全局環境變量配置方法、生產構建無需依賴synctest包等全部備注內容。

刪除原因在于項目已升級至Go1.26版本，synctest相關兼容問題已在新版本中徹底解決，無需再保留舊版本適配說明，精簡開發文檔冗余內容。

3.9 項目依賴配置go.mod變更

go.mod文件僅2處變更，1行新增1行刪除，將Go語言版本聲明從go 1.24.1升級為go 1.26.0，同步匹配項目底層版本升級，規范模塊依賴編譯的Go版本約束，確保編譯環境與項目語法特性匹配。

3.10 推理狀態日志llm/status.go變更

該文件存在23處變更，17行新增6行刪除，擴充模型運行錯誤日志匹配規則：
在errorPrefixes錯誤前綴數組中新增mlx:、MLX:兩類匹配標識，讓狀態日志捕獲機制可以精準識別MLX引擎運行過程中拋出的錯誤信息，統一CUDA、ROCm、MLX、程序panic、致命錯誤、常規運行錯誤的日志捕獲規則，便于用戶與開發人員排查Mac端MLX模型運行異常問題。

3.11 Gemma4模型底層推理邏輯llm目錄相關代碼變更

本次版本大規模重構Gemma4 Assistant輔助模型、MTP推測解碼、KV緩存、注意力機制、權重加載核心邏輯，包含大量結構體方法與推理流程重構：

1. 新增AssistantModel輔助模型結構體完整權重加載邏輯，適配safetensors格式權重解析，分模塊加載嵌入層、投影層、歸一化層、注意力層、MLP層權重，校驗各層權重完整性，缺失關鍵權重直接拋出明確異常信息；
2. 新增precomputeScaledWeights預計算縮放權重方法，統一各層歸一化權重、注意力Q歸一化權重的縮放緩存，減少推理過程重復計算，提升運行效率；
3. 重構Draft推理核心方法，實現輸入嵌入、位置編碼、多層網絡前向傳播、KV歷史緩存關聯、隱藏層歸一化與解嵌入全流程調度；
4. 新增sharedHistories共享KV歷史緩存方法，區分滑動注意力與全量注意力緩存視圖，適配Gemma4模型分層KV緩存共享機制；
5. 完善unembed解嵌入與applyCentroidMasking質心掩碼邏輯，支持有序嵌入模式下的詞匯映射與候選日志計算；
6. 重構AssistantLayer層前向傳播方法，集成RMS歸一化、注意力計算、MLP前向傳播、層縮放系數相乘邏輯，兼容滑動窗口注意力與全局注意力兩種模式；
7. 重構AssistantAttention注意力前向傳播邏輯，根據是否為滑動窗口動態切換頭維度、縮放系數、RoPE參數、KV歷史緩存，集成RoPE位置編碼、因果掩碼、滑動窗口掩碼、縮放點積注意力計算，同時適配Metal環境下張量連續化處理規則。

3.12 Gemma4模型注冊與配置x/models/gemma4/gemma4.go變更

該文件存在30處變更，29行新增1行刪除，完成Gemma4 MTP能力注冊與默認參數配置：

1. 在init初始化函數中新增Gemma4AssistantForCausalLM、gemma4_assistant兩類Draft模型注冊，將輔助模型納入框架管理體系；
2. 實現MTPDefaultsProvider接口，新增MTPDraftDefaults方法，針對不同規格Gemma4模型配置專屬MTP默認參數：通用模型初始草稿令牌4個、最大草稿令牌16個；Gemma4 31B非MoE模型初始草稿令牌固定14個；26B MoE模型初始草稿令牌固定8個；
3. 新增TokenEmbeddings令牌嵌入方法，為MTP多令牌解碼提供縮放后的令牌嵌入張量；
4. 完善NewCaches緩存創建邏輯，適配不同層數、不同架構Gemma4模型的KV緩存分層創建規則，區分共享緩存與獨立緩存層級。

3.13 Gemma4模型單元測試x/models/gemma4/gemma4_test.go變更

該文件存在97處變更，97行新增無刪除，新增大批量Gemma4 MTP與緩存邏輯測試用例：

1. 新增TestMTPDraftDefaults測試用例，覆蓋空配置、31B bf16、31B量化版、26B MoE、通用模型五種場景，校驗MTP初始草稿令牌、最大令牌、功能啟用狀態的默認配置準確性；
2. 新增TestNewCachesAssistantSharedHistoryOrdering測試用例，針對31B、26B-A4B、E4B、E2B不同規格模型，校驗KV緩存層數、滑動注意力與全量注意力緩存順序的正確性；
3. 保留原有權重前綴解析、層類型檢測測試用例，與新增用例共同保障Gemma4 MTP功能、緩存機制、默認參數配置的可靠性。

四、核心功能Gemma4 MTP技術價值詳解

本次v0.23.1最核心的升級即為Mac MLX運行器適配Gemma4 MTP多令牌推測解碼，該技術的落地對本地大模型部署有著極高實用價值。

MTP多令牌處理與推測解碼的核心原理是通過Draft輔助模型提前一次性預測后續多個令牌，再由主模型進行校驗篩選，無需逐令牌串行生成，在代碼編寫、接口開發、腳本調試這類長上下文、多連續輸出的編碼場景下，能夠大幅減少推理迭代次數。

針對Gemma4 31B編碼專用模型，在Mac Apple芯片設備上借助MLX硬件加速+MTP推測解碼雙重優化，直接實現2倍以上推理速度提升，且新版本針對不同參數量、是否啟用MoE混合專家架構的Gemma4模型，做了精細化的MTP草稿令牌默認參數適配，無需用戶手動調參，開箱即用。

同時底層完成MLX與MLX-C線程問題修復，解決舊版本多令牌并發生成時的線程死鎖、調度卡頓、內存泄漏等隱性問題，在提速的同時保障運行穩定性；Go語言升級至1.26則帶來編譯優化、標準庫性能提升、語法兼容性增強等底層紅利，為后續更多新功能迭代打下基礎。

五、命令行使用規則變更說明

隨著本次--experimental、--draft-quantize、Modelfile DRAFT關鍵字能力升級，ollama v0.23.1新增明確的使用約束規則，所有規則均已固化到代碼邏輯與單元測試中：

1. --draft-quantize草稿模型量化參數必須搭配--experimental參數使用，單獨使用直接報錯；
2. Modelfile中配置DRAFT關鍵字引用草稿模型目錄時，必須開啟--experimental實驗模式，否則攔截創建請求；
3. 實驗模式下DRAFT僅支持本地絕對路徑、相對Modelfile的本地目錄路徑，暫不支持遠程模型名稱引用；
4. 實驗性safetensors模型創建僅支持本地localhost服務，不支持遠程服務節點操作；
5. MTP解碼的Draft令牌策略已設置為全局常量，無需用戶自定義，框架按模型規格自動適配初始與最大草稿令牌數量。

用戶在使用自定義Modelfile搭建Gemma4 MTP模型、手動量化草稿模型時，必須遵循以上約束規則，避免參數搭配錯誤、路徑引用異常導致創建失敗。

六、跨平臺與編譯適配優化總結

本次v0.23.1在跨平臺適配、編譯構建、容器部署三大維度做了大量精細化優化：

1. Windows平臺：修復文件路徑解析邏輯，兼容Windows特殊路徑分隔符與目錄引用規則；
2. Mac平臺：MLX底層線程修復、MTP完整適配、Metal架構專屬編譯安裝規則、錯誤日志精準捕獲；
3. Linux平臺：CUDA編譯線程參數調優、ROCm硬件打包規則完善、APT鏡像源動態適配解決構建超時；
4. 容器Docker：優化Ubuntu基礎鏡像構建流程，動態切換軟件源、精簡鏡像冗余依賴、分層構建輕量化鏡像；
5. CI編譯：修復MLX引擎自動化構建配置，適配多架構、多硬件加速引擎的流水線打包發布。

七、版本升級建議與適用場景

1. 本地Mac部署Gemma4 31B編碼模型、追求代碼推理速度提升的開發者，建議立即升級，直接享受MTP兩倍提速紅利；
2. 使用Modelfile自定義構建模型、需要搭配Draft草稿模型做推測解碼、模型量化的用戶，升級后可使用全新的實驗性模式與draft-quantize參數，規范化模型構建流程；
3. 基于ollama二次開發、依賴MLX引擎、Go底層框架的開發者，升級至v0.23.1可獲取線程bug修復、Go1.26新特性、完善的單元測試與日志捕獲能力；
4. 容器化部署、多架構服務器集群部署場景，升級后擁有更完善的打包規則、鏡像構建優化、跨硬件適配能力，降低運維部署成本。

結語

代碼地址：github.com/ollama/ollama

ollama v0.23.1雖然定位為小版本迭代，但是內部改動深度與功能價值遠超常規補丁版本，核心落地Gemma4 MTP多令牌推測解碼能力，補齊Mac MLX運行器推理加速短板，實現編碼任務速度翻倍；同時完成Go1.26版本升級、MLX底層線程修復、命令行規則重構、跨平臺編譯適配、單元測試全覆蓋、開發文檔精簡等一系列底層與生態優化。

本次更新61個文件變更、7次代碼提交、5047行代碼新增，從用戶可用的頂層命令、模型運行加速，到底層依賴、編譯配置、跨平臺適配、代碼規范、測試用例全覆蓋，無多余新增功能，全部基于原有架構做能力增強與bug修復，是注重穩定性、性能提升、規范使用流程的必升級版本。

我們相信人工智能為普通人提供了一種“增強工具”，并致力于分享全方位的AI知識。在這里，您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業洞察。歡迎關注“福大大架構師每日一題”，發消息可獲得面試資料，讓AI助力您的未來發展。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.