<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Redis之父下場,給DeepSeek V4單獨(dú)造了一臺推理引擎

      0
      分享至

      DeepSeek V4,已經(jīng)開始逼著海外開發(fā)者為它修專屬高速公路了。

      發(fā)布才兩周,開源圈里,第一批V4原生基礎(chǔ)設(shè)施已經(jīng)冒了出來。

      而且,不是那種在現(xiàn)有框架上套一層殼的“小修小補(bǔ)”。

      不是通用GGUF加載器;不是llama.cpp的wrapper;甚至壓根不支持別的模型。

      它只干一件事:

      把DeepSeek V4 Flash,在Mac上跑到極致。


      這條“專屬高速公路”,叫ds4.c。而把修出來的人,分量有點(diǎn)嚇人——

      Salvatore Sanfilippo,程序員圈更熟悉他的另一個(gè)名字:antirez

      他一手創(chuàng)造了 Redis(GitHub 7.4 萬 Star),并親自主導(dǎo)這個(gè)全球最流行的內(nèi)存數(shù)據(jù)庫整整 11 年。

      而現(xiàn)在,他的新項(xiàng)目ds4.c,是一個(gè)專門為DeepSeek V4 Flash打造的本地推理引擎。

      時(shí)間線上,已經(jīng)有網(wǎng)友在128GB Mac上把它跑了起來。


      可以說,這波,Mac庫存又被DeepSeek清了一遍。

      鯨魚,確實(shí)值得。

      專為V4 Flash打造的本地推理引擎

      4月24日,DeepSeek發(fā)布V4系列。其中,V4 Flash是效率型號:284B總參數(shù)、13B激活參數(shù)、100萬token上下文。

      這樣的體量,過去幾乎默認(rèn)屬于云端。

      而antirez想做的,是把它塞進(jìn)一臺Mac。于是,ds4.c誕生了。


      這是一個(gè)用C + Metal從頭寫出來的推理引擎。

      整個(gè)項(xiàng)目就幾個(gè)文件,C占55.4%,Objective-C 30.2%,Metal 13.8%。Metal-only,沒有運(yùn)行時(shí),沒有框架依賴,沒有抽象層。

      Metal-only。

      Metal是蘋果自家的圖形和計(jì)算API,在Mac、iPhone、iPad上調(diào)用GPU都靠它,相當(dāng)于蘋果生態(tài)里的CUDA。

      ds4只用Metal的意思是,這個(gè)引擎只在Apple Silicon上跑,不管Nvidia顯卡,也不管AMD。

      整個(gè)項(xiàng)目只有一個(gè)目標(biāo):

      讓V4 Flash在本地的蘋果機(jī)器上,不只是“能跑”,而是真正“能用”。

      目前測試結(jié)果已經(jīng)相當(dāng)夸張:

      在128GB內(nèi)存的MacBook Pro M3 Max上,2-bit量化、32K上下文,短prompt預(yù)填充58.52 token/s,生成26.68 token/s。

      換成512GB的Mac Studio M3 Ultra,長prompt(11709 token)預(yù)填充能到468.03 token/s,生成27.39 token/s。

      對一個(gè)284B參數(shù)的MoE模型來說,這個(gè)速度在本地機(jī)器上是可用的。

      怎么做到的?

      關(guān)鍵在三件事。

      第一,非對稱量化

      ds4并不會(huì)把所有參數(shù)都壓到2-bit,而是只量化路由的MoE專家層,up/gate用IQ2_XXS,down用Q2_K,這些層占了模型空間的絕大部分。

      其他組件,共享專家層、投影層、路由層,全部保留Q8精度不動(dòng)。

      antirez在README里寫了一句很直接的話:

      這些2-bit量化不是開玩笑,它們在coding agent下表現(xiàn)良好,能可靠地調(diào)用工具。

      第二,KV緩存搬到硬盤上。

      現(xiàn)在的LLM agent客戶端都是無狀態(tài)的,每次請求把整段對話重新發(fā)一遍。

      通用引擎的做法是每次重新做prefill。

      ds4的做法是把KV狀態(tài)寫到磁盤上,下次請求過來匹配token前綴,命中了就直接從磁盤加載,跳過prefill。

      緩存的key是token ID序列的SHA1哈希值。

      這對Claude Code這種每次啟動(dòng)會(huì)發(fā)25K token初始prompt的agent場景尤其有用,第一次prefill完成后,后續(xù)會(huì)話直接從磁盤恢復(fù)。

      第三,內(nèi)置OpenAI和Anthropic兩套API兼容層。

      /v1/chat/completions走OpenAI協(xié)議,/v1/messages走Anthropic協(xié)議。tool calling也做了適配。README里直接給了opencode、Pi、Claude Code三種agent客戶端的配置示例。

      關(guān)于為什么要做這件事。

      antirez的回答是,本地推理領(lǐng)域有很多優(yōu)秀項(xiàng)目,但新模型不斷發(fā)布,注意力立刻被下一個(gè)要實(shí)現(xiàn)的模型吸走。

      通用引擎為了兼容所有模型,必須做抽象。抽象意味著妥協(xié)。他想做的是一條刻意的窄路,一次只賭一個(gè)模型,用官方logits做驗(yàn)證,做長上下文測試,做足夠的agent集成來確認(rèn)它真的能用。

      框架一經(jīng)發(fā)布,就有網(wǎng)友不少網(wǎng)友反饋,已經(jīng)在Mac上跑起來了。




      你準(zhǔn)備好在本地跑V4了嗎?

      一個(gè)模型一個(gè)推理框架

      這件事,也在開發(fā)者圈炸出了一個(gè)更大的討論:

      未來會(huì)不會(huì)變成——一個(gè)模型,一個(gè)推理框架?

      Hacker News上一條高贊評論提了一個(gè)有意思的方向,如果開始針對精確的GPU加模型組合構(gòu)建超優(yōu)化推理引擎呢?

      GPU越來越貴,如果去掉足夠多的抽象層,直接針對精確的硬件和模型編碼,可能能優(yōu)化很多。

      這條路的代價(jià)也很明顯。同一條評論指出,一旦模型過時(shí),一切從頭來過。


      antirez自己也承認(rèn)了這個(gè)問題。他說ds4當(dāng)前賭的是DeepSeek V4 Flash,但模型可能會(huì)換。

      不變的約束是,本地推理要在高端個(gè)人機(jī)器或Mac Studio上跑得靠譜,起步128GB內(nèi)存。

      未來會(huì)怎樣,README里留了個(gè)伏筆。

      當(dāng)前是Metal-only,未來可能會(huì)做CUDA支持。但他寫得很謹(jǐn)慎,也許會(huì),但僅此而已。這個(gè)項(xiàng)目刻意保持小、快、專注。


      更值得關(guān)注的是他在README里拋出的一個(gè)觀點(diǎn),本地推理應(yīng)該是三件事一起做好,開箱即用。

      一個(gè)有HTTP API的推理引擎,一份針對這個(gè)引擎和這套假設(shè)特別打造的GGUF,一套和coding agent對接的測試和驗(yàn)證。

      這是一種全棧本地推理的思路,不是把組件拼起來,是把鏈路當(dāng)成一個(gè)產(chǎn)品來設(shè)計(jì)。

      如果這條路走通了,它可能改變本地推理的玩法。

      模型廠商發(fā)布新模型的同時(shí),社區(qū)里就會(huì)有人跳出來給它做專屬引擎,做專屬量化,做專屬agent接入。每一代模型都有一個(gè)自己的「antirez」。

      ds4還有一個(gè)很坦率的細(xì)節(jié)。README里有一段聲明,這個(gè)軟件是在GPT 5.5的「強(qiáng)力輔助」下開發(fā)的,人類負(fù)責(zé)想法、測試和調(diào)試。

      antirez說如果你不接受AI輔助開發(fā)的代碼,這個(gè)軟件不適合你。


      兩周時(shí)間,從fork llama.cpp做適配,到從頭寫一個(gè)專用引擎,離不開AI輔助。這件事本身可能比ds4還更值得關(guān)注。

      One more thing

      最后說一下antirez這個(gè)人。


      真名Salvatore Sanfilippo,1977年出生于西西里島。2009年創(chuàng)建Redis,主導(dǎo)這個(gè)項(xiàng)目十一年,2020年離開。


      離開時(shí)他寫過一段話,說自己寫代碼是為了表達(dá)自己,代碼是一件制品而不只是有用的工具。他寧可被記住為一個(gè)糟糕的藝術(shù)家,也不愿被記住為一個(gè)好程序員。

      2024年底他回到Redis,擔(dān)任evangelist角色。

      除了Redis之外,他還寫過Kilo(不到1000行C代碼的文本編輯器)、dump1090(航空ADS-B信號解碼器)、linenoise(readline的微型替代品)。

      他還在玩Flipper Zero,寫了RF協(xié)議分析工具,把Asteroids移植到上面。2022年他出了一本科幻小說《WOHPE》,主題是AI、氣候變化、程序員,以及人類和技術(shù)的互動(dòng)。

      他個(gè)人主頁第一行寫的是,「我把大部分專業(yè)時(shí)間花在寫代碼和寫小說上。」


      關(guān)于Redis的誕生,他在個(gè)人主頁里寫了一段:

      我老婆說,Redis的前幾年我大部分代碼都是坐在馬桶上寫的,用一臺MacBook Air 11寸。我真希望能說她錯(cuò)了,但她正好說得完全對。

      這種調(diào)性貫穿了他做的所有項(xiàng)目。小、精確、自成一體。

      ds4.c也是同一個(gè)路子。

      看一下他在ds4 README里關(guān)于macOS bug的那段備注,能立刻感覺到這個(gè)人的味道。

      ds4有一個(gè)CPU推理路徑用于正確性驗(yàn)證,但當(dāng)前版本的macOS在虛擬內(nèi)存實(shí)現(xiàn)上有一個(gè)bug,跑CPU推理會(huì)導(dǎo)致內(nèi)核崩潰。

      他寫道,記住了嗎?軟件都很爛。我沒法修復(fù)CPU推理來避免崩潰,因?yàn)槊看味嫉弥貑㈦娔X,一點(diǎn)都不好玩。

      然后加了一句,如果你有膽量,來幫我們。

      他在個(gè)人主頁里還留了一句話:

      現(xiàn)代編程正變得復(fù)雜、無趣,全是要粘合的層。它正失去大部分美感。大多數(shù)程序員既不在面對編程的藝術(shù)面,也不在面對編程的高級工程面。

      從Redis到ds4.c,十五年過去,antirez還是那個(gè)antirez。

      只不過這一次,他開始給AI修路了。

      參考鏈接
      [1]http://invece.org/
      [2]https://github.com/antirez/ds4
      [3]https://news.ycombinator.com/item?id=48050751

      文章來源:量子位。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      80歲的特朗普,憑啥比年輕人還能折騰?——讓養(yǎng)生博主集體沉默

      80歲的特朗普,憑啥比年輕人還能折騰?——讓養(yǎng)生博主集體沉默

      民間胡扯老哥
      2026-05-18 07:27:54
      三星堆竟不屬于任何朝代?考古學(xué)家顫抖:中華文明源頭要改寫!

      三星堆竟不屬于任何朝代?考古學(xué)家顫抖:中華文明源頭要改寫!

      抽象派大師
      2026-05-19 00:44:23
      這個(gè)“界”車,4月銷量僅26臺!

      這個(gè)“界”車,4月銷量僅26臺!

      電動(dòng)知家
      2026-05-16 18:49:50
      免費(fèi)開放!西安800畝新公園5.18試運(yùn)行,遛娃打卡全免費(fèi)

      免費(fèi)開放!西安800畝新公園5.18試運(yùn)行,遛娃打卡全免費(fèi)

      奇葩游戲醬
      2026-05-19 02:24:36
      歐洲人在性方面有多開放?德國再創(chuàng)歷史!女廁所、女浴室隨便進(jìn)了

      歐洲人在性方面有多開放?德國再創(chuàng)歷史!女廁所、女浴室隨便進(jìn)了

      西樓知趣雜談
      2026-03-24 14:38:30
      蘇州之后合肥火爆A股!“最牛風(fēng)投城”投出萬億新股王,長鑫存儲(chǔ)市值有望單挑整個(gè)南京市,此前曾救活京東方、蔚來汽車

      蘇州之后合肥火爆A股!“最牛風(fēng)投城”投出萬億新股王,長鑫存儲(chǔ)市值有望單挑整個(gè)南京市,此前曾救活京東方、蔚來汽車

      金融界
      2026-05-18 14:45:24
      自廢武功!盧偉出現(xiàn)了3個(gè)錯(cuò)誤,坑慘了上海隊(duì)

      自廢武功!盧偉出現(xiàn)了3個(gè)錯(cuò)誤,坑慘了上海隊(duì)

      體育哲人
      2026-05-18 10:42:03
      5月14號,章澤天在戛納佩戴價(jià)值過億項(xiàng)鏈太豪,外國女星都看呆

      5月14號,章澤天在戛納佩戴價(jià)值過億項(xiàng)鏈太豪,外國女星都看呆

      動(dòng)物奇奇怪怪
      2026-05-17 04:07:32
      何穗這些年變化也太大了,今昔對比,簡直不敢相信竟是同一個(gè)人

      何穗這些年變化也太大了,今昔對比,簡直不敢相信竟是同一個(gè)人

      草莓信箱
      2026-05-14 10:04:37
      范佩西:大家不應(yīng)該如此嘲諷斯特林,他在英格蘭進(jìn)了200多球

      范佩西:大家不應(yīng)該如此嘲諷斯特林,他在英格蘭進(jìn)了200多球

      懂球帝
      2026-05-18 21:51:11
      2026年,靈活就業(yè)人員按60%檔次繳費(fèi)20年,個(gè)人賬戶能累計(jì)多少?

      2026年,靈活就業(yè)人員按60%檔次繳費(fèi)20年,個(gè)人賬戶能累計(jì)多少?

      碎月導(dǎo)師
      2026-05-15 08:30:03
      又被預(yù)言中了?中國房地產(chǎn)或?qū)⒂瓉硇乱惠啽q?內(nèi)行人說出實(shí)情

      又被預(yù)言中了?中國房地產(chǎn)或?qū)⒂瓉硇乱惠啽q?內(nèi)行人說出實(shí)情

      蜉蝣說
      2026-05-18 18:32:02
      你見過最離譜的網(wǎng)購是什么?網(wǎng)友:倉庫是不會(huì)承認(rèn)自己發(fā)錯(cuò)了的

      你見過最離譜的網(wǎng)購是什么?網(wǎng)友:倉庫是不會(huì)承認(rèn)自己發(fā)錯(cuò)了的

      另子維愛讀史
      2026-02-16 20:35:50
      男子毆打未滿2個(gè)月女兒 重慶巴南警方:涉嫌虐待罪已被刑拘

      男子毆打未滿2個(gè)月女兒 重慶巴南警方:涉嫌虐待罪已被刑拘

      新京報(bào)
      2026-05-18 17:36:13
      嫁法國老頭后癱瘓?42歲李宇春近況曝光,真相背后隱情惹人流淚

      嫁法國老頭后癱瘓?42歲李宇春近況曝光,真相背后隱情惹人流淚

      借你一生
      2026-05-15 19:25:13
      哈登續(xù)約騎士已定 季后賽表現(xiàn)不影響多年合同

      哈登續(xù)約騎士已定 季后賽表現(xiàn)不影響多年合同

      籃壇第一線
      2026-05-19 02:18:45
      馬修·麥康納自曝逃往秘魯隱居22天

      馬修·麥康納自曝逃往秘魯隱居22天

      影視情報(bào)室
      2026-05-17 01:47:05
      翟欣欣逼死前夫,和其他男人不雅聊天曝光,當(dāng)著自己父親在家約炮

      翟欣欣逼死前夫,和其他男人不雅聊天曝光,當(dāng)著自己父親在家約炮

      小人物看盡人間百態(tài)
      2025-01-23 14:28:52
      多爾袞十世孫向國家索要故宮,稱是自家祖產(chǎn),老朱家:有問過我嗎

      多爾袞十世孫向國家索要故宮,稱是自家祖產(chǎn),老朱家:有問過我嗎

      銘記歷史呀
      2026-05-18 18:15:59
      二審判配200萬,龍哥講電車“含淚”道歉比亞迪

      二審判配200萬,龍哥講電車“含淚”道歉比亞迪

      新浪財(cái)經(jīng)
      2026-05-17 11:28:43
      2026-05-19 04:04:49
      算法與數(shù)學(xué)之美 incentive-icons
      算法與數(shù)學(xué)之美
      分享知識,交流思想
      5547文章數(shù) 64624關(guān)注度
      往期回顧 全部

      科技要聞

      蘋果WWDC26定檔6月9日凌晨:iOS27將亮相

      頭條要聞

      賴清德要求美國繼續(xù)向臺出售武器 外交部表態(tài)

      頭條要聞

      賴清德要求美國繼續(xù)向臺出售武器 外交部表態(tài)

      體育要聞

      58順位的保羅,最強(qiáng)第三中鋒

      娛樂要聞

      票房會(huì)破14億!口碑第一電影出現(xiàn)了

      財(cái)經(jīng)要聞

      中國芯片,怎么突然不便宜了?

      汽車要聞

      40.98萬起!充電5分鐘純電續(xù)航420km 騰勢N9閃充版勝算有多少?

      態(tài)度原創(chuàng)

      家居
      手機(jī)
      教育
      游戲
      親子

      家居要聞

      觀山隱秀 心靈沉淀

      手機(jī)要聞

      全系2億像素主攝+超大底!榮耀Magic9系列影像規(guī)格曝光了

      教育要聞

      新鮮出爐!今年各區(qū)公辦高中招生計(jì)劃變化匯總!

      《GTA6》多個(gè)取景地在現(xiàn)實(shí)已消失!開發(fā)太久的弊端

      親子要聞

      不能做危險(xiǎn)的事情 #大型挖掘機(jī)挖土玩具 #工程車玩具

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 色国产视频| 日韩综合网| 久久99青青精品免费观看| 福利视频在线一区二区| 亚洲十八禁| 亚洲熟妇国产熟妇肥婆| 综合自拍亚洲综合图区| 996热精品视频在线观看 | 性一交一乱一乱一视频| 亚洲精品人成网线在播放VA| 嫩草99| 福利视频网| 人妻在线免费观看视频| 人妻中文字幕亚洲精品| 欧美一区| 久久婷婷成人综合色| 国产观看免费高清视频| 92自拍偷拍精品视频| 成人av午夜在线观看| 国产农村老熟女国产老熟女 | 在线看片免费人成视久网下载 | 在线观看视频一区二区三区| 日韩欧美一区二区三区| 国语自产精品视频在线看| 西西大胆私密人体A片| 久久99精品久久久久婷婷暖| 久99久热只有精品国产99| 亚洲av熟女国产一二三| 日韩3p在线| 久久99精品国产99久久6尤物| 成人在线视屏| 男人的天堂a在线视频| 中文字幕亚洲精品人妻| 伊人久久大香线蕉网av| 亚洲精品字幕| 亚洲国产aⅴ综合网一区| 香蕉社区| 激情综合网激情综合| 亚洲中文字幕永码永久在线| 亚洲AV午夜成人无码电影| A级毛片100部免费看|