網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

“日本最強(qiáng)AI”光速塌房，都怪中國DeepSeek太強(qiáng)？

2026-03-19 16:24:26　來源: 藍(lán)字計(jì)劃

廣東舉報(bào)

分享至

作者｜Hayward

原創(chuàng)首發(fā)｜藍(lán)字計(jì)劃

連日本人自己都繃不住了。

3月17日，日本科技公司樂天高調(diào)發(fā)布了新一代AI大模型Rakuten AI 3.0，宣稱是日本最大、性能最強(qiáng)的AI大模型。

這款模型來頭不小：一方面，它背后有日本經(jīng)濟(jì)產(chǎn)業(yè)省支持的GENIAC項(xiàng)目站臺(tái)，算是“國家隊(duì)”級別的大模型；另一方面，它還擁有一個(gè)相當(dāng)唬人的標(biāo)簽，7000億參數(shù)。

這什么概念？

哪怕按更具體的口徑來看，它的總參數(shù)規(guī)模也有671B，依然屬于當(dāng)前開源模型里的第一梯隊(duì)，和DeepSeek V3坐一桌。

背靠日本國內(nèi)最大靠山，參數(shù)又非常突出，對于這款模型的發(fā)布，樂天底氣十足，連“（日本）國產(chǎn)模型的逆襲”都喊出來了。

但是，日本網(wǎng)友還沒來得及為Rakuten AI 3.0開香檳，一場來自開源社區(qū)的技術(shù)打假就給他們澆了一盆冷水。

這款號稱“日本最強(qiáng)、性能最強(qiáng)”的大模型，竟然是咱們中國開源大模型，DeepSeek-V3的日語“套殼版”。

日本的榮光，卻出身不良

和絕大多數(shù)的打假“后知后覺”不同，Rakuten AI 3.0的吹牛行為甚至挺不過一個(gè)下午。

就在模型出來的幾個(gè)小時(shí)里，開源社區(qū)的大神們就發(fā)現(xiàn)，這款加上了非常多牛逼限定詞的AI大模型，有貓膩。

甚至樂天都沒有過多的“掩飾”，因?yàn)镽akuten AI 3.0赫然在Hugging Face上的config.json文件里寫著：

model_type: deepseek_v3

architectures: DeepseekV3ForCausalLM

這就相當(dāng)于明牌告訴大家，這款模型的底層架構(gòu)來自DeepSeek V3。

當(dāng)然，DeepSeek V3作為一款開源模型，被學(xué)習(xí)、借鑒、使用來作為模型架構(gòu)也正常不過，畢竟這就是開源的初心；

但Rakuten AI 3.0的問題在于，在發(fā)布的時(shí)候它絲毫沒有提及使用了DeepSeek V3的架構(gòu)，還搬出了“自主研發(fā)”“日本最強(qiáng)”“日本最大”等限定詞，看上去真的是由樂天從0到1，自主鼓搗出來的大模型。

這也是開源社區(qū)最不滿的地方：這款模型在上傳的時(shí)候，沒有充分保留DeepSeek原有的歸屬/許可證聲明；直到被社區(qū)抓包之后，才悄悄地補(bǔ)上了NOTICE文件。

樂天的這種做法，顯然是違背了開源精神，“需要保留原許可證和歸屬”的要求。

在使出這一招“亡羊補(bǔ)牢”之后，別說路人，連日本網(wǎng)友都好感都敗光了。對于這款模型，日本網(wǎng)友都評論基本都是：

“GENIAC項(xiàng)目花納稅人的錢，就做個(gè)DeepSeek的日語fine-tune版？”

“自稱日本最大高性能，卻是中國的日語版。”

那么這款模型的性能怎么樣呢？

根據(jù)樂天官方陸續(xù)公布的數(shù)據(jù)，Rakuten AI 3.0的紙面成績其實(shí)相當(dāng)能打。

像Japanese MT-Bench這樣的日語綜合基準(zhǔn)，它已經(jīng)跑贏了GPT-4o；而在日本文化理解、敬語表達(dá)、商務(wù)郵件、報(bào)告寫作、文檔分析這些更偏本土語境的任務(wù)里，表現(xiàn)也明顯很強(qiáng)。

再加上它雖然總參數(shù)接近7000億，但因?yàn)橛昧薓oE稀疏架構(gòu)，單次推理實(shí)際激活的參數(shù)并不高，成本還能被壓到相當(dāng)前沿閉源模型的10%左右。

也就是說，這模型不只是“成績好看”，而且用起來還非常省錢。

但熟悉大模型的人一眼就看出了：這些不都是DeepSeek本來的優(yōu)勢嗎？

是的，畢竟是一款基于DeepSeek-V3架構(gòu)、再做日語數(shù)據(jù)微調(diào)和本土化優(yōu)化的大模型，Rakuten AI 3.0的表現(xiàn)越是厲害，就越是能證明DeepSeek厲害，這也是X上相當(dāng)一部分日本網(wǎng)友破防的點(diǎn)：

“日本政府用了納稅人的錢來支持你們，你們卻用來證明中國的DeepSeek牛逼？”

估計(jì)梁文鋒看到這出戲，做夢都得笑醒。

司空見慣的“抄襲”

但是，日本的網(wǎng)友們可能也有點(diǎn)“失憶癥”了，畢竟從日本AI大模型的發(fā)展歷程來看，抄襲，或者優(yōu)雅點(diǎn)說：“套殼”，不是常態(tài)嗎？

Rakuten AI 3.0可不是第一個(gè)使用了別家大模型架構(gòu)作為基座的日本模型。

一個(gè)典型例子，是日本AI公司ABEJA在2025年4月左右推出的小型日語專精推理模型：ABEJA QwQ 32b。

光看這個(gè)名字，其實(shí)就已經(jīng)名牌了。

畢竟連QwQ這個(gè)阿里千問系最標(biāo)志性的前綴，它都懶得改。

而實(shí)際情況也差不多。

這款模型的底座，本來就是Qwen2.5 + QwQ-32B，ABEJA做的事情，說白了就是先拿千問模型做日語持續(xù)預(yù)訓(xùn)練，再把推理能力整合進(jìn)去，最后補(bǔ)一輪日語強(qiáng)化和微調(diào)。

本質(zhì)上，它和樂天這次的路數(shù)并沒有什么不同：都是拿中國開源大模型當(dāng)基座，再靠本土數(shù)據(jù)和場景去做一層“日本化”包裝。

只不過，ABEJA至少?zèng)]有把自己演成什么從0到1橫空出世的“日本最強(qiáng)原創(chuàng)模型”。

它不但把底座和訓(xùn)練路徑寫清楚，連阿里那邊都沒有介意，阿里巴巴官方X賬號甚至還專門轉(zhuǎn)發(fā)慶祝，大意就是：ABEJA做的日語推理模型，成績已經(jīng)超過了GPT-4o。

同樣是“套殼”，ABEJA當(dāng)然也談不上多原創(chuàng)，只不過人家至少?zèng)]有一邊踩著別人的底座，一邊還忙著擦腳印。

除了ABEJA和樂天，不少日本公司其實(shí)也大體走的是這條路。

像Lightblue、ELYZA這些做日語模型的玩家，底下是Qwen、Llama等現(xiàn)成底座，有的也會(huì)結(jié)合DeepSeek、Mistral這類強(qiáng)模型能力做本土化，上面再糊一層更懂日本企業(yè)文檔、客服語料、敬語語境、制造業(yè)日志的數(shù)據(jù)，把它調(diào)成一個(gè)“更會(huì)說日本話、更會(huì)干日本活”的版本。

日經(jīng)新聞網(wǎng)之前曾報(bào)道過，“「AIモデルスコア」で日本企業(yè)が開発した上位10モデルのうち、新興ABEJA（アベジャ）のモデルなど計(jì)6種がディープシークやQwenを基盤に開発されていた。”

翻譯過來，就是現(xiàn)在日本公司推出的前10大模型里，有6個(gè)都是基于DeepSeek或Qwen進(jìn)行二次開發(fā)。

其實(shí)，這在AI圈本來也不算是什么原則性問題，全球AI行業(yè)現(xiàn)在本來就是這么玩的。

美國也好，歐洲也好，中國也好，別說二三線團(tuán)隊(duì)了，很多一線團(tuán)隊(duì)其實(shí)也在走這條路：拿Qwen做推理增強(qiáng)，拿DeepSeek做蒸餾和本地部署，拿Llama做行業(yè)版，拿Mistral做輕量化和邊緣場景。

畢竟，從頭訓(xùn)練一個(gè)前沿基座，燒掉的是天文數(shù)字級別的算力、資金和人才；但如果你已經(jīng)有了一個(gè)足夠強(qiáng)的開源底座，真正決定你能不能跑出來的，反而是后面的數(shù)據(jù)、場景和落地能力。

所以，樂天這次的“炎上”，本質(zhì)不是因?yàn)椤俺u”而觸犯天條，而是干得太不體面了。

一邊吃著開源模型的紅利，一邊又拼命把自己往“自主研發(fā)”“日本最強(qiáng)”“日本最大”上靠；一邊站在DeepSeek的肩膀上，一邊又不愿把這件事說透，甚至連許可證和歸屬都都悄悄藏起來。

別人套殼，至少套得坦坦蕩蕩；樂天套殼，卻偏偏還想演成“全靠自己”。

又或許，樂天這次“不體面”的背后，折射出的，只是整個(gè)日本科技領(lǐng)域已經(jīng)落后于世界的冰山一角。

日本IT業(yè)，失落的30年

1990年，隨著經(jīng)濟(jì)泡沫被刺破，整個(gè)日本都仿佛被按下了暫停鍵。

股價(jià)暴跌、地價(jià)跳水、不良債權(quán)爆發(fā)、銀行惜貸、企業(yè)連鎖倒閉……整個(gè)日本經(jīng)濟(jì)像多米諾骨牌一樣接連崩塌，正式跌入“平成不況”，并由此開啟了失落的10年、20年，乃至30年。

而在這樣的背景下，日本IT行業(yè)的軌跡，也幾乎成了這場長期停滯的縮影。

關(guān)于日本的“笑話”大家已經(jīng)看到非常多了：

都2024年了，日本政府居然還在和軟盤“決戰(zhàn)到天明”。

直到去年6月，日本數(shù)字廳才終于廢掉了1034條還要求用軟盤等介質(zhì)提交材料的規(guī)定，只剩下一條和汽車回收有關(guān)的規(guī)定沒處理完。

在AI、大模型、云計(jì)算都已經(jīng)卷到天上的年代，日本政府居然還在認(rèn)真討論“軟盤要不要退役”這種問題。

傳真機(jī)也差不多。

這些年外界老拿“日本還在用傳真”開涮，聽上去像段子，結(jié)果很多時(shí)候還真不是段子。

日本文部科學(xué)省自己給出的“教育DX”（DX，Digital Transformation，數(shù)字轉(zhuǎn)型）目標(biāo)里，甚至把“原則上廢止學(xué)校之間通過傳真機(jī)往來和蓋章”單獨(dú)列成了KPI；而且這個(gè)目標(biāo)之所以要專門寫出來，恰恰是因?yàn)楝F(xiàn)實(shí)里它遠(yuǎn)遠(yuǎn)沒有完成。

說白了，如果一個(gè)國家的教育系統(tǒng)到了2024年還要把“別再傳真、別再蓋章”寫成數(shù)字化改革目標(biāo)，那它的問題顯然不是某個(gè)軟件沒裝好那么簡單了。

更尷尬的是，日本自己其實(shí)也不是沒意識(shí)到問題。

無論是成立數(shù)字廳，還是高調(diào)對軟盤、傳真“宣戰(zhàn)”，都說明日本政府很清楚自己在數(shù)字化這件事上慢了半拍。

可問題在于，知道歸知道，改起來卻總像在沼澤地里跑步：

一邊是官僚系統(tǒng)的慣性，一邊是紙質(zhì)文件、印章文化、老舊流程的路徑依賴，再疊上高齡化和IT人才短缺，最后就變成了一個(gè)很別扭的局面：

大家都知道該變，但誰都沒辦法一下子把舊時(shí)代連根拔掉。

就連日本自己的政策討論里，也長期把數(shù)字人才不足當(dāng)成結(jié)構(gòu)性問題來看；經(jīng)產(chǎn)省更早前的測算里，到2030年日本IT人才缺口最高可接近45萬人。

但程序員不夠，怎么辦？

從官方和產(chǎn)業(yè)界的表態(tài)來看，他們顯然也在把生成式AI當(dāng)成另一條捷徑：既然程序員不夠，那就盡量讓更多懂業(yè)務(wù)的人，直接通過自然語言下指令，把需求更快變成代碼、文檔和系統(tǒng)。

所以，Rakuten AI 3.0這件事，理應(yīng)是整個(gè)2026，日本AI圈的一個(gè)里程碑式事件。

因?yàn)樗袷侨毡綢T困境的一次濃縮展示：政府給資源，企業(yè)拿補(bǔ)貼，嘴上喊著“日本最強(qiáng)”“本土自研”，結(jié)果掀開蓋子一看，底下還是DeepSeek V3。

這當(dāng)然不說明日本公司不會(huì)做AI，也不說明日本沒有技術(shù)實(shí)力。

但卻反映了，那個(gè)曾經(jīng)靠電子消費(fèi)品、半導(dǎo)體、工業(yè)產(chǎn)品征服世界的日本，在今天這場由軟件、數(shù)據(jù)、云和大模型主導(dǎo)的新技術(shù)競賽里，已經(jīng)很難再靠自己完整定義游戲規(guī)則了。

連最想證明“日本也有自己的旗艦大模型”的關(guān)鍵時(shí)刻，最后都得站在中國開源模型的肩膀上，這才是整件事最扎心的地方。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.