<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      馬斯克也來站臺,中國團隊對AI底層架構動手術

      0
      分享至

      作者 | 封華

      編輯 | 魏曉

      來自中國的Kimi,再一次引發了硅谷AI圈的注意。

      3月16日,月之暗面Kimi發布了一項技術報告《Attention Residuals》(注意力殘差),重新設計了深度學習中核心的殘差連接結構。

      報告發布后,引來了一眾企業家和AI大佬的圍觀。連續三天登上Twitter全球熱搜榜,主貼閱讀量超過 460萬,堪比一次模型重要版本發布。

      OpenAI的“推理模型之父”、前OpenAI研究副總裁Jerry Tworek表示:“深度學習2.0要來了”。

      馬斯克稱贊道:“Kimi的研究令人印象深刻(Impressive work from Kimi)”。隨后,Kimi進行了回應:“你的火箭造得也不錯!”

      中外AI,在這一刻產生了惺惺相惜之感。


      馬斯克在業內一向“口無遮攔”,曾嘲諷Anthropic大規模竊取訓練數據,也曾批評OpenAI成為“逐利公司”。只有真心認可,他才會不吝點贊。

      這次馬斯克對Kimi大加贊賞,正是震驚于AI技術的突破。

      Kimi提出的注意力殘差,旨在突破大模型架構中的瓶頸,改寫大模型訓練效率與成本曲線。

      技術突破“炸場”的同時,月之暗面創始人楊植麟還成為英偉達年度大會GTC 2026,唯一受邀演講的中國大模型公司創始人。

      在演講中,楊植麟沒有去講Kimi的用戶數,或是其他商業數據,而是解讀了一個核心問題:當算力基建的規模化(Scaling)已成為行業共識,我們到底該Scale什么?

      當全球AI競爭進入深水區,Kimi的估值已狂飆至1200億元。從這次的技術突破,和楊植麟干貨滿滿的演講中,能看到Kimi對追求智能上限的執著。

      新技術改變了什么?

      Kimi這次的突破,不是“調參數”,而是“動地基”。

      當前大多數大規模深度學習模型都在使用“殘差連接”的結構,以保證能訓練幾十層乃至上百層而不崩潰。

      這個設計來自何愷明在2015年參與的ResNet論文,十年來不曾被動搖根基。

      其簡單邏輯是:每一層的輸出=當前層的結果+前面數層的累加。每一層網絡在做完自己的計算之后,把自己的輸出和輸入加在一起,然后傳到下一層去再做計算。

      這樣做的好處是,這樣一路累加下去,每一層都能“記住”前面所有層的信息。

      但這個機制并不是完美的,在大模型PreNorm主流范式下,殘差連接中所有層的

      貢獻都是等權累加。

      這樣將信息進行“無差別疊加”,沒有任何有效機制,去判斷哪一層的信息更重要,哪一層的信息可以忽略。隨著層數的增加,早期層信息的重要性就會被稀釋。并且,后面的層想要產生影響,就必須輸出模長更大的激活值,這反過來又加劇了訓練的不穩定性。

      就像咱們普通用戶在使用AI時,提示詞要盡量精準、簡練,如果事無巨細地進行長篇大論,反而增加了AI理解信息的難度。

      AI訓練也是如此,重要信息被稀釋,并且計算效率較為低下,這是一種浪費和負擔。

      Kimi團隊的最新技術報告提出一種全新方案——既然不想要“無差別累加”,那就讓網絡自己決定該提取什么信息。也就是,允許模型在每一層選擇性地關注此前各層的輸出,而不是簡單地進行求和。

      這一創新不僅優化了計算效率,還顯著提升了大模型的訓練效果。報告顯示,經過改進的48B模型訓練效率提升了1.25倍。


      Kimi的研究表明,當把動態、與輸入相關的注意力機制引入進來之后,模型不再是簡單地“全盤接收”信息,而是具備了“結構性判斷能力”,能夠更有選擇地抓住關鍵內容。

      結果也很直接——改寫了大模型訓練效率與成本曲線。

      Kimi團隊這次對慣性的大膽反思,瞄準的是那座最不起眼卻最承重的“地基”。這并非一次局部優化,而是有機會成為未來大模型架構里的“標配組件”。隨著驗證逐步展開,世界上其他AI團隊大概率會跟進類似思路,去探索新的架構路徑。

      楊植麟此次在英偉達GTC 2026現場的演講,更將Kimi團隊的技術實力與獨特思考,第一次完整展示給硅谷核心技術圈。

      對“祖傳技術”動刀

      重構前沿范式

      北京時間3月18日凌晨,楊植麟站在英偉達年度大會GTC 2026的現場,發表了主題為《How We Scaled Kimi K2.5》的演講,首次完整披露了Kimi的技術路線圖。

      按照他講述的Kimi K2.5的進化邏輯,只有在“Token效率、長上下文、智能體集群”三個維度同時找到規模效應,才能實現遠超現狀的智能水平。

      如果說三維邏輯是戰略,那么對三大底層技術的重構就是戰術。

      楊植麟提出,行業目前普遍使用的很多技術標準,本質上是八九年前的產物,正逐漸成為大模型 Scaling 的瓶頸。

      這也是本次演講的真正“硬核”所在,楊植麟直接勾勒出了下一代大模型的思考路徑:

      要真正實現智能上限的突破,不是來自于對舊架構的修修補補,而是對優化器、注意力機制、殘差連接等底層基石的重構。


      其一,優化器革命:從Adam到MuonClip。

      在超大規模訓練中,Adam優化器在提升Token效率上的瓶頸日益凸顯,尋找更具 Token 效率的替代方案已成趨勢。

      Kimi團隊在實驗中驗證了Muon優化器的潛力,但在擴展到萬億參數時遇到了“Logits爆炸”的難題。

      對此,他們開出了自己的藥方:MuonClip。通過結合Newton-Schulz迭代并結合QK-Clip機制,他們不僅解決了穩定性問題,更實現了2倍于傳統AdamW的計算效率。

      這一突破意義重大,在算力約束、成本高企的當下,誰能用更少的計算量榨取更多的智能,誰就掌握了通往AGI的速通卡。

      其二,Kimi Linear:全注意力機制“終結者”。

      楊植麟展示了基于KDA架構的Kimi Linear,一種混合線性注意力架構。它挑戰了“所有層必須使用全注意力”的慣例,通過優化遞歸存儲管理,在128K甚至1M的超長上下文中,將解碼速度提升了5到6倍。

      這不僅是速度的提升,更是對注意力機制本質的思考:“按需分配”的注意力,才是不同場景下的務實選擇。

      其三:殘差連接:從固定加法到注意力殘差

      繼論文受到各方AI大佬圍觀之后,楊植麟再次在演講中介紹了這一技術突破。

      針對已有十年歷史的殘差連接,Kimi引入Attention Residuals方案,將傳統的固定加法累加,替換為對前序層輸出的Softmax注意力。

      這一改動,通過選擇性聚合信息,讓每一層都能獲得前面所有層中更有價值的信息,而不是淹沒在求和“噪聲”中。

      之后,楊植麟提出了一項預判。他認為,未來的智能形態將從單智能體向動態生成的集群進化。Kimi K2.5引入的Orchestrator機制,能夠將復雜的長任務拆解給數十個子Agent并行處理,實現自協調的群體執行。

      上述框架,并非零散的技術點疊加,而是一套從底層基石到上層應用的完整技術閉環,每一個環節都直指行業沿用近十年的技術標準的核心瓶頸。

      跳出“中國版ChatGPT”框架

      Kimi K2.5是全球用戶量最大的AI編程平臺Cursor唯一接入的開源模型,也是唯一的中國模型。也是全球最大的獨立AI搜索服務商Perplexity唯一接入的中國模型,開源的K2.5在跟OpenAI、Anthropic和Google的頂尖閉源模型同場競技。

      一同起飛的,是Kimi商業化的躍遷:20天收入即超2025年全年。

      K2.5發布后,Kimi通過其性能90%、價格七分之一的性價比優勢,在海外斬獲高速的收入增長,海外收入在總營收中占比已超過國內,海外API開放平臺日均訪問量翻10-20倍。

      Kimi Claw于今年1月上線后,1月個人訂閱支付訂單環比暴增8280%,2月再漲123.8%。

      業內認可之外,資本的追捧也極具說服力。

      最近三個月,估值漲了4倍,融資超過10億美元,超過大模型同行IPO募資額。

      最備受期待的,是Kimi“身份”的轉變——其已跳出“中國版ChatGPT”的狹窄框架,直接參與到了全球AI技術的底層創新。

      楊植麟談到了 AI 研究范式的轉變,從中我們得以一窺,為什么Kimi能不斷地從“古老”技術中挖掘出新的突破?

      他提到,十年前的研究往往更看重新想法的發表,但受限于算力資源,很難通過不同規模的實驗來驗證這些想法。而現在由于擁有了足夠的資源和“縮放階梯(Scaling Ladder)”,研究者可以進行嚴謹的規模化實驗,從而得出更自信、更可靠的結論。

      楊植麟傳遞出的信息清晰而堅定:Kimi不想只做一個更好的模型,而是要做那個定義下一代模型架構的引領者:審視那些被沿用近十年的“舊技術”,嚴謹驗證,大膽重構,找到突破智能上限的下一個項關鍵技術。

      Lanmeih/今日話題

      你平時用Kimi嗎,感覺怎么樣?

      咱們評論區聊聊~

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      30年期美債沖破5%!華爾街已紛紛拉響警報

      30年期美債沖破5%!華爾街已紛紛拉響警報

      財聯社
      2026-05-05 21:18:05
      禁欲真的好嗎?研究表明:禁欲時間越長,排出的精子活動率越低!

      禁欲真的好嗎?研究表明:禁欲時間越長,排出的精子活動率越低!

      黯泉
      2026-05-04 14:05:52
      國球神圣不容侵犯:劉國梁堅決拒絕張本智和回國訓練請求!

      國球神圣不容侵犯:劉國梁堅決拒絕張本智和回國訓練請求!

      拳擊時空
      2026-05-05 07:56:01
      突然發現一個殘忍真相:極度自律,每天鍛煉的人,不一定能長壽,但是,極度自私,不為任何人、任何事操心的人很可能長壽

      突然發現一個殘忍真相:極度自律,每天鍛煉的人,不一定能長壽,但是,極度自私,不為任何人、任何事操心的人很可能長壽

      LULU生活家
      2026-05-02 08:35:04
      特朗普舉著孩子照片,對哭泣的母親承諾:我相信中國會執行死刑的

      特朗普舉著孩子照片,對哭泣的母親承諾:我相信中國會執行死刑的

      博覽歷史
      2025-07-21 17:59:30
      五一假期,一個美國獨立開發者做的DeepSeek版Claude Code火了!

      五一假期,一個美國獨立開發者做的DeepSeek版Claude Code火了!

      我不叫阿哏
      2026-05-05 20:44:58
      禁賽20個月的中國球手,沒進正賽卻拿走17萬英鎊

      禁賽20個月的中國球手,沒進正賽卻拿走17萬英鎊

      競技風云錄
      2026-05-05 15:15:13
      “四大小生”重新洗牌:張若昀下桌,朱一龍啞火,榜首實至名歸

      “四大小生”重新洗牌:張若昀下桌,朱一龍啞火,榜首實至名歸

      老黯談娛
      2026-05-05 10:31:16
      倒計時3天,巴拉圭總統將竄訪臺灣,美方主動溝通中方亮明立場

      倒計時3天,巴拉圭總統將竄訪臺灣,美方主動溝通中方亮明立場

      無心小姐姐
      2026-05-05 10:15:45
      斯諾克獎杯背后:育兒是豪賭還是培養?

      斯諾克獎杯背后:育兒是豪賭還是培養?

      烽火瞭望者
      2026-05-05 20:02:01
      【人物】“00后”冠軍吳宜澤:一個中國斯諾克家庭為他押上了一切

      【人物】“00后”冠軍吳宜澤:一個中國斯諾克家庭為他押上了一切

      界面新聞
      2026-05-05 11:06:08
      四字花隱婚生子了?李現被連累?宋軼耽誤事業?王驍反派出圈?姨太問答

      四字花隱婚生子了?李現被連累?宋軼耽誤事業?王驍反派出圈?姨太問答

      毒舌扒姨太
      2026-05-05 22:32:17
      當成都模式席卷全國,為何只有粵、蘇、魯、浙、閩5省選擇不跟?

      當成都模式席卷全國,為何只有粵、蘇、魯、浙、閩5省選擇不跟?

      金卡讀城
      2026-05-04 07:45:56
      許家印認罪!2.4萬億窟窿,家族只拿走500億,其余真金白銀去哪了

      許家印認罪!2.4萬億窟窿,家族只拿走500億,其余真金白銀去哪了

      蜉蝣說
      2026-04-23 09:41:11
      魯尼:槍手會贏下剩余所有比賽;曾預測過曼城在埃弗頓身上丟分

      魯尼:槍手會贏下剩余所有比賽;曾預測過曼城在埃弗頓身上丟分

      懂球帝
      2026-05-05 16:52:04
      大伯老炫耀兒子是公務員,我就說自己年薪60w,是他的10倍!結果大伯說:你深圳掙60w正常!但要論生活質量,肯定還是我兒子高!

      大伯老炫耀兒子是公務員,我就說自己年薪60w,是他的10倍!結果大伯說:你深圳掙60w正常!但要論生活質量,肯定還是我兒子高!

      譚老師地理大課堂
      2026-05-04 00:06:09
      廣東隊賺得盆滿缽滿,陳海濤樂開了花!

      廣東隊賺得盆滿缽滿,陳海濤樂開了花!

      體育哲人
      2026-05-05 21:43:57
      楊鳴返沈宴請玄冥二老!一句話讓人淚目,一人一城佳話暫時告一段落

      楊鳴返沈宴請玄冥二老!一句話讓人淚目,一人一城佳話暫時告一段落

      君馬體育
      2026-05-05 23:57:59
      俄副部長叛逃美國,俄軍每天最低傷亡千人,仍在組織新攻勢!

      俄副部長叛逃美國,俄軍每天最低傷亡千人,仍在組織新攻勢!

      知兵
      2026-05-04 16:06:33
      活久見!衛生巾印彩花被吐槽,網友呼吁:禁止男性參與衛生巾設計

      活久見!衛生巾印彩花被吐槽,網友呼吁:禁止男性參與衛生巾設計

      火山詩話
      2026-05-04 17:49:20
      2026-05-06 00:40:49
      藍媒匯財經plus incentive-icons
      藍媒匯財經plus
      聚焦財經熱點解讀行業動態
      727文章數 265關注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內娛真情誼!楊紫為謝娜演唱會送花籃

      財經要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      教育
      時尚
      手機
      本地
      公開課

      教育要聞

      選校還是選班,極簡版建議

      衣服不用準備太多,找到一些實用的單品才最重要,百搭又有性價比

      手機要聞

      三星Galaxy Z Flip8?細節曝光,價格微漲

      本地新聞

      用青花瓷的方式,打開西溪濕地

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日本人妻巨大乳挤奶水免费| 深夜av在线免费观看| 国产一区二区三区av在线无码观看| 亚洲成人性爱AV| 当阳市| 午夜婷婷网| 国产三级精品福利久久| 亚洲人妻精品中文字幕| 又爽又黄又无遮挡的激情视频| 亚洲天堂网在线观看视频| 国产99免费视频| 尤物tv.2722| 久久中文字幕综合不卡一二区| 久久久精品波多野结衣av | 日韩成人无码毛片一区二区| 国产不卡的一区二区三区| av片子在线观看| 成av免费大片黄在线观看| 国产精品久久久久影院| 亚洲原创无码| 精品一区二区三区四区激情| 国产熟女在线看| 天天躁日日躁狠狠躁中文字幕| 久久人人蜜桃97精品蜜臀| 热re99久久精品国产99热| 啊轻点灬大JI巴太粗太长了在线| 亚洲乱码中文字幕| 北条麻妃在线一区二区| 午夜亚洲国产理论片4080| 豆花AV| 日韩二区视频一本6| 亚洲高清WWW色好看美女| 亚洲五月丁香综合视频| 亚洲AV秘?片一区二区三区水牛| 风流少妇又紧又爽又丰满| 日本区视频| 免费一级欧美在线大片| 青青草国产精品久久久久| 在线免费不卡视频| 国产v综合v亚洲欧美大天堂| 超碰福利导航|