<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      大模型解剖圖火了,30多個開源模型架構差異一目了然,還可接入AI

      0
      分享至

      2026 年的前兩個月,開源大模型的發布節奏已快至令人應接不暇。Arcee AI 的 Trinity Large、月之暗面的 Kimi K2.5、阿里的 Qwen3.5、智譜 AI 的 GLM-5、Cohere 的 Tiny Aya……它們的名稱如流水般接踵而至,參數量從 3B 至 1T 不等,每一款都宣稱是“SOTA”或者“最強開源”。

      然而,如此快的更新速度,對于普通開發者而言,莫說深入研究,僅僅是分辨區別就已經耗費大量精力。更不用提許多技術報告的表述含糊,架構圖繪制風格各異,想要進行橫向對比十分困難。

      為了解決這些問題,一個名為“LLM Architecture Gallery”(大語言模型架構畫廊)的項目上線了。顧名思義,就是讓你像逛“畫廊”一樣,瀏覽不同模型的架構圖。


      (來源:X)

      這個項目的作者是 Sebastian Raschka,是機器學習領域的知名研究者,寫過《Python Machine Learning》和《Build a Large Language Model (From Scratch)》這兩本深受歡迎的專業書籍。


      (來源:Sebastian Raschka.com)

      他把過去幾個月撰寫的兩篇長文《The Big LLM Architecture Comparison》和《A Dream of Spring for Open-Weight LLMs》中繪制的所有架構圖抽取出來,用統一的視覺語言重新呈現,集中放在一個頁面上。點擊任意一張圖可以放大,每張圖下方附帶一份“規格表”,列出模型的參數量、發布時間、注意力機制類型等關鍵信息。想深入某個模型,可以點開“view in article”頁面會直接跳轉到原文對應章節。


      (來源:LLM Architecture Gallery)

      項目上線幾小時后,Andrej Karpathy 在 X 上回復了 Raschka 的推文:“太好了!我的自動研究功能很需要這個內容的 Markdown 版本——一個創意池。”他最近發布的 autoresearch 項目:一個讓 AI 自主跑實驗的開源工具,正需要這類結構化的架構信息作為創意來源。

      Raschka 也很快作出回復,并提供了 YAML 格式的元數據 GitHub 鏈接。Karpathy 隨后表示他已經用 Obsidian 把博客文章導出成 markdown,并且“輸入到了 autoresearch 循環中”。一個本意是方便人類閱讀的架構圖集,就這樣被接入了 AI 自動化研究的工作流。


      (來源;X)

      就在今天,這個項目也沖上了 Hacker News 首頁。一位用戶評論說:“這讓我想起了當年的 Neural Network Zoo,也是用可視化的方式展示不同架構。”也有人繼續幫忙優化細節:“能不能按時間排序,畫出架構演化的家譜樹?能不能加一個比例視圖,讓參數量的差異在視覺上直觀可感?”對于這些建議,Sebastian 表示他后續會持續完善。

      回到項目本身,目前,這份圖集收錄了三十多個模型架構,從 Llama 38B 到最新的 Qwen3.5、Sarvam 105B、Ling 2.5 1T。所有圖都按同一套視覺規范繪制:配色、圖例、字體統一,DeepSeek V3 和 Qwen3 235B-A22B 被放在一起時,你一眼就能看出前者用了 MLA(Multi-Head Latent Attention,多頭潛在注意力),后者用的是 GQA(Grouped-Query Attention,分組查詢注意力);DeepSeek V3 有一個“共享專家”模塊,Qwen3 沒有。

      這類信息原本散落在幾十頁技術報告的不同角落,現在被壓縮成一張對比圖。

      MoE(Mixture-of-Experts,混合專家模型)是 2025 年開源 LLM 的主旋律。所有主流的前沿開放權重模型都采用了這種架構。傳統的“稠密”Transformer 會在每次生成 token 時激活全部參數,參數越多,算力成本越高。而 MoE 把參數分成若干“專家”,每次只激活其中一部分。DeepSeek V3 名義上有 6,710 億參數,但實際運行時只激活 370 億;Llama 4 Maverick 號稱 4,000 億參數,激活的只有 170 億。

      Raschka 在圖集中把各模型的專家數量、激活比例、專家隱藏層尺寸都標注出來,讓稀疏程度一目了然。Hacker News 上有人感慨:“我很驚訝這些模型在結構上有多相似,主要差異就是層的大小。”

      另一位用戶則看出了一些端倪,辣評“過去七年,LLM 架構有很多改進,但沒有根本性的創新。今天最好的開放權重模型,如果你縮遠了看,仍然很像 GPT-2,就是一堆注意力層和前饋層堆起來。”

      這可以說是一個重要的觀察。LLM 能力的驚人提升,更多來自訓練方法的革新。比如 RLVR(Reinforcement Learning with Verifiable Rewards,可驗證獎勵的強化學習),而不是架構本身的突破。架構層面的優化,更多是為了讓訓練和推理更高效、成本更低,而不是讓模型根本上更聰明。理解這一點,對選型和預期管理都有幫助。

      最后總結一下,這個大模型架構的圖集的實際用法很簡單。

      首先,你可以把它當作速查手冊:想知道 Qwen3 和 DeepSeek V3 在注意力機制上有什么區別?打開頁面,找到兩張圖,直接對比。規格表里會告訴你 Qwen3 用 GQA,DeepSeek V3 用 MLA;前者沒有共享專家,后者有。

      其次,每張架構圖都鏈接到 Raschka 原文中的對應章節,如果你想深入了解某個技術細節:比如 QK-Norm(一種應用于查詢和鍵向量的歸一化技術)是什么、為什么能穩定訓練,點進去就能讀到解釋。

      第三,圖集附帶一份“概念速查”,解釋 GQA、MLA、SWA(Sliding Window Attention,滑動窗口注意力)、NoPE(No Positional Encoding,無位置編碼)、Gated DeltaNet 等術語,適合快速補課。

      并且,正如 Karpathy 的用法所示,這份圖集的價值不僅在于人類可讀,還在于它的結構化程度足以被機器解析。Raschka 在 GitHub 上提供了 YAML 格式的元數據,包含每個模型的參數量、發布日期、技術報告鏈接、注意力類型等字段。如果你想寫腳本批量分析這些模型的共性和差異,或者像 Karpathy 那樣把它們喂給 AI 做自動化研究,這份元數據是現成的起點。

      Raschka 還把整套架構圖打包成一個超高分辨率的 PNG 文件(56M,182 百萬像素,上傳到 Zazzle,可以直接下單打印成實體海報。他自己也訂了一張,但“還沒收到貨,暫時不能保證印刷質量”。頁面底部留了一個 Issue Tracker 鏈接,歡迎任何人提交糾錯或建議。

      對于正在選型的工程師來說,這份圖集的價值在于節省時間。你不用再翻幾十頁技術報告去找一個數字,也不用自己畫對比表格。對于想搞懂“這些模型到底在結構上有什么區別”的研究者來說,統一的視覺語言讓跨模型對比成為可能。

      1.項目地址:https://sebastianraschka.com/llm-architecture-gallery/#card-qwen3-5-397b

      2.開發者主頁:https://x.com/rasbt/status/2033167146302210058

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      馬克龍時代將畫上句號,梅朗雄宣布競選法國總統,對華態度已曝光

      馬克龍時代將畫上句號,梅朗雄宣布競選法國總統,對華態度已曝光

      達文西看世界
      2026-05-05 09:47:35
      希望哪兩隊會師世界杯決賽?鄭欽文:意大利和西班牙

      希望哪兩隊會師世界杯決賽?鄭欽文:意大利和西班牙

      懂球帝
      2026-05-05 14:11:04
      你拋美債,我拋中債!外資紛紛減持中國債,大量資金流向美國?

      你拋美債,我拋中債!外資紛紛減持中國債,大量資金流向美國?

      混沌錄
      2026-04-22 20:55:37
      美國媒體民調顯示:除雷霆所在州,全美都希望詹姆斯帶湖人晉級!

      美國媒體民調顯示:除雷霆所在州,全美都希望詹姆斯帶湖人晉級!

      歷史第一人梅西
      2026-05-05 17:09:52
      今天上午!廣東宏遠傳來消息,揭秘“掃地僧”的千萬身價

      今天上午!廣東宏遠傳來消息,揭秘“掃地僧”的千萬身價

      寶哥精彩賽事
      2026-05-05 18:37:45
      大特務毛人鳳子女現狀:長子是富士康董事長,三子是著名愛國華僑

      大特務毛人鳳子女現狀:長子是富士康董事長,三子是著名愛國華僑

      史之銘
      2026-05-02 22:37:25
      為什么說新西蘭沒幾個中國人待得住?網友:待了幾個月,都快瘋了

      為什么說新西蘭沒幾個中國人待得住?網友:待了幾個月,都快瘋了

      小正說娛樂
      2026-05-05 08:19:18
      擊中俄軍導彈艦,空襲莫斯科!“勝利日停火”測試美烏關系

      擊中俄軍導彈艦,空襲莫斯科!“勝利日停火”測試美烏關系

      鷹眼Defence
      2026-05-04 18:17:10
      首戰即決戰!U17亞洲杯首秀:中國戰印尼 鄺兆鐳萬項領銜出戰

      首戰即決戰!U17亞洲杯首秀:中國戰印尼 鄺兆鐳萬項領銜出戰

      新英體育
      2026-05-05 12:19:11
      43歲身材還這么“滿”?王心凌的身材到底是怎么保持的?

      43歲身材還這么“滿”?王心凌的身材到底是怎么保持的?

      馬拉松跑步健身
      2026-05-04 19:32:40
      皇馬內訌!27歲姆巴佩淪為孤家寡人:死不悔改 隊友信熊皇不信他

      皇馬內訌!27歲姆巴佩淪為孤家寡人:死不悔改 隊友信熊皇不信他

      風過鄉
      2026-05-05 11:26:24
      賴清德專機繞路返航,4架戰機護航盡顯心虛

      賴清德專機繞路返航,4架戰機護航盡顯心虛

      音樂時光的娛樂
      2026-05-05 14:30:00
      倪萍也沒想到,“離開”自己的三婚丈夫楊亞洲,已是全家人的驕傲

      倪萍也沒想到,“離開”自己的三婚丈夫楊亞洲,已是全家人的驕傲

      今夜繁星墜落
      2026-05-05 14:53:36
      小冰雹+雷電+11級以上大風,山東發布強對流天氣預報:濟南、泰安、淄博、德州、濱州、濰坊、聊城、東營、煙臺有小到中雨局部大雨

      小冰雹+雷電+11級以上大風,山東發布強對流天氣預報:濟南、泰安、淄博、德州、濱州、濰坊、聊城、東營、煙臺有小到中雨局部大雨

      極目新聞
      2026-05-05 16:52:44
      包養10位情婦,睡覺靠翻牌,生下11個私生子,75歲仍在拼命生娃!

      包養10位情婦,睡覺靠翻牌,生下11個私生子,75歲仍在拼命生娃!

      蜉蝣說
      2026-04-17 11:02:03
      瀏陽爆炸絕非偶然!三次警告被無視,背后藏著不敢說的真相

      瀏陽爆炸絕非偶然!三次警告被無視,背后藏著不敢說的真相

      社會日日鮮
      2026-05-05 12:24:01
      荒唐的斯威士蘭:集中10萬少女貢獻國王選妃,國民平均壽命35歲

      荒唐的斯威士蘭:集中10萬少女貢獻國王選妃,國民平均壽命35歲

      春秋硯
      2026-04-25 17:15:06
      廣東一公司28.8億元對外債權1000元起拍,30.3萬元成交,二股東為恒大地產子公司

      廣東一公司28.8億元對外債權1000元起拍,30.3萬元成交,二股東為恒大地產子公司

      紅星資本局
      2026-05-05 19:14:06
      任何一個男人到了六十歲后,只要還對異性懷有欣賞與追求,往往因為這兩件事

      任何一個男人到了六十歲后,只要還對異性懷有欣賞與追求,往往因為這兩件事

      心理觀察局
      2026-05-04 08:51:11
      上科大39歲博導王晨輝救孩子去世,夫妻倆的實驗室相鄰,門上寫著“科研有趣”,妻子的學生也會向他請教

      上科大39歲博導王晨輝救孩子去世,夫妻倆的實驗室相鄰,門上寫著“科研有趣”,妻子的學生也會向他請教

      極目新聞
      2026-05-04 22:27:34
      2026-05-05 20:47:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16659文章數 514918關注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      頭條要聞

      伊朗發射導彈襲擊美軍艦船和商船及阿聯酋 特朗普表態

      頭條要聞

      伊朗發射導彈襲擊美軍艦船和商船及阿聯酋 特朗普表態

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內娛真情誼!楊紫為謝娜演唱會送花籃

      財經要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      旅游
      家居
      本地
      公開課
      軍事航空

      旅游要聞

      “花漾巴士”再度啟航 探秘北京城市副中心人文研學之旅

      家居要聞

      靈動實用 生活藝術場

      本地新聞

      用青花瓷的方式,打開西溪濕地

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普威脅伊朗不要向美國船開火

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产超高清麻豆精品传媒麻豆精品| 欧美xxxxx精品| 67194熟妇在线直接进入| 中文字幕三区| 亚洲天堂AV在线观看| 精品人妻少妇嫩草AV无码专区 | 亚洲国产一区二区三区久| 精品人妻少妇| 亚洲人成综合网站7777香蕉| 男女猛烈无遮挡免费视频APP| 成人A级片| 国产成人AV男人的天堂| 久久久一本波多野结衣 | 最近中文字幕完整版2019| 高潮一区二区三区av| 国产精品亚洲综合第一页| 国产一区二区三区九九视频| 狠狠色噜噜狠狠狠狠av| 无码人妻丰满熟妇区bbbbxxxx | 天天躁日日躁狠狠躁躁欧美| 午夜做受视频试看6次| 国产av午夜精品福利| 激情综合色综合啪啪五月| 亚洲~V| 国产一区二区三区韩国女主播| 久久99国产亚洲高清观看首页| 人人玩人人添人人澡超碰| 国产SM重味一区二区三区| 亚洲 欧美 激情 小说 另类| 国产婷婷精品av在线| 开心色怡人综合网站| 亚洲综合在线粉嫩av| 久久国产成人精品国产成人亚洲| 女人被狂躁高潮啊的视频在线看 | 天天澡天天狠天天天做| 精精国产XXXX视频在线| 国产高清在线精品一本大道| 狠狠躁日日躁夜夜躁欧美老妇 | 国产欧美日韩不卡一区二区三区 | 91精品人妻一区二区三区蜜桃 | 日本三级理论久久人妻电影|