網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

清華研究者的新突破：讓8張游戲顯卡流暢訓(xùn)練2350億參數(shù)的超級(jí)AI

2026-05-07 20:53:23　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系領(lǐng)導(dǎo)的研究成果發(fā)表于2026年4月，論文編號(hào)為arXiv:2604.27085，有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。

研究團(tuán)隊(duì)由來自清華大學(xué)的多位研究人員共同完成，核心成果是一套名為"RoundPipe"的全新訓(xùn)練調(diào)度系統(tǒng)，專門針對(duì)消費(fèi)級(jí)顯卡服務(wù)器上訓(xùn)練超大型語言模型的效率問題。

一、當(dāng)游戲顯卡想要訓(xùn)練AI大模型，遇到了什么困難？

家用或工作室級(jí)別的顯卡，比如英偉達(dá)RTX 4090，售價(jià)大約是數(shù)據(jù)中心專用A100顯卡的五分之一，但計(jì)算能力卻大致相當(dāng)。這讓許多中小研究機(jī)構(gòu)和獨(dú)立開發(fā)者心動(dòng)不已：既然算力差不多，為什么要花五倍的錢？

然而現(xiàn)實(shí)并沒有那么美好。消費(fèi)級(jí)顯卡有兩塊"短板"讓人頭疼。第一塊短板是內(nèi)存太小。一張RTX 4090只有24GB顯存，而訓(xùn)練一個(gè)80億參數(shù)的模型，光是存儲(chǔ)模型本身的各種數(shù)據(jù)就需要128GB，相差了五六倍。第二塊短板是顯卡之間的通信太慢。數(shù)據(jù)中心的顯卡通過一種叫做NVLink的高速通道互聯(lián)，帶寬高達(dá)每秒300GB；而消費(fèi)級(jí)顯卡使用的PCIe接口，速度只有每秒32GB，不到前者的11%。

為了繞開這兩個(gè)限制，研究人員已經(jīng)發(fā)展出了一些辦法。一種思路是把模型參數(shù)存到電腦的內(nèi)存甚至硬盤里，只在需要計(jì)算的時(shí)候才臨時(shí)把數(shù)據(jù)傳進(jìn)顯卡——這就叫"CPU卸載"（CPU offloading）。另一種思路是把模型切成好幾段，每張顯卡負(fù)責(zé)一段，數(shù)據(jù)從前往后依次流過，像工廠流水線一樣——這叫"流水線并行"（Pipeline Parallelism）。清華大學(xué)一個(gè)名為Mobius的先前系統(tǒng)正是把這兩者結(jié)合起來，大大減少了顯卡之間的通信量，因?yàn)榱魉€方式下顯卡間只需要傳遞激活值（中間計(jì)算結(jié)果），而不是全部參數(shù)。

但即便是這樣的組合方案，依然存在一個(gè)根本性的痼疾，研究團(tuán)隊(duì)將其命名為"權(quán)重綁定問題"（weight binding issue）。理解這個(gè)問題，需要先了解流水線并行是怎么工作的。

以一個(gè)12層的語言模型為例，加上最后的語言模型頭（LM Head，負(fù)責(zé)把內(nèi)部表示轉(zhuǎn)換成詞匯概率的模塊），一共13個(gè)部分，分配給4張顯卡。傳統(tǒng)方案下，每張顯卡負(fù)責(zé)特定的層，比如第一張顯卡負(fù)責(zé)第1、5、9層的計(jì)算，第四張負(fù)責(zé)第4、8、12層以及那個(gè)特別重的LM Head。問題就在這里：LM Head通常比普通的Transformer層大得多，專門運(yùn)行它的顯卡每次都要多花時(shí)間，而其他顯卡只能干等著，什么都不能做。這些白白浪費(fèi)的等待時(shí)間，就叫做"流水線氣泡"（pipeline bubble）。

研究團(tuán)隊(duì)通過實(shí)際測(cè)量發(fā)現(xiàn)，在訓(xùn)練LLaMA-3.1-8B模型時(shí)，這種氣泡可以占據(jù)整個(gè)訓(xùn)練時(shí)間的30%之多。換句話說，每100分鐘的訓(xùn)練時(shí)間里，有整整30分鐘顯卡什么活都沒干，就是在等。

二、一個(gè)關(guān)鍵洞察：當(dāng)參數(shù)不再屬于某張?zhí)囟ǖ娘@卡

傳統(tǒng)流水線的核心設(shè)定是：某一段模型的參數(shù)永遠(yuǎn)住在某張固定的顯卡上。這就像一個(gè)工廠流水線，每個(gè)工位只能做特定的工序，做螺絲的工位永遠(yuǎn)只擰螺絲，做焊接的工位永遠(yuǎn)只焊接，哪怕焊接工位忙得團(tuán)團(tuán)轉(zhuǎn)、擰螺絲的工位閑得發(fā)慌，也不能互相幫忙。

清華團(tuán)隊(duì)的核心觀察是：CPU卸載恰好打破了這個(gè)限制的前提。既然模型參數(shù)本來就存在內(nèi)存里，每次計(jì)算都要臨時(shí)傳到顯卡，那么傳到哪張顯卡里，其實(shí)是可以靈活選擇的。今天第三層的參數(shù)可以傳到1號(hào)顯卡，明天同樣是第三層的參數(shù)，完全可以傳到2號(hào)顯卡去計(jì)算。顯卡變成了一個(gè)無狀態(tài)的"計(jì)算工人池"，任何一張顯卡都可以執(zhí)行任何一段模型的計(jì)算，只要把數(shù)據(jù)送過去就行。

這就是論文提出的"計(jì)算分發(fā)范式"（Computation Dispatch Paradigm）：模型參數(shù)和激活值統(tǒng)統(tǒng)放在內(nèi)存里，計(jì)算任務(wù)（連同所需的參數(shù)和數(shù)據(jù)）被動(dòng)態(tài)分發(fā)到任意一張空閑的顯卡上執(zhí)行。由于參數(shù)本來就需要從內(nèi)存?zhèn)鬏數(shù)斤@卡，這種重新分配實(shí)質(zhì)上并不增加額外的通信量，不過是把"傳給1號(hào)顯卡"改成了"傳給3號(hào)顯卡"而已。

當(dāng)然，這個(gè)聽起來簡(jiǎn)潔的思路在實(shí)際落地時(shí)面臨重重挑戰(zhàn)，研究團(tuán)隊(duì)為此設(shè)計(jì)了一整套精細(xì)的系統(tǒng)方案，這就是RoundPipe的完整工作。

三、RoundPipe的調(diào)度策略：輪轉(zhuǎn)派發(fā)與不對(duì)稱切分

有了計(jì)算可以自由流動(dòng)的基礎(chǔ)，RoundPipe設(shè)計(jì)了一套全新的流水線調(diào)度方案，由兩個(gè)核心機(jī)制組成：輪轉(zhuǎn)派發(fā)和不對(duì)稱切分。

先說輪轉(zhuǎn)派發(fā)（Round-robin dispatch）。RoundPipe把所有顯卡排成一排，計(jì)算任務(wù)按照順序依次分配下去，分完一輪再從頭開始——就像發(fā)撲克牌一樣，每人依次得一張，一圈一圈地發(fā)。更妙的是，RoundPipe不區(qū)分"前向傳播階段"和"反向傳播階段"，而是把兩者拼成一個(gè)連續(xù)的任務(wù)序列，統(tǒng)一按輪轉(zhuǎn)順序派發(fā)。假設(shè)有4張顯卡，前向傳播有若干個(gè)階段，反向傳播也有若干個(gè)階段，這些階段被排成一隊(duì)，1號(hào)顯卡做第1個(gè)，2號(hào)做第2個(gè)，3號(hào)做第3個(gè)，4號(hào)做第4個(gè)，然后回到1號(hào)做第5個(gè)，如此循環(huán)。

每一輪處理一批微批次（把訓(xùn)練數(shù)據(jù)切成小塊，每塊叫一個(gè)微批次）。當(dāng)一輪處理完畢，下一輪從上次停下的地方繼續(xù)，不需要任何額外的等待或重置。輪與輪之間無縫銜接，整個(gè)流水線近乎連續(xù)運(yùn)轉(zhuǎn)，幾乎消除了階段間的氣泡。

再說不對(duì)稱切分（Asymmetric stage splitting）。神經(jīng)網(wǎng)絡(luò)的前向傳播（從輸入到輸出計(jì)算結(jié)果）和反向傳播（從輸出反推梯度來更新參數(shù)）在計(jì)算量上并不相同。反向傳播由于需要重新計(jì)算一遍前向過程（即"激活重算"，activation recomputation），總耗時(shí)大約是前向的三倍。傳統(tǒng)流水線為了簡(jiǎn)便，對(duì)前向和反向使用完全相同的層分組方案，這就導(dǎo)致在前向和反向的交界處出現(xiàn)等待。

RoundPipe的做法是：前向傳播和反向傳播分別獨(dú)立設(shè)計(jì)分組方案。前向傳播可以每次處理三層，反向傳播每次只處理一層，恰好讓兩種操作的每個(gè)階段耗時(shí)大致相等，流水線就能均勻流動(dòng)，沒有堵塞。論文把這種聯(lián)合處理的銜接點(diǎn)稱為"融合階段"（fused stage）——在前向和反向的邊界，有一批層同時(shí)完成前向計(jì)算和反向傳播，前向計(jì)算直接作為反向所需的重算結(jié)果，省掉了一次額外的前向過程，節(jié)約了計(jì)算資源。

此外，RoundPipe還原生支持"異步優(yōu)化器更新"。在傳統(tǒng)訓(xùn)練中，每完成一次迭代的前向和反向傳播，就需要等CPU把參數(shù)更新完才能開始下一輪。CPU處理大模型參數(shù)更新很慢，比如處理320億參數(shù)的模型需要9.6秒。RoundPipe采用"滯后一步"的異步策略：第T+1輪迭代使用的是第T-1輪產(chǎn)生的參數(shù)更新結(jié)果，而CPU更新第T輪的參數(shù)在后臺(tái)默默進(jìn)行，不打斷GPU的工作節(jié)奏。已有大量研究證明，這種滯后一步的策略不會(huì)損害模型最終的訓(xùn)練效果。得益于這一設(shè)計(jì)，迭代與迭代之間的等待氣泡也徹底消失了。

用數(shù)學(xué)來量化：RoundPipe的氣泡來源只剩下流水線啟動(dòng)時(shí)的"預(yù)熱"和結(jié)束時(shí)的"冷卻"，兩者合計(jì)消耗的時(shí)間為 N×(N-1) 個(gè)階段單位（N是顯卡數(shù)量），而總工作量是 M×S 個(gè)階段單位（M是微批次總數(shù)，S是總階段數(shù)）。氣泡比例因此為 N×(N-1) 除以 (M×S+N×(N-1))。由于RoundPipe的總階段數(shù)S大約是傳統(tǒng)循環(huán)流水線的4/3倍（因?yàn)椴粚?duì)稱切分產(chǎn)生了更多細(xì)粒度的階段），氣泡比例比傳統(tǒng)方法更低。在實(shí)際測(cè)試中，開啟異步優(yōu)化器后，RoundPipe的絕對(duì)氣泡比例降到了4.5%以下。

四、數(shù)據(jù)傳輸?shù)木?xì)調(diào)度：讓大車小車各行其道

解決了調(diào)度策略之后，還有一個(gè)實(shí)際問題：在這套方案下，內(nèi)存和顯卡之間需要持續(xù)不斷地傳輸大量數(shù)據(jù)。每個(gè)階段都需要傳送模型參數(shù)（幾百M(fèi)B到幾GB不等），還需要傳送每個(gè)微批次的激活值（中間計(jì)算結(jié)果）。如果這些傳輸任務(wù)混在一起排隊(duì)，就可能出現(xiàn)"堵車"——一個(gè)巨大的參數(shù)傳輸任務(wù)占滿了通道，后面急需趕路的激活值卻進(jìn)不來，顯卡只能傻等著。

研究團(tuán)隊(duì)把這個(gè)問題類比為道路調(diào)度，提出了"優(yōu)先級(jí)感知傳輸調(diào)度引擎"（priority-aware transfer scheduling engine）。核心思路是給數(shù)據(jù)分清楚輕重緩急：激活值的傳輸屬于關(guān)鍵路徑，下一階段的計(jì)算必須等它到位才能開始，因此是高優(yōu)先級(jí)；模型參數(shù)的傳輸則相對(duì)靈活，可以在激活值傳輸?shù)目諜n期里悄悄完成，是低優(yōu)先級(jí)。

具體實(shí)現(xiàn)上，RoundPipe為每張顯卡維護(hù)了五條并行工作的數(shù)據(jù)通道：一條負(fù)責(zé)實(shí)際計(jì)算，另外四條分別專門處理"激活值上傳""激活值下載""參數(shù)上傳""梯度下載"。PCIe接口是全雙工的，上傳和下載可以同時(shí)進(jìn)行，因此四條通道可以充分利用帶寬。激活值總是提前一個(gè)微批次開始傳輸，或延后一個(gè)微批次才下載，保證計(jì)算流永遠(yuǎn)不會(huì)因?yàn)榈葦?shù)據(jù)而空轉(zhuǎn)。參數(shù)和梯度的傳輸則被切成若干小塊，見縫插針地填入激活值傳輸之間的空檔。

對(duì)于特別大的參數(shù)塊（比如LM Head），RoundPipe先把它切成更小的分片，再用"最長處理時(shí)間優(yōu)先"（longest-processing-time-first）的調(diào)度算法分配到各個(gè)時(shí)間窗口，確保每個(gè)窗口的傳輸量盡量均勻，不會(huì)出現(xiàn)某個(gè)時(shí)間段被一個(gè)超大參數(shù)塊完全占滿的情況。

通過理論的"屋頂線分析"（Roofline Analysis），研究團(tuán)隊(duì)證明了只要批次大小不太?。芗Ｐ椭辽?個(gè)，MoE模型至少80個(gè)），PCIe的傳輸時(shí)間可以完全被計(jì)算掩蓋，顯卡始終處于忙碌狀態(tài)，不會(huì)因?yàn)榈却龜?shù)據(jù)傳輸而浪費(fèi)時(shí)間。

五、參數(shù)一致性協(xié)議：讓CPU和GPU同時(shí)工作又不打架

異步優(yōu)化器帶來了另一個(gè)棘手問題：CPU在更新參數(shù)，GPU同時(shí)在用參數(shù)做計(jì)算，兩者都在讀寫同一批數(shù)據(jù)，如果沒有協(xié)調(diào)機(jī)制，就可能發(fā)生"寫了一半被讀走"或者"還沒寫完就被覆蓋"的數(shù)據(jù)錯(cuò)亂。

為了保證數(shù)據(jù)一致性，最直接的方法是在迭代邊界插入一個(gè)"全局屏障"：CPU把所有參數(shù)都更新完，GPU才能開始下一輪。但這等于把異步優(yōu)化器的好處完全抵消，訓(xùn)練時(shí)間反而更長，比如對(duì)于Qwen3-32B模型，每次迭代會(huì)額外增加14秒的等待。

RoundPipe的解法是"細(xì)粒度事件協(xié)議"（fine-grained event-based protocol）。整個(gè)系統(tǒng)維護(hù)著模型參數(shù)的三個(gè)副本：顯卡上短暫存在的"計(jì)算副本"、內(nèi)存里的低精度"主副本"，以及CPU優(yōu)化器使用的高精度"優(yōu)化器副本"。研究團(tuán)隊(duì)把需要遵守的順序約束精確歸納為五條規(guī)則，分別保護(hù)參數(shù)完整性、防止寫入撕裂、保護(hù)梯度完整性、保護(hù)梯度寫入順序，以及維護(hù)優(yōu)化器步驟語義。

關(guān)鍵的創(chuàng)新在于：這些約束不是以整個(gè)模型為單位來執(zhí)行的，而是以單個(gè)層為單位。優(yōu)化器處理完第1層的參數(shù)更新，立刻發(fā)出一個(gè)信號(hào)事件，GPU Workers收到信號(hào)后，就可以開始用第1層的新參數(shù)做下一輪迭代的計(jì)算，完全不必等待第2層、第3層直到最后一層都更新完畢。整個(gè)協(xié)調(diào)過程通過"點(diǎn)對(duì)點(diǎn)事件信號(hào)"實(shí)現(xiàn)，控制器動(dòng)態(tài)創(chuàng)建事件對(duì)象，分發(fā)給各個(gè)工作線程，線程之間直接互相等待和觸發(fā)，不需要經(jīng)過主線程，不會(huì)產(chǎn)生額外的阻塞。

這樣一來，參數(shù)更新和計(jì)算任務(wù)在時(shí)間上高度重疊，那些原本因?yàn)榈却鼵PU完成參數(shù)同步而白白浪費(fèi)的時(shí)間，都被轉(zhuǎn)化成了實(shí)際的計(jì)算工作。

六、自動(dòng)切分算法：讓系統(tǒng)自己決定怎么分層

以上所有設(shè)計(jì)都有一個(gè)前提：需要找到一個(gè)好的流水線切分方案，決定每個(gè)階段包含哪些層，使得每個(gè)階段的計(jì)算時(shí)間盡量均等。這個(gè)切分方案如果靠人工手調(diào)，既費(fèi)力又容易出錯(cuò)，不同模型、不同顯卡配置都需要重新調(diào)整。

RoundPipe為此設(shè)計(jì)了一個(gè)自動(dòng)化的切分算法。算法在訓(xùn)練開始前的幾輪迭代中自動(dòng)收集每一層的實(shí)際執(zhí)行時(shí)間和內(nèi)存占用，然后尋找一個(gè)切分方案，使得最慢階段的執(zhí)行時(shí)間盡量短，同時(shí)保證每個(gè)階段不超過顯卡的內(nèi)存限制。

這個(gè)優(yōu)化問題表面上復(fù)雜（暴力搜索是指數(shù)級(jí)復(fù)雜度），但研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)巧妙的性質(zhì)：最優(yōu)方案中"最慢階段的時(shí)間上限"（記作tmax）必然是某些連續(xù)層的執(zhí)行時(shí)間之和，而這樣的組合總數(shù)是O(L?)級(jí)別（L是總層數(shù)）。對(duì)每一個(gè)候選的tmax，問題退化為一個(gè)經(jīng)典的貪心問題：從第一層開始往后塞，每個(gè)階段盡量多裝，直到超過tmax或內(nèi)存限制才開新階段，整個(gè)過程只需O(L)時(shí)間掃描一遍。兩層循環(huán)嵌套，總復(fù)雜度是O(L?)，對(duì)于實(shí)際使用的模型規(guī)模完全可以接受。

實(shí)測(cè)下來，切分Qwen3-1.7B、LLaMA-3.1-8B等模型只需2到5毫秒，切分參數(shù)量最大的Qwen3-235B（94層）也只需1.47秒，相對(duì)于動(dòng)輒數(shù)小時(shí)的訓(xùn)練時(shí)間，這個(gè)開銷可以忽略不計(jì)。

七、實(shí)驗(yàn)結(jié)果：數(shù)字背后的真實(shí)意義

研究團(tuán)隊(duì)在兩種硬件環(huán)境下進(jìn)行了全面測(cè)試：一臺(tái)配備8張RTX 4090消費(fèi)級(jí)顯卡的服務(wù)器，以及一臺(tái)配備8張A800數(shù)據(jù)中心顯卡的服務(wù)器。測(cè)試模型覆蓋了從17億到2350億參數(shù)的五個(gè)大小，包括三個(gè)密集模型（Qwen3-1.7B、LLaMA-3.1-8B、Qwen3-32B）和兩個(gè)MoE模型（GPT-OSS-20B、Qwen3-235B）。

在4090消費(fèi)級(jí)顯卡服務(wù)器上，RoundPipe與當(dāng)時(shí)最優(yōu)秀的基線方案相比，訓(xùn)練吞吐量提升了1.48倍到2.16倍。其中RoundPipe的同步版本（關(guān)閉異步優(yōu)化器）也有1.15到1.63倍的提升，說明即便不用異步加速，新的流水線調(diào)度本身就帶來了顯著收益。更引人關(guān)注的是，RoundPipe是唯一能在24GB顯存的RTX 4090上完成Qwen3-235B（2350億參數(shù)）LoRA微調(diào)的系統(tǒng)，其他所有基線方案都因?yàn)轱@存不足而失敗。

在可支持的最長序列長度方面，RoundPipe比排除Megatron-TP（該方案雖然支持長序列，但PCIe下通信開銷使其吞吐量實(shí)際上不可用）之外的最優(yōu)基線方案延伸了4.7到7.3倍。這意味著研究者可以用同樣的硬件處理更長的文檔、更復(fù)雜的推理鏈，解鎖很多之前無法觸及的應(yīng)用場(chǎng)景。

在A800數(shù)據(jù)中心顯卡服務(wù)器上的表現(xiàn)同樣值得關(guān)注。對(duì)于小模型（17億和80億參數(shù)），充裕顯存和高速NVLink讓數(shù)據(jù)并行方案占優(yōu)，RoundPipe在這里表現(xiàn)與最優(yōu)方案持平（0.98倍）。但對(duì)于大模型（200億參數(shù)以上），RoundPipe反而領(lǐng)先了1.04到1.47倍，因?yàn)樗a(chǎn)生的通信量更少，流水線氣泡也更小。特別是在Qwen3-32B上，傳統(tǒng)流水線方案（Megatron-PP）直接因顯存不足崩潰退出，而RoundPipe穩(wěn)定運(yùn)行。

一個(gè)令人印象深刻的數(shù)據(jù)是：在所有測(cè)試模型上，RoundPipe在4090消費(fèi)級(jí)服務(wù)器上的吞吐量，達(dá)到了在A800專業(yè)服務(wù)器上最優(yōu)基線方案的76%以上?？紤]到4090的購買價(jià)格只有A800的五分之一，這意味著同樣的預(yù)算買來的實(shí)際訓(xùn)練效率已經(jīng)相當(dāng)接近甚至可能超越專業(yè)方案。

在擴(kuò)展性測(cè)試中，RoundPipe從1張到8張顯卡的吞吐量近乎線性增長，沒有出現(xiàn)通常多GPU方案隨顯卡數(shù)量增加而效率下滑的現(xiàn)象。更獨(dú)特的是，RoundPipe支持的最長序列長度不隨顯卡數(shù)量變化——從1張到8張4090，Qwen3-1.7B都能支持73K長度的序列，LLaMA-3.1-8B都能支持49K長度，這是因?yàn)樾蛄虚L度的上限由內(nèi)存容量決定，而不是由顯卡間的數(shù)據(jù)分配決定，增加顯卡只會(huì)提速，不會(huì)改變內(nèi)存格局。

八、與對(duì)手的橫向比較

理解RoundPipe的意義，需要稍微了解一下它與現(xiàn)有方案的關(guān)系。

DeepSpeed ZeRO系列（ZeRO-2、ZeRO-Infinity）和PyTorch FSDP代表了數(shù)據(jù)并行路線：把模型參數(shù)切分給所有顯卡，每張顯卡在前向和反向時(shí)通過all-gather集合通信重建完整參數(shù)。這種方法在NVLink高速互聯(lián)下運(yùn)行良好，但在PCIe低帶寬下，通信開銷可以占據(jù)70%的訓(xùn)練時(shí)間，幾乎把多顯卡的算力優(yōu)勢(shì)消耗殆盡。

Megatron-LM的張量并行（TP）把單層的矩陣運(yùn)算橫向切開，分到多張顯卡并行計(jì)算。同步通信需求極高，在PCIe下幾乎不可用。Megatron-LM的流水線并行（PP）則是把層縱向切開，與RoundPipe同屬一條技術(shù)路線，但受制于權(quán)重綁定問題，存在顯著氣泡。

Mobius是清華大學(xué)早先在此方向的工作，首次將流水線并行與CPU卸載結(jié)合，但同樣受限于權(quán)重綁定，面對(duì)不均衡模型結(jié)構(gòu)時(shí)氣泡明顯。RoundPipe可以理解為對(duì)Mobius的根本性升級(jí)，從架構(gòu)層面解決了權(quán)重綁定問題。

在流水線氣泡的模擬分析中，RoundPipe-sync（同步版本）相比最優(yōu)基線方案減少了23%到55%的氣泡，而完整的RoundPipe（包含異步優(yōu)化器）幾乎將跨迭代的氣泡清零，最終氣泡比例穩(wěn)定在4.5%以下。

說到底，RoundPipe并不是一個(gè)"用更好的硬件換來更好性能"的故事，而是一個(gè)"通過更聰明的軟件設(shè)計(jì)，讓已有的普通硬件發(fā)揮出接近專業(yè)硬件的水平"的故事。它改變的不是物理法則，而是那些在原有框架下被視為"理所當(dāng)然"的約束。權(quán)重必須固定在某張顯卡？未必。前向和后向必須用同樣的切分方式？也不必要。CPU更新參數(shù)時(shí)GPU必須等待？完全可以并行。每一個(gè)"必須"的背后，其實(shí)都是一個(gè)可以重新審視的假設(shè)。

對(duì)于那些希望在有限預(yù)算內(nèi)開展大模型研究的團(tuán)隊(duì)來說，這套方案描繪了一條清晰可行的路徑。當(dāng)然，實(shí)際部署中仍有一些工程細(xì)節(jié)需要處理，比如MoE模型的專家路由在多GPU下的負(fù)載均衡，以及極長序列下內(nèi)存布局的優(yōu)化空間，這些都是后續(xù)工作可以進(jìn)一步探索的方向。RoundPipe的代碼已經(jīng)開源在GitHub上（github.com/ITcarrot/RoundPipe），并配有完整的文檔，有興趣的讀者可以通過論文編號(hào)arXiv:2604.27085查閱原始研究的全部細(xì)節(jié)。

Q&A

Q1：RoundPipe和普通流水線并行有什么本質(zhì)區(qū)別？

A：普通流水線并行中，每一段模型參數(shù)永遠(yuǎn)固定在某張?zhí)囟@卡上，無法挪動(dòng)。RoundPipe利用CPU卸載的特性，讓所有參數(shù)都存在內(nèi)存里，按需傳給任意一張顯卡計(jì)算，使顯卡變成可以執(zhí)行任何計(jì)算任務(wù)的"通用工人"，從而打破了不同層計(jì)算量不均導(dǎo)致某張顯卡總是拖慢整體進(jìn)度的問題。

Q2：消費(fèi)級(jí)RTX 4090能訓(xùn)練2350億參數(shù)的大模型嗎？

A：在RoundPipe的支持下，8張RTX 4090（每張24GB顯存，合計(jì)192GB）可以完成Qwen3-235B模型的LoRA微調(diào)，序列長度可達(dá)31K。這是因?yàn)镽oundPipe將模型參數(shù)和中間激活值都存儲(chǔ)在容量更大的內(nèi)存中，顯卡只臨時(shí)承載當(dāng)前計(jì)算所需的數(shù)據(jù)，從而突破了單卡顯存的容量瓶頸。

Q3：RoundPipe的訓(xùn)練結(jié)果和傳統(tǒng)方法一樣可靠嗎？

A：RoundPipe使用了"滯后一步"的異步優(yōu)化器策略，即每輪迭代使用的參數(shù)比最新更新結(jié)果晚一步。學(xué)術(shù)界已有多項(xiàng)研究證明這種一步的滯后不會(huì)影響模型最終的收斂質(zhì)量和性能，RoundPipe只是在已驗(yàn)證的機(jī)制基礎(chǔ)上加入了細(xì)粒度的事件同步協(xié)議，確保數(shù)據(jù)讀寫順序的正確性，不引入額外的訓(xùn)練誤差。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.