公眾號記得加星標??,第一時間看推送不會錯過。
共封裝光器件 (CPO) 已成為人工智能數據中心領域最熱門的技術之一。供應商和標準組織積極將 CPO 定位為解決人工智能帶寬、延遲和功耗危機的方案,但許多用戶仍然猶豫不決,他們不確定自己是否需要 CPO;CPO 技術是否足夠成熟;以及采用 CPO 帶來的運營風險是否會大于性能收益。鑒于當前的技術前景和用戶疑慮,我們最近完成了一項關于 CPO 前景的研究。
在OFC、ECOC以及如今的GTC上,CPO的演示令人印象深刻。然而,如今除了少數超大規模數據中心外,大多數數據中心都鮮少部署CPO。與數據中心經理交談后,你會發現整個行業都在謹慎地為一場可能需要十年才能完全實現的科技轉型做準備。
然而,CPO不僅僅是一個技術問題。它還關乎用戶心理、風險承受能力、數據中心文化以及基礎設施買家與其供應商之間不斷變化的關系。
為什么CPO重回聚光燈下
CPO并非新生事物。將光子學和電子學緊密封裝在一起的概念可以追溯到多年前,IBM早期在超級計算機互連方面的研究以及“flyover”互連概念。改變的是人工智能的興起,它已成為現代數據中心的核心工作負載。在人工智能熱潮之前,CPO被宣傳為一項應用廣泛的創新技術,可用于傳感器、電信、高性能計算和數據中心互連。這種“shotgun”式的定位在初期引發了人們的興奮,但最終未能維持市場需求。
人工智能驅動的需求更加集中。CPO 被視為人工智能數據中心中特定實際問題的解決方案:隨著行業向 112G 和 224G SerDes 邁進,以及交換機 ASIC 接近 51.2T 及更高階,電氣互連的損耗越來越大,功耗也越來越高。在此背景下,CPO 的價值主張就很容易理解了。通過縮短電氣路徑并將光接口更靠近 ASIC,CPO 有望實現更高的能源效率、更高的帶寬密度,并為未來超高基數交換機(51.2T 至 204.8T)鋪平道路。下表記錄了關于 CPO 最能展現其優勢的共識。
![]()
這聽起來好得令人難以置信,而且很可能確實如此。潛在CPO用戶的不信任源于CPO最初比可插拔交換機更復雜,而傳統數據中心機箱的前面板設計又比同等CPO產品更簡單,也更容易維護。幾十年前的網絡管理員如果知道可插拔功能可以如此輕易地被取消,一定會感到震驚。或許可以通過指出,取消可插拔功能也可能減少現場故障,來重建一些信心。
盡管人們都在談論節省資本支出,但早期CPO交換機的成本可能高于傳統的可插拔交換機。買者自負!
潛在 CPO 用戶的真實感受
數據中心運營商對 CPO 的態度存在著一種矛盾的情緒,既充滿好奇又心存疑慮。運營商承認 CPO 在技術上似乎很有吸引力,但也認為它可能會成為運維上的難題。CIR 的研究表明,即使在傳統數據中心市場(即非超大規模數據中心)中,人們對 CPO 的了解仍然有限。在超大規模環境之外,普通數據中心經理可能對 CPO 知之甚少。對于成熟的可插拔收發器供應商來說,情況也是如此。
從工程角度來看,當長期目標是擴展到 102.4T ASIC 時,CPO 似乎最為重要。此時,功耗成為限制因素,并且有跡象表明需要“極高”的端口密度。這往往將 CPO 定義為一種超大規模數據中心技術。事實上,微軟、Meta、谷歌和亞馬遜已經在進行 CPO 的內部試驗。這并非出于實驗目的。他們正在尋找任何能夠幫助他們在未來避免更高功耗預算的方法。超大規模數據中心將 CPO 視為更廣泛的架構轉變的一部分:光子結構、更密集的機架,以及將 AI 集群和機架的擴展能力超越銅纜所能支持的范圍。
從這個意義上講,超大規模數據中心運營商并不將CPO視為一項孤立的技術升級,而是將其視為下一代AI基礎設施的關鍵賦能要素。此外,與企業級數據中心以及規模較小的云和邊緣數據中心的擁有者/管理者不同,超大規模數據中心運營商更傾向于采用CPO,這得益于他們已經接受非傳統的供應鏈模式。與企業和小型數據中心運營商不同,如果性能提升足以彌補供應商的不足,超大規模數據中心運營商并不介意供應商鎖定。他們擁有采購優勢,其工程團隊能夠針對供應商的弱點進行設計,并且在許多情況下,他們有能力要求定制解決方案。對于超大規模數據中心運營商而言,問題不是“我們是否應該部署CPO?”,而是“我們能夠以多快的速度將其產業化?”
“可靠性才是關鍵”
CIR 指出,盡管行業媒體中提及了一些小型用戶,但在超大規模環境之外,目前幾乎沒有 CPO 部署的跡象。即使存在一些小規模的 CPO 部署,它們的知名度和影響力也不足以產生顯著影響。企業和托管運營商以及其他小型運營商與超大規模運營商有著截然不同的企業文化。
他們不會構建大型專有平臺,而且很少有工程人員來運行復雜的光集成項目。他們對 CPO 的態度受到一系列不同優先事項的影響:互操作性、多供應商供應鏈和現場可維護性。這將導致不同的采用曲線。超大規模運營商可能會率先采用,而其他市場參與者則會等待“證據”、標準化接口和成熟的生態系統。實際上,超大規模運營商可能扮演著行業的測試實驗室的角色,而企業和其他小型運營商最終將成為大眾市場。
LPO 和 NPO 作為舒適區
與此同時,影響用戶態度的最重要趨勢之一是“過渡性”解決方案的興起。CIR 強調,謹慎的潛在 CPO 用戶不會直接從可插拔設備跳到完整的 CPO。相反,他們會采用 NPO 和 LPO 等中間架構,這些架構在不完全犧牲模塊化的前提下,提供了降低功耗和提高信號完整性的一些優勢。
運營商目前采取漸進式部署,是因為他們不信任早期 CPO 的生產良率、散熱性能或維修/維護模式。NPO 和 LPO 使他們能夠在不立即重寫操作手冊的情況下,嘗試更短的電氣走線、更低的 DSP 開銷以及新興的電氣接口,例如 CEI-112G 和 CEI-224G。
LPO 對注重功耗和延遲的運營商極具吸引力。通過移除 DSP,LPO 承諾降低功耗和延遲,這對人工智能 (AI) 來說至關重要。但它也帶來了一些限制:傳輸距離更短、主機要求更嚴格以及信號預算更緊張。NPO 無需完全共封裝即可提供近距離傳輸優勢,從而降低了散熱和制造復雜性方面的風險。
這些過渡技術至關重要,因為它們將影響 CPO 的普及速度。CPO 是“最終目標”,但對于企業運營商而言,CPO 被視為“下一個十年的技術”。許多人認為,即使 CPO 變得重要,過渡階段的技術也能在不承擔完全共封裝風險的情況下帶來益處。
熱管理的現實與可插拔性的回歸
CPO(集成光器件)應用最常被提及的技術障礙是熱管理。溫度不穩定會導致波長漂移、加速老化和性能下降。將光學器件靠近ASIC本身就會引入與熱相關的風險。光學元件——尤其是激光器和光子集成電路——對溫度有著嚴格的要求。CIR的CPO報告指出,熱管理是目前阻礙CPO應用的最大因素之一。
然而,CPO激光器最引人注目之處并非在于其自身存在熱問題的悖論,而在于它們可能以一種隱蔽的方式回歸可插拔性。目前,由OIF實施者協議推動的外部激光器小型可插拔器件(ELSFP: External Laser Small Form Factor Pluggable )代表了完全CPO集成和傳統模塊化光學器件之間的一種折衷方案。其邏輯很簡單:激光器會發生故障,性能會下降,而且最好將其放置在溫度較低的區域。外部激光器允許在不影響開關ASIC封裝的情況下進行更換——從某種意義上說,這就是可插拔性的回歸。
從用戶態度角度來看,ELSFP之所以吸引人,是因為它解決了困擾CPO討論的“維修焦慮”。如果至少可以更換激光源,運營商或許并不介意失去更換光引擎的能力。僅此一點就足以讓CPO模型顯得不那么脆弱。然而,這種外部方案也引入了新的風險,例如插入損耗以及一個激光器故障可能影響多個通道。ELSFP和外部激光器架構有望在促進其普及應用方面發揮重要作用。
供應商的影響:博通和英偉達塑造認知
用戶對CPO的態度也受到其倡導者信譽的影響。值得注意的是,博通和英偉達已成為推動CPO發展的重要供應商。博通早期憑借其Bailly平臺,確立了其在交換機ASIC集成領域的標桿地位。與此同時,英偉達通過將CPO集成到其Spectrum-X和Quantum-X平臺,并公開展示這些系統,使CPO成為主流人工智能領域的熱門話題。
英偉達的做法尤其值得關注,因為它體現了對運營商需求的重視。其架構包含可拆卸的光子組件,這意味著采用了部分模塊化模型。實際上,英偉達在設計CPO系統時似乎考慮到了可制造性和可更換性,并意識到如果缺乏可維護性,純粹的封裝設計將難以推廣。
供應商的策略至關重要,因為用戶通常只有在確信存在“可靠的供應商路徑”時才會采用新的基礎設施技術。在網絡領域,信任往往取決于品牌。如果運營商相信供應商能夠通過工程支持和長期產品穩定性來規避風險,他們就會容忍風險。因此,博通和英偉達不僅僅是供應商,它們更是CPO信心的來源。
供應鏈焦慮:“這會不會又是一個廠商鎖定陷阱?”
話雖如此,CPO的采購方式卻讓運營商感到不安。在可插拔模式下,運營商可以從多個供應商處購買光模塊,并將其視為可互換的商品。而CPO則威脅到了這種模式。如果將光模塊集成到交換機封裝中,運營商就不得不依賴于交換機供應商的封裝體系和更換政策。客戶可能不再需要購買可互換的模塊,而是必須從單一供應商或合作伙伴處采購集成的CPO系統。另一個問題是,CPO可能導致光模塊故障需要更換電路板、線路卡,甚至整個交換機組件。數據中心管理人員并不想聽到這樣的消息。CPO違背了運維團隊的直覺。許多人會將CPO解讀為“偽裝成創新的廠商鎖定”。
正因如此,像OIF和先進光子學聯盟這樣的組織開展的互操作性工作才顯得尤為重要。用戶不僅關注性能,還關注生態系統的成熟度和多廠商信譽。
CPO 的實際應用發展趨勢:三階段模式
隨著運營商對設備測試、供應鏈、線纜管理和冷卻的信心增強,CPO 市場收入將持續增長。與所有此類技術一樣,如果 CPO 成功,其增長將是非線性的。
從懷疑到接受(2026-2028 年):CPO 將成為超大規模 AI 集群的輔助工具,而非主流網絡技術。AI 架構的持續擴展將迫使人們對 CPO 進行更深入的評估。限制因素將是激光器、封裝良率、熱設計和測試方面尚未解決的問題。
從接受到依賴(2029-2032 年):下一階段將從實驗轉向依賴。隨著 AI 集群規模向 100T 級擴展,CPO 將成為迄今為止唯一能夠勝任此項工作的技術。用戶態度可能會從“我們正在評估”轉變為“沒有它,我們就無法擴展”。
![]()
從依賴到優化(2032-2035):一旦CPO成為主流,討論的焦點將發生轉變。屆時,討論的重點將放在哪家供應商的CPO架構更勝一籌。這將是非超大規模運營商開始大規模采用CPO的時期。
我們意識到,我們對CPO的預測數據可能對某些人來說過于樂觀。持懷疑態度的人會想起那些早已銷聲匿跡的網絡技術——FDDI就是其中之一。CIR認為,一個重要的因素是AI本身的演進。更小的語言模型可能會降低對高速互連的需求,從而使CPO成為一項小眾技術。如果AI工作負載變得分布式或對帶寬的需求降低,CPO的緊迫性也可能隨之下降。
CPO:一場文化變革
CPO 的成功不僅僅取決于帶寬密度和每比特功耗指標,更取決于運營商能否信任它。目前,用戶對此既感興趣又持懷疑態度。超大規模數據中心運營商正在積極推進,因為他們中的一些人認為,即使 CPO 會顛覆數十年來定義光網絡的現有服務模式,它仍將是擴展 AI 網絡架構的唯一長期策略。
未來十年,運營商的態度將從“這看起來很冒險”轉變為“這就是現代 AI 網絡的運作方式”。當這種轉變發生時,CPO 將不再被視為一種光技術,而將被視為一種基礎設施的未來。
另一個不確定因素是機架中的銅纜。NVIDIA在NVLink中繼續使用銅纜,這強化了業界長期以來的模式:只有在銅纜出現故障時才會采用光纖。CIR指出,光纖取代銅纜的趨勢尚未出現。光纖會穿透機架,但沒有人確切知道穿透速度和深度。
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4397內容,歡迎關注。
加星標??第一時間看推送
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.