十多年來,企業的云戰略一直遵循著一個明確的方向:整合。
應用程序從分散的本地環境遷移至集中的公有云平臺,其目標在于簡化運維、實現可擴展性并提升成本效益。混合架構也有被提及,卻鮮少被真正采納。它們被視為過渡狀態——遷移過程中不可或缺,但終將被淘汰。如今這種假設正開始動搖。
AI系統引入的限制條件與集中式基礎設施模型并不相容。在許多情況下,問題已不再是工作負載能否遷移到單一環境,而是是否應該遷移。
本文將探討混合云如何從一種折中方案,轉變為一種結構性需求。
AI工作負載的行為模式與傳統應用程序不同
傳統的企業應用程序大多是確定性的,且由請求驅動。用戶發起請求,系統進行處理并返回響應。延遲固然重要,但需在既定容差范圍內。數據訪問模式可預測,治理在明確的邊界內得到執行。
AI系統的行為則截然不同。現代AI工作負載,尤其是涉及檢索增強生成、代理工作流和持續推理的場景,會同時在多個維度上運行:
它們依賴于分布在不同環境中的上下文數據。
它們執行多步驟推理管道,而非單次事務。
它們持續運行,而非僅按請求處理。
它們引入反饋循環,其中輸出結果會影響未來的行為。
這些特性從根本上改變了執行的位置和方式。
延遲成為正確性約束
在傳統系統中,延遲主要是一個性能問題。而在 AI 系統中,延遲正日益成為一種正確性約束,它直接影響系統輸出的有效性,而不僅僅是及時性。
試想一個在生成響應前需檢索上下文數據的系統。若檢索步驟引入延遲,系統可能基于過時或不完整的上下文進行操作。在實時環境、金融系統、運營決策平臺或客戶交互層中,這種延遲不僅會改變用戶體驗,更會改變結果。延遲不再僅僅關乎速度,它已成為決策邊界的一部分。
這標志著系統設計中對延遲理解方式的轉變:不再將其視為優化變量,而是視為塑造決策本身語義準確性的關鍵因素。
這催生了新的架構要求。執行必須發生在延遲約束能保障語義正確性(而非僅保障用戶體驗)的位置。在實踐中,這通常意味著將組件分布于不同環境:
在用戶附近或邊緣位置進行推理。
在受監管的數據源附近進行數據檢索。
在集中式控制層之間進行編排。
沒有任何一種環境能夠同時滿足所有延遲約束。這給架構設計帶來了結構性影響:執行位置的確定必須基于在延遲約束下如何保證正確性,而非計算資源最易獲取的位置。從這個意義上說,分布式架構并非一種優化方案,而是一種必要條件。
延遲作為分布式AI系統中的正確性約束
下圖展示了延遲不僅影響系統性能,還影響AI驅動決策的正確性。在集中式架構中,數據檢索和推理延遲會導致上下文過時或不完整,從而導致結果質量下降。而在分布式架構中,將數據檢索、推理和交互層部署在邊緣、云和企業環境中,既能降低延遲,又能保持語義正確性。
![]()
治理模式不再集中化
企業治理模式歷來認為,集中化能提升管控能力。將數據匯集到一個環境中,應用統一的政策。一致地執行訪問控制。AI 顛覆了這一模式。
AI 系統經常與以下內容交互:
受監管的數據。
企業的專有知識。
外部數據源和 API。
這些交互是動態發生的,且往往跨越多個司法管轄區和合規領域,將所有數據移入單一環境并非總是可行或被允許的。相反,治理必然變得分布式。政策必須在數據所在之處、決策制定之處以及行動執行之處得到執行。
這催生了不同的架構模型:
治理不再受限于地理位置。
治理必須跨地域實施。
混合架構的出現并非源于碎片化,而是源于政策約束——若不違反監管或運營邊界,這些約束便無法集中管理。
成本引力改變了部署決策
傳統工作負載的云經濟模型相對可預測。成本隨使用量、計算資源、存儲和網絡流量而變化,并可通過整合進行優化。
AI 工作負載帶來了不同的成本動態:
推理成本隨上下文長度和模型復雜度而增加。
數據遷移成為主要的成本驅動因素。
持續評估引入了持續的開銷。
訓練和微調會產生突發性、高強度的計算需求。
這些因素共同形成了所謂的“成本引力”,即工作負載傾向于留在數據和計算資源最具經濟效益的區域附近。例如:
為進行推理而在不同環境間遷移大型數據集所產生的成本,可能超過計算成本的節省。
集中式推理可能同時增加延遲和出站流量成本。
在高成本區域,持續評估管道會因成本過高而難以實施。
其結果并非一個簡單的優化問題,而是一系列相互競爭的力量,將系統的不同部分拉向不同的環境。
混合云不是一種策略,而是一種結果
企業討論通常將混合云視為一種戰略選擇:我們是否應該采用混合云?本地部署與公有云的比例應如何分配?
AI 改變了這一問題的本質。混合云并非組織在抽象層面主動選擇的結果,而是相互沖突的約束條件、延遲要求、治理邊界和成本動態在單一環境中無法解決時產生的自然結果。這些力量之間并不協調,它們將系統的不同部分向不同方向拉扯,從而迫使系統進行分布式部署。許多情況下,看似架構復雜的情況,實則是系統在解決那些無法在單一環境中滿足的相互沖突的約束條件。
這將混合云的定位從一種實施選擇,重新定義為一種受約束驅動的結果,它源于延遲、治理和成本這三股力量的相互作用,這些力量同時作用于系統的不同部分。
![]()
現代AI工作流橫跨邊緣、云和企業環境,延遲、治理和成本限制因素共同決定了部署位置。AI系統不再形成線性管道,而是將執行任務分布于不同環境,以滿足相互沖突的限制條件。混合架構已不再是設計偏好,而是成為一種結構性要求。
從位置中心思維到約束中心架構
過去,基礎設施決策主要圍繞位置展開:應用程序應在何處運行?應選用哪家云服務提供商?
AI系統需要不同的框架。更關鍵的問題變成了:該系統必須滿足哪些約束條件,以及這些約束條件在何處能夠得到滿足?
這導致了以約束為中心的架構方法。執行被部署在延遲能保障正確性(而不僅僅是性能)的地方。數據保留在治理要求的位置,而不是為了方便而集中存儲。計算資源部署在成本效益最優的地方,而不是在容量最易配置的地方。
這種從位置中心化向約束中心化設計的轉變,改變了架構決策的單位。系統不再基于基礎設施偏好進行部署,而是根據各項約束條件能否得到滿足,進行分解和分布式部署。
其結果并非碎片化,而是協同一致。系統之所以分布式部署,并非因為設計拙劣,而是因為它們針對所處的約束環境進行了正確的設計。隨著系統分布式部署,協調成為核心挑戰。此時控制平面變得至關重要——它不再是可選的治理層,而是使分布式系統能夠協同運作的統一機制。控制平面提供了一種在不同環境中執行策略、一致監控行為、管理生命周期過渡以及維持分布式執行可見性的方式。它們并未消除混合環境的復雜性,而是使其可操作。
為何這會改變企業架構決策
許多首席信息官(CIO)仍將混合云視為一種臨時狀態,認為這是隨著時間推移需要簡化或消除的事物。AI挑戰了這一假設,混合云并非整合失敗的結果,而是系統在受限條件下運行的產物——若要實現集中化,必然會引入權衡取舍。
那些繼續將混合云視為過渡狀態的組織,往往會導致工作負載過度集中,引入延遲瓶頸,增加數據遷移成本,并削弱治理執行力。問題不在于執行層面,而在于“整合始終是終極目標”這一先入為主的假設。
將混合云視為結構性結果,將改變系統設計的方式。架構必須將分布式作為基準狀態,將數據本地性視為約束而非偏好,將延遲納入正確性范疇,并將治理作為分布式能力加以落實。這要求設計出默認跨環境運行的系統——而非僅在例外情況下才如此。
在此背景下,混合云并非轉型不完整的產物,而是AI系統在現實世界約束下運行的自然狀態。這種從“混合作為過渡狀態”到“混合作為結構性結果”的轉變,不僅影響系統運行的位置,更影響其設計方式。成功的組織并非那些消除混合復雜性的企業,而是那些針對混合特性進行設計的企業。
作者Varun Raj是一位擁有近二十年大規模云計算和AI平臺設計經驗的云與AI工程高管。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.