華為AI CloudMatrix 384——中國對Nvidia GB200 NVL72代替品

財經台韭菜

7 回覆
3 Like 4 Dislike
財經台韭菜 2025-04-16 21:42:01
華為以其全新的人工智慧加速器和機架規模架構掀起波瀾。認識中國最新且最強大的國產解決方案——基於昇騰910C打造的CloudMatrix 384。此方案直接與GB200 NVL72競爭,且在某些指標上比Nvidia的機架規模解決方案更先進。其工程優勢不僅在晶片層面,而是在系統層面,涵蓋網路、光學和軟體層的創新。

昇騰晶片對SemiAnalysis來說並不陌生,但在系統比微架構更重要的世界中,華為正在推動人工智慧系統性能的極限。雖然存在取捨,但考慮到出口管制和國內良率不佳,中國出口管制顯然存在更多漏洞。

雖然昇騰晶片可在中芯國際製造,但我們注意到,這是一款全球化的晶片,採用韓國的HBM記憶體、台積電的主要晶圓生產,並由來自美國、荷蘭和日本的數百億美元晶圓製造設備製造。我們深入探討了中國國產生產的可能性、積極規避出口管制的行為,以及美國政府為何需要聚焦這些關鍵新領域以限制中國的人工智慧能力。

華為在晶片方面落後一代,但其規模擴展解決方案可說是領先Nvidia和AMD當前市場產品一代。那麼,華為CloudMatrix 384(CM384)的規格是什麼?CloudMatrix 384由384個昇騰910C晶片組成,通過全對全拓撲結構連接。取捨很簡單:擁有五倍於Nvidia Blackwell的昇騰晶片數量,足以抵銷每個GPU僅為Nvidia Blackwell三分之一性能的差距。



完整的CloudMatrix系統現在可提供300 PFLOPs的密集BF16運算能力,幾乎是GB200 NVL72的兩倍。憑藉超過3.6倍的總記憶體容量和2.1倍的記憶體頻寬,華為和中國現在擁有超越Nvidia的人工智慧系統能力。更重要的是,CM384特別適合中國的優勢,包括國內網路生產、防止網路故障的基礎設施軟體,以及隨著良率進一步提升,能夠擴展到更大規模的能力。

然而,缺點在於其功耗是GB200 NVL72的3.9倍,每FLOP功耗效率差2.3倍,每TB/s記憶體頻寬功耗效率差1.8倍,每TB HBM記憶體容量功耗效率差1.1倍。功耗方面的不足雖然相關,但在中國並非限制因素。

中國沒有電力限制,只有矽的限制

西方常說人工智慧受電力限制,但在中國情況恰恰相反。過去十年,西方已將主要依賴煤炭的電力基礎設施轉向更綠色的天然氣和可再生能源發電,並提高人均能源使用效率。而中國則相反,隨著生活水平提升和持續的大量投資,電力需求大幅增長。



中國的電力主要由煤炭驅動,但中國也擁有最大的太陽能、水力、風力發電裝機容量,並且現在是部署核能的領先者。美國僅維持1970年代部署的核能發電能力。簡單來說,升級和增加美國電網容量已是一項喪失的能力,而中國自2011年以來,約過去十年,已新增相當於整個美國電網的容量。

如果因相對充足的電力而沒有電力限制,放棄功耗密度並增加規模擴展(包括設計中的光學元件)是合理的。CM384的設計考慮了機架外的系統級限制,我們認為,不僅僅是相對的電力可用性限制了中國的人工智慧雄心。我們認為,華為的解決方案有多種方式可以繼續擴展。

中國能製造多少昇騰910C和CloudMatrix 384?
一個常見的誤解是華為的910C是在中國製造的。它完全在中國設計,但中國仍高度依賴外國生產。無論是三星的HBM、台積電的晶圓,還是來自美國、荷蘭和日本的設備,中國對外國產業的依賴很大。

雖然中芯國際(中國最大的晶圓代工廠)具備7奈米製程能力,但昇騰910B和910C絕大多數是由台積電的7奈米製程生產。事實上,美國政府、TechInsights等人已取得昇騰910B和910C進行分析,每一顆晶片都使用台積電的晶粒。華為通過另一家公司Sophgo購買了約5億美元的7奈米晶圓,成功繞過對其的台積電制裁。



台積電因公然違反制裁被罰款10億美元,僅為其獲利的兩倍。有傳言稱華為繼續通過另一家第三方公司從台積電獲得晶圓,但我們無法證實此傳言。

華為的HBM取得

領先技術對外國的依賴是問題的一部分,但中國對HBM(高頻寬記憶體)的依賴更大。中國目前無法可靠製造HBM,長鑫存儲(CXMT)距離量產合理規模仍需一年。幸運的是,三星挺身而出,成為中國HBM的最大供應商,華為因此得以囤積總計1300萬個HBM堆疊,可用於160萬個昇騰910C封裝,這是在任何HBM禁令實施之前。

此外,被禁的HBM仍在通過轉口貿易進入中國。HBM出口禁令僅針對原始HBM封裝。搭載HBM的晶片只要不超過FLOPS規定,仍可出口。CoAsia Electronics是大中華區三星HBM的獨家經銷商,他們一直在向ASIC設計服務公司Faraday出貨HBM2E,後者委託日月光(SPIL)將其與廉價的16奈米邏輯晶粒“封裝”在一起。

Faraday隨後將此系統級封裝出貨至中國,這在技術上是允許的,但中國公司可通過拆焊回收HBM。我們認為他們採用了技術手段,使HBM易於從封裝中提取,例如使用非常弱的低溫焊錫凸點,因此當我們說“封裝”時,是以最寬鬆的方式來描述。



CoAsia的收入自2025年出口管制生效後爆炸性增長,並非巧合。

中國國內晶圓代工廠仍可擴大產能

雖然仍需依賴外國生產,但中國國內半導體供應鏈能力已迅速提升,且仍被低估。我們一直對中芯國際(SMIC)和長鑫存儲(CXMT)的製造能力敲響警鐘。良率和產量仍是問題,但長期來看,中國GPU生產擴大的情況值得關注。

中芯國際和長鑫存儲已接收價值數百億美元的設備,並且儘管受到制裁,仍從外國獲得大量獨家供應的化學品和材料。



中芯國際正在上海、深圳和北京擴建先進節點產能。今年其月產能將接近5萬片晶圓,且由於持續取得外國設備以及制裁和執法效果不足,產能仍在擴張。如果良率提升,中芯國際在華為昇騰910C封裝上的產量可能達到可觀數字。

雖然台積電在2024年和2025年提供了290萬顆晶粒,足以支持80萬個昇騰910B和105萬個昇騰910C,但如果HBM、晶圓製造設備、設備維修和光刻膠等化學品未受到有效控制,中芯國際的生產潛力可能大幅提升產能。
財經台韭菜 2025-04-16 21:42:13
CloudMatrix 384系統架構

接下來我們深入探討CloudMatrix 384的架構、向上擴展網路、向外擴展網路、功耗預算和成本。

完整的CloudMatrix系統分布在16個機架上,其中12個計算機架每架包含32個GPU。這16個機架中間有4個向上擴展交換機架。為實現更大的世界規模,華為跨越多個機架進行向上擴展,為此必須使用光學技術。像華為這樣實現數百個GPU的全對全向上擴展並非易事。

與DGX H100 NVL256“Ranger”的相似之處

2022年,Nvidia曾宣布DGX H100 NVL256“Ranger”平台,但因其成本過高、功耗過大,且所需的大量光收發器和雙層網路導致可靠性問題,最終未投入生產。CloudMatrix Pod需要驚人的6,912個400G LPO收發器用於網路,其中絕大部分用於向上擴展網路。

CloudMatrix 384向上擴展拓撲估計

以下部分將深入解釋其384個晶片之間的機架架構(與Nvidia NVLink競爭的向上擴展網路)、向外擴展網路、整個系統的功耗預算分解,以及大量光學元件和缺乏銅纜的影響。我們還將討論成本以及華為大量使用LPO收發器的情況。

每個華為昇騰910C GPU擁有2,800 Gbit/s的單向向上擴展頻寬,與Nvidia GB200 NVL72每GPU 7,200 Gbit/s的向上擴展頻寬屬於同一量級。然而,NVL72的向上擴展網路採用直接驅動銅纜,連接器佔地面積相對較小,而華為則採取強力方式,每個GPU簡單使用7個400G收發器來提供2,800 Gbit/s的向上擴展網路。

這種解決方案成本更高,功耗更大,且在氣流、安裝和維護的便利性方面引發疑問,但它確實能完成任務。

向上擴展網路採用單層網路將所有GPU連接在一起,儘管每個GPU以驚人的總頻寬連接到網路。我們認為,對於向上擴展,系統將連接到4個CloudEngine 16800模組化交換機,採用單層扁平拓撲。請注意,這些交換機使用華為的線卡和結構平面進行單元噴灑(cell spraying),類似於Arista模組化交換機中博通(Broadcom)的Jericho3線卡和Ramon3結構卡。

向上擴展光學與無銅纜設計

擁有5,000個用於向上擴展的收發器也引發了可靠性的問題,需要高品質的容錯訓練軟體來應對如此大量的收發器。每個CloudMatrix 384 Pod包含6,912個400G光學模組/收發器,其中5,376個用於向上擴展,1,536個用於向外擴展。
每個Pod包括384個昇騰910C晶片,每個晶片提供2.8 Tbps的互連頻寬用於向上擴展通信。因此,每個晶片需要7個400G收發器,384個GPU共需384 × 7 = 2,688個收發器。由於採用單層扁平拓撲,交換機端與GPU端匹配,另需2,688個收發器。總計,向上擴展網路使用5,376個400G收發器。

假設使用價格低於200美元、功耗約6.5W的400G LPO收發器,超節點向上擴展網路的總擁有成本(TCO)約為NVL72機架的6倍,而功耗超過10倍。即使按每個GPU計算,功耗也是NVL72的兩倍,成本相當(儘管其運算能力僅為NVL72的30%)。



CloudMatrix 384向外擴展拓撲估計

CloudMatrix 384採用雙層8軌優化拓撲。每個向外擴展的CloudEngine模組化交換機擁有768個400G端口,其中384個端口朝下連接到384個GPU,另384個端口朝上。由於Pod中有384個GPU,每個GPU搭配一個400G網卡,因此至少需要1個葉交換機來容納這些GPU,以及0.5個脊交換機。

計算所需收發器的數量較為簡單。在GPU端,我們需要384個400G收發器——每個GPU一個。在葉層,我們需要雙倍的收發器數量,因為一半端口朝下連接到GPU,另一半朝上連接到脊交換機。最後,脊層需要另外384個400G交換機,以匹配葉層的總向上頻寬。總計,向外擴展需要384 × 4 = 1,536個400G收發器。

LPO收發器

華為可能採取的一種降低叢集功耗的方法是使用線性可插拔光學(LPO)進行光傳輸。LPO指的是不使用內部數位訊號處理器(DSP)進行光學資料傳輸的光學模組。

與傳統收發器不同,傳統收發器使用DSP將類比訊號轉換為數位訊號進行重新定時/恢復後再轉回類比訊號,而LPO則直接(線性地)從主機將電訊號傳遞到光學元件。這簡化了模組設計,將功耗降低30%以上,並降低了成本。儘管如此,由於仍需大量收發器,CM384叢集的功耗仍顯著高於NVL72。
晶片層面

華為的昇騰910B和910C加速器是中國國內GPU努力的最佳成果。考慮到他們面臨的限制,其性能表現優異。然而,在晶片層面上,它們仍不如Nvidia的產品。



華為昇騰910C是910B的後續產品,實質上是將兩個910B中介層置於單一基板上,使每顆晶片的運算和記憶體性能翻倍。



系統級功耗預算

由於在向上擴展和向外擴展網路中廣泛使用光收發器,這384個GPU的叢集極為耗電。我們估計一個CM384超節點的功耗接近500kW,是Nvidia GB200 NVL72機架(約145kW)的4倍以上。



然而,以單個GPU計算,每個華為GPU的總功耗約為NVL72中B200 GPU的70-80%。總體而言,華為超節點的FLOPS比NVL72高70%,但其架構設計最終導致每FLOP功耗效率差2.3倍,每TB/s記憶體頻寬功耗效率差1.8倍,每TB HBM記憶體容量功耗效率差1.1倍。



然而,以單個GPU計算,每個華為GPU的總功耗約為NVL72中B200 GPU的70-80%。總體而言,華為超節點的FLOPS比NVL72高70%,但其架構設計最終導致每FLOP功耗效率差2.3倍,每TB/s記憶體頻寬功耗效率差1.8倍,每TB HBM記憶體容量功耗效率差1.1倍。



然而,額外的費用和功耗只是中國為了與西方計算能力匹敵而必須承擔的必要成本。如前所述,鑑於中國能源極為充裕,且考慮到國家安全的重要性,這一成本相對較低。中國的能源優勢將是其資料中心在規模和速度上擴展的關鍵資產。
三重劉德華 2025-04-16 21:52:42
nvda都猛咁搞infra 華為啲網絡基建技術儲備食正條水 好似apple unified memory咁無啦啦中大獎
財經台韭菜 2025-04-16 21:54:20
美國封H20對華銷售,華為或成最大贏家
沒有選擇 2025-04-16 22:07:21
咁勁就咪再偷運人地既顯卡喇
wsb_refugee 2025-04-16 22:33:13
彎道超車
SHOWMAKER 2025-04-16 22:45:07
大陸:有得偷緊係偷咗先,慳返啲電
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞