AI訓練電力負載波動及解決方案

ALL_IN_ASPI

3 回覆
0 Like 1 Dislike
ALL_IN_ASPI 2025-06-27 18:33:56
https://semianalysis.com/2025/06/25/ai-training-load-fluctuations-at-gigawatt-scale-risk-of-power-grid-blackout/

以下為付費訂閱內容:

管理AI訓練負載波動的基於硬件解決方案
德克薩斯州公用事業委員會的立場明確:任何降低系統級電力質量的客戶必須承擔費用。因此,現場電池儲能系統(BESS)需要與數據中心內的其他解決方案進行比較。我們認為有三種主要的可行方法來管理GPU負載波動:
• 數據大廳內部:機架級超級電容器、鋰離子電容器、電池
• 灰色空間:不間斷電源(UPS)
• 數據中心外部:電池儲能系統(BESS)
總結我們的觀點,我們認為未來可能出現兩種不同的方法。這涉及到關於未來數據中心最佳建設方式的重大行業爭論。我們簡化為以下兩條主要路徑:
• “傳統”方式:經驗豐富的運營商,包括像微軟和AWS這樣的雲超大規模企業,優先考慮“通用性”。他們通常希望數據中心能夠處理包括AI和非AI在內的各種工作負載。為了平滑峰值負載,我們認為他們最有可能採用“增強型”UPS系統,這將惠及Vertiv、Schneider和Eaton。這些供應商的UPS內容將略有增加,他們可能會在UPS設計中添加電容器,以處理秒以內的波動。
• “AI優化”方式:專為GPU/XPU設計的數據中心,優先考慮成本和速度,而非硬件/工作負載的靈活性。我們認為,機架內電容器與幾分鐘電池的組合是最佳解決方案,這在Nvidia的800V直流架構中有所體現。
我們認為有一家供應商在這方面極具優勢。
關於數據中心表後BESS,我們認為額外的成本並非總是合理的,但存在一些適用場景。相對於下面討論的超級電容器,BESS在峰值平滑方面的成本過高。因此,UPS加柴油發電機的組合是更直接的競爭對手。
當前的BESS系統響應速度不足以保證持續運行,仍然需要UPS系統。如果BESS無法取代UPS,其經濟吸引力會降低。未來,隨著BESS電力電子技術的改進(例如基於氮化鎵的系統可能帶來優勢),這一情況可能改變,但目前尚未看到。如果BESS速度更快並減少數據大廳內電池的需求,其經濟性會更好,可以支持4小時或更長時間的備用電源,從而在高可用性方面與柴油發電機更具競爭力。
我們認為BESS在數據中心的三大適用場景如下:
• 優先考慮上市時間的訓練設施:xAI是一個很好的例子。如前所述,參與需求響應計劃可以縮短供電時間。對於訓練來說,BESS在備用電源方面可以超越柴油發電機:價格大致相當,後者提供更好的正常運行時間(至少可覆蓋24小時停電),但交貨時間超過18個月,且空氣污染許可流程可能緩慢。BESS部署速度更快,足以應對大多數停電而不中斷運行,對於訓練來說已足夠。
• 使用天然氣渦輪機作為備用電源的數據中心:天然氣渦輪機可以作為柴油發電機的替代備用電源。在某些情況下,供電時間可能更快。但單個單元從啟動到滿載需要數分鐘,而柴油機僅需數秒。因此,1小時的BESS與天然氣渦輪機非常契合。未來的報告將深入探討這一話題,柴油仍是主流,但德克薩斯州SB6法案可能顯著推動天然氣的採用。在數據大廳內,靠近UPS,將鋰含量從典型的約5分鐘增加到超過45分鐘也是一個可行方案。
• 使用現場太陽能供電的數據中心:我們知道德克薩斯州有三個大型數據中心計劃在未來幾年內大規模部署太陽能加電池。這些設施通常仍配備備用電源並經常連接到電網,但現場太陽能可實現低廉的電力成本,添加電池可以進一步降低成本,同時提供上述其他好處。
因此,我們對BESS在數據中心供電的未來總體持樂觀態度,電力電子技術的創新可能顯著推動其採用。接下來,我們將討論BESS的替代方案,以管理AI訓練負載波動。

白區解決方案:超級電容器、鋰離子電容器、電池
一種解決方案是直接在計算機架內(或旁邊)添加能量儲存系統。Meta和Google長期以來一直在使用鋰電池(BBU,備用電池單元),但它們並非處理毫秒級峰值平滑的最佳選擇,原因如下:
• 它們是最昂貴的解決方案,設計用於滿載運行數分鐘。
• 鋰電池在頻繁充放電時壽命會縮短。
Delta Electronics展示了使用鋰離子電容器(僅儲存幾秒鐘能量)後,交流電網的波動從73%降低到6%。這是一項額外的淨成本。
電容器是一種基本簡單的能量儲存設備:兩塊帶電荷的板。電容器組(“電容組”)是一組電容器,可以調節電流,通常通過過濾高頻電壓波動或糾正電壓與電流振盪不同步引起的功率因數問題。電容器組通常是變電站級設備,但這些系統可以縮小到適配服務器機架的規模:機架級電容器組(RLCB)。
變電站電容器組可以在高頻下吸收和釋放能量,從而緩解數據中心負載的“抖動”效應。輸出的電力需求仍會有顯著波動,但這些波動的尖峰會減少,使其更易於被更大、更慢的供需平衡工具管理。然而,RLCB只是一種折衷措施,因為傳統發電機的爬坡率為5-50兆瓦/分鐘。
即使RLCB可以緩解亞秒級負載波動,它們也無法處理幾秒鐘內數兆瓦的負載波動,這對傳統發電機來說仍過快。然而,通過將電容器與鋰離子電池結合,可以形成“鋰離子電容器”,如Delta所述,能夠儲存10-15秒的能量。
在技術採用方面,隨著新的800V直流(或±400V直流)架構的興起,這一解決方案即將成為主流。我們注意到,“整流器機架”包括電池和超級電容器,儘管也可以僅使用其中之一。當與BESS結合時,鋰離子電容器可能更有意義,而大多數使用傳統柴油(或天然氣)備用電源的數據中心可以選擇電容器搭配3-5分鐘的電池。
需要注意的是,800V直流架構的興起對其他供應鏈產生巨大影響。

重新配置UPS
ERCOT模型中描述的關鍵故障點是數據中心的不間斷電源(UPS)。許多UPS採用“三次觸發”控制結構。如果UPS感應到電網電壓下降,它會斷開與電網的連接,待電網電壓恢復正常後重新連接。然而,如果電網電壓再次下降一到兩次,UPS可能會永久斷開而不再重新連接。如果大量數據中心的UPS同時這樣斷開,廣泛的電網將面臨吉瓦級的負載損失,可能引發上述連鎖故障。
ERCOT指出,UPS可以重新編程,使其在重複電壓下降後不斷開,但並非所有UPS供應商都能進行這種重新配置。為此,他們建議推出保證可靠性負載(GRL)協議,要求數據中心構建其電力基礎設施,以確保在某些電網停電事件中不與電網斷開。然而,每個GRL協議必須是基於數據中心的電氣設備、周邊網絡容量和計劃的電網改進而定制的單獨合同。這些GRL協議的最終目標是確保數據中心在盡可能多的情況下不使用現場備用發電機。

結論
大多數解決方案都涉及額外的費用,但這是獲得電力接入的前提。在當前強勁的AI投資週期中,上市時間是關鍵優先事項,足以吸收硬件的額外成本。AI實驗室願意支付溢價以更快獲得GPU。此外,從最終用戶的角度來看,GPU雲經濟使得額外的電力成本或數據中心租賃成本不會從根本上改變財務等式。
真天真 2025-06-27 18:48:39
乜鳩都話用AI
克擇名 2025-06-27 20:51:13
羅冠聰有冇用AI?
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞