Grok 4的技術架構主要建基於xAI的Colossus超級計算集群,這是一個位於田納西州孟菲斯的巨型數據中心系統,最初配備100,000塊NVIDIA H100 GPUs,現在已擴展至超過200,000塊,並計劃達到1,000,000塊的規模,以支持大規模AI訓練和推理任務。Colossus的設計強調高密度計算和高效資源利用,透過Supermicro的定制液冷系統實現雙倍計算密度,同時減少數據中心電力成本高達40%。這個液冷系統使用專門設計的冷卻塊,涵蓋GPU和CPU,確保在高負載下維持穩定性能,每千瓦的冷卻水流量約0.5至1加侖每分鐘,具體取決於功率需求。xAI特別採用後門熱交換器(Rear-Door Heat Exchanger, RDHx)結合直接到芯片液冷(Direct-to-Chip Liquid Cooling, DLC)的混合冷卻方案,其中RDHx作為機架級冷卻解決方案,安裝在每個機架的後門上,內置散熱器讓冷水流動吸收空冷服務器的熱量,通常提供30-40kW的冷卻容量,透過添加風扇可提升至超過50kW(主動RDHx模式),而DLC則針對高熱組件如GPU和CPU,直接使用銅板將冷水傳導熱量,這種組合不僅提高了熱交換效率(RDHx可達0.8的熱轉移比率,優於房間級解決方案的0.6-0.7),還允許更高機架密度,適合NVIDIA H100/H200等高TDP部署。電力用量方面,初始100,000塊GPU階段的峰值功率約150兆瓦(每GPU保守估計700瓦,但包含系統總消耗和波動),現在的200,000塊GPU集群估計消耗250兆瓦左右,而未來1,000,000塊GPU的完整配置可能達到1吉瓦或更高,這相當於供電約100,000戶家庭;為了應對AI訓練的電力峰谷波動,Colossus整合了Tesla Megapacks電池儲能系統,提供緩衝並維持穩定供電,雖然目前僅從電網獲取8兆瓦,但透過這些措施實現了更高功率運作。
xAI雖然起步較晚——公司於2023年7月成立,遠遜於OpenAI的2015年或Anthropic的2021年——但透過驚人的執行速度和資源優化策略迅速追趕上來,其中Colossus的快速建造是關鍵因素之一。公司在短短122天內將一個空殼工廠轉變為世界上最大的AI訓練系統,從零開始組裝100,000塊GPU,這比業界標準建設時間快得多,部分得益於Elon Musk的個人影響力和資源調動,包括與NVIDIA的緊密合作以及Supermicro的定制硬件支持,這種速度不僅體現了xAI的工程效率,還彌補了起步晚的劣勢,讓公司能在不到兩年內從無到有,構建出比競爭對手更大的計算基礎——例如,OpenAI的超級計算依賴Azure的混合模式,建設周期更長,而xAI的自有集群允許更靈活的優化,如定制網絡拓撲減少數據傳輸延遲,每瓦計算力提升20-30%。此外,xAI的數據收集管道創新也助其追趕,透過X平台的實時數據和多域擴展(包括數學、編程、自然科學、工程和人文),訓練數據規模估計達數萬億token,遠超Grok 3的專注領域,這得益於Elon Musk的生態整合,允許快速迭代模型而不需從頭積累海量數據。
與Grok 3相比,Grok 4將強化學習(RL)階段的計算投入等同於預訓練階段,這是業界罕見的均衡分配策略,通常傳統LLM如GPT-4或Claude 4將80%以上計算用於預訓練,而xAI通過算法創新實現6倍效率提升,意味著相同硬件下產生更高的“智能密度”。RL的重點投入是xAI追趕策略的核心,旨在提升模型的高階推理、決策制定和工具使用能力,特別在驗證任務上優化,以彌補預訓練數據的相對不足——xAI利用Colossus的全部200,000塊GPU進行大規模RL訓練,提供10倍於前代的RL計算。Grok 4 Heavy變體引入多代理系統:在推理時部署多個並行代理,交叉驗證輸出,模擬人類集體決策。雖然增加了計算開銷,但透過Colossus的液冷優化(如RDHx+DLC的熱轉移效率)得以緩解。xAI的RL重點不僅彌補了起步晚的劣勢,還透過快速數據中心建造和生態整合(如X數據管道)實現了從追趕者到領導者的躍進。
Grok 4在多項基準測試上展現出顯著優勢,特別是在要求高階推理和工具使用的任務中表現突出。Humanity's Last Exam (HLE) 由Center for AI Safety與Scale AI於2025年1月聯合推出的基準測試,旨在成為“人類最後考試”——一旦AI模型通過,它將標誌傳統學術基準的終結,因為AI將超越人類集體知識的邊界。 HLE包含約3000道問題,其制定過程極其嚴謹,涉及全球近1000名專家(來自500+機構、50個國家,主要為教授與研究員)提交問題,經多階段審核確保質量與難度:首先由LLM測試,確保需難倒絕大多數現有模型,接著進行兩輪專家審查,最終由組織者批准。 所有問題需滿足精確、無歧義、不可搜索、原創的標準。 HLE的廣度涵蓋100+學科,包括數學、物理、計算機科學、化學、人文(歷史、哲學)、生物、藝術史、量子力學等,難度定位於PhD或研究級別,強調前沿知識與跨域整合。現有AI模型如GPT-4o僅得分3.3%、o1 9.1%、DeepSeek-R1 9.4%。
以下是幾道典型題目:
生物(蜂鳥解剖):蜂鳥在Apodiformes中獨有雙側成對橢圓骨,嵌入m. depressor caudae的擴張十字形腱鞘。這個骨支持多少對肌腱?(數字答案)。
語言學(聖經希伯來語):基於Tiberian發音傳統,區分閉/開音節。分析詩篇104:7文本,列所有閉音節。
物理(量子力學):描述一個涉及糾纏態的實驗,計算特定測量下的概率分佈。
工程(材料科學):預測新型納米材料的熱導率,基於給定參數進行模擬推理。
Grok 4在HLE上取得24%的得分,而Heavy達到50.7%,遠超Gemini 2.5 Pro的21%,這相當於遠超任何單一人類專家的表現。 這得益於強化學習(RL)的強化,讓模型在跨域整合上表現卓越。其他基準如ARC-AGI V2得分15.9%(Claude 4 Opus只有8.6%),這測試AI從少量樣本泛化新模式的能力;GPQA Diamond達到88%(略勝Gemini 2.5 Pro的84%),針對研究生級科學問題強調精確推理而非記憶;USAMO'25 Heavy得分61.9%、LiveCodeBench (Jan-May) 79.4%;Vending-Bench模擬販賣機商業決策,Grok 4平均淨值$4694.15,勝過Claude 4 Opus的$2077.41和人類的$844.05。 輸出速度為75 tokens/s,雖然慢於o3的188 tokens/s,且TTFT高達19秒,但其256K上下文窗口優於Claude的200K,適合處理長輸入。
Grok 4雖然支持文本與圖像輸入,並且升級了語音模式,但其多模態性能明顯落後於競爭對手,如Anthropic的Claude 4 Opus和Google的Gemini 2.5 Pro,這反映了xAI在資源分配上的取捨——因起步較晚將有限計算和數據資源集中於文本推理和學術任務,導致視覺整合成為犧牲品。 在SVG基準測試(專門評估模型識別圖像中隱藏線索的能力)中,Grok 4幾乎全軍覆沒,無法正確解析複雜圖形或隱含模式,而ChatGPT、Claude和Gemini則輕鬆通過,準確率超過80%;類似地,在圖像分析與生成任務上,Grok 4的表現被用戶描述為“較差”,例如在處理醫療影像或藝術圖像時,模型往往誤判細節或產生不準確描述,無法有效處理複雜視覺任務,如場景描述、多模態推理(例如結合文本提示解釋圖像邏輯)或圖像隱含邏輯提取,這在HLE的多模態子集中表現平平,僅達30%準確率,遠低於Gemini的65%。
xAI的戰略焦點偏向文本強化學習(RL)和工具整合(如X平台的實時搜索),較少投資於視覺預訓練——xAI的數據主要來自X平台,這雖然提供了大量社交媒體圖像,但多樣性不足,缺乏高質量、多域視覺數據,相比Google龐大的視覺數據庫(涵蓋衛星影像、街景和醫療掃描)或Anthropic的多模態專注訓練(整合了專門的視覺-語言對齊數據集),Grok 4的視覺基礎薄弱,導致在視覺任務能力差。其次,計算資源分配嚴重偏向RL階段(等同預訓練計算),雖然這提升了工具使用和邏輯推理,但忽略了多模態融合的深度整合,例如視覺-文本的聯合RL訓練,造成無法有效從圖像中提取可驗證特徵來輔助文本推理。
xAI的Colossus集群雖然高效,但起步晚的劣勢迫使公司優先RL以快速提升基準表現,犧牲視覺模塊的預訓練規模,在AGI時代,多模態是核心能力,Grok 4的落後可能讓其在產業應用中掙扎,xAI的下一步應加大視覺RL投入。