Meta的AI重生：從Llama失敗到超級智能的算力與人才革命

ALL_IN_ASPI

43 回覆

4 Like 2 Dislike

ALL_IN_ASPI 2025-07-12 16:15:28

Llama 4失敗 – 從開源王子到巨獸貧民
在深入探討超級智能人才競爭之前，我們應回顧Meta如何陷入這一尷尬境地。在以Llama 3引領開源前沿後，Meta如今落後於中國的DeepSeek。

在技術層面，我們認為失敗的主要原因包括：
• 分塊注意力機制
• 專家選擇路由
• 預訓練數據質量
• 擴展策略與協調
分塊注意力
大型語言模型的注意力機制若簡單實現，隨令牌數量呈二次方增長。為解決此問題，研究人員引入了內存高效機制。Meta為Behemoth選擇了分塊注意力，這可能是一個錯誤。雖然內存效率提高，允許更長的上下文，但代價是每個塊的首個令牌無法訪問之前的上下文。儘管有一些全局注意力層，但這不足以應對長範圍推理。
其他模型使用的滑動窗口注意力提供了更平滑的替代方案：注意力窗口逐個token向前滑動，保持局部連續性，即使長範圍推理仍需多層傳播上下文。
Behemoth的分塊注意力追求效率，卻在塊邊界造成盲點，影響模型在超過一個塊長度的思維鏈上的推理能力。模型難以進行長範圍推理。雖然這在事後看來顯而易見，但我們認為問題之一是Meta缺乏適當的長上下文評估或測試基礎設施，無法確定分塊注意力不適用於推理模型的開發。Meta在強化學習和內部評估上遠遠落後，但新挖角的員工將大幅縮小推理差距。
專家選擇路由
大多數現代大型語言模型採用專家混合（MoE）架構，在每個模型層之間，根據路由器將令牌分配給不同專家。在現代MoE模型中，大多數採用令牌選擇路由進行訓練，即路由器生成一個T x E形狀的張量（T為總令牌數，E為MoE模型中的專家數），並在E維度上運行topK softmax，生成T x K張量。這意味著路由器為每個令牌T選擇K個最可能的專家，K可為一個或多個專家，K為研究者可調的超參數。
這種方法的優勢在於每個令牌保證由K個專家處理，確保每個令牌的信息價值被相同數量的專家吸收。缺點是某些專家可能過於「受歡迎」，而其他專家訓練不足，導致專家「智能」不平衡。這是一個已知的問題，許多頂尖實驗室通過輔助損失（或無損失）負載平衡解決了這一問題。在使用專家並行（EP）訓練時，這可能導致較低的訓練MFU，因為模型分佈在不同GPU節點上，導致更多跨規模網絡（InfiniBand或RoCE）的集合操作（NCCL），而非規模網絡（NVLink）。這是NVIDIA NVL72設計的主要動因，該設計將規模網絡擴展至超越標準8路服務器。
專家選擇路由由Google於2022年引入，顛倒了邏輯：專家選擇前N個token。對路由器生成的相同T x E張量，專家選擇路由在T維度上運行topN softmax，生成E x N張量。這意味著每個E專家選擇了N個最高概率的token進行路由。N超參數可由研究者調整，但與令牌選擇路由相比，N = K * T / E。
與token選擇路由直接比較，專家選擇路由保證專家以平衡方式激活，避免了不平衡專家的性能下降。需要明確的是：在兩種情況下，路由器均作出選擇。在token選擇中，路由器的輸入是token，選擇專家；在專家選擇中，輸入是專家，選擇token。
這平衡了專家訓練的負載，提升了分佈式硬件的MFU。超大規模網絡專為這種並行設計，我們在網絡模型中詳細探討。
這種方法的缺點與令牌選擇架構相反。專家選擇路由可能導致某些「受歡迎」的token被多個專家處理。雖然這不會產生令牌選擇路由中的訓練瓶頸，但可能導致模型泛化能力下降，因為LLM不再平等關注所有令牌。
主要的障礙在於推理。推理分為兩個步驟：預填充和解碼。在預填充階段，用戶提示被編碼並加載到KVCache，此步驟受Flop限制。在解碼階段，模型逐個token逐層計算注意力並運行前饋網絡。
專家選擇路由在這方面表現不佳，因為專家每層僅能從1個token x批次大小中選擇，導致每個專家獲得的token數量遠少於訓練時（例如訓練運行可能有8k序列長度x 16批次大小= 128k令牌每次傳遞）。現代GPU網絡的批次大小限制使得推理成本高昂且效率低下。
Meta在運行中途從專家選擇路由切換到token選擇路由，導致專家無法有效專精。

數據質量：自找的傷口
Llama 3 405B在15Ttoken上訓練，我們相信Llama 4 Behemoth需要大幅更多的token，約3-4倍數量級。獲得足夠高質量的數據是西方超大規模企業無法通過複製其他模型輸出的捷徑解決的主要瓶頸。
在Llama 4 Behemoth之前，Meta使用公開數據（如Common Crawl），但在運行中途轉向自建的內部網絡爬蟲。雖然這通常更優，但也適得其反。團隊難以清洗和去重新的數據流，這些流程未在大規模下接受壓力測試。
此外，與OpenAI和DeepSeek等所有其他領先AI實驗室不同，Meta未使用YouTube數據。YouTube講座筆錄和其他視頻是極佳的數據來源，公司在沒有這些數據的情況下可能難以開發多模態模型。
擴展實驗
除了上述技術問題，Llama 4團隊在將研究實驗擴展到完整訓練運行時也遇到困難。存在競爭的研究方向，且缺乏領導力決定哪個方向最具生產力。某些模型架構選擇未進行適當的消融測試，但被直接加入模型。這導致擴展梯度管理不善。
以OpenAI訓練GPT 4.5為例，說明擴展實驗的難度。OAI的內部代碼monorepo對訓練模型至關重要，因為他們需要一個已知未受污染的驗證數據集，以在訓練消融時測量困惑度。在擴展GPT 4.5訓練實驗時，他們看到模型泛化能力的可喜進展，但中途發現monorepo的部分內容直接從公開數據複製粘貼。模型並非泛化，而是在重現訓練數據集中記憶的代碼！大型預訓練運行需要極大的勤奮和準備才能有效執行。
儘管存在這些技術問題，並非一無所獲。Meta仍能將logits提煉到更小、更高效的預訓練模型Maverick和Scout，繞過了大型模型的一些錯誤架構選擇。提煉對小型模型比強化學習更高效。即便如此，這些模型仍受源模型的限制，無法在同等規模中名列前茅。

ALL_IN_ASPI 2025-07-12 16:15:41

Meta GenAI 2.0 第二部分：彌補人才差距
在基礎設施改造進行中並吸取技術教訓後，Meta的GenAI 2.0策略現轉向超級智能的下一個要素：人才。
馬克·扎克伯格明白相較領先AI實驗室的人才差距，並親自負責招聘。他致力於打造一支小型但極具人才密度的團隊，隨手提供數千萬美元的簽約獎金。目標是創造「飛輪效應」：頂尖研究人員加入這場冒險，為項目帶來信譽和動力。這一策略已見成效，近期高調招聘包括：
• Nat Friedman，前GitHub首席執行官
• Alex Wang，前Scale AI首席執行官
• Daniel Gross，Ilya Sustkever初創公司SSI的首席執行官兼聯合創始人
招聘說辭極具吸引力：無與倫比的每研究者算力、打造最佳開源模型家族的機會，以及超過20億日活躍用戶的接入。一般報價為每位研究者4年2億至3億美元，這進一步強化了吸引力。因此，Meta從OpenAI、Anthropic及其他多家公司挖來了優秀人才。
併購、Scale AI等
據報導，扎克伯格曾向Thinking Machines和SSI提出收購要約，但被拒絕。雖然有人指出扎克伯格「退而求其次」選擇Scale AI，但我們認為並非如此。如前所述，Llama 4的許多核心問題在於數據，收購Scale AI是直接解決這一問題的舉措。
Alex將帶來Scale AI的眾多頂尖工程師，尤其是專注於Meta急需的評估的SEAL實驗室。SEAL開發了推理模型評估的頂尖基準之一HLE（人類最後考試）。隨著Nat Friedman和Daniel Gross加入，Meta不僅獲得了精英運營者，還獲得了AI社區中最具影響力和受尊敬的兩位投資者。Meta在高層擁有極強的產品人才。
買越多省越多：OBBB版
扎克伯格選擇此時大舉支出可謂時機完美。《One Big Beautiful Bill》（OBBB法案，H.R.1，第119屆國會）於2025年7月4日由特朗普政府簽署成為法律，引入了對數據中心開發者和超大規模基礎設施投資者（如Meta）有利的稅務改革。OBBB通過恢復100%獎勵折舊和全面研發費用扣除，降低數據中心建設和GPU購買的稅負。擴大的利息扣除額和增強的第179條激勵措施進一步改善大型數據中心項目的現金流。雖然清潔能源抵免逐步取消且合規負擔增加，但該法案明顯有利於擁有而非租賃算力，為資本支出密集的超大規模企業提供長期優勢。
對數據中心建設的稅收激勵和成本回收有利：
• 至2030年恢復100%獎勵折舊：服務器、電氣和冷卻設備首年全額扣除。
• 研發費用扣除追溯至2022年恢復：AI模型訓練和開發可立即扣除。
• 利息扣除額擴大（回歸EBITDA基準）：有利於債務融資的數據中心項目。
• 第179D條（節能建築扣除）延續至2026年，隨後終止。
• 影響：顯著改善新建設的現金流和投資回報率，相較OBBB前縮短1-2年回本期。
根據我們對2026年Meta資本支出的估計，以及資本支出中100%獎勵折舊合格購買的預期組合，Meta 2026年的稅單可能比預期低50%以上。

Meta核心AI業務
儘管在GenAI努力上稍有失足，Meta在其他方面表現強勁。如下所示，Meta是數字廣告行業增長最快的企業之一，自2020年底以來幾乎超越所有其他行業領袖。

Meta超級智能 – Reality Labs 2.0？
另一方面，超級智能千兆瓦訓練集群純粹是費用。我們認為其財務狀況到2027年可能類似Reality Labs。
Meta如何將這些投資變現仍有待觀察，但可從兩方面思考：
1 GenAI惠及核心AI：存在諸多協同效應，通過千兆瓦規模集群開發的尖端技術可重用於核心AI。ChatGPT從個人助理到人生問題的傾訴對象的擴展用例，顯示了Meta未來LLM的潛力。
2 利用Facebook/Instagram/WhatsApp銷售訂閱：類似xAI對Grok的做法。若Meta成功開發領先的LLM和代理，將擁有強大的分發平台推廣這些系統。Meta在簡化和民主化創建針對性廣告的工作將極大受益於下一模型的多模態生成能力。
Reality Labs：扎克伯格對Reality Labs的願景是將其平台深度融入用戶生活。這意味著在眼鏡和可穿戴設備中提供領先的AI助理和GenAI功能。人們將無時無刻使用Meta，創造巨大的變現機會。
關於GenAI，我們認為Meta有真正機會成為領先實驗室。2026年和2027年從獨立業務角度看可能極度無利可圖，但OBBB稅收抵免和核心AI變現的不斷改善為Meta追求超級智能提供了巨大緩衝。

Allin_Anduril 2025-07-12 16:41:09

跟