華為內部人士爆料: 盤古模型套殼deepseek、千問

支共就係國難 2025-07-06 14:57:22

套殼不能算q抄……套殼！……中國人的事，能算抄麼？

內文講左抄襲千問、deepseek、盤古大模型的「套殼」歷程、華為管理同人才流失問題，表達對華為內部「造假」行為感到極度失望。有興趣可以睇全文

(內文, 節錄)
盤古之殤：華為諾亞盤古大模型研發歷程的心酸與黑暗

我是一名盤古大模型團隊，華為諾亞方舟實驗室的員工。

首先為自證身份，列舉一些細節：

現諾亞主任，前演算法應用部部長，後改名為小模型實驗室的主任王雲鶴。前諾亞主任：姚駿（大家稱姚老師）。幾個實驗室主任：唐睿明（明哥，明隊，已離職），尚利峰，張維（維哥），郝建業（郝老師），劉武龍（稱呼為武龍所）等。其他骨幹成員和專家陸續有很多人離職。

我們隸屬於「四野」這個組織。四野下屬有許多縱隊，基礎語言大模型是四縱。王雲鶴的小模型是十六縱隊。我們參加過蘇州的集結，有各種月份的時間節點。在蘇州攻關會頒發任務令，需要在節點前達成目標。蘇州集結會把各地的人員都集中在蘇州研究所，平常住賓館，比如在甪直的酒店，與家人孩子天各一方。

在蘇州集結的時候週六默認上班，非常辛苦，不過週六有下午茶，有一次還有小龍蝦。在蘇州研究所的工位搬遷過一次，從一棟樓換到了另一棟。蘇州研究所樓棟都是歐式裝修，門口有大坡，裡面景色很不錯。去蘇州集結一般至少要去一週，甚至更久，多的人甚至一兩個月都回不了家。
諾亞曾經傳說是研究型的，但是來了之後因為在四野做大模型項目，項目成員完全變成了交付型的，且充滿了例會，評審，匯報。很多時候做實驗都要申請。團隊需要對接終端小藝，華為雲，ICT等諸多業務線，交付壓力不小。

諾亞研發的盤古模型早期內部代號叫做「盤古智子」，一開始只有內部需要申請試用的網頁版，到後續迫於壓力在welink上接入和公測開放。

這些天發生關於質疑盤古大模型抄襲千問的事情鬧的沸沸揚揚。作為一個盤古團隊的成員，我最近夜夜輾轉反側，難以入眠。盤古的品牌受到如此大的影響，一方面，我自私的為我的職業發展擔憂，也為自己過去的努力工作感到不值。另一方面，由於有人開始揭露這些事情我內心又感到大快人心。在多少個日日夜夜，我們對內部某些人一次次靠著造假而又獲得了無數利益的行為咬牙切齒而又無能為力。這種壓抑和羞辱也逐漸消磨了我對華為的感情，讓我在這裡的時日逐漸渾渾噩噩，迷茫無措，時常懷疑自己的人生和自我價值。

我承認我是一個懦弱的人，作為一個小小的打工人，我不僅不敢和王雲鶴等內部手眼通天的人做對，更不敢和華為這樣的龐然大物做對。我很怕失去我的工作，畢竟我也有家人和孩子，所以我打心眼裡很佩服揭露者。但是，看到內部還在試圖洗地掩蓋事實，蒙蔽公眾的時候，我實在不能容忍了。我也希望勇敢一次，順從自己本心。就算自損八百，我也希望能傷敵一千。我決定把我在這裡的所見所聞（部分來自於同事口述）公布出來，關於盤古大模型的「傳奇故事」：

華為確實主要在昇騰卡上訓練大模型（小模型實驗室有不少英偉達的卡，他們之前也會用來訓練，後面轉移到昇騰）。曾經我被華為「打造世界第二選擇」的決心而折服，我本身也曾經對華為有深厚的感情。我們陪著昇騰一步步摸爬滾打，從充滿bug到現在能訓出模型，付出了巨大的心血和代價。

在這種情況下，王雲鶴和他的小模型實驗室出手了。他們聲稱是從舊的135B參數繼承改造而來，通過訓練短短的幾百B數據，各項指標平均提升了十個點左右。實際上，這就是他們套殼應用到大模型的第一次傑作。華為的外行領導內行，使得領導完全對於這種扯淡的事情沒有概念，他們只會覺得肯定是有什麼演算法創新。經過內部的分析，他們實際上是使用Qwen 1.5 110B續訓而來，通過加層，擴增ffn維度，添加盤古pi論文的一些機制得來，湊夠了大概135B的參數。實際上，舊的135B有107層，而這個模型只有82層，各種配置也都不一樣。新的來路不明的135B訓練完很多參數的分布也和Qwen 110B幾乎一模一樣。連模型程式碼的類名當時都是Qwen，甚至懶得改名。後續這個模型就是所謂的135B V2。而這個模型當時也提供給了很多下游，甚至包括外部客戶。

這件事對於我們這些認真誠實做事的同事們帶來了巨大的衝擊，內部很多人其實都知道這件事，甚至包括終端和華為雲。我們都戲稱以後別叫盤古模型了，叫千古吧。當時團隊成員就想向bcg舉報了，畢竟這已經是重大的業務造假了。但是後面據說被領導攔了下來，因為更高級別的領導（比如姚老師，以及可能熊總和查老）其實後面也知道了，但是並不管，因為通過套殼拿出好的結果，對他們也是有利的。這件事使得當時團隊幾位最強的同事開始心灰意冷，離職跑路也逐漸成為掛在嘴邊的事。

盤古除了dense模型，後續也啟動了moe的探索。一開始訓練的是一個224B的moe模型。而與之平行的，小模型實驗室也開啟了第二次主要的套殼行動（次要的插曲可能還包括一些別的模型，比如math模型），即這次流傳甚廣的pangu pro moe 72B。這個模型內部自稱是從小模型實驗室的7B擴增上來的（就算如此，這也與技術報告不符，何況是套殼qwen 2.5的14b續訓）。還記得他們訓了沒幾天，內部的評測就立刻追上了當時的38B V3。AI系統實驗室很多兄弟因為需要適配模型，都知道他們的套殼行動，只是迫於各種原因，無法伸張正義。實際上，對於後續訓了很久很久的這個模型，Honestagi能夠分析出這個量級的相似性我已經很詫異了，因為這個模型為了續訓洗參數，所付出的算力甚至早就足夠從頭訓一個同檔位的模型了。聽同事說他們為了洗掉千問的水印，採取了不少辦法，甚至包括故意訓了髒數據。這也為學術界研究模型血緣提供了一個前所未有的特殊模範吧。以後新的血緣方法提出可以拿出來溜溜。

24年底和25年初，在Deepseek v3和r1發布之後，由於其驚艷的技術水平，團隊受到了巨大的衝擊，也受到了更大的質疑。於是為了緊跟潮流，盤古模仿Deepseek的模型尺寸，開啟了718B moe的訓練。這個時候，小模型實驗室再次出手了。他們選擇了套殼Deepseekv3續訓。他們通過凍住Deepseek加載的參數，進行訓練。連任務加載ckpt的目錄都是deepseekv3，改都不改，何其囂張？與之相反，一些有真正技術信仰的同事，在從頭訓練另一個718B的moe。但其中出現了各種各樣的問題。但是很顯然，這個模型怎麼可能比直接套殼的好呢？如果不是團隊leader堅持，早就被叫停了。

華為的流程管理之繁重，嚴重拖累了大模型的研發節奏，例如版本管理，模型血緣，各種流程化，各種可追溯。諷刺的是，小模型實驗室的模型似乎從來不受這些流程的約束，想套殼就套殼，想續訓就續訓，算力源源不斷的伸手拿走。這種強烈到近乎魔幻的對比，說明了當前流程管理的情況：只許州官放火，不許百姓點燈。何其可笑？何其可悲？何其可惡？何其可恥！

link: https://github.com/HW-whistleblower/True-Story-of-Pangu

相關資料
華為開源盤古大模型! 實力僅次於deepseek R1!
- 分享自 LIHKG 討論區
https://lih.kg/3954212

研究發現華為盤古 Pro MoE 模型抄襲千問 2.5
- 分享自 LIHKG 討論區
https://lih.kg/3956528

支共就係國難 2025-07-06 15:04:08

中國AI公司剩係識抄