東大國網傳即將上市既DeepSeek R2參數暴漲至1.2萬億、便宜97.3%!今次皮髏黃可以點收科?

大角倔喜

89 回覆
31 Like 74 Dislike
何不採花?? 2025-05-01 03:22:32
幅圖傷咩皮褸黃?
金黃閃電 2025-05-01 03:22:42
chatGPT o3 整app嘅ui/ux都唔靚嘅

Gemini 靚好多

只要我figma 整好咗嘅套直接將圖片掟入去Gemini,咁佢就可以做到類似apps

chatGPT 佢好似唔識得淨返一模一樣嘅figma
power_off 2025-05-01 03:43:24
你講緊 web / app 版嘅 gemini 定係 google ai studio 先
再待你好也無回報 2025-05-01 04:02:00
吹水都信
再待你好也無回報 2025-05-01 04:03:02
信佢數據先腦殘
角鐵俠 2025-05-01 04:52:38
gemini 整出來啲嘢行都未必行到
同 claude 差太遠啦
禁固肥牛 2025-05-01 05:27:17
看戲食花生 2025-05-01 07:40:36
1TB ram 幾千美元就買到
紅茶企鵝 2025-05-01 08:08:39
佢解到中段已經亂晒
kingdomforever 2025-05-01 09:29:07
話時話, 阿侵都係咁
BetterWorld 2025-05-01 09:55:57
係咪鴻蒙 、三納米芯啲friend?
君子馬蘭奴 2025-05-01 10:05:55
temp
天地無用@SaiWan 2025-05-01 10:20:55
講到可以自己運算,天網
debugger; 2025-05-01 10:56:28
你唔好話2tb ssd 1000蚊內買到
看戲食花生 2025-05-01 11:03:15
debugger; 2025-05-01 11:05:05
ram我都知平,係prefill同eval差同gpu比幾十倍姐
debugger; 2025-05-01 11:05:27
1TB ram 幾千美元就買到
你唔好話2tb ssd 1000蚊內買到
https://www.amazon.com/-/zh_TW/4X256GB-3200MHZ-PC4-25600-288-PIN-%E8%A8%BB%E5%86%8A%E4%BC%BA%E6%9C%8D%E5%99%A8%E8%A8%98%E6%86%B6%E9%AB%94%E5%A5%97%E4%BB%B6/dp/B08F2VBK2S
ram我都知平,係prefill同eval同gpu比差幾十倍姐
看戲食花生 2025-05-01 11:10:34
所以咪要加埋gpu囉
登錄中 2025-05-01 11:14:37
根本好多兄弟輕鬆訓練到1000000000B up參數
佢地唔想做者
debugger; 2025-05-01 11:17:01
搞不撚掂,就算4090搭ktransformer, dual xeon gold先得果10-20t,prefill都係得200-300t
如果有技術prefill上到1000就好
優格姐姐 2025-05-01 11:17:40
看戲食花生 2025-05-01 11:26:10
### **DeepSeek-R2(1200B參數)Prefill階段顯存需求分析**

如果你的模型規模達到 **1200B(1.2 萬億)參數**,在 **Prefill 階段**(處理初始 prompt 的注意力計算)的顯存需求會極高,特別是超長序列(如 32k、128k、1M tokens)。以下是詳細估算與優化方案:

---

## **1. 純模型權重佔用(靜態顯存)**
- **FP16(2位元組/參數)**:
1200B × 2 位元組 = 2400 GB(2.4TB)
- **INT8(1位元組/參數)**:
1200B × 1 位元組 = 1200 GB(1.2TB)
- **FP8(1位元組/參數)**:
1200B × 1 位元組 = 1200 GB(1.2TB)

**結論**:僅加載模型權重,就需要 **1.2TB~2.4TB 顯存**(取決於量化方式)。

---

## **2. Prefill 階段動態顯存需求**
Prefill 需計算 **全序列注意力(self-attention)**,其顯存複雜度為 **O(L²)**,其中 L 是序列長度(如 32k、128k、1M tokens)。

### **(1) 單層注意力矩陣顯存佔用(FP16)**
- **L=32k(32,768 tokens)**:
(32k × 32k) × 2 位元組 ≈ 2.1 GB(單頭單層)
- **L=128k(131,072 tokens)**:
(128k × 128k) × 2 位元組 ≈ 34.4 GB(單頭單層)
- **L=1M(1,048,576 tokens)**:
(1M × 1M) × 2 位元組 ≈ 2.2 TB(單頭單層)

### **(2) 總注意力顯存(多層+多頭)**
假設:
- **層數(N)= 80**
- **頭數(H)= 128**

總顯存 ≈ L² × 2 × N × H(FP16)

| 序列長度 (L) | 原始顯存需求 (FP16) |
|-------------|-------------------|
| 32k | ~21.5 TB |
| 128k | ~352 TB |
| 1M | ~22.5 PB |

**結論**:
- **32k 序列** → 21.5 TB
- **128k 序列** → 352 TB
- **1M 序列** → 22.5 PB(幾乎不可行)

---

## **3. 優化方案(降低顯存需求)**
### **(1) FlashAttention / 記憶體高效注意力**
- 將 **O(L²) 顯存** 改為 **分塊計算**,減少 5~10 倍需求。
- **32k 序列** → **~4.3 TB**
- **128k 序列** → **~70 TB**
- **1M 序列** → **仍需要 ~4.5 PB(不現實)**

### **(2) 模型並行(Tensor/Expert Parallelism)**
- 將 **1200B 模型拆分到多張 GPU**(如 256×H100 80GB)。
- **每張 GPU 負責 ~4.7B 參數**(FP16 約 9.4GB/GPU)。

### **(3) KV Cache 優化**
- **FP8/INT8 量化 KV Cache** → 節省 50% 顯存。
- **Grouped-Query Attention (GQA)** → 減少 KV 頭數(如 8 組共享)。
- **稀疏注意力(如 Longformer)** → 適用超長序列。

---

## **4. 實際需求估算(優化後)**
| 序列長度 (L) | 原始需求 (FP16) | 優化後需求 | 所需 GPU 數量 (H100 80GB) |
|-------------|---------------|-----------|--------------------------|
| 32k | ~21.5 TB | **~4.3 TB** | 約 54 張 |
| 128k | ~352 TB | **~70 TB** | 約 875 張 |
| 1M | ~22.5 PB | **不現實** | 需分塊流式計算 |

---

## **5. 結論**
- **1200B 模型的 Prefill 顯存需求極高**:
- **短序列(32k)**:優化後仍需 **4~5 TB**(約 50+ H100)。
- **長序列(128k+)**:需 **數十 TB 到 PB 級**,需超大集群。
- **現實解決方案**:
- 使用 **Megatron-DeepSpeed** 等分佈式框架。
- 結合 **FlashAttention + 模型並行 + 量化** 降低需求。
- 超長序列(1M+)需 **分塊計算** 或 **稀疏注意力**。

**若需運行 1200B 模型的 Prefill,建議使用 1000+ H100 GPU 集群 + 高效優化技術。**
比卡超(已上位) 2025-05-01 11:27:24
中文黎講
佢應該好過其他
大角倔喜 2025-05-01 11:43:07
兩者有何不同
大角倔喜 2025-05-01 11:50:28
咁你錯啦,聽講佢餵左好多牆內天龍國坊間假數據垃圾數據,可能係garbage in 。好多支那用家最近屌曬媽

反而牆外由Chatgpt炒番黎個d 英文數據會相對好d ,我用開Deepseek都係用英文問英文答,佢既英文答案應該係基於之前train個d GPT數據,唔係內地數據
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞