50 美元成功訓練 AI 模型挑戰 DeepSeek AI 教母李飛飛蒸餾他人模型根本不花錢

林襄月娥 2025-02-10 15:25:18

真係辛苦晒

食屎死你 2025-02-10 15:27:46

炒的比真好

SBU 2025-02-10 15:28:11

其實用抄字唔係幾準確，準確黎講係侵權，蒸餾類似於谷阿莫d解說片，人地拍咗套戲，你睇完之後攞咗個故仔同片段黎拍片講，解說片份稿係自己原創嘅所以唔算抄，但d材料係人地部片嘅，如果無人地部片就根本整唔到解說片，所以係侵權。

甜妹號 2025-02-10 15:29:00

咩係cctoy?

因為DeepSeek 入面有聰明嘅科學家
MoE架構寫得好
但個Model 都係可以Distillation

いのり 2025-02-10 15:29:14

有無睇內文 $50係因為個base model係qwen2.5 32B 所以唔洗由頭train靜係需要做post training
deepseek r1 distill方法係餵800k samples落smaller model
而s1方法係靜係餵1k samples
個cost計法唔一樣 deepseek有pre-training cost s1無

安茲·烏爾·恭 2025-02-10 15:29:14

根本冇得打，OpenAI自己都侵權

いのり 2025-02-10 15:30:14

用舊MoE呢個buzz word未份文最大突破係GRPO 你有無睇架

SBU 2025-02-10 15:30:29

如果無得打openai就唔會俾人告緊啦

霜月步 2025-02-10 15:31:31

真
其實重點係大家都偷
有人偷得效率更高咁解

甜妹號 2025-02-10 15:34:38

姐係你明我講乜啦

いのり 2025-02-10 15:36:09

你想講都可以 => 有能力distill from OpenAI => distilled from OpenAI?

即係有deepseek distill from OpenAI證據未

いのり 2025-02-10 15:39:27

睇睇下發現你未答我如果係distillation 咁點解student model會喺為數不少嘅domain會outperform teacher model?

甜妹號 2025-02-10 15:46:08

只有自己有50000張H100
先有可能開發出自己嘅模型

而全世界只有Microsoft 同OpenAI 對DeepSeek 提出懷疑

甜妹號 2025-02-10 15:48:34

因為係MoE 選擇特定領域優秀

sexboy 2025-02-10 15:49:16

好快有孖蒸、三蒸。

傻過傻鴨 2025-02-10 15:49:34

30B IPHONE IPAD都用唔到啦
起碼24GB RAM先跑到

いのり 2025-02-10 15:51:15

v3 paper寫到明GPU hours係2788k hours

人地講到明2048張 2個月就train到... hmm ok 你信你

...Microsoft 同OpenAI...

你知唔知ms invest咗幾多落OpenAI...

OpenAI就唔洗講肯定打擊下deepseek先啦

いのり 2025-02-10 15:51:54

大佬 distillation點outperform啊唔撚make sense

發開口夢 2025-02-10 15:52:07

Yes, 30b 果個應該server side

AskRob 2025-02-10 15:52:46

中國ai: 傻仔，點解唔拎marking scheme？

火炎焱 2025-02-10 15:53:40

懶得去搵，講少少得嘛ching？

含我呀 2025-02-10 15:54:09

佢就係想講deepseek根本係笑話黎

DBAA 2025-02-10 15:57:23

Nvidia 估值過高

督督不痕鳥 2025-02-10 15:59:51

你唔好理，總之抄完工課畢到業你話之佢攞白卡都冇問題

いのり 2025-02-10 16:01:23

btw 你都識講佢地靜係提出懷疑好心就咪鬼用字用到咁affirmative

乜鳩distillation, 你話SFT samples係o1 gen出嚟都無咁離譜

50 美元成功訓練 AI 模型挑戰 DeepSeek AI 教母李飛飛蒸餾他人模型根本不花錢

吉邨春袋子