50 美元成功訓練 AI 模型挑戰 DeepSeek AI 教母李飛飛蒸餾他人模型根本不花錢

245 回覆
57 Like 77 Dislike
2025-02-10 15:25:18
真係辛苦晒
2025-02-10 15:27:46
炒的比真好
2025-02-10 15:28:11
其實用抄字唔係幾準確,準確黎講係侵權,蒸餾類似於谷阿莫d解說片,人地拍咗套戲,你睇完之後攞咗個故仔同片段黎拍片講,解說片份稿係自己原創嘅所以唔算抄,但d材料係人地部片嘅,如果無人地部片就根本整唔到解說片,所以係侵權。
2025-02-10 15:29:00
咩係cctoy?

因為DeepSeek 入面有聰明嘅科學家
MoE架構寫得好
但個Model 都係可以Distillation
2025-02-10 15:29:14
有無睇內文 $50係因為個base model係qwen2.5 32B 所以唔洗由頭train靜係需要做post training
deepseek r1 distill方法係餵800k samples落smaller model
而s1方法係靜係餵1k samples
個cost計法唔一樣 deepseek有pre-training cost s1無
2025-02-10 15:29:14
根本冇得打,OpenAI自己都侵權
2025-02-10 15:30:14
用舊MoE呢個buzz word未 份文最大突破係GRPO 你有無睇架
2025-02-10 15:30:29
如果無得打openai就唔會俾人告緊啦
2025-02-10 15:31:31

其實重點係大家都偷
有人偷得效率更高咁解
2025-02-10 15:34:38
姐係你明我講乜啦
2025-02-10 15:36:09
你想講都可以 => 有能力distill from OpenAI => distilled from OpenAI?
即係有deepseek distill from OpenAI證據未
2025-02-10 15:39:27
睇睇下發現你未答我 如果係distillation 咁點解student model會喺為數不少嘅domain會outperform teacher model?
2025-02-10 15:46:08
只有自己有50000張H100
先有可能開發出自己嘅模型

而全世界只有Microsoft 同OpenAI 對DeepSeek 提出懷疑
2025-02-10 15:48:34
因為係MoE 選擇特定領域優秀
2025-02-10 15:49:16
好快有孖蒸、三蒸。
2025-02-10 15:49:34
30B IPHONE IPAD都用唔到啦
起碼24GB RAM先跑到
2025-02-10 15:51:15
v3 paper寫到明GPU hours係2788k hours
人地講到明2048張 2個月就train到... hmm ok 你信你

...Microsoft 同OpenAI...

你知唔知ms invest咗幾多落OpenAI...
OpenAI就唔洗講肯定打擊下deepseek先啦
2025-02-10 15:51:54
大佬 distillation點outperform啊唔撚make sense
2025-02-10 15:52:07
Yes, 30b 果個應該server side
2025-02-10 15:52:46
中國ai: 傻仔,點解唔拎marking scheme?
2025-02-10 15:53:40
懶得去搵,講少少得嘛ching?
2025-02-10 15:54:09
佢就係想講deepseek根本係笑話黎
2025-02-10 15:57:23
Nvidia 估值過高
2025-02-10 15:59:51
你唔好理,總之抄完工課畢到業你話之佢攞白卡都冇問題
2025-02-10 16:01:23
btw 你都識講佢地靜係提出懷疑 好心就咪鬼用字用到咁affirmative
乜鳩distillation, 你話SFT samples係o1 gen出嚟都無咁離譜
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞