強國最新低成本開發訓練既Deepseek AI聲稱回答/寫code好過Chatgpt?

63 回覆
1 Like 20 Dislike
2025-01-26 01:43:34
完全唔明點解要係網上對自己唔識既議題扮識,呃到人對自己冇好處,但兩三分鐘被人踢爆就要潛
2025-01-26 02:53:30
我用緊ollama行gemini 2b同deepseek r1,講真,無佢地講到咁神,感覺上係用o1嘅模式+o1 feed出嚟嘅數據去train+最大出現次數去畀答案,寫code都係唔識debug

deepseek嘅分別就好似渣渣輝同化骨龍,同一個方法,只係劇情需要演畀你睇
2025-01-26 03:21:29
你部咩機行R1?
2025-01-26 03:35:59
你應該問咩邊隻r1 distill,咩機唔重要ollama default去7b既q4_k_m

唔通你覺得佢有部epyc genoa行384gb ram以上,或者10張H100咩
2025-01-26 03:36:55
完全唔明點解要係網上對自己唔識既議題扮識,呃到人對自己冇好處,但兩三分鐘被人踢爆就要潛
我用緊ollama行gemini 2b同deepseek r1,講真,無佢地講到咁神,感覺上係用o1嘅模式+o1 feed出嚟嘅數據去train+最大出現次數去畀答案,寫code都係唔識debug

deepseek嘅分別就好似渣渣輝同化骨龍,同一個方法,只係劇情需要演畀你睇
你部咩機行R1?
你應該問咩邊隻r1 distill,咩機唔重要ollama default去7b既q4_k_m

唔通你覺得佢有部epyc genoa行384gb ram以上行671b q4_k_m,或者10張H100行fp8咩
2025-01-26 03:54:31
無,咁我嗰度得三張H100,另一部又得四張A6000 ADA,冇得用GPU行。
部dual socket EPYC 9654有1.5 TB RAM但 又好忙,未有得試。見佢用ollama行R1,想觀摩下咁解
2025-01-26 03:58:21
ollama好似冇numa aware,就算有都係得1p既bandwidth,好似係

所以都係等睇高手試玩可能人地真係有genoa甚至行mrdimm 8800既xeon6呢

btw三張h100可以試下Q3既
2025-01-26 03:59:42
q3會爆vram自膠
2025-01-26 04:09:11
Q4以下都可能冇乜實用價值。
我地嗰張係H100 NVL,3張有288GB VRAM,Q3有可能得,不過嗰幾張用左來做 measurement,都係冇得玩LLM。

嗰四張A6000 ADA下個月會set,就真係攞來行Qwen 72B。如果將來MoE成為趨勢,都可以諗下用下一代EPYC砌部來行R1,不過之前Reddit Deepseek V3啲test好似都係得10 token/s,好難俾到條team share
2025-01-26 04:13:42
我淨係記得param愈多 quant loss愈低
dense model係咁,唔知moe睇咩,冇見人試過
worst case 當37b loss,q3真係不了

除左直接整部10xH100之外,唔預你run
我呢d失業人士想砌部epyc試都心大心細
2025-01-26 04:15:40
最近又好似有個140b moe/active 20b既model
其實之前mistral出過8x7b 8x22b大家都知有料到,但唔知點解大家都堅守dense model

被人fp8+moe 反cup真心笑左
2025-01-26 04:21:26
俾Deepseek示範左一次,都幾肯定其他人會去試MoE,希望Meta/Qwen會追到
2025-01-26 04:24:23
meta就fuck around左太耐,但qwen就有d慘,被人讚上天既2.5/qwq/qvq出左冇耐,被ds搶晒風頭
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞