認真，大陸 AI 真係頂爛市 OpenAI 好難鬥

天蠍座

394 回覆

37 Like 445 Dislike

大棍巴 2025-01-01 19:27:33

見Reddit開始有人試CPU inference，不過正如你講未有guff，同llama.cpp都未有support。
https://www.reddit.com/r/LocalLLaMA/s/DrZzCcFDi9

Epyc 9374F, 12x32GB RAM, that's 384GB of RAM so DeepSeek V3 just barely fits quantized to Q4_K_M.

TG ~ 7-9

Karem(首席女權) 2025-01-01 19:29:21

雖然肯定佢偷gpt 資料嚟訓練慳左唔少，但佢真係證明咗LLM 同gen 圖一樣本身個模型architecture同parameters都有壓縮空間，走向應該同gen 圖相似嚟講會有更加多細模型出現

debugger; 2025-01-01 19:30:16

比想像中慢左好多

可能要dual先得

電動牙膏 2025-01-01 19:31:46

有上過少少AI basic 堂，應該都會知data 會一分為二，一份用黎train, 一份用黎validate, 用一個已用training data train 好既model 又train 一個model 出黎又有咩效果

babykicker 2025-01-01 19:32:41

其實最有資格屌人抄野嗰個係google

debugger; 2025-01-01 19:34:29

出得paper都係想大家進步，但第一個屌人抄野既人真係好樣衰，擺到明sam哥被人斷米路先搲爛塊面

debugger; 2025-01-01 19:35:42

xeon 6980p + 12x mrdimm 8800

分分鐘做到14t/s

註冊會員 2025-01-01 19:38:59

但大陸呢個用左幾百張h100去train一個月
成本500萬美金

自己train要幾耐先train完

debugger; 2025-01-01 19:41:59

gpt既training token咪又係openai開一堆scrapper刮晒成個互聯網憑實力偷返黎，但轉頭被人偷就搲爛塊面，真係好樣衰

1.58b bitnet同meta新既blt都未用

debugger; 2025-01-01 19:43:05

train又唔同inference，train一次性燒錢，inference成本可以愈黎愈低，bottleneck係ram容量同bandwidth

沒有選擇 2025-01-01 19:44:17

遲人咁耐玩條毛喇，依家已經 o3，你追到人地 o1 又點，同晶片情況一 9 樣，真係唔使咁高階既晶片做乜搞咁多走私

信用卡 2025-01-01 19:44:27

天蠍座 2025-01-01 19:44:39

真心好撚抵玩
我呢兩日用黎做翻譯用左450k token 只係用左我 ¥4.5 人民幣，痴線

有錢唔係罪 2025-01-01 19:45:46

咁係咪呢堆open source weight就已經等同甚至勁過人哋chatgpt嗰個model？

樓主聲稱佢訓練嘅時候需要嘅算力係十分之一，如果係咁嘅nvidia股價咪要暴跌？用普通gpu都可以訓練到啦

係咪偷偷地用咗pretrained model呀？我玩過類似嘅project，用pretrained model中間可以skip大量冤枉路

但問題咁樣就會dependent on個pre-train model，唔係話睇死大陸一定係做假，但都係費事跟車太貼

debugger; 2025-01-01 19:46:10

o3要超級電腦燒電train燒電行
ds v3用1/10成本train，train完放出黎，有心砌部epyc genoa都行到

你覺得分別係邊？

天蠍座 2025-01-01 19:46:22

打錯想講450萬

共橙黨·萬碎 2025-01-01 19:46:24

LM睇樓主反駁

不過我反而有個問題，點解中國既ai咁勁但係喺chatgpt出世之後先勁既？
點解唔係文心一言出世先到chatgpt?

天才小釣手 2025-01-01 19:47:01

連登仔:reddit唔計

6downner 2025-01-01 19:47:20

唔好以為彈啲backend api terms 就係AI engineer 啦

扮識仲衰過唔識

debugger; 2025-01-01 19:48:22

有錢唔係罪 2025-01-01 19:48:33

睇埋我之後個留言啦柒頭

いのり 2025-01-01 19:49:02

只可以講呢到啲人立場行先

同openai有親咁同出面睇法完全係平行世界

debugger; 2025-01-01 19:49:14

你想accuse deepseek v3係某個model既finetune？

係既話份paper仲有份wor

debugger; 2025-01-01 19:49:35

好大機會佢個backend其實偷偷地連去出面啲api
講到尾係咪軟體版本嘅漢芯
佢成個weight係到，你自己可以down落黎試wor，連乜野出面api呢

https://huggingface.co/deepseek-ai/DeepSeek-V3/tree/main
咁係咪呢堆open source weight就已經等同甚至勁過人哋chatgpt嗰個model？

樓主聲稱佢訓練嘅時候需要嘅算力係十分之一，如果係咁嘅nvidia股價咪要暴跌？用普通gpu都可以訓練到啦

係咪偷偷地用咗pretrained model呀？我玩過類似嘅project，用pretrained model中間可以skip大量冤枉路

但問題咁樣就會dependent on個pre-train model，唔係話睇死大陸一定係做假，但都係費事跟車太貼
你想accuse deepseek v3係某個model既finetune？係既話份paper仲大份wor

有錢唔係罪 2025-01-01 19:49:49

樓主聲稱話算力只需要十分之一
如果真係由零做到嘅
nvidia股價一定要暴跌
但至今我仍然未睇到
市場永遠是對的
你真係識嘅就用技術層面去駁斥我

第 1 頁第 2 頁第 3 頁第 4 頁第 5 頁第 6 頁第 7 頁第 8 頁第 9 頁第 10 頁第 11 頁第 12 頁第 13 頁第 14 頁第 15 頁第 16 頁

吹水台自選台熱　門最　新手機台時事台政事台 World 體育台娛樂台動漫台 Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑　洞