Deepseek R1 0528 更新

大棍巴

23 回覆
8 Like 11 Dislike
大棍巴 2025-05-29 17:06:26
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

雖然係minor upgrade但benchmark上進步似乎都幾大。
Aider Polygot個分已經追到啱啱出嘅Claude 4
https://www.reddit.com/r/LocalLLaMA/s/vMayDPvtDB

R1 original : 56.9
R1-0528 (official API) : 70.7
Claude 4 Opus Thinking : 72.0
Gemini Pro 0526 : 76.9
o3 High : 79.6

不過都要睇啲人實測,正如我自己host嘅Qwen3 235-A22雖然講到59.6,但coding上用落我覺得遠不及Claude 4 Sonnet (no think)。
愛是痕9很耐 2025-05-29 17:20:53
冇乜分別
我叫三叔 2025-05-29 17:29:46
twitter 有人話frontend 有得fight
老實男生 2025-05-29 17:54:18
想請問下 係咪可以本地run到呢個分數
大棍巴 2025-05-29 18:15:09
理論上可以,我冇見過有人提到local run同用佢cloud API有明顯分別。

你想confirm,可以用OpenRouter唔同providers去自己run返個Aider Polygot benchmark 去比較。
己攵口羊女子 2025-05-29 18:21:30
呢個分數係完整版685B嘅
理論上梗係可以local run,實際上點搞685B...
我當你唔用GPU,走去用CPU行,都要1TB RAM...
大棍巴 2025-05-29 18:29:47
而家買4張Pro6000都可以行到4-bit,其實個門檻都已經唔算好高(對中小企而言)。
己攵口羊女子 2025-05-29 19:02:06
咁Q4係得嘅
大棍巴 2025-05-29 19:36:33
Local LLM 唔少都係行4-bit。
Q4對coding影響可能會大啲,但點都勁過哂行任何落一級嘅model 。
沒有選擇 2025-05-29 19:40:44
算把喇,蒸餾技術就收埋喇,二手科技
大棍巴 2025-05-29 20:00:31
power_off 2025-05-29 20:06:54
但對香港嚟講係上菜呢
大棍巴 2025-05-29 20:16:38
對全個local LLM community 都係
沒有選擇 2025-05-29 21:01:22
依家都去到成熟既 AI Agent,conversational AI 仲有咩價值呢,自己整完轉頭同 AI Agent 一比較,咪又轉返去用人地既AI Agent API,人地比指令 AI 寫 program,唔通仲 on99 問 AI 點寫咩
低cup職員 2025-05-29 21:08:12
叫AI同時掉個Job比幾個AI, 再用AI分析邊個AI答得好D再綜合埋一個結論.....
大棍巴 2025-05-29 21:09:03
唔知你講緊邊類agent,但Deepseek/Qwen3都應該有哂基本tool calling support,用Aider/Roocode來行都冇問題。
一般寫code都係以上咁用。

你有冇咩use case可以俾來參考下,睇下Deepseek點樣欠缺法?
諸如此類 2025-05-29 22:38:15
wow old news is so 唔識串
大棍巴 2025-05-30 01:19:43
有興趣可以玩下
Deepseek distilled Qwen3
https://huggingface.co/unsloth/DeepSeek-R1-0528-
Qwen3-8B-GGUF

佢地用DeepSeek train過Qwen3條CoT,我試左幾個prompt,真係強左好多。Qwen3個底唔差,不過條CoT一路都係亂來,個效果好差。
今次distill完個CoT 有條理左唔少,連Q4都解到OpenAI個cipher prompt:

oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step

Use the example above to decode:

oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

原版我試左好多次都失敗。
いのり 2025-05-30 04:25:56
講多少少?
いのり 2025-05-30 04:45:49
其實你係咪subject matter expert
你啲留言好layman
角鐵俠 2025-05-30 05:39:37
但人哋嗰個唔係 q4 丫嘛, 最少都講緊 q8 or fp16
J.V 2025-05-30 07:21:11
都唔係架
Q4_km 唔會差過q8或者fp16好多
但用少好多vram
大棍巴 2025-05-30 07:24:38
你有冇實際比較過,有客觀數據去證明Q4差好遠?
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞