Google最新model coding贏左Claude？

大棍巴

17 回覆

3 Like 0 Dislike

大棍巴 2025-03-26 07:14:46

Google終於瞓醒

六環彩大師 2025-03-26 13:26:04

呢啲傻鳩benchmark 冇意思
Claude 3.7 成撚日懶醒
佢tune 到懶係諗多好多步成日幫你加料
咁樣1-shot 做題過benchmark 咪勁實際上成撚日唔follow instruction 亂鳩咁加code
效率差過唔用

大棍巴 2025-03-26 13:29:54

你唯有俾多啲instructions 叫佢盡量少改啲不必要嘢，Sonnet 3.7的確有傾向會自走炮過3.5。

六環彩大師 2025-03-26 13:31:32

Sor 我都發現我激動左少少我已經直接用返3.5 或者gemini
佢地有啲task 做唔到但至少會聽人講

3.7真係用到好撚嬲

HAMHAM 2025-03-26 13:31:44

咁用咩好？
AI寫得太多野，我半桶水好難integrate 落自己本身既code度

大棍巴 2025-03-26 13:32:07

六環彩大師 2025-03-26 13:32:47

3.5或者gemini 2.0暫時未見加鹽加醋寫啲code 都唔錯

六環彩大師 2025-03-26 13:33:49

留名又係會暴走 1-shot 考試叻好大機會畫蛇添足

HAMHAM 2025-03-26 13:34:44

其實ChatGPT o1得唔得？
而家都係用緊佢

大棍巴 2025-03-26 13:34:47

用LLM用到火滾係必經階段

而家已經屌佢都費事，佢一自走炮，通常開過個新chat，嘗試拆細啲個問題，再叫佢除左XX之外，乜9都唔好改

大棍巴 2025-03-26 13:35:43

佢Aider個correct format rate得89%，都好肯定幾有個性

六環彩大師 2025-03-26 13:37:10

O1 啲答案可以但除非你用ChatGPT 個網貼code

用cursor / github copilot 好多時會// existing code 冇得Gen 完貼

方力申 2025-03-26 14:00:41

o1絕對係最強試過俾protocol同埋問比較長既scenario用grok3 o3min-high claude3.7 R1都答得唔準得o1 pro一野就答啱

HAMHAM 2025-03-26 14:05:19

冇錢，只係簡唔中寫
用緊$20既o1,差好遠？

HAMHAM 2025-03-26 14:05:50

冇錢用o1 pro

雲巴士頓2021 2025-03-26 14:13:55

啱啱試咗gemini 2.5 pro，畀個3D迷宮問題佢寫HTML+JS，之前gemini 2.0點都搞唔掂，2.5pro兩三take就出到work嘅code，好明顯強咗好多

大棍巴 2025-03-27 08:56:04

Google終於有登頂嘅一日，Sam同Dario