Google最新model coding贏左Claude?

大棍巴

17 回覆
3 Like 0 Dislike
大棍巴 2025-03-26 07:14:46
六環彩大師 2025-03-26 13:26:04
呢啲傻鳩benchmark 冇意思
Claude 3.7 成撚日懶醒
佢tune 到懶係諗多好多步 成日幫你加料
咁樣1-shot 做題過benchmark 咪勁 實際上成撚日唔follow instruction 亂鳩咁加code
效率差過唔用
大棍巴 2025-03-26 13:29:54
你唯有俾多啲instructions 叫佢盡量少改啲不必要嘢,Sonnet 3.7的確有傾向會自走炮過3.5。
六環彩大師 2025-03-26 13:31:32
Sor 我都發現我激動左少少 我已經直接用返3.5 或者gemini
佢地有啲task 做唔到但至少會聽人講

3.7真係用到好撚嬲
HAMHAM 2025-03-26 13:31:44
咁用咩好?
AI寫得太多野,我半桶水好難integrate 落自己本身既code度
大棍巴 2025-03-26 13:32:07
六環彩大師 2025-03-26 13:32:47
3.5或者gemini 2.0暫時未見加鹽加醋 寫啲code 都唔錯
六環彩大師 2025-03-26 13:33:49
留名又係會暴走 1-shot 考試叻好大機會畫蛇添足
HAMHAM 2025-03-26 13:34:44
其實ChatGPT o1得唔得?
而家都係用緊佢
大棍巴 2025-03-26 13:34:47
用LLM用到火滾係必經階段
而家已經屌佢都費事,佢一自走炮,通常開過個新chat,嘗試拆細啲個問題,再叫佢除左XX之外,乜9都唔好改
大棍巴 2025-03-26 13:35:43
佢Aider個correct format rate得89%,都好肯定幾有個性
六環彩大師 2025-03-26 13:37:10
O1 啲答案可以 但除非你用ChatGPT 個網貼code

用cursor / github copilot 好多時會// existing code 冇得Gen 完貼
方力申 2025-03-26 14:00:41
o1絕對係最強 試過俾protocol同埋問比較長既scenario用grok3 o3min-high claude3.7 R1都答得唔準 得o1 pro一野就答啱
HAMHAM 2025-03-26 14:05:19
冇錢,只係簡唔中寫
用緊$20既o1,差好遠?
HAMHAM 2025-03-26 14:05:50
冇錢用o1 pro
雲巴士頓2021 2025-03-26 14:13:55
啱啱試咗gemini 2.5 pro,畀個3D迷宮問題佢寫HTML+JS,之前gemini 2.0點都搞唔掂,2.5pro兩三take就出到work嘅code,好明顯強咗好多
大棍巴 2025-03-27 08:56:04
Google終於有登頂嘅一日,Sam同Dario


Livebench.ai
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞