Google最新model coding贏左Claude?
大棍巴
17 回覆
3 Like
0 Dislike
大棍巴
2025-03-26 07:14:46
Google終於瞓醒
https://aider.chat/docs/leaderboards/
六環彩大師
2025-03-26 13:26:04
呢啲傻鳩benchmark 冇意思
Claude 3.7 成撚日懶醒
佢tune 到懶係諗多好多步 成日幫你加料
咁樣1-shot 做題過benchmark 咪勁 實際上成撚日唔follow instruction 亂鳩咁加code
效率差過唔用
大棍巴
2025-03-26 13:29:54
你唯有俾多啲instructions 叫佢盡量少改啲不必要嘢,Sonnet 3.7的確有傾向會自走炮過3.5。
六環彩大師
2025-03-26 13:31:32
Sor 我都發現我激動左少少 我已經直接用返3.5 或者gemini
佢地有啲task 做唔到但至少會聽人講
3.7真係用到好撚嬲
HAMHAM
2025-03-26 13:31:44
咁用咩好?
AI寫得太多野,我半桶水好難integrate 落自己本身既code度
大棍巴
2025-03-26 13:32:07
Blog from Google
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking
真係打左雞血咁
六環彩大師
2025-03-26 13:32:47
3.5或者gemini 2.0暫時未見加鹽加醋 寫啲code 都唔錯
六環彩大師
2025-03-26 13:33:49
留名又係會暴走 1-shot 考試叻好大機會畫蛇添足
HAMHAM
2025-03-26 13:34:44
其實ChatGPT o1得唔得?
而家都係用緊佢
大棍巴
2025-03-26 13:34:47
用LLM用到火滾係必經階段
而家已經屌佢都費事,佢一自走炮,通常開過個新chat,嘗試拆細啲個問題,再叫佢除左XX之外,乜9都唔好改
大棍巴
2025-03-26 13:35:43
佢Aider個correct format rate得89%,都好肯定幾有個性
六環彩大師
2025-03-26 13:37:10
O1 啲答案可以 但除非你用ChatGPT 個網貼code
用cursor / github copilot 好多時會// existing code 冇得Gen 完貼
方力申
2025-03-26 14:00:41
o1絕對係最強 試過俾protocol同埋問比較長既scenario用grok3 o3min-high claude3.7 R1都答得唔準 得o1 pro一野就答啱
HAMHAM
2025-03-26 14:05:19
冇錢,只係簡唔中寫
用緊$20既o1,差好遠?
HAMHAM
2025-03-26 14:05:50
冇錢用o1 pro
雲巴士頓2021
2025-03-26 14:13:55
啱啱試咗gemini 2.5 pro,畀個3D迷宮問題佢寫HTML+JS,之前gemini 2.0點都搞唔掂,2.5pro兩三take就出到work嘅code,好明顯強咗好多
大棍巴
2025-03-27 08:56:04
Google終於有登頂嘅一日,Sam同Dario
Livebench.ai
第 1 頁
吹水台
自選台
熱 門
最 新
手機台
時事台
政事台
World
體育台
娛樂台
動漫台
Apps台
遊戲台
影視台
講故台
健康台
感情台
家庭台
潮流台
美容台
上班台
財經台
房屋台
飲食台
旅遊台
學術台
校園台
汽車台
音樂台
創意台
硬件台
電器台
攝影台
玩具台
寵物台
軟件台
活動台
電訊台
直播台
站務台
黑 洞