新AI測試令頂級模型束手無策，揭示其推理能力存在致命缺陷

大棍巴

37 回覆

33 Like 8 Dislike

大棍巴 2025-06-21 05:17:28

最新研究對AI界投下震撼彈！一篇登上arXiv的論文《LiveCodeBench Pro：奧賽選手如何評價LLM的競賽編程能力？》揭露：即使最先進的大型語言模型（LLM），面對高難度程式設計題目時竟交出「零分答卷」，暴露當前AI的致命短板。

魔鬼考題哪裡來？

研究團隊從全球頂尖程式賽事——包括Codeforces、ICPC國際大學生程式設計競賽、IOI資訊奧林匹克——精選「燒腦題」組成 LiveCodeBench Pro 測試集。最大殺手鐧是「題庫永不重複」：每週更新題目，徹底堵死AI靠「背答案」作弊的後路！

頂尖模型集體捧蛋

當GPT-4、Claude等一線模型踏上這個擂台，結果令人瞠目：全軍覆沒！無一能解出任何題目的正確程式碼。論文直指關鍵敗因——模型頻犯「概念性錯誤」，證明它們缺乏真正的邏輯推理能力，只能複製訓練資料的套路。

為何零分如此重要？

研究者強調：「這不是AI交白卷，而是寫出的程式全數『運行失敗』！」競賽題需要多層抽象思考與創造性演算法設計，當AI遇到「從未見過的新問題」，立刻暴露出「只會套模板，不會動真腦」的缺陷。

給AI熱潮的冷水

「現階段AI只是超級資料庫」論文作者如此警示。這記當頭棒喝提醒我們：儘管聊天機器人能寫詩敲程式碼，但面對奧賽級難題時，人類的創造性思維仍是無法逾越的高牆。想見證AI真正「思考」？恐怕還要等上好些年。

論文傳送門
arXiv:2506.11928
https://arxiv.org/pdf/2506.11928

大傷莖庭 2025-06-21 09:05:35

我反而覺得呢篇文係零分
AI現時比唔上人腦係共識

ayumi 2025-06-21 09:26:15

有o4 mini high但係冇同時出更強嘅o3

更加唔好講最近出埋o3 pro
其他公司嘅model亦都唔係最新
係人都知AI發展幾個月就變一次
攞啲舊嘅廢model嚟比有咩意義

大棍巴 2025-06-21 11:32:06

o4-mini-high suppose coding係強過o3，而且篇文個研究應該喺o3 pro出之前就已經開始寫。

sparda 2025-06-21 11:40:25

人有幾多分先

ayumi 2025-06-21 11:46:53

處理複雜問題絕對係o3強過o4 mini high
好懷疑係得o3有分先專登唔show佢

大棍巴 2025-06-21 12:04:02

佢冇講人有幾多分，但有提到啲問題原本係來自比賽。雖然難，但有「人」識答而答啱。

Gemini summary:
The Finding: The paper's conclusion isn't just that AIs failed, but that they failed on problems that are considered solvable by these top-tier human experts. The 0% AI score is significant precisely because it's a domain where human expertise is well-established and successful.
In short, while there's no numerical "average score" for humans, the "hard" problems where AI scored zero are specifically designed for and solvable by the very best human competitive programmers on the planet.

ayumi 2025-06-21 12:35:11

原來係玩1pass+唔俾用工具
咁個結果又唔意外喎
更何況medium亦都有分
你篇中文吹到LLM係垃圾

大棍巴 2025-06-21 12:40:14

篇文係用Gemini summarize份paper，再俾DeepSeek用連登content farm tone寫出來

sparda 2025-06-21 13:11:25

堆LLM取代最叻嘅人就係人都知唔得
係可以取代幾多揼石仔嘅人啫

應該拿埋份野畀一group一般人做 (不過應該唔會0分

)
堆model 0分應該route錯野, 有時問問下佢都落咗doom path, 再開新session又識答

熱血軒達臣 2025-06-21 15:08:04

唔知點解篇野似台灣記者寫法

游繼嗣 2025-06-22 01:39:08

咁啲題目有幾多%嘅人類程式員做到先

角鐵俠 2025-06-22 05:37:16

我試過用AI寫稍為複雜程式根本就寫唔到

三百萬美金 2025-06-22 05:53:33

唔限嘅點樣test reasoning skills?
有啲你直接Google答案就得

節節人 2025-06-22 05:59:35

AI 係處理唔到前所未見既問題。人類個類比同聯想以至應用解難能力係遠超AI，舉個例，佢地可以做到好強基因分析，但由頭到尾都仲未見佢地有新發明幫助到人類文明進步。

DAN_DAN 2025-06-22 06:12:40

直接用LLM唔係用Coding Agent

Cline Roo Claude Code果D勁到痴線

幾撚肯定佢地D prompt都係直接放個問題入去就算無fine tune過, AI做新問題最好係行Agentic Mode做TDD係人類guidance下draft dev plan先execute

又返去咩AI取代人既問題, 事實就係AI + 人類互補先做到兩邊都做唔到既問題

LD50_iv 2025-06-22 06:22:58

仲要0shot

das2asff 2025-06-22 08:33:11

AI定LLM...
講清楚啲好

騎野豬的生菜公主 2025-06-22 10:22:40

o3有創新能力而o4冇

debugger; 2025-06-25 09:33:03

三條我都唔撚識

飄移巴士 2025-06-25 09:35:43

真

不嬲講緊AI係取代初級code狗

bootcamp9 2025-06-25 14:16:09

deepmind果個ai無人講

bootcamp9 2025-06-25 14:27:44

https://www.ithome.com.tw/news/167321
無人理

三百萬美金 2025-06-25 21:12:46

俾個proof出來睇過？

中文網仲要起碼鳩多二流

bootcamp9 2025-06-25 21:20:36

https://arxiv.org/html/2502.03544v1
search兩下都懶

第 1 頁第 2 頁

吹水台自選台熱　門最　新手機台時事台政事台 World 體育台娛樂台動漫台 Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑　洞