最新研究對AI界投下震撼彈!一篇登上arXiv的論文《LiveCodeBench Pro:奧賽選手如何評價LLM的競賽編程能力?》揭露:即使最先進的大型語言模型(LLM),面對高難度程式設計題目時竟交出 「零分答卷」 ,暴露當前AI的致命短板。
魔鬼考題哪裡來?
研究團隊從全球頂尖程式賽事——包括Codeforces、ICPC國際大學生程式設計競賽、IOI資訊奧林匹克——精選「燒腦題」組成 LiveCodeBench Pro 測試集。最大殺手鐧是 「題庫永不重複」 :每週更新題目,徹底堵死AI靠「背答案」作弊的後路!
頂尖模型集體捧蛋
當GPT-4、Claude等一線模型踏上這個擂台,結果令人瞠目:全軍覆沒! 無一能解出任何題目的正確程式碼。論文直指關鍵敗因——模型頻犯 「概念性錯誤」 ,證明它們缺乏真正的邏輯推理能力,只能複製訓練資料的套路。
為何零分如此重要?
研究者強調:「這不是AI交白卷,而是寫出的程式全數『運行失敗』!」競賽題需要多層抽象思考與創造性演算法設計,當AI遇到 「從未見過的新問題」 ,立刻暴露出 「只會套模板,不會動真腦」 的缺陷。
給AI熱潮的冷水
「現階段AI只是超級資料庫」論文作者如此警示。這記當頭棒喝提醒我們:儘管聊天機器人能寫詩敲程式碼,但面對奧賽級難題時,人類的創造性思維仍是無法逾越的高牆。想見證AI真正「思考」?恐怕還要等上好些年。
論文傳送門
arXiv:2506.11928
https://arxiv.org/pdf/2506.11928