研究發現阿里巴巴 Qwen2.5數學能力佳 主要原因是記憶而非推理

支共就係國難

45 回覆
17 Like 4 Dislike
支共就係國難 2025-07-22 20:05:03
好似考dse同A-level咁,記晒past paper嘅答案就會高分

(內文)
一項最新研究指出,阿里巴巴的 Qwen2.5 模型在數學測試中取得高分,主要歸因於記憶訓練數據,而非真正的推理能力。

數據污染的影響
研究人員發現,AI 模型在數學推理方面看似取得的進展,很大程度上是源於數據污染。當 Qwen2.5 在訓練期間未曾見過的「乾淨」基準測試上進行評估時,其效能便會大幅下降。為此,研究團隊提供 Qwen2.5 來自 MATH 500 基準測試的最初 60% 問題,並要求它完成剩餘部分。結果顯示,Qwen2.5-Math-7B 成功地以 54.6% 的準確度重構了缺失的 40% 問題,並在 53.6% 的時間內給出正確答案。相較之下,Llama3.1-8B 僅達到 3.8% 和 2.4%。這強烈表明 Qwen2.5 在訓練階段就已經接觸過這些問題。

獨立測試與記憶依賴
隨後,研究人員使用 LiveMathBench (202505 版本) 測試該模型,這是一個在 Qwen2.5 發布後才推出的「乾淨」基準測試。在該數據集上,Qwen2.5 的完成率降至零,與 Llama 的表現相同,其答案準確度也僅剩下 2%。這很可能是因為 Qwen2.5 在大型線上數據集上進行了預訓練,其中包括了含有基準測試問題及其解決方案的 GitHub 儲存庫。因此,即使是訓練期間隨機或不正確的獎勵訊號,也可能由於其事先接觸過數據而提升了它在 MATH-500 上的表現。為了解決此問題,該團隊創建了 RandomCalculation 數據集,其中包含在 Qwen2.5 發布後才生成的完全合成算術問題。對於這些新問題,Qwen2.5 的準確度隨著問題複雜度的增加而下降。只有正確的獎勵訊號才能提高效能,而隨機獎勵會導致訓練不穩定,反向獎勵則會降低數學技能。受控的 RLVR (可驗證獎勵強化學習) 實驗證實了這些結果:只有正確的獎勵才能帶來穩定的提升,而隨機或反向獎勵則未能提高效能,甚至主動降低了效能。

嚴謹評估的重要性
這些發現質疑了 Qwen2.5 的數學能力反映真實推理的觀點。相反,結果顯示該模型嚴重依賴記憶的數據。阿里巴巴於 2024 年 9 月推出了 Qwen2.5,隨後是 Qwen3 系列。這些研究結果是否也適用於 Qwen3,仍有待觀察。該研究的作者警告說,受污染的基準測試可能導致對 AI 進展的誤導性結論。他們建議未來的研究應依賴乾淨、未受污染的基準測試,並評估多個模型系列以獲得更可靠的結果。這些結果凸顯了在大語言模型中區分真實推理與記憶的困難,以及為何嚴謹、乾淨的評估方法對於可信賴的 AI 研究至關重要。過往研究已表明,基準測試可能被操縱或「作弊」。例如,Meta 曾提交一個專為在 LMArena 基準測試中表現良好而調整的 Llama 4 版本,透過使用客製化的回應格式。其他研究顯示,如 Gemini 2.5 Pro 和 Claude 3.5 Sonnet 等模型,能以高達 95% 的準確度識別測試場景並調整其回應,這引發了對當前評估方法有效性的更廣泛質疑。

(Link)
https://www.newmobilelife.com/2025/07/21/qwen2-5-maths-issue/
Sillysealy 2025-07-22 20:06:39
你試下A Level 記曬pastpaper 攞A俾我睇
支共就係國難 2025-07-22 20:08:02
中國AI推理能力弱到
係得黃仁勳為左做生意先讚得落
你冇L野丫 2025-07-22 20:08:25
你搵個冇做過past paper而攞到A嘅人出黎睇下先
我想返日本 2025-07-22 20:46:25
呢下完全冇問題喎,有邊個ai唔駛用data train??
每天插你多一些 2025-07-22 20:49:37
不嬲都係咁㗎啦,你唔見啲狀元都係咁㗎咩一同past paper有少少唔同就炒
9upfucup 2025-07-22 20:51:37
中國人AI
用中國人既方法
Sillysealy 2025-07-22 21:33:17
你啲邏輯咁好推理能好高
支共就係國難 2025-07-22 22:59:57
問題係overfit,見過嘅問題就背出黎,未見過嘅問題就完全唔識推理,直頭攞0分
黑膠蠍 2025-07-22 23:07:05
GAI係咁
grok就真係有推理能力
STP比狗做 2025-07-22 23:07:33
能你老母高咩
文盲學人講邏輯
支共就係國難 2025-07-22 23:22:43
OpenAI同Gemini都係
Sillysealy 2025-07-22 23:42:15
文盲唔可以講邏輯 你視野真係好窄
支共就係國難 2025-07-23 00:45:13
支共就係國難 2025-07-23 01:23:19
恆屍 2025-07-23 01:41:31
呢個係試緊極端情況下的可靠性
但一般個人用,商用學生用時..
幾可會問前所未見的問題

都係去番最根本的問題
邊套方案成本低而有一定可靠性
das2asff 2025-07-23 01:57:52
其實點解要咁defensive
人哋討論llm有無真正reasoning又無啦啦spin去咩成本
恆屍 2025-07-23 02:01:21
實際上時事台式討論根本係bullshit
因為一般人用ai好少用死一套

例如時事台最喜歡用所謂中國敏感字試機
邊有正常人用ai問呢科野
支共就係國難 2025-07-23 02:22:31
宣傳難 2025-07-23 06:12:21
反駁隊咁都要擦存在感
貪刀的小狗 2025-07-23 07:41:30
燒佢全家打佢媽媽 2025-07-23 09:12:48
中國人操數
HK.JY 2025-07-23 09:21:12
人當然唔得.佞家講緊電腦AI.
記曬pastpaper有幾難

出卷佬有幾何有新嘢.
只係變下問題.答案重點改一改.
Hengor 2025-07-23 09:23:07
你用ai 係想佢幫你解答新問題啦下話
已經有答案嘅問題,你睇返本答案咪得
何不採花?? 2025-07-23 09:24:25
中國連AI都靠背
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞