研究發現阿里巴巴 Qwen2.5數學能力佳主要原因是記憶而非推理

支共就係國難 2025-07-22 20:05:03

好似考dse同A-level咁，記晒past paper嘅答案就會高分

（內文）
一項最新研究指出，阿里巴巴的 Qwen2.5 模型在數學測試中取得高分，主要歸因於記憶訓練數據，而非真正的推理能力。

數據污染的影響
研究人員發現，AI 模型在數學推理方面看似取得的進展，很大程度上是源於數據污染。當 Qwen2.5 在訓練期間未曾見過的「乾淨」基準測試上進行評估時，其效能便會大幅下降。為此，研究團隊提供 Qwen2.5 來自 MATH 500 基準測試的最初 60% 問題，並要求它完成剩餘部分。結果顯示，Qwen2.5-Math-7B 成功地以 54.6% 的準確度重構了缺失的 40% 問題，並在 53.6% 的時間內給出正確答案。相較之下，Llama3.1-8B 僅達到 3.8% 和 2.4%。這強烈表明 Qwen2.5 在訓練階段就已經接觸過這些問題。

獨立測試與記憶依賴
隨後，研究人員使用 LiveMathBench (202505 版本) 測試該模型，這是一個在 Qwen2.5 發布後才推出的「乾淨」基準測試。在該數據集上，Qwen2.5 的完成率降至零，與 Llama 的表現相同，其答案準確度也僅剩下 2%。這很可能是因為 Qwen2.5 在大型線上數據集上進行了預訓練，其中包括了含有基準測試問題及其解決方案的 GitHub 儲存庫。因此，即使是訓練期間隨機或不正確的獎勵訊號，也可能由於其事先接觸過數據而提升了它在 MATH-500 上的表現。為了解決此問題，該團隊創建了 RandomCalculation 數據集，其中包含在 Qwen2.5 發布後才生成的完全合成算術問題。對於這些新問題，Qwen2.5 的準確度隨著問題複雜度的增加而下降。只有正確的獎勵訊號才能提高效能，而隨機獎勵會導致訓練不穩定，反向獎勵則會降低數學技能。受控的 RLVR (可驗證獎勵強化學習) 實驗證實了這些結果：只有正確的獎勵才能帶來穩定的提升，而隨機或反向獎勵則未能提高效能，甚至主動降低了效能。

嚴謹評估的重要性
這些發現質疑了 Qwen2.5 的數學能力反映真實推理的觀點。相反，結果顯示該模型嚴重依賴記憶的數據。阿里巴巴於 2024 年 9 月推出了 Qwen2.5，隨後是 Qwen3 系列。這些研究結果是否也適用於 Qwen3，仍有待觀察。該研究的作者警告說，受污染的基準測試可能導致對 AI 進展的誤導性結論。他們建議未來的研究應依賴乾淨、未受污染的基準測試，並評估多個模型系列以獲得更可靠的結果。這些結果凸顯了在大語言模型中區分真實推理與記憶的困難，以及為何嚴謹、乾淨的評估方法對於可信賴的 AI 研究至關重要。過往研究已表明，基準測試可能被操縱或「作弊」。例如，Meta 曾提交一個專為在 LMArena 基準測試中表現良好而調整的 Llama 4 版本，透過使用客製化的回應格式。其他研究顯示，如 Gemini 2.5 Pro 和 Claude 3.5 Sonnet 等模型，能以高達 95% 的準確度識別測試場景並調整其回應，這引發了對當前評估方法有效性的更廣泛質疑。

(Link)
https://www.newmobilelife.com/2025/07/21/qwen2-5-maths-issue/

Sillysealy 2025-07-22 20:06:39

你試下A Level 記曬pastpaper 攞A俾我睇