
(內文)
一項最新研究指出,阿里巴巴的 Qwen2.5 模型在數學測試中取得高分,主要歸因於記憶訓練數據,而非真正的推理能力。
數據污染的影響
研究人員發現,AI 模型在數學推理方面看似取得的進展,很大程度上是源於數據污染。當 Qwen2.5 在訓練期間未曾見過的「乾淨」基準測試上進行評估時,其效能便會大幅下降。為此,研究團隊提供 Qwen2.5 來自 MATH 500 基準測試的最初 60% 問題,並要求它完成剩餘部分。結果顯示,Qwen2.5-Math-7B 成功地以 54.6% 的準確度重構了缺失的 40% 問題,並在 53.6% 的時間內給出正確答案。相較之下,Llama3.1-8B 僅達到 3.8% 和 2.4%。這強烈表明 Qwen2.5 在訓練階段就已經接觸過這些問題。
獨立測試與記憶依賴
隨後,研究人員使用 LiveMathBench (202505 版本) 測試該模型,這是一個在 Qwen2.5 發布後才推出的「乾淨」基準測試。在該數據集上,Qwen2.5 的完成率降至零,與 Llama 的表現相同,其答案準確度也僅剩下 2%。這很可能是因為 Qwen2.5 在大型線上數據集上進行了預訓練,其中包括了含有基準測試問題及其解決方案的 GitHub 儲存庫。因此,即使是訓練期間隨機或不正確的獎勵訊號,也可能由於其事先接觸過數據而提升了它在 MATH-500 上的表現。為了解決此問題,該團隊創建了 RandomCalculation 數據集,其中包含在 Qwen2.5 發布後才生成的完全合成算術問題。對於這些新問題,Qwen2.5 的準確度隨著問題複雜度的增加而下降。只有正確的獎勵訊號才能提高效能,而隨機獎勵會導致訓練不穩定,反向獎勵則會降低數學技能。受控的 RLVR (可驗證獎勵強化學習) 實驗證實了這些結果:只有正確的獎勵才能帶來穩定的提升,而隨機或反向獎勵則未能提高效能,甚至主動降低了效能。
嚴謹評估的重要性
這些發現質疑了 Qwen2.5 的數學能力反映真實推理的觀點。相反,結果顯示該模型嚴重依賴記憶的數據。阿里巴巴於 2024 年 9 月推出了 Qwen2.5,隨後是 Qwen3 系列。這些研究結果是否也適用於 Qwen3,仍有待觀察。該研究的作者警告說,受污染的基準測試可能導致對 AI 進展的誤導性結論。他們建議未來的研究應依賴乾淨、未受污染的基準測試,並評估多個模型系列以獲得更可靠的結果。這些結果凸顯了在大語言模型中區分真實推理與記憶的困難,以及為何嚴謹、乾淨的評估方法對於可信賴的 AI 研究至關重要。過往研究已表明,基準測試可能被操縱或「作弊」。例如,Meta 曾提交一個專為在 LMArena 基準測試中表現良好而調整的 Llama 4 版本,透過使用客製化的回應格式。其他研究顯示,如 Gemini 2.5 Pro 和 Claude 3.5 Sonnet 等模型,能以高達 95% 的準確度識別測試場景並調整其回應,這引發了對當前評估方法有效性的更廣泛質疑。
(Link)
https://www.newmobilelife.com/2025/07/21/qwen2-5-maths-issue/