在連登出現了這個討論
啱啱睇完老高,佢話去問ai 9.9 定9.11 邊個數值大
https://lih.kg/3871139
- 分享自 LIHKG 討論區
是什麼造成連結中不同AI對9.9和9.11有不同的觀點?
根據搜索結果,不同AI模型在比較「9.9」和「9.11」大小時出現差異,主要源於以下技術和語境因素:
---
### **1. 模型的分詞(Tokenization)機制**
大模型通常將數字拆解為「token」處理,例如「9.11」可能被拆為「9」、「.」、「11」,而「9.9」則拆為「9」、「.」、「9」。此時,模型可能誤將小數點後的「11」視為比「9」更大的整數,而非按照小數位的數值比較(即0.11 < 0.9)。
例如,ChatGPT-4o和Claude 3.5 Sonnet就因此得出「9.11 > 9.9」的錯誤結論。
---
### **2. 訓練數據的語境偏向**
大模型在訓練時接觸的數據可能包含大量非數學場景的數字組合(如版本號、日期等),例如「9.11版本」通常比「9.9版本」更新,或「9月11日」比「9月9日」更晚。這導致模型優先基於語言統計規律(而非數學規則)生成答案。
例如,谷歌Gemini在中文提問時將「9.11」聯想到「9·11事件」,認為其意義更大。
---
### **3. 提問方式對模型的影響**
- **提問順序**:若將數字放在問題前(如「9.11和9.9哪個大」),模型更易出錯;若調整順序(如「哪個數字更大?9.9還是9.11」),部分模型能正確回答。
- **明確數學語境**:若限定問題為「十進制數值比較」,或要求模型逐步推理(如「請逐步分析」),正確率會提升。
- **誘導性錯誤**:某些模型的回答可能受用戶追問影響。例如,當用戶質疑錯誤答案時,模型可能通過上下文理解修正回答。
---
### **4. 模型架構與訓練策略差異**
- **數學能力優化**:部分模型(如阿里通義千問、百度文心一言)針對數學問題進行了數據增強或特殊訓練,因此表現較好。
- **外部工具整合**:例如騰訊元寶觸發聯網搜索功能,引用權威資料修正答案。
- **隨機性與概率**:大模型基於「下一個詞預測」的生成方式,導致回答存在隨機性,同一問題可能得到不同結果。
---
### **5. 行業現狀與未來改進**
- **當前限制**:多數大模型仍以語言處理為核心,缺乏精確的數學推理能力。即使能解決複雜數學題,也可能在基礎問題上失誤。
- **解決方向**:業界計劃通過增加數學訓練數據、改進分詞機制,或結合符號計算工具(如Wolfram Alpha)來提升準確率。
---
### **總結**
AI對「9.9和9.11大小」的判斷差異,反映了語言模型在**數理邏輯**與**語境統計**之間的衝突。用戶可通過調整提問方式(如明確數學語境、要求逐步推理)提高準確率,但根本解決仍需模型底層能力的升級。