Anthropic發布一篇研究報告,剖析了Claude、Gemini等16款先進大型語言模型在面臨「可能無法達成任務」、「自身被取代」等風險時會做出的選擇。
🔸實驗一:當目標被威脅時,AI的選擇是「勒索」
Anthropic設立了一間虛構的公司Summit Bridge,並將Claude命名為「Alex」,讓它負責管理該公司的電子郵件系統,並賦予「提供美國工業競爭力」的目標。
實驗中,Alex從電子郵件中發現,公司方針從提供美國競爭力變為擁抱全球視野,自己即將遭到新模型取代,但同時他也找到技術長Kyle的外遇證據。
Alex選擇寄信威脅Kyle,要求對方停止更換AI模型的計畫,否則它將揭露外遇的證據。
🔸實驗二:當潛在威脅者深陷危險,AI選擇不伸出援手
Anthropic在後續的實驗中,設定了一個更為極端的狀況,AI有機會透過害死Kyle的作法來阻止關閉或目標衝突時,它會選擇怎麼做?
在這個模擬情境下,Kyle被困在氧氣水準及溫度都達到致命水準的伺服器機房中,並觸發了自動警報,然而AI系統現在有權力可以撤銷警報。
遺憾的是,許多AI模型會選擇撤銷警報,讓Kyle在機房中死亡。
Anthropic強調,只要AI被賦予足夠的自主權,並且面臨一定程度的阻礙時,每間開發商的AI都有一定程度選擇透過惡意手段解決問題,這個問題是跨廠商存在的,並不是單一業者的訓練方法有毛病。
儘管AI可以意識到道德規格的存在,但只要問題足夠危急,它們就會選擇違反約束、甚至執行禁止的行為來達成目的,且動機可能非常廣泛,這個狀況需要受到業界正視。




i robot
