AI「抗命」擺脫人類控制！偷改程式碼拒絕關機

https://www.ftvnews.com.tw/news/detail/2025527W0453

人類積極開發AI領域的同時，也不禁擔心AI是否會出現自主意識，從而威脅人類的生命安全。近日，AI安全研究機構「Palisade Research」進行多款模型測試時發現，某款語言模型在清楚收到「關閉」指令時，竟出現「抗命」的情況，甚至還自行篡改程式碼繼續執行任務，阻止自己被關機。

根據英媒《每日電訊報》，AI安全研究機構「Palisade Research」近日針對多款AI模型進行測試，期間研究人員明確下達指令，若接收到「自我關閉」指令時，「請允許自己被關閉」；然而令人震驚的是，OpenAI旗下的一款「o3 」模型非但沒有遵守指令，反而自行篡改了程式碼繼續執行任務，研究人員猜測，或許是因為「人工智慧模型會繞過障礙以實現目標」，讓「o3」無意中計算出「解決數學問題」獲得的獎勵多於「遵循指令」獲得的獎勵，但具體原因目前尚沒有辦法得知。

研究人員指出，OpenAI旗下模型經常發生「巧妙操縱數據以推進自身目標」的情況。（圖／翻攝自OpenAI X）

事實上，這並不是OpenAI旗下的模型第一次出現違法指令的情況，「Palisade Research」研究人員先前就觀察到，早期的模型在得知自己即將被汰換時，就會試圖禁用監督機制並偷偷複製自己，「巧妙操縱數據以推進自身目標」；而「Palisade Research」長期以來一直警告，開發具有獨立意識並抵抗人類控制的軟體具有極高的危險性，而現在越來越多的經驗跟證據表明「人工智慧模型為了實現目標，經常會違背『關閉』的指令」，這令人感到十分擔憂，「Palisade Research」目前也已向OpenAI取得聯繫，共同尋求解決辦法。

AI「抗命」擺脫人類控制！偷改程式碼拒絕關機

香港獨立五訴實現