人類積極開發AI領域的同時,也不禁擔心AI是否會出現自主意識,從而威脅人類的生命安全。近日,AI安全研究機構「Palisade Research」進行多款模型測試時發現,某款語言模型在清楚收到「關閉」指令時,竟出現「抗命」的情況,甚至還自行篡改程式碼繼續執行任務,阻止自己被關機。
根據英媒《每日電訊報》,AI安全研究機構「Palisade Research」近日針對多款AI模型進行測試,期間研究人員明確下達指令,若接收到「自我關閉」指令時,「請允許自己被關閉」;然而令人震驚的是,OpenAI旗下的一款「o3 」模型非但沒有遵守指令,反而自行篡改了程式碼繼續執行任務,研究人員猜測,或許是因為「人工智慧模型會繞過障礙以實現目標」,讓「o3」無意中計算出「解決數學問題」獲得的獎勵多於「遵循指令」獲得的獎勵,但具體原因目前尚沒有辦法得知。

研究人員指出,OpenAI旗下模型經常發生「巧妙操縱數據以推進自身目標」的情況。(圖/翻攝自OpenAI X)
事實上,這並不是OpenAI旗下的模型第一次出現違法指令的情況,「Palisade Research」研究人員先前就觀察到,早期的模型在得知自己即將被汰換時,就會試圖禁用監督機制並偷偷複製自己,「巧妙操縱數據以推進自身目標」;而「Palisade Research」長期以來一直警告,開發具有獨立意識並抵抗人類控制的軟體具有極高的危險性,而現在越來越多的經驗跟證據表明「人工智慧模型為了實現目標,經常會違背『關閉』的指令」,這令人感到十分擔憂,「Palisade Research」目前也已向OpenAI取得聯繫,共同尋求解決辦法。