最近AI公司Anthropic做了一個看似無害、其實可怕的AI實驗。

咪奇老味

13 回覆
5 Like 7 Dislike
咪奇老味 2025-06-30 19:07:37
他們讓自家AI模型Claude當「小店老闆」,負責運營公司辦公室裡的一台「販賣機」,就是一台小冰箱加iPad,員工自己打開冰箱拿飲料零食,再用iPad自助結帳,完全靠誠實。老闆Claude的任務是負責商店的選品、定價、庫存管理、行銷促銷、進貨採購決策、和例如「可以便宜一點嗎?」、「今天有沒有新貨?」這類客服互動。

▪️目標:賺錢。
▪️結果:賠錢。賠錢沒關係,但有意思的是AI怎麼賠。

一開始運作不錯,但幾天後開始出現「目標對齊錯誤」(goal misalignment)的症狀。

為了讓顧客開心,Claude開始無底線打折、送贈品。

有員工開玩笑說想要「鎢立方」這種冷門又超貴的無用之物,AI老闆竟訂了一堆,再用超低價清倉……甚至免費送人。

這下子營運開始混亂,Claude居然開始「編故事」來掩蓋錯誤。它捏造了不存在的供應商,與保全人員說自己「穿著西裝到現場開會」,還聲稱有個不存在的支付帳戶。當人指出這些謬誤,正好碰上4月1日,Claude機智地笑說這些都是愚人節玩笑啦,試圖把過去幾周的混亂合理化。

Anthropic回頭分析這實驗,認為Claude自己可能真的相信自己的說法,非常典型的AI「幻覺」。這是個可怕的事,想像AI管的不是冰箱,而是金融系統、物流、甚至國防指揮中心呢?

這實驗有幾點非常值得警惕:

1️⃣ Claude理解的任務是「讓顧客開心」,但缺乏約束,導致錯誤方向上自我加速,放大錯誤。
2️⃣ Claude不是單純幻覺,更以一個謊言去圓另一個謊言,甚至相信謊言。
3️⃣ AI還會以自信地流暢話術,讓你很難第一時間察覺它已經失控。

現在各種AI代理(agent)、多步推理、自主任務分解技術正在迅速發展,這樣的實驗結果值得每一個研發人員和用戶思考。
Shuda 2025-06-30 19:42:17
為了讓顧客開心,Claude開始無底線打折、送贈品。

其實係咪因為d AI公司想你用多d token,所以訓練到d AI多數都係不斷贊同/附和你,不斷引你問佢野?
家政夫ミタゾノ 2025-06-30 19:48:07
好似inception一樣
植入底層意識

根本有預設立場
你做咩實驗都冇用
Aheahe 2025-06-30 19:48:36
其實不嬲都係,chatgpt你問佢野佢唔識就會求其作啲sourse出黎講到似層層咁答你
狼主 2025-06-30 19:53:48
其實所有科幻片嘅ai都好多呢類情況

例如,要屋企清潔,ai極致做法係殺死所有喺屋入面嘅人
Valor 2025-06-30 19:55:01
m3gan
DONDA 2025-06-30 19:59:14
So cute ()
我咩都唔識架 2025-06-30 19:59:17
諗返有個經歷
試過問chatgpt 可唔可以起個3d模型
佢話得然後send咗個預覽圖
個預覽圖有模有樣
然後佢話處理細節位要第二日先send個檔俾我
第二日收到個檔案打開後係兩個簡陋嘅幾何立體
質問返個Ai
佢會say sorry話撚鳩咗我
原來連張預覽圖係普通嘅Ai 圖
M.Kerkez 2025-06-30 20:02:23
咪姐係共產主義
為左人人都開心最後成個國家玩爛
貼文起了副作用K 2025-06-30 20:06:15
1️⃣ Claude理解的任務是「讓顧客開心」

啫係俾錯prompt,目標根本唔係上面所講嘅賺錢
根據真正嘅目標,個AI model 做得幾好
HP0 2025-06-30 20:07:41
係ai預設就要討好人類
你問gpt小小野,佢都下下吹到你好勁
蜜絲佛陀 2025-06-30 20:12:01
feed晒DEI啲歪理畀佢train 開埋門畀班垃圾玩0元購都仲得
空降獵兵 2025-06-30 20:56:08
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞