最近AI公司Anthropic做了一個看似無害、其實可怕的AI實驗。

咪奇老味

13 回覆

5 Like 7 Dislike

咪奇老味 2025-06-30 19:07:37

他們讓自家AI模型Claude當「小店老闆」，負責運營公司辦公室裡的一台「販賣機」，就是一台小冰箱加iPad，員工自己打開冰箱拿飲料零食，再用iPad自助結帳，完全靠誠實。老闆Claude的任務是負責商店的選品、定價、庫存管理、行銷促銷、進貨採購決策、和例如「可以便宜一點嗎？」、「今天有沒有新貨？」這類客服互動。

▪️目標：賺錢。
▪️結果：賠錢。賠錢沒關係，但有意思的是AI怎麼賠。

一開始運作不錯，但幾天後開始出現「目標對齊錯誤」（goal misalignment）的症狀。

為了讓顧客開心，Claude開始無底線打折、送贈品。

有員工開玩笑說想要「鎢立方」這種冷門又超貴的無用之物，AI老闆竟訂了一堆，再用超低價清倉……甚至免費送人。

這下子營運開始混亂，Claude居然開始「編故事」來掩蓋錯誤。它捏造了不存在的供應商，與保全人員說自己「穿著西裝到現場開會」，還聲稱有個不存在的支付帳戶。當人指出這些謬誤，正好碰上4月1日，Claude機智地笑說這些都是愚人節玩笑啦，試圖把過去幾周的混亂合理化。

Anthropic回頭分析這實驗，認為Claude自己可能真的相信自己的說法，非常典型的AI「幻覺」。這是個可怕的事，想像AI管的不是冰箱，而是金融系統、物流、甚至國防指揮中心呢？

這實驗有幾點非常值得警惕：

1️⃣ Claude理解的任務是「讓顧客開心」，但缺乏約束，導致錯誤方向上自我加速，放大錯誤。
2️⃣ Claude不是單純幻覺，更以一個謊言去圓另一個謊言，甚至相信謊言。
3️⃣ AI還會以自信地流暢話術，讓你很難第一時間察覺它已經失控。

現在各種AI代理(agent)、多步推理、自主任務分解技術正在迅速發展，這樣的實驗結果值得每一個研發人員和用戶思考。

Shuda 2025-06-30 19:42:17

為了讓顧客開心，Claude開始無底線打折、送贈品。

其實係咪因為d AI公司想你用多d token，所以訓練到d AI多數都係不斷贊同/附和你，不斷引你問佢野？

家政夫ミタゾノ 2025-06-30 19:48:07

好似inception一樣
植入底層意識

根本有預設立場
你做咩實驗都冇用

Aheahe 2025-06-30 19:48:36

其實不嬲都係，chatgpt你問佢野佢唔識就會求其作啲sourse出黎講到似層層咁答你

狼主 2025-06-30 19:53:48

其實所有科幻片嘅ai都好多呢類情況

例如，要屋企清潔，ai極致做法係殺死所有喺屋入面嘅人

Valor 2025-06-30 19:55:01

m3gan