雜訊:人類判斷的缺陷

天線得得得b

142 回覆
4 Like 1 Dislike
天線得得得b 2021-09-18 23:06:58
有一些高管會很自豪地告訴我們,相比於定量分析,他們更相信自己的直覺;其他人雖然沒明說,但他們也有同樣的看法。有關管理決策的研究表明,高管通常會憑直覺、感受或簡單的判斷(此處的判斷與本書中“判斷”一詞的含義不同)來行事,尤其是級別較高的、經驗豐富的高管。
天線得得得b 2021-09-18 23:07:29
內部信號是一種自我管理的獎勵,是一個人努力(有時或許沒那麼努力)做出判斷並最終完成判斷後的獎勵。它是一種令人滿意的情感體驗,也是一種令人愉悅的一致感,它使我們感覺我們所考慮的證據和做出的判斷是正確的,就如同玩拼圖遊戲時把所有的碎片都拼對了一樣。稍後我們將看到,隱藏或忽略那些與判斷不匹配的證據還可以增強這種一致感。
天線得得得b 2021-09-18 23:09:20
內部信號很重要,但具有誤導性,因為內部信號往往會被理解為一種信念而不是感覺。這種“感覺正確”的情感經驗偽裝成了我們對判斷有效性所持的信心——我知道該判斷是正確的,即使我不知道為什麼。

然而,對判斷所持有的信心並不能保證判斷的準確性,許多充滿信心的預測都是錯的。儘管偏差和噪聲都會造成預測誤差,但此類誤差最重要的來源並非受限於預測性判斷實際有多好,而是受限於預測性判斷應該有多好。我們將這一局限性稱為“客觀無知”(objective ignorance)。
天線得得得b 2021-09-18 23:10:31
你處於信息不完備的狀態中。難以琢磨的不確定性(未知之事)和不完備的信息(可知但不知之事)都將使完美預測變得不可能。這些未知信息並非源於判斷中的偏差或噪聲,而是源於任務本身的客觀特徵。這種由於重要信息缺失而產生的客觀無知嚴重限制了人們判斷的準確性,為避免用詞太過專業,我們用“無知”來指代這種不確定性。這樣可以避免混淆“不確定性”和“噪聲”。不確定性是關於世界和未來的,噪聲是本應相同的判斷中出現的變異。
天線得得得b 2021-09-18 23:29:56
心理學家菲利普·泰特洛克是我們的好朋友,他是一個堅持真理且充滿幽默感的人。 2005年,他出版了《專家的政治判斷》(Expert Political Judgment)一書。書名聽起來是中性的,但實際上這本書對專家預測政治事件的能力進行了猛烈抨擊。

泰特洛克研究了近300位專家的預測,包括著名的記者、受人尊敬的學者以及國家領導人的高級智囊團等。他想驗證這些人的政治、經濟和社會性預測是否正確,這項研究持續了20年之久。可見,想要驗證長期性預測是否正確,你必須有足夠的耐心。

泰特洛克的主要發現是:這些所謂的專家在對重大政治事件進行預測時表現得非常糟糕。書中有句玩笑話很有名:“整體上,普通專家預測的準確性和黑猩猩扔飛鏢差不多。”更精確地說,那本書的核心內容是:那些以“對政治和經濟趨勢發表評論或提供建議”謀生的專家,他們“在‘展望’新趨勢時,做得併不比《紐約時報》的記者或細心的讀者好”。可以肯定的是,專家們講故事的能力很強,他們可以分析形勢,並用令人信服的方式來描繪事態的發展趨勢,並滿懷信心地在演播室裡反駁那些提出反對意見的人,但是他們真的知道會發生什麼事嗎?事實上,他們可能並不知道。

泰特洛克撕開了專家們的面具,並得出了上述結論。對於每個預測性問題,他都要求專家給出三種結果(維持現狀、很可能發生或不大可能發生)的對應概率。在理想情況下,即使讓一隻黑猩猩通過扔飛鏢的方式進行選擇,它都會以相同的概率(1/3)“選中”三個結果中的任意一個。泰特洛克發現,專家們預測的準確率並不比這一最低標準好多少。平均而言,他們評估那些未來真正發生了的事件時,給出的概率只比那些最終沒有發生的事件稍微高一點,但他們常常表現得異常自信。那些對世界該如何運轉擁有一套清晰理論的權威人士是最自信的,也是最不可靠的。

泰特洛克的發現表明,對具體事件進行詳細的、長期性的預測根本不可能。這個世界是混亂的,一些微不足道的小事都可能引發嚴重的後果。例如,在受孕的瞬間,歷史上的每個重要人物以及無關緊要的人物都有50%的可能性會以另一種性別出生。那樣一來,注定會發生不可預見的事件,而且這些不可預見的事件的後果也是不可預見的。因此,你對未來的展望越遠,客觀無知就積累得越多。專家們在政治判斷上的局限性並非源於預測者的認知局限,而是由他們對未來的客觀無知所決定的。因此,我們的結論是:不應該將專家失敗的預測歸咎於專家本人。但是,他們確實應該受到批評,因為他們在嘗試完成一項不可能完成的任務,卻相信自己可以做到。

泰特洛克還有一項令人震驚的發現:長期預測毫無用處。幾年後,他與妻子芭芭拉·梅勒斯(Barbara Mellers)合作,研究了人們在相對較短的時間內(通常不到一年)對事件進行預測的情況。他們發現:短期預測是困難的,但並非不可能,而且有些人始終比大多數人(包括情報界的專業人士)預測得好。泰特洛克和梅勒斯將這些人稱為“超級預測者”(super forecasters)。在我們看來,客觀無知會隨著我們對未來展望的深入而增多,他們的新發現恰恰與這一觀點相符。
天線得得得b 2021-09-18 23:33:25
完美預測是不可能實現的,這似乎是顯而易見的事。當然,斷言未來是不可預測的也算不上什麼具有突破性的見解。然而,眾多研究證據都表明,人們做預測時會過分自信,這說明很多時候這一顯而易見的事實被我們忽視了。

過分自信的普遍性讓我們對非正式調查中那些相信直覺的決策者有了新看法。我們發現,人們經常錯誤地將自信水平這一主觀指標當成預測有效性的指標。

如果你對你的預測充滿信心,你就已經陷入了效度錯覺中:僅通過你所獲取的信息進行預測,其準確性必然非常低。

那些對自己的判斷極度自信的人否認自己的判斷中存在噪聲和偏差。他們不僅認為自己優於常人,甚至認為自己可以對一些實際上不可預測的事件進行預測。也就是說,他們從根本上否認現實的不確定性。用我們的術語來說,這種態度就是“否認無知”(denial of ignorance)。

放棄直覺確定性帶來的情感獎勵並非易事。因此,領導者們說,在高度不確定的情況下,他們更有可能依賴於直覺進行決策。如果現實無法給予他們把控感和信心,他們便會在直覺中尋求這些感覺。在充滿無知的情況下,否認無知就顯得更加誘人。

儘管所有證據都表明,機械性的預測方法和算法確實可以在一定程度上提高預測的準確性,但很多決策者仍會拒絕採用這些不讓他們依據直覺進行決策的方法。只要算法還不夠完美,人類的判斷就不會被取代。而且在許多領域中,客觀無知決定了算法不可能達到完美。這就是必須對人類判斷進行改進的原因所在。
天線得得得b 2021-09-18 23:35:08
事情雖無法預測,但可以被理解。
天線得得得b 2021-09-18 23:36:29
在存在很嚴重的客觀無知的情況下,我們很快就能意識到,用水晶球來預測未來是徒勞的,但我們通常並不會對這個世界產生這種體驗。

我們一直在基於少量的有用信息來對未來做出大膽預測。

一種普遍存在的錯誤信念:事件雖然無法預測,卻可以被理解。
天線得得得b 2021-09-18 23:38:32
當挑戰賽的研究者們將“理解”等同於“預測”,或是將“預測的缺失”等同於“理解的缺失”時,他們所謂的理解就是具有特定含義的。然而,這個詞還有其他的含義:當你說你理解某一數學概念或理解“愛是什麼”時,你想說的可能不是你有預測能力這件事。
天線得得得b 2021-09-18 23:43:57
在社會科學研究以及大多數日常對話中,如果有人聲稱理解某事,他指的是理解導致該事件發生的原因。
“脆弱家庭”研究中,社會科學家們收集並分析了數千個變量,現在他們想要找出觀察到的結果的成因。
如果醫生了解病人生的是什麼病,他們就會認為自己診斷出的病理就是所觀察到的症狀的成因。理解就是描述因果關係,

而預測能力就是衡量這一因果關係是否成立的指標。相關係數這一被用於衡量預測準確性的指標,衡量的是有多少因果關係是我們可以解釋的。
天線得得得b 2021-09-18 23:44:26
客觀無知不僅為我們的預測力設定了上限,也限制了我們的理解力。
天線得得得b 2021-09-18 23:47:27
與因果思維不同,統計思維通常是費力的,它需要的注意力資源只有系統2思維(緩慢而審慎的思維模式)發揮作用時才能滿足。除了基礎水平外,統計思維還需要經過專門的培訓才能掌握。這種思維方式基於整體的信息,將個別案例視為更大類別中的一個實例。它不會把瓊斯一家的遭遇看作由一系列特定事件導致的必然結果,而是觀察與瓊斯一家具有相同預測性特徵的先例,再判斷在統計上這是不是有可能發生的結果。

這兩種觀點之間的區別是本書反復出現的議題。依賴單一案例進行因果思維是預測誤差的重要來源,採用統計思維,也稱為外部視角(outside view),是避免這些誤差的方法之一。

儘管整個世界的可預測性比我們認為的要低,但因果思維幫助我們了解了一個比我們想像中還難以預測的世界,這也解釋了為什麼我們會認為世界比實際情況更具可預測性。
天線得得得b 2021-09-18 23:52:50
我們在回答下列問題時,往往會用什麼比較容易的問題替代(例子中每個問題下方都提供了一個可能的選項)?

· 我相信氣候變化嗎?
我相信那些說它存在的人嗎?

· 我是否認為這位外科醫生有能力?
這個人說話充滿信心和威嚴嗎?

· 項目會如期完成嗎?
現在項目已經按計劃在執行嗎?

· 核能是必要的嗎?
我會聞核色變嗎?

· 我對自己的生活感到滿意嗎?
我現在的心情如何?
天線得得得b 2021-09-18 23:55:23
在寫《星球大戰》(Star Wars)第三部的電影劇本《絕地歸來》(Return of the Jedi)的關鍵時期,該系列電影的製作人喬治·盧卡斯(George Lucas)與他出色的合作者勞倫斯·卡斯丹(Lawrence Kasdan)展開了激烈辯論。卡斯丹強烈建議盧卡斯:“我認為你應該‘殺死’盧克·天行者並讓利婭公主接手。”盧卡斯當即拒絕了這個建議。卡斯丹又建議,如果讓盧克活著,那麼另一個主角就應該死掉。盧卡斯再次拒絕,並補充道:“你不要光想著‘殺人’。”於是卡斯丹真心誠意地說出了自己對電影本質的看法。他向盧卡斯解釋道:“如果你喜歡的人在旅途中遭遇了不幸,這段旅途才顯得更有吸引力。這將使這部電影的情感分量大大增加。”盧卡斯的回答迅速而明確:“我不喜歡那樣,也不相信那一套。”

這裡的思維過程與你在考慮比爾是不是愛好演奏爵士樂的會計師時所經歷的思維過程完全不同。再看一下盧卡斯的回答:先是“不喜歡”,然後是“不相信”。盧卡斯對卡斯丹的提議自動地做出了回應,這種自動化的回應有助於激發他的判斷力,事實證明,他是正確的。

這個例子說明了另一種類型的偏差,我們稱之為結論偏差或者預判。像盧卡斯一樣,我們經常在判斷過程初期就對某個特定結論有了一種傾向性。當我們這樣做時,我們讓自己頭腦中的快速、依賴直覺的系統1思維給出結論,然後,我們要么繞過收集和整合信息的過程直接得出結論,要么轉而動員系統2思維進行審慎性思考,找到支持我們預判結論的論據。在這種情況下,證據就是有選擇性且失真的:由於證實性偏差和期望偏差,我們傾向於有選擇地收集和解釋證據,以支持那個我們已經相信或希望成真的結論。
天線得得得b 2021-09-18 23:56:36
替代偏差會導致我們對證據不正確地賦權;結論偏差會導致我們要么繞開證據,要么以曲解的方式考慮它;而過度一致性偏差則會放大初始印象的效果並減少矛盾信息的影響。當然,以上三種類型的偏差都會產生統計偏差,也都會產生噪聲。
天線得得得b 2021-09-18 23:57:14
有一個實驗可以幫助你體驗第三種偏差。你將讀到關於一位高管候選人的描述,該描述由4個形容詞組成,分別被寫在一張卡片上,並且這疊卡片剛剛做過洗牌處理。前兩張卡片的描述如下:

聰明,執著。

按理說,你應該等到獲得完整信息後再進行判斷,但事實並非如此:此時你已經對候選人進行了評估,並做出了判斷,但你無法控制這一過程,你的判斷過程根本無法暫停。接下來,翻開後兩張卡片,現在你獲得了關於這位候選人的完整的描述:

聰明,執著,狡猾,沒有原則。

這時,你的評價可能就沒有那麼積極了,但是變化應該不會太大。作為比較,請你再考慮如下的描述,這可能是洗牌後的另一種情形:

沒有原則,狡猾,執著,聰明。

第二種描述是由相同的形容詞組成的,但是由於形容詞出現的順序不同,對我們來說,第二種描述的吸引力顯然比第一種描述小得多。 “狡猾”一詞在“聰明”和“執著”之後出現時只有輕微的貶義,因為我們仍然(毫無道理地)相信這位高管總體上是好的。然而,對於第二種情況,由於出現在“沒有原則”之後,“聰明”和“執著”也不再是積極因素了,反而可能會使壞人顯得更加危險。

這個實驗說明了過度一致性(excessive coherence)偏差:我們能迅速形成一致性印象,但要想改變一致性印象,過程卻很緩慢。
天線得得得b 2021-09-18 23:58:34
回想一下上一章提到的比爾:比爾今年33歲,他很聰明,但缺乏想像力,而且大多數時候比較無趣。他上學的時候,數學學得很好,但人文社科類的課程的成績卻很差。我們要求你估計比爾從事各種職業和擁有各種愛好的可能性,然後我們看到你回答這個問題時用相似性判斷替代了概率判斷。你並沒有真的去思考比爾成為會計師的可能性有多大,而是在思考他與該職業的典型形像有多相似。現在,我們轉向另一個尚未解決的問題:你是如何做出這個判斷的?

評估比爾的特徵在多大程度上符合某個職業或某類愛好者的典型特徵並不難。相比於會計師,比爾顯然不像爵士樂愛好者,更不像喜歡衝浪的人。這個例子說明了匹配的非凡的通用性,在對人進行判斷時,匹配的作用尤為突出。你可以回答無數有關比爾的問題。例如,如果你和他一起被困荒島,你會有什麼樣的感受?僅憑得到的那麼一點信息,你可能立即就會得出一個直觀的答案。不過,我們還為你帶來了新的信息:據我們所知,比爾恰巧是一個有超強生存技能的經驗豐富的探險家。如果這個消息使你感到驚訝(很可能會如此),這就說明你剛剛經歷了一致性失調。
天線得得得b 2021-09-18 23:59:37
人類具有非凡的直覺力,可以對比兩個強度不同的量表,從而將兩個完全無關維度的強度相匹配。你可以將自己對不同歌手的感情強度與城市建築物的高度相匹配。例如,如果你特別喜歡鮑勃·迪倫(Bob Dylan),那麼你可以將自己對他的熱情與你所在城市的建築物的高度進行匹配。你還可以將你所在國家或地區當下的政局緊張程度與夏季的氣溫相匹配。如果要求你用一本小說的長度來度量一家餐廳的美味程度,而不是讓你給出常見的1~5顆星的評分,這種要求會讓你覺得很奇怪,但並非完全不可行。在這種情況下,你依然能很清楚地表達你的意思。
天線得得得b 2021-09-19 00:05:29
為了驗證這一想法,我們將每個參與者給出的這10起案件的賠償金額替換為按金額大小排序的分數,然後再次進行噪聲分析。最高金額的排序分數為1,次高金額的排序分數為2,依此類推。這種將賠償金額轉換為排序分數的做法消除了所有陪審員的水平誤差,因為除了偶爾會出現分數相同的情況外,1~10分的排序分佈對每個人都是一樣的。這裡要說明一點,該問卷有多個版本,每個人都評判了28個情境中的10個。我們將判斷10個相同情境的參與者劃分到同一組,然後對各組的反饋分別進行了分析,並且給出了平均值。

結果令人震驚:判斷的噪聲從94%下降至49%(見圖15-2)。將賠償金額轉換為排序後我們發現,實際上,陪審員在不同案件中對什麼是合適的懲罰基本達成了共識。事實上,賠償金額排序中的噪聲(如果有的話)還略低於最初的懲罰傾向評分中的噪聲。
天線得得得b 2021-09-19 00:15:48
專業判斷很少用如此模糊的量表。但是,模糊的量表是很常見的,這意味著本書所介紹的懲罰性損害賠償的研究對於商業、教育、體育、政府管理及其他領域都具有啟示性。第一,量表的選取會對判斷中產生的噪聲量造成很大影響,因為模糊的量表是充滿噪聲的。第二,如果可以的話,用相對判斷代替絕對判斷可能會減少噪聲。
天線得得得b 2021-09-19 00:18:29
專家們獨自做決策時,技能的差異就是噪聲。然而,當管理層有機會組建一個團隊共同做判斷時,技能的多樣性將成為一種潛在優勢,因為不同的專業人士將會考慮不同方面,並相互補充。
天線得得得b 2021-09-19 00:21:35
穩定的模式噪聲幾乎是水平噪聲的4倍——穩定的模式噪聲佔總變異的26%,而水平噪聲佔總變異的7%。這種可識別、穩定、特異性的個體模式,要比不同法官之間審判的嚴格程度的差異大得多。
天線得得得b 2021-09-19 00:25:48
有三件事至關重要。如果做判斷的人受過良好的訓練、更睿智且擁有正確的認知風格,那麼他的判斷也會產生更少的噪聲和偏差。換言之,好的判斷取決於你的經驗、思維能力,以及你的思考方式。好的判斷者往往經驗豐富且充滿智慧,但他們也時刻保持著思維的開放性,願意接納新的信息。
天線得得得b 2021-09-19 00:28:53
專業水平高的人做出的判斷,噪聲更少,偏差也更少。這些人是某個領域的真正專家。他們能做出比其他人更好的判斷,這一點是可驗證的,因為有結果的數據可以證明。

有一些判斷的效果是無法驗證的。在一定範圍內,我們不能輕易得知或毫無爭議地確定一些判斷的真正價值。

雖然這些領域的一些專業人士也被稱為專家,但我們對這些專家所做判斷的信心建立在同行對他的尊重的基礎上。我們將這類專家稱為“尊重型專家”(respect-expert)。

在缺少衡量對錯的客觀標準時,我們常常會看重尊重型專家的意見,雖然這些專家彼此之間也可能意見不一致。

為什麼會這樣?說得更明確一些,為什麼那些因自身判斷的高質量而受到他人尊重的人,在沒有任何客觀證據證明專家專業性的情況下,會選擇信任某些專家呢?是什麼造就了尊重型專家?

一部分原因是他們遵循共同的準則或專業規範。專家往往需要從專門的組織獲得專業認證,並在對應的機構中接受訓練,受這些機構監管。

有了共同的準則,專業人士就能知道在判斷時應該考慮哪些因素、如何做出判斷,以及如何確保最終的判斷更加合理。

除了掌握共同的準則,專家還要具備豐富的經驗。如果你的特長是下圍棋、演奏鋼琴,或是投擲標槍,那麼你有可能成為天才少年,因為結果驗證了你的水平。
天線得得得b 2021-09-19 00:50:14
這兩種消除測量偏差的方法,可以直接與消除判斷偏差的兩種干預方法進行類比:要么在做出判斷之後進行糾正;要么在做出判斷之前進行干預。
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞