雜訊:人類判斷的缺陷
天線得得得b
142 回覆
4 Like
1 Dislike
天線得得得b
2021-09-18 17:06:23
Kahneman新作 睇評價好似唔太高
https://www.books.com.tw/products/0010893007
社會充斥很多不合理的情況,像是不同法官對同一個案件卻有截然不同的判決、不同醫師對同一個病人的診斷有很大的差異、不同面試官對於是否錄取求職者意見大不相同,同一個員工的績效考核有不同的結果,甚至就連同一個法官、醫師與面試官在不同的時間也會做出不同的判斷。為什麼會這樣?
因為,只要有判斷,就會有「雜訊」
而且在日常生活中,雜訊比你以為的還要多
丹尼爾.康納曼、奧利維.席波尼、凱斯.桑思汀三位行為科學家發現,在經營管理、醫學、法律、經濟預測、法醫鑑識、保釋、兒童保護、策略、績效評估、個人選擇等領域,都看得到雜訊,但是一般人和組織都沒有意識到這個問題,結果是付出高昂的代價、企業有更大的隱藏成本、公共安全與衛生受到影響、社會還會出現極端不公平的情況。
本書中,作者從各領域的實例中拆解雜訊出現的原因,並提供幾項決策保健策略,幫助讀者預防決策雜訊。

天線得得得b
2021-09-18 17:08:46
理想情況是,每一槍都能正中靶心。
A隊幾乎達到了理想情況,他們的每一發子彈都緊緊圍繞著靶心,接近完美模式。
B隊的每一發子彈都偏離了靶心,我們可以稱其為偏差隊。在圖0-1中,我們可以根據B隊偏差的一致性進行這樣的預測:如果該隊中的某位成員再開一槍,我們敢說子彈的落點也會與前5次落點的區域相同。偏差的一致性也許有原因可循:B隊使用的來复槍的瞄準器歪了。
C隊的子彈落點很分散,我們可以稱其為噪聲隊。子彈的落點大致都在靶心四周,因而沒有明顯的偏差。如果該隊的某位成員再開一槍,我們很難準確預測他可能擊中的位置,而且我們也無法從C隊的結果想出任何有趣的假設。我們只知道C隊的成員不太擅長射擊,但確實不知道為什麼子彈的落點如此分散,會充斥著如此多的噪聲。
D隊是偏差與噪聲共存隊。與B隊類似,D隊的落點基本上都偏離了靶心;與C隊的相似之處在於,D隊的落點也很分散。
天線得得得b
2021-09-18 17:10:25
此時,你無法分辨是A隊還是B隊的子彈落點更接近靶心,但你能一眼看出,相比於這兩隊,C隊和D隊存在更多的噪聲。
噪聲的一個普遍特性是:你可以在對目標或偏差一無所知的情況下,識別噪聲,並對它進行測量。
天線得得得b
2021-09-18 17:12:55
要想理解判斷中的錯誤,我們必須同時理解偏差和噪聲。
醫學診斷中存在噪聲。
不同醫生對同一患者是否患有皮膚癌、乳腺癌、心髒病、肺結核、肺炎、抑鬱症等疾病,會做出不同的判斷。
精神科診斷中的噪聲尤其多,顯然是因為精神科醫生的主觀判斷對診斷結果起決定性作用。
然而,在一些並不應該存在噪聲的領域,例如在對X線片報告的解讀中,也存在著大量噪聲。
兒童監護權判定中存在噪聲。
兒童保護機構中的案件負責人需要評估兒童是否存在受虐待的風險,如果存在,則需要進一步評估是否需要將他們送去寄養。
鑑於有些案例的負責人比其他負責人更有可能做出將兒童送去寄養的決策,所以該系統存在噪聲。
多年後,被某些過於嚴格的負責人送去寄養的不幸兒童,境遇大多很糟糕:犯罪率更高,青少年時期懷孕率更高,收入更低。
預測中存在噪聲。
專業的預測人員對新產品的可能銷量、失業率的可能增長、經營不善的公司破產的可能性,以及其他各類問題,都會做出分歧非常大的預測。
他們不僅意見不一,而且各自的預測也前後矛盾。
例如,當同一批軟件開發人員被要求在不同的兩天中分別評估完成同一任務所需的時間時,他們前後兩次估計出的時間平均相差71%。
庇護權決策中存在噪聲。
尋求庇護者能否被允許進入某個國家,就和買彩票差不多。
一項研究發現,在將庇護申請隨機指派給不同的法官後,一位法官批准了5%的申請,而另一位法官卻批准了88%的申請。
該研究的標題說明了一切:
《難民輪盤賭》(Refugee Roulette)。
(在後文中,我們將會看到許多“輪盤賭”。)
人事決策中存在噪聲。
不同面試官對相同應聘者的評估常常大相徑庭。
類似地,對相同員工的績效評估,管理者之間也存在著很大差異。
結果更多取決於評估者不同,而非被評估者的表現。
保釋決策中存在噪聲。
被告是獲准保釋,還是移送監獄候審,部分取決於審理該案件的法官。
有些法官更為寬容,有些則更為嚴格。
法官們對於哪些被告最可能逃逸或再犯的評估,也存在著顯著的差異。
司法鑑定科學中存在噪聲。
在我們的認知範圍內,指紋鑑定是絕對可靠的。
然而,在判定犯罪現場的指紋與犯罪嫌疑人的指紋是否匹配時,指紋鑑定師們的意見有時也會不一致。
不僅不同專家之間會產生分歧,即使是相同的專家,在不同場合看到相同的指紋時,也可能做出不同的判斷。
類似的差異性,在其他司法鑑定領域,甚至是DNA分析中也同樣存在。
專利權授予決策中存在噪聲。
關於專利申請的一篇重要研究論文的作者強調了專利申請涉及的噪聲:
“專利局是授予還是拒絕一項專利申請,很大程度上取決於該項專利申請被分配給了哪一位審查員。”
從公平的角度來看,這種差異性顯然是有問題的。
天線得得得b
2021-09-18 17:24:23
美國國會頒布了《1984年量刑改革法案》(Sentencing Reform Act of 1984)。該法案希望,通過減少“法律賦予負責量刑、執行判決的法官和假釋機構的不受約束的自由裁量權”來降低系統中的噪聲。尤其是,國會議員在提到“過於懸殊”的量刑差異時,特別引用了紐約地區的調查發現:對相同真實案件的量刑可能是監禁3年,也可能是監禁20年。
就像弗蘭克爾法官建議的那樣,國會立法允許設立美國量刑委員會(US Sentencing Commission),其主要職責很明確:發布強制性的量刑指南,並確立其限制範圍。
根據量刑指南,法官必須在量刑時考慮兩個因素:被告所犯罪行和被告的犯罪記錄。根據罪行的嚴重程度,量刑指南將罪行分為43個等級。被告的犯罪記錄則主要指被告以前被定罪的次數和判決的嚴重程度。一旦將罪行和犯罪記錄結合起來,法官就能根據量刑指南確定一個相對具體的量刑範圍,其最高刑期與最低刑期之間的差距不得超過6個月或25%。法官也可以偏離該範圍來加重或減輕處罰,但必須向法院說明理由。
雖然量刑指南是強制性的,但是它也並非完全沒有調整的餘地。它並沒有達到弗蘭克爾法官所希望的程度,也為法官提供了較大的裁量空間。最後,使用了各種不同方法並關註一系列不同歷史時期的幾項研究都得出了相同的結論:該指南可以減少噪聲。更準確地說,它減少了由於量刑法官身份的偶然性而導致的判決中出現的淨差異。
儘管有了這些發現,量刑指南還是遭到了猛烈的抨擊。一些法官認為,有些判決過於嚴厲。事實上,這一點涉及的是偏差,而不是噪聲。就我們的目的而言,一個更為有趣的反對意見是:許多法官認為該指南極度不公平,因為它會妨礙法官充分考慮案件的具體情況。減少噪聲的代價就是使決策變得更機械化,這讓人難以接受。耶魯大學法學教授凱特·斯蒂斯(Kate Stith)和美國聯邦法官喬斯·卡布拉內斯(José Cabranes)寫道:“我們不能對案件的細節視而不見。我們要有洞察力,注重公平性,只有在判斷過程中充分考慮特定案件的複雜性,才能做到這一點。”
這一反對意見給量刑指南帶來了嚴峻挑戰,有些是法律層面的,有些則是政策層面的,但都未能動搖該指南的效用。直到2005年,美國最高法院才取消了該指南,主要是由於技術原因,而與此處涉及的爭論完全無關。根據美國最高法院的裁決,該指南之後僅作為參考建議。
將量刑指南從強制性改為建議性,會帶來什麼影響?哈佛大學法學教授克麗絲特爾·楊(Crystal Yang)沒有採用實驗或調查的方法對這個問題進行研究,而是利用了龐大、真實的判決案例集。該案例集涉及近40萬名刑事被告。通過多種測量方法,她的核心發現是:法官之間的量刑差異在2005年後明顯增加。當該指南是強制性準則時,相比於嚴厲程度一般的法官,相對嚴厲的法官判處的刑期僅會多2.8個月;當該指南僅作為建議時,這種差異增加了一倍。像40年前的弗蘭克爾法官一樣,克麗絲特爾·楊寫道:“我的發現引起了人們對公平的廣泛關注,因為在很大程度上,量刑法官身份的不同造成了‘同罪不同罰’這一不公正現象。”
在量刑指南成為建議性準則之後,法官更有可能根據自己的價值觀做出判決。可見:強制性準則既能減少偏差,也能減少噪聲。在美國最高法院做出將量刑指南作為參考建議的裁決後,美國非裔被告與犯有相同罪行的白人被告之間的量刑差距明顯增加。同時,女性法官比男性法官更有可能行使她們日益增加的自由裁量權,從而對犯人做出寬大處理。
天線得得得b
2021-09-18 17:25:51
第一,世界充滿複雜性與不確定性,因此判斷是一件困難的事情。這種複雜性在司法領域顯而易見,在其他大多數需要專業判斷的情形中也是如此。從廣義上講,這些情形包括由醫生、護士、律師、工程師、教師、建築師、招聘委員會成員、圖書出版商、各類企業高管以及球隊經理人等所做的判斷。凡是判斷,就不可避免地存在分歧。
第二,分歧的程度比我們預想的大得多。儘管很少有人會反對司法自由裁量權原則,但幾乎每個人都會反對它所產生的差異。在理想情況下,判斷應該完全相同,不應該存在差異。因為差異會導致層出不窮的不公平現象、高昂的經濟成本和多種類型的錯誤。
第三,噪聲是可以減少的。由弗蘭克爾倡導並由美國量刑委員會實施的方法——頒布強制性量刑指南,是成功減少噪聲的幾種方法之一。另外,還有一些方法更適用於其他類型的判斷。一些減少噪聲的方法同時也可以減少偏差。
第四,減少噪聲的努力往往會招致反對,讓人舉步維艱。這些問題必須得到解決,否則對抗噪聲的鬥爭最終還是會失敗。
天線得得得b
2021-09-18 17:30:13
更為普遍的是,與組織打交道的人希望系統能夠提供可靠的一致性判斷。總之,他們不希望自己的系統中存在噪聲。
系統噪聲的一個特點是,它是不必要的,而我們想要強調的是:判斷中的變異性並非總是不必要的。
讓我們想想人們的偏好或品位問題。如果有10位影評人觀看同一部電影,或有10位品酒師評價同一款酒,又或有10位讀者閱讀同一部小說,我們並不期望他們給出完全相同的評價。畢竟,人各有所好,這完全在意料之中,因為沒有人願意生活在一個所有人的好惡都完全相同的世界中。然而,如果我們的個人品位被誤認為是專業判斷,那麼品位多樣性就可能導致錯誤。如果一位電影製片人決定推進一個“小眾”的項目(比如,轉盤電話的興衰),其原因僅僅是他個人喜歡這個劇本,而不管其他人對這個項目的看法,那麼就可能會犯下大錯。
當幾家公司或同一組織中的幾個團隊競相為同一個客戶問題制訂創新性解決方案時,我們就不希望他們採用相同的方法;當多個研究團隊試圖攻克同一個科學問題時,情況也是如此,例如在研製疫苗時,我們希望各研究團隊能從不同的角度去看待問題。即使是預測者,有時也會表現得像個競爭者一樣。如果預測者能從別人沒有想到的視角,正確地預測到經濟衰退的可能性,那麼他肯定會一舉成名,而墨守成規、從不偏離一致性的人則將碌碌無為。在這種情況下,想法和判斷的變異性同樣有存在的必要,因為變異是第一步。在隨後的階段,這些判斷的結果會相互競爭,最優判斷會獲得勝利。市場猶如自然界,沒有變異,選擇就不會起作用。
品位和競爭引發了有趣的判斷問題,但我們的討論重點是判斷中存在的不必要的變異性。系統噪聲是系統層面的問題,系統是組織,不是市場。當交易員對同一隻股票的價值做出不同的評估時,其中一些人會賺錢,另一些人則不會,可以說正是分歧造就了市場。但是,如果隨機選擇其中一名交易員來代表他任職的公司進行評估,我們還發現他的同事做出了非常不同的評估,那麼該公司就存在系統噪聲,這就是一個大問題。
天線得得得b
2021-09-18 17:31:25
正如資產管理公司、刑事司法制度以及前面討論的保險公司的案例一樣:只要判斷者是從一群具有同等資歷的人中隨機挑選出來的,噪聲就是一個必然存在的問題。系統噪聲困擾著許多組織和機構:比如,你去醫院接受哪位醫生的治療、哪位法官在法庭上審理你的案件、哪位專利審查員審查你的申請、哪位客戶服務代表聽取你的投訴等。在這些由不同人做出的判斷中,不必要的變異性會引發嚴重問題,包括金錢損失和廣泛存在的不公平現象。
關於判斷中不必要的變異性,一個常見的誤區是認為它無關緊要,因為通常來說,隨機錯誤是可以相互抵消的。當然,在關於同一案件的判斷中,正負誤差會趨於相互抵消,我們將詳細討論如何利用這一特性來減少噪聲。但存在噪聲的系統並非對同一案例做出了多次判斷,而是對不同的案例做出了有“噪聲”的判斷。如果保險公司對一份保單的理賠金額估價過高,而對另一份保單估價過低,從平均值而言,兩次估價看起來可能是適當的,但實際上保險公司卻犯下了兩次代價高昂的錯誤。如果兩名罪犯都應該被判處5年有期徒刑,卻分別被判處了3年和7年有期徒刑,那麼儘管平均值是5年,但事實上正義並沒有得到伸張。因此可以看出,在充滿噪聲的系統中,錯誤不會相互抵消,只會累加。
天線得得得b
2021-09-18 17:32:50
多數時候,我們大多數人都有一個根深蒂固的信念,即這個世界就是它看起來的樣子。當然,也很容易相信:“其他人對世界的看法與我差不多”。 “其他人對世界的看法與我差不多”這樣的信念也被稱為“天真的現實主義”,它對於我們與他人共有的現實感而言至關重要,而且我們很少質疑這些信念。我們在任何時候都對周圍的世界持有一種單一的解釋,通常而言,我們很少會投入精力來尋找其他可能的解釋。在我們看來,一種解釋就足夠了,我們將其視為真實的經驗。人們通常不會想到用其他方式來看待自己所看到的東西。
就專業判斷而言,相信他人也像我們一樣看待世界的信念每天都在以多種方式被強化。首先,我們與同事使用同一種語言,遵循著同一套規則來考慮決策中的重要因素。我們也有一些可靠的經驗,可以就違反這些規則的荒謬判斷與他人達成一致。我們把與同事之間偶爾出現的分歧看作對方的判斷失誤,卻很難意識到,我們一致認定的規則是含糊不清的。這些規則雖然足以消除某些可能性,但並未明確規定可對特定案例做出的積極回應。我們可以與同事愉快地相處,根本不會注意到他們實際上並不像我們那樣看待世界。
天線得得得b
2021-09-18 17:36:27
哪裡有判斷,哪裡就有噪聲,而且它比你想像的還要多。
天線得得得b
2021-09-18 17:38:31
單一決策被視為與重複決策截然不同的類型。大型公司中由無本質差異的僱員所做的常規決策就是重複決策。社會科學家已經對重複決策進行了大量的研究,而高風險的單一決策則一直是歷史學家和管理大師們的研究對象。這兩類決策的研究方法有很大的不同。對重複決策的分析往往採用統計方法,社會科學家會通過對多個類似的決策進行評估,識別其中的模式,確定其規律並測量其準確性。相反,對單一決策的討論通常從因果關係視角進行事後總結,集中探討的是事件發生的原因。歷史分析,比如對成功與失敗的管理案例進行分析,是想了解某個獨一無二的判斷是如何做出的。
單一決策的特性對研究噪聲提出了挑戰。我們將噪聲定義為對相同問題進行判斷的過程中產生的不必要的變異。單一決策無法被重複,因而這個定義對它並不適用。畢竟,歷史只發生一次,你永遠無法將奧巴馬在2014年向西非派遣醫務工作者和軍人的決策,與其他美國總統在特定時間處理特定問題的決策進行比較(儘管你可以進行推測)。你可以將你決定嫁給心儀之人的決策同其他與你相似的人的決策做比較,但這種比較顯然不同於我們對同一案件中不同核保員提出的報價所進行的比較。也就是說,對於單一決策,我們沒有直接的方法來考察是否存在噪聲。
我們無法得知該隊的噪聲水平,但事實上噪聲源是一直存在的。在做出單一決策時,你必須想像另一個決策者,即使他和你能力相當、有著相同的目標和價值觀,他也會從相同的事實中得出不同的結論。作為決策者,你應該認識到,如果情境中的無關變量或決策過程有所不同,那麼你就可能會做出不同的決策。
天線得得得b
2021-09-18 17:39:01
如果單一決策與重複決策一樣存在噪聲,那麼用於減少重複決策中噪聲的策略應該也可以用於提高單一決策的品質。
從減少噪聲的角度來看,單一決策是僅發生一次的重複決策。無論只做一次決策還是做一百次決策,你的目標都應該是減少偏差和噪聲,而且減少錯誤的實踐方法在單一決策和重複決策中同樣有效。
天線得得得b
2021-09-18 17:41:03
判斷這一概念本身包含著一個你不得不承認的事實:你永遠無法確定一個判斷是不是準確。
包括專業判斷在內的判斷介於兩者之間:一端是事實或計算問題,另一端是品位或意見問題。因此,不同主體的判斷必然存在一定程度的分歧。
從測量學的角度而言,第一個問題反映的是“個體內的信度”(within-person reliability),第二個問題反映的是“個體間的信度”(between-person reliability)。
天線得得得b
2021-09-18 17:43:33
如果一個被認為有90%的可能性會發生的事件並未真正發生,也並不能說明概率判斷是不好的,畢竟,即使某個結果只有10%的可能性會發生,它也有可能真正發生。
我們比較了兩種評估判斷品質的方法:一種是比較判斷的結果,另一種是比較判斷過程的品質。
一名熟練、謹慎的預測者在使用最好的工具和技巧對季度通脹進行預測時,也經常會出錯。
而在關於單個季度的預測中,即使是讓黑猩猩擲骰子,也有可能給出準確的“答案”。
研究決策的學者為解決這一問題提出了清晰的建議:關注過程,而不是單個案例的結果。然而,這並非現實生活中的慣常做法。專家們也經常評估自己的判斷與可驗證結果之間的一致程度,如果你問他們,他們判斷的目標是什麼,他們會說:盡可能地與結果一致。
其實,他們應該追求的目標是:努力實現能夠對一系列類似案件做出最佳判斷的過程。
天線得得得b
2021-09-18 17:45:05
預測性判斷和評估性判斷的邊界比較模糊,做出判斷的人往往沒有意識到二者間的差異。
天線得得得b
2021-09-18 17:45:55
如果不同判決之間的差異太大,大到就像抽籤一樣,那就是有問題的。
系統噪聲就是不一致,而不一致會損害系統的可信度。
天線得得得b
2021-09-18 17:46:43
測量誤差,噪聲與偏差的代價一樣大。
測量和減少噪聲應該與測量和減少偏差同等重要。
天線得得得b
2021-09-18 17:50:08
為了最小化均方誤差,你需要盡可能避免大的誤差。
例如,如果你在測量長度,那麼將誤差從11厘米減少到10厘米的效果是將誤差從1厘米減少至完全消失的效果的21倍。
人們非常渴望一次性把問題全部解決,對小的誤差高度敏感,但對兩個大的誤差之間的差異不敏感。即使你真心相信你的目標在於獲得準確的判斷,但你對結果的直覺反應與基於科學計算的準確性並不完全匹配。
當然,最佳的解決辦法是既減少噪聲,也減少偏差。
既然偏差和噪聲是彼此獨立的,如果減少噪聲,而減少噪聲又可以使偏差更加清晰明了,那麼這種選擇就是正確的。
天線得得得b
2021-09-18 17:51:45
關於良好決策,一個得到普遍認可的準則是:不應混淆自己的價值判斷和事實。決策需要根據客觀、精確的預測性判斷做出,這些判斷不應受到你的希望與恐懼、偏好與價值取向的影響。
對於電梯公司而言,第一步是利用不同的技術解決方案對電梯的最大技術負載進行客觀計算。安全性僅僅在第二步才需要被重點關注,即根據不同的安全邊際來設定最大負載時。
可以肯定的是,該選擇在很大程度上取決於事實判斷,諸如設置不同安全邊際的代價與收益。
同樣,決定何時出發去火車站的第一步應該由客觀的旅行時間決定,至於錯過火車的代價和提前到火車站所浪費的時間,只有在你需要決定甘願冒多大風險時才成為你需要考慮的因素。
天線得得得b
2021-09-18 17:52:17
同樣的邏輯適用於會產生更嚴重後果的決策。在決定是否發動軍事進攻時,指揮官需要權衡一系列因素,但他依賴的最重要信息是預測性判斷。
政府官員在對公共健康危機做出回應時,需要權衡不同選項的優勢和劣勢,如果缺少對每一選項的可能後果的準確預測,這種評估就無法完成。
天線得得得b
2021-09-18 17:55:07
回想一下秒錶實驗:你連續測量10秒的時間長度,但每一次的測量結果與前一次都可能存在差別,此時你表現出了個體內的差異。
同樣,如果要求法官們在其他場景中再次為16起案件量刑,他們做出的量刑結果也不可能和第一次完全相同。
個體內的這種變異性與我們已經討論過的個體間的穩定變異不同,但我們很難將這兩種變異的成因區分開來。我們將這種轉瞬即逝的因素所導致的變異稱為情境噪聲。
天線得得得b
2021-09-18 17:55:57
想像一名職業籃球運動員正在準備罰球的場景:他站在罰球線上,全神貫注地準備投籃。這是他練習過無數次的一系列動作,他能投中嗎?我們無法預知結果。
罰球就像抽籤,雖然庫裡比奧尼爾投中的概率更高,但依然像是在抽籤。
這種變異來自何處?我們知道,很多因素都會影響球員的罰球命中率,比如長時間比賽的疲勞、比分接近時的心理壓力、主場的歡呼聲、對方球迷的噓聲。如果像庫里或納什這樣的球員沒投中,那麼我們會做出如上的解釋,但事實上,我們不太可能知道這些因素到底起了什麼作用。因此可以說,球員表現中的變異性就是一種噪聲。
天線得得得b
2021-09-18 17:56:39
在罰球或人類的其他生理過程中存在變異性,這不足為奇。我們習慣了身體裡的變異性,比如我們的心率、血壓、下意識的反應、音調、手的顫抖等在不同時間都是不同的。無論我們多麼努力地想要寫下相同的簽名,但每一張支票上的簽名仍略有不同。
想要觀察人類思維上的變異性尤其不易。當然,即使沒有新的信息,我們也都有改變主意的經歷,比如,前一天晚上令我們捧腹大笑的電影,此時看起來就可能平庸無奇,很容易淡忘;前一天受到嚴厲審判的那個人,現在看來應該得到寬恕;一個我們曾經不喜歡或不理解的觀點,現在覺得很有道理。但是,正如這些例子所表明的,我們通常會將這種改變與相對沒那麼重要且非常主觀的事情聯繫起來。
天線得得得b
2021-09-18 17:59:46
測量情境噪聲並不容易,因此一旦檢測到它的存在,人們會感到驚訝不已。一旦人們形成了一個經過審慎思考的專業意見,他們就會找理由支持該意見。如果有人要求他們對自己的判斷做出解釋,他們就會以自認為具有說服力的論據來捍衛這一判斷。如果他們再次遇到同樣的問題,並且確定自己以前遇到過,他們就會給出與第一次相同的意見,以此來減少認知負擔並維持一致性。設想一個關於教師的例子:如果一位教師給一篇作文評了非常高的分數,一個星期之後他又讀了這篇作文並看到了第一次的評分,那麼他這一次給出的評分不太可能與上一次差別很大。
天線得得得b
2021-09-18 18:01:04
對多個獨立判斷或測量進行平均會產生一個新的判斷,雖然這一判斷不一定會比個體判斷產生更少的偏差,但它會產生更少的噪聲。
沃爾和帕什勒想要看看同樣的結果是否也適用於情境噪聲:將同一個體的兩次猜測進行平均,是否就像將不同人的猜測進行平均一樣更接近真實值?沃爾和帕什勒的發現表明,答案是肯定的,他們給這個發現起了一個令人印象深刻的名字:內部群體(the crowd within)。
對同一個體的兩次猜測進行平均,對於決策品質的提升效果並沒有對兩個獨立個體的意見進行平均時更好。正如沃爾和帕什勒所指出的:“你對同一個問題做出兩次回答帶來的好處,是向另一獨立個體尋求建議時所獲好處的1/10。”
顯然,這種改進並不大,但如果你能等待一段時間再去做第二次猜測,你所獲得的好處會大得多。沃爾和帕什勒在3個星期之後再問被試同樣的問題,此時這種做法帶來的好處上升到向另一個人尋求意見帶來的好處的2/3。在無須額外信息以及外在幫助的情況下,這種方法已經非常不錯了。這一結果明顯為一種古老的決策智慧提供了理論依據,那就是:“睡一覺吧,明天再說。”