雜訊:人類判斷的缺陷

天線得得得b

142 回覆
4 Like 1 Dislike
天線得得得b 2021-09-19 00:56:58
為了說明偏差檢查清單長什麼樣,我們在附錄2中展示了一個。這個通用檢查清單只是一個例子,決策觀察者一定要製定一個符合其所在組織需求的偏差檢查清單,以增強其相關性並便於應用。重要的是,一份清單並不會詳盡地列出所有可能影響決策偏差的因素,它的目的是突出那些最常見以及最重要的偏差。

偏差觀察清單
1.判斷方法

a.替代
· 團隊對證據的選擇和討論的焦點是否表明,他們用一個簡單問題替代了分配給他們的困難問題?
· 團隊是否忽視了一個重要因素或過度重視了一個無關因素?

b.內部視角
· 團隊是否採用了外部視角作為其決策考量的一部分,並認真嘗試運用相對判斷而非絕對判斷?

c.觀點的多樣性
· 是否有理由懷疑團隊成員的判斷存在共同的偏差?正是這種共同的偏差導致他們出現共性的錯誤。那麼,你能否想到了這個團隊沒有提及的一個相關觀點或專業知識?

2.預判和過早下結論
a.啟動預判斷
· 決策者中是否有人會因為得出某個結論而比得出其他結論的人獲利更多?
· 是否已經有人認定了某個結論?有沒有理由懷疑該結論存在偏見?
· 持不同意見的人表達他們的觀點了嗎?
· 是否存在對已然失敗的行動仍固執堅持的風險?

b.過早下結論和過度一致性
· 在選擇先前討論過的考慮因素時,是否存在偶然出現的偏差?
· 是否充分考慮了其他可能性並積極尋找過支持其他可能性的證據?
· 令人不安的數據或觀點是否遭到忽視或壓制?

3.信息處理
a.可用性和顯著性
· 參與者是否因事件是近期發生的、頗具戲劇性且與個人相關而誇大了該事件的相關性,哪怕該事件並不具有判斷價值?

b.對信息品質不重視
· 判斷是否嚴重依賴於傳聞、故事或類比?有數據可以證實這樣的判斷嗎?

c.錨定
· 準確度或相關性不確定的數字是否在最終判斷中起到了重要作用?

d.非回歸性預測
· 參與者是否進行了非回歸性推斷、估計或預測?

4.決策
a.計劃謬誤
· 當使用預測時,人們是否質疑過其來源和有效性?是否使用過外部視角來質疑這些預測?
· 不確定的數字是否有置信區間?置信區間夠寬嗎?

b.損失厭惡
· 決策者的風險偏好是否與組織一致?決策團隊是否過於謹慎?

c.即時傾向
· 採用的計算方式(包括所使用的折現率)是否反映了企業對短期目標和長期目標之間優先性的權衡?
天線得得得b 2021-09-19 00:58:32
我們稱這種減少噪聲的方法為決策衛生。當你洗手的時候,你可能不知道自己到底在預防哪種細菌感染,你只知道洗手是預防各種細菌感染的好方法(不僅在疫情期間如此,平時也應該這樣做)。同樣,遵循決策衛生的原則意味著:即使你不知道想要規避什麼樣的錯誤,你也應該採用減少噪聲的策略。

與洗手進行類比是我們有意為之。衛生措施可能很乏味,它們帶來的益處並非顯而易見,你可能永遠不知道你預防了什麼問題。而當問題真的出現時,你可能無法追溯到底是哪個衛生環節出了問題。因此,很難強制要求人們洗手,即便對方是對其重要性有著充分認識的醫療行業的專業人士,情況也是如此。

就像洗手和其他形式的預防性措施一樣,決策衛生極其有用,但並不討巧。糾正一個很容易識別的偏差至少可以讓你獲得一種實實在在的成就感,但是減少噪聲的過程不會。從統計學上講,減少噪聲可以避免許多錯誤,但你可能永遠也不會知道到底是避免了哪些錯誤。噪聲是躲在暗處的敵人,即使躲開了敵人的暗箭,你可能也察覺不到。
天線得得得b 2021-09-19 01:32:54
兩種廣泛適用的減少噪聲的策略。一種是選擇更好的判斷者,從而做出更好的判斷;另一種是最普遍適用的決策衛生策略之一——匯總多項獨立的評估結果。
天線得得得b 2021-09-19 01:38:41
超級預測者為何如此優秀?我們可以合理地推測他們異常聰明。這種推測並沒有錯。在GMA測試中,超級預測者在良好判斷計劃中的表現比普通志願者更好,而普通志願者的成績已經明顯高於平均水平。但差別並不總是那麼大,許多在智力測試中表現非常好的志願者並沒有成為超級預測者。除了常規智力,我們可以合理地預期超級預測者在數學方面的能力異常出色。他們的確如此。但他們真正的優勢不是數學天賦,而是能夠輕鬆自如地應用分析思維和概率思維。

想一想超級預測者對問題進行組織和分解的意願和能力。他們不會對一個國家是否會退出歐盟、一場戰爭是否會在某地爆發這樣的問題形成一個整體判斷,而是將其分解為幾個組成部分。他們會問:“什麼情況下答案才是肯定的?什麼情況下答案是否定的?”他們會問並試圖回答一系列輔助問題,而不是給出一種直覺或整體的預感。
天線得得得b 2021-09-19 01:39:00
超級預測者也擅長從外部視角看問題,他們非常關心基準概率。

根據他們讀到的新聞和分析,他們可能對此有一定的直觀感受,但他們知道,對某件事情的直覺往往不可靠。相反,他們一開始會去尋找一個基準概率:他們會詢問過去的邊界爭端升級為武裝衝突的頻率。如果這樣的衝突很少發生,超級預測者將首先考慮這一事實,再去了解兩國局勢的詳細信息。

簡而言之,超級預測者的與眾不同之處不在於他們智力過人,而在於他們明白如何運用智慧。他們運用智慧的技能反映了我們在第18章中描述的那種可能產生更好判斷的認知風格,尤其是高水平的“積極開放性思維”。回想一下關於積極開放性思維的測試:它包括“人們應該考慮與他們的看法相悖的證據”和“關注與你意見不同的人比關注那些與你意見一致的人更有用”。顯然,在這項測試中得分很高的人在新的信息出現時會大大方方地更新自己的判斷,而不會反應過度。

為了描述超級預測者的思維方式,泰特洛克使用了“永久測試版”(perpetual beta)的說法。這是一個程序員常會使用的術語,指的是一個不打算在最終版本中發布,卻被無休止地使用、分析和改進的程序。泰特洛克發現:躋身超級預測者行列的最有力的預測因素是“永久測試版”,即人們致力於更新看法和提高自我完善的程度。正如泰特洛克所說:“超級預測者之所以如此優秀,不在於他們是誰,而在於他們做了什麼——艱苦的研究工作,仔細的思考和自我批判,對其他觀點的收集和匯總,細微的判斷和不懈的更新。”他們喜歡一個特殊的思維循環:嘗試,失敗,分析,調整,再試一次。

“超級預測者”的成功主要歸功於他們在控制測量誤差方面的出色能力,而不是其他人無法複製的對新聞的透徹解讀。
天線得得得b 2021-09-19 01:39:57
醫療水平的進步往往是通過消除判斷也就是將判斷轉變為計算來實現的。對於鏈球菌性咽喉炎的診斷,醫生首先要對患者的咽拭子標本進行快速抗原檢測,這種檢測可以很快檢測出患者是否出現鏈球菌感染。可以說,即便有這種快速抗原檢測結果,鏈球菌性咽喉炎的診斷也存在噪聲,但如果沒有,那情況將更糟。如果你的空腹血糖水平為126mg/dL或更高,或是糖化血紅蛋白(過去3個月內血糖的平均值)高於6.5HbAlc,你就會被診斷為患有糖尿病。在新型冠狀病毒疫情出現的早期階段,一些醫生做初步診斷時是根據症狀做出判斷的,隨著疫情的發展,檢驗變得越來越普遍,有了檢驗結果,判斷就沒有必要了。
天線得得得b 2021-09-19 01:40:52
例如,一項針對放射科醫生做出肺炎診斷的研究發現,噪聲中很大一部分源自醫生技能上的差異。具體而言,“技能的差異可以解釋診斷決策中44%的變異”,這表明“提陞技能比使用統一的決策指南更有效”。訓練和甄選對於減少誤差、消除噪聲和偏差至關重要,在醫療領域也是如此。
天線得得得b 2021-09-19 01:43:07
要注意的是,心率是評分中唯一一個可以直接評分的項目,其他項目都需要先做一些判斷。但是,由於判斷被分解為多個相互獨立的元素,每個元素都很容易評估,即使是那些僅受過少量訓練的醫師,在評估時也不太可能產生很大的分歧,因此阿普加評分產生的噪聲很小。
天線得得得b 2021-09-19 01:43:54
指南成功地減少了噪聲,因為它在預先定義好的維度上將一個複雜的決策分解成了許多簡單的子判斷。
天線得得得b 2021-09-19 01:44:42
情境噪聲可能在其中發揮作用:就在某一天,或者就在某種情緒狀態下,臨床醫生可能會關註一些相對不那麼重要的預測因素,或忽略一些重要的預測因素。阿普加評分能夠將醫生的注意力集中在5個已經過實踐驗證的重要維度上。然後,評分標準清晰地描述了該如何評估每條線索,這大大簡化了根據每條線索做出判斷的過程,從而降低了噪聲。最後,阿普加評分還規定瞭如何給各個預測因素賦權,並產生所需的總體判斷,這個過程就是一項機械性的工作,而人類臨床醫生在給這些線索賦權時會存在差異。關注重要的預測因子,簡化預測模型,以及進行機械性匯總——所有這些都降低了噪聲。
天線得得得b 2021-09-19 01:46:12
在精神病學中,使用指南之所以很難取得成功,主要原因似乎是“某些疾病的診斷標準仍然模糊,難以操作”。一些指南通過將判斷分解成不同的標準來減少分歧,進而減少噪聲,但如果這些標準是相對開放的,噪聲仍然可能存在。考慮到這一點,我們呼籲制定更標準的診斷指南,具體的改進包括:
(1)明確診斷標準,捨棄模糊標準;
(2)給出症狀及其嚴重程度的“參考定義”,其依據的理論是“當臨床醫生對症狀是否存在能夠達成一致時,他們更有可能在診斷上也達成一致”;
(3)除開放式談話外,對患者進行結構化訪談,建議在訪談指南中納入24個篩選問題,如焦慮、抑鬱和飲食失調等問題,以便醫生做出更可靠的診斷。
天線得得得b 2021-09-19 01:47:05
以判斷為基礎的績效評估無處不在。
天線得得得b 2021-09-19 01:47:24
真正的差異——個人績效產生的差異通常不超過總差異的20%~30%,其餘70%~80%的差異是系統噪聲。
天線得得得b 2021-09-19 01:48:36
從理論上講,解決評估通脹問題的一個有效方法是在評估過程中引入一些規範,其中一個普遍的做法是強制排名(forced ranking)。在強制排名體系中,評估者不僅不能給所有人最高的評分,而且評分還必須遵循預先設定的評分分佈。傑克·韋爾奇(Jack Welch)在擔任通用電氣CEO時曾倡導強制排名這種做法,以此來防止評估通脹,以及確保績效考核的“公正”。許多公司都採用了這個方法,但由於它會對員工士氣和團隊合作產生不良影響,人們漸漸就不再使用這種方法了。

無論排名有什麼缺點,排名的噪聲都比評分的要小。我們在懲罰性損害賠償的例子中看到,相對判斷中的噪聲比絕對判斷中的噪聲要少得多,因此這種關係也被證明適用於績效評估。
天線得得得b 2021-09-19 01:50:33
面試中的噪聲:面試官更傾向於與自己相似的求職者。
天線得得得b 2021-09-19 01:52:43
不排除直覺,但推遲直覺。
天線得得得b 2021-09-19 01:53:23
第一個原則是分解,它將決策分解為多個組成部分,每個部分對應一個中介評估法。
天線得得得b 2021-09-19 01:54:19
該選拔過程,就像谷歌公司使用的選拔流程一樣,正式建立了一個評估結構——需要評估的性格和能力維度的列表。它要求面試官依次列出與每個維度相關的客觀證據,並在評估下一個維度之前對該維度進行評分。並且,它允許招聘人員在進行結構化評估之後再運用判斷和直覺做出最終決策。

有不可辯駁的證據表明,結構化的判斷過程,包括結構化面試,在招聘中具有優越性。它能為採用這一方法的高管們提供實用性的建議和指導。正如穀歌的例子以及其他研究人員指出的那樣,結構化的判斷方法成本會更低,因為會面十分耗費時間。

該選拔過程,就像谷歌公司使用的選拔流程一樣,正式建立了一個評估結構——需要評估的性格和能力維度的列表。它要求面試官依次列出與每個維度相關的客觀證據,並在評估下一個維度之前對該維度進行評分。並且,它允許招聘人員在進行結構化評估之後再運用判斷和直覺做出最終決策。

有不可辯駁的證據表明,結構化的判斷過程,包括結構化面試,在招聘中具有優越性。它能為採用這一方法的高管們提供實用性的建議和指導。正如穀歌的例子以及其他研究人員指出的那樣,結構化的判斷方法成本會更低,因為會面十分耗費時間。

儘管如此,大多數高管仍然相信非正式的、基於面試的方法具有不可替代的價值。值得注意的是,許多應聘者也相信只有通過面對面的面試,他們才能向未來的雇主展示自己真正的實力。研究人員稱之為“錯覺的持續”。很顯然,招聘人員和應聘者都嚴重低估了招聘判斷中的噪聲。
天線得得得b 2021-09-19 01:57:04
不久前,我們兩個人(卡尼曼和西博尼)與我們的朋友丹·羅瓦洛(Dan Lovallo)一起,介紹過組織中使用的一種決策方法。這一方法的首要目的在於減少噪聲,我們稱之為中介評估法。該方法涵蓋了我們前幾章所介紹的大多數決策衛生策略,並且它的應用範圍很廣泛,只要在計劃或選項的評估過程中需要考慮和權衡多維度信息,我們就可以使用該方法。該方法能夠以多種形式廣泛應用於所有類型的組織中,包括不同的公司、醫院、大學和政府機構等。

有研究表明結構化面試比非結構化面試效果更好,這一點你們想必已經很熟悉了,那麼同理,讓招聘決策結構化也可以改善決策品質。你們也都知道,我們的人力資源部在招聘決策中採用了這些原則。大量研究表明:結構化面試具有更高的準確性——這是我們過去使用的非結構化面試無法企及的。

結構化的流程不會拖延決策,它僅僅是為董事會討論這項交易制定一個議程而已。

我們應事先確定一個清單,定好從哪些方面對此次交易進行評估,就像面試官會列出崗位需求清單、確定候選人需要具備的特質或屬性一樣。我們將確保董事會對需要評估的各個方面進行逐一、獨立的討論,就像結構化面試中面試官們對候選人的不同維度依次進行評估一樣。

中介評估法能夠將信息的價值最大化,因為它確保了各個維度在評估時是相互獨立的。

使用結構化的方法將迫使我們等到完成所有評估之後再考慮達成決策這一目標。
天線得得得b 2021-09-19 02:01:18
評估清單應該是全面的,也就是說,你能夠想到的任何與交易有關的事,都應該列入其中,並且它應該至少會影響清單中的一項評估內容。我所說的‘獨立’是指相關事實最好只影響清單中的一項評估內容,盡量減少重複的情況。

要評估這項交易獲得監管部門批准的可能性,他們首先需要找出基準概率,即那些與本次交易有可比性的其他交易最終獲得批准的百分比。這項任務反過來要求他們定義一個與本次交易相關的參考類別,即一組被認為與本次交易具有足夠可比性的交易。

從最近的產品發布記錄來看,這個產品研發部門在同類公司中處於前40%的位置。 ”他解釋道,“總之,我們的目標是使評估盡可能有可比性,因為基於相對判斷要比基於絕對判斷好。 ”

當你對候選人的總體印象影響到你對他在某一特定維度上的技能評估時,就發生了光環效應。這是我們想避免的。

機械性匯總比總體性的診斷性判斷更優。

到這裡,你可能已經辨認出了我們在前幾章中介紹的幾種決策衛生技術:
對信息進行排序;
將決策過程結構化並進行獨立評估;
使用基於外部視角的共同參考框架;
匯總多個獨立判斷。

中介評估法旨在改變決策過程,通過應用這些技術盡可能多地引入決策衛生策略。
天線得得得b 2021-09-19 02:01:41
天線得得得b 2021-09-19 02:04:06
在國際象棋遊戲程序剛出現時,一家大型航空公司為國際航班乘客提供了國際象棋遊戲程序,請乘客與計算機對戰。這個遊戲程序有幾種不同的難度級別。在最低級別中,該遊戲程序遵循一條簡單的規則:只要有可能,就去將對手的軍。這樣的遊戲程序自然不包含噪聲,它每次都按相同的方式落子,並且始終遵循著這條簡單的規則。但這個規則會導致大量錯誤。事實上,這個遊戲程序的棋藝很糟,甚至沒有太多經驗的國際象棋新手也可以擊敗它。這當然也很重要:乘客能夠獲勝,會很愉快。
天線得得得b 2021-09-19 02:06:00
如果我們的目標是減少噪聲和了解如何減少噪聲(或在多大程度上減少噪聲),那麼我們就有必要區分兩種約束行為的方式:規則和標準。很多組織通常會選擇其中的一種,或將兩者結合起來使用。
天線得得得b 2021-09-19 02:08:50
規則旨在消除實施者的自由裁量權,而標準則會授予實施者一定的自由裁量權。

算法是規則,而不是標準。

讓不同的人就減少噪聲的規則達成共識非常困難,而這恰恰是需要製定標準而非規則的原因之一。
公司的領導者可能無法就員工應如何與客戶打交道的具體措辭達成一致,此時,制定標準可能是領導們最好的選擇。
在公共部門也有類似的例子,立法者可能在標准上達成妥協,並且如果容忍噪聲是確保法律得以實施必須付出的代價,那麼他們也能容忍由此導致的噪聲。
在醫學上,醫生可能會在疾病診斷標准上達成共識,而如果試圖制定規則,則可能引起嚴重的分歧。

有時,真正的問題在於人們缺乏能夠制定合理規則的信息。
天線得得得b 2021-09-19 02:11:01
需要注意的是,不要把本書中的“判斷”一詞與“思考”一詞混淆。判斷是一個相對狹義的概念,指的是以人的大腦為工具的測量。與其他測量方式一樣,判斷需要為一個對象賦值,不過這個值未必是數字。例如“瑪麗的腫瘤可能是良性的”是判斷,“國民經濟不穩定”“弗雷德是我們新任經理的最佳人選”“這種程度的風險所對應的保費應該是12 000美元”等,這些也都是判斷。判斷是將各種信息非正式地整合到總體評估中,但判斷不是計算,也無須遵循精確的規則。教師可以用判斷來對論文進行評分,但不能用判斷做多項選擇題。

判斷的目的在於準確性,而不在於個性化表達。

個人的價值觀、個性和創造力在思考與決策的許多階段都是重要的,甚至是必要的,包括目標選擇、形成解決問題的新方案以及生成選項。但在對這些選項做出判斷時,個性化的表達就成了一種噪聲源。

如果判斷是為了達到準確性,且你希望其他人認同你的判斷,那麼你就需要換位思考:如果其他稱職的判斷者處於你的位置,他們會怎麼想。
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞