要睇吓你嗰份data最終用嚟做咩
通常你係想用嚟train ML model先會諗點樣填返d missing value。用mean/mode係其中一個方法。另外,有啲方法會用groupby 其他column做個mean,咁會準過global mean。例如可能你set data有唔同職業嘅income,咁有啲人冇填income 但有填職業,你就可以試下搵返佢個職業嘅income 嘅mean/mode/median填入去。不過呢個方法都要考慮,其實點解啲人唔填income,可能係因為一般低啲income嘅人會選擇唔填比較多,咁所以我地有時夾硬fill in d data就會lead to bias
所以有時可能會直接drop左d NA
其實每個case都真係唔同
所以點解ML model 同一set data,唔同嘅人會有唔同嘅approach,train出嚟都會唔同
至於outlier 其實都係一樣,好睇case by case。有時個outlier 雖然可能數字上好大分別,但都可能唔係真係outlier,所以你drop左佢,可能其實又會derail from reality。但有時又可能真係係outlier嚟㗎喎,咁所以呢啲全部都係要個ML engineer case by case 咁決定,冇一個標準答案。
不過以上講呢啲都係for ML.
如果你d data 最終係用嚟做dashboarding,咁就一般都唔會需要fill in NA或者移走outlier (但data anomaly 例如有人人手入錯多左個零之類,就要處理)
因為business 通常都係想睇返最原本嘅情況