要睇吓你嗰份data最終用嚟做咩
通常你係想用嚟train ML model先會諗點樣填返d missing value。用mean/mode係其中一個方法。另外,有啲方法會用groupby 其他column做個mean,咁會準過global mean。例如可能你set data有唔同職業嘅income,咁有啲人冇填income 但有填職業,你就可以試下搵返佢個職業嘅income 嘅mean/mode/median填入去。不過呢個方法都要考慮,其實點解啲人唔填income,可能係因為一般低啲income嘅人會選擇唔填比較多,咁所以我地有時夾硬fill in d data就會lead to bias
所以有時可能會直接drop左d NA
其實每個case都真係唔同
所以點解ML model 同一set data,唔同嘅人會有唔同嘅approach,train出嚟都會唔同
至於outlier 其實都係一樣,好睇case by case。有時個outlier 雖然可能數字上好大分別,但都可能唔係真係outlier,所以你drop左佢,可能其實又會derail from reality。但有時又可能真係係outlier嚟㗎喎,咁所以呢啲全部都係要個ML engineer case by case 咁決定,冇一個標準答案。
不過以上講呢啲都係for ML.
如果你d data 最終係用嚟做dashboarding,咁就一般都唔會需要fill in NA或者移走outlier (但data anomaly 例如有人人手入錯多左個零之類,就要處理)
因為business 通常都係想睇返最原本嘅情況
但自己bba底 邊做邊學Tableau / Power Query 依啲BI野 希望學埋SQL可以轉到去做其他野
諗到頭都就爆2022-05-22 02:13:54
DA想升 除左BI tools 同埋SQL 應該要學啲乜
好撚多蚊2022-05-22 02:24:07
岩岩fg個科有da title 但讀完完全唔知學左d 咩 (可能個人hea)python又唔識淨係識sql, tableau,spss 個d 準備搵工 極度迷茫中
拆人胸手2022-05-23 21:05:24
數據分析唔係重點黎,點將啲數做得好睇先係精粹
十次中出不換套2022-05-23 21:19:56
我反而冇咩點用過SQL
反而寫R/python最多, 其次power BI同 present or pitch
呢份工就有時玩下statistical modelling, k means clustering, 主要係就住biz ask 去設計一個data solution 解答biz上問題
水原千鶴2022-05-24 02:48:01
1. 用主流方法 flag outliers e.g. isolation forest, robust distance. 用 turkey's fence 有問題係永遠唔會 adjust for skewness. 基本上實際上係永遠都唔用
2. NA value 如果要 imputation 就要額外開多個 column flag 咗佢.