發覺好多人對Data Analyst有錯誤幻想

733 回覆
1145 Like 26 Dislike
2022-05-17 17:59:18
如果你做consulting+大陸客,經常發生
最簡單電話號碼可以 12345678,85212345678,+85212345678,+852 12345678
,好撚煩,最煩係文字,例如地址,客戶名,貨品名稱
唔係下下都有個unique id去locate
2022-05-17 18:25:27
要睇吓你嗰份data最終用嚟做咩
通常你係想用嚟train ML model先會諗點樣填返d missing value。用mean/mode係其中一個方法。另外,有啲方法會用groupby 其他column做個mean,咁會準過global mean。例如可能你set data有唔同職業嘅income,咁有啲人冇填income 但有填職業,你就可以試下搵返佢個職業嘅income 嘅mean/mode/median填入去。不過呢個方法都要考慮,其實點解啲人唔填income,可能係因為一般低啲income嘅人會選擇唔填比較多,咁所以我地有時夾硬fill in d data就會lead to bias
所以有時可能會直接drop左d NA
其實每個case都真係唔同
所以點解ML model 同一set data,唔同嘅人會有唔同嘅approach,train出嚟都會唔同

至於outlier 其實都係一樣,好睇case by case。有時個outlier 雖然可能數字上好大分別,但都可能唔係真係outlier,所以你drop左佢,可能其實又會derail from reality。但有時又可能真係係outlier嚟㗎喎,咁所以呢啲全部都係要個ML engineer case by case 咁決定,冇一個標準答案。

不過以上講呢啲都係for ML.
如果你d data 最終係用嚟做dashboarding,咁就一般都唔會需要fill in NA或者移走outlier (但data anomaly 例如有人人手入錯多左個零之類,就要處理)
因為business 通常都係想睇返最原本嘅情況
2022-05-18 06:32:29
london工要tech master 43k狗也不屌
2022-05-18 21:25:54
fg想點
2022-05-18 21:35:47
想問下A記姐係邊間? asl定accenture?
2022-05-21 01:05:20
Accenture
2022-05-21 01:05:59
咩bg?有做過相關野?
2022-05-21 08:09:14
2022-05-21 12:32:47
點解唔考慮下做醫生,律師?仲好搵
2022-05-21 12:45:07
冇錯,我做e-commerce sales問親data team有咩insight俾生campaign,次次都又挨又西搞個幾禮拜之後俾啲阿媽係女人既野我,再問多少少就話冇data
2022-05-21 14:13:26
做得耐既話加幅會唔會勁?

要識好多IT application?
2022-05-22 01:33:09
想問要有咩資格先做得
2022-05-22 01:43:09
Data scientist 難好多 對數學 program底要求高好多 人工都高好多
2022-05-22 01:56:18
巴打講得好呀
我就係鳩砌dashboard 果啲
砌左半年已經開始覺得悶
老細又為做而做 個dashboard 都唔係人地想睇嘅野黎

但自己bba底 邊做邊學Tableau / Power Query 依啲BI野 希望學埋SQL可以轉到去做其他野
2022-05-22 02:13:54
DA想升 除左BI tools 同埋SQL 應該要學啲乜
2022-05-22 02:24:07
岩岩fg個科有da title 但讀完完全唔知學左d 咩 (可能個人hea)python又唔識淨係識sql, tableau,spss 個d 準備搵工 極度迷茫中
2022-05-23 21:05:24
數據分析唔係重點黎,點將啲數做得好睇先係精粹
2022-05-23 21:19:56
我反而冇咩點用過SQL
反而寫R/python最多, 其次power BI同 present or pitch
呢份工就有時玩下statistical modelling, k means clustering, 主要係就住biz ask 去設計一個data solution 解答biz上問題
2022-05-24 02:48:01
1. 用主流方法 flag outliers e.g. isolation forest, robust distance. 用 turkey's fence 有問題係永遠唔會 adjust for skewness. 基本上實際上係永遠都唔用
2. NA value 如果要 imputation 就要額外開多個 column flag 咗佢.
2022-05-24 04:11:15
RANSAC
2022-05-24 12:24:39
想問下有冇師兄有考過Tableau嘅certificate, 覺得有冇需要考?
2022-05-24 12:55:17
沒用。

考MS DA / 讀Google DA 仲好。
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞