Data Science之你問我地答

用戶1

680 回覆
30 Like 4 Dislike
利維亞的傑佬 2020-05-24 22:01:53
你本身熟唔熟numpy/pandas果D
因為leetcode係寫D更fundamental既野
say count sort, bisection search algo
或者Data Structures, 點用queue去solve問題之類
如果你本身唔熟DS libraries你應該練好左果D先
因為好大情況你都唔駛自己implement 呢D algos
好似tip題咁,你緊係練D directly related既野先

同樣道理, Data related roles既scope好寬.
Unless你真係打到ds既根基先好睇其他野
我前排無野做試過見份entry role.佢問左我2個鐘問題,全部都係真係要有少少根底先答得到
點碌都碌都入行先.
如果依家成日Drill D太High End太少眾既野見工人地唔問你你就哂左D effort
SkyDreamer 2020-05-24 22:36:56
想問下entry role應該預有咩topic要識同要去到咩程度
真豬都冇咁豬 2020-05-24 22:51:29
竟然有第二個大佬答埋我
有啊其實好多大topic 都hi 過 (project implement 過cnn, face clustering, nlp, time-series, recommender system) 但其實我知自己唔係話做得好好 好多時未拎到想要嘅result就悶咗就會揾第2樣野玩(例如我見人可能會做到90%準, 但我做到~75%就會悶之後唔玩所以而家雖然kaggle competition 有rank 但好低我知係bad practise, 希望自己會改)
但大路嘅library都用過 (numpy, pandas, seaborn plotly, keras pytorch)
下個project 應該做蘋果棋 reinforcement learning見kaggle 個competition 幾得意
我而家都係盡力諗緊點入行thx ching
我知淨係玩kaggle 其實唔夠 想試下做埋data collection and model deployment但自己唔知點做
同埋好似好大諗頭 都係要等我試咗先知又好驚話會唔會invest 咗咁多時間做ds project 最後入唔到行/會唔會入行2年後先發現ds 係香港係泡沫
利維亞的傑佬 2020-05-24 22:55:46
好難List哂出黎
但呢個summarized得幾好
https://towardsdatascience.com/top-30-data-science-interview-questions-7dd9a96d3f5c
呢D係基本
但依家好少人再用SVM,我覺得你讀好D tree related既野會好D
尤其係tree boosting.
Clustering點樣揀N cluster,點樣入features,點樣做scaling果D.
點樣做dimensional reduction
PCA, Auto encoder之類.
強烈建議試下拎Berkeley CS189 既assignment/exam去試下自己真係知得幾深.大家都明你既對手可能係DS major,你就要有同佢一樣既standard.
做份卷起碼要拎B range

外加少少domain depends啦
say 做NLP要識咩係word 2 vec, embedding, n gram
做online footprint analytic可以用RNN/NLP方汰做之類
做marketing要識咩係A/B test.點樣set control group

以上所有野一定一定要prepare一個學術版本同埋Layman版本
你要demonstrate到你真係識,你就要用D好簡單既字解比人聽
佢要深答案先比學術版
古語雲 2020-05-24 22:57:27
留名
利維亞的傑佬 2020-05-24 23:21:23
有實戰經驗真心已經好好
所有model都自己試過implement一次既其實已經好叻
反而我覺得你做得top有牌仔拎係bonus
但係現實上只要比existing method好,其實好多時已經可以出街
所以唔駛因為自己好似三分鐘熱度咁而覺得自己好差

我暫時有個小tips係,
interviewer好多時會問你做既過程有咩難點
你好易會答揀Feature/tune parameter果類process
嘗試抽離D,唔好太technical,可以business D去答出黎
或者兩邊都答哂.
通常佢地都幾buy. 因為TECH友10個有9個都係好固執,好鐘意試high end野,唔太鐘意同business side講人話,你show到你可以tum得到班business side,好能夠代入佢地既角度咁,通常都加到唔少分
Say Kaggle有樣野唔好就係佢比哂個目標你,但係實際上你要自己set個Y,好多時係同business negotiate,例如 ecommerce黎講,個客幾耐無買過野先叫churn client.
個客比起過去買多左幾多先叫growing client.
不過呢D無實際試過有D難吹,但都係盡力去connect番個現實,點樣去幫其他BU處理問題最實際 (除非你係做google/某D start up係專搞innovation做完sell比人,唔駛sell solution比其他BU)

collection方面你識少少scrapping都好多野講,
deployment你就無得自緊試,但你可以了解下,
say可能係寫Rest API call,或者定係封裝好一個file再放落production schedule佢踢著佢做scoring都好

我想講我都係好多野唔識,好話起DB set幾個replica cluster同sharding cluster咁,你知道有呢D concept,已經好多野可以講.
尤其果D唔suppose你做,但係係成個process會involve既.
呢D野通常都係錦上添花,你唔識佢唔會怪你,但係有基本認知,已經加好多分.
利維亞的傑佬 2020-05-25 00:05:39
普遍黎講D cert有無用我覺得好睇In你果個自己有無上網睇呢D既習慣
好老餅果D team lead有機會唔睇.
但係如果係Young少少既team lead基本上你有cert
show到你有睇過, 佢都會value你.
因為分分鐘佢自己都係咁樣入行
你唔等錢洗既我覺得其實都可以買一兩張黎寫CV
尤其係你真係無咩related background果陣

但係machine learning 呢個course一黎太舊
加上用octave,呢個course張cert我覺得無咩用
同埋你in得DS其實佢assume哂你識哂呢D野
多一張少一張cert無咩用
反而你應該投資係D update 同high level少少既科

例如你多多少少一定要知咩係CNN, RNN.
所以基本上走唔甩要睇埋deep learning specialization
你到時可以買呢科既cert放落CV
如簡單,作為interviewer,我唔會覺得你會識deel learning但唔識machine learning.
所以deep learning specalization一張cert已經可以作為ML+DL既替代.
JoeSatriani 2020-05-25 00:33:45
呢到好多神手
究竟要跟咩path先可以去到cs ug standards
學完edX cs50 應該要睇咩書/take 咩courses 咩concept最重要
又有咩practical cert, 知識應該要知道
條path應該點行
希望有高人指教下
利維亞的傑佬 2020-05-25 00:59:26
我都有一段時間沈迷CS野
想了解D computer architect,咩係OS
呢方面我諗好多CS神手係度
我講既野可能都係好新手
我自己就係跟番世界最好既大學既syllabus (stanford, berkeley)
say 讀哂 Berkeley CS61ABC, CS162, CS188果類
但係我最後無跟到,因為太大個坑,好多野知完其實都唔係好用得著.
practical cert我就無研究,始終我係入左行先學CS野,所以已經無再追cert.

小弟唔係CS底
我相信CS路線係一個DS好好既切入點
但係小弟愚見係好易行錯路,你可能用半年時間精通左D infra野,但係對modeling方面仲係好入門既話,未必幫到你過到interview.

CS同STAT都係DS既根基,但係係有限時間要入行既,我唔太建議Drill太入
甚至乎OOP可能都係唔駛識太深,直接落左DS果度打好根基先.
好簡單,In你果個如果係Stat底,基本上你知infra野, low level memory management果D其實幫唔到你見工.
你應該落重注落去common area同fundation, 即係D algos, 咩係overfit underfit果類
同埋我覺得都係果句
Business knowledge好緊要,識coding既大有人在,但係識落地既可能唔多.
一間公司如果得幾萬條record幾十個columns,唔好話一D好fancy既model architect,你同佢玩DNN佢可能都做唔到,根本落唔到地.

當然你地可能覺得呢D公司唔值得做DS, 但其實大有大做小有小做, 反而細data set都砌到好野落到地, 呢D skill其實都好值錢,因為有齊大data set你求其fit可能都做得好好

我試過做一間公司既skill test, 佢都係比萬幾行+幾十column我砌 model.一樣砌到D好野出黎
股壇解碼器 2020-05-25 01:18:59
+1,add tg?。呢個summer都會學
嬉怒的維度 2020-05-25 04:31:28
好同意細 dataset 都做到落地野呢個 point
現實特別好多 startups 跟本冇咩 labelled data / clean data
你好多時要自己收集數據 / 處理一堆 noisy & small data
有時你個 model 仲需要 interpretable
點係呢個 constraints 下做得好係好考功夫 (你好容易會灰機覺得做唔黎 / 冇pattern)
this kind of problems are neither high-end, nor highly technical
but it adds a lot of values to a company
莫斯科七十一 2020-05-25 06:33:13


我睇返男校 DS個syllabus, 佢只係將Math core搭咗啲Comp algorithm course core落去, 如果仲係讀緊書未有機會見business knowledge, 我諗識少少software engineering,知道點玩熟D tools係冇壞
最後2711同3711記得認真聽書

留個tg交流下, 我最近開始放暑假都揀個coursera嚟學緊,等自己對D algorithm熟書啲 以前讀完唔記得哂有排pick up, 要對返business case去揀真係頭都爆
大作戰 2020-05-25 09:07:51
開左個 tg group 想一齊take ML course 留tg
人數最多預住6人先
https://www.coursera.org/learn/machine-learning/home/info
抗爭豬 2020-05-25 09:36:52
毳梨裘絲 2020-05-25 10:25:02
automl真係乜鳩都唔使理禁個制等佢畀最好嘅結果你
股壇解碼器 2020-05-25 14:36:59
JoeSatriani 2020-05-25 15:08:09
thanks!
咁我check下 Berkeley CS61ABC, CS162, CS188 啦
其實我一開始果行好窄,但係可惜gpa唔高 好多時apply 工冇人理
雖然見好多人都開始行入data science呢行,網下又咁多camp
但係都想試下
喵咗行馬路 2020-05-25 15:29:45
真豬都冇咁豬 2020-05-26 00:06:36
ching 好勁有返啲business sense 都係我想改進嘅地方
而家得返一科final 又可以得閒煲返cousera
Hussar 2020-05-26 12:52:27
想知道唔係CS related degree,自學DS+ML過唔過到HR嗰關?

網上job ad基本上份份都寫要求有相關degree
利維亞的傑佬 2020-05-26 12:58:35
1.你諗下點樣show到比人睇你自學過先呢個好緊要,因為報得個個都話自己識,你有無咩野可以令你突圍而出?
2.通常真係大公司,真係難搞d,因為佢地真係當check list咁睇,見你無好多時係咁先,因為application太多

利申非cs /engine grad
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞