Data Science之你問我地答

用戶1

680 回覆
30 Like 4 Dislike
1729 2020-05-23 00:50:06
想要個major就讀埋
不過OS一般黎講應該會幾chur下
用戶1 2020-05-23 02:46:33
如果你對computing有興趣,無論做IT定DS,識多啲CS/software development都幾有用
個人認為香港DS未來會多啲去applications方面,好似另位巴打做既野咁用啲tools (e.g. cloud apis/library)去develop solution解決business問題。依方面會注重business skill同埋development, 你識development可以做埋data engineering, build pipeline, manage data lake等等,都會有優勢。

market上係越黎越多公司開DS role, 不過公司多數唔會開得多post, 所以會想請有經驗既DS多,fg都有機會既,但黎緊應該好多讀DS既graduates, 要同人爭。若然你有project/profile, 可以gather埋放係GitHub, 寫上CV。DS/AI/ML都好範,如果你咁岩做過佢地想做既project, 例如間公司想DS做NLP, 你又玩過,咁成功機會就高好多了
三七二十一 2020-05-23 07:07:18
其實呢兩科都重要,不過一定要二揀一,我會揀OS先

OS course 除咗教你OS點運作(一條process 嘅lifecycle, memory 點allocate, virtual memory 係乜,filesystem 係乜)最重要係教你system programming。正路你會順便練埋寫C, 寫kernel code
學semaphore/mutex 呢啲concept (multi-core / distributed system programming 嘅根本)
又應該會用Linux 教,畀機會你接觸多啲Linux system
呢啲knowledge 係好好好有用, 因為你會更易估倒啲嘅嘢點做點運作。記住學嗰時係學嗰concept 同principle, 基本上係唔會過時,一世受用

Computer architecture (或者叫computer organization) 就學ISA(撘單學埋assembly programming)CPU 點行一條instruction, memory caching 點運作。
正路會either 叫你寫vhdl/verlog/C 去emulate 嗰CPU, 寫嗰pipelined cpu implement 一個ISA咁。
實際應用上就少啲,對於我黎講最重要嘅concept就係pipelined instruction execution, 呢個concept 有時可以apply 落你點寫一個software 寫得快啲(例如你有啲code 又要用CPU, 又要用GPU, 會有知覺要pipeline 咗佢,唔好搞到用GPU嗰時CPU idle咗,or vice versa)
讀CS 啲fundamental course 你會學倒好啲time proven 嘅engineering design, 而呢啲engineering design/concept 其實可以apply 係唔同地方。

反而theory of computation( 應該係formal language, push down automaton, turning machine, P 同NP 嗰啲啦)你唔讀compiler 就冇乜用,都可以叫學regular expression嘅
雖然佢學嘅concept 又好unique 好得意嘅
真豬都冇咁豬 2020-05-23 10:22:50
thx ching其實我黎緊就係ds 第一屆graduate
curriculum 主要讀math + stat + cs(oop, algo, databases)
原本想再精進啲讀stat/math黎揾ds 工之前in ds intern 俾人問過dl原理野唔算答得好好
而家聽完ching 咁講其實補返啲cs底對揾ds工都有幫助仲有it 工多一條出路
因為得返一年就grad都好擔心啲時間invest咗去啲唔值得嘅skill
第一屆又冇alumni 指點prof 個啲都係係象牙塔 就業個啲野佢地都未必識 淨係識吹好多工
有行內人講返真係對ds ug 好大幫助好多謝分享
真豬都冇咁豬 2020-05-23 10:28:43
咁聽落都幾緊要我成日聽cs fd 話os/computer organization 冇用
(雖然科大嘅os 真係出名垃圾)
多謝ching 分享咁我諗我未必take course 但都起碼會上網補返相關knowledge
theory of computation 我都知冇咩用純粹係個人興趣 唔知點解個人最鐘意讀好theoretical 嘅野(數最鐘意讀measure theory/topology又係對ds冇咩用)thx ching again 你講嘅cs 野其實好inspiring
因為冇人同我講過os 好有用
真豬都冇咁豬 2020-05-23 10:31:06
應該讀下online 就算讀曬cs major 學校都唔會俾我declare cs
不過啱啱揾咗陣online os course 睇個樣得udacity 有個簡單版
人在澳 2020-05-23 10:36:31
1729 2020-05-23 11:07:15
好少聽人對CS theory咁有興趣
如果analysis, topology呢d都讀得掂既話
我諗你好多野自己睇都得, 例如machine learning
搵下有冇d advanced algorithms (randomized, approximation, FPT, etc.)或者complexity theory既course讀下應該仲開心
database都可以好theoretical, 不過我唔熟
同埋如果會考慮software engineer既話, d大公司interview都係問d algorithm問題
主要睇下你problem solving能力多過識唔識d standard野(不過前提係有返咁上下programming skill)
三七二十一 2020-05-23 11:15:48
其實OS 對DS 另一個幫助係,distributed system 都幾based on OS嘅knowledge, 而起一條data pipeline 本質上係起一個distributed system,雖然有現成tool, 但你無可避免要debug, 嗰時就係用返OS/networking 教過你嘅嘢嘅時候

BTW, 其實我好想學measure theory 因為想明多啲probability theory (sigma algebra 嗰個approach), 同stochastic process, 讀master take 過個stochastic process course 因為冇measure theory 底(其實連real analysis 都冇,我啲analysis 係學linear system theory 嗰時撘單學埋)讀到差啲Fail 好彩ito calculus 簡單嗰啲真係好簡單,咁先冇事...

你識measure theory, 嗰數底應該唔會差、你玩classical machine learning 同Bayesian approach 嘅machine learning 應該可以玩得好開心
用戶1 2020-05-23 18:04:34

巴打有興趣ML,可以再上下啲online free course體驗下先,睇下有幾大興趣同埋岩唔岩自己
其實DS用statistic既model多, 比較少用deep learning model, 如果你想做deep learning 類會係AI/ML engineer做多啲
可以睇下人玩kaggle啲blog先
我要做月球人 2020-05-24 00:43:35
睇你講咩BA
有啲BA係搞清楚個product requirement
有啲係睇數做report
但感覺基本都同DS差十萬九千里
抗爭豬 2020-05-24 00:49:32
我要做月球人 2020-05-24 00:54:45
我見佢寫住免費係咪免費有cert?
抗爭豬 2020-05-24 01:03:58
唔知呀 我見一開始佢有得比我揀比錢定Free
我揀咗Free 唔知佢啲Cert認受性高唔高呢
赫蘿世界第一 2020-05-24 01:05:40
如果data set細我會用返sklearn 唔好搞咁多野

Spark有ML同Mllib 兩個唔可以同時撈亂一齊用 比佢伏過
Spark個底係JVM 用pyspark個陣小心data type係python既data type同Spark之間轉黎轉去 (用Scala應該好D)

(利申玩過下 冇研究)
我要做月球人 2020-05-24 01:10:05
我相信係認受性高既入門課程
我覺得IT係英雄莫問出處既行業嚟
更睇重你學到幾多 有咩output 多過你input過啲咩
抗爭豬 2020-05-24 01:11:06
用戶1 2020-05-24 01:19:12
我係做IT類既野誤打誤撞入左行,我本身有啲IT底
然後就睇kaggle, online course, medium, YouTube自學
之後再讀master, 我讀master係入行後
吃遍這世界賓周 2020-05-24 01:21:41
學校project 黎, 一定要用pyspark
搞左幾日終於將個keywords column 變左做個posterior probability, 計左個odds黎做keywords 既score. 再將個dataset 扔入去train 個mlp.

我搵左個dataset 係108k rows x 14 cols 既, 未知要行幾耐,我而家都係cut 左個dataset 做幾百rows,打算寫好左個py file,無問題先行個大既dataset.

而家睇緊pyspark.ml 個mlp 點寫.
btw, 如果有class imbalance, 係咪應該加多個column 係class ratio,先扔入去train 個model? 我見佢mlp 個library 無parameter 比你set 個ratio
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞