I agree that science or the scientific method is a way more robust framework than many other disciplines, but stats or just that you can do a regression on it doesn’t mean it is a good idea to do so.
統計學世界咁大
又唔係只有regression 可做
搵唔到比統計更有效既方法 你講到比統計更有效的方法嗎?
即係咁講
當然除咗 regression 仲有好多 tools 可以用
但太多時候好多人以為 stats 係 silver bullet 乜都可以解決
但好多時候 data 係 aggregated 所以唔真實理解data
Stats 可以好錯
Stats and data tell you what happens, but they don’t tell you why things happen that way
Data don’t lie, but people do
Stats 係好多時係 static aggregated data which is not great at predicting the future
當你啲 data 夠 granular 你又可以 model 得更真確
但好多時候做到咁準確個 ROI 根本唔喺度,depending on the circumstances
或者你得一撮data 結果反而有 sub optimization 嘅問題
有啲問題 data 同stats 未必係最佳方法
例如 sentimental analysis
Machine learning 某程度做到
但暫時成本高 對 sarcasm 假膠好難做得好
大部份 applications ROI 未必喺度
與其話 big data AI 呢啲enterprise 先玩得起
嚟緊十幾年應該會shift 返去用人腦做乜啲嘢而 data or stats 祇係輔助
或者我文科人覺得 0 同 1 中間好多灰色地帶
唔同角度可以睇到唔同嘢
讀得越多書就覺得所謂科學好兒嬉
小學中學大學研究院其實啲人都好似小學雞遊樂場玩泥沙
教授好多都係打份工心態
研究都係錢行先
你都on9, python一句import scikit.learn已經做到曬
你要既只係一堆data,再用唔同既方法做data mining
係clinical既角度,證明方法有效係優先於背後原理,你可以先將一個唔太明醫學原理的方法推出臨床用,之後再深究點解呢隻方法係work
疫苗既發明就係好例子,佢果陣一定未知咩係antigen antibody
我講緊做到 big data 要有齊 data 做 training
有 proper ETL process + Hadoop backend + data scientist 去做 feature engineering + model building
成本一年都差唔多過百萬美金
對大部份中小企業根本個 ROI 唔喺度
仲要做feature engineering
deep learning已經係自學
係有 deep learning
而家講緊廣泛利用
幾多500人以下當係e commerce 公司可以玩很起
有乜 off the shelf solution?
搵 vendor 做 proper implementation 要幾多錢成本? 當要五年內回本一年要有幾多 lift 先值去做
big data 同ai一人公司都可以implement應用
github有曬tutorial 有曬source code, 開issue有人會reply
你自己scratch data去分析又得,買data又得,你唔係以為big data只有大公司收集到呀