<blockquote><blockquote><blockquote>一次過答曬你地d問題
首先要知道咩叫big data, 主要指&hellip;&hellip;
另外有巴打問power centre既tutorial,網上大把自己搵,power centre好容易用
power centre來自於informatica
呢間公司哩幾年全球grow得好撚快睇返gartner 系data management呢行既leading company來
識用d tool都無死,因為好多大公司買左</blockquote>
巴打我都用緊hadoop+spark去analyze d log files&hellip;&hellip;
咁我用regex去parse d content做一個個field啦
但當我input一d比較大/某d field有特別多data 既log files個陣
我create完dataframe再用sql 去select一x field個陣會pop timeout error既? 佢好似卡左係fetch table個度 係咪因為d salve worker既memory唔夠?
新手求救</blockquote>
唔好玩我啦
Hadoop + spark 死job可以有好多原因
最基本可以係你個regex parse 已經錯
Timeout 又有好多種,係spark 入面有得較長啲
Memory唔夠可以係container memory 唔夠,leak左data 落disk
Slave worker memory 唔夠既,個job會pending左係度
結論係如果無睇過啲code同咪啲data 答唔到你
上stack overflow 開topic問</blockquote>
巴打有前途 依家d公司開始搶big data人
唔該哂巴打!! 我跟你講個堆可能性check左次..最後成功左
咁撚樣都check到😂 有無咁天才