IT 討論區 (145) Git Checkout

1001 回覆
4 Like 2 Dislike
2022-03-12 16:18:26
自已玩kafka 可以用operator
strimzi 都算係無鑊氣
我自已野airflow 同kafka 用operator都ok

公司野正常有人睇住confluent kafka
2022-03-12 16:20:07
strimzi 好野來
2022-03-12 16:22:47
2022-03-12 16:43:57
其實多唔多公司用databricks 見佢官網個demo都整得幾靚仔 仲要有sql同 delta lake
2022-03-12 16:45:22
同埋想問下da同de條路 洗唔洗識埋linux
2022-03-12 16:49:26
唔多。因為太新。btw,佢屌打其他data tools。snowflake都唔夠佢揮
2022-03-12 16:49:39
唔洗。
2022-03-12 16:54:39
香港都有,大公司為主
delta lake好野來
etl就多數一係databricks一係airflow
2022-03-12 16:59:00
但個delta lake個delta sharing到依加都未release
2022-03-12 17:06:22
大家點睇iot公司
2022-03-12 17:17:16
賺唔到大錢
2022-03-12 17:34:40
data 有冇話邊個industry 係特別好payd/請得比較多人?
fintech/bank/it vendor??
2022-03-12 18:03:12
其實3間完全唔同......general concepts可以話一樣, 但好睇個line manager點睇件事, 想要即時hand on做到野同比時間你pick up都好唔同.
2022-03-12 18:07:20
2022-03-12 18:09:43
2022-03-12 18:44:31
2022-03-12 19:05:43
睇咗三版咩都睇唔明
2022-03-12 19:33:34
2022-03-12 19:37:24
2022-03-12 19:46:13
Service account?
2022-03-12 19:48:33
2022-03-12 20:16:06
2022-03-12 20:19:04
Speaking of cloud platform, I’ll probably start using them via cli lol web portal is so slow
2022-03-12 20:27:25
想補充2點,
1. spark主要over pandas應該在於distributed processing, pandas雖然易用但唔support distributed. 常見有可能data scientist用pandas做一d細規模d/downsampled嘅data analysis, DE再用spark重寫
2. 嚴格嚟講SQL database都唔係用嚟做datawarehouse, 傳統SQL DB主要optimize咗係CRUD, transaction等等application usage. Azure Synapse, big query, Hive呢類專做datawarehouse嘅俾DE process 完raw data 再儲低做BI/reporting, 所以datawarehouse會喺reporting方面做得好d ,e.g. 處理fact同dimension table之間嘅joining
datalake主要係儲返raw data, 例如web scrap/亂七八糟各種data source. data scientist可以喺datalake入面睇返邊d data啱用嚟做data analysis, 再同DE夾返點起返pipeline去automate processing data
2022-03-12 20:29:40
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞