IT 討論區 (145) Git Checkout

H07252 2022-03-12 16:18:26

自已玩kafka 可以用operator
strimzi 都算係無鑊氣
我自已野airflow 同kafka 用operator都ok

公司野正常有人睇住confluent kafka

CapaCitor 2022-03-12 16:20:07

strimzi 好野來

男男細乳 2022-03-12 16:22:47

UlittleCuntMate 2022-03-12 16:43:57

其實多唔多公司用databricks

見佢官網個demo都整得幾靚仔仲要有sql同 delta lake

UlittleCuntMate 2022-03-12 16:45:22

同埋想問下da同de條路洗唔洗識埋linux

Flinty 2022-03-12 16:49:26

唔多。因為太新。btw，佢屌打其他data tools。snowflake都唔夠佢揮

Flinty 2022-03-12 16:49:39

唔洗。

男男細乳 2022-03-12 16:54:39

香港都有，大公司為主
delta lake好野來
etl就多數一係databricks一係airflow

Flinty 2022-03-12 16:59:00

但個delta lake個delta sharing到依加都未release

Moya 2022-03-12 17:06:22

大家點睇iot公司

身寸周隹 2022-03-12 17:17:16

賺唔到大錢

UlittleCuntMate 2022-03-12 17:34:40

data 有冇話邊個industry 係特別好payd/請得比較多人?
fintech/bank/it vendor??

もみじ 2022-03-12 18:03:12

其實3間完全唔同......general concepts可以話一樣, 但好睇個line manager點睇件事, 想要即時hand on做到野同比時間你pick up都好唔同.

もみじ 2022-03-12 18:07:20

男男細乳 2022-03-12 18:09:43

CapaCitor 2022-03-12 18:44:31

媽咪 2022-03-12 19:05:43

睇咗三版咩都睇唔明

男男細乳 2022-03-12 19:33:34

もみじ 2022-03-12 19:37:24

CapaCitor 2022-03-12 19:46:13

Service account?

男男細乳 2022-03-12 19:48:33

腦若傷殘 2022-03-12 20:16:06

實驗羊 2022-03-12 20:19:04

Speaking of cloud platform, I’ll probably start using them via cli lol web portal is so slow

尼爾大叔 2022-03-12 20:27:25

想補充2點,
1. spark主要over pandas應該在於distributed processing, pandas雖然易用但唔support distributed. 常見有可能data scientist用pandas做一d細規模d/downsampled嘅data analysis, DE再用spark重寫
2. 嚴格嚟講SQL database都唔係用嚟做datawarehouse, 傳統SQL DB主要optimize咗係CRUD, transaction等等application usage. Azure Synapse, big query, Hive呢類專做datawarehouse嘅俾DE process 完raw data 再儲低做BI/reporting, 所以datawarehouse會喺reporting方面做得好d ,e.g. 處理fact同dimension table之間嘅joining
datalake主要係儲返raw data, 例如web scrap/亂七八糟各種data source. data scientist可以喺datalake入面睇返邊d data啱用嚟做data analysis, 再同DE夾返點起返pipeline去automate processing data

男男細乳 2022-03-12 20:29:40

IT 討論區 (145) Git Checkout

罰you