[JAVA高手入] 幾億個item要點先fit到入2gb heap space?

213 回覆
5 Like 26 Dislike
2022-08-13 19:19:45
2022-08-13 19:22:26
有冇用symmetry
2022-08-13 19:34:55
2022-08-14 00:31:49
簡單
你calculate 正係要return 一個object
咁就define 一個class & return an object with attribute of input data條path
個writeCorrelationMatrix method 先真係做read, calculation同write
2022-08-14 06:24:56
行左12個鐘先行左一半有多
2022-08-14 06:46:53
Big data係咁

如果你識multi threading,可以砍到幾份一/十幾份一(視乎你部機有幾多thread)
2022-08-14 08:30:00
2022-08-14 17:00:46
一定唔係幾個鐘
2x mins 左右for 100k data set
2022-08-14 17:26:48
2022-08-14 18:17:22
2022-08-14 22:05:58
2022-08-14 23:55:57
2022-08-14 23:56:59
2022-08-15 00:28:01
Rounding 咪係 LSH
2022-08-15 00:36:48
2022-08-15 01:23:11
collaborative filtering
Google la
2022-08-15 01:41:25
2022-08-15 01:45:41
佢之前睇過啲咩戲/評過咩野分都無提供過

咁你個 correlation 係用咩計
2022-08-15 02:58:57
internal dataset有比past record 所以計到個correlation

但external無比
咁樣 就算用LSH都應該計唔到?
2022-08-15 18:51:37
唉仆街
我諗肥撚硬
我估佢係expect我用lsh做
但我用左naive方法做
2022-08-15 19:39:35
你而家學仲趕得切
2022-08-15 20:01:12
聽日交
但我仲未睇得明lsh 同唔知點放入啲
code度
2022-08-16 10:53:14
即係做bucketing
上面有巴打計左50000*50000用 bitset 都成300mb
每個entry 分得6個bit

要用6個bit approximate 原本既Pearson correlation

咁你可以有2^6 =64個float ,用6個bit 做index ,每個entry assign 最接近既float 既index ,儲起matrix 度 (6bit *50000*50000=1.75GB, float numbers 64*4byte )

write 既時候,每個entry 搵返6bit index 對應既float

而果64個float 最簡單就uniform interval 由最細到最大,例如-3.2,-3.1,...3.1,3.2

其實唔難
2022-08-16 16:09:45
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞