寫左隻Web Crawler集中公營機構嘅職位空缺,你問我答

66 回覆
24 Like 2 Dislike
2017-06-14 19:22:46
beautiful soup?

jsoup
2017-06-15 08:37:23
Yakoo
2017-06-15 10:41:32
beautiful soup?

jsoup

想問問你crawl人地
人地果邊有無set咩barrier to prevent crawling
如有你點solve

普通網頁都唔會block少量request嘅crawler,唔係Google 果d search engine 就收皮。

如果有除咗扮好d隻request係common browser 之外我都冇乜計
2017-06-15 17:15:46
自推埋呢個星期
2017-06-15 17:43:44
自推埋呢個星期


傾下計當幫推ok?

我學緊寫crawler
有無咩地方要注意?
2017-06-15 17:55:10
自推埋呢個星期


傾下計當幫推ok?

我學緊寫crawler
有無咩地方要注意?


最Basic就係要知道HTTP Request除左URL之外仲有好多野.
想扮Browser過BotCheck 最起碼係要set User-Agent.如果D site 有CSRF protection 有時仲要扮Cookie/先攞一次token之類.
2017-06-16 10:14:28
個網站幾好 多謝巴打
但我想問網頁版有無save job 既功能?

其實都想做返save job,但唔想做開acc之類,大概都係會跟機跟broswer

新加左bookmark功能,不過d UI擺位仲要再執執
2017-06-16 10:19:42
個網站幾好 多謝巴打
但我想問網頁版有無save job 既功能?

其實都想做返save job,但唔想做開acc之類,大概都係會跟機跟broswer

新加左bookmark功能,不過d UI擺位仲要再執執

近排都有睇cawler
試過用nodejs 寫,performance 好勁,某程度上,python 同 nodejs 寫 cawler 一流,我見好多人大陸p 仔研究開cawler, 你會發現d 人玩到好勁,亦有好多方法阻止佢地,最常見係 無限redirect 玩死人地隻cawler
2017-06-16 10:58:35
個網站幾好 多謝巴打
但我想問網頁版有無save job 既功能?

其實都想做返save job,但唔想做開acc之類,大概都係會跟機跟broswer

新加左bookmark功能,不過d UI擺位仲要再執執

近排都有睇cawler
試過用nodejs 寫,performance 好勁,某程度上,python 同 nodejs 寫 cawler 一流,我見好多人大陸p 仔研究開cawler, 你會發現d 人玩到好勁,亦有好多方法阻止佢地,最常見係 無限redirect 玩死人地隻cawler

老老實實,你唔秒秒鐘check或者大量page去check,冇乜site會block 9你隻野嘅。

之前幫客寫過每日對住product list每隻去6個country amazon個review page睇下有冇新review,再集埋一齊send noti email。
開首2000、3000隻product,放慢少少都冇事。run左年零佢條list加到成萬隻,比amazon block到痴根。又唔係多錢,最後我直情放棄同佢玩。
2017-06-16 11:01:51
LM學野
2017-06-16 11:16:10
想問下呢舊野寫左幾耐
2017-06-16 11:29:12
backend java spring mvc?
2017-06-16 11:36:21
想問下呢舊野寫左幾耐

rewrite呢次就1個星期左右啦,不過因為 d crawler拆website果part可以跟之前,所以簡單好多
2017-06-16 11:36:39
backend java spring mvc?

spring boot web starter
2017-06-16 12:16:18
個網站幾好 多謝巴打
但我想問網頁版有無save job 既功能?

其實都想做返save job,但唔想做開acc之類,大概都係會跟機跟broswer

新加左bookmark功能,不過d UI擺位仲要再執執

近排都有睇cawler
試過用nodejs 寫,performance 好勁,某程度上,python 同 nodejs 寫 cawler 一流,我見好多人大陸p 仔研究開cawler, 你會發現d 人玩到好勁,亦有好多方法阻止佢地,最常見係 無限redirect 玩死人地隻cawler

老老實實,你唔秒秒鐘check或者大量page去check,冇乜site會block 9你隻野嘅。

之前幫客寫過每日對住product list每隻去6個country amazon個review page睇下有冇新review,再集埋一齊send noti email。
開首2000、3000隻product,放慢少少都冇事。run左年零佢條list加到成萬隻,比amazon block到痴根。又唔係多錢,最後我直情放棄同佢玩。

佢係點block 你?
留名學野
2017-06-16 12:20:47
留名
2017-06-16 13:35:33
個網站幾好 多謝巴打
但我想問網頁版有無save job 既功能?

其實都想做返save job,但唔想做開acc之類,大概都係會跟機跟broswer

新加左bookmark功能,不過d UI擺位仲要再執執

近排都有睇cawler
試過用nodejs 寫,performance 好勁,某程度上,python 同 nodejs 寫 cawler 一流,我見好多人大陸p 仔研究開cawler, 你會發現d 人玩到好勁,亦有好多方法阻止佢地,最常見係 無限redirect 玩死人地隻cawler

老老實實,你唔秒秒鐘check或者大量page去check,冇乜site會block 9你隻野嘅。

之前幫客寫過每日對住product list每隻去6個country amazon個review page睇下有冇新review,再集埋一齊send noti email。
開首2000、3000隻product,放慢少少都冇事。run左年零佢條list加到成萬隻,比amazon block到痴根。又唔係多錢,最後我直情放棄同佢玩。

佢係點block 你?
留名學野


Amazon本身有D anti-bot protection,佢覺得你係bot就會比個bot check page你入CAPTCHA. 仲鬼鬼馬馬話如果你想寫bot攞info唔該contact返佢地用佢地D API.
就算你扮得好鬼似正常Broswer request, call太密佢都會出503比你. 用同一IP太多request, IP都自動block 9埋你
2017-06-16 19:16:06
放工推一推
2017-06-17 00:21:46
backend java spring mvc?

spring boot web starter

點解用呢個,有咩好處
2017-06-17 01:49:11
backend java spring mvc?

spring boot web starter

點解用呢個,有咩好處

好問題!
I don't always pick the best technology, I pick the best of which I loved/interested in. 我以前份工一直係寫java+spring,但依家大部份係php。我一直想keep up返最新spring個發展,好自然就pick返spring。

因為其實得幾個entity冋api,明顯想lightweight,而spring boot starter web其實好易起,build出嚟一隻executable jar,simple enough。單純計起api,其實只係用左一個下午唔駛。

我好sure用laravel/express/django之類都可以同樣一樣快一樣function,所以到最後都係因為我係一隻java狗。
2017-06-17 14:56:06
好好用

多謝支持
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞