Python crawler 問題

無糖零可樂

82 回覆

1 Like 9 Dislike

非典型廢柴 2020-12-01 09:37:43

留名學嘢
問吓有冇方法scrap 一個網站入面search嘢入面嘅所有data

例如好似search間舖頭有啲咩product咁

拿拿臨念肥賓 2020-12-01 10:59:40

因為我用 python 瘋狂 download
So far 應該四萬幾場波

佢兩萬次之後就 block 左我了
而家download 都要加 sleep(3) 唔可以行太快

無糖零可樂 2020-12-01 18:21:40

咁都幾狼喎

有冇入落自己database ？

啲data 分析完賺唔賺到先？

carlam 2020-12-12 19:38:57

一定得不過d code係要為個別網站寫
因為個個網站放data既位都唔同
Url format都係唔同

耶格爾 2021-02-25 23:44:48

新手想問下連登係咪crawl唔到

用urllib.request 已經加埋headers 都係HTTP:FORIDDEN
本身諗住crawl 連登每日熱門有咩po去做熱身點知已經卡關
我跟個台仔youtube crawl ptt都crawl到

無糖零可樂 2021-02-26 09:07:19

貼code上黎睇睇

耶格爾 2021-02-26 13:48:11

import urllib.request as req
url ='https://lihkg.com/category/2'
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36'
my_headers ={'User-Agent': user_agent}

r = req.Request(url,headers = my_headers)

#request obejct with headers
with req.urlopen(r) as response:
    data = response.read().decode("utf-8")
print(data)

第 1 頁第 2 頁第 3 頁第 4 頁

吹水台自選台熱　門最　新手機台時事台政事台 World 體育台娛樂台動漫台 Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑　洞