Python crawler 問題

82 回覆
1 Like 9 Dislike
2020-12-01 09:37:43
留名學嘢
問吓有冇方法scrap 一個網站入面search嘢入面嘅所有data

例如好似search間舖頭有啲咩product咁
2020-12-01 10:59:40
因為我用 python 瘋狂 download
So far 應該四萬幾場波
佢兩萬次之後就 block 左我了
而家download 都要加 sleep(3) 唔可以行太快
2020-12-01 18:21:40
咁都幾狼喎

有冇入落自己database ?

啲data 分析完賺唔賺到先?
2020-12-12 19:38:57
一定得 不過d code係要為個別網站寫
因為個個網站放data既位都唔同
Url format都係唔同
2021-02-25 23:44:48
新手想問下 連登係咪crawl唔到
用urllib.request 已經加埋headers 都係HTTP:FORIDDEN
本身諗住crawl 連登每日熱門有咩po去做熱身點知已經卡關
我跟個台仔youtube crawl ptt都crawl到
2021-02-26 09:07:19
貼code上黎睇睇
2021-02-26 13:48:11
import urllib.request as req
url ='https://lihkg.com/category/2'
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36'
my_headers ={'User-Agent': user_agent}

r = req.Request(url,headers = my_headers)

#request obejct with headers
with req.urlopen(r) as response:
    data = response.read().decode("utf-8")
print(data)
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞