有冇快啲嘅方法可以 backup 得哂尊子明報啲漫畫圖

power_off

85 回覆

95 Like 5 Dislike

power_off 2023-05-14 14:56:41

目前人手 backup 中，好痛苦

https://life.mingpao.com/general/archive2?tag=comic&page=1

十年病人 2023-05-14 15:06:42

1. Inspect 吓啲 html, 睇吓張圖嘅 URL 喺邊度
2. 用script grep 返條 URL 出嚟 (唔識可以望吓 https://blog.gtwang.org/programming/python-beautiful-soup-module-scrape-web-pages-tutorial/)
3. download and save 返張圖

六環彩大師 2023-05-14 15:19:53

屌你原來扮it 佬

咁簡單既野都問

power_off 2023-05-14 15:53:04

我幾時有話過自己係 IT 佬

派膠子 2023-05-14 17:36:59

push

power_off 2023-05-14 18:03:34

表面上個網去到第 50 頁就無
實際最盡去到 126 頁
https://life.mingpao.com/general/archive2?tag=comic&page=126

Outliers 2023-05-14 18:04:10

除咗backup落自己部機，仲可以用
http://web.archive.org/save 同埋 https://archive.today/

妳是我心上人 2023-05-14 18:08:14

妳是我心上人 2023-05-14 18:51:12

許石公 2023-05-14 19:15:59

留名系統啟動，請勿負評干擾操作

十年病人 2023-05-14 20:08:51

則仕雅夫 2023-05-14 21:18:50

出處異趣 2023-05-14 21:24:17

要用海外明報網，美加嗰啲可以免費睇

@斯羅@ 2023-05-14 21:27:33

power_off 2023-05-14 21:30:22

有冇 link

出處異趣 2023-05-14 22:02:29

明報加東網
我都係有時見到有啲文要 subscribe 先可以睇落去，就會張個title google search 明報加拿大版，就可以成篇免費睇到。唔知係咪全部都係

kaaa 2023-05-14 22:08:33

import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
import os

SAVE_FOLDER_PATH = '~/Downloads/mingpao_images/'

def download_images(url):
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
images = soup.find_all('img')
for image in images:
src_url = urljoin('https://life.mingpao.com', image['src'])
image_name = src_url.split('/')[-1]
with open(os.path.join(SAVE_FOLDER_PATH, image_name), 'wb') as f:
f.write(requests.get(src_url).content)

if __name__ == '__main__':
base_url = 'https://life.mingpao.com/general/archive2?tag=comic&page='
total_pages = 50

if not os.path.exists(SAVE_FOLDER_PATH):
os.makedirs(SAVE_FOLDER_PATH)

for i in range(1, total_pages+1):
url = base_url + str(i)
download_images(url)

徳田重男 2023-05-14 22:40:59