膠不可登
2021-06-23 11:42:14
我接近download晒, 去到20210621, 分享一下發現
資料係晒JSON裡面, 有晒text content, image link, image caption, video link
昔日新聞由20020101開始, 注意版面有BUG !!! 有時會成個section冇左, 要download多次, 你最好count一次有幾多個"archive-header"做verification
由20020101至20200420, 有7個section, 之後因為"兩岸"同"國際"合併, 只有6個section
唔齊section最好download多幾次, 如果都唔齊, 即係本身冇左
動新聞主要由2011年開始有 (2010年得兩則新聞有video), 會開始download得耐
Video format有更改, 之前一直係mp4, 但由20200802開始, 改為ts格式, JSON裡面會有個叫"hd.m3u8"的檔案, 你要download落黎讀取裡面包含乜野檔案, 例如"hls_720_1280x720-3000.m3u8", 然後你要再download落黎, 裡面會有齊.ts檔案個file list, 你要再逐個download, 否則得原本個"hd.m3u8", 你會miss左段片
.ts檔案可以用ffmpeg merge返做mp4, 但為加快download速度, 建議唔好即時處理住
我用左約6日時間download晒, 強烈建議租用VPS, 我用5隻VPS, 每隻約行20條thread做, 你最好split開晒行, 例如一條thread一個月, 同時行, 因為single thread用唔盡個resources同bandwidth, 浪費金錢時間