「頁庫存檔」功能悄悄移除,Google 不再備份整個網路

蜜絲佛陀

13 回覆
3 Like 19 Dislike
蜜絲佛陀 2024-03-31 02:30:52


如果某個網站關閉或遭到大規模變動,Google 搜尋提供「頁庫存檔」功能可以一窺網站過去樣貌以及相關資訊,然而這項功能已被悄悄移除。

經營 Google 搜尋聯絡員(Google SearchLiaison)官方帳號的 Danny Sullivan 透過推文證實,Google 搜尋不再提供「頁庫存檔」功能。他談道網路世界和人們需求有了很大轉變,Google 決定將這項功能「退役」。

「頁庫存檔」功能過去出現在每項 Google 搜尋結果旁邊的下拉式選單,當 Google 網路爬蟲(web crawler)在網路尋找全新或更新後的網頁,會以快取方式保留特定時間點的網頁快照,這使 Google 幾乎對整個網際網路進行備份,累積的龐大資料量可能難以估算。

早期「頁庫存檔」只有純文字版,但 Google 網路爬蟲一步步累積豐富的網站資料,比方說 JavaScript(目前有專門的網路爬蟲收集這一塊)。許多網路爬蟲爬來的詳細資訊處於保密狀態,以躲避 SEO 和垃圾郵件騷擾。

現在從 Google 搜尋已經看不到任何「頁庫存檔」,不過你仍有機會找出特定網站「頁庫存檔」,方法是在瀏覽器網址列輸入「https://webcache.googleusercontent.com/search?q=cache:」緊接著網址,甚至以「cache:」緊接著網址即可。以《科技新報》為例,即是「https://webcache.googleusercontent.com/search?q=cache:technews.tw」以及「cache:technews.tw」就會顯示特定時間點的網頁快照,目前不確定這種方法是否會持續下去。

此外,Danny Sullivan 也建議如有相關需求,可以使用網際網路檔案館(Internet Archive)提供的「網頁時光機」(Wayback Machine)服務。

Gogole 正處於削減營運成本的關鍵時期,同時將資源投注在 AI 以及其他優先事項,因此假設 Google 開始刪除快取資料,可能釋放大量資源。

Google will no longer back up the Internet: Cached webpages are dead
(首圖來源:科技新報)

ABC平民 2024-03-31 02:44:37
google 用 page rank 去generate 網頁排名,一定有網頁snapshot,只不過可能唔開放出嚟慳bandwidth.

懷疑寫手唔識基本科技嘢
火野 2024-03-31 02:59:29
wayback machine 唔係俾人告緊咩
好有機會隨時收皮
火_龍 2024-03-31 03:01:06
個果temp page 幾好用同幾勁
delete 左既page 都仲有機會係呢度搵返D資料
頭細身細 2024-03-31 03:08:53
覺得cache page係data既一部份
依家data對develop ai既重要性好高
收番埋都好正常
你係咪好好打 2024-03-31 03:44:27
點解要snapshot?
舊record 對於search engine有咩用?
cache最新版本我理解,cache舊版本真係唸唔到有咩用
蜜絲佛陀 2024-03-31 03:45:05
有時啲公司/ 機構網站出古惑偷偷地改嘢可以睇返cached page改過乜
ABC平民 2024-03-31 08:59:45
我講snapshot是強調他是raw,你講cache 亦無錯,總之係最後的raw copy
你係咪好好打 2024-03-31 20:27:48
有無聽過inverted index?
ABC平民 2024-03-31 21:43:08
我知你想講乜,可以real time generate digested data + indexing. 之後raw data 可以delete 左佢。正常系統要考慮maintenance,因為某一website indexing 可以好耐先做一次+webpage owner 唔係google客仔,如果唔keep raw data,請問點debug?

我唔係做search engine
你係咪好好打 2024-04-01 01:02:45

你唸清楚先,為左debug要存曬成個互聯網既website? 呢個世界都仲有樣嘢叫meta data。
ABC平民 2024-04-01 01:42:01
現在就係存曬成個互聯網

仲可以cache: search operator去搵網頁存檔
ABC平民 2024-04-01 07:42:48
仲有一樣野,有cached pages 做參考,seo 和 web developer 可以知識 google clawer 食到乜,這就類似system integration,coding 會fit for google se, 亦幫到google 生態。

當然google如果勁到1.乜都食到+2.100%bug free, 咁咪唔俾cached pages人睇,只提供一個live time debugger俾人用。
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞