Categories
科技會報

Website Time Machine與Cloudflare合作,以方便訪問大量庫存頁面


回溯機

伊戈爾·博尼法西奇(Igor Bonifacic)/ Engadget

俗話說,“走路的人都會留下痕跡”,而負責將這種“痕跡”留在互聯網上的人就是“網站時間機器(Wayback Machine)”。 由非營利組織“ Internet檔案”建立的數字數據庫自2001年以來一直在不斷爬網和備份整個網絡上的所有網頁,不僅保留了您可以看到的所有頁面的備份,而且還可以看到同一頁面在不同時期的外觀。 到目前為止,有超過4680億個網頁。

最初,網站時間機器有兩種主要方法來獲取頁面。 一種是用戶自己將URL上傳到網站時間機器,另一種是定期爬網機器人以查找並保存所有鏈接和相應頁面。 網站時間機宣布與Cloudflare合作,添加獲取它的第三種方法-Cloudflare提供的“始終在線”服務。 此服務將客戶的網頁另存為靜態頁面,並將其放置在Cloudflare的服務器上,從而在斷開服務時允許客戶通過Cloudflare進行備份。 當客戶向Cloudflare提供要備份的網頁時,Cloudflare會將URL順便傳遞給網站時間機器。 除了幫助擴展網站的時間機器庫外,它還可以充當“備份的備份”角色。

目前,網站的時間機器每天爬行十億個鏈接。 目前尚不清楚Cloudflare提供的新鏈接中有多少與現有鏈接重複。 但是無論如何,這意味著網站時間機器將能夠備份更多的網站和網頁,從而為子孫後代留下更多的互聯網時代早期記錄。