感謝IT之家網友 Coje_He 的線索投遞!

IT之家 5 月 19 日消息,互聯網是現代生活中難以想象的巨大寶庫,但即使全世界的用戶每天都依賴網絡來獲取書籍、圖片、新聞報道和其他資源,這些內容最終也有可能從人們的視線中消失。皮尤研究中心當地時間 17 日發表的研究發現,當前的在線內容仍然是“稍縱即逝”。

研究人員從 Common Crawl(IT之家注:一項互聯網檔案服務,定期收集網站在不同時間點的快照)的檔案中隨機抽樣收集了大約 100 萬個網頁,從 2013 年到 2023 年,每年從 Coomon Crawl 收錄的網頁中抽取樣本,並檢查這些樣本在當下是否仍然存在。

數據顯示,2013 存在的網頁中有 25% 到 2023 年 10 月已無法訪問。這些網頁無法訪問的結果包含兩種不同情況:16% 的頁面是網頁不在域名還在;另外 9% 的頁面則是連域名都不在了。

具體來看,在抽樣調查的新聞網站中,23% 的網頁至少包含一個失效鏈接,高流量新聞網站和低流量新聞網站網頁包含的壞鏈比例基本相同,網站流量排名前 20% 的新聞網站中,約 25% 的網頁至少包含一個失效鏈接;網站流量排名後 20% 的網站中,數據則是 26%。

百科類網站方面,此次研究人員選擇了維基百科的“參考鏈接”部分。在總共 100 多萬個參考鏈接中,有 11% 已經無法訪問;54% 的維基百科網頁參考鏈接至少包含一個失效鏈接。

社交網站方面,研究人員 2023 年 3 月 8 日至 4 月 27 日期間在社交媒體平臺 X(推特)上發佈的近 500 萬條推文樣本,試圖每日進行觀察,直到 2023 年 6 月 15 日這些推文是否還在網站上。研究發現接近 18% 的推文在 3 個月內就基本不可見。其中六成是因爲賬號被設爲私密、被凍結或註銷;四成是因爲賬號發佈者自己刪除,但賬號本身還活躍。

參考

相關文章