拒絕壟斷指控!谷歌利用開源打造官方互聯網標準
【獵雲網(微信號:ilieyun)】7月2日報道(編譯:油人)
谷歌希望將已有數十年歷史的拒絕蜘蛛協議(Robots Exclusion Protocol,簡稱REP)轉變為官方互聯網標準,並將自己的robots.txt解析器作為推廣的一部分進行開源。
REP是1994年荷蘭軟體工程師Martijn Koster提出的一個標準,現在幾乎變成了網站用來告訴自動爬蟲程序哪些部分不應該被處理的標準。例如,谷歌的Googlebot爬蟲器在為網站編製索引時掃描robots.txt文件,以查看特殊說明,了解它應該忽略哪些部分。如果根目錄中沒有這樣的文件,它將假定可以對整個網站進行爬蟲(並編製索引)。不過,這些文件並不總是用於提供直接的爬蟲指令,因為它們還可以填充某些關鍵字,以改進搜索引擎優化,以及其他用例。
值得注意的是,並非所有爬蟲都遵循robots.txt文件,比如幾年前Internet Archive選擇為其Wayback Machine歸檔工具提供支持,而其他更惡意的爬蟲也選擇忽略REP。
正如Internet Engineering Task Force(IETF)所定義的那樣,儘管REP通常被稱為「標準」,但它實際上從未成為真正的互聯網標準。IETF是互聯網非營利開放標準組織。而這正是谷歌正在努力改變的。它說,REP是開放的解釋,可能並不總是涵蓋所有的情況。
這一切都是為了更好地定義現有的「未定義場景」——例如,當先前的掃描已經知道robots.txt文件的內容時,爬蟲程序應該如何處理使其無法訪問的伺服器故障場景?爬蟲應該如何對待一個有拼寫錯誤的規則?
谷歌在一篇博客文章中寫道:「對於網站所有者來說,這是一個具有挑戰性的問題,因為事實上模稜兩可的標準使得很難正確地編寫規則。我們希望幫助網站所有者和開發人員在互聯網上創造驚人的體驗,而不是擔心如何控制爬蟲。」
谷歌表示,它已與REP的原始作者Martijn Koster以及網站管理員和其他搜索引擎合作,向IETF提交一份提案,內容包括「如何在現代網路中使用REP」。
該公司還沒有完全公布草案,但對其關注的一些領域給出了一些指示:
任何基於URI的傳輸協議都可以使用robots.txt。例如,它不再局限於HTTP,也可以用於FTP或CoAP。
開發人員必須至少解析robots.txt的前500千位元組。定義最大文件大小可以確保連接不會打開太長時間,從而減輕伺服器上不必要的壓力。
新的最長緩存時間為24小時或緩存指令值(如果可用),使網站所有者可以隨時更新robots.txt,而爬蟲程序不會使網站過載robots.txt請求。例如,對於HTTP,可以使用緩存控制頭來確定緩存時間。
規範現在規定,當以前可訪問的robots.txt文件由於伺服器故障而變得不可訪問時,已知的不允許頁面不會在相當長的一段時間內進行爬蟲。
值得注意的是,爬蟲可以不同的方式解釋robots.txt文件中包含的指令,這會導致網站所有者感到困惑。這就是為什麼谷歌還把Googlebot的解析和匹配系統的C 庫放在GitHub上供所有人訪問。根據Github發布的說明,谷歌希望開發人員打造自己的解析器,從而「更好地反映谷歌的robots.txt解析和匹配」。


※蘋果,一直努力成為這個時代最好的產品
※中移動對外發布5G+戰略,投入資金超300億元
TAG:獵雲網 |