反爬蟲一直是偽需求

最新 04-05

事實上，互聯網上70%流量來自爬蟲。不好意思，這個數據並不誇張，最開始得到這個結論的時候，我也很意外。

有一個悖論，很多一線大廠維持的龐大的爬蟲團隊的前提下也維持著很龐大的反爬蟲團隊。反爬蟲團隊做的事兒很機械，一方面會使用漏桶、令牌桶之類的演算法限制介面訪問頻率，另一方面給數據介面加上龐大的加密解密和混淆演算法——事實上這些操作對於用戶體驗毫無干係，同時也並不能從根本上解決「爬蟲」問題，因為只要是允許用戶訪問的數據，爬蟲就一定可以訪問。

emmm，這是程天第一定律。

我同時很奇怪的是，淘寶、京東之類的網站還把價格信息作為商業機密禁止搜索引擎抓取，雖然我知道把引流把握在自己手裡可以攫取很大的廣告費，但與之相比我更尊重亞馬遜的做法，開發數據成就了亞馬遜的今天，電子商務不該只是做買賣。

爬蟲技術實際上是互聯網技術發展到今天最簡單的技術之一，筆者開發的網易雲音樂爬蟲Spider163的第一個版本就用了一個下午的時間。

2002年初，O"Reilly出版公司創始人蒂姆·奧萊利（Tim O"Reilly）飛到西雅圖，建議貝索斯開放亞馬遜API。奧萊利的理由是：價格、產品、銷量排名之類的數據能夠幫助類似O"Reilly的廠商更好地進行決策銷售產品。

為了說服貝索斯，奧萊利還展示了一款名叫「Amarank」的爬蟲程序。Amarank每隔幾小時就訪問一次亞馬遜網站，抓取O"Reilly所出版書籍的數據和競爭對手書籍的排名數據。

儘管Amarank很粗糙，使用的還是最原始的抓屏技術，但貝索斯被打動了。他召集了一幫技術高管，商討開發類似API的可行性。一家1999 年被亞馬遜收購的團隊恰巧在開發類似API，允許手機、PDA之類的非桌面設備訪問亞馬遜。在貝索斯督促下，產品很快推出，外部網站可以使用亞馬遜開放的索引獲取產品價格、詳細說明，還能使用購物車和支付系統。

實際上爬蟲是一種剛需。在中國依靠抓取政府網站數據然後提供檢索展現驗養活了一大批公司，比如企查查、天眼查這種工商註冊信息檢索平台和無訟案例、聚法案例（筆者之前供職於該公司）這一類法律大數據服務商，都是基於第三方數據創造的一種商業上的可能性——並且他們真的有用。

很難去揣測亞馬遜一步步是怎麼思考的。但是他們已經發現，賣書本來就賺不了錢了，互聯網也讓盜版隨處可見，數據在貶值，流量很貴，不如給用戶一個API，他隨時能得到他自己想得到的。

實際上亞馬遜走的更徹底，雲才是未來。

貝索斯在發給下屬的郵件里這樣決策：

從今天起，所有的團隊都要以服務介面的方式，提供數據和各種功能。

團隊之間必須通過介面來通信。

不允許任何其他形式的互操作：不允許直接鏈接，不允許直接讀其他團隊的數據，不允許共享內存，不允許任何形式的後門。唯一許可的通信方式，就是通過網路調用服務。

具體的實現技術不做規定，HTTP、Corba、PubSub、自定義協議皆可。

所有的服務介面，必須從一開始就以可以公開作為設計導向，沒有例外。這就是說，在設計介面的時候，就默認這個介面可以對外部人員開放，沒有討價還價的餘地。

不遵守上面規定，就開除。

早在十五年前，雲計算、微服務，就有了它該有的樣子。不過本文並不是細講雲計算相關的理念，而是藉此闡述大公司應該擁抱爬蟲開放API，建立互聯網通用的數據交換標準。

時至今天，隱匿數據已經不能是核心競爭力了。百度百科和360百科互相抄襲是不爭的事實，反而讓抄襲本身失去了意義，最後競爭的還是用戶體驗。

維持反爬蟲的成本已經遠遠大於掌握數據的優勢了。當初新浪微博開放了很多API，雖然出現了第三方APP體驗優於微博自家APP的現象，但是微博學的很快，微博國際版的體驗幾乎抄襲若干流行第三方APP，不過令人難過的是微博漸漸收緊了第三方API許可權，在我看來短時間內可能提升廣告收益，長期來看並無益處，同樣的道理也適用淘寶和京東，比價是剛需，這很重要，廣告不能避免信任問題。

另外一個很有意思的事情是，掌握一手數據的公司往往不能把數據的價值發揮到極致，而很多第三方公司往往能把事情做的很棒。因此，在解決隱私問題的前提下，把數據開源吧！把數據開源吧！把數據開源吧！

在下行流量免費而上行帶寬昂貴的現如今，反爬蟲，終究是偽需求，最主要的，這不是互聯網精神。互聯網精神並不是抄襲，但是開放、自由和叛逆，會一直是主流。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 程天寫代碼 的精彩文章:

TAG:程天寫代碼 |