當前位置：

首頁 > 知識 > 大數據時代如何保護數據，反爬蟲竊取的實用思路和方法

大數據時代如何保護數據，反爬蟲竊取的實用思路和方法

知識 07-07

大數據時代，數據就是金錢，很多企業都為自己的網站運用了反爬蟲機制，防止網頁上的數據被爬蟲爬走。簡單低級的爬蟲速度快，偽裝度低，如果沒有反爬機制，它們可以很快的抓取大量數據，甚至因為請求過多，造成伺服器不能正常工作。而偽裝度高的爬蟲爬取速度慢，對伺服器造成的負擔也相對較小。所以反爬的重點先是把那種簡單粗暴危害大的爬蟲先阻擊在門外，然後再來對付那些偽裝度高的爬蟲。

大數據時代如何保護數據，反爬蟲竊取的實用思路和方法

大型網站，門戶網站都會有自己的反爬蟲制約機制。爬蟲不是以瀏覽器方式來訪問頁面的，爬蟲只下載網頁的源代碼這是區分爬蟲與否的一個關鍵。

大數據時代如何保護數據，反爬蟲竊取的實用思路和方法

反爬蟲思路要考慮以下幾點：

1、能被google、百度等正規搜索引擎爬蟲抓取，不限流量和並發數；

2、阻止山寨爬蟲的抓取；

3、反爬蟲策略應該是實時檢測的，而不是通過一段時間後的訪問統計分析得出；

4、誤判後的人性化處理；

大數據時代如何保護數據，反爬蟲竊取的實用思路和方法

反爬蟲的實用方法：

1、驗證檢查User-Agent；

2、增加圖形驗證、拖動、拼圖等人機驗證；

3、前端js script 實時計算 parameter 加給請求在後端進行驗證；

4、檢測 Cookie 中 session_id 的使用次數，如果超過限制，就阻止訪問；

5、IP計數器，在 redis下給每個IP做計數，利用redis key的過期機制，每次計數累加時將key設定在一定的時間內過期。

6、動態生成url的key；

7、增加異地手機設備更換登錄時需要動態驗證手機簡訊；

8、非同步載入嵌套在iframe裡面的，並且 src="about:blank" ；

9、修改字體庫讓爬蟲得到的數據不準確或者無用的數據（電商較多）；

10、ajax載入數據。

總結

大數據時代如何保護數據，反爬蟲竊取的實用思路和方法

如果反爬機制過於嚴格，可能會誤傷到真正的用戶。如果既要和爬蟲死磕，又要保證很低的誤傷率，那麼又會增加研發的成本。爬蟲與反爬蟲的鬥爭從未停止，反爬蟲程序員一直在與爬蟲程序員做鬥爭。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自碼尚的精彩文章:

※大數據不可缺少的部分——信息圖
※開源免費，體積小，跨平台，兼容性好，使用方便簡潔的HTML5 視頻播放器
※人工智慧到底是個啥，AI又是個啥啥啥？

TAG:碼尚 |

您可能感興趣

※大數據時代的隱私還能保護嗎？
※數據時代的隱私保護
※大數據時代，科技公司數據應用正在一步步泄露你的隱私數據
※大數據時代個人數據利用與保護的均衡——「資源准入模式」之提出
※大數據時代，如何藉助大數據進行直銷？
※網路時代，銀行信息頻繁被盜，隱私數據該如何保存？
※大數據時代，你的個人信息正在被窺視和利用
※大數據時代下的用戶隱私保護差分隱私能成為「技術救星」嗎？
※大數據時代的思維變革
※大數據時代，你被「殺熟」了嗎？
※李彥宏的講話被誤讀與臉書的道歉！大數據時代「隱私」如何使用？
※大數據時代，何來隱私？
※大數據「殺熟」，網路時代的消費者困境
※步入數據經濟時代，你的數據安全嗎？
※大數據時代，從顛覆思維模式開始
※時代在變，方法卻沒有改變！對抗惡性通脹的還是黃金！
※我們如何應對大數據時代
※岳路平：匠心精神在大數據時代，它是一種深化演算法！
※大數據時代下的互聯網＋藝術安全如何保障？
※大數據時代法律服務行業變革者：勝了網大數據四大核心原理