當前位置:
首頁 > 知識 > 大數據時代如何保護數據,反爬蟲竊取的實用思路和方法

大數據時代如何保護數據,反爬蟲竊取的實用思路和方法

大數據時代,數據就是金錢,很多企業都為自己的網站運用了反爬蟲機制,防止網頁上的數據被爬蟲爬走。簡單低級的爬蟲速度快,偽裝度低,如果沒有反爬機制,它們可以很快的抓取大量數據,甚至因為請求過多,造成伺服器不能正常工作。而偽裝度高的爬蟲爬取速度慢,對伺服器造成的負擔也相對較小。所以反爬的重點先是把那種簡單粗暴危害大的爬蟲先阻擊在門外,然後再來對付那些偽裝度高的爬蟲。

大數據時代如何保護數據,反爬蟲竊取的實用思路和方法

大型網站,門戶網站都會有自己的反爬蟲制約機制。爬蟲不是以瀏覽器方式來訪問頁面的,爬蟲只下載網頁的源代碼這是區分爬蟲與否的一個關鍵。

大數據時代如何保護數據,反爬蟲竊取的實用思路和方法

反爬蟲思路要考慮以下幾點

1、能被google、百度等正規搜索引擎爬蟲抓取,不限流量和並發數;

2、阻止山寨爬蟲的抓取;

3、反爬蟲策略應該是實時檢測的,而不是通過一段時間後的訪問統計分析得出;

4、誤判後的人性化處理;

大數據時代如何保護數據,反爬蟲竊取的實用思路和方法

反爬蟲的實用方法:

1、驗證檢查User-Agent;

2、增加圖形驗證、拖動、拼圖等人機驗證;

3、前端js script 實時計算 parameter 加給請求在後端進行驗證;

4、檢測 Cookie 中 session_id 的使用次數,如果超過限制,就阻止訪問;

5、IP計數器,在 redis下給每個IP做計數,利用redis key的過期機制,每次計數累加時將key設定在一定的時間內過期。

6、動態生成url的key;

7、增加異地手機設備更換登錄時需要動態驗證手機簡訊;

8、非同步載入嵌套在iframe裡面的,並且 src="about:blank" ;

9、修改字體庫讓爬蟲得到的數據不準確或者無用的數據(電商較多);

10、ajax載入數據。

總結

大數據時代如何保護數據,反爬蟲竊取的實用思路和方法

如果反爬機制過於嚴格,可能會誤傷到真正的用戶。如果既要和爬蟲死磕,又要保證很低的誤傷率,那麼又會增加研發的成本。爬蟲與反爬蟲的鬥爭從未停止,反爬蟲程序員一直在與爬蟲程序員做鬥爭。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 碼尚 的精彩文章:

大數據不可缺少的部分——信息圖
開源免費,體積小,跨平台,兼容性好,使用方便簡潔的HTML5 視頻播放器
人工智慧到底是個啥,AI又是個啥啥啥?

TAG:碼尚 |

您可能感興趣

大數據時代的隱私還能保護嗎?
數據時代的隱私保護
大數據時代,科技公司數據應用正在一步步泄露你的隱私數據
大數據時代個人數據利用與保護的均衡——「資源准入模式」之提出
大數據時代,如何藉助大數據進行直銷?
網路時代,銀行信息頻繁被盜,隱私數據該如何保存?
大數據時代,你的個人信息正在被窺視和利用
大數據時代下的用戶隱私保護 差分隱私能成為「技術救星」嗎?
大數據時代的思維變革
大數據時代,你被「殺熟」了嗎?
李彥宏的講話被誤讀與臉書的道歉!大數據時代「隱私」如何使用?
大數據時代,何來隱私?
大數據「殺熟」,網路時代的消費者困境
步入數據經濟時代,你的數據安全嗎?
大數據時代,從顛覆思維模式開始
時代在變,方法卻沒有改變!對抗惡性通脹的還是黃金!
我們如何應對大數據時代
岳路平:匠心精神在大數據時代,它是一種深化演算法!
大數據時代下的互聯網+藝術 安全如何保障?
大數據時代法律服務行業變革者:勝了網大數據四大核心原理