大數據時代如何保護數據,反爬蟲竊取的實用思路和方法
大數據時代,數據就是金錢,很多企業都為自己的網站運用了反爬蟲機制,防止網頁上的數據被爬蟲爬走。簡單低級的爬蟲速度快,偽裝度低,如果沒有反爬機制,它們可以很快的抓取大量數據,甚至因為請求過多,造成伺服器不能正常工作。而偽裝度高的爬蟲爬取速度慢,對伺服器造成的負擔也相對較小。所以反爬的重點先是把那種簡單粗暴危害大的爬蟲先阻擊在門外,然後再來對付那些偽裝度高的爬蟲。
大型網站,門戶網站都會有自己的反爬蟲制約機制。爬蟲不是以瀏覽器方式來訪問頁面的,爬蟲只下載網頁的源代碼這是區分爬蟲與否的一個關鍵。
反爬蟲思路要考慮以下幾點:
1、能被google、百度等正規搜索引擎爬蟲抓取,不限流量和並發數;
2、阻止山寨爬蟲的抓取;
3、反爬蟲策略應該是實時檢測的,而不是通過一段時間後的訪問統計分析得出;
4、誤判後的人性化處理;
反爬蟲的實用方法:
1、驗證檢查User-Agent;
2、增加圖形驗證、拖動、拼圖等人機驗證;
3、前端js script 實時計算 parameter 加給請求在後端進行驗證;
4、檢測 Cookie 中 session_id 的使用次數,如果超過限制,就阻止訪問;
5、IP計數器,在 redis下給每個IP做計數,利用redis key的過期機制,每次計數累加時將key設定在一定的時間內過期。
6、動態生成url的key;
7、增加異地手機設備更換登錄時需要動態驗證手機簡訊;
8、非同步載入嵌套在iframe裡面的,並且 src="about:blank" ;
9、修改字體庫讓爬蟲得到的數據不準確或者無用的數據(電商較多);
10、ajax載入數據。
總結
如果反爬機制過於嚴格,可能會誤傷到真正的用戶。如果既要和爬蟲死磕,又要保證很低的誤傷率,那麼又會增加研發的成本。爬蟲與反爬蟲的鬥爭從未停止,反爬蟲程序員一直在與爬蟲程序員做鬥爭。
※大數據不可缺少的部分——信息圖
※開源免費,體積小,跨平台,兼容性好,使用方便簡潔的HTML5 視頻播放器
※人工智慧到底是個啥,AI又是個啥啥啥?
TAG:碼尚 |
※大數據時代的隱私還能保護嗎?
※數據時代的隱私保護
※大數據時代,科技公司數據應用正在一步步泄露你的隱私數據
※大數據時代個人數據利用與保護的均衡——「資源准入模式」之提出
※大數據時代,如何藉助大數據進行直銷?
※網路時代,銀行信息頻繁被盜,隱私數據該如何保存?
※大數據時代,你的個人信息正在被窺視和利用
※大數據時代下的用戶隱私保護 差分隱私能成為「技術救星」嗎?
※大數據時代的思維變革
※大數據時代,你被「殺熟」了嗎?
※李彥宏的講話被誤讀與臉書的道歉!大數據時代「隱私」如何使用?
※大數據時代,何來隱私?
※大數據「殺熟」,網路時代的消費者困境
※步入數據經濟時代,你的數據安全嗎?
※大數據時代,從顛覆思維模式開始
※時代在變,方法卻沒有改變!對抗惡性通脹的還是黃金!
※我們如何應對大數據時代
※岳路平:匠心精神在大數據時代,它是一種深化演算法!
※大數據時代下的互聯網+藝術 安全如何保障?
※大數據時代法律服務行業變革者:勝了網大數據四大核心原理