最常見的玩法!你知道幾個?
【爬蟲】最常見的玩法!你知道幾個?
人工智慧離不開機器學習,機器學習離不開大數據,大數據離不開爬蟲。通過爬蟲可以獲取互聯網最本質的數據,這是一筆多麼巨大的財富啊,如果你是一名工程師,就應該懂得如何玩轉爬蟲!
1
抓取型爬蟲
特徵:此類爬蟲涉及的網站介面一般較少,爬取的步驟簡單。通過瀏覽器的開發者工具分析網站介面的特徵,找到介面需要傳遞的參數,以及HTTP請求的header特徵。按照特徵,配置對應的參數向伺服器發送請求即可獲取對應的網站內容。
問題:簡單繁瑣,一般根據HttpClient工具包搭建框架解決重複勞動。
突破點:觀察介面參數的規律,分析每個欄位的意義;比較多個端來抓取,PC端、APP、公眾號、H5;參考對方的實現方式,找到其中的優點和缺點,自我進化;從表面看到本質,看清對方的實現原理和商業邏輯。
2
行為型爬蟲
特徵:流程複雜,參數複雜
問題:介面複雜,工作量高;有一系列的保護措施:加解密、圖片驗證、滑塊驗證、手機驗證碼等;需要行為調度框架,如webdrivder,通過命令請求webdriver,然後webdriver通過瀏覽器的api去做操作,並返迴響應結果
突破點:學習如何加解密,破解對方的保護措施;分析介面的規律,找到突破口;提前預知變化,做好架構設計,控制未來的複雜度。
3
黑科技爬蟲
競品分析:爬取競品APP的下載量、評論等用戶數據,推測其用戶量、增長速度;探究其底層架構、技術實力;學習他人的長處、避免他人的短處。
尋找設計漏洞:挖掘系統漏斗,體驗黑客是怎樣煉成的!
暴力破解:程序員本質上存在人性上的弱點,看看他寫的介面,找到他的弱點,尋找可趁之機。
APP逆向:先了解對方,才能打敗對方。
成功的基礎源於堅持,掃描指紋關注我們吧


TAG:嗶嗶IT圈 |
※有幾個前任比較正常?這十個冷知識你都知道么?
※哪些日常習慣最「傷腎」,你知道嗎?
※治療腳臭最好的方法,你知道幾個?
※5種你曾經做過的最好的鍛煉,你知道嗎?
※那些你不知道的鼻炎癥狀,你知道幾個?
※那個最愛你的人來找過你,你知道嗎?
※喜歡喝咖啡?這些咖啡常識,你都知道嗎?
※我知道的,你知道的,你都知道嗎?
※養胃粥的做法你知道嗎?
※氣血虛吃什麼最好,你知道嗎?不知道的就進來看看吧
※歷史上的刑法你知道幾個?有一個刑法聽起來很奇葩,但是真的有,那就是笑刑!
※瑜伽裡面常見的錯誤,你知道原因嗎?
※這些食物最好吃的時刻,你知道嗎?
※世界上最奇特的幾種水果,不知道你們吃過幾種呢?
※一個男人心裡很想你,就會有一些瘋狂的做法,你知道嗎?
※關於臘八粥的幾個傳說,你都知道嗎?
※腎病的一些小知識,你敢說你全都知道嗎?
※女子不嫁要罰款?這些歷史上的冷門知識,你知道幾個?
※愛喝茶的你知道有「四不飲」嗎?真正懂茶的人都知道,看完就懂了
※最不能背叛的十二星座女,你知道是哪幾個嗎?