爬取拉勾網python崗位信息
最新
05-28
前言
先上一波爬取的結果:
資料庫中部分截圖
實戰
引入類庫
分析頁面請求
在搜索框中鍵入python
打開調試模式,查看代碼
按照postman測試出來的結果我們可以構建以下代碼
因為拉勾的反爬措施比較噁心,一個header滿足不了我們了,所以我去github粘貼了一些。就成了以下這樣:
雖然代碼丑是丑了點但是還是蠻好用的。
解析數據
我們通過postman可以看到我們請求出來的數據結構是下面這個樣的:
根據以上的數據結構我們可以通過獲取字典鍵值就可以很方便的獲取到想要的數據欄位了。
之後的步驟其實就是結構化數據,數據入庫,這裡要提一下的就是,本篇存儲到的MongoDB資料庫(我承認是我偷懶了,沒學好MySQL)
這裡po下全部的代碼。
留心
主要是寫給自己的
解析頁面的部分,如果出現被反爬,會出現報錯,異常捕捉部分沒有處理好,日後在寫功能模塊的時候要記得帶上。
代碼結構可以再優化,較多代碼冗餘。
尾言


TAG:鹹魚普拉思 |