當前位置:
首頁 > 知識 > Python拉鉤數據採集與可視化

Python拉鉤數據採集與可視化

全文簡介

本文是先採集拉勾網上面的數據,採集的是Python崗位的數據,然後用Python進行可視化。主要涉及的是爬蟲&數據可視化的知識。

爬虫部分

先用Python來抓取拉勾網上面的數據,採用的是簡單好用的requests模塊。主要注意的地方是,拉勾網屬於動態網頁,所以會用到瀏覽器的F12開發者工具進行抓包。抓包以後會發現,其實網頁是一個POST的形式,所以要提交數據,提交的數據如下圖:

真實網址是:https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&isSchoolJob=0...

在上圖也可以輕鬆發現:kd是查詢關鍵詞,pn是頁數,可以實現翻頁。

代碼實現

PS:文末可以獲取源碼

注意:抓取數據的時候不要爬取太快,除非你有其他的反爬措施,比如更換IP等,另外不需登錄,我在代碼加入了time模塊,用於限制爬取速度。

數據可視化

下載下來的數據長成這個樣子:

注意標題(也就是列明)是我自己添加的。


導入模塊並配置繪圖風格

PS:文末可以獲取源碼

注意:導入模塊的時候其他都容易解決,除了wordcloud這個模塊,這個模塊我建議大家手動安裝,如果pip安裝的話,會提示你缺少C++14.0之類的錯誤,導致安裝不上。手動下載whl文件就可以順利安裝了。

數據預覽

read_csv路徑不要帶有中文


學歷要求

工作經驗


Python熱門崗位


工作地點


工作地理圖

視頻教程


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 python 的精彩文章:

3 個月如何從小白到 Python 高手?捷徑在這裡
Python學習入門之函數基礎知識詳解

TAG:python |