一個獵頭的Python學習筆記01

最新 01-12

直接來點兒乾貨吧

對於Python開發環境的安裝，語言規則的熟悉過程就不說了，絕大部分Python教材都會講到，簡單說一下我目前使用的版本： Python使用最新的3.6版本，開發環境使用的是Pycharm 2017。基於Windows7環境，Mysql5.3，pip3 自動安裝了pymysql,BeautifulSoup等模塊。

第一周，通過幾十行代碼實現了獵聘網人選搜索記錄的獲取。

import requests

from bs4 import BeautifulSoup

import re

import pymysql.cursors

cookie = """_MyCookies"""

header = {

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36",

"Connection": "keep-alive",

"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",

"Cookie": cookie

}

url = https://h.liepin.com/search/soResume/

d = {"company": "樂視", "keys": "", "titleKeys": "", "wantdqs": "010", "dqs": "010", "pageSize": "50"}

r = requests.post(url, headers=header, data=d)

r.encoding = "utf-8"

soup = BeautifulSoup(r.text, "lxml")

tr1 = soup.select("tr[class^=table-list-peo]")

tr2 = soup.select("tr[class^=table-list-info]")

print(tr1)

print(tr2)

以上代碼可以獲取如下紅框中的內容。

相當於用獵聘搜索樂視公司，且目前所在地區和期望地區都是北京的人員名單。

以上代碼很簡單，出乎意料的簡單！

第二周，我嘗試解析網頁代碼並把搜索結果入庫。首先我按照獲取的內容用Mysql建了個數據表，結構如下：

表格中前面的數據項對應的是搜索結果的內容，後面的「入庫時間」和「搜索條件」為以後做數據分析做準備，這個以後再講。

通過頁面的搜索結果我們可以看到，目前獵聘網上「樂視」公司在北京地區的人選有2666人（幾天之前我記得應該有2680人，這個數據也很重要，可以監測某公司或某行業的人員流動情況，這個應用點以後再說），每頁50人共有54頁，獲取這些內容後我們就可以將所有的網頁爬完，然後將這2666人的簡要信息寫入我建的資料庫了。

代碼部分不再貼了，簡單說就是頁面的分析爬取和頁面元素的解析入庫。最終結果彙報一下：

這是爬完入庫的數據表，2666的爬取入庫需要大約75秒（單線程）。有了這個數據表，我們對目標公司人選的選擇就更方便了，我可以按照任意欄位排序，也可以在Mysql裡面按照不同欄位搜索。

第一階段的任務基本完成了，這兩周的勞動成果是，我目前可以對目標公司或特定行業進行搜索整理存入自己的資料庫，至於數據的使用可以非常靈活，最簡單的用法可以對目標公司信息進行跟蹤，可以對比人選變化等等。

下一步任務是根據簡要簡歷庫中保存的鏈接爬取完整簡歷，完善簡歷信息。最終目的是通過機器學習進行自動推薦，路漫漫其修遠......

（作者王軍先生：70後，是廣仕緣獵頭高級顧問兼合伙人，有著豐富的IT互聯網技術從業和創業經歷，擅長IT互聯網和金融行業的產品技術和研發類高端人群的獵尋和甄別）

廣聚仕途之緣分，非凡平台，改變你與他人的人生差距。

圖片來源於網路，版權人請聯繫我們

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 Python 的精彩文章:

※Python函數之匿名函數

TAG:Python |