當前位置:
首頁 > 最新 > 一個獵頭的Python學習筆記01

一個獵頭的Python學習筆記01

直接來點兒乾貨吧

對於Python開發環境的安裝,語言規則的熟悉過程就不說了,絕大部分Python教材都會講到,簡單說一下我目前使用的版本: Python使用最新的3.6版本,開發環境使用的是Pycharm 2017。基於Windows7環境,Mysql5.3,pip3 自動安裝了pymysql,BeautifulSoup等模塊。

第一周,通過幾十行代碼實現了獵聘網人選搜索記錄的獲取。

import requests

from bs4 import BeautifulSoup

import re

import pymysql.cursors

cookie = """_MyCookies"""

header = {

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36",

"Connection": "keep-alive",

"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",

"Cookie": cookie

}

url = https://h.liepin.com/search/soResume/

d = {"company": "樂視", "keys": "", "titleKeys": "", "wantdqs": "010", "dqs": "010", "pageSize": "50"}

r = requests.post(url, headers=header, data=d)

r.encoding = "utf-8"

soup = BeautifulSoup(r.text, "lxml")

tr1 = soup.select("tr[class^=table-list-peo]")

tr2 = soup.select("tr[class^=table-list-info]")

print(tr1)

print(tr2)

以上代碼可以獲取如下紅框中的內容。

相當於用獵聘搜索樂視公司,且目前所在地區和期望地區都是北京的人員名單。

以上代碼很簡單,出乎意料的簡單!

第二周,我嘗試解析網頁代碼並把搜索結果入庫。首先我按照獲取的內容用Mysql建了個數據表,結構如下:

表格中前面的數據項對應的是搜索結果的內容,後面的「入庫時間」和「搜索條件」為以後做數據分析做準備,這個以後再講。

通過頁面的搜索結果我們可以看到,目前獵聘網上「樂視」公司在北京地區的人選有2666人(幾天之前我記得應該有2680人,這個數據也很重要,可以監測某公司或某行業的人員流動情況,這個應用點以後再說),每頁50人共有54頁,獲取這些內容後我們就可以將所有的網頁爬完,然後將這2666人的簡要信息寫入我建的資料庫了。

代碼部分不再貼了,簡單說就是頁面的分析爬取和頁面元素的解析入庫。最終結果彙報一下:

這是爬完入庫的數據表,2666的爬取入庫需要大約75秒(單線程)。有了這個數據表,我們對目標公司人選的選擇就更方便了,我可以按照任意欄位排序,也可以在Mysql裡面按照不同欄位搜索。

第一階段的任務基本完成了,這兩周的勞動成果是,我目前可以對目標公司或特定行業進行搜索整理存入自己的資料庫,至於數據的使用可以非常靈活,最簡單的用法可以對目標公司信息進行跟蹤,可以對比人選變化等等。

下一步任務是根據簡要簡歷庫中保存的鏈接爬取完整簡歷,完善簡歷信息。最終目的是通過機器學習進行自動推薦,路漫漫其修遠......

(作者王軍先生:70後,是廣仕緣獵頭高級顧問兼合伙人,有著豐富的IT互聯網技術從業和創業經歷,擅長IT互聯網和金融行業的產品技術和研發類高端人群的獵尋和甄別)

廣聚仕途之緣分,非凡平台,改變你與他人的人生差距。

圖片來源於網路,版權人請聯繫我們


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Python 的精彩文章:

Python函數之匿名函數

TAG:Python |