python 3 爬起點中文網，簡單分析

最新 02-12

python 3之後，爬蟲相對來說簡單一些。主要會用到requests和beautifulsoup庫，reuqests代替瀏覽器發送http請求並返回內容，返回的內容之前都是用正則表達式處理，當然現在也可以，不過現在beautifulsoup庫用得比較多。beautifulsoup處理html標籤，用得最多的是find、find_all、select函數。

一、研究網頁結構

網址：https://www.qidian.com/rank/yuepiao?chn=-1&page=1

我用的是chrome瀏覽器,打開網址，滑鼠右鍵選擇「檢查」，然後刷新。headers主要是頭部信息，preview是頁面的結構，主要是根據headers來寫requests，分析preview找到自己要爬取的信息然後來寫beautifulsoup。

二、爬取第一頁內容

在preview裡面，我找到了要爬取的信息都在rank-view-list這個標籤，所以剩下就很簡單了，定位到相應的標籤即可。

res=requests.get("https://www.qidian.com/rank/yuepiao?chn=-1&page=1")

soup=BeautifulSoup(res.text,"html.parser")

for news in soup.select(".rank-view-list li"):

print({"title":news.select("a")[1].text,"name":news.select("a")[2].text,"style":news.select("a")[3].text,"describe":news.select("p")[1].text,"lastest":news.select("p")[2].text})

三、循環爬取25頁的內容

因為url的前面都沒有變化，只需要更改page後面的參數就好，所以加一個循環，完整代碼如下：

importrequests

frombs4importBeautifulSoupnewsary=[]

foriinrange(25): res=requests.get("http://r.qidian.com/yuepiao?chn=-1&page="+str(i+1)) soup=BeautifulSoup(res.text,"html.parser")

fornewsinsoup.select(".rank-view-list li"): newsary.append({"title":news.select("a")[1].text,"name":news.select("a")[2].text,"style":news.select("a")[3].text,"describe":news.select("p")[1].text,"lastest":news.select("p")[2].text,"url":news.select("a")[0]["href"],"votes":news.select("p")[3].text})