Python爬蟲抓取某院網站MM照片，15分鐘教你爬取心目中的女神！

最新 03-09

Scrapy，Python開發的一個快速,高層次的屏幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛，可以用於數據挖掘、監測和自動化測試。

Scrapy吸引人的地方在於它是一個框架，任何人都可以根據需求方便的修改。它也提供了多種類型爬蟲的基類，如BaseSpider、sitemap爬蟲等，最新版本又提供了web2.0爬蟲的支持。

Scrapy主要包括了以下組件：

引擎(Scrapy)

用來處理整個系統的數據流處理, 觸發事務(框架核心)

調度器(Scheduler)

用來接受引擎發過來的請求, 壓入隊列中, 並在引擎再次請求的時候返回. 可以想像成一個URL（抓取網頁的網址或者說是鏈接）的優先隊列, 由它來決定下一個要抓取的網址是什麼, 同時去除重複的網址

下載器(Downloader)

用於下載網頁內容, 並將網頁內容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的非同步模型上的)

爬蟲(Spiders)

爬蟲是主要幹活的, 用於從特定的網頁中提取自己需要的信息, 即所謂的實體(Item)。用戶也可以從中提取出鏈接,讓Scrapy繼續抓取下一個頁面

項目管道(Pipeline)

負責處理爬蟲從網頁中抽取的實體，主要的功能是持久化實體、驗證實體的有效性、清除不需要的信息。當頁面被爬蟲解析後，將被發送到項目管道，並經過幾個特定的次序處理數據。

下載器中間件(Downloader Middlewares)

位於Scrapy引擎和下載器之間的框架，主要是處理Scrapy引擎與下載器之間的請求及響應。

爬蟲中間件(Spider Middlewares)

介於Scrapy引擎和爬蟲之間的框架，主要工作是處理蜘蛛的響應輸入和請求輸出。

下面小編給大家分享一個問卷星刷票項目實例，在分享之前小編還是要推薦自己建立的裙Python學習：五七七九零一二九四這裡有推薦的學習路線，基礎視頻學習資料和電子教程文檔和Python安裝工具及Python技術學習交流和分享

調度中間件(Scheduler Middewares)

介於Scrapy引擎和調度之間的中間件，從Scrapy引擎發送到調度的請求和響應。下面我們用Python爬取

1 、抓取某院網站MM照片MM的照片

2.抓取每一個MM的資料簡介以及寫真圖片

3.把每一個MM的寫真圖片按照文件夾保存到本地

4.熟悉文件保存的過程

1.URL的格式

在這裡我們用到的URL是 http://mm.taobao.com/json/request_top_list.htm?page=1，問號前面是基地址，後面的參數page是代表第幾頁，可以隨意更換地址。點擊開之後，會發現有一些淘寶MM的簡介，並附有超鏈接鏈接到個人詳情頁面。

我們需要抓取本頁面的頭像地址，MM姓名，MM年齡，MM居住地，以及MM的個人詳情頁面地址。

2.抓取簡要信息

相信大家經過上幾次的實戰，對抓取和提取頁面的地址已經非常熟悉了，這裡沒有什麼難度了，我們首先抓取本頁面的MM詳情頁面地址，姓名，年齡等等的信息列印出來，直接貼代碼如下

Python

運行結果如下

2.文件寫入簡介

在這裡，我們有寫入圖片和寫入文本兩種方式

1）寫入圖片

Python

2）寫入文本

Python

3）創建新目錄

Python

3.代碼完善

主要的知識點已經在前面都涉及到了，如果大家前面的文章都已經看了，完成這個爬蟲不在話下，具體的詳情在此不再贅述，直接帖代碼啦。

Python

以上兩個文件就是所有的代碼內容，運行一下試試看，那叫一個爽啊

python對於小白來說，爬蟲可能是一件非常複雜、技術門檻很高的事情。比如有人認為學爬蟲必須精通 Python，然後系統學習 Python 的每個知識點，很久之後發現仍然爬不了數據；有的人則認為先要掌握網頁的知識，遂開始 HTMLCSS，結果入了前端的坑,好了，知識今天就分享到這裡，想學習了解更多，歡迎在下面評論區留言和小編交流。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 Python 的精彩文章:

※day02.Linux、編輯器、伺服器Python教程
※Python中的數字

TAG:Python |