當前位置:
首頁 > 最新 > 用Python爬蟲獲取自己感興趣的博客文章

用Python爬蟲獲取自己感興趣的博客文章

作者 CDA數據分析師

在CSDN上有很多精彩的技術博客文章,我們可以把它爬取下來,保存在本地磁碟,可以很方便以後閱讀和學習,現在我們就用python編寫一段爬蟲代碼,來實現這個目的。

我們想要做的事情:自動讀取博客文章,記錄標題,把心儀的文章保存到個人電腦硬碟里供以後學習參考。

過程大體分為以下幾步:

1. 找到爬取的目標網址;

2. 分析網頁,找到自已想要保存的信息,這裡我們主要保存是博客的文章內容;

3. 清洗整理爬取下來的信息,保存在本地磁碟。

打開csdn的網頁,作為一個示例,我們隨機打開一個網頁:

可以看到,博主對《C++卷積神經網路》和其它有關機計算機方面的文章都寫得不錯。

爬蟲代碼按思路分為三個類(class),下面3個帶「#」的分別給出了每一個類的開頭(具體代碼附後,供大家實際運行實現):

採用「類(class)」的方式屬於Python的面向對象編程,在某些時候比我們通常使用的面向過程的編程方便,在大型工程中經常使用面向對象編程。對於初學者來說,面向對象編程不易掌握,但是經過學習習慣之後,會逐步慢慢從面向過程到面向對象編程過渡。

特別注意的是,RePage類主要用正則表達式處理從網頁中獲取的信息,正則表達式設置字元串樣式如下:

用正則表達式去匹配所要爬取的內容,用Python和其它軟體工具都可以實現。正則表達式有許多規則,各個軟體使用起來大同小異。用好正則表達式是爬蟲和文本挖掘的一個重要內容。

SaveText類則是把信息保存在本地,效果如下:

用python編寫爬蟲代碼,簡潔高效。這篇文章僅從爬蟲最基本的用法做了講解,有興趣的朋友可以下載代碼看看,希望大家從中有收穫。

附相關Python代碼:

根據上期學員的反饋和優化,接下來覃老師主講Python數據挖掘課程變成4天,跟著覃老師一起領悟數據挖掘演算法在行業應用。強化的培訓,應該讓你可以學完後很自信,學以致用,快速上手解決工作中的問題。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Python 的精彩文章:

Python實現顏值預測
Python編程環境搭建和規範

TAG:Python |