爬蟲實戰|爬糗事百科段子
文史
12-24
網站鏈接:https://www.qiushibaike.com/
網站截圖
主要想爬取的數據有段子內容、用戶、投票數、評論數、熱門評論等等。其實沒有用什麼特別的技巧,也沒有什麼反爬機制,所以比較簡單,用xpath來進行定位獲取相應的內容就行。
具體的步驟就不詳細說明了,po上代碼:
爬取的部分內容如下:
內容截圖
學習了一段時間,倒是能爬取很多東西了。但是學習這件事情,真的沒有終點,也意識到和小O、朱老師這樣的大神,還有很大的差距。
不過還是非常高興在DC學院學習了這門課,也很高興在群里和大家一起討論問題、學習經驗,確實少走了不少彎路。