從數據角度探究《前任3》為什麼這麼火爆

知識 01-19

採集豆瓣影評

流程如下：

創建一個Scrapy項目；

定義提取的Item；

編寫爬取網站的 spider 並提取 Item；

編寫 Item Pipeline 來存儲提取到的Item(即數據)。

提取資料庫數據，處理展示

創建項目，終端輸入

項目結構(不包括後續配置)

scrapy中cookies的寫法，可以與request中cookie的寫法對比下

這裡我用了兩種方法解決這個問題，第一個是加cookie，效果不太理想，我換了第二種採用登錄的方式。

由於在登錄過程中可能需要輸入驗證碼，目前採用把驗證碼圖片保存至本地手動輸入

(藉助一些打碼平台可以實現自動識別驗證碼輸入，收費)

本來是想用至尊寶做一個詞雲圖的，找了好久沒找到素材，就用了之前我的一張壁紙

話說，詞雲圖好像並不能看出什麼～而分布圖表達的結果也並不直觀，那就代表本次的結果沒有什麼卵用，個人覺得是因為數據量太小了，而且詞雲圖本身對數據展示的結果只能看出高頻詞而已...

時光無法回頭，人生也不能重來，珍惜眼前人。

千萬不要得到的時候在毀，失去的時候在悔！

作者：_知幾

源自：https://ask.hellobi.com/blog/zhiji/11170

聲明：文章著作權歸作者所有，如有侵權，請聯繫小編刪除

Github地址：https://github.com/ReainL/douban_qrs

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 python 的精彩文章: