當前位置:
首頁 > 科技 > 爬取了 48048 條評論數據,解讀 9.3 分的《毒液》是否值得一看?

爬取了 48048 條評論數據,解讀 9.3 分的《毒液》是否值得一看?

作者 | Ryan

責編 | 郭芮

11月,由湯姆·哈迪主演的「毒液:致命守護者」在國內上映,依託漫威的光環以及演員們精湛的演技,這部動作科幻片在貓眼評分得到豆瓣7.4的評分,口碑和票房都高於大多數同期上映的其他影片。

所以周日的時候跟基友去電影院去看了這場正邪共生的電影,100多人的影院座無虛席,不過看完之後對比其他漫威作品,我倒也沒覺得有多大的驚喜,覺得貓眼上的9.3評分的感受不符。

頭部的幾條評論顯然有些誇大,那大眾對「毒液」感受是怎麼呢?於是筆者動手開始分析起來。

獲取數據

首先要獲取數據,準備爬取貓眼上的電影評論作為本次分析樣本,PC官網上只顯示了電影的10條熱門短評,顯然不夠,於是準備從M端抓包找到評論介面。

介面鏈接:

http://m.maoyan.com/mmdb/comments/movie/42964.json?v=yes&offset=15&startTime=2018-11-20%2019%3A17%3A16。

介面中對我們本次抓取主要有用的參數是offset偏移量以及日期,這兩個條件限制了抓取的條數。分析介面結果:

這裡有用戶評論的相關數據,我們選取了地理位置(用戶為授權無法獲取)、評論內容、用戶名、評分以及評論時間的數據,通過python的requests模塊開始爬取。導入本次爬取需要的包,開始抓取數據。

其次是解析Json數據,每個介面有15條評論數據,10條熱門評論數據,我們將評論數據中用戶名、城市名、評論內容、評分、評論時間依次解析出來,並返回。

接著我們將獲取到的數據保存到本地。此過程中,對介面url中時間的處理借鑒了其他博主的爬蟲思路,將每次爬取的15條數據取最後一條的評論時間,減去一秒(防止重複),從該時間向前獲取直到影片上映時間,獲取所有數據。

最終抓取了48048條評論相關數據作為此次分析樣本。

數據可視化

數據可視化採用了pyecharts,按照地理位置製作了毒液觀眾群的分布圖。部分代碼如下:

從可視化結果來看,「毒液」觀影人群以東部城市為主,觀影的top5城市為深圳、北京、上海、廣州、成都。

觀眾地理位置分布圖

觀眾來源排行TOP20

用戶評論,詞雲圖

只看觀眾分布無法判斷大家對電影的喜好,所以我把通過jieba把評論分詞,最後通過wordcloud製作詞雲,作為大眾對該電影的綜合評價。

從最終的詞雲結果上來看,大多數觀眾還是對「毒液」很滿意的。

作者:Ryan,任職上海某中型互聯網公司,關注數據分析以及互聯網產品領域,喜歡的關注公眾號「格雷福斯」與我交流。

聲明:本文為作者投稿,版權歸其個人所有。

微信改版了,

想快速看到CSDN的熱乎文章,

趕快把CSDN公眾號設為星標吧,

打開公眾號,點擊「設為星標」就可以啦!


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 CSDN 的精彩文章:

中國的區塊鏈技術,究竟發展到哪裡了?
Google 前員工:秘密研究中國搜索項目或會引發離職潮!

TAG:CSDN |