我做了12萬條的影評分析,告訴你《戰狼Ⅱ》都在說些啥
本文原作者麥艷濤。本文原載於知乎專欄。
截止到8月15日,《戰狼Ⅱ》上映的第19天,票房已超45億人民幣。
真正成為唯一一部挺進世界影史票房前100名的亞洲電影。
拋開爆炸的票房不說,電影還激起了觀眾各種情緒,甚至有人放狠話說:敢噴《戰狼Ⅱ》的,要麼是智障,要麼是公敵,就是這麼簡單粗暴。
儘管各路評論出街,媒體鬧得沸沸揚揚,觀眾還是傻傻分不清楚哪邊意見比較靠譜。
本文通過Python爬蟲的方式獲取數據,對豆瓣電影評論進行分析,製作了豆瓣影評的雲圖。
現在,讓我們來看看,《戰狼Ⅱ》評論里到底藏著哪些有趣的潛台詞。
數據的獲取
對於數據的獲取,本文採用的是Python爬蟲的方式獲取的數據。用到的主要是requests包與正則包re。該程序並未對驗證碼進行處理。
之前也爬取過豆瓣的網頁,當時由於爬取的內容少,所以並沒有遇到驗證碼的事情。在寫本文爬蟲的時候,原以為也不會有驗證碼,但是當爬取到大概15000個評論的時候跳出來驗證碼。然後我就想不就是十二萬嗎?最多我也就是輸入大概十幾次驗證碼,所以就沒有處理驗證碼的事情。
但是接下來的事情就有點坑到我了。爬取15000左右評論並輸入驗證碼的時候,我以為會接下來爬取到30000左右,可是才爬了3000左右就不行了,還是要輸驗證碼。然後就一直這樣,跌跌撞撞,有時候爬取好長時間才需要驗證碼,有時候則不是。不過最後還是把評論爬取下來了。
爬取的內容主要是:用戶名,是否看過,評論的星星點數,評論時間,認為有用的人數,評論內容。參看下圖(用戶名已隱藏):
這個是影評的起始頁:豆瓣影評
以下是Python爬蟲的代碼:
以上代碼注意設置你自己的User-Agent,Cookie,CSV保存路徑等。
爬取的內容保存成CSV格式的文件。保存的文件內容如下:
數據清洗
本文用R語言來處理數據。雖然在爬取的時候已經非常注意爬取內容的結構了,但是還是不可避免的有一些值不是我們想要的,比如有的評論內容會出現在評論者這一項中。所以還是有必要進行一下數據的清洗。
首先載入要用到的所有包:
導入數據並清洗:
數據淺析
先來看一看通過星星數評論的情況:
五角星的個數對應5個等級,5顆星代表力薦,4顆星代表推薦,3顆星代表還行,2顆星代表較差,1顆星代表很差。通過五角星的評論顯而易見。我們有理由相信絕大部分觀看者對這部影片持滿意態度。
對評論結果的雲圖展示:
首先我們應該先進行評論的分詞
總體評論雲圖展示
由於數據太多,導致我的破電腦卡頓,所以在製作雲圖的時候去掉了頻數低於1000的辭彙。
雲圖結果如下:
整體來看,大家對這不影片的評論還是不錯呀!劇情,動作,愛國等話題是大家談論的焦點。但是如果把不同評價的人的評論分別展示會是什麼樣子呢?
不同評論等級的雲圖展示
也就是對五個等級(力薦,推薦,還行,較差,很差)的評論內容製作雲圖。代碼如下(只要改變代碼中力薦為其他即可):
1.力薦的評論人的評論雲圖
2.推薦的評論人的評論雲圖
3.還行的評論人的評論雲圖
4.較差的評論人的評論雲圖
5.很差的評論人的評論雲圖
結論
從不同的評論的分詞結果來看,他們都有一個共同的話題:愛國。
在力薦的評論中可能愛國話題的基數比很差的評論中的多,在力薦的評論中人們更願意討論的是愛國話題之外的事情。在很差的評論中人們討論的大多是愛國話題。而且他們占的比例很有意思,從力薦的人到評論很差的人,愛國話題的比例逐漸增加。
我們不能主觀的認為誰對誰錯,只能說他們站在的角度不一樣,所以看到的結果也不太一樣。當我們和別人意見不同時,往往是所處的角度不同。評論很差的人考慮的更多的是愛國的話題吧(這裡只是愛國話題的討論,並不是誰愛不愛國)!!
作者 /麥艷濤(挖掘機小王子)
簡介/數據分析愛好者
來源 /知乎專欄
關注 AI 研習社(okweiwu),回復1領取
【超過 1000G 神經網路/AI/大數據、教程、論文!】
在 Mac OS X 裝不上 TensorFlow?看了這篇就會裝
點擊展開全文


※普林斯頓聯合Adobe 連聲音都能PS了
※吳恩達創業第一波 看看哪些大咖為他站台
※用GAN來做圖像生成,這是最好的方法
※Google AI 實力打臉:你真的懂機器學習嘛?
※在ADAS中運用多任務深度學習框架
TAG:唯物 |
※讓我告訴你!我在美國的14天都幹了什麼
※破5億的《烈火如歌》,所有你想知道的,都告訴你
※男人的這4個信號,就是告訴你:他想你了
※5個做飯竅門,知道了事半功倍,別說我沒告訴你!
※為什麼大家在看了《戰狼2》後都不看外國片了?這裡告訴你真相!
※一張圖告訴你什麼是2018最佳男友,你做到了幾條
※別問我為什麼要寫張藝興,我只告訴你4點,看完你就知道了
※你的另一半是否有人了?4個細節告訴你!
※男人對你說這4句話,就是告訴你:他想離開了!
※我放棄50萬年薪,是為了告訴孩子:讀書無用論都是騙人的!
※相親了不下10次,我想告訴你們這些!
※2017年你的錢都去哪兒了?這些普通人告訴你答案
※必須告訴孩子的22個真相!
※2018年最高分韓劇《迷霧》,告訴你有個有野心的老婆是種什麼感覺
※前任3告訴我們:兩個人不怕吵架,就怕不說話!
※網文:誠實的告訴我,我已經15歲了,被我改編的作品你知道幾個?玩過幾個?看過幾個?
※這20個忠告,再不告訴孩子就晚了
※吃了20多年的蛋炒飯,你告訴我吃錯了!什麼情況?
※狗年說狗,10張難得圖片告訴你,為什麼狗是人類最好的朋友
※10種戒指的戴法,今天一次性告訴你!