為什麼票房超過 40 億的《流浪地球》,豆瓣評分會跌破 8 分?
編者按:十年前,全中國還只有 4,000 塊銀幕,而今天在中國投入使用的銀幕數已經超過六萬。「野蠻生長」之下,熱門影片的豆瓣評分卻與票房走勢形成鮮明反比。在《流浪地球》評分兩極分化以至於鬧出「豆瓣一星」運動之後。知乎用戶 chenqin 結合人群構成與票房的關聯,從數據的角度進行了專業分析,提供了一個解析這一現象的視角。
截止到今天,《流浪地球》總票房已經突破 40 億,成為中國影史票房第二的作品。與此同時,流浪地球在豆瓣上的評分也從 8.5 下降到 7.9,兩者的背離引發的討論,其熱度完全不亞於《流浪地球》內容本身的討論。
但事實上,這個下跌,從 8.5 到現在的 7.9,或許並沒有什麼特殊的。正如以下兩個答案(編者注微信無法跳轉,請複製下方短鏈到瀏覽器觀看)所說:
http://t.cn/EfGFRAE
http://t.cn/EfGFekC
1. 許多電影上映後都出現了豆瓣分數逐漸下跌的現象。四部春節檔電影,分數下跌也都不比《流浪地球》少。而根據@驚記 抓取的豆瓣數據,在 2018 年的電影里,《唐人街探案 2》、《超人總動員 2》、《李茶的姑媽》、《神奇動物:格林德沃之罪》、《無敵破壞王 2:大鬧互聯網》,都在上映一周內分數下降 0.5。更別說我最喜歡的《海王》了,人家從 8.5 下降到了 7.7,嚶嚶嚶(拜託可別在本答案下刷海王真難看的評論了)。
2. 《流浪地球》的分數下降,和其他分數下降的電影一樣,主要是由三星和四星的比例上升導致的。一星比例高達 2%,而雖然偏離同等電影的正常水平,卻對總分影響甚小。如下圖所示,在當前的分數結構下,即使把 2% 的一星全部扔掉,平均分也只能增加 0.1 分。
事實上,豆瓣的抨擊者並不是對這些數字一無所知。一開始,他們說豆瓣分數下跌不正常;過幾天,他們承認分數下跌幅度或許正常,但一星比例高得不正常;再到後來,發現 2% 的一星比例對總分影響不大,但又認為豆瓣熱評首頁里差評太多……
總之,這個板子,是一定要打到豆瓣身上去了。
但【已經花了 300 塊錢購買了 3 張 IMAX 影票帶全家去觀看了《流浪地球》的】我覺得,因為對網站的評價不滿意,就把板子打在豆瓣這個 app 身上,似乎也有些莫名其妙。畢竟一星的評分是用戶自己去打的。熱評首頁中差評排序居多,那幾萬票「有用」也是用戶自己投上去的。
比如豆瓣到現在還排名第一的左丘失明的長評——
人家確實有 5.6 萬個踩,但也有 4 萬多個贊,這不是一個小數字吧?
再比如對《流浪地球》的短評。上圖是熱評的前三名,第二和第三名都打了一星,加起來有 10 萬個贊。其中排名第二的「嘟嘟熊之父」,現在有 6.5 萬個贊,比一星期前增加了 4 萬多個。
而《流浪地球》的一星評價數量,在同期只增加了 1.5 萬個。
對「嘟嘟熊之父」的一星短評的贊同增量,遠遠多於實際的一星評價的增量。這意味著什麼?
這意味著——很多人確實沒有發表評論,也沒有給《流浪地球》打一星,也許是因為打一星會顯示在頁面上。他們只是靜悄悄地找到符合自己想法的評論,然後點了一個不能被別人看到的贊。
這讓我想到 2016 年的美國總統大選,公開場合下大家都不喜歡特朗普,所有的民調都不看好特朗普,媒體也說特朗普這不好那不好,看上去希拉里民心所向……
然後特朗普贏了。
在大選時,因為不喜歡一個人而選擇另外一個人是常見的現象,但對電影來說,不存在直接的反對機制。我不喜歡看這個電影,也沒法賣空,也不會拚命去看另一部電影,這沒意義。所以要是不喜歡一部電影,除了評論和在軟體上打分,其他也啥都做不了。
因此,戰場才匯聚到了豆瓣身上。
但正如希拉里敗選後沒法去怪罪大選制度一樣,因為豆瓣上的差評在首頁排名很高就去怪罪豆瓣的話,還不如去想一下,那些讓你們看不順眼的一星差評,為啥會拿到 6.5 萬個、4 萬個、3 萬個【有用】?
把這幾萬個點贊全部當成【牧羊犬】【跪久了】,說幾句【爾曹身與名俱滅】之類的漂亮話,對理解這個問題,有幫助嗎?
短評第一名是 5.6 萬個【愛國者】,短評第二名是 6.5 萬隻【牧羊犬】,很讓人高興嗎?
這篇文章從這裡才真正開始。我們想要研究的一個問題是——豆瓣的用戶,和真正去看電影的用戶,究竟有什麼不一樣?為什麼會不一樣?這樣的差異會造成什麼?
首先,我們給每一部電影做一個用戶畫像
電影的用戶畫像並不好做,首先,在線購票的比例雖然到了九成,但並不知道這些票都是給誰買的。其次,對在線購票者本人來說,他們的畫像也不一定準確。
因此,我們使用人口普查分區縣數據和各區縣的票房和人次數據來完成這個畫像,步驟如下:
1. 電影
的總觀影人次為
,其中在區縣
的觀影人次為
。
2.
,表示每一個電影
在不同區縣
的觀影比例。
3.
表示當年區縣
的觀影總人次,用每個區縣的觀影總人次除以當年全國觀影人次
,得到
,表示當年所有全國觀影人次中不同區縣
的觀影比例。
4.
,表示區縣
在電影
中的觀影比例大於區縣
在所有電影中的觀影比例的程度,可以理解為,是區縣
對電影
的「偏愛」程度。
5. 對於每一個電影
,得到一組
。他的含義是,我們要用每一個區縣的特徵,去解釋為何不同的區縣會對這部電影有不一樣的「偏愛」程度。
舉一個例子,現在有 100 個人,50 個男人 50 個女人,今年總共看了 30 次電影,男人看了 15 次,女人看了 15 次。
其中有一部電影叫做《刺激的動作片》,男人看了 10 次,女人看了 5 次。那麼
從上式我們發現,當性別從女性變成男性的時候,對《刺激的動作片》的偏愛程度從
上升到
,帶來了一個效應為
的上升。因此有:
這樣,就把性別對《刺激的動作片》的偏好影響估算出來了。我們對每個電影都做如此回歸,相當於是把 3000 多個區市縣看成 3000 個具有不同特徵的人,通過這 3000 個「人」的不同特徵和對電影的不同偏好,把所有人口特徵對所有電影的偏好給算出來。
6,使用性別比例、平均教育程度和年齡結構三個特徵,我們回歸計算了所有電影,記錄下所有係數,這樣每個電影都會變成一個三維的向量。比如《復仇者聯盟》,我們就有三個數值:
對所有的電影,我們都有這三個數值。前 20 名的電影的係數表格如下:
選取 2012 到 2018 年所有觀影人次在 1000 萬以上的電影,將三個數值分別作為一個三維空間的 x、y 和 z 軸作圖,可得下圖:
在上面的三維坐標中,大於零的部分表示性別越偏男性/教育越高/年齡越小 越偏好於這部電影。用觀影人次排名前 20 的電影舉例,具體表格如下:
這個演算法準不準呢?我們可以做一個檢驗,看每一個點的最近的鄰居分別是誰——兩個在三維空間里距離較短的點,說明兩者的觀影人群十分類似。我們實驗了四部不同類型的電影,分別找到離這四部電影最近的 5 個點,結果如下:
可以看到,在空間上最接近的幾個影片有相同的觀眾偏好,一般也處在同一個範疇內。比如到《復仇者聯盟 2》距離最近的 5 部電影,有 4 部是漫威出品;在距離《熊出沒·變形記》最近的 5 部電影中,有 4 部都是熊出沒的系列片。
從直覺上看,這個演算法還是能非常準確地將電影給劃分開來的。
特別有趣的是《戰狼 2》,距離他最近的五個點分別是——
1. 小時代 3:刺金時代
2. 小時代 4:靈魂盡頭
3. 美人魚
4. 捉妖記
5. 小時代:青木時代。
這說明《戰狼 2》的觀影人群畫像,和《小時代》系列是十分類似的。特別讓人驚訝的是,和我們的印象不同,《小時代》的性別係數和《戰狼 2》一樣,都是正的,說明男性越多的地區,反而越偏好《小時代》。
而且我們可以看到一個現象——和戰狼 2 最接近的幾部電影,都創造了票房佳績。
每一部小時代都是當年票房的佼佼者,到了《美人魚》和《捉妖記》,這個偏好的觀眾人群創造了當年的票房冠軍,更別提《戰狼 2》了,他創造了中國影史票房冠軍。
這個現象也提出了本文的第二個問題——
我們應該拍攝什麼樣的影片,吸引什麼畫像的人群,才能儘可能吸引更多觀眾來觀影?
我們將性別、教育和年齡這三個指標分別和觀影人次的對數作圖,可以得到下面三張圖:
從上面三張圖中,我們可以看到:
1,過於偏向某一種性別的電影,不會有很好的票房,只有性別處在中間的時候,票房才更高。
2,讓年齡太低或者年齡太高的人特別喜歡的電影,票房也不會很高,也需要針對中間值來確定觀眾的偏好。
3,和性別、年齡的圖中出現的先上升、再下降的圖不同,教育水平的偏好關係和觀影人次似乎並沒有一個明顯的峰值,而是隨著教育提升,單調下降——越讓高教育人口喜歡的電影,票房越低。
我們將上面的第三張圖分成 2015、2016、2017 和 2018 年,可以看到一個更明顯的趨勢——
上面四條線的斜率,一年比一年大,這意味著低教育偏好的電影,帶來的觀影人次一年比一年高。
2015 年和 2016 年時,低教育偏好的電影和高教育偏好的電影,在觀影人次上還差不多,從 2017 年開始兩者的關係變為顯著負相關,係數為-0.17,在 5% 水平上顯著。
2018 年,低教育偏好能帶來更高票房,係數已經達到-0.22,在 1% 水平上顯著。
這意味著電影的目標觀眾教育水平越低,該電影的票房越高,而且兩者的相關程度還在不斷上升。
為什麼會這樣?答案非常簡單——高教育人口,已經不能貢獻增量票房了。
我們將中國 3000 多個區市縣按照其平均教育水平分為四個部分,分別是平均教育年限大於 12 年(全國前百分之 1% 水平)、10.9 年到 12 年之間(全國前 1% 到全國前 10%)、9.6 年到 10.9 年之間(全國前 10% 到全國前 25%)、9.6 年以下(全國後 75% 水平),他們在 2012 到 2018 年的觀影人次如下圖所示:
從上圖可以看到,在教育水平最高的地區,觀影人次從 2015 年到 2018 年已經下降了 6%!
教育水平次高的地區也有同樣的現象,從 2015 到 2018 年只上升了 5%。
而平均教育年限在 9.6 年以下的地區,從 2015 到 2018 年的觀影人次上升了 55%。
隨著中國的電影院在發達地區飽和,並向三四線城市蔓延,未來如果有人能夠對電影票房產生新的貢獻,那麼他們一定是三四線城市的人群。
因此,新的賣座電影,必然是為這批觀眾量身定做的電影。
回到一開始的問題——
為什麼會許多電影的豆瓣電影評分逐漸降低?那些豆瓣評分逐漸降低的電影,和電影本身的目標人群特徵有什麼關係?
我們將@驚記 提供的豆瓣分數動態變化數據和我們用票房數據計算出的每一部電影的偏好鏈接在一起,看哪一個維度的指標和豆瓣的評分降低有關。
結果,只有一個指標有顯著相關性,他就是一部電影目標人群的教育水平和電影偏好的係數。
上方散點圖的相關性在 1% 的水平上顯著,說明電影的目標觀眾人群越傾向於低教育人口,豆瓣給他的評分下降就越多。
其中,位置在最上方,分數提高最多的電影是《無問西東》,豆瓣開畫 6.7 分,到第十天是 7.7 分(目前是 7.5 分),票房為 7.5 億。
而分數降低最多的是《後來的我們》,豆瓣分數從一開始的 7.1,降低到第十天的 5.9(目前仍為 5.9),票房為 13.6 億。
最後理順所有的故事:
1. 從 2015 年開始,那些比較發達、平均教育水平比較高的地區,觀影人次達到飽和,出現增長停滯,甚至下降。而那些欠發達、平均水平比較低的地區,觀影人次持續增長。
2. 欠發達地區人口偏好度更高的電影,能夠帶來更高的票房,且兩者關係逐年增加。而豆瓣對這批欠發達地區偏好的電影更為苛刻,他們雖然常常拿到很高的票房,但是豆瓣評分卻往往逐漸降低。
3. 電影的提供者當然會優先滿足快速需求的增長。在這種趨勢下,我們未來將看到更多為這批快速增長的欠發達地區觀影人群量身打造的電影。
4. 除非豆瓣的構成和中國觀影人群的構成一樣快速轉變,否則,隨著電影供給向欠發達地區的偏好逐漸傾斜,豆瓣評分走低但票房又同時走高的現象,將會越來越頻繁地出現。
作者註:
感謝@王義之 提供的電影票房分影院的日度數據以及@驚記 提供的從 2017 年開始的豆瓣評分動態數據,其他數據來自第六次人口普查分縣資料。由於還沒有拿到《流浪地球》的分影院數據,我們暫時無法計算出《流浪地球》的偏好坐標。
本文授權轉載自知乎用戶@chenqin ,商業轉載請聯繫原作者獲得授權。


※寫在「新造車風口」終結之前
※防範 AI 最前線的 OpenAI,開發了一個會寫假新聞的 AI 模型
TAG:極客公園 |