評價系統心理學:什麼情況下,用戶才會主動「打個好評」?
編者按:看過《黑鏡》第三季第一集《急轉直下》的朋友應該對評價系統有很深的印象。故事被設定在未來的數字化時代,人類進行所有互動之後都需要通過一個評價系統對對方進行打分。而這個分數將成為決定個人工作生活以及社會福利的依據。儘管劇中很多怪誕場景目前尚未成為現實,但是評價系統越來越多越來越複雜卻是事實。究竟什麼樣的評價才是有效的呢?原因又是為什麼呢?Himanshu Khanna把他們的調查結果總結成了一份評價系統的心理學知識。
像其他的消費者服務一樣,Uber也有一個有趣的評級系統,對乘客和司機都有一套。在乘客評級系統中Arjun是冠軍,拿到了4.91的分數,這不是因為他制訂戰略得當,而是因為他為人真誠並且喜歡跟人交流!
他注意到一位司機給了他一個1星的低分。Arjun感到很吃驚。出於好奇,他問那位司機給這麼低的分數是為什麼。那位司機笑著解釋道:「先生,這不是低分。我給你的是第一名!」
我們應該摒棄星級嗎?
2017年初,Netflix採取了一個大動作——摒棄星級評定,而是用頂和踩的評價體系取而代之。10年前 的2009年YouTube就已經這麼改了。其實說到評級,差不多就是要麼天上要麼地下的狀態。
其結論是Youtube上面的絕大部分視頻都得到了一流的五星評級,也就意味著用戶會對極端——要麼這個東西極其出色,要麼就是乏味到了極點時做出反應。至於其他的,他們都沒有做出反應和進行評級的興緻。這裡需要注意的是對YouTube上的視頻的平均評分時所有用戶的平均。而Netflix上的5顆紅星意味著這部電影或者系列劇完全適合你。你看到的(Netflix上面)每部電影或者系列劇旁邊的評分都是愛好類似的用戶的平均給分,而不是YouTube的大鍋飯平均分。
大家評分的頻度如何?
Uber早期幾乎是強制你在開始下一次乘車前要對司機進行評級。不過最新的已經改成了可選,用戶時不時會錯過了評級。2014年,Uber(舊金山)給司機發放了指南,裡面解釋了司機評級系統是如何工作的。此外,如果司機的評級是4.6或者更低的話,Uber會考慮對其賬號進行去激活。
屏蔽持續提供糟糕體驗的司機的賬號確保了Uber繼續因品質而知名
Uber司機有賴於好的評級來謀生。飯店也是,為了獲得更好的客流量,靠「評級」掙得更好收入的產品和服務還有很多。
但是我們對評級的理解是否一致呢?
也許不是。要想回答這個問題,一個更加知情的辦法是理解評級系統的意圖。尤其是在今天的數字產品的語境下。
在數字世界裡評級系統是什麼?
一個評級系統是一次可能的投資,來自你的用戶的對你的產品的投資(或者數字化產品或者其他)。一旦他們(你的用戶)清楚或者喜歡上這次投資的回報,他們就更有可能投資、跟你的評級系統有更好的互動。他們會通過獎勵好行為懲罰壞行為來幫助產品發展。
我們最近對我們一位客戶的項目進行了一次相關調查。超過50%的受訪者把7當做是IMDB的最低評分,這是他們觀看電影的最低標準。任何評分低於這個數的電影他們都不會看!有趣的是,對於同樣一組受訪者來說,演齣節目或者系列劇的LAR(可接受的最低分數)是8(不像電影是7)。「我幾乎從未給一部電影的評分超過8,因為這相當於理想電影的標準」——其中一位受訪者披露道。儘管7的評分屬於可以接受,但是對於電影來說9又太過罕見和例外。同樣一群用戶會在Netflix上「頂」同一部電影。
平台,它們的使用情況,評級系統及其最終的參與結果似乎在用戶如何評價內容中扮演了很大的心理學角色。顏色、標籤以及評級的即時效應也是重要的影響因素。
來自同一份調查的受訪者中約80%者宣稱至少每周打一次Uber,而每天打一次的比例超過了30%。如果司機評分低於4.5(最高分為5)的話,這些Uber通勤者中幾乎其中有50%的人會取消打車!同樣一批用戶每個月至少上一次Zomato(美食點評網站)。而飯店的LAR就掉到了3.8(滿分為5)!也許使用頻率以及與日常生活的相關性也會影響到我們對評分的認知。
4星的評級算是符合預期。5是給超出期望準備的!
Instagram(或者Facebook)的喜歡以及Twitter的轉發也是評級系統,實際上是真正的二進位評分。通常用戶不會對「廢話」體驗進行評分。他們評價的是極端情況——愛或者恨的東西!Facebook、Twitter以及Instagram並不關心「恨」誘發的體驗。他們重視和推廣的是用戶「熱愛」的體驗。二進位系統簡化了獲得評級的行動,用戶只需要在熱愛平台上的什麼東西時才進行評價。
群體規範與一致性
1936年,Muzafer Sherif進行過一次經典的試驗。參與者被安排到一間黑屋裡,他們被要求觀察15英尺以外的一個小亮點,然後估計兩點移動的距離。實驗表明,單獨受試的參與者報告的亮點運動距離差距要比3人一組的受試者報告的距離差異大,後者的結果往往會向一個共同的估計值收斂。Sherif的結果表明,大家總是傾向於達成群體一致而不是做出獨立判斷。
向一位Instagram用戶展示一個有著559031個「贊」的9gag帖子之後,這位用戶會通過追加一個贊來從眾。無論是評分、評級、投票系統還是其他系統,都表現出了從眾的特徵。也許這個因素就是社交媒體病毒傳播力概念的關鍵貢獻者之一。
通過鼓掌來進行評價
Medium上「點贊」按鈕、「推薦(心形圖標)」的二進位對等物在2017年中左右被重新設計成了「鼓掌」。這一激進改動有趣地將讀者從鑒賞者改造成了評估員。一位用戶對一篇文章的鼓掌次數可以多達50次,0-50次鼓掌反映的是對文章的喜歡度(或者品質),這也許就相當於星級評價系統裡面的星星吧。
儘管你也許也「喜歡」自己發布在Facebook上的文章,但Medium並不希望你給自己鼓掌。
需要注意的是,星級評價於Medium的鼓掌數有一點有趣的不同,那就是可能數量的視覺無效性。星級評價系統讓人評估一個5以內的分數。而鼓掌數要求你評估的是一個範圍可以無窮大(理論上)的分數。很多人害怕Medium這種評級系統的改變會讓普通的「評級貨幣」通脹。對於一篇能獲得2k推薦的文章來說,現在即便20k次鼓掌似乎也不夠了。儘管如果從眾繼續發揮魔力作用的話,當鼓掌數達到20k而不是2k時,文章再次獲得鼓掌的可能性會更高。
進一步探討!
其中一些評級系統深受少量被忽視的謬誤之苦,比如平均的概念。比方說對某個服務的星級評價的平均分可能是4.3(滿分為5)。在大多數情況下,鑒於評價會繼續湧入好的數字,這個平均分需要有可觀數量的極端評分(1或者5)才能讓4.3的品滾分變成4.4或者4.2.這個5星評價系統的4.3分,在經過N次評價之後,就成為了平均評分!此後任何出色或乏味的內容可能對這個分數都不會產生影響了,從而妨礙了真正的反饋得到體現。
Uber司機端app的用戶體驗要求司機在行程結束後儘快對乘客進行評價,這是一個規定動作。但是乘客端的app就沒有這樣的要求——乘客對司機評價是個可選項。類似地,Zomato和Amazon上用戶對購買進行評價也是可選的。實際上,哪怕你不是在Amazon上購買某產品的,Amazon也允許你對該產品進行評價,要找的產品的LAR也被拉低到2分左右。
我知道有很多蠢貨會上Amazon去評價,所以我偶爾也會買2星或者3星的東西,並且都還比較滿意。
用戶的性格、情緒、環境、對需求的緊迫性、最終的滿足感(及其名義價值)以及影響者,跟用戶的距離等等,所有這些因素都會對用戶如何評價東西產生很大的影響。我們的調查還有一些值得注意的觀察,這些觀察得出結論說,鑒於其易用性,對手機上的app進行評級是很容易的。74%的人更願意在手機上進行評級。儘管有時候後續還要寫評價導致一些用戶選擇不對app或者相關服務進行評級。
評級系統要統治世界了嗎?
《黑鏡》在第三季第一集的《Nosedive(急轉直下)》中試圖把這個映射為數字化時代的到來。在這部諷刺性的劇集中,用戶可以在一個5星評價系統中對自身線上和線下的一切互動給對方予以打分。從社會低位到訪問特定服務,乃至於就業能力,一切都是個人當前得分的考慮因素。
我們已經將自己變成了一代批評者,並且被賦予了經理這一權利(但是很少會得到報酬)。我們觀察飯店服務員的一舉一動,當他把湯匙擺上桌面時我們會評估它發出的聲音的品質,大概他同意我們的餐具選擇時我們會留意他的禮貌程度,我們會敏銳地記錄並執行心智演算法以推斷出一個合適的評分,然後還會有下一個項目等著我們繼續吹毛求疵。
話雖如此,隨著數字化產品使用到達新高以及用戶體驗與遊戲化的概念統治著心理學,評級系統必定還會繼續評下去。我的希望是這可以給大家一些有關什麼樣的評價有效以及為什麼有效的啟迪。
原文鏈接:https://hackernoon.com/the-psychology-of-rating-systems-3103e26fddd8
編譯組出品。編輯:郝鵬程。


※阿里無人駕駛車開啟路測,BAT三巨頭在同一個競技場聚齊了
※小米推今年首款旗艦MIX 2S,關鍵詞「攝影和語音雙AI」
TAG:36氪 |