用於應用的評級系統,是「贊」和「沉」按鈕好,還是五星制度好?


關鍵是要先弄清楚這些機制的目的是什麼。然後才有評價優劣的標準。

在我看來,這些機制的目的是使得用戶更容易的理解其所面對的對象(app),幫助其做出下一步的決策(進一步了解、下載、分享……)。拿app舉個例子

  • 要不要了解一下這個app?要不要下載這個app?
    • 8.5分,看起來還不錯誒
    • 100個喜歡,50個不喜歡...到底怎麼樣呢?╮(╯_╰)╭
  • 這幾個app哪個更好?
    • A 8.5分,B 8分。A了!
    • A 100個喜歡,50個不喜歡,B 50個喜歡,20個不喜歡 O__O"…
  • 如何向別人推薦這個app?
    • 這個app 9分,很不錯!
    • 這個app 100個喜歡,50個不喜歡... =_=

這下清楚多了吧XD

感興趣的話,還可以想想下面這些問題(話說想問題有助於減肥XD):

  1. 為什麼更常見的是評星,不是打分(輸出都是分數)?
  2. 評星有哪些不足的地方?
  3. 為什麼知乎的答案用贊同/反對?
  4. 為什麼淘寶的店家信譽不用評出來的星級/分數,而是鑽/皇冠?

二者都有不足的地方。

評分是為了給還沒有使用的用戶一個參考,所以不應該以評分者的角度來思考這個問題。

單獨的5星和「頂踩」並沒有本質區別(還包括imdb的10星),只是分級數不同而已。至於「頂」和「踩」帶來的選擇上的方便,只是對於評分者而言的,對那些對這個應用一無所知(或者任何形式的商品,電影,音樂)的人來說,並沒有太大的差別。

AppStore採用的柱狀圖形式,是在上述方案上的改進,讓用戶(或者說消費者)多掌握了一些信息。

除了分數之外呢?沒有了,再沒有任何信息了。想要了解更多,就必須去看評論,這無疑增加了用戶選擇的成本。

值得一提的是Goodfilms採用的評分方法,分布圖式。這是從一維信息向二維信息的升級,用戶可以更加直觀地得到電影的信息。

這是Inception的評分信息,縱坐標是「可反覆觀看指數」,橫坐標就是大家熟悉的評分。可以看出,越靠近右上角,說明影片的綜合質量和受喜愛程度越高。


對比下面的Transformers: Revenge of the Fallen的評分,可以很容易地看出差別(分布在右上角的分數很稀疏,說明用戶對它的綜合評價一般),而不僅僅是分數的不同。


這種二維的評分方法很值得借鑒,既直觀又有更豐富的信息。對於app來說,是不是可以用「每周打開次數」這樣的指標來代替Goodfilms的「可反覆觀看指數」呢?


***********************************************我是分割線***********************************************
最近看到又有這麼多人同意我的想法,自己也看了看之前的回答,覺得還是有可以推敲的地方,寫出來與大家分享。

其實之前按我的觀點,評分系統設計的目的是為了給還沒有使用的用戶一個參考,這當然是評分系統的一個很重要的角色,不過我忽略了評分者在評分機制中的重要性——沒有人評分,看什麼呢?

其實最近關於評分的話題還挺熱的,John Gruber就因為對iOS很多應用引導用戶給應用打分的機制大為不滿,還為此發起了一個活動 Daring Fireball Linked List: Eff Your Review。這件事,從側面也反應出了應用開發者們的無奈——想找人給自己的應用打分,真是太難了。

對於普通用戶,可能壓根就沒有給應用打分的意識,尤其是國內的很多安卓用戶(連獲取應用的渠道都是亂七八糟的)。而那些有意願給應用打分的,有意願幫助開發者提高應用質量的用戶卻是少之又少,這樣的矛盾短期內是很難解決了。

這就讓我不禁去想,該怎麼解決這個問題。其實在Google Play中放眼望去,很多應用下面的有意義的評分還是不少的。我想這主要得益於三點:在Google Play混的用戶素質較高;應用本身質量好;Google Play的應用界面(無論是web還是客戶端)都營造出一種尊重用戶評分,歡迎用戶評分的氛圍。

看下面的截圖就很明白了:

Google Play的應用信息界面,用戶評分模塊的位置甚至排在應用信息的前面,不需要向下滾動就可以看到,足見Google對於用戶評分和評論的重視;反觀AppStore,用戶評論只是放在一個標籤頁里,如果不是特別留意或者有專門意願給應用評分的用戶,一般的用戶很難留意到,這就大大減少了那些沒有評分習慣的用戶給應用評分的幾率

仔細想想Google這麼做所帶來的好處,我想增強用戶給應用評分的潛意識只是表象,深層的目的應該是增加了用戶的參與度,用個小時候經常聽到的詞,應該叫「主人翁精神」。Google於2013年5月增加了為Google Play上的開發者增加了一項功能:開發者可以對用戶的評論做出回復http://android-developers.blogspot.com/2013/05/all-google-play-developers-can-now.html,這項功能大大增進了用戶和開發者之間的互動,讓用戶對應用的反饋有了二次反饋,並且讓用戶們可以親身感受到自己對於一個應用的開發進程產生了良性的影響。這種自我認同感的收穫,才是鼓勵用戶對更多應用發表有價值評論的源動力

總結一下我的思維過程吧,由這個關於評分問題,分別從評分者和看評分者的角度延伸了一些觀點,也讓我認識到,只有從不同的角度分析問題,才能得出更加全面客觀的觀點。

有不足的地方,歡迎大家補充。


感覺大家都在討論二者的區別,我想從評級本身出發來闡述一下。其實不論是「贊、沉「,或者」五星「,本質都是基於兩個維度的質量評級:等級、數量。

只有留在第一區間的產品,才能稱得上為精品。而我們看到的排名,無非是等級和數量乘以

只有留在第一區間的產品,才能稱得上為精品。而我們看到的排名,無非是等級和數量乘以排名系統定義的權重的總和。

這裡涉及到三個主要因素:

  1. 等級切分的粒度
  2. 樣本數量
  3. 維度的權重

它們的結合,產生了很多有趣的結果和推論。

大家接觸到最流行的評級標準應該飯店星級,這個五六十年代的產物影響了無數酒店的興衰榮辱。這是由一群專業人士基於各種條件進行了相對公平和專業的評價,因此酒店認可,消費者也認可。這裡針對粒度提供了5個級別,而樣本數量則是專業委員會的全部成員。由於是有限成員數量的機構定義,故權重被淡化, 因此可以看到:在樣本有限的情況下,權重被淡化,引入多粒度的等級易於體現各個層次的差異。

可同樣是由委員會定義,關於世界國家廉政指數排名,雖然是官方權威發布,但就顯得那麼的不靠譜。因此可以推導出另外一個結論:在樣本有限的情況下,評級單位的誠信度尤為重要。否則縱使你分一百個星星,也沒人會相信裡面的結果。

在酒店評級之後,音樂評級漸漸流行,其也採用五星制,評分人只有一個:你自己。至今iTunes、Windows Media Player等播放軟體仍舊提供此機制。正是由於酒店、音樂針對五星制的流行,因此在社會化的浪潮中,大家也紛紛效仿,這樣也最易於被大家接受,但是,時代變了。

如今,不論是大眾點評(吃)、蝦米(聽)、豆瓣(看)、豌豆莢(用)等各類網站,其評分均基於社會化評分機制,因此,好壞的標準主要由樣本數量度權重來決定。這個時候,對用戶來說,今天是吃一家三星的飯店還是聽一首四星的歌曲沒有任何意義。因為:

  1. 社會化評級是動態的過程,好的東西終將冒頭,何況還有推薦和刷榜機制幫忙
  2. 大部門用戶的心態是趨眾求好的,一般的東西沒多少人注意,倒是爛到渣有可能博取到更多的眼球。

因此,從長遠來看,社會化必將推動等級的粒度越來越少。Google的+1 就已經做到了極致。至於未來會怎樣,只有等待下一個時代的來臨。


任何一個shopping system都包含兩個部分
1.發散部分,通過有限的信息輸入,幫助用戶發現感興趣的item或item group
2.收斂部分,在已經確定的group里,通過更細分的評價體系,幫助用戶作出決策


這時你會發現,針對不同的售賣品,產品設計出來兩部分的輕重是很不同的.
1.大平台的系統發散部分非常重,並且類目繁雜難以做針對性的評價維度,只能在普適的維度上做細,比如評價,銷量,價格等等,這些東西很難有助於發散部分(這個任務由搜索/類目導航/推薦來承擔),大多數情況下是在收斂階段幫助用戶決定"在一群裡邊買哪個",淘寶,amazon,app store都屬此類.這類平台的評分非常量化,並且出現了"對評分的評分"這種精耕細作不厭其煩的設計. 某種程度上Quora/知乎也歸為此類


2.針對某一類目的產品,比如點評,豆瓣書影音,可以做出針對性的評價維度,比如口味,環境,人均消費,服務態度什麼的.這時的評價系統可以同時承擔發散和收斂的任務,比如我可以專門找"北京環境最上流的驢火",這時評價的UGC在我進入商品詳情頁之前的探索階段已經發揮了作用.

3.還有一種更單一的情況,即"只有一種評價標準".通常出現在"只賣一種東西"的平台,比如貸款平台賣的是"低利率",電驢賣的是"種子多",搜索引擎賣的是"點的人多"(這個有優化空間,搜索引擎已經有引入簡單的評價體系,比如+1,也有社會化的嘗試),這時評價體系已經不是必備的了,是錦上添花

4.其實跟評價體系平行的還有很多其他方法可以幫助用戶排除不確定性,增進決策.
幾個例子
a)

b)

b)

c) 最後說說社會化:

c) 最後說說社會化:
之前討論一個電影的產品,討論稿是一個跟豆瓣一樣的10星評價方案. 我當時這麼講:在SNS上做電影產品的優勢是你有social graph.並且很可能更生活化,你能得到身邊人的意見,有更多機會能夠影響用戶的生活決策,甚至決定跟誰一起去看,什麼時候,去哪裡,這都是豆瓣不好做的.

我給的想法是,評分這種東西直接同步豆瓣/imdb就好了沒必要重複做,真正要做的是四個button:"別tm看" ,"下載看", "買碟看", "一定要去買票看不然鄙視你"(後邊跟一個向好友推薦去哪個影院的流程) ,哦,可能還有一個"徵人同看(這個可以直接@好友)".這些操作都可選擇向好友發feed,同時都比那個幾星幾星更直接影響"我今晚看啥". 有了好友圈作為一種"預收斂",社會化的評價其實可以做的更二元化而非量化.

趕飛機,想到再改


很多答案似乎沒有看到討論的前提是應用,而且樓主舉的例子是安卓應用,第二種就是鄙莢所採用的方式。

一個手機應用的消費比電影簡單容易得多,不過也正是如此,如果手機應用做了什麼壞事(比如病毒、推送廣告)也很容易讓用戶討厭,卸載更是容易,也就是觀點容易變得鮮明。

但是五星同樣也能表達類似的觀點,只不過沒有那麼對比鮮明而已。這兩種都可以用於顯示大部分人的觀點,其實最重要的是刨除不下載應用就評論的數據,以及 spam 等污染數據,如果評論的分數或者喜歡的數量能夠準確反應應用的實情,都可以促進下載(如果評價很差就會抑制下載),也就是真實的觀點總是有效的。


看了大家的答案,綜合一下,談談自己的想法。

不同產品形態適用不同的評級系統。針對題設中應用的評級系統,「贊」和「沉」按鈕好。

分評級者和參考者這兩個角度來說。

從評級者角度來看,面對不同的對象會有不同的評級標準:
比如對於應用和功能型商品,@鄭進添以豌豆莢為例,提到用戶選擇喜歡或者不喜歡很容易,是不是滿足了我的需求,是不是有病毒、廣告等令人討厭的內容等等;
但對於電影、書籍、音樂等意涵豐富、維度多樣的商品類型來說,五星制度給了用戶更多的選擇空間,減少了非黑即白的兩難境地,比如這部片子的敘事不清、但是氣氛和情緒很棒(對我而言比如王家衛的片子),比如有的片子演員很贊,但是題材和風格不合胃口(比如《天使在美國》)。五星制度就會保留下評價者的這種糾結的微妙。事實上,爛番茄和IMDB就是兩個現成的電影評級系統,一個以新鮮度百分比評級,一個是0-10分評級,大家可以自行感受下它們的差異。

從參考者角度來看,參考的其實就是「分」和「人」這兩個維度的信息。
雖然兩者本質記錄的是二維信息,但在多數情況下,都可以被簡化為一種單維的指數形式,比如@閆石同學所說的「比例」。但是五星制度記錄的「分」這個維度的信息其實是更豐富的,比如一九四二上映初期的非理性評價,如果採用的是贊和沉,可能我們就看不出這種「非理性」。

用戶多少的問題。@Fan認為五星有5個層次,會需要更多的人來評價才能較為可靠,贊踩只有2個層次,更少的投票就可以得出較為準確的結果。我覺得沒有一定的用戶數量做支撐,無論是贊沉還是五星都難說準確、可靠,可以靠其他信息來幫助判斷,比如評論、社會化等。

用戶多少的問題。@Fan認為五星有5個層次,會需要更多的人來評價才能較為可靠,贊踩只有2個層次,更少的投票就可以得出較為準確的結果。我覺得沒有一定的用戶數量做支撐,無論是贊沉還是五星都難說準確、可靠,可以靠其他信息來幫助判斷,比如評論、社會化等。
另一種情況,@姜戈 提到的社會化評價。如果加入社交的話,我們就能放大「人」這個維度的權重,比如一個已確證跟你口味相近的可信賴用戶給出的評價,肯定比一個陌生人給出的評價對你更具參考價值。這時,即便採用「贊」和「沉」會弱化「分」這個維度的信息,但因為加入了Social Graph,也能保證影響這套評價系統的有效性,比如Facebook著名的「Like」按鈕。

總結一下,如果產品的評級對象為應用或功能型商品,「贊」和「沉」按鈕好;如果評級對象是電影、書籍、音樂等意涵豐富、維度多樣的商品類型,五星制度更好。除此之外,如果你的評級系統具有社會化背景,那麼「贊」和「沉」更好。


不要空談原理,要學會用實際的數據解決問題。

方法是:找3個類似的、採用評分制的應用市場,每個網站各抽樣200個應用的評分,統計這600個評分中1星、2星……5星的數量,最後看1-5星的正態分布 - 如果分布曲線是兩邊高、中間低,說明「不管應用市場提供的是5星還是頂、踩,應用市場的用戶實際上使用了頂、踩的方式給應用評分」。


這個又不像應試考試,分數能代表一切。

在新用戶沒玩過的情況下,其它用戶的評價是影響下載的首要因素,然後是顯示的下載量,比如說問題舉例中的這個遊戲,雖然得分高,達到9.0,但我依然不會去下載。

為什麼?遊戲的介紹寫的讓人沒有興趣,不知道遊戲好玩在哪裡。看不到用戶的評價。下載量只有區區5個,4個喜歡,1個不喜歡,就算系統默認沒給評價的那4個人自動給最高的5分,平均9.0的得分看著也很水。

單獨比較5分制和一刀切兩種機制,5分制其實是更好的,不過要用戶自己憑感覺給分就有點難了,不如簡單粗暴的一刀切方便省時。


贊和沉好!
1.從評價者角度講,選擇喜歡或者不喜歡很容易,但是打星級很難!

2.從觀察評分做決定的人角度講。
所謂用戶評價系統,決定我們是否下載的是一個比例!而不是星級打分或是贊沉!
理論上講,不可能有五星應用,也不可能所有用戶都喜歡某應用。
不論是五星還是贊沉,最終都成為一個比例。問題中第一個圖是9.0星級,第二個圖明顯是豌豆莢,豌豆莢改版以後也是用的贊和沉,但是做了改進,首先顯示的是喜歡某應用的人數比例,滑鼠懸浮上面的時候顯示喜歡和不喜歡的人數。所以從這個角度講,星級或者贊沉差不多。

綜合以上倆點,首先顯示喜歡人數比例的贊和沉更好!


想到一個區別:評星的方式比較容易「口口相傳」,比如,你可以說「這部電影豆瓣評分四星半(或8.5分),我覺得我們可以去看」,但如果用「好看」|「不好看」這種非此即彼的,你很難和你的朋友描述。


我比較關心的是:這2種做法能夠為用戶和產品提供什麼價值。
從單純的5星和贊沉,我和大部分回答的人共識差不多。以我目前能力還看不出是否有很大的區別。

但案例上面我更喜歡談談 淘寶商品的多選的五星評價和糗事百科的贊沉。
淘寶商品可以對服務、物流、商品本身進行多項的評價,這個分數的統計對於用戶和淘寶本身的數據收集工作是有幫助的,如果簡單的贊沉,則對數據收集和用戶參考給不到太多的參考。

反而糗事百科,產品定位很簡單,就是多發一些感興趣的內容。用戶的評價標準只要是好笑或者不好笑,好玩還是不好玩,即可。本身糗百內容沒有必要對文筆還是排版等細分有要求。


都不好,應該把用戶分組。

然後以用戶劃分為若干群體為對象,分析群體對其的評價。

例如:男生、女生。
--------------------------------------------------------------------------------------------------------
單一取向的數據源和數據展現形式,註定不能真實反映數據要表達的含義。
這是硬傷。

IMDB雖然用了十分制,但是也經常出現一些低分的電影被某個群體所狂熱追捧。

雖然我們一直強調做減法,但是有時候,卻未必如此。

電影是一個面對所有人的藝術消費品。

遊戲很相似,但是經常有女性和男性對同一個對象有截然不同的看法。

回到知乎上,最嚴重的,持不同知識背景的人,對一個觀點的看法簡直是水火不容。

單依賴於簡單的數據展現模式,很難給用戶傳遞這樣的信息。
當然,這可能也不是知乎想要的理念。

如果確實想客觀地反映現實的分歧,我的看法是有必要有這樣的「高級模式」


做策略把自己繞進去了,工作之餘換換腦。
單一維度的評級,個人更傾向贊、沉設計(或者頂、踩等),評價者操作簡單,而受眾看到後的思考路徑也相對短一些。
多維度的評級,則更傾向打分的設計(星級制度),特別是受眾,評價的傳遞更顯直觀和真實。受眾也許不清楚一個4分的應用是否一定優於5分的應用,但同個應用中,卻容易得出某方面更優(更次)的印象。
當然,任何設計都需要結合實際應用的用戶群體、場景等來進行,沒有一刀切的好壞之分。另外,說下自己在做下載決策時的參考,下載量——評級——評論(無評論的應用,除非為了進行產品體驗,否則一律不下)。


作為外行,我的感覺是,五星級和「贊」、「頂」(「沉」就算了吧,感覺有貶義)之類的區別,就好像買自行車的五檔變速和無級變速一樣。。五星級限定了必然是五檔,而「贊」則可以分為無數檔級,可以有非常細的區分。

而且,在我看來,其實這個評級更多的是「受歡迎程度」,而不是app本身的「專業程度」,就像搞歌唱比賽,也有專業分和聽眾分的區分。

酒店不是有星級評定機制么(現在也還有7星級、超5星之類的說法呢),但星級是依據其自身的軟硬體各方面配置的情況來評定的,跟這個酒店的受歡迎程度和滿意程度是兩回事。一個酒店可能星級不高,但卻非常的受歡迎。一個酒店可能星級很高,但卻惡評如潮。都是有可能的。

而app的這個評級,我看用戶很少會去區分這兩個方面,給出來的評價多數時候更多的是自己對這個app是否喜歡,當然,還不排除投票是否真實這一部分。我覺得吧,就選成「贊」、「頂」就可以了,體現這個app受歡迎的熱度。當然也可以同時提供星級評估,不過這個不是用戶來評,而是由「業內專業人士」來評選的,而且必須要寫得有理有據才行。可以想像,未來查看這些專業評論也會變為一種樂趣的。


二分的方式是我個人比較贊同的,對於評價來說。
1、如果數據量足夠大的話,五星和二分的評價數據都會足夠準確。最終如果以滿5分來說,也會得到4.1,4,6等結果。
2、如果樣本數據比較小,二分的方式就沒有參考價值。
但基於以上內容考量,一個應用平台的話,總歸會有下載量一般或者很低的應用,這時候,二分對於這些應用就會失效。所以必須選一種評價方式的話,五星可能更好。
為什麼不分為好中差三級呢?


提問者在描述里是有前提的「更能促進下載」,因此討論的核心是哪種哪種評級機制對用戶而言更科學,用戶會更喜歡。
如果針對這個「產品目標」而言,評級機制的設計中只有評級結果相關。贊沉中「沉的比例」有否定不贊成下載之意,潛意識裡引導用戶不要下載,而五分制在潛意識裡更多是在引導用戶,你看大家有多喜歡這個APP,是3星的喜歡還是5星的喜歡。
總的來說,選擇哪一種設計,一定是和你的產品設計目標相關,哪有絕對的好壞?!一切要看是否有助於達成你的目標。


贊沉是選取兩極用戶的總數作為應用評分標準,較受使用人數影響,不是很適合應用排名,忽略部分用戶的感受,不能直觀查看該應用在用戶眼中的好壞程度,優點是簡單容易將優秀應用和使人數多的應用頂上來。而5星評判看似精準,但每個人的評分標準不盡相同,對同類型應用相比較排名較為公平公正。


我覺得都缺少so what或者 i dont give a fuck選項


我曾經在美團團過一分牛排,用餐過後三天Gmail收到美團一封郵件要求我對那次用餐做出評價。
一般都這樣的程度(人家都特地發郵件來求我評價了)了,我是會不吝評價打分一下的。然後一般是會順手點進貼在郵箱里的鏈接,打上幾個字,全給五星。
但,那次用餐體驗實在太「一般」,不知從何下手,也沒人告訴我什麼樣的服務應該得幾星。帶著處女座的個性糾結了三分鐘之後,我放棄了,並歸檔了該郵件,心中忿忿不平:媽的不告訴我標準讓我怎麼打分嘛。

所以,題主若是來做市場調查的,我必須要投「贊和沉」一票。

其他的再補充幾句:用戶看到淘寶店鋪的星級評價其實很頭疼,幾星算好?幾星算差?都非常模稜兩可。用戶很懶,你們最好幫他做好選擇:不是好就是差。

再所以,不如就「贊和沉」吧。


我是安卓用戶,常用的應用商店是酷市場。
酷市場的用戶大概都知道,曾經有一段時間酷市場的評分是豎著展示的,所以一群人玩評分,打1/3/5分,從而形成一個豎中指的形狀。後來呢,酷市場就把評分橫著放了,再後來就不直接顯示評分柱狀圖了,只顯示一個分數。
當然啦,酷市場的用戶都比較活躍,所以參與打分的用戶會比較多。但是,評分真的有實際用途嗎?我看並沒有多大用途,畢竟酷市場的評論里內容更豐富,恐怕是當前應用市場里評論氛圍最棒的了吧。
曾經我也是豌豆莢用戶,我記得豌豆莢的評論只有一個喜歡和評論,但是它並沒有展示喜歡的地方,不知道多少人點了喜歡。
其實,我覺得一個簡單的喜歡就夠了,展示應用的喜歡數量、下載數量,就足夠了。


推薦閱讀:

BroadLink 智能插座的一鍵無線配置是如何實現的?
如何向外行講解 2G、3G 和 4G LTE 的區別?
2014 年移動設備界面設計有哪些趨勢?

TAG:移動互聯網 | 評價標準 | App Store | 用戶體驗設計 | Google Play |