人機交互中,有哪些衡量用戶體驗的指標?
下面是根據Google的《Measuring the User Experience on a Large Scale: User-Centered Metrics for Web Applications》一文的主要內容和觀點的翻譯,請參考原文~ 感謝作者@Ro
越來越多的產品和服務被部署在網路上,這對大規模的用戶體驗衡量提出了新的挑戰。非常需要有一個用戶中心的指標體系,用以衡量關鍵目標的達成過程,並推動產品的決策。在這份簡報中我們可以看到Google目前使用的以用戶為中心度量的HEART框架,以及作為產品目標映射到的這個指標創建的過程。
1、傳統的網站衡量指標PULSE
-
Page view/頁面訪問次數
-
Uptime/持續運行時間
-
Latency/延遲
-
Seven days active user/7天活躍用戶數
-
Earning/收入
PULSE是基於商業和技術的產品評估系統,被很多組織和公司廣泛應用於跟著產品的健康狀況。
這些指標非常重要,並且和用戶體驗息息相關,比如一個產品如果經常訪問中斷(low uptime)或者非常慢(hight latency)是無法吸引用戶的。一個電子商務網站的購買流程如果太多步很可能難以賺到錢。一個擁有很棒用戶體驗的產品更可能在PV和用戶量上不斷增長。但是這些指標要麼太淺層次,要麼和用戶體驗不直接相關,很難用以評估用戶界面的改變對於用戶的影響。並且他們也經常很尷尬的互相影響——比如一個特定功能頁面的PV上升可能是由於這個功能真的很流行,或者是由於界面讓用戶迷惑,而不斷在周邊點擊以便逃走。帶來短時期的價值的改進,有可能造成糟糕的用戶體驗,從而在更長時期造成用戶的流失。
2、以用戶為中心的指標HEARTGoogle的用戶體驗師基於PULSE中存在的問題,提出了一個作為補充的度量框架:HEART。
-
Happiness/愉悅度
-
Engagement/參與度
-
Adoption/接受度
-
Retention/留存率
-
Task success/任務完成度
這五個僅僅是衡量的範疇,不同的產品可由此定義特定的指標,用以監控達到目標的進程。愉悅感結合用戶的滿意度來度量,任務完成度結合任務完成的效果和效率來度量。參與度、接受度、留存率是全新的範疇,一般通過廣泛的行為數據來制定。通常並不適合在一個指標設定中用到所有維度,但可以參考該框架來決定是包括或排除某個維度。比如用戶是要將使用你的產品作為工作的一部分,在這種企業環境下參與度就沒有什麼意義了。在這個案例中可以考慮選擇愉悅感或者任務完成度。
愉悅感愉悅感是設計用戶體驗中的主觀感受問題,像滿意度、視覺感受、向別人推薦的意願、易用性感知。可以通過好好設計問卷長時間監控相同的指標來看設計修改後帶來的變化。參與度參與度是用戶在一個產品中的參與深度,在這個維度上,通常用來作為一段時期內訪問的頻度、強度或互動的深度的綜合。比如單用戶每周的訪問次數,或者用戶每天上傳的照片數,這比總量要好——因為總量的增長可能是由更多的用戶的產生,而不是更多的使用產生的。接受度和留存率接受度和留存率指標通過特定時期內大量用戶的統計(比如,7天的活躍用戶數)提供強大的洞察,來定位新用戶和老用戶的差異問題。接受度監控特定時期內有多少新用戶開始使用產品(比如,最近7天內新創建的賬號),而留存率則監控特定時期內有多少用戶在下稍後一個時期內仍然存在(比如,某一周的7天活躍用戶在3個月後仍然在7天活躍用戶中)。任務完成率任務完成率維度包括一些傳統的用戶體驗行為指標,比如效率(如完成任務的時間),效果(比如任務完成的百分比)以及錯誤率。
3、目標——信號——指標不管定義的用戶中心的指標是怎樣的,如果不能精確的和目標相關,以及能夠跟蹤達到目標的過程,那麼都是白搭。Google提供了一個簡單的流程來完成指標的設定,通過闡明產品或者功能的目標,然後定義達成的信號,最終建立特定的指標的監控方式。目標第一步是定義產品或功能的目標是什麼,特別是在用戶體驗方面。用戶需要完成什麼任務?重新設計是試圖達到什麼?使用HEART框架來提示相關的目標(比如,是吸引新用戶更重要,還是鼓勵現有用戶更積极參与重要?)一些有用的提示:
-
不同的團隊成員可能對於項目的目標有不同的意見。這個過程提供了一個很好的機會來收集不同的想法並且努力達成共識(並且buy-in選擇的指標)
-
特定項目或功能的成功可能與產品的整體目標不同
-
在這個階段無需太擔心是否和如何找到相關的信號或指標
信號
接下來,想想用戶的行為或態度如何體現成功或失敗。什麼行動會表示目標已經達到?什麼感受或看法能夠聯繫到成功或失敗?在這個階段你應該思考你的這些信號的數據源可能是什麼?比如,基於日誌的行為信號,這些相關的行為目前有記錄或者能夠被記錄嗎?可以收集態度的信號——能否定期投放問卷嗎?日誌和問卷時我們最常使用的兩個信號源,但還有其它的可能性(比如,使用一個面板或判斷讓用戶評分)。一些有用的提示:
-
選擇敏感和和目標特別相關的信號——他們應該不因不想過的原因變化,除非用戶體驗變好或變糟糕了
-
有時失敗比成功更容易定義(比如,放棄任務、撤銷,戳著)
指標
最終,想想這些信號是否可以轉換為特定的指標,是否可以被方便的持續跟蹤。一些有用的提示:
-
原始統計數據會隨同你的用戶基數增長而增長,需要轉化為常態;比例、百分率或者每個用戶的平均值更有用一些
-
在確保精度上有很多挑戰,基於web日誌的指標,如從自動生成的數據中過濾流量(如爬蟲、垃圾信息),並且確保所有重要的用戶行為都被日誌記錄(默認情況下可能不會,尤其是在基於AJAX或基於Flash的應用中)
-
如果需要拿你的項目或產品和其他的進行對比,你可能需要在這些產品的標準指標中增加監控指標。
4、總結
Google已經花費數年時間來解決廣泛應用的用戶體驗的衡量指標體系。HEART框架和目標-信號-指標的過程,已經在Google超過20個產品和項目中進行了應用。不管是數據驅動的還是用戶中心的產品中,HAERT框架和目標-信號-指標過程都能幫助產品團隊來做出決定。
參考資料:
http://research.google.com/pubs/pub36299.html http://ucdchina.com/snap/9233附上近期我翻譯的一篇體驗量化相關的文章,感謝原文作者 Pamela Pavliscak;
(作者簡介:Pamela Pavliscak ,美國用戶體驗戰略與研究公司Change Sciences的創始人,密歇根大學信息科學碩士,在用戶體驗研究領域具有豐富的經驗,並一直致力於從不同的數據源、不同的數據類型中,為用戶體驗探索更好的數據模型)
指標是衡量用戶體驗設計決策是否有效的信號,不論是在持續跟蹤你自己(或競爭對手)產品體驗的變化,還是在設定設計目標時,使用指標都是至關重要的。
儘管大部分團隊監控了轉化率,用戶參與時間等數據指標,但很多時候這些指標並不能幫助設計師做出設計決策。原因是什麼呢?這些指標的層次太高了(太抽象了),因為轉化率的改變可能是由某個設計改動引起的,也可能是有由於推廣活動,或者是由競爭對手的一些舉措導致的。同理,用戶在APP上的停留時長意味著太多的信息。
UX的決策人員(設計師們)要為線上產品的用戶體驗指標負責。首先,我們可以來看看大部分團隊里的體驗指標量化的現狀,他們在定義用戶體驗量化指標時存在的一些問題,接下來,我們重點關注三種類型的體驗指標,如何跟蹤和監控它們,並將他們整合到整個團隊的評估框架中去。
現狀——現有指標存在的一些問題
在網站和應用程序中有海量可用的數據,按照道理講,應該能產生出不少有價值的洞察信息,然而,在沒有合理的決策機制時,情況並不是這樣的。可用的數據源確實不少,現成的分析結論, A/B test,甚至後續的調查等等,但這些並不一定能告訴你產品的用戶體驗到底如何,實際上這類信息才能幫你更好的做出設計決策。造成這個狀況的原因可能有以下幾點:
l 容易被跟蹤和監控到的指標並不意味著真正重要的信息(例如體驗如何)。
例如PV很容易被收集,但它不能告訴你用戶是在什麼時間段用你的APP,使用後的真實體驗如何,或者你們團隊的目標也可能不是確保每個訪問者瀏覽幾個頁面,所以,PV對於廣告來說是個很重要的衡量指標,但它卻不是用來跟蹤用戶參與度的一個好方法。
l
指標可能是很含糊的(不清晰)。
很多時候,人們把在網站(或APP上)的停留時長當成用戶參與度來評估,頁面停留時間長可能是個好現象,但那些讓用戶感覺到困惑,被干擾、或者沮喪的時間也可能帶來負面的體驗。就算將所有用戶單次訪問網站或APP的時間均值來作為衡量指標,它仍然不能清晰的界定用戶參與度。
l
指標並不總是映射到設計上。
經常出現的一個情形是,新功能發布後流量大漲,產品團隊會認為是由於他們推出的新功能,業務團隊可能把它歸因於新的促銷活動,UX團隊可能會認為是由於他們用了全新的設計形式導致的,但實際上新增的流量很有可能和這所有的因素都沒有關係呢。另外,A/B test可以收集設計相關的數據,但這些數據的顆粒度比較細,圖片A與圖片B的點擊量這樣的指標,可以幫設計師客觀的選擇一個更合理的用戶界面元素,但一旦涉及到更大的設計決策,A/Btest 就發揮不了太多的作用。
l
可能跟蹤了有太多的指標。
在一些數據分析工具和平台上,很多指標的原始數據是很容易獲取的,這些報表可以跟蹤成千上萬的指標,並且可以被無限定製。它們傾向于衡量一切,並希望自動產出一些有價值的決策信息,很顯然,大部分情況並非如此樂觀(沒有經過分析的數據是很難說明問題的)。
l
正確的指標可能根本沒有抓取。
通常在產品發布後跟蹤指標。然而當進行設計構思時,需要應用一些有設計指導性的指標,幫你做一些設計決策,但悲劇的是這些指標既沒有被量化,也沒有被跟蹤。
因此,在充斥著大量噪音的數據中,為用戶體驗找到合理的指標不是一件容易事,更為複雜的是,除了UED之外的其他團隊的關鍵KPI(企業通常定義和跟蹤的業務指標),貌似也在定義和指示你應該達到的用戶體驗目標。
回溯——用戶體驗指標的前世今生
大部分指標是業務導向的,而不是用戶體驗導向的。UV可以告訴你市場推廣是否有效,社會化口碑傳播可以表明你的標題是否抓住了眼球,但這些指標並不能告訴你使用這個產品和APP用戶的真實體驗。
表1並沒有提供完整的指標清單,但它表明了業務導向的指標和UED團隊跟蹤的指標間的一些差異。
到目前為止,易用性是用戶體驗指標主要的側重點,這也是用戶體驗團隊最熟悉和擅長的範疇,所以以此做為起點也無可厚非。常用的體驗指標大都是對使用效率的評估,如任務時長,成功率和用戶出錯率等,是對用戶實際使用行為的客觀記錄,儘管成功率有一定程度的主觀性,因為它取決於你是如何來測量的。
滿意度評估模型等主觀測評,主要在使用後評估用戶如何感知產品和功能的。有時候, 為了更好的洞察產品或APP的可用性,UX團隊既收集了主觀指標也收集了客觀指標。
從表1所展示的用戶體驗指標特點來看,大部分典型數據是從可用性研究中獲取的,而不是基於數據分析的。這也是業務指標和用戶體驗指標另外一個明顯的差異點。然而,很多團隊要麼完全沒有定量的研究數據,或者是跟蹤到不一致/不穩定的定量數據,因為基於業務發起的研究要麼針對一個特定的問題,要麼只是進行需求探索,並且研究樣本也比較小,所以導致他們在一段時間內僅僅只收集了臨時性的可用性指標。
然而,用戶體驗不僅僅是可用性,它還包含了用戶動機、態度,心理預期和行為模式等,甚至包括產品對用戶的限制,它幾乎涵蓋了用戶所有的互動類型,他們對體驗的感知如何,期望的操作方式是什麼樣的。所以,用戶體驗不僅要關注單次訪問的幾分鐘,或對產品的一次性使用過程,還應該要綜合關注一些跨渠道的使用歷程,這也是未來體驗度量的新領域。
用戶體驗中的不確定因素
儘管大部分指標被人們通常掛在嘴邊並被廣泛應用,但多少還是有些抽象的。業務(市場)指標關注用戶的獲取,所以他們關心的是獲取用戶注意力併產生交易。對轉化漏斗和著陸頁的優化等過分的強調削弱了人的因素。另外,這些指標缺少了一些過程性的複雜體驗,而這些恰恰構成了用戶對網站或者APP的真實體驗,如使用導航分類時的猶豫,使用搜索是由於網站導航太難搞懂,在信息流中無法定位時感到的困惑,這些細節對於理解用戶體驗是至關重要的,這也應該是優秀的UX團隊的素養所在。
用戶體驗量化的目標應該將用戶實際感知到的各種體驗綜合起來。要達到這個理想狀態,目前在兩個方面是有所欠缺的,一是對用戶使用行為背景信息的探索,二是將定性和定量數據相結合,建立起關聯。
探索背景信息:UX團隊可以為數據分析的結論(通常揭示發生了什麼)提供一些背景信息,主要通過用戶研究創建人物角色和行為地圖等方式,來解釋用戶是如何使用以及為什麼使用你的產品。如果你準備監控不同行為之間的關係,不同渠道來源的用戶目標和行為有何不同,你也可以為這些背景信息提供一些指標。
創建數據關聯:除了填補在「發生了什麼」和「為什麼發生」之間的空白外,用戶體驗指標應該為「設計研發過程中所產生的洞察」和「產品發布後應該跟蹤什麼」搭起橋樑。越來越多的團隊從客服、現有的數據分析中收集定量數據,並與定性的研究結論建立關聯,如果沒有指標的話,很難理解一段時間內的體驗變化,併合理分配體驗優化相關問題的優先順序。
儘管就現狀而言,指標主要是服務於業務和市場的,但不是典型的體驗指標。但用戶體驗的專業人員可以從業務指標中有所借鑒參考,因為業務團隊花了更多的時間來制定KPI並進行相關數據的收集和度量。
3類可跟蹤的用戶體驗指標(與成功的用戶體驗相關的三類指標:易用性、參與度和轉化率)
僅關注那些宏觀的業務價值,並不能直接的轉化成更好的用戶體驗。通過進一步分析的用戶體驗指標,可以對已跟蹤的基礎業務指標做一些補充。例如聚焦在用戶體驗關鍵因素上的用戶參與時長和跳出率等。
表2列舉了3類與成功的用戶體驗相關的指標——可用性,參與度,和轉化率。你可以假定每類指標中只有一個是最關鍵的,從3類中合併幾個指標組成複合分數,並通過研究進行跟蹤,表2中展示的指標幫助我們更細緻的理解為用戶體驗的優化提供依據。
可用性
可用性的指標主要聚焦於用戶是否能簡便的完成他們想要執行的任務。它包含了一些團隊已經在監控了的一系列指標,例如任務的完成時間,任務成功率,易用性評分,它還包括了顆粒度更細更加具體的指標,例如圖標識別,搜索和導航的使用情況,此外,它還可以涵蓋那些讓用戶產生困惑和猶豫的交互方式及操作流程。
用戶參與度
眾所知周,參與度是一個主觀模糊的指標,很多網站和應用把「參與度」當作度量指標中的制勝法寶。但UX團隊必須探索有多少用戶與網站或APP進行了互動,他們投入了多少注意力,用戶在一個任務流中花了多長時間,以及他們對整個過程的感受如何?時間也許是參與度指標中一個因素,但最好能和其他的指標如PV、滾屏的時間間隔、操作流程等結合來看。最好能和一些定性的分析相結合,因為這個指標比較難解讀。
轉化,或者潛在轉化
轉化是每個人最關心的,但它主要針對已經開始使用APP的小部分用戶,而忽略了那些剛剛聽說你們APP,並打算嘗試探索和使用的那部分用戶。針對後面這種情形的問題,你同樣可以使用用戶體驗指標來解決——除了考慮轉化率和凈推薦值之外,通過觀測用戶在微觀轉化率上採取行為的可能性。
這類指標可以幫助我們識別一些趨勢,也能解決「我們要怎麼做」這類數據應用層面的問題。宏觀的數據可以幫助我們從整體上了解網站或APP在一段時間內的變化,它是如何存活的,或其它與體驗相關的更多信息。
未來——探索更有意義的指標
現成的數據分析所能提供的信息是有限的,為了彌補這個不足,越來越多的團隊都在探索更有意義的指標,這對UED來說是好事情,因為用戶體驗團隊需要監控和跟蹤的指標為複雜,不過最終也會產生較為長遠的價值;
將PV瀏覽量等同於用戶參與度,用登陸頁中需要用戶去採取行動的按鈕點擊量(call to action)來衡量轉化率,這類局限於單一信號的方式逐漸過時,藉助更複雜的合成信號來代替依靠單一信號源的指標,是體驗的指標度量上最新的發展趨勢。
多信號的指標來源於多種數據源和渠道,例如將社會化口碑與使用行為相結合,基於這樣的理念, Modcloth通過凈推薦值,商品評論,和社交網站的帖子等多信號合成的指標,定義和分析了網站中得不到關注和服務的那部分用戶(被忽略的用戶)。另外一種可能性是基於信任度的因素研究,將可信度線索的識別,信任度評分和用戶進行推薦的可能性等幾類指標進行合成。
事件流指標來源於按時間順序發生的交互行為,例如,瀏覽器選項卡打開的時長,視頻播放器運行的時長,以及在屏幕上用戶滑鼠的瀏覽軌跡。媒體行業利用任務流中屏幕滾動的位置來監控全部閱讀時長,並將其作為主要的KPI。對一系列事件的注意時長是更好的洞察用戶參與度的另外一種指標。你可以使用類似的技術手段來跟蹤用戶的行為狀態。
合理的用戶體驗指標通常是將用戶操作行為和主觀看法相結合。行為是用戶實際的操作,包括點擊,滾屏和表單填寫,控制項點擊等。主觀看法是用戶如何評價他們的體驗,他們對操作的過程的感受如何。能把主觀和客觀的指標綜合起來的數據監控將變得更有意義。
在事件流中,按照一定順序的交互行為是有意義的,這與UX團隊所做的一些定性研究有許多共同點,不論是在線上還是實驗室,不論是什麼時間段內,我觀察到用戶打開一個新網站時,他們傾向於迅速向下滾屏,再逐漸回滾,你可以把這個當做是第一印象指標來跟蹤。基於事件流的另外一個指標是用戶困惑的節點(時刻),導致用戶在試圖快速完成一序列行為操作時,卻在中途跳失了。
用戶體驗指標另一個潛在來源是對定性研究數據的匯總,相對於為了取得定量數據而進行一個專門的研究,定性研究數據匯總的目的是將先前研究中的已有數據進行量化。你可以通過抓取準確的有設計決策性的指標來對定性數據匯總,例如,根據每個研究中的任務成功率,任務時間和信任度評分來,也可以從你的數據日誌中統計與產品功能和設計模型相關的結果,例如X%的點擊了轉盤項,Y%的人篩選了搜索結果。然後可以將這些指標放到可用性,參與度和轉化率等宏觀的指標體系中去。
其他的用戶體驗指標體系
選取一些可操作的,具有設計洞察力的指標,並幫助我們提升用戶體驗,僅僅做到這一點還是不夠的。為了讓用戶體驗指標產生更大的影響價值,應該將這些指標和團隊中的其他業務指標相結合。
本文中提到的3類宏觀的體驗指標整體上與大部分團隊在監控的KPI是相吻合的,幾乎所有的團隊都跟蹤參與度和轉化率,但結合一些側重於UX體驗的過程性指標,可以為純粹的業務分析和調查數據的結論增加詳細的背景,從而提升研究分析的深度。雖然很多團隊沒有監控可用性,很顯然,這一塊是急需被填補的。
可用性,參與度、轉化率等,與一些常用的測量框架相契合。Forrester的CX測量框架分成了3部分:
- 描述性的指標:揭示了發生了什麼
·
感知性的指標:聚焦於用戶感知到發生了什麼
- 結果性的指標:表明用戶做了什麼 ,基於他們的感知期待做什麼
這些指標分類基本吻合了本文中所提到的3類UX指標:可用性、用戶參與度和轉化。
另外一個比較流行的框架是Avinash Kaushik「看」、「想」、「做」模型,通過聚合「意識」,「思考」和「行為」的指標體系,然而,這個模型與本文中提到的現有的框架不是特別吻合,這也正好表明,在「意識」「思考」和「行為」的大類中跟蹤哪些指標變得更加重要。
小結
在正確度量的前提下,對用戶體驗的度量是非常重要的,因為它即將改變你的企業和客戶之間的關係。創建更好的度量指標來理解和管理用戶體驗會幫助企業真正做到客戶第一。
不同產品,用戶體驗指標應該是不一樣的,例如微博和微信應該會有所不同。主要是的明確的用戶群體是誰,他們做什麼,何時何地參與。建議要綜合考慮:
1、感官體驗:呈現給用戶視聽上的體驗,強調舒適性。
2、交互體驗:呈現給用戶操作上的體驗,強調易用/可用性。3、情感體驗:呈現給用戶心理上的體驗,強調友好性。4、瀏覽體驗:呈現給用戶瀏覽上的體驗,強調吸引性。5、信任體驗:呈現給用戶的信任體驗,強調可靠性。我來拋磚引玉一些地氣的:
一些定量上的關鍵數據(PVUVDAU訪問時長轉化率留存率點擊熱圖等等)
一些定性上的(滿意度NPS可用性測試結果任務完成問卷調查結果眼動圖專家評估等等)
我遇到一些問題是,一些體驗提升pk指標下降,誰更重要?
比如:
一些優化體驗提升了用戶端的體驗(比如通過可用性或者定性等得到提升),但是損失了一些非第一向限的數據(比如pv,但是轉化率更注重的網站),如何取捨這種改變? 是看是否對最終kpi的反饋是正向的?
最近看了本書叫《用戶體驗試度量》,裡面主要是從任務是否成功、任務完成時間、出錯率、點擊數、用戶自我反饋等角度評價的,還有關於人生理反映方面,比如心跳、皮靜電情況、血壓、瞳孔直徑等,生理反映還是比較適合實驗室。
確定功能組和層級
這個就看邏輯能力了。把數據和功能納入屏幕、框架和網格等高層次結構中,更好的在任務中和任務間疏通人物模型的流程。這個階段需要思考的問題:
哪些元素需要大片的視覺區域,那些不需要?
哪些元素能夠容納其他元素?
如何組織分類才能優化工作流?
哪些元素需要捆綁使用,哪些不需要?
相關的元素順序如何?
哪些數據元素有助於任務魔性做出決定?
採用何種交互模式和原則?
人物模型的心理模型如何影響元素的組織?
http://sina.lt/eRYC
推薦閱讀:
※從建築學或城市規劃角度看,未來隨著Airbnb、Wework模式普及,傳統的城市空間結構會有哪些改變?
※馬雲是否在走黃光裕的老路?
※台灣目前的經濟水平,生活質量,科技水平和大陸比如何?
※最有效的運營方法是什麼?
TAG:互聯網 | 移動互聯網 | 移動應用 | 用戶體驗 | 產品經理 | 設計 | 產品 | 人機交互 | 交互設計 | 用戶體驗設計 |