系統可用性量表(SUS)在用戶研究中的應用
我們在做產品或系統的可用性測試後,都想把結果更好地傳遞給相關方。除了定性的研究結果之外,還有定量的可用性問卷,這些可用性問卷是標準化的,不僅可以科學地量化用戶體驗,也方便相關方之間有效溝通。常見的標準化可用性問卷有整體評估問卷、任務評估問卷和網站感知可用性評估問卷,如下所示:
整體評估問卷
用於完成一系列任務場景後,對產品或系統整體的感知可用性測量。目前使用較廣泛的有:QUIS(Questionnaire For User Interaction Satisfaction)、SUMI(Software Usability Measurement Inventory)、PSSUQ(Post-Study System Usability Questionnaire)、CSUQ(Computer System questionnaire)、SUS(System Usability Scale)。
任務評估問卷
每完成一個場景任務,讓用戶對該任務進行感知可用性測量。目前使用較廣泛的有:ASQ(After-Scenario Questionnaire)、SEQ(Single Ease Question)、SMEQ(Subjective Mental Effort Questionnaire)、ER(Expectation Ratings)、UME(Usability Magnitude Estimation)。
網站感知可用性評估問卷
大部分標準化可用性問卷最初在20世紀80年代中期到後期被開發,在網路開始流行時,出現了更有針對性的評估網站感知可用性的問卷,目前廣泛使用的有:WAMMI(Website Analysis and Measurement Inventory)、SUPRQ(Standardized Universal Percentile Rank Questionnaire)。
本文主要是自己做項目後的一點小結,將從what,when,why,how四個角度討論用戶研究中常用的SUS(系統可用性量表),對其他量表感興趣的可以自行深入研究。
SUS是什麼?
SUS最初是Brooke於1986年編製,量表由10個題目組成,包括奇數項的正面陳述和偶數項的反面陳述,要求參與者在使用系統或產品後對每個題目進行5點評分。
經過翻譯,我們可以看到中文版如下:
注意:在使用SUS的過程中,可以對題目的詞語進行替換,這些替換對最後的測量結果都沒有影響。比如「system」可替換成網站、產品或者自己產品的名稱等。
何時使用?
同一產品或系統,新舊迭代版本的對比。比如:某App首頁改版後,新舊首頁的對比。
同一產品或系統,不同終端之間的對比。比如:某產品的PC端、App端進行比較。
同類型競品之間的比較。比如:蘇寧,京東,噹噹三款App使用後進行比較。
為什麼使用?
量表公開免費。
整個量表題目陳述簡單,只需參與者打分,實施起來很快。
測量結果是介於0-100之間的分數,容易理解。
可測量多種用戶界面,比如網頁、手機、平板等。
多個實證研究表明SUS效果較佳。如Tullis等人研究表明,在樣本量有限時,SUS可以最快達到效果(如下圖)。也有大樣本的研究(Bangor,2008)得出SUS的信度係數為0.91。
如何使用?
計分
當參與者做完一系列任務後,就可以快速對SUS進行打分。然後就需要對每個題目的分值進行轉換,奇數項計分採用「原始得分-1」,偶數項計分採用「5-原始得分」。由於是5點量表,每個題目的得分範圍記為0~4(最大值為40),而SUS的範圍在0~100,故需要把所有項的轉換分相加,最終再乘以2.5,即可獲得SUS分數。
除了獲得SUS量表總分之外,還可以獲得分量表得分。SUS中,第4和第10項構成的子量表為「易學性」(Learnability),其他8項構成的子量表為「可用性」(Usability)。為了使易學性和可用性分數能夠與整體SUS分數兼容,範圍也是0~100,需要對原始分數進行轉換:易學性量錶轉換分數的總和乘以12.5,可用性量表乘以3.125。
Tips:因為SUS記分時是用的0~4個距離,為了讓總分是100,所以計算SUS總分時要乘以2.5。但是可用性的題目為8個,總分值在0~32,所以應該是計算出8道題的總分,然後乘以100/32。易學性的計分類推。
為了方便計分,我編製了一個SUS計分器。如果有需要,可在微信公眾號小釋界(ID:insightUX)回復「SUS」獲取。
解釋
SUS分數反應的是總體可用性,當然,也包括兩個分量表的特性。對於總體可用性,已有研究者(Bangor,2009)得出了文字、字母、可接受範圍與SUS分數之間的關係,在圖中可以直觀地查看並解釋SUS分數的意義。
除此之外,也可以將SUS分數換算成百分等級來解釋,百分等級的意思是指測量的產品或系統相對於總資料庫里其他產品或系統的可用性程度。比如SUS得分是73分,其百分等級大約為67,意味著比大約66%的產品可用性更好。
注意,這裡的總資料庫是Jeff Sauro(2011)通過446個研究,超過5000個用戶的SUS反饋的資料庫。如果從企業研究團隊的角度來看,可以沉澱以往的研究,建立企業自己產品或系統的SUS資料庫,從而獲得自身的基準數據,當然,這個基準數據也有可能是內部團隊制定。
在使用SUS的過程中遇到了兩個小問題:第一,10個題目中,個別題目對於參與者來說難以理解,比如第2題和第6題,這時需要和參與者進行解釋。第二,最終的SUS分數並不是一個百分數,需要給受眾解釋清楚,當SUS分數為70時,其實是接近SUS總體的平均分,即對應的百分等級接近50,也就是說比大約一半的產品可用性更好。對於第一個問題,我們需要靈活應變,在使用題目時注意措辭,避免歧義。對於第二個問題,需要查閱書籍文獻(建議閱讀文末的參考文獻),這些理論的根源還是需要有充分的了解,否則就是半瓶子醋。
SUS最初的目的是快速而粗糙地測量可用性,現在已經被廣泛使用。在定性研究的基礎上,利用定量的結果來輔助會使研究結論更具有說服力,也是一種研究趨勢。然而,在使用過程中,會遇到一些問題,作為研究人員,我們需要不斷的在理論中思考實踐,在實踐中思考理論,以促進自身的成長。
更多閱讀
Bangor, A., Kortum, P. T., & Miller, J. T. (2009). Determining what individual SUS scores mean:Adding an adjective rating scale. Journal of Usability Studies, 4(3), 114-123.
Jeff Sauro.(2014). 用戶體驗度量. 機械工業出版社.
John Brooke. (2013). SUS: A Retrospective. Journal of Usability Studies, 8(2), 29-40.
Tullis, T. S., & Stetson, J. N. (2004). A comparison of questionnaires for assessing website usability. Proceedings of UPA 2004 Conference. Minneapolis, Minnesota.
推薦閱讀: