標準化的可用性問卷

05-15

前言

問卷調研是用戶研究中的重要方法，我們之前也介紹過問卷編製中需要注意的一些問題，除了研究者自己來編製問卷之外，還可以直接使用成型的標準化問卷。由於標準化問卷是對特定問題的測量，所以，問卷標準化的前提是，這一問題有著穩定的內核，為了方便大家更好的理解，我們將從可用性問卷這一分支，為大家介紹標準化問卷。

一：什麼是標準化問卷

標準化問卷是對特定問題使用特定的格式按照特定的順序呈現的可重複使用問卷，對於用戶的回答，也有特定的計算方法和規則。簡單而言，標準化問卷是對某一特定問題的重複使用問卷。

那麼，如果我編寫一份問捲來收集用戶的滿意度反饋，這份問卷每個月都用，這份問卷能稱為標準化問卷么？答案是否定的。為了保證標準化問卷能夠滿足重複使用的需求，問卷需要經過心理測量的條件審查：提供問卷的信度和效度。

信度——測量一致性。它衡量的指標是：對同一對象測量得到的結果是否一致。一般信度的評估包括重複測量信度和分半信度，最常見的方法是用α係數來測量內部一致性。信度範圍在0到1之間，對於問卷的信度，並沒有固定的要求，不同內容的問卷對信度的要求不一樣，但是，那些有著重要影響的問卷，例如IQ測試等，我們對其信度要求高，一般達到0.9以上，而一些其他的問卷，信度要求0.7以上就能夠接受。

效度——測量有效性。它衡量著問卷是否有效的測量了所要關注的問題。一般效度評估包括效標效度和內容效度。效標效度一般用皮爾遜相關來測量，而內容效度則需要使用因子分析。

信度和效度是有明確指數的，除此之外，還有一些其他的間接的輔助值來衡量一份標準化問卷的質量。例如靈敏度——不同條件結果比較時達到統計顯著性所需的最小樣本量。

正是因為有這些標準來規範標準化問卷，使得標準化問卷在研究中有著非常明顯的優點：

客觀性：標準化測量具有客觀性，它允許我們獨立驗證其他研究者的測量報告，也就是說，在完全同樣的條件下，使用者A和使用者B使用問卷得出的結果是一致的，他不受使用者主觀意願的影響，結果不僅是使用者的個人判斷。

重複性：使用標準化問卷可重複別人或者自己的研究，這樣，可以驗證研究是否真正有效。更重要的是，節省研究者時間。

可量化：可以使用高效的統計學方法來更好的理解結果，並且結果之間可以進行對比，從數據的角度看到差別

由此可見，一份標準化問卷的開發需要大量的專業人員花費大量的時間和精力，但是，一旦開發成型，能給使用者帶來很大的方便。

二：廣泛應用的標準化可用性問卷

用戶體驗是近些年大熱的概念，可用性的概念也隨著互聯網的發展變得眾所周知，不過，關於可用性的研究，可不是最近才有的哦，上世紀90年代，就陸續出現了許多標準化的可用性問卷。這些問卷既有用於整體研究後的，也有用於每個任務後的。接下來，跟大家介紹一個問卷實例。

SUS(軟體可用性問卷)——整體評估問卷

之所以在眾多整體評估問卷中選擇了這個問捲來介紹，是因為這個問卷有非常多的優點，最主要的包括：1.相關介紹多 2.題少 3.免費！！！特別是免費，要知道，跟商業使用費750刀（對，沒寫錯……）的QUIS(用戶交互滿意度問卷)和500歐的SUMI(軟體可用性測試問卷)相比，免費的SUS真是，太可愛了！

SUS 問卷歷史悠久，作者John Brooke在1986年正式將其發表，問卷一共有10到題目，採用5分制，包含正面描述題5道（1、3、5、7、9題），和反面描述題5道（2、4、6、8、10），來詢問用戶對錶述是否認同，具體題目如下：

中文版翻譯之後為：

1.我願意使用這個系統

2.我發現這個系統過於複雜

3.我認為這個系統用起來很容易

4.我人為我需要專業人員的幫助才能使用這個系統

5.我發現系統里的各項產品很好地整合在一起了

6.我認為系統中存在大量的不一致

7.我能想像大部分人都能快速學會使用該系統

8.為認為這個系統使用起來很麻煩

9.使用這個系統時我覺得非常有信心。

10.在使用這個系統之前我需要大量的學習

如果用戶沒有完成某道題目，則視為選擇中間項。

問卷看似簡單，但是，問卷的信度可不低哦，連編織者都自嘲「快速而粗糙」的SUS量表在較大樣本（324個樣本）情況下信度達到0.92。所以，不用擔心這一問卷的可靠程度。

回收問卷後，要對該問卷進行計算，該問卷是5分制分布，但是計算方式略為複雜，它是一個滿分為100分的問卷。具體演算法為：

step1:計算正面描述題（奇數題）得分：轉換分＝選項值－1；

step2:計算反面描述題（偶數題）得分：轉換分＝5—選項分

step3:計算總分：總分＝所有轉換分之和×2.5

這樣，最終的計算結果就是一個介於0至100的數字。100表示用戶體驗最佳，0表示用戶體驗最差。具體值代表什麼一直有爭議，直到2009年，Bangor等人通過分級量表對得分進行了解釋：0-50為"F",60-69為"D",70-79為"C",80-89為"B",90以上為"A"，每個分數有其對應的等級。一般而言，低於60分，說明產品的可用性非常差。

這樣，利用可用性測試問卷，我們就可以了解一個產品的可用性程度，並對不同產品間進行對比。

註：本文首發在阿里ccoux團隊公眾號：37點2度體驗上，請勿私自轉載和商用。

作者有話說：

因為阿福同學現在從事互聯網企業的用戶研究工作，我們的團隊有一個自己的乾貨慢慢的公眾號——37點2度體驗（這個公眾號仍在運營中，但是由於團隊調整，用研同學不再屬於UX團隊，之後的文章以視覺設計和交互設計為主，歡迎小夥伴們關注），需要定期寫文章投稿，所以存下來了幾篇文章，更新在專欄上讓大家能夠相互交流~如果有問題，歡迎大家相互討論。

但是，請不要轉載和商用。謝謝。