Rasch模型分析工具- Winsteps

04-02

接著上一篇的文章，我談了 Rasch的來歷，幾乎沒有涉及任何理論方面的內容。原來計劃循序漸進的介紹理論模型的方方面面，不過我改變了計劃，我希望通過介紹Winsteps這個工具來總計一下 Rasch模型在數據分析，模型擬合方面的一些特點。

按照上一篇的介紹，芝加哥大學教育學院的Benjamin Wright教授後來繼續在完善Rasch 模型的計算機處理程序。之後，約翰麥克林納克爾，簡稱「麥克」繼續和他合作，開發了Win steps程序，專門用於Rasch 模型的分析處理。從1965年-2015年，他專門從事Rasch模型的計算機程序開發，長達50年。也算是泰鬥了！按照他的介紹在芝加哥大學和Benjamin Wrght 一起合作。目前網路上關於Rasch 理論最為全面的資料庫也算這個了。

Rasch Measurement Transactions Contents

好了，這是基本背景資料，那麼我們用一句話來總結一下什麼是Rasch 模型？

麥克是這麼說的「

Rasch analysis is a method for obtaining objective, fundamental, additive measures (qualified by standard errors and quality-control fit statistics) from stochastic observations of ordered category responses. 「

Rasch 分析是獲得客觀的、最基本的累加型測量值（兼顧分析模型中的標準誤和質量控制如擬合統計值）的一種分析方法，適用於通過隨機觀測有序、分級類反應獲得的數據分析。

解釋一下：

這裡的客觀是指按照某種測量模型，我們所使用的測量值應該是和測試用的問題，和那些人參加測試無關。也就是說，你開發了一個測量的工具或方法，他的衡量標準不會應為具體的問題而改變，也不會因為不同的人參加而有所改變。這是社會科學/心理學向科學的測量工具邁進的重要一步。

那麼具體Rasch 模型是如何處理數據的呢？

在Rasch 模型，研究者使用概率估計的方法對某個具體問題的回答（答對/答錯）建模，提出了一個同時包括了人和問題參數的函數。最早的模型是把正確答案的概率用模型表達為一個logistic 函數，來考察人的參數和問題參數的不同之處。

要使用該模型，要滿足一些條件：

數據類型應該是有序類數據，比如張三比李四個子高，李四比王五個子高，等等依此類推。
不同於其他統計模型，Rasch 希望能達到測量工具的恆定有效，不管在哪種環境下，和題目，和參加的人無關。也就是說它的目標是去獲得適合模型的數據。而不是僅僅用於描述某個數據集，也不是去根據模型和數據的擬合度去修訂參數然後去接受或拒絕參數。

在 Rasch模型，我們使用人和問題的原始分數總分來估計累加型的測量值。 Winsteps 可以用來分析

George Rasch 的」二分反應數據「，比如」對「，」錯「
Andrich 的」打分測量尺數據」，比如常用的 Likert問卷的問題
Masters的「部分得分」
Bradley-Terry的「配對比較」
Glas 的「成功模型」
Linacre 的「失敗模型」

等等。

稍後繼續。。。。

繼續更新

Rasch 模型的參數估計方法是 JMLE "Joint Maximum Likelihood Estimation"也就是結合式最大似然值估計法，既然要做估計，那麼初始值就要先確定下來。

Rasch 模型估計的初始值是由PROX，Normal Approximation Algorithm 演算法。

在後來學者的努力下，Rasch 模型逐漸發展成為了一個Rasch大家庭。

（第一部分完）

2018年1月4日繼續更新：

在使用Winsteps 之前，我們再回顧一下Rasch 模型，

Rasch 模型
Rasch 模型入門
Rasch模型示例
Winsteps 程序的使用

首先我們來看一下，我們如何開發一套測量用的量表？

基本流程如下：

1. 開發考試或問卷工具

2. 確定樣本，並實施考試或發放問卷

3. 計算和item 有關的統計值，比如試題或者問卷內問題的難度，區分度；以及工具本身信度效度等

4. 計算和考生有關的統計值（得分，總分等）

按照以上這種過程，我們看看會有什麼問題，或需要改進的地方？

比如這個問題：「你覺得某某問題有多難？」

1 2 3 4 5

不難有點難不會做

這個問題的實施過程，實際就是用數字來表示考生/人的反應，所以顧名思義項目反應理論 item response theory. 但最關鍵的是這個評分的尺度如何建立。

如何對考試或問卷，等任何工具測量/衡量人的反應後能做出客觀的解釋？這是心理測量/Rasch 模型要解決的問題。

在傳統的考試設計理論和思維下，CTT Classic Test Theory，通常的做法是，用一個總分來代表一個人的某項能力。比如你英語考試得了90，他的了80，我們會說你的英語比他好。至少在這個考試中的表現，你比他好。我們做出這樣判斷的依據是總分。

我們再來看看醫療中的例子：

假設兩個病人都有肩膀痛的問題：張三男和李四男。

我們給他們關於肩膀痛的問卷，來看看他們的反應如何：

問題反應評分

手可以夠著耳垂有一點兒困難 2

拿起一杯水有些困難 3

拉出桌子底下的椅子坐下非常困難 4

總分 9

我們在來看李四男的反應

問題反應評分

掛重衣服到衣帽鉤有一點兒困難 2

把1加侖水放到頭頂的貨架上有些困難 3

手舉過頭工作2分鐘以上非常困難 4

總分 9

以上兩個例子的邏輯是？

張三男和李四男總分都一樣9分，但是張三男的問題似乎容易些；

所以，你可能會認為李四男的肩膀功能會好一些，相比張三男。

注意：一樣的總分，卻表明不同的情況！

這是因為傳統的方法忽略了每個問題的難度水平！

而實際情況是單個問題的難度水平依賴於不同的樣本！也就是在一套試卷/一套問卷工具內，單個的問題難度依賴於不同的樣本。

就是我們常說的，對他難的問題，對我可能很容易。

比如這個問題

在做俯卧撐的時候，我可以用三個手指頭撐起身體

組1 兒童

7 / 3 難度值為 3/10=0.3

組2 大學生

2 /8

能力弱到能力強的人 8/10=0.8

其他問題

1. 樣本-考試/考試題依賴

2. 精度（標準誤）對所有分數都一樣

3. 基於序列尺度來計算總分是不恰當的

4. 不同尺度測量的結果無法比較

5. 更長的測量相應的會增加信度 reliability

考試/考題的依賴程度

百分比的變化

一個12歲女孩在1分鐘仰卧起坐測試的得分

80% NCYFS I 測試

75th AAHPER 測試

55th The Chrysler Fund-AAU 測試

選擇哪種測量尺度/水平？

序列還是區間

其他方面的考慮

混合的考試形式（真假判斷，3階或5階混合的萊克特問捲尺度

Likert Scale）會導致總分的構成不平衡，因為不同題目基於不同的權重。

Rasch模型能解決這些問題嗎？

作為一種概率模型，或者1參數項目反應理論

項目反應理論在1960年代的兩種分支

Lord, Novick, Birnbaum 美國的情況
Rasch, Wright 歐洲的情況

項目反應理論在美國各種標準化測試中廣泛應用

ACT，或者計算機自適應考試 CAT.

在組合編製試卷/問卷的時候，它有很多優於傳統CTT理論的地方。

Rasch 模型的基本內容

處理個人的能力水平和問題不同特點二者之間的相互關係。
如果人的能力比問題的難度高，那麼這個人正確回答問題的幾率就高；
如果人的能力比問題的難度低，那麼這個人正確回答問題的幾率就低；
如果人的能力和問題的難度一樣，那麼這個人正確回答問題的幾率就是.50;

Rasch 模型分別來估計精度（也就是有條件的Standard

Error估計）。

模型中的錯誤越小，獲得的信息越大，而測量也就越精準。

SE（θ）=？？

Rasch 分析會處理在一個問卷中混合問題的形式（比如既有3階和5階的Likert

問卷），可以進行做出統一的人的能力估計

使用領域

打分測量尺的診斷（優化問題分類）
評估現有測評工具
統一問卷工具問題
更高精度的構建試卷/問卷
使考試/問卷具有自適應的特點

Rasch 模型的其他優點

將順序水平/尺度得到的反應值轉化為線性的測量值（累加！）
單個問題難度和個人能力的參數在同一個測量尺進行估計，log-odds
scale, 而測量單位則使用 logit.
參數估計互相獨立（也就是一個人的能力得分和考試題難度互相獨立，沒有影響）稱之為參數的恆定性 parameter invariance

當然Rasch 模型和任何統計模型一樣，都需要滿足一定的前提條件（Assumptions）,才可以使用：

單一維度的假設
所有問題都是為了測量一種單個的特質/能力而設計；
測試的單維度假設是通過Rasch 的 fit 統計值來考察的（例如 Infit 和 Outfit 均值平方）
本地獨立性
人對問卷和試卷題目的反應是相互獨立的。

優化類別

確定反應類別的最優化數目，比如減少或增加類別；
為某個測量值提供有效的證據
對於所有評級測量尺(rating scale)沒有確定的最優反應類別數目，需要不斷調整；