題目分析之經典測評理論(CTT)

本文將要討論語言測評客觀題目中的數據分析方法。對於客觀題來說,正確答案都是預先設定的,所以不需要評分者做額外的評分,客觀題的主要題型是選擇題或者配對題。當客觀題積累到一定數量之後,分析將會變得非常有價值,因為這樣的分析可以告知這些題目出的好不好,有多好,或者有什麼問題。這樣的分析方式在測試中被稱為itemnanalysis(題目分析).

題目分析的目的是為了保證對於被測試者能力衡量的恰當性和準確性。對於語言測評的質量保證,項目分析起到了不可小覷的作用。

項目分析有很多種類,有些是相互互補的。兩個比較有名的方法分別叫CTT(ClassicnTesting Theory)和IRT(Item Response Theory), CTT是建構於傳統的心理測量統計理論之上的,而IRT是基於對應試者答對可能的估計來做的。在某些層面上說,IRT比CTT更加準確,因為IRT所使用的方法超越了單純組別之間的比較。不過對於項目診斷而言,CTT也有相當廣泛的應用,兩個CTT的重要指標分別是:難度(facilitynvalue)和區分度(discrimination index)。

難度(facility index), 如上圖所示,對於非對即錯的題目而言,是選對答案的人數/全部答題的人數。最後的答案在0到1之間,數字越高,代表題目越簡單,數字越低,代表題目越難。這樣的統計方法也會有一定的局限性,舉例來說,如果兩組應試者參加了同一個考試,答題的正確率會受到應試者的能力的影響。這就意味著,儘管對於做一些簡單的診斷性的判斷,CTT很適合,但是對於重要決策的做出和整個測試系統的建立,CTT就顯得有些薄弱,IRT會更加合適。對於評估測評的題目是否適合這組受試者來測試,難度(facilitynindex)比較合適。如果參加這組測試的受試者的水平較為典型,並且題目的難度在合理範圍之內,則比較有可能得出測試題目比較適宜的結論。

區分度(discrimination index)是用來區分同一個題目對於成績好的受試者和成績差的受試者之間水平差異的指數,做區分度的時候,需要把受試群體按照成績高低分成地低分組,中間組和高分組。區分度的數值從-1到1之間浮動,-1表示所有低粉群體都選擇了正確答案而所有高分群體都選擇了錯誤答案,0表示高分組和低分組之間沒有差異,0.3的區分度一般是比較可接受的。如果兩道題目的難度相同,區分度高的題目往往質量更高。

這張表格列舉了一些區分度的數值和它們代表的情況

舉個栗子:

對於這道題目而言,如下圖顯示,選擇A的用戶達到了73%, 然而A是一個錯誤的答案,區分度不錯,較多的高分組用戶選對了答案。』Endorsingnhigh』和』endorsing low』分別表示高分組和低分組選每個選項的概率,值得注意的是,對於高分組,選項A的選擇率達到了57%,超過正確選項41%n16個百分點。

(待更新)

註:以上內容翻譯自 Item Analysis Cambridge English: Research Notes, 第59期

推薦閱讀:

TAG:教育 | 英语 | 测评 |