通用試題庫組卷策略演算法1

余勝泉姚顧波何克抗ysq@elec.bnu.edu.cnhekk@elec.bnu.edu.cn北京師範大學現代教育技術研究所100875【摘要】在題庫建設中,試題質量控制與屬性參數標註、用於組卷的組卷策略的設計是最重要的兩環,本文從設計組卷策略的角度出發,介紹三種實用組卷策略。本文介紹的組卷策略演算法由三部份組成:試題屬性項定義、組卷參數的定義、變換演算法的說明。【關鍵詞】題庫、組卷策略、組卷演算法、難度、區分度、認知分類、曝光時間題庫(Item Bank) 是「按照一定的教育測量理論,在計算機系統中實現的某個學科題目的集合」。題庫在教學實踐中有兩個獨特的優越性:第一是管理上的優勢,體現為使用題庫的高效、經濟、靈活和保密;第二是測量上的優勢,體現為由題庫生成的試卷具有高質量、能預控和等值可比等特點。目前,我們一般的命題過程是這樣的:制定考試大綱和試題編寫原則,向有教學經驗和命題經驗的教師或命題專家徵集題目,通過小規模的試測獲取關於題目和試卷的統計數據,然後從質和量兩方面的角度對題目和由題目組成的試卷進行分析、判斷和調整,之後再以這套試卷施測於考生對象。這種命題過程存在著大量人力財力浪費的問題,而且不能保證出題的科學性。隨著經濟和社會的發展和終身教育觀念的普及,迫切需要有科學、方便、完善的題庫管理系統,作為積累題目、自動組卷、保存成卷、分析試卷的利器。在先進理論指導下用計算機管理的題庫,具有科學、高效、經濟、靈活、方便等顯著特點。題庫為題目的保存、分類和檢索提供了便利,為編製試卷提供了高效率和低成本的手段;而更為重要的是它作為評價工具的作用。教學過程中充分利用題庫這種教學資源,進行富有成效的形成性測驗,可以幫助師生把注意力從名次、得分集中到要實現的教學目標上來,真正關心學生的學習困難和錯誤所在,關心學生素質的提高,促使教育觀念從「應試教育」向「素質教育」轉變。因此,對題庫進行研究和建設是具有十分重要的意義的。在題庫系統建設中,試題質量控制與參數設置、組卷策略是最重要的兩個環節;題庫建成後,我們需要輸入一些查詢參數,系統將根據這些參數抽出最適合參數要求的試題,組成能夠實際使用的試卷,定義這種查詢參數以及對這些參數進行變換演算法,我們稱之為組卷策略。組卷策略的實質是將對人比較直觀明了的組卷參數變換成計算機能夠直接操作的試題屬性項,然後根據這些屬性項,在題庫中抽取試題組成試卷。因此,完整的組卷策略應該由三部份組成:試題屬性項定義、組卷參數的定義、變換演算法的說明。根據組卷方式和評價的類型不同,我們可以將組卷策略劃分三大類型:快速組卷、相對評價組卷、絕對評價組卷。下面我們將對它們作詳細的說明。下面我將對這三種組卷演算法作詳細說明,由於三種組卷策略的試題屬性項定義、組卷參數的定義基本相同,我將它們一起說明,不同的地方,在文中指明。一、試題屬性項定義一般題庫中試題所具有的屬性項有:試題編號,試題類型,考察知識點,難度,區分度,認知分類,題干,操作說明,答題時間,建議分數,使用總次數,上次使用時間,出題人,出題日期,歸檔時間,保留項。其中經常用於選題的參數有:試題編號,試題類型,考察知識點,難度,上次使用時間,區分度,認知分類。上面試題的屬性比較直觀明了,在此只對一些主要的屬性項作簡要的說明:試題編號:試題的唯一標識,只要知道某個試題編號,便可唯一確定一道試題,這對利用計算機處理試題極為重要。試題類型:試題的類型,如填空、計算、填空等,抽題和組卷的重要參數之一。考察知識點:這道試題在這個學科的教學大綱中所屬的知識點,它是教師用來確定考試範圍的重要依據之一。難度:題目的難度是衡量題目難易水平的數量指標,通常以題目的答錯比率來表示:如果答對的人數越多,題目就越容易,難度就低。難度在題庫中的作用主要是為了篩選題目。題目難度的選取需要考慮到測驗的目的和性質。比如,如果測驗是用於選拔錄用人員,就應該比較多地採用那些難度值接近錄取率的題目。區分度:題目的區分度也叫題目的鑒別力,它是衡量題目對不同水平被試的心理特質的區分程度的指標,如果題目的區分度高,那麼水平高的被試在題目上的得分就會高,而水平低的被試就會得分低,這樣就可以把不同水平的被試區分開來。區分度屬性在題庫中的作用也是挑選題目。題目區分度越高,它分辨學生的知識水平和素質高低的能力就越強,因此對於相對評價的考試來說,題目區分度是很重要的參數。此外,對診斷類型的測驗,區分度越高,就越能夠快速而精確地定位學生問題之所在,為採取補救措施提供依據和方向;而使用區分度低的題目組成的診斷試卷,則在分析考試情況時容易產生誤判的情況。認知分類:學科體系與教育目標分類理論將決定整個題庫及生成試卷的內容效度,是制定征題規劃的根本依據,題庫的整個框架結構就是要按照這個要求來設計與建造的。教育目標的分類方法,一般是採用布盧姆的知識、領會、應用、分析、綜合、評價等六類。但是在實際應用當中,不同地域,不同學科,教師或教育研究人員也可以提出更符合實際情況的分類標準。只要試題屬性和組卷參數對它的定義一致,那對組卷策略就沒有太大的影響。上次使用時間:題目的使用總次數和上次使用時間兩個參數可以用來控制題目的曝光度。為了試卷的保密性、公平性和安全性起見,在抽取題目組成試卷的時候,需要控制題目的曝光度。控制曝光度有兩方面的考慮,一是如果題目在規定的日期範圍之後被使用過,本次就不再使用;二是如果有幾個同時都滿足條件的題目可供選擇,那麼在抽取試題的時候應該選擇使用次數少的題目,以達到使用上的平衡和控制曝光度的目的。二、組卷參數定義我們知道,計算機抽題是根據試題的屬性一道一道進行處理的,教師一般都不可能對所有試題的屬性進行設置,因此,我們要設置一些教師易於理解、容易操作,同時又能很好體現教師考試意圖的組卷參數。設置組卷參數的主要依據是一套完整試卷的屬性,比如試卷標題,考試時間,考察的知識點等,還有一些與評價類型相關的特殊考慮,如相對評價主要要考慮難度,而絕對評價則主要要考慮認知分類。下面我就來介紹我們在國家九五重點科技攻關項目《面向中小學通用試題庫生成與管理系統》中所設置的組卷參數,不同的組卷策略有所不同,為了敘述方面,我將它們放在一起介紹,特殊的在文中說明。1.總體參數總體參數是指對試卷的整體屬性的說明,具體有:試卷標題,考試時間,滿分值、平均難度、平均區分度、曝光時間、考察的知識點。對於平均難度和平均區分度的定義,請見第5和第6部份說明。其中對於相對評價組卷,需要設置試卷的難度比例,所以不需要設置平均難度;表A:總體參數表參數名稱試卷標題考試時間滿分值平均難度平均區分度曝光時間考察的知識點參數值Test100100難中1998/09/02(1)(2)(3)…(m)註:表中數據為示例數據,(1)(2)(3)… (m)表示有m個知識點。2.題型比例題型比例指試卷的題型結構,也就是試卷中有那些大題型,某道大題型下有多少道小試題,這些試題在試卷中佔多少分,某題型要考察那些知識點,題型比例參數可概括成為一個一維表,其中列為:題型,試題數,分數,題型考察的知識點。表B:題型比例表題型試題數分數考察知識點A1020(1)(6)(5)B520(2)(4)…………N15(3)註:表中數據為示例數據,A、B…N表示有(n)個題型。3.知識點——難度比例對於相對評價組卷,主要要控制的是試卷難度,我們需要確定整個試卷的難度比例及考察知識點的比例,還需要知道某個知識點下具體的難度比例,由此,我們可以得到一個二維參數表,其中列為難度等級(在此分為五等,實際應用時,可根據實際情況劃分),行為考察知識點。表C:知識點——難度比例表難度知識點難較難中較易易(1)10%1%5%(2)4%16%………………(m)……………註:表中數據為示例數據,(1)、(2)…(m)表示m個題型。4.知識點——認知分類比例與相對組卷類似,絕對評價組卷主要要控制的是試卷的認知分類,以診斷學生在某知識點的掌握程度,這樣組卷時不僅需要確定整個試卷的認知分類比例及考察知識點的比例,還需要知道某個知識點下具體的認知分類比例,同樣我們可以得到一個二維參數表,其中列為認知分類等級(在此採用布魯姆的認知技能分類,實際應用時,可根據實際情況劃分),行為考察知識點。表D:知識點——認知分類表難度知識點知道領會運用分析綜合評價(1)10%5%(2)5%10%5%…………………(m)………………註:表中數據為示例數據,(1)、(2)…(m)表示m個題型。5.參數約束條件在組卷策略中,輸入上述參數時,並不是隨意的,參數必須符合如下約束條件:l

約束條件1:題型分數值滿足:l

約束條件2:題型考試時間值滿足:l

約束條件3:題型比例表中所出現的知識點必須為總體參數中所設的知識點。l

約束條件4:難度比例滿足如下條件:l約束條件5:認知分類比例滿足如下條件:

6.平均難度與平均區分度計算模式在使用平均難度與平均區分度參數時,並不是所有的試題的難度或區分度都是平均值,而是有一個比例模式的,這種模式中包括所有的難度級別,區別只是比例數不同。模式值可以有多個,在具體使用中,模式類型可以取隨機值。表E:平均難度計算模式表模式類型難度級別難度比例難較難中較易易A難40%20%20%15%5%較難15%40%25%15%5%中10%20%40%20%10%較易5%10%25%40%20%易5%5%25%25%40%B難35%30%15%15%5%較難20%30%25%15%5%中5%25%40%25%5%較易5%5%30%40%20%易0%5%30%30%35%…………………表F:平均區分度計算模式表模式類型區分度級別區分度比例優良中較差差A優40%20%20%15%5%良15%40%25%15%5%中10%20%40%20%10%較差5%10%25%40%20%差5%5%25%25%40%B優35%30%15%15%5%良20%30%25%15%5%中5%25%40%25%5%較差5%5%30%40%20%差0%5%30%30%35%…………………註:表中數據為示例數據,具體應用時,可設置更多的模式類型,比例也可以有所變化。7.最終抽題時的組卷參數上面所陳述的都是為了使教師使用方便而設置的組卷參數,而計算機進行處理時,並不能直接用上述參數來抽題,我們需要對它們進行變換,變成如下所示的最終組卷參數表,這兩者之間的變換方法就是組卷策略。表G:最終組卷參數表試題編號題型難度等級區分度等級認知分類知識點1A難(1)2A難(1)………………在實際組卷時,每道試題選取的條件為:l曝光時間參數:曝光時間<定義的曝光時間l試題編號參數:試題編號<>已抽出的試題編號l抽題時的最終條件為:最終組卷參數表中的每一項(表與表中的每一項為與的關係,不包括試題編號)AND曝光時間<定義的曝光時間 AND試題編號<>已抽出的試題編號。若某個條件抽出的試題數大於一道,則從抽出的試題中隨機取一道,若抽不出試題,則順次取消的控制條件為:曝光時間、認知分類、區分度;若仍抽不出試題,則難度進行最小程度的變化(變一級)、若還抽不出試題,則在考察的知識點中抽隨機知識點值。三、組卷策略的變換演算法1.基本的組卷方式通常情況下,我們只需要設置試卷的一些整體屬性參數和題型結構參數,便可以組出一份滿意的試卷,它對題目的知識點難度分布沒有特殊要求,只設平均難度和平均區分度參數,參數設置簡單直觀,常常用於快速組卷。其組卷步驟為:1)設置總體參數:試卷標題,考試時間,總題數,滿分值,曝光時間、考察的知識點,平均難度、平均區分度;示例值見表A;2)設置題型比例表,示例值見表(2),檢查約束條件1、2、3,生成最終組卷參數原型表,表的格式見表B;3)題型與知識點分布對應:根據題型比例表,來計算某知識點某類題型所出的試題數,如知識點(1)下填空題2道,計算題1道等等,並預寫最終組卷參數表(填寫參數表的知識點列);變換公式為:知識點——題型比例表某知識點某類題型所出的試題數=題型比例表某類題型的試題數DIV(整除)該類題型的考察的知識點數+ Random(題型比例表某類題型的試題數MOD(取余)該類題型的考察的知識點數)註:Random是將餘下的試題數,用補零的方式補足與知識點相等的個數,再取隨機值,若隨機取的值為零,則加值為零,否則加1;若考察知識點列為空,則默認為所有考察的知識點。4)試卷難度比例的分配:在平均難度計算模式表中隨機取一模式值,得出這份試卷的試題的難度比例,將此難度比例變換成最終組卷參數表中的難度級別參數。變換演算法如下所示:變數說明:n:難度的等級數,這裡為5;Nn:表示各難度級別的比例值,n的取值範圍是1~難度的等級數;m:題型比例表中試題的題型數,示例值為5;Mm:某一類題型,m的取值範圍為1~題型比例表中試題的題型數;num:某類題型所佔的題數;j、tmp:中間變數;演算法說明:j=m將題型按題數多少從多到少排列Whilej>0 doBeginIf num>n then此類題型抽n道題,第n道題的難度比例為Sn(Sn為題型分數比),若Nn<Sn,則此題型不抽。Nn=Nn-Snnum=num-nElse將此題型記錄在剩餘試題表中,並按剩餘試題的多少從多到少排列。End if將題型按題數多少從多到少排列j=j-1EndForI=1 to 剩餘試題表的記錄數每類題型抽一道題,按分數比例值排列,再將難度比例余值按大小排列,抽兩者重合的值,並對應減少難度比例余值。若某難度級別不夠(允許的不夠的範圍為-3%),則不抽此題。If 剩餘試題無法精確滿足比列要求then抽與比例要求最近的難度級別End ifI=I-此次循環抽的試題數NetxtI5)試卷區分度比例的分配:在平均區分度計算機模式表中隨機取一模式值,得出這份試卷的試題的區分度比例,並將此區分度比例變換成最終組卷參數表中的區分度級別參數,由於在組卷時,區分度參數與其它參數(如難度,知識點等等)無很強關聯關係,故採用與平均難度類似的隨機比例分配的形式。演算法說明如下:變數說明:n:區分度的等級數,這裡為5;Nn:表示各區分度級別的比列值,n的取值範圍是1~區分度的等級數;m:題型比例表中試題的題型數,示例值為6;Mm:某一類題型,m的取值範圍為1~題型比例表中試題的題型數;num:某類題型所佔的題數;j、tmp:中間變數;演算法說明:j=m將題型按題數多少從多到少排列Whilej>0 doBeginIf num>n then此類題型抽n道題,第n道題的區分度比例為Sn(Sn為題型分數比值,若Nn<Sn,則此題型不抽。Nn=Nn-Snnum=num-nElse將此題型記錄在剩餘試題表中,並按剩餘試題的多少從多到少排列。End if將題型按題數多少從多到少排列j=j-1EndForI=1 to 剩餘試題表的記錄數每類題型抽一道題,按分數比例值排列,再將區分度比例余值按大小排列,抽兩者重合的值,並對應減少難度比例余值。若某難度級別不夠(允許的不夠的範圍為-3%),則不抽此題。If 剩餘試題無法精確滿足比列要求then抽與比例要求最近的區分度級別End ifI=I-此次循環抽的試題數NetxtI2.難度組卷方式(相對評價)對於相對評價,主要目的是將學生的成績拉開檔次,以顯示出差異,這就需要在題目上的難度拉開檔次,需要在知識點的難度比例等級上進行必要的分布。相對組卷的步驟為:1)設置總體參數:試卷標題,考試時間,總題數,滿分值,曝光時間、考察的知識點,平均區分度;示例值見表A。2)設置題型比例表,示例值見表B,在本組卷方式中,不考慮考察知識點列,檢查約束條件1、2、3。3)設置知識點——難度比例表,示例值見表C,檢查約束條件4、5;4)難度比例分配:根據知識點——難度比例表,將所有知識點下的難度比例變換成最終組卷參數表中的難度級別參數。變換演算法如下所示:變數定義:Ni:難度級別,表一個難度級別,i的取值範圍為1~5;Zj:知識點,表3中知識點變數,其中j的取值範圍為1……m,表m個知識點;Ti:表示第i個題型;TiNum:Ti題型所擁有的試題數;Si:表某題型的分數比例,其中i的取值範圍為1……n,表n個題型;NZij:某知識點下難度比例值演算法說明:將所有題型按Si從大到小排列;對排列後的所有題型:fori=1 to n do在知識點——難度比例表取TiNum個最大的NZij值,則Ti題型抽TiNum個試題,它們的難度和知識點對應NZij所對應的知識點和難度級別,若有多項最佳滿足條件的NZij值,則加難度比例和知識點不相同的條件,若還有多項,則在這幾項中取隨機值。寫最終參數表NZij =NZij-Sinexti6)區分度比例分配:在平均區分度計算機模式表中隨機取一模式值,得出這份試卷的試題的區分度比例,並將此區分度比例變換成最終組卷參數表中的區分度級別參數,變換演算法參見基本組卷演算法步驟5。3.認知分類組卷方式(絕對評價)對於絕對評論,以考察學生知識點的掌握情況,它以認知分類為主要參數抽題,需要填寫知識點——認知分類比例參數表。這種策略的組卷步驟為:1)設置總體參數:試卷標題,考試時間,總題數,滿分值,曝光時間、考察的知識點,平均區分度;示例值見表A。2)設置題型比例表,示例值見表B,在本組卷方式中,不考慮考察知識點列,檢查約束條件1、2、3,最終組卷參數原型表,表的格式參見表13:3)設置知識點——認知分類比例表,示例值見表D,檢查約束條件4、6;5)認知分類比例分配:根據知識點——認知分類比例表,將所有知識點下的認知分類比例變換成最終組卷參數表中的認知分類級別參數。演算法說明如下:變數定義:Ni:認知分類級別,表一個認知分類級別,i的取值範圍為1~6;Zj:知識點,表3中知識點變數,其中j的取值範圍為1……m,表m個知識點;Ti:表示第i個題型;TiNum:Ti題型所擁有的試題數;Si:表某題型的分數比例,其中i的取值範圍為1……n,表n個題型;NZij:某知識點下認知分類比例值演算法說明:將所有題型按Si從大到小排列;對排列後的所有題型:fori=1 to n do在知識點——認知分類比例表取TiNum個最大的NZij值,則Ti題型抽TiNum個試題,它們的認知分類和知識點對應NZij所對應的知識點和認知分類級別,若有多項最佳滿足條件的NZij值,則加認知分類比例和知識點不相同的條件,若還有多項,則在這幾項中取隨機值。寫最終參數表NZij =NZij-Sinexti6)區分度比例分配:在平均區分度計算機模式表中隨機取一模式值,得出這份試卷的試題的區分度比例,並將此區分度比例變換成最終組卷參數表中的區分度級別參數,變換演算法參見基本組卷演算法步驟5。本組卷策略在國家九五科技攻關項目《面向中小學的通用試題庫生成與管理系統》中應用,抽出的樣卷經過學科專家鑒定,可以在實際教學中應用。主要參考文獻[1]何克抗,「建立題庫的理論」,《全國CBE學會第七屆學術會議論文集》,國防科技大學出版社1995年11月版;[2]張厚粲,劉昕著,《考試改革與標準參照測驗》,遼寧教育出版社1992年9月版;[3]薛理銀編著,《教育信息處理原理》,北京師範大學出版社1996年3月版;[4]B?S?布魯姆等編(邱淵等譯),《教育評價》,華東師範大學出版社,1987年版;[5]B?S?布魯姆等編(羅黎輝等譯),《教育目標分類學?第一分冊:認知領域》,華東師範大學出版社,1986年版;[6]張厚粲主編,《心理與教育統計學》,北京師範大學出版社,1993年(第二版);[7]96-750項目辦公室,「國家『九五』重點科技攻關項目立項指南」;本研究受國家「九五」重點科技攻關項目基金辦公室資助

版權信息:本主頁版權所有:北京師範大學現代教育技術研究所;管理員信箱:ysq@elec.bnu.edu.cn;電話:010-62206922。要獲取最佳瀏覽效果,請使用800*600解析度模式。
推薦閱讀:

『知日元斷流年』的推演算法則(司瑩居士)
機器學慣用於金融市場預測難在哪?
Leetcodes Solutions 48 Rotate Image
「中國芯」雄起!阿里達摩院自主研發AI晶元
質數能幫你賺錢?| 尋找質數的最高效演算法

TAG:演算法 | 策略 | 題庫 | 算法 | 通用 | 試題庫 |