一份正規的心理測試量表是如何編製的?
在醫院與諮詢室被使用的那些心理測試量表是如何編製的?編製者要如何確保量表的有效性與時效性呢?
這是一個很大的問題啊,寫起來是一門專業課的量。
心理測量的量表類型很多,從最開始的智力、到人格、情緒....數不勝數。而且就算是同一種量表,比如你要測量一個人對死刑的態度問題,還有三種以上的編製方法。至於你所講的有效性和實效性,都包含在測量量表的信度、效度兩個指標中。信度指的是:你這個量表在不同時間測量,對不同人測量的效果都是一樣的。
效度指的是:你的量表確實是在測量你想測的東西。打個比方,你想測身高,結果測出來的是體重,那麼這就是效度低。我只能說,去買一本書看吧,在知乎上講清楚是肯定不行的。買一本《心理測量》,潛心研讀兩遍,再提出裡面你不理解的部分,這樣才是一個好問題——————————————————————————————————————————我舉一個栗子,在我大二上課的時候,老師要求我們兩人組隊編製一份態度問卷,然後,我是這麼實施的:首先我們確定了一個調查的對象,假設我們要測量人們對死亡的態度第二步,我開始編題目,比如:你喜歡死亡嗎?死亡是開心的事情嗎?題目有很多類型:是非題、選擇題、匹配題、排列題、最好理由題等等第三步:進行預測,就是把這份問卷編好了,拿去給人們測一下第四步:把測得的結果錄入,把一些題目刪去。刪去的原則有很多,比如:每個題目都有人選,答案不明確;題目引起了歧義;題目會引發人們的不適感等等第五步:還可以根據這些題目的測驗結果,將題目進行維度分類。打個比方,這個就像,你把一堆水果,分類成蘋果、香蕉、橘子等等。一份量表裡就是一籃子水果,我們講這些題目分類成好多個維度。
第六步:編製副本:把題目按照難易順序排好,然後按蛇形分成兩組就像醬紫:甲 1 4 5 8 9 12 13 16 17 20乙 2 3 6 7 10 11 14 15 18 19第七步:將所有內容標準化,包括評分、時間、指導語以上就是一份量表,新鮮出爐但是你以為這樣就能用了嗎?
....你真是太天真了我們需要檢驗這個量表的信度和效度。
信度一般幾種:重測信度、複本信度、內在一致性信度、評分者信度就介紹一種怎麼用:重測信度就是,你需要找一組熱心人,讓他們在不同時間,測量同一份問卷,看看這兩次結果有沒有什麼大的差異。效度:內容效度、結構效度、準則關聯效度該操作比較麻煩,介紹一種:結構效度是來對比你的問卷和理論結構的。比如說,我們根據智力的三因素模型來編製了一份量表。那麼我們是按三種方向的問題來編製的,在之前的第五步(見上文),我們將問題分類之後,如果也能得到有三類問題,並且這三類問題跟我們的理論模型一致,那麼這就說明結構效度好。但這還不夠....
你記不記得在那些趣味雜誌上的心理問卷?我們做完一堆題目,然後把題目的分數相加之後,還需要按對應的分數看結果?我們這份問卷,還缺少這一環節。我們管這個叫常模,也就是比較的標準。任何心理問卷的原始分數都沒有太大意義,我們需要將分數對照常模,才能得到結果。至於常模怎麼做...我在這裡就不贅述了...
舉個栗子,讓大家理解一下什麼叫做常模。我們想測一下,自己適合幹什麼職業。然後,我們做了一份量表,讓全世界所有職業的人都做一下,然後得到全世界所有人的分數。比如,我們能得到全世界做HR的人,他們的得分以及分數分布情況。如果你做出來的分數跟HR的分數最相似,那麼根據量表,我們就認為你適合做HR。——————————————————————————————————————————因為時代變遷,常模的有效性會下降,常模需要修訂。最少10年一修,我記得。而且,不同文化的表達不同,習俗不同,在美國用得挺好的量表,放到中國來就不一定能用了。因此,量表在引進的時候,也需要修訂。——————————————————————————————————————————寫得亂七八糟的,請見諒。特別感謝 @小紅拖拉機 對本回答的修改建議指導,通訊作者 @和光同 對武林世界構建的建議。
遙想十年前的心理測量學課堂上,先生的開場白是:物理學是對客觀的客觀化,心理測量學是對主觀的客觀化。
既然是主觀的東西,能不能客觀化,如何客觀化?那麼在說測量之前,有必要來回顧下經典測驗理論(Classical Test Theory,CTT)的假設。 CTT最基本的假設是心理特質的可測性:心理特質是一種客觀存在,「凡客觀存在的事物都有其數量」(E.L.Thorndike),「凡有數量的東西都可以測量」(W.A.McCall)。因此,心理特質具有可測量的特性,可以通過科學的心理測評來測量。 那麼問題來了,什麼是科學的心理測評,怎樣編製一份科學的心理測評量表呢? 咱們邊說故事邊講吧。 一、確定測驗的目的這部分需要回答幾個問題:測量的對象是誰?測量的目標和用途是什麼?
且說那江湖上有一門派,居於莫測谷深處,該門派書閣之上有聯云:一卷何易?有同質檢驗、正態分布、因素分析、載荷成簇,令球型、相關、主成分均有三星顯著。信度何如?效度何如?如切如磋如君子省身三度,以為然否?
諸君試看,定行為傾向、心理素質、性格特徵、觀念認知,使外傾、盡責、神經質各自兩儀分明。顯者可矣,隱者可矣,宜室宜家宜靜女無與士耽,正當如是!門楣正當中,銀鉤鐵劃四個大字——「神鬼莫測」,正是這門派的名稱。
話說那日,江湖上要進行第四次華山論劍,不同於前三次的形式,這次就由這神鬼莫測派作為論劍主理機構,要對各門派的武林高手們來個測評,測什麼呢?測他們的挫折應對能力。為啥要測這個,因為高手間經常過招呀,過招就有輸有贏啊,那輸了的傢伙會不會有挫敗感?對他下次過招有沒有影響?為了整個江湖的應對挫折水平有所提升,最終達到武功水平的提升,武林學界一直都對此課題深感興趣,藉由第四次華山論劍,準備第一次對各路英雄好漢做個測評。
本部分開頭的兩個問題也就有了答案,測量對象:江湖中武林高手; 測量目標和用途:考察武林高手們的挫折應對能力。
二、編製測驗項目接著問題又來了,怎麼測呢?武林屆把這個任務指派到了神鬼莫測派,已經出師的大師兄去雲遊四方了,師父把這個任務交給了小魔女,小魔女領了這份差事,於是開始回書齋翻(查)書(文)了(獻)。 這不翻不知道一翻嚇一跳,原來在五年前,南邊兒的天竺國就有了類似的測評,想要用的話,可以進行外國量表的本土化。 然而本土化的過程操作起來需要三類人的配合,這三類人需要分別具備以下技能: A:熟悉量表編製+本國語言及外語能力+所研究領域 B:本國語言+外語能力(不需要了解研究領域和測量知識) C:熟悉所研究領域及本土文化 具體過程是:1、把外文原始量表翻譯成本土語言,由A執行;
2、將翻譯後的量表進行符合本土語言文化的調試,由C執行; 3、將進行調試後的量表回譯成外語,由B執行; 4、將原始量表和回譯後的量表進行對比調試,消除對等性差異,由A執行; 5、消除對等性差異後的問卷,再次翻譯成本土語言,由A執行。 以上五個步驟會進行不斷反覆,最終輸出本國語言的問卷。 鑒於以上三類人士在小魔女的交際圈裡都不存在,所以略懂測評技術的小魔女選擇了自己編製《武林人挫折應對能力量表》,具體過程是這樣嬸兒的:- 確定內涵及題庫編製
小魔女又來到了書房,翻閱起了典(文)籍(獻),經史子集看了個遍,先把這次要測評的「挫折應對能力」歸納概括總結了一個內涵,根據這個內涵的操作性定義,進行題庫中測驗項目的編製。題庫編製可以有下面幾種方法:
1、訪談收集 先要編寫訪談提綱,針對想要測量的概念本身去擴展。發現黃藥師在十年前寫過一篇文章里提到過類似的概念,小魔女趕緊記下,細細思考,揣度著那些提法可以用在自己的訪談提綱中。 小魔女參照現有的研究進行維度或者因素的建構,編製訪談提綱,然後走訪各門派高手,了解在他們心裡一個武林高手的挫折應對能力應該包含些什麼,對訪談的內容進行完整的記錄,有必要的話,可以使出武器錄音筆助力。 2、問卷收集 跟做訪談類似,目的也在於收集最多的信息,不過方法改成紙筆的形式,請江湖高手(被試)們把回答寫下來。 3、文獻收集 從現有的文獻和研究成果中提取有用的信息進行測驗項目的編製。 由問卷和訪談收集到的內容,需要進行編碼整理分析,最終形成一個個的題項。 綜合上述各渠道,將編製出的測驗題項進行編排組合,形成初測問卷,問卷通常採用李氏(Likert)5點量表方式,從1(完全符合)到5(完全不符合)構成5級評分,受測者需要根據自己的實際情況,對每個題項進行打分。在題項編排的方式上,先要在開頭安排一兩個較容易的題項,如果有條件,最好拿兩個題項作為練習。形成正式問卷後,題項的編排有兩種常見的方式:
並列直進式:將整個測驗按測驗項目材料的性質歸為若干分測驗,對於同一分測驗的測驗項目,則依次難度由易到難排列;混合螺旋式:將各類測驗按照類別和難度交叉排列。 初測問卷形成後,就要開始初測的施測工作了。施測發放的問卷數量,和初測問卷的測驗項目數量有關。 怎麼發初測問卷呢?這時候,小魔女要面對一個小議題:- 如何正確地抽樣
- 【第一步】剔除無效問卷
- 【第二步】項目分析
- 【第三步】因素分析
正式施測的被試群體的抽樣方式和樣本來源,必須保證和初測的一致,在施測的過程中,還要注意標準化的問題:
- 【測驗的標準化】
1、測驗內容:對所有受測者採用相同的策略工具,是測量標準化的前提;
2、施測過程:同樣的測驗情境,不能少林寺的人在某場比武結束後測試,而嵩山派的在比武前測試,這樣受測者的心理狀態會有不同而導致偏差;同樣的指導語;相同的測驗時限; 3、測驗評分:評分標準要一致; 4、測驗分數的解釋:測驗的分數只有與一定的參照標準相比較,才能顯現出它所代表的意義,在心理測驗中,建立參照標準的過程就是建立常模的過程。回收了正式施測數據,最重要的一件事,就是拿來對我們的正式量表進行信效度的檢驗,確保問卷的有效性。
- 【信度分析】
信度:信度就是多次測量的結果間的一致性程度,也就是測驗結果的穩定性。對與愛自誇的老王來說,我們可以用把整車瓜都吃一邊看看同質信度;或者隨機把車上的瓜分兩堆,看看瓜的甜度分半信度;又或者,今天吃一個,明天吃一個,看看兩天甜度的重測信度等。
當然如果我今天讓張三和李四一起來嘗試,那就涉及到評分者信度了。 這裡例舉分半信度的輸出結果:- 【效度分析】
效度:一個測驗或量表實際能測出其想要測出的心理特質的程度。比如全球武術大賽比靈巧程度,少林派提議比筷子夾花生米,米國人不幹了說咱們用刀叉比切牛肉粒唄,我們再靈活也特么不會用筷子啊親,這不科學。
實證效度:一個測驗對特定情境中的個體的行為進行估計的有效性。如在某些測能力的人才測評中以績效作為參考依據,那麼在這裡的績效就是效標,它是獨立於本測驗的一個外在的標準。如果這次小魔女編製《武林人挫折應對能力量表》時,已經有一份前輩做過的和這個相關的量表,就可以請被試同時作答兩者,最後計算分數的相關性來考察實證效度。 結構效度:是指一個測驗實際測到所要測量的理論結構和特質的程度。通俗講就是這個測驗能夠說明心理特質的某種結構。 為了檢驗結構效度,小魔女不得不祭出大神器——AMOS,一款使用結構方程式探索變數間關係的軟體,通過一系列的回歸分析和調整,探尋出各個題型及因素之間的相互關係,最終驗證問卷的結構效度。問卷編完了,還有個工作叫做常模的建立,有常模的問卷或量表,才是一份標準化的問卷或量表,具體需要注意以下幾點:
- 【常模建立】
1、標準分數的轉換。標準分數是原始分數與團體的平均數之差除以標準差所得的商數,代表該被試在常模群體中的相對位置。每個被試所測得的分數,都是原始分,需要將其轉換為標準分數Z,標準分數通常都是正態分布的,如果有偏態,需要將其進行正態化。
2、編製常模:先要框定常模的範圍,比如這次的常模範圍就是江湖中的武林人士,商賈手藝人等,不在此列;接著獲得這個團體的測驗分數,理想情況下,要編製常模肯定是需要把江湖上所有的武林人士拉來測試一遍,實際操作中,做好科學的取樣工作也可以完成;最後把所測得的原始分數轉化為量表分數。 3、常模的時效性:通常認為,有效的常模一定是近時的,隨著時代科學文化水平的發展,人群也在發展變化,那麼如果常模數據時間久遠,則不能作為參照標準。 4、抽樣過程的記錄:在編製常模時,如何從樣本群體中進行抽樣的,需要在測驗手冊中進行記錄。小魔女編完問卷,看著各個指標終於出現的三個*號,突然發現一直想對大師兄講的話可以用這樣的暗語來表達,這樣哪怕被嵩山派老愛來搭訕的傢伙看到了也看不懂:
你是我
一直等待的 一個顯著
然而大師兄正在雲遊不知歸期為何,小魔女只能把最終整理好的問卷,呈上給師父過目,並一一講過每個步驟,得到師父首肯之後,小魔女編製的問卷便用在了第四次華山論劍中。師父說測評技術測的是內功,氣息流動間見高下,而非亮劍出拳比武。小魔女深以為然。
後世有詩云:五行缺誇,謝謝大家,看到這裡,點個贊吧? 【參考文獻】 1.王登峰,崔紅.編製中國人人格量表_QZPS_的理論構想. 北京大學學報(哲社版),2010,6(38):48-54.2.趙必華,顧海根.心理量表編製中的若干問題及題解,心理科學 2010,33(6):1467-1469. 3.戴海琦,張鋒,陳雪楓.心理與教育測量,2007,暨南大學出版社. 5.張厚粲,徐建平.現代心理與教育統計學,2004,北京師範大學出版社. 4.田寶偉,吳九君,鄭日昌.大學生挫折應對能力陳述性量表編製及結構探索.中國心理衛生雜誌,2014,28(2).倏忽冬夜,來一武者,坐定不言,斜眼相看。
魔女出手,拋出問卷,來者何人,全測一遍。 五點量表,勾勾選選,信度效度,都要檢驗。 這位英雄,你別翻臉,大家都是,武林好漢。
簡答題
測量表的建立是需要花數門研究生級別的課去學習的。而且本身也是一個research area推薦幾本教材:Psychometric Theory 3rd edition, Nunnally Bernstein, Introduction to Measurement Theory, Allen Yen另外幾篇早期的Cronbach, Schmitts的paper幾乎是必讀。這寫都不是靠科普能寫的明白的,我就簡答一下吧,正好我在上這門課1 定義這個construct:測量的是什麼?測量的這個有什麼意義?這個概念是否真的「存在」? 這個概念和其他那些概念相關?為什麼可以假設你這個construct 在統計學上follow某種特定的分布?
2,Scale Construction:選問題。不要小看了這個,學問大了去了。首先取決於你是測量什麼樣的東西:知識/業務水平?(比如GRE考試,招工測試),沒有確定回答的問卷(比如測某種情緒)?還是行為實驗?水平測試涉及如何設定題目難度,開放問卷設計問題和回答格式(likert scale?rank scale?open end interview?),然後你為什麼可以假設你的construct是dimensional的?是follow一個個區間的?行為實驗你要確定如何coding,為什麼要這麼coding?
3,reliability:判斷和估算你的error值。 Cronbach alpha的計算,Intraclass correlation的計算,inter rater reliability的計算,是否這個construct有多個dimension?要用CFA去查看。解決了內部一致性問題,怎麼去讓它每一次都得到差不多的結果(test-retest reliability)?
4,validity:construct validity,你怎麼去確定你測量的就是設想的概念?要拿去和已經存在的相關測量方案比對。predictive(criterion) validity,你的測量能否預測相關概念?content validity: 你的問卷項目足夠覆蓋整個construct的方方面面嘛?
34階段就需要招人來測試了
5:基於34的結果改良項目,再次找另一個樣本來測試reliability和validity。 6,再刪再改…………於是你就踏上了這條不歸路看了這些你大概知道了那些星座測試,性格測試,血型星象測試是多麼大不靠譜了。甚至IQ也是我想你想知道的是市面上的量表怎麼來的?科學不科學?首先,題目的設置肯定需要理論基礎(比如根據前人的理論設計一個量表的MBTI,或者在臨床經驗上形成的理論基礎比如MMPI,還比如因素分析而來的大五人格)。其次,題目問題的設置要按照理論的維度來設定具體問題,重要的是問題設置後要進行各個問題的信效度檢驗,選出信效度好的問題編入量表中。另外,在常模的選取上的不同可能有些問卷只適用於某一時間段和某一人群,所以在理論上不同時間段都要進行一些分數校訂,國外流傳過來的問卷也要進行本土化修訂,通過新的常模來進行評定。一定程度上是科學的,但是如果你硬要說那個人格量表測出的人就是你自己,我只能說測試就像你的畫像你的照片一樣永遠只能顯出你的一面。
先說大步驟
一、確定測驗目的二、制定編題計劃三、編輯測驗項目四、預測與項目分析五、合成測驗六、測驗標準化七、鑒定測驗八、編寫測驗說明書----------以下是詳細解答----------
一、確定測驗目的
1、明確測量對象,即明確測量哪些個人或團體。2、明確測量目標,即明確測量什麼,智力、人格還是其它。3、明確測量用途,即明確測驗是用來做什麼的,選拔人才、判定正常異常等二、制定編題計劃
編題計劃是對編製測驗的總體構思,用於指明應該編哪些方面的測驗項目以及編多少個項目。三、編輯測驗項目
1、收集測驗資料:收集的資料要豐富,愈齊全,工作愈順利;資料要有普遍性,所收集的資料對於不同文化背景、不同經濟地位、不同地區的個人或團體應當是公平的;資料要有趣味性,這可減少受測者由於缺乏動力而引起的測量誤差。2、選擇項目形式:測驗有很多形式,如簡答題、論文題、口頭測驗、團體測驗、個人測驗、操作測驗等,測樣的形式取決於受測者的年齡、人數的多少、測量的目的、測驗項目的性質等。3、編寫測驗項目:這是一個反覆的過程,要對測驗項目進行反覆修改,直至找不出錯誤。四、預測與項目分析
1、預測:目的在於獲得被試對測驗項目作何反應的資料。預測對象應取自將來正式測驗時準備應用的群體;預測的情景應力求同正式測驗的情境一致;施測者應對受測者的反應加以記錄,以便修改項目時參考。2、項目分析:是對預測結果進行統計分析,確定項目的難度和區分度。由於預測的樣本較小,所以,需要對來自同一總體的兩個樣本施測,然後分別進行測驗項目分析,看對兩個樣本的分析結果是否一致。五、合成測驗:
1、測驗項目的選擇:包括三個指標,測驗的性質(選擇那些能夠測量所要測量的東西的項目)、項目的難度、項目的區分度。2、測驗項目的編排:要合理安排項目的順序,通常開頭一兩個應容易些,使受測者熟悉程序,緩解情緒,建立信心。通常採用由易到難式。3、編製複本:一種測驗至少要有等值的兩份,分數越多,使用起來越方便。(各份測驗測量的是同一種心理特質、具有相同的內容和形式、不應有重複的項目、數量相等、難度和區分度一致)六、測驗標準化:
所謂標準化是指測驗的編製、施測、評分以及解釋測驗分數的程序的一致性。1、測驗內容:對所有受測者施測相同的或等值的題目2、施測過程:必須在相同的條件下施測(情境、指導語、座椅高低、紙張材料等都一樣)3、測驗評分:評分的客觀性意味著兩個或兩個以上的評分者對同一份測驗試卷的評定是一致的。4、測驗分數的解釋:首先要建立常模,即建立參照標準。對某一受測者分數的解釋要與這一受測者所屬團體的常模作比較。七、鑒定測驗
測驗編號後,必須對其可靠性和有效性進行鑒定1、信度:信度是指測驗的可靠性,即同一測驗多次測量同一團體,所得測驗結果之間具有一致性2、效度:效度是指測驗的有效性,即一個測驗在多大程度上能夠測得它所要測得的東西。3、測驗量表與常模:常見的測驗量表有百分等級量表、標準分數量表、T量表等。標準化的心理測驗都在測驗手冊中提供可供解釋測驗分數的常模表八、編寫測驗說明書說明書應包括:本測驗的目的與功能;本測驗的理論依據;實施測驗的方法;測驗的標準答案和評分方法;關於測量的信度、效度資料的說明;常模表當年在學術期刊做初審的時候,各種量表編製的投稿每個月沒有100也有50,基本都是在校的學生或老師搗鼓的。絕大多數都是為了量表而量表。編製方法么就跟樓上那些答案差不多,教科書上的標準流程,雖然內容沒錯,但全部圖樣圖森破。。。
這是為什麼呢?因為量表的價值不在於那些題目,而是數據。。。
有了數據才能項目分析,有了數據才能效度驗證,有了數據才能建立常模。。。
通常來說,為企業定製開發的能力量表比較簡單,搞2-300個在職員工就能確定個大致分布了。。。而面向普通人群的性格/能力量表,不僅數據量要高一到兩個數量級,而且還要考慮抽樣分布。。。整天在學校里的搞研究的,去哪裡收集那麼多數據呢?
總結:娛樂的心理測驗滿天飛。。。正規的心理測試量鳳毛麟角。。。對於普通人來說,也許一輩子都碰不到正規且有效的心裡測試量表。。。大大們求問,中國版10項大五人格量表,每項形容從非常不同意—非常同意是分成5分對嗎?反向計分項選了非常不同意(1分),統計的時候就要轉換成5分加嗎?用於不同人群是否都要自己做標準分常模之類的,還是可以僅憑評分來相對衡量個體間的差異呀,謝謝!!!
可參考【中學生社會適應性的理論構建及量表編製】,陳建文,黃希庭,2004
推薦閱讀:
※如何擺脫手機依賴?
※年少時期悲慘的記憶該怎麼排解?
※為什麼單親家庭長大的孩子,離婚率會比普通家庭高?
※(喜歡上網並留下評論的人)是不是都很喜歡做對比?天天詹姆斯/科比 dota/lol 並樂此不疲,如何看待這種情況
※我男朋友有時候會散發出一種特別吸引我的味道,說不清楚是什麼樣的,只是偶爾有,什麼原因呢?