關於「測評」你不可不知的N件事

07-04

關於「測評」你不可不知的N件事 2014-11-24 新精英做自己

關於"測評"你不可不知的N件事新精英生涯學院 | 侯悍超

時間：2014年11月5日主講：侯悍超整理：高晶—V33生涯規劃師認證班（上海）陳言諾—V95生涯管理班（北京）鄧海軍—V46生涯規劃師認證班（廣州）

本期介紹新精英生涯學院是新精英生涯規劃師認證班畢業學員的在線學習成長平台，每周三晚固定2小時學習時間，內容涵蓋生涯規劃知識學習與工具應用、職業發展問題指導、各行業/領域信息分享、學員分享與交流等。在生涯諮詢中，我們經常會用到測評的方法做輔助和參考。因此本期微課堂我們特別請到了新精英產品經理侯悍超為大家分享他對於測評的研究心得。他曾是北京師範大學心理學碩士（生涯發展與諮詢方向），研究職業測評、質性研究方法和後現代生涯諮詢，發表CSSCI索引收錄論文《敘事生涯諮詢——生涯諮詢的新模式》。如今致力於生涯理論和工具的產品化，希望可以將生涯的智慧傳遞給更多的人，幫助更多人成長為自己的樣子。

一、心理測評概述

1心理測評引入：

人之虛實真假在於心，無不見乎跡。

——顏之推，《名實篇》

這句話是金樹人《生涯諮詢與輔導》有關測評的章節的卷首語，意思是：人心中的虛實真假都會表現在外在的跡象上。我國古代的這句話一語道破了心理測評基本邏輯：通過外現行為推測心理特徵。（所以說古人還是很有智慧的^ ^）心理測評是評估心理特徵的一種通用的基礎方法，應用在不同領域會有特定的量表。如職業生涯規劃領域有Holland、MBTI；臨床心理學領域有抑鬱症量表、強迫症量表；人才選拔領域有各類人才測評等。除此之外，每個應用領域又有一些非心理測驗形式的特有的評估方法。比如職業生涯規劃領域中有生命線、平衡輪；臨床心理學領域會觀察病人的行為和語言；人才選拔領域有各類人才測有面試和簡歷等評估方法。心理測評與以上評估心理特徵的方法之間的關係總結如下圖：

不管是心理測評量表還是其他方式，都是為了了解和評估人的心理特徵。心理測評是基礎中的基礎，以下將1）首先介紹心理測評的概述和一些重要概念，2）接著介紹心理測評在職業生涯規劃中應用的原則和方法，3）最後介紹一個結構性訪談方法，將純粹量化的心理測評和其他評估方法做一個整合。

2心理測評起源、特徵

（1）最早的心理測評應該算是智商測評。智商測評起源：心理學家比內想知道兒童智力水平，由於是用一些外顯的行為，如記憶力、思維能力等做衡量。如下是比內的測評題目：9 歲：●從 20 蘇中找出零錢來。（蘇為法國舊幣名）●指出一些詞比用途更高的形式。（例如：「叉子是一種進餐用具」） ●分出 9 種錢幣的價值來。●按順序報出月份的名字來。●回答簡單的「綜合問題」。（如：問：「錯過火車後怎麼辦？答：等下趟車。」）12 歲：●抵抗暗示。（讓孩子看四對不同長度的線條，然後問每對中哪根長些；最●後一對線條的長度是一樣的。）●用三個既定的辭彙組成一個句子。 ●3 分鐘內說出 6O 個單詞。●給三個抽象詞定義（慈善、公正、善良）。每個年齡下邊有若干題目，如果孩子可以做到這些行為，就表示具有了這個年齡兒童所具有的智力水平，這個測驗結果叫做「智齡」，而我們如今所說的「智商」（IQ）是智齡除以年齡的商數，即：IQ（智力商數）=智齡/年齡。（2）「三歲看大，7歲看老」，從一個事物的早期特點可以看到以後的發展。從早期的智力量表，我們也可以看到現在心理測評的一些主要特徵：間接性：從外顯行為判斷內在心理特徵（智力是抽象不可見的，但是通過行為可以表示）；客觀性：用一個客觀的數字（智齡）來表示結果；代表性：取最能反映某個心理特徵的若干最具代表性的事件進行測量（每個智齡用5道題測量）。

二、心理測評基本概念：常模、信度和效度

1常模

常模定義：常模分數構成的分布，就是通常所說的常模，它是解釋心理測驗分數的基礎。常模就像地圖，測評分數像是經緯度，有了經緯度就和地圖才可以知道自己的位置。實際中的常模就是一個很大的資料庫，裡邊有很多人的測評分數，一個人可以拿自己的測評分數與資料庫中的分數進行比對，找到自己的位置，知道自己的得分是偏高還是偏低。這個過程就像測血壓：醫院有一個很多人的血壓常模，我們拿到自己的血壓不知道是高是低，跟醫院的常模比對後，就知道自己高血壓還是正常了。常模是需要根據人群變動的，正如男女老少的正常血壓範圍是有少許不同一樣，如下圖。中國人平均智商高於美國人，但是比美國人內向，因此同樣的一個分數在中國和美國的常模中位置是不一樣的。霍蘭德在美國有巨大資料庫，有常模，但是在中國缺乏資料庫，因此霍蘭德在中國雖然有效果但還是沒有在美國適用，需要進一步建立常模和修訂。

以下為中國人的平均正常血壓參考值：
年齡	收縮壓（男）	舒張壓（男）	收縮壓（女）	舒張壓（女）
16—20	115	73	110	70
21—25	115	73	110	71
26—30	115	75	112	73
31—35	117	76	114	74
36—40	120	80	116	77
41—45	124	81	122	78
46—50	128	82	128	79
51—55	134	84	134	80
56—60	137	84	139	82
61—65	148	86	145	83
註：以上統計為98年完成的，如今在人平均血壓有所增加。如果發現血壓高於正常值，則需要一個反覆測量和監測的過程，如果確定是患有高血壓，那麼就需要進行一次全面的體檢，確定病因並施以治療。

2信度

信度定義：工具的穩定性和可重複性。意思是同一個測評在測同一個東西的時候差別較小。信度衡量方法：（1）重測信度：重複測試的信度（2）內部一致性信度：測評內部所有題目之間是否測的是同一個主題。（3）評分者信度：所有評分者之間對同一個問題的評價是否相同信度指標區間：0-1分區間，0.8以上算優，0.6-0.8良好，0.4-0.6一般，0.4以下不靠譜。以斯特朗量表為例，重測信度大多大於0.8，因此量表具有非常好的信度。重測下圖第3列是重測信度數據。

影響信度因素：Ⅰ、測量長度：量表長度越長，題數越多，信度越好。（但並不能夠因為這樣就無限延長量表長度，因為量表過長答題的人會失去耐心。因此在長度和信度之間找到平衡是很重要的）Ⅱ、重複測量的時間間隔：兩次測量如果間隔越長信度越低，時間超過1年會顯著降低信度。但是測量間隔過短容可能產生練習效應或受測者還記得題目，並不能反映真實的信度。常用的測量間隔約為：2周到1個月。

3效度

效度定義：效度是指最終測得心理特徵與期望測量的心理特徵之間符合的程度，是指一個心理測驗的準確性。效度衡量標準有3個：（1）內容效度又稱邏輯效度，是指項目對欲測的內容或行為範圍取樣的適當程度，即測量內容的適當性和相符性。比如：測智商問喜不喜歡跟人交往，就是缺乏內容效度。（2）結構效度：一個量表能不能測到他聲稱的理論結構。比如說霍蘭德這個量表是不是真的能測到六個維度，6個維度之間的順序是否是RAISEC，間隔是否是相等？這就需要一些統計的工作來檢驗了。這是台灣學者做的霍蘭德結構效度的檢驗。圖上面有六個點分別是IRASEC,跟霍蘭德的代碼一樣，六個點的順序也與霍蘭德的理論相符。但是六點的位置和霍蘭德的理論是不太一樣的。霍蘭德認為這六個點應該是平均分布在圓周上的。但是通過統計分析發現:IR離的比較近（與大學理工科相對應）、AS比較近（與大學文、社科相對應）、EC離的比較近（與大學法商類相對應），而IR和另外ASEC之間相隔比較遠（對應到高中的話，與文理課的區分相近）。這樣的統計驗證說明霍蘭德這個量表有一定的結構效度，但並不是那麼完美，因為他之間的距離跟他理論想像的距離是不一樣的。這可能是理論的問題也可能是量表的問題，需要進一步研究和修訂。

（參考文獻：區雅倫, 翁儷禎, & 李庚林. (2012). 台灣高中生的生涯興趣結構分析—以大考中心興趣量表為例. 教育心理學報, 44(1).）

（3）效標效度：就是考查測驗分數與效標的關係，看測驗是否能準確預測行為。例如，自己做的量表和標準量表作對比，就是一種檢驗校標效度的方法。比如一個人新編了一個智力量表，但這個新量表測的準不準，得拿它跟最經典的比內-西蒙智力量表的測量結果做一個對照，看他們測的是不是一樣的。假如比內西蒙的量表測出來一個人智力是110，新量表測出來是108，那證明這個量表效度還不錯；但如果測出來是80，差的太大，就可能這個量表的效度不是很好。這種情況下比奈西蒙的標準量表就是校標。校標可以是量表，也可以是其他的指標，比如斯特朗量表用職業來做校標來看自己效度是否好。

上表為Realistic（霍蘭德的R型，實際型）與各種職業的相關性。比如第一個做Engineer(工程師)的概率達到0.7，與理論相符，說明這個量表的效度比較好。

Enterprising（霍蘭德的E型，企業型）做銷售的達到0.93.。與理論相符。

可能有人問會不會有時是特別有效度，但是沒有信度？那是不可能的。一個東西必須先有信度才能有效度。信度是效度的必要不充分條件。信度係數的平方根是效度係數的最高限度。用下圖可以表示信度和效度的關係。圖1是既有信度也有效度的，圖2是沒有新都也沒有效度的，圖3是只有信度但是沒有效度的情況。

小結提問

問：如果一個人對某個測評非常了解的話，這個測評他自己測出來還准嗎？答：這要看他能不能把自己抽離出來，如果他不能把自己抽離出來，他可能會測成他想像中那個樣子和他期待的那個樣子，但是能抽出來看真實的情況來作答的話那就是準的。測評其實分成兩種，有一種測評叫做最高行為測驗。就像智力測驗或者高考這樣，就是你怎麼做假，都有一個最高的一個極限，這種測評是比較難作假的。所以現在人力資源裡面的人才測評很多都是這種測驗。測的是你的認知能力和問題解決能力，這種測評是比較難作假的。還有一種典型行為測評，像人格測評，它是測平時一個典型的行為。問：剛才台灣研究的結構效度的橫縱坐標是什麼含義呢？答：橫縱坐標是通過統計學方法自己抽出來的，就有點像因素分析，就是他通過整理分析出來的一個坐標而不是預先設定好的。

三、生涯諮詢中的測評工具介紹

1心理測評在生涯諮詢中的作用

心理測評在生涯諮詢中的作用主要有：（1）開發新的生涯願景（願景對更高級的職業人士比較有用）（2）發現新的興趣（3）確認舊的興趣（4）診斷生涯選擇的衝突或者問題（5）引發新的探索行為（6）建立認知結構以評估生涯選項這個要特別說明一下，比如很多人對自己做什麼職業沒有概念，對職業世界也沒有概念。但是通過做霍蘭德測評，他就會了解到原來一個人的興趣可以分成六大類，職業世界也可以分成六大類，他們之間有一個匹配關係，就可以建立這樣一個概念體系。這個六大類就是一個認知結構。MBTI的四維度也是一種認知結構。（7）提高來詢者對專業的信賴

2測評的類型

圖選自金樹人老師《生涯諮詢與輔導》，p. 239

測評都是要看人的行為表現的，刺激是指測評中引發行為反應東西。比如測評的問題。再比如生涯工具箱，刺激是這些卡片，反應是把卡片分4類，來識別你心理的特徵。四類解釋如下：（1）刺激清晰、反應清晰：每道題的文字表述都是固定的，反應也是清晰明確的，如「是」、「否」、五點評分等。這類是上文中屬於心理測評和職業生涯規劃領域應用兩個圈交集的那部分測評工具。其他三項都是大圓之外的部分（2）刺激清晰、反應模糊：比如結構性面談，諮詢師可以把問題一條一條清晰地列出來，但是來訪者的回答是不確定的，隨機的。（3）刺激模糊、反應清晰：職業選項問題，問題是你可以列出所有可能的職業選項，並回答問題。問題比較模糊，但是回答的內容是在給定的選項中進行選擇，很清晰。（4）刺激模糊、反應模糊：比如羅夏墨跡測驗，給你一張模糊的圖，讓你說看到了什麼；或者是畫生命線和家譜圖。這種評估形式的好處是給來詢者一個很大的空間來表達自己的問題，有些問題會呈現出來，甚至能在談話中一定程度的解決決。在很多書里會將這四類中的第1類（刺激清晰、反應清晰）稱作正式評估，其他三類稱作非正式評估。這裡要特別說明的是「非」正式並不代表「不」正式，它是可以做的很正式，而且很有效的。

3測評使用方法

職業測評的使用流程（1）測評前的準備：學習測評的基本內容自己做一遍（2）與來詢者共同選擇測評①確定測評的目標②介紹不同的測評③討論是否需要和需要哪個測評（3）測評的解釋過程① 詢問來詢者的施測感受比如：你問他測評後感受，他說：測評不靠譜，就憑這幾個問題就能幫我確認職業嗎？我不信。如果這樣，就得和他重新確定下測評的目的，還有測評的作用和限制。你就不能直接給他解釋結果，因為解釋結果他也是不會相信的。② 解釋總體的分數③ 解釋每個維度的分數，並作比較④ 跟來訪者討論得分的意義⑤ 明確下一步的行動方向以上是比較經典的在職業生涯規劃中適用測評的過程和方法，以下介紹一些測評解釋過程中的原則和注意事項：①引導來詢者參與解釋過程②少用測驗術語③不絕對化測評是個參考④保持中立、不評價測評出來的是沒有好壞之分的⑤謹慎解釋負面分數⑥參考來詢者的背景：最早期的職業規劃認為人通過霍蘭德代碼可以直接找到工作，匹配。但是在中國會非常吃力，他有他的家庭、同學、同事、朋友，每個人有不同的背景，解釋過程中需要參考這些背景，不能孤立的解釋測評的結果。⑦讓來詢者的經驗說話其中第①⑥⑦條內容都是結合了後現代思路的解釋原則，聽起來很有道理，但是不容易操作，因此將給大家發一個結構訪談的資料，大家按照上邊的結構性問題，就可以實現這些原則。這個結構性訪談的名稱叫做整合性結構式訪談，意思是將傳統的量化的測評解釋方法和後現代的質性的測評解釋思路相整合的一種訪談方法。這種訪談看起來是提問，但其實也起到了解釋測評的作用。以下將用一個現場的DEMO做個示範，讓大家有一個直觀的感覺。經典傳統的解釋方式VS結構訪談方式：經典傳統的解釋方式：諮詢師：能說下你的霍蘭德代碼嗎？來訪者：ISE 第一位一直是I，後兩位順序經常會變化，ISE或者IES。諮詢師：對每個字母的解釋聽完解釋之後有什麼感受呢？職業介紹……不知道這些職業推薦你覺得如何……你對諮詢挺有興趣……制定一個行動計劃……結構訪談方式：諮詢師：對每個字母的解釋你對這些代碼怎麼看，你說後兩位順序經常會變化，如果你排序你會怎麼做呢？來訪者：我平時對這些……比較感興趣（對每個字母的解讀）諮詢師：這些代碼在你生活中的體現？你現在的職業中各個字母的佔比大概多少？反應在哪些方面？來訪者：解釋……諮詢師：哪些部分滿意，哪些不滿意？這些滿意和不滿意和代碼有什麼關係呢？來訪者：……諮詢師：你對問題的看法，對未來的期待，來訪者：……這個訪談是給予霍蘭德的，但是這種方式也可以靈活運用到MBTI上。

QA&

1.MBTI 和霍蘭德有相關性嗎？在進行諮詢過程中MBTI職業性格與霍蘭德職業興趣可以共同使用嗎?答：MBTI和霍蘭德是有相關性的，比如霍德蘭里的Date（事務）、 Idea（思維）維度與MBTI中的S（感覺）、 N （直覺）維度，有類似性；需要注意的是它們僅僅是相關。它們是可以共同使用的，因為並不完全一樣，功能可能會互補。如：通過MBTI可以看出測評者做決定的風格，比如說一個代碼為「P」的測評者，可能會收集很多很多信息才能做決定；一個代碼「J」的測評者很快就可以做決定，可以根據測評者的決策風格來做不同的指導。

2.有些測試的時候被測試者面對問題很糾結，自己也不清楚選擇的是真實的自己還是希望的自己，遇到這種情況該如何處理，如何更客觀的做出選擇？答：客觀的做出選擇，不是一個測評能達到的目的，測評的目的是評估和了解。多數測評都是自我評價，一定會有一些主觀成分，測評的結果會受到自我認識的影響，人對自己認識越清晰，做測評的結果越准。如果沒有對自我的探索，所做的測評結果也是不準的。更多的；所以諮詢師要做的是跟來訪者一起反思和澄清，促進自我探索和了解，並且鼓勵他去行動讓，他自己探索以後就會有更客觀的認識。

3.流程三問 1.諮詢收納表給來訪者後，我郵件讓他做一個霍蘭德。那麼在郵件正文中，我需要按流程說明一下這個目的嗎？2.來詢者在見面前把結果發郵件給我了，那麼正式見面諮詢的時候，是否要當面給他解讀這個結果？3.九型人格是不是正規的科學的是不是屬於「心理測評」？答：1.測評目的和流程需要說明。需要說明為什麼選擇霍蘭德測評，霍蘭德所測的方向是什麼，我們用霍蘭德測試的目的是什麼2.關於解讀測評結果，根據諮詢過程的需要，如果來訪者說，測評做完了感覺挺準的，然後問題沒了，這裡就不需要解讀他們結果。如果來訪者說對測評有些疑問，這裡就需要解讀測評結果。關於是否需要解讀，需要與來訪者共同商議；3.九型人格測評形式上屬於心理測評（他的問卷刺激清晰，反應清晰，有量化的結果，這些都符合心理測評的基本的特徵），並且也有實用的效果，但是目前沒有太多的信效度證據表明他是正式的科學的嚴謹的。不過這不代表它未來不能是。可能隨著數據的累積和修訂，它就慢慢的越來越好，只是現階段還沒有那麼完善並不是那麼科學嚴謹。MBTI與九型不同的地方在於，他有一些研究和數據的支持，因此可以說比九型更科學一些。

推薦圖書