為什麼智商測試可以檢測智力？

01-03

有個重要的概念前面幾位朋友都沒提及：操作性定義。

任何心理學研究，都要確定研究對象的操作性定義。比如研究攻擊性，就要說明你認為攻擊性的行為到底是什麼？是一個憤怒的表情、是一個肢體上的動作又或是造成了某些實際傷害？

為什麼智商測試可以檢測智力？因為在這之前他們對智力做了操作性定義。

如果要問為什麼事物是可以被測量的。那應該就進入了哲學領域。

從某一種角度看，一個東西再被你明確定義和認識之前，它的存在是不明確的。學科就是不斷地命名，並且搭建出事物之間聯繫的理論。如果它能夠有效的預測和控制現象，我們就認為它正確。

如果我們認為智力是執行某種行為的主要因素。那麼如果一套測驗得分高的人，也應該能夠做好某行為，這樣這一套測驗就有效。可以稱作預測效度。（如果我沒記錯，我測量和統計很渣……）

這個問題可以寫半本書了……

避開娛樂性質的「智商測驗」不談，我們先看看什麼叫做智力。

作為一個心理學範疇的概念，智力的操作性定義真是讓人有點啼笑皆非了——智力就是智力測驗測出來的東東。神馬？用概念來解釋概念嗎？這個是心理學領域的老毛病了，各家各派對於人的心理品質的各個方面並沒有統一的口徑，像是常見的心理學名詞，如個性、情感、性格，當然也包括智力，描述性的定義可謂五花八門，表達了不同流派的不同認識和觀點。而所謂操作性定義，從本質上說是研究變數的操作程序和測量指標。智力的操作性定義也就是怎樣通過可以觀察、測量，也就是可操作的手段研究智力。這麼來回答題目的問題就是，智商測試就是用來測量智商的，所以它可以檢測智商。汗……

因為智力的定義不同，所以實際上，不同的智力測驗測出的東西也不盡相同。再回到問題上，為什麼智力測驗可以檢測智商，也就是問到了智力測驗的信度和效度。

信度：即一致性。多次測量同一特質的結果一致程度。比如用同一把尺量同一個人的身高，今天量是160cm明天量是170cm後天又變成150cm我們可以判斷這把尺不準，也就是缺乏信度。

效度：即有效性。測驗能否測量所要測量特質的程度，也就是說能不能達到測驗的目的。比如說用一把尺去量體重，顯然是沒有用的，也就是缺乏效度。

對於智力測驗來說還有一個重要的指標就是項目分析，保證各個題目具有一定的區分度和難度。

造就一個合格的智力測驗，首先要根據理論確定智力的維度或組成，然後據此篩選題目，進行試測，試測時獲得各項數據進行統計上的分析，得到關於信度、效度和區分度等的數據，並據此對題目進行調整，刪減或者添加，尼瑪太多我說不清楚了，總之運用各種統計手段從而確保測驗的穩定性與可靠性。

因為智商是智商測試測出來的。

===========================

智商和智力之間沒有決定性的聯繫。比如說A智商100，B智商101，不能據此認為B的智力比A高，但是可以說B的智商比A高。同一個人做兩遍智商測試（或兩個不同的智商測試），得到不同的結果，不能說他的智力改變了，但是可以說他的智商升高/降低了。因此智商只是以測試智力為目的的智商測試測得的數值而已。

說」智商是智力測驗檢測出來的」大概有些由果及因了。

量表都有其理論，設定一些」可描述」」可測量」的量化變數，藉以體現其研究對象一一不可測量的某心理變數的一個維度。

智力測驗有很多種，每一大種背後都有其自身的智力理論作支撐，把」智力」分成不同的維度以不同的變數分別進行描述。

智力測驗量表根據這些理論針對不同變數設計一系列能夠反映變數水平的問題，同時儘力保證一個問卷的內部一致性，通過係數校正各變數間的權重，等等等等。這部分可參考@Vienne Tse 的回答。

量表並不是一旦設計出就可以使用了，一個個體分數不依託其所在群體分數水平而解讀，其意義不大。因此，大量投入使用前，使用者需要對他打算應用的目標人群廣泛測量制定常模一一其實就是決定」線劃在哪裡」的過程，拿智力測量舉例就是，得分在多少是正常、多少是偏低、多少是弱智、多少是超常。脫離常模的量表是無意義的，許多網路心理測試就是，啊信效度什麼的……就不想了吧。

施測環境也需標準化。空間，溫度，光照，安靜程度等等，情緒和環境都能影響個體能力水平，因此要讓被試感到舒適，不被干擾。

綜上，先有理論，然後設計，再行檢驗，制定常模，最後予應用評分標準化，心理學家相信，它能反映我們的智力水平。

一般智商測試都是娛樂性質的。正規的智商測評資料一般可以叫做智商量表或是智商測驗，也有直接叫智商測評表的。要看可信與否：

1 是否是著名量表：如16PF、MMPI、SCL90等，這當然要專業的人才知道。

2 看其題量：信度和效度較好的量表一般題目數比較多，像網上一般只有1-3題的心理測試基本上是不可信的。至少要達到10題以上才可信，當然這也不絕對。

3 看其題項和評分標準：好的量表選項會比較多，而且會根據題目的類別從不同角度去評價一個人的某種心理特質。

4 最後看解釋是否清楚，正規：有些心理測試看看它解釋的話的語氣就知道是娛樂性比較強的，這個比較明顯。

————————————————————————大濕分割

在這個問題上，中國的情形似乎與書中所述美國情形還有相當大的差異。在美國，遇到入學、求職之類的事情，都可能面臨智商測試，所以五花八門的「智商培訓」之類的「班」在美國也很多。而在中國，起碼在入學、求職之類的事情上還不會遇到智商測試。當然在國內許多雜誌上，類似的測試其實也經常可見，不過那只是讓讀者做著玩玩的，不會當真影響實際的社會遭遇，所以在中國好像也還沒有見到「智商培訓」之類的玩意流行起來。

智商問題相當複雜，因為這裡牽涉到倫理道德問題，而且相當難以解決。例如，美國和其它一些國家，都曾經有過允許對白痴或智障患者進行絕育手術的法律，而納粹德國則變本加厲地推行這方面的法律和政策，「第二次世界大戰結束時，德國人在第三帝國的領土內對40萬人實施了強制絕育，……比其他所有國家完成的總數還多。」這種對智障者強制絕育的法律和政策，很容易引導到對智商測試本身的質疑：究竟憑什麼可以宣布一個人是智障呢？

這裡有兩個層次的問題。本來，即使智商測試真的是「客觀的」、「科學的」，應用時也必然帶來倫理道德問題（一些科幻作品中所憂慮的未來世界的「基因歧視」也有類似的倫理道德問題）；而一旦認識到智商測試本身就是不嚴謹不「科學」甚至頗有些「偽科學」色彩，那應用它時的倫理道德問題立刻就更為嚴重起來了。

———————————————————————大濕分割

自從智商測試發明以來，就不斷有人爭論它的靠譜性。它測試的是「智力」、綜合心理能力，還是像埃德溫?波林（Edwin Boring）所說的那樣，「做智商測試的能力」？無論答案如何，總是不斷有研究表明，智商測試得高分的人學習成績更高、工作表現更好、掙的錢更多、犯罪率更低，甚至壽命也更長。不管怎麼說，智商測試確實還「有點准」。

然而，賓夕法尼亞大學的安傑拉?李?達克沃思（Angela Lee Duckworth）發現，智商測試的作用被高估了。若將常常被忽略的動機因素考慮在內，那麼智商與命運的聯繫就顯得模糊不清了。簡單來說，有些人在做智商測試時會格外努力。如果將這個因素考慮在內，那麼智商與成功之間的聯繫就變弱了。它測試的不只是智力，還有證明自己智力的渴望。

許多標準化測試都假設人們在做測試時是積極而警覺的。因此，分數就反應了他們的能力。智商測試也是如此，問題按難度排列，以保持人們的士氣。智商測試的先驅者愛德華?桑代克（Edward Thorndike）寫道，「我們所有的測量方法都假定被測試者總是儘力答題，獲取儘可能高的分數」，儘管他也承認事實可能並不如此。

為了研究動機對智商測試有怎樣的影響，達克沃思檢閱了25項之前的研究，涉及到2008名志願者。她發現在做測試時如果有一定的物質激勵（例如錢和糖果），人們的平均分數就會更高，在超出平均智商的人群中尤其是這樣。這就表明，動機的確可以扭轉智商測試的結果。

之後，達克沃思研究了1987年接受智商測試的508名男孩的分數。這是匹茲堡青少年研究項目的一部分，研究者一直跟蹤研究了至少12年，直到這些男孩成年。像往常一樣，智商測試分數能夠預測他們最終的學術表現、受教育時間、就業率，以及犯罪狀況。

但除此之外還有別的。這些智商測試都是口頭進行的，測試的過程有錄像。達克沃思招募了三位獨立研究者尋找錄像中的低動機表現，例如拒絕參加測試、期待測試結束等。她的團隊發現，智商較低的男孩在測試中也更缺少動機，而動機水平也能預測他們的人生之路。考慮了動機的因素之後，智商與人生成功的聯繫就變弱了，尤其在就業率和犯罪率方面。

達克沃思說，「不能隨意誇大我們的結論。」智商測試仍舊能預測生活的其它方面，儘管動機因素削弱了它的功用，但並沒有完全否定它。關鍵是，智商超出平均的人會更努力、更堅持地做智商測試。達克沃思寫道，「這些發現暗示著在智商測試中獲得高分，需要同時具備較高的智力和動機。然而，低的智商分數可能只來自低智力或低動機其中之一。」

問題仍然在於我們太看重測試結果，把它當做天生能力和未來潛力的標誌。畢竟，動機會受到人們背景以及對未來選擇和成功機會信仰的影響。這也就部分解釋了為什麼不同性別、社會背景和國籍的人們智商測試得分會有差異。

如果你認為動機顯然會對智商測試產生影響，那麼你就跟俄克拉荷馬州立大學研究智力的科學家羅伯特?斯滕伯格（Robert Sternberg）不謀而合。他認為達克沃思的研究「很偉大」，但「除了一些研究智商測試的心理學家，幾乎人人都明白動機在學業和生活中起著強大的決定作用。例如，大多數僱主不僅想知道求職者的認知技能如何，還想知道他們的動機是否強烈。教師也知道若沒有擁有強大的動機，學生不可能成功挑戰困難的課程。」

達克沃思自己也承認，實施智商測試的人們會發現動機的作用。她說，「在我們看來，問題是經濟學家、社會學家，以及心理學家們在解讀智商分數時並沒有得到有關動機差異的第一手資料。他們可能會錯誤地假定低智商分數就一定代表著低智力。」

這種觀點很普遍嗎？斯滕伯格認為是這樣，他指出達克沃思的研究足夠新穎，能發表在頂尖雜誌《美國國家科學院院報》上。「這項研究表明，我們的社會真是太容易接受商業化的吸引，甚至願意為標準化測試買單，把它們當作能預測一切生活事件的萬靈藥。

「這項研究的諷刺之處在於，它證明測試實際上是有用的，但需要與動機結合起來。測試還間接測量了其它變數，例如教育質量、家庭社會化程度，以及家長是否能為孩子提供培養做測試能力的家庭環境。智商測試與其它測試一樣，是測試多種能力的綜合手段。它們不能單獨測量某種『智力』。

「最終，我們最好意識到，生活上的成功需要許多技巧，而現在使用的這些測試不過是一世紀前那些測試的微小修改版。（想像一下，如果醫學體檢還是一世紀前的樣子，那該有多可怕。）我們不應將自己限制在狹窄的標準化測試中，而是去尋找直接評估動機、創意、實踐能力、智慧，甚至道德的方法。如果真能這樣，我們的社會也許就能在經濟生產上達到新的台階，而全民幸福也就不再是空想了。」

———————————————————————大濕分割

http://www.33iq.com/mensaquiz.html 門薩測試

http://www.iqeq.com.cn/ 國際標準智商測試

首先，沒有智商（Intelligence quotient）測試，智力測驗(intellectual assessment)得出的分數叫做智商，其次，智力測驗顧名思義，設計這個測驗的目標就是測試智力水平，最後，能否測出一個人的智力水平，需要看這個測驗本身的質量。

最近在看娛樂致死，其中對於智力有一些比較有趣的說法。

書中提到了幾個概念。

首先是所謂的媒介即信息。

人們沒有直面週遭的事物，而是在不斷地和自己對話，他們把自己完全包裹在語言形式、藝術形象或宗教儀式中，以至於不藉助人工媒介他們就無法看見或者瞭解任何東西。

比如說鐘錶。這是一種機械，它的產品是分和秒，在製造分秒的時候，鐘錶把時間從人類的活動中分離開來，並且使人們相信時間是可以以精確的可計量的單位獨立存在的。分分秒秒的存在不是大自然的產物，也不是上帝的意圖，而是人類運用自己製造出來的機械和自己對話的結果。

再次是所謂的媒介即隱喻。

也就是一種通過把某一事物和其他事物做比較來揭示該事物實質的方法。通過這種強大的暗示力，我們腦中也形成了這樣一個概念，那就是要理解一個事物必須引入另外一個事物。

比如光的波粒二象性

我相信絕大多數關於光的理解頂了天也就如上所示或者與之類似。

然而這也不是光的本質，它不是紅的綠的發亮的，也不是一種粒子或者波。這些只是一些隱喻，為了理解這些隱喻的功能，我們應該考慮到信息的象徵方式、來源、數量、傳播速度以及信息所處的語境。例如鐘錶把時間再現為獨立而精確的順序，文字將光表述為粒子或者波。我們應該意識到我們創造的每一種工具，包括語言、文字、紙張、電視或者其他，都蘊涵著超越其自身的意義。

那麼我們對於大腦的理解除了來自某些工具所產生的隱喻之外，還有什麼途徑？我們說一個人有126的智商，又是怎麼回事？在人們的頭腦中並不存在數字，智力也沒有數量和體積，除非我們相信它有，那麼為什麼我們還要相信它有呢？這是因為我們擁有可以說明大腦情況的工具。

我們認識到的自然、智力、人類動機或思想，並不是它們的本來面目，而是它們在語言中的表現形式。我們的語言即媒介。我們的媒介即隱喻，我們的隱喻創造了我們的文化內容。

而後，共鳴是擴大化的隱喻，比如哈姆雷特代表了猶豫不決的憂思，愛麗絲的漫遊象徵無意義的語義世界中尋找秩序。任何一種媒介都有共鳴，不管一種媒介原來的語境是怎樣的，它都有能力越過這個語境並延伸到新的位置的語境中。由於它能夠引導我們組織思想和總結生活經歷，所以總是影響著我們的意識和不同的社會結構。它有時影響著我們對於真善美的看法，並且一直左右著我們理解真理和定義真理的方法。

在西部非洲的一個部落，他們沒有書面文字，但他們豐富的口述傳統促成了民法的誕生。如果出現糾紛，控訴人就會來到部落首領的面前陳述自己的不滿。由於沒有書面的法律可以遵循，首領的任務就是從他滿腦子的諺語和俗語中找到一句適合當時情形的話，並使控訴人雙方都滿意。這一切結束後，所有各方都會認為正義得到了伸張。

在口口相傳的文化中，諺語和俗語不是什麼偶一為之的手法，它們在生活中綿延不斷，它們構成思想自身的內容。沒有它們，任何引申的思想都不可能存在。

在以印刷物為主的法庭上，法律文書、案情摘要、引證和其他書面材料決定了尋求事實的方法，口述傳統失去了共鳴。人們更願意相信書面文字的真實性，尤其是印刷文字。而諺語和俗語被認為不適合解決法律糾紛。

任何講述事實的形式之所以重要，是因為其產生的影響發揮巨大的作用。

真理，和時間一樣，是人通過他自己發明的交流技術同自己進行對話的產物。

既然智力主要被定義成人掌握事物真理的一種能力，那麼一種文化的智力就決定於其重要交流方式的性質。在一個純粹口語的文化裡，智力常常同創造警句的能力相關。據說，所羅門知道3000條諺語。在一個印刷文字的社會裡，有這樣才能的人充其量被人看作是怪人，甚至是自大的討厭鬼。在一個純粹口語的社會裡，人們非常注重記憶力，由於沒有書面文字，人的大腦就必須發揮流動圖書館的作用。在印刷文字的文化裡，記住一首詩、一個菜單、一條法規或其他大多數東西只是為了有趣，而絕不會被看作是高智商的標誌。

讀一份印刷文字，比如書，首先，你應該相當長的一段時間保持不動，如果你做不到這一點，那麼在我們的文化裡你就會被認為是運動亢進或者不守紀律，至少是有什麼智力缺陷。你還必須學會書本上文字的形狀。你必須看穿它們，這樣你才能瞭解這些形狀所代表的意思。如果你僅僅專注於文字的形狀，那麼你就是一個讓人不能容忍的低效讀者，會被人當作傻子。你應該採取一種超然而客觀的狀態不受外觀的干擾去理解意義。你要接受一個抽象的世界，聰明就意味著我們可以不藉助圖畫可以從容應對一個充滿概念和歸納的世界。

在一個用鉛字表達真理的文化中，做到這一切或者更多，就構成了智力的基本定義。我們對於真理的看法和智力的定義隨著新舊媒介的更替發生了很大變化。

現在的智商測試亦不可避免的受到媒介的影響。對於印刷品，對於一些概念抽象成點連接成線編織成網理解世界的過程，關於電視網路的興起，關於圖片視頻的信息傳播，一直都影響著我們智商的評定。

至於現在智商測試所得的數字，一定程度上反映了對現有文化現實的接受理解能力和對現有媒介的適應力感受力和使用力。但並不認為和智力真正的相關。