關於「變數」你必須知道的那些事

在上一篇文章里 (刀熊說說:什麼是好的研究假設(Hypothesis)?--順談與自變數、因變數的關係)我們說明了一個好的研究假設需要具備以下特點:

  • 介紹清楚自變數、因變數是誰
  • 介紹清楚自變數與因變數的關係
  • 假設是可測量的

我們還介紹了自變數和因變數的本質以及區別:

  • 自變數(independent variable) 用於引起、解釋、預測因變數
  • 因變數(dependent variable) 是一個研究中被引起、被解釋、被預測的東西

那到底什麼是變數?關於變數你必須知道哪些基本知識?變數從measurement等級上分類又都有哪些呢?---此篇我們退後一步,重新審視一下關於變數那些不得不說的事兒。

插曲一枚:一說起變數我就想起當年剛到美國讀書的時候那讓人羞澀的一幕。第一次見導師, 她讓我在她辦公室坐下就開始了解我的知識基礎,以考慮把我分到她的哪個項目。她第一個問題就是你知道什麼是dependent variable嗎?我搖頭。她說你知道什麼是variable嗎?我又搖頭。她於是拿出一張紙來開始給我畫圖,大概就是我們在上一篇文章里畫的變數關係圖,一邊畫一邊說,IV就是這個,DV就是這個,我當時張大了嘴使勁琢磨到底她在說什麼----那大概是我到美國的第五天,別說IV和DV了,我的整個世界都在眩暈之中,聽誰說話都在想為什麼沒配中文字幕。她解釋了一會發現我還是沒反應, 於是就寫了一個方程式,Y=ax+b, 說,Y就是dependent variable----我於是恍然大悟,啊,太好了,原來我在美國並沒有變成白痴....五年之後我畢業的時候,我跟導師聊天說,你還記不記得我第一次跟你見面,你問我知不知道什麼是variable? 她大概是想起了我當時傻乎乎的樣子又不忍心嘲笑我,哈哈地笑著說,look how far you』ve come. (這個故事告訴我們:見導師前要弄清楚什麼是變數。 )

  1. 什麼是變數(variable)?

變數是一個研究中的主角和焦點。在一個研究中,研究者試圖講清一個故事,這個故事需要時以前的學者沒講過的,這個故事又需要是大家感興趣和關注的,這個故事還需要是有理有據的。

講誰的故事呢?就是講變數的故事。如果我們看「變數」的英文名-----variable, 意思是「可以變化的」,對,變數的本質就是「具有可變化特徵的因素」 (A variable is any factor that takes on a varying characteristic, Schwester, 2015 )或者,是「對某個一特徵的測量」(A variable is an empirical measurement of characteristics, Babbie, 2013)

這就好比這世界上的知識本來是零零碎碎的散落在各處,就像一個扔滿各種東西的雜亂房間,有了變數之後呢就好像我們有了整理箱和抽屜,我們可以把各種東西分門別類放在各個抽屜里里:衣服放在一個抽屜里, 襪子放在一個抽屜里,筆記本放在一個抽屜 ….如果我們在抽屜貼上標籤,這個標籤就相當於「變數名」, 一看這個變數名,我們就知道,這個抽屜里裝的襪子,那個抽屜里裝的筆記本..等等。

所以變數就是一個抽屜,一個裝東西的盒子,是研究者為了把散落在世界上的知識整理成系統、抽象成模型、概括成理論而使用的整理箱。有了變數人就省事了,研究者和研究者溝通就容易了,我告訴你誰是我的因變數誰是我的自變數,你就很容易的知道我的研究要考察什麼關係。變數讓我們可以實現數理統計的分析,對現實世界的現象找出規律。

2. 什麼是變數值(variable value)?

變數值呢,就是一個變數所描述的特徵或者數量。一個變數總是對應著多於一個value(因為只對應一個value的叫constant嘛, 常數)。

比如,「性別」這個變數,對應的value有兩個,男性和女性,這個人的性別有可能是男也有可能是女,就這麼兩個value。

再比如,「大學生的年級」這個變數,對應的常見value有四個:大一、大二、大三、大四

所以, 你會發現變數和變數值的關係是這樣的:

  • 「value」(值)就是「variable」(變數)的特徵;
  • 「variable」(變數)是「value」(值)所描述的對象。

以下是一些常見的 「variable」 和它們對應的 」value」, 你看看是不是都是這樣,變數值都是用來描述變數的特徵;變數名是變數值得描述對象:

分清variable和value這事兒特別重要,好多相關的知識都要以此為基礎,比如後續要講的measurement(測量), 如何做descriptive statistics (描述性統計), 如何做correlation and regression analysis (相關性和回歸性分析)等等。

再來看看,下面這幾個東西,你能不能分清他們是變數還是變數值,分得清的話,這一條導演就喊過了。

  • 「非常同意」、「比較同意」
  • 「地區」
  • 「天主教」
  • 「57歲」
  • 「嚴格執行」
  • 「漢族」
  • 「河北省」

3. 什麼是」nominal, ordinal, interval, ratio variable」?

今日重點來了。

接下來我們來說變數可以分為哪幾類。變數按不同性質分有不同的方法,比如可以分成自變數、因變數、控制變數—這是按它們的作用。但是這裡我們要說另一個維度的劃分: 按level of measurement (測量的等級)來劃分。

所謂「測量的等級」,在這裡可以簡單理解成這個變數的value在多大程度上可以被精準地量化。

舉個例子,不同的詞語的表達準確度是不同的,在日常生活里,我們說的每句話,如果仔細去區分,也都有不同等級的可量化性。比如以下幾句:

  • 我下周就把報告交給你。
  • 我下周二把計劃交給你。
  • 我下周二下午把計劃交給你。
  • 我下周二下午五點去把計劃交給你。

很顯然最後一句的可量化程度是最高的,因為它最精準, 信息也最豐富。

然而在研究中,我並不一定總需要可量化程度那麼高的數據 ---比如我如果調查了10000個人力資源經理的年齡和他們工資的關係,我可能只需要知道他們是哪一年生的,不需要具體知道他們是哪個月哪個日子生的。雖然這會致使1970年1月1日和1970年6月1日出生的兩個人被標為一樣的年齡(48歲),但是對我來說這個精準度可能就足夠了。

於是按照變數的可量化程度,我們通常把變數們分為以下幾類(越往後,其可以被精準量化的程度就越高):

  • Nominal variable (名義變數): 這類變數的value都是一些沒辦法排序也沒辦法定量的東西,比如以下這些變數: 「性別」, 「宗教」,「民族「,」專業「, 「出生地」,「國籍「。 這類變數的value一般都不是數字,如果是數字,那也不代表著什麼數字本身的含義。比如「籃球運動員號」這個變數,雖然有的球員是「29」號,有的是「40」號,這只是為了區分開彼此的「ID」 而已,它不代表29號球員就比40號小或者能力差,也沒什麼其他的含義。
  • Ordinal variable (有序變數): 這類變數的value可以按照一定邏輯進行排序,從低往高排,或者從高往低排。比如 「一道題困難的程度」(變數值 =不困難,還行,挺困難),「你對某陳述句的同意程度」(變數值=非常不同意,不同意,中立,同意,非常同意), 「學生的年級」(變數值=一年級,二年級,三年級)-------這些變數的value內容就更豐富了,你看,對於一個normal variable來說,你只能知道它的變數值是什麼,不能知道變數值之間的任何關係;而對於ordinal variable來說,你已經可以知道它的各個value之間的高低排序了。
  • Interval variable (定距型變數): 這類變數的value不僅可以排序,而且每個value之間的數值差(interval) 還是有意義的。比如「華氏度」(Fehrenheit)這個變數,(變數值=1度,2度,3度….) 1度與3度之間差了兩度,與2度與4度 之間差的溫度相同。---反過來看ordinal variable就不具有這個能力了,你說不出「非常不同意」與「不同意」之間的差距是多少,也無法說出這個差距和「同意」與「非常同意」之間的差距是不是一般大,你只能說明他們兩個之間在程度上的排序誰強誰弱。再比如說 「幾點鐘」這個變數也是interval的(value =1pm, 2pm, 3pm…),1點和2點之間的差距是有意義的,就是一個小時,這跟2點和3點,3點和4 點之間差的一小時是一樣的。
  • Ratio variable (定比型變數): 擁有最高級別的可定量化能力,可以做的分析種類最,多它的value不僅兼具以上三種變數的全部功能,而且它的「零點」是真的有意義的,是指真的為0。生活里好多這種變數,比如,「年齡」,「學生數量」,「工資」-----0年就是0歲,0個學生就是沒有學生,0元就是沒有工資----這些都有實際意義。再看上面的interval variable----0華氏度,不代表沒有溫度,只是說溫度是0這個刻度;而「零點鐘」也不代表沒有時間,只是代表當時時間的標度是0這個時刻。

總結以上的分類,有兩張圖送給大家。

Source from online

上面的圖解釋了圖裡越往上的變數種類越厲害----因為信息量大,可量化,精準。

下圖展示了如何區分四種變數的一個方法

  • 對於nominal variable: 它們的變數值只能用「相等」或「不等」來表示;
  • 對於ordinal variable: 它們的變數值之間可以用「大於」或「小於」的關係來表示;
  • 對於Interval variable: 它們的變數值之間可以「加減」;
  • 對於ratio variable: 它們的變數值之間可以「乘除」.

Babbie, 2013

OK, 變數和變數值的日常就先講完了,長舒一口氣。

那你可能會問我們為什麼費這麼大勁兒一定要分清變數和值、以及這些變數的不同測量等級呢?

我先不說你猜猜看呢? :)

-----------------------------------------------------------------

References:

  • Babbie, E. R. (2013). The basics of social research. Cengage Learning.
  • Schwester, R. W. (Ed.). (2015). Teaching research methods in public administration. IGI Global.

推薦閱讀:

北京通勤時間有多長?
我學新聞傳播,最近看傳播學定量和定性研究方法,沒搞明白。有沒有人替我解釋下這兩個區別(最好結合例子)?
如何培養一個興趣愛好並能夠保持深入研究?
能否具體介紹一下病例對照研究,隊列研究和橫斷面研究?
先記單詞書,還是直接從試題中積累單詞來記憶,哪個更科學更好?

TAG:社会科学 | 研究方法 | 定量研究 |