在心理學實驗中,當最終實驗結果數據不顯著時,研究者們通常會怎麼做?
辛辛苦苦發出去收回來又錄入進電腦的問卷數據各種不顯著,這個情況大概經常會發生吧,研究者們通常會怎麼處理?
關於這個問題,個人覺得北師大鄭健的文章可謂我所讀到的最實誠且全面的回答了。作為一個(根據鄭健的標準)節操少於5分的同道者,我在這裡大言不慚地補充幾句,順便也試圖以更加中立的態度來回答這個問題。鄭健的文章告訴大家如何掉節操,我補充說一下如何把節操撿回來,免得不明真相的群眾以後見到心理學家就當做人販子群而毆之。
1.被試/數據
很多心理學研究者(尤其是許多不親自在第一線做實驗,或者只關心實驗的「科學標準」,忽略了實驗中也是在與人打交道這重要的一點,或者不做預實驗、不根據反饋調整實驗方案的所謂「心理學家」們)習慣於把被試當成是一堆孤立的刺激接受器和數據輸出器,忽略了(實際上有可能決定實驗成敗的)場景因素、主試因素、被試群體因素乃至時間因素,這也是許多研究出不了「顯著」結果的原因之一。刪除被試/數據只發生在幾種情況下:
(1)實驗中只測量了少數幾個重要因變數,而manipulation check的分析結果表明實驗操縱對該被試沒起到作用,因此果斷刪除(但注意不能因這個原因排除太多被試,盡量少於總被試數量的5%);
(2)通常問卷調查中會設置一些「陷阱」或「測謊題」,比如在自尊測量中混入以下問題:「我從小到大每次數學考試都得滿分」;如果被試的回答是「非常贊同」,那多半是在說謊,一旦說謊或自相矛盾的情況過多,這名被試就需要被剔除,因為我們有理由對其別的回答的真實性也表示質疑;
(3)除了刪除整個被試的全部數據外,有時我們會刪除一個被試的少部分數據,尤其是在一些有比較明確的參照標準的反應時研究中,當被試的反應時過短或過長時,該試次(trial)的數據會被剔除(具體剔除標準要看這個試次中假定含有多少心理過程,一個簡單反應通常不會超過2秒,但也幾乎不可能短於50毫秒),但同樣要注意,這一過程剔除的試次總數也不應占所有試次總數的很大比例,不然就說明你自己的研究有問題了;
(4)除非我們的目的就是希望了解大千世界中的無奇不有,想要探究行為的極限,不然心理學研究通常會排除異常值(outlier),而這包括了將樣本中的極端被試剔除(根據我們所關心的維度,剔除平均值以上或以下2個或3個標準差以外的被試),或者將單個被試所有試次中的極端值剔除。包括SPSS等喜聞樂見的統計軟體都擁有自動幫你找出極端值的選項。當然,從散點圖上找也是一種很直觀(但不夠精確)的方法。
最後的最後需要說明的是,只有當你剔除了被試或數據點而故意沒有在文章里說明時,這才是作弊行為;即使你的剔除做法是不恰當的,只要你一五一十地報告了,還是有坦白從寬的機會的。
關於偽造數據——這已經不是掉節操了。這是自欺欺人的最低境界。毫無疑問,在心理學領域,即使有最嚴格的同行評審,由於缺乏數據分享機制(部分源於對被試信息的必要保護),少量偽造數據是很難被覺察的。但是一旦偽造數據過多,露馬腳是遲早的事情。第一,偽造的東西,別人是無法複製出來的,這勢必阻礙你的學術影響力的傳播,且不說等你真的名氣大了,人們自會開始質疑你的研究的不可複製性;第二,很多偽造的數據不符合大數據的規律,在meta-analysis當中會表現欠佳,甚至會被明眼人看穿;第三,即使你自信做假做得天衣無縫,而且一點不問心有愧,那也請考慮一下一旦你事情曝光對於整個學界會造成什麼樣的影響——如果心理學研究都是不可信的,那麼政府和私人機構也就沒有動力投錢來資助這些研究,為了一個假貨,所有的同行都得跟著遭殃。
2 變數轉換/非參數檢驗
變數轉換的主要目的並不是獲得顯著的結果——實際上,如果你的假設是錯的而數據恰恰反映真實情況,那麼你怎麼轉換也不能得到想要的顯著結果。轉換後的數據有了顯著結果,只是說明你對數據形態的判斷很可能是正確的;不過,有時即使不做轉換,你還是可以通過別的檢驗方法獲得「等價」的結果,比如不依賴於數據形態的非參數檢驗(non-parametric test)。如果將依賴於數據形態(通常是正態分布)的參數檢驗用於實際上不符合假定的數據形態(正偏、負偏),研究結論犯第二類錯誤(明明有效應時卻誤以為沒效應)的概率會大大增加,統計檢驗力(power)被削弱得所剩無幾,此時得到不顯著的結果明顯是冤枉的。此時,變數轉換有助於使數據形態回歸正態。具體而言,Tabachnick和Fidell(2007)以及Howell(2007)分別建議,當數據偏離正態不太遠時,用平方根或立方根轉換,當數據偏離正態很遠時,用對數轉換;當數據正偏時,根據如下公式:x" = sqrt(x)或x" = lgx;當數據負偏時,先用C - x(C=max[x]+1)對數據進行反轉再進行平方根或對數轉換。 毫無疑問,變數轉換在學界不是沒有爭議,但以我之見,如果聰明正確地使用變數轉換,不僅不屬於作弊掉節操,而且反倒是應當鼓勵的,因為說不定經過轉換後的數據恰恰揭示了以前不為人知的重大發現呢。
在鄭健的文中指出了一條好思路——在分析結果時,為什麼要拘泥於一種統計方法呢?的確,很多時候「結果不顯著」只是「按照某種統計方法沒有得到顯著結果」。這常常也是由於許多統計方法本身依賴於正態分布的假定。因此,當你一沒有很大的樣本量,二沒有足夠「正」態的數據時,不妨試試非參數檢驗。典型的非參數檢驗包括卡方檢驗、Mann-Whitney檢驗、符號檢驗(代替獨立樣本t檢驗)、Kruskal-Wallis檢驗(代替ANOVA)等。但仍要注意,不同的檢驗仍然對數據類型有特定要求,畢竟,把性別當連續變數是不可能得到有意義的結果的,這時討論顯著不顯著本身就沒有意義。
非參數檢驗常常可以提高統計檢驗力,有效減少不顯著焦慮症。這裡不妨舉個高端點的栗子。在做中介效應(或者叫間接效應)的檢驗時,傳統的Sobel檢驗(作為一個基於正態分布的參數檢驗)常常得不到顯著的結果,原因是Sobel檢驗的數值是由兩個回歸係數ab相乘得到的(見Sobel, 1987),而在數學上乘積的分布常常是正偏態的。所以Sobel檢驗通常只有在面對超大樣本時才不需要擔心第二類錯誤。這個錯誤的正態假設限制了Sobel檢驗的統計檢驗力,導致很多本可以發表的文章因數據無法滿足一個不講理的假定而黯然被拒(而這客觀上為造假提供了動機)。然而,如今Sobel檢驗已經逐漸被新一代的bootstrap檢驗所代替(關於bootstrap在中介效應檢驗中的應用詳見Preacher Hayes, 2004, 2008;關於溫忠麟等文章中所提到的中介效應檢驗方法為什麼已經落伍了,也可參見Preacher Hayes, 2004; Zhao, Lynch, Chen, 2009)。Bootstrap是一個非參數方法。所謂bootstrap中介效應檢驗,簡而言之,就是從你所收集的樣本中,隨機抽取(放回抽樣)K個子樣本,用這K個子樣本分別計算ab的大小,並獲得其95%置信區間,如果該置信區間不包括0,則說明中介效應存在。這個方法目前已可通過Hayes所開發的macro在SPSS或SAS上實現,AMOS、Mplus等結構方程軟體也已容納了bootstrap功能。
3 從顯著性本身下手?
關於鄭健所提到的「對顯著性本身下手」,說實話我不是完全理解,也就更談不上贊同了。毫無疑問,統計學界對於是否要堅守p &< .05這個純粹人為的標準始終存在爭論,但大多數嚴肅的雜誌都對marginal significance這種說法是嗤之以鼻的,因為使用這種說法本身就是一種非科學、不專業的態度(退一步說,你可以選擇一個標準,管它是.05還是.01還是.08,但你至少要在一篇文章當中堅持到底,而不能樹立好幾個標準然後專挑合乎你的利益的標準說),所以絕對不能接受的做法是,當你需要它顯著時,就接受p&<.08,當你希望它不顯著時,則又拒絕.05&對於不顯著的交互作用或多組比較,一般是不會去看事後檢驗的(通常這種情況下事後檢驗也不會顯著,但極少數情況下,可能會有交互作用接近顯著,而事後檢驗顯著的,此時你需要考慮的是,是不是因為你樣本量太小導致統計檢驗力不足,導致本該顯著的結果變成了不顯著,倘若是這樣,不嫌麻煩的話多收些數據就會順利達到顯著了)。
使用多種統計方法檢驗同一數據是可行的,而且未必是作弊。但正如前面提到的,不同統計方法對於數據類型有要求。而且,當你把連續變數拆分成分類變數時,通常會損失很多信息(和被試),此時你的統計檢驗力本身就會下降,除非你所取的兩端數據(比如只取低於或高於均值一個標準差以上的數據)差別足夠大,不然這樣做不僅要冒著被批判的風險,還不一定能得到想要的顯著結果。
多個因變數是否能提高獲得顯著結果的概率呢?還真的能。但是,這是因為對同一組數據同時檢驗很多假設時很容易提高第一類錯誤(實際上沒有效應而誤以為產生了效應)的可能性,即所謂的familywise error rate(FWER)。假如你對一組數據提出100個假設,即使每個假設都極其不靠譜,至少有1個顯著的概率仍是高得嚇人的。為了抵消這種第一類錯誤的來源,一種標準的處理方法(Bonferroni correction,參見wikipedia上的Bonferroni correction)是將α值除以假設檢驗的數量(比如,在鄭健的例子中,如果使用積極、消極、積極減消極三種因變數,應該使用α=.05/3=.017的標準,而不是α=.05)。當然,如果你不打算報告「積極」、「消極」,而只打算報告「積極減消極」作為因變數的結果,那也不妨假設你只做了一個檢驗,而恰巧就顯著了(這已經夠掉節操的了),但如果你需要對你的第一個實驗做概念重複,那你每次都得報告同一個因變數。如果後續實驗中「積極減消極」這個因變數不顯著了而別的因變數顯著了,你就陷入了深深的矛盾當中——如果你用實驗一的結果,實驗二就不得用;如果用實驗二的結果,實驗一就不得用。所以,如果你想讓一堆不靠譜的假設變得顯著,請不要高興得太早了。
根據鄭健的說法,似乎得到顯著的中介效應是件頗容易的事情。的確,如果不在意理論的嚴謹性,而且問卷中的變數夠多,找出潛在的中介效應並不難。但這並不意味著這些中介效應就值得做成一篇好文章。畢竟,將一個變數界定成中介變數,需要有一個能站得住腳的理由。另外,有許多不明真相的同學誤以為三個變數兩兩相關顯著就一定能做出顯著的中介效應了。可是,當自變數x與中介變數m的相關,m與因變數y的相關,以及x與y的相關都是正的時候,中介效應甚至有可能是負值(與假設完全相反),這是因為x與m的高相關性導致x與y的關係對中介效應造成了「net suppression"(見Zhao, Lynch, Chen, 2009)。此外,按照溫忠麟等(2004)的程序,實際上也就是按照最經典的中介效應分析程序,存在很多已經被後來的研究者指正的漏洞(比如,在沒有m作為中介變數時y對x的回歸係數顯著但並不很大,而在加入m時變得不顯著但也並不很小,此時不一定有中介效應;而即使y對x的回歸係數在沒有m時也不顯著,也不說明中介效應不可能存在
,比如,有可能存在一正一負兩個中介效應互相抵消,導致y對x的回歸係數不顯著)。正如我前面說的,經典的中介效應檢驗(Baron Kenny, 1986)甚至Sobel檢驗的時代都已經過去了,如果你真的很想得到顯著的結果,不妨嘗試用bootstrap,畢竟這個方法能夠有效提高統計檢驗力,從而讓確實有效應的結果變得顯著。有興趣的讀者請詳閱Preacher and Hayes (2004)。4 有什麼情況下我們一定希望不顯著?
期望p越大越好?這種情況不僅存在,而且還挺多,下面只舉兩個最普遍的例子。在察看結構方程模型(SEM)的擬合度指標時,我們希望卡方值不顯著,因為這表明我們構建的模型符合我們的數據(否則我們就得對模型做修正)。但是,卡方值受到樣本量的影響——實際上代表擬合指標的卡方值的計算公式中本身就含有N或者N-1,如此一來,當樣本量足夠大時,由模型計算得到的再生矩陣與從觀察數據獲得的協方差矩陣之間任何細小的差異都足以導致一個顯著的卡方值,讓人誤以為模型不符合數據。為此,顯然很有必要參照其它不受樣本量影響的擬合指標,比如NNFI(最好大於.95),CFI(最好大於.95),RMSEA(最好&<.05)等等。在實驗領域常用的分離範式(不僅僅用於心理學),常常會希望某一組的結果不顯著而另一組顯著。比如,假設是某藥物能提高一個人的短時記憶(而不是普遍認知能力),那麼以藥物條件(使用該藥物,或安慰劑)作為自變數,同時以一個短時記憶任務和一個不涉及短時記憶的認知推理任務作為因變數,對於前一個因變數我們期望得到顯著結果,而後一個我們期望得到不顯著的結果,不然我們就無法知曉這種藥物的實際作用了。如果採用更嚴格的雙分離範式,則需要檢驗A treatment對X有用而對Y沒有用,而B treatment對Y有用而對X沒有用。
5 在心理學研究中跌打滾爬多年的幾點忠告
(1)Don"t get too cute. 對於不規範的剔數據方式、偶爾報告些」邊緣顯著「、賣弄偶然發現的中介效應,這些賣賣萌可以,但是想殺入頂尖期刊,靠這些小伎倆就差之遠矣。(2)Be honest, at least with yourself. 不顯著的結果,不值得你賭上整個學術生涯去造假。更何況大多數人的造假水準實在有限,如果你覺得自己不夠聰明只好靠作弊來獲得顯著結果,請趁早遠離心理學這個坑。(3)Don"t be greedy. 顯著不顯著乃統計家之常事,雖然發表的結果中95%都是顯著的,但至少有一半的文章中因含有不顯著的結果而靜悄悄地躺在教授的抽屜里,更多的實驗結果甚至都沒寫成文章,就被拋棄了。如果你嘗試了除了數據造假以外的一切手段仍然沒有得到顯著結果,那麼你至少可以這樣想:你還年輕,前路尚遠,何愁以後得不到一個p&<.05呢?說實在的,今天的世界一切皆有可能。把你的不顯著結果用描述統計刻畫一下,去掉那些p value,然後勇敢地投給Basic and Applied Social Psychology吧。參考文獻
Baron, R. M., Kenny, D. A. (1986). The moderator–mediator variable distinction in social psychological research: Conceptual, strategic, and statistical considerations. Journal of personality and social psychology,51(6), 1173-1182.Preacher, K. J., Hayes, A. F. (2004). SPSS and SAS procedures for estimating indirect effects in simple mediation models. Behavior research methods, instruments, computers, 36(4), 717-731.
Preacher, K. J., Hayes, A. F. (2008). Asymptotic and resampling strategies for assessing and comparing indirect effects in multiple mediator models. Behavior research methods, 40(3), 879-891.
Sobel, M. E. (1987). Direct and indirect effects in linear structural equation models. Sociological Methods Research, 16(1), 155-176.
Zhao, X., Lynch, J. G., Chen, Q. (2010). Reconsidering Baron and Kenny: Myths and truths about mediation analysis. Journal of consumer research,37(2), 197-206.我也遇到過預期該顯著的實驗結果結果做完卻不顯著的情況,也為此頭疼過。
但是如果不顯著就是事實呢?那順著這個線索往下找原因會不會就有新發現了呢?我現在在做的畢業論文就屬於這種情況。
在看文獻時,發現某篇論文A得出的結論與我們自己的文章B結論不符:A的實驗結果是正確的(與我們的結果相符),但是由於沒有考慮到H因素,所以在討論時提出的解釋並不恰當(這是我的觀點)。由於A與B採用的實驗範式不太一樣,於是我又做了一個實驗C,即把H因素添加到A的實驗範式中去,驗證下是否能得出與B相同的結論。然後數據分析完著實讓我頭疼了一陣,因為與預期的結果有些不一樣:用材料F的話,能得出與B相同的結果,但用材料W則不行,有的地方不顯著,還有的地方大小方向與預期相反。在檢查過各種可能出錯的地方後,發現確實是此結果沒錯。於是我又查了些文獻,發現了另一個影響因素T,雖然有文獻D提出過這個因素的影響,但沒有系統研究過,而這個因素恰恰也是A與B範式中有差別的地方。於是我的畢業論文就是研究在改變T因素的情況下,材料F與W在各種條件中(與A和B中的各種實驗條件相對應)變化趨勢。因為文獻D里已經大致可以確定T因素的影響是怎樣的,而我之前的實驗C又體現出這個影響對材料F和W是不太一樣的,於是我根據之前的種種跡象設計了畢業論文的實驗。雖然現在結果還沒有出來,我也不知道這回會不會又是點背得不符合預期,但是我很相信,根據事實的引導,最後總會找到真相的~~
什麼?你擔心我能否順利畢業?拜託~~多少垃圾畢業論文我都見過了(從還沒入學開始,連聽了3年的畢業答辯,也看過其它學校送審過來的畢業論文),就算這次結果又不理想,也不至於衰到不能畢業吧~~(此處慶幸下,我還是小碩。。。。)什麼?導師同意么?很幸運,在這方面,我的導師與我態度相同!而且,記得導師曾經說過:「我們雖然發的文章不多,但是每一篇文章的結果都是不止一次得到的結果!」 也就是說,我們自己會先驗證下,自己這個結果能不能被重複——會找不同的主試,重新做的實驗程序,重新做實驗,重新分析數據。個人認為,如果以後還是打算在這行長期混下去,那就應該像我的導師那樣踏踏實實做,如果只是為了幾篇文章而不顧結果的可重複性,那始終只能停留在靠著幾篇文章混飯吃的階段了。當然,我這有可能是站著說話不腰疼,可能再往上混混就會發現艱難之處,也有可能到了其它地方就會遇到被迫丟節操的壓力了。。。。。。不得不承認,在學術界我還沒見過什麼市面。但我的導師都能堅持到這個時候(他出身貧苦農村,家庭境遇非常坎坷),我真的希望這樣的自己可以堅持得久一點!
別說心理學,我們搞基礎科學也往往會得出實驗/計算結果不顯著,除了改變實驗設定,刪除部分數據,玩各種數字遊戲之外,還有一種終極大法:顯著是一種結論,不顯著也是一種結論,關鍵看你文章怎麼寫。
比如說,別人的研究數據起伏很大,而你的類似研究跟他的結果不一致,這個就有的可說了。=。=前幾天剛看到某師兄的一篇掉節操的文章,徵得同意後轉載過來。不敢沾師兄光騙贊,匿了。在掉節操之前還是應該聲明:正確做法是遵守學術規範,尊重實驗結果。原作者特別提醒:以下做法是對研究極不負責任的態度,僅供學習參考,盡量避免使用。
要顯著,不要節操
——如何寫一篇節操喪盡的心理學論文
***
五十六個星座五十六隻花
五十六族兄弟姐妹是一家
五十六種語言匯成一句話
沒有「*」你說個J8說個J8!
心理學研究,理想狀態下是一個用數據驗證假設的過程,如上圖所示。然天不遂人願,你會發現,你的數據從來沒有聽話過。怎麼調教你的數據呢?我來分享一下自己敗節操的經驗。(初始狀態,您有10點節操。)
- 被試/數據
首先我們可以從數據本身下手。處理被試/數據的方法基本有以下兩種:刪被試與造假。
1.1 剔除數據
即刪除不符合假設的數據。比如假設兩個變數之間有正相關,結果做出來沒有相關,怎麼辦?先畫個散點圖看看,YAHOO!雙變數正態分布。這時你默默地把散點圖左上角和右下角的數據刪掉。刪幾個,試試相關顯著了沒,沒顯著繼續刪,一直刪到顯著為止。在報告的結果部分這樣寫「剔除了部分作答不認真的被試」就行了。(您損失了1點節操,還有9點節操。)
Johnson, Smeesters, and Wheeler (2012)就因為這個被retract了。
1.2 編造數據/造假
相對於刪被試來說,編造數據似乎更惡劣一些,所以我很少這麼干。具體怎麼編呢,有兩種方法,一種是直接在excel里輸入你想要的數據,另一種相對間接一些,自己當被試,想著自己的實驗假設,多做幾次,大概就顯著了。(您又損失了1點節操,還有8點節操。)
例如Stapel and van der Linde (2011)就是這麼乾的。
2 變數轉換
原始數據不顯著?你可以試試對它進行對數、指數、倒數、三角函數等轉換,還可以把幾種轉換結合起來使用。同樣的,你需要在結果部分說明你使用了哪些轉化,最重要的是要這句話後面引上這篇神文獻(Winer, 1962),它被引了26967次。(您又損失了1點節操,還有7點節操。)
3 顯著性
放開了數據,接下來我們對顯著性本身下手。
3.1 邊緣顯著
一般的,p &< 0.06你說這是邊緣顯著完全沒問題。也有很多人p &< 0.1就說邊緣顯著了,還節操滿滿的。最狡猾的做法是:對於假設里應該顯著的,p &< 0.1就是邊緣顯著;假設里不該顯著的,p = 0.5 就說不顯著。(此處需要引一篇JPSP的研究,但我想不起來是哪一篇了……)(您又損失了1點節操,還有6點節操。)有人說「Marginally significant?So you didn"t find anything?」你就跟他生氣。
3.2 「但不顯著」
即使P &> 0.1,也沒有關係,你可以說「有趨勢但不顯著」,「不顯著但有趨勢」更好。「不顯著但多重比較/事後檢驗發現……」與此相似。(您又損失了1點節操,還有5點節操。)
3.3 創新
發揮創造力,改變傳統的統計標準也是一個好辦法。比如簡單斜率檢驗中,一般取正負一個標準差處的數據進行比較。你可以創新啊,你取正負兩個標準差處的數據進行比較,顯著的可能性就大大提升了。(您又損失了1點節操,還有4點節操。)
3.4 多種統計方法
社心課上大三的一個小孩說「某先哲說過沒有不顯著的數據,只有不顯著的統計方法」。這話說得太好了。回歸不顯著,把自變數劃成分類變數做方差分析試試,或者把因變數劃成分類變數做判別分析,再或者兩邊都分類咱來個卡方檢驗試試。你可以嘗試一萬種統計方法,但最後只報告顯著的那一種(或幾種)。(您又損失了1點節操,還有3點節操。)
4 設計
我們還可以從實驗設計上增加「*」出現的概率。為什麼聽上去這麼高級?
4.1 多個因變數
多個因變數可以有效地保證結果的顯著。本人所在的實驗室喜歡用「行為主體判斷」這個任務,即給被試一堆行為,其中有積極、消極和中性行為三種,讓被試判斷這行為是城市居民做的呀還是農民工做的,是黑人做的呀還是白人做的,是男人做的呀還是女人做的,等等。這任務好處在哪呢?你可以單獨以積極行為的結果為因變數,也可以用消極行為的,還可以用積極減中性、消極減中性、積極減消極等等做為因變數,只要有一個顯著,就OK了,其他的就當你沒做過。(您損失了1點節操,還有2點節操。)
4.2中介變數
中介變數是問卷研究的好朋友,用包含多個變數的問卷研究很容易做出中介作用來。學位論文如果只有一個自變數和一個因變數,答辯老師肯定嫌你做的少,這是研究生群眾對於中介變數如此喜聞樂見的原因之一。提到中介變數,我們應該感謝兩個人(兩篇文獻),一是Sobel (1982),他提出的檢驗方法非常容易顯著,二是溫忠麟, .張雷, 侯傑泰, and 劉紅雲 (2004),他為廣大心理學研究生提供了簡單易行的中介變數檢驗程序(其中的「部分中介作用」尤其給力),畢竟Sobel君那篇以統計為主題英文文章大家都不太願意讀。你要做的呢,就是在問卷塞盡一堆量表,然後算相關矩陣,看看哪三個變數兩兩相關比較高,然後按溫老師的流程做下來就OK了。討論部分就隨便解釋唄。萬一中介作用不顯著,別忘了還有「邊緣顯著」、「不顯著但有趨勢」可以用。(您損失了1點節操,還有最後1點節操。)
要說的基本都說完了,還有1 點節操沒有丟掉,怎麼辦?那我就接著問卷研究說說共同方法偏差好了,這貨特別適合敗節操。要再次請出溫忠麟, 侯傑泰, and 馬什赫伯特 (2004),他們提出可以根據被試量改變顯著性指標,這個提議不知挽救了多少文章。我曾經較為深入地研究過這個問題,很高興地發現,中文文獻中所有做了共同方法偏差檢驗的,都有各種極具創造性的解釋來說明自己的研究中不存在共同方法偏差。較為有代表性的是這樣一段話,由於某些原因,我就不給出參考文獻了「原模型加入共同方法因子後,卡方改變呢,也不是不顯著。但由於卡方啊,它受被試量影響,所以顯著也一定不說明存在那啥。你看NFI呀,IFI呀,RMSEA呀,改變都不是很大嘛!所以本研究沒有共同方法偏差。」為防止引起不愉快,我對這段文字做了口語化處理。
你為什麼不去試試呢?(您損失了1點節操,您的節操敗光了。)
目標達成,回寢室了。
參考文獻
Johnson, C. S., Smeesters, D., Wheeler, S. C. (2012). Visual perspective influences the use of metacognitive information in temporal comparisons. Journal of Personality and Social Psychology; Journal of Personality and Social Psychology, 102(1), 32.
Sobel, M. E. (1982). Asymptotic confidence intervals for indirect effects in structural equation models. Sociological methodology, 13, 290-312.
Stapel, D. A., van der Linde, L. A. J. G. (2011). What drives self-affirmation effects? On the importance of differentiating value affirmation and attribute affirmation. Journal of personality and social psychology, 101(1), 34.
Winer, B. J. (1962). Statistical principles in experimental design. New York: McGraw-Hill.
溫忠麟, .張雷, 侯傑泰, 劉紅雲. (2004). 中介效應檢驗程序及其應用. 心理學報(05), 614-620.
溫忠麟, 侯傑泰, 馬什赫伯特. (2004). 結構方程模型檢驗: 擬合指數與卡方準則. 心理學報, 36(2), 186-194.
按照我的觀點。
首先反思下實驗設計是不是做到了true experiment。第二就考慮下有沒有confounding什麼的,反思下IV的控制。第三,看下被試的數據,看看是不是有明顯問題,比如psychometric curve是平的之類的,有問題拉回來重做下判斷是什麼原因。
要是都沒問題,我就接受null hypothesis,然後寫好manuscript給老闆,等著被老闆罵一頓,然後看她施展統(mo)計(fa)技巧強行顯著。大學畢業的時候,研究大學生自信與社會比較關係,做出來的數據看散點圖就是球型的…難道我不畢業了?沒關係,首先我們可以分別研究自信和社會比較,把被試分性別,年級,專業(注意專業哪些專業劃為一個類別是很自由的哦!操作空間大大的)等然後做方差分析,調整一下就可以得到顯著的結果。 但這只是自信和社會比較分別顯著,他們之間還是沒有什麼卵關係,這時候做回歸?散點圖球形能做出啥好結果?這個也簡單…我們降低數據等級,把自信從連續等距數據降為等級數據,分成高分組和低分組,把回歸邊方差分析,還是不顯著?分三組,再不顯著?分四組,總有一個分組會顯著… 如果還是不行,怎麼辦呢?沒事,我們可以用各種高級統計方法,採用結構方程模型或者多組比較帶均值的結構方程模型,或者甚至多層次的多組比較帶均值的結構方程模型,很容易就會顯著。 實在都不顯著,還有個絕招,就是繼續搜集數據,擴大樣本量,根據抽樣分布原理,樣本量越大,越小的值也容易顯著… 總之就是三條路,重新細分數據劃分變數,擴大樣本量,嘗試不同的高級統計方法…
當年研究基礎科學做實驗,導師說有的數據與其他差別太大的可以刪除,有時每個變數做5組重複,可能只刪得剩下一組…總之宏觀來看,如果你能找到一個什麼趨勢,就把數據往那趨勢上靠就行了,有時候甚至一整個變數的數據都不能用…最後把標準差什麼的標在圖上…就完事了…這樣就說能得出結果,只不過可能證據不夠多不夠具有說服力,但還是有結果的
話說當年我巨吃驚,但導師說只要數據不是造假的就沒問題,搞研究的都是這麼做的…
從此不太相信做研究的了…導師曾在加拿大top 5帶博士生…顯著過嘛…(≧?≦)不顯著就不顯著,分析分析為什麼不顯著,也是一篇精彩的論文。
http://www.guokr.com/article/441263/?f=wxfrom=groupmessageisappinstalled=0
經典心理學研究再遇危機這已經不是國際頂級期刊第一次抨擊心理學的實驗數據可重複性差的問題了
心理學研究由於在內部效度和外部效度間的糾結,還因為統計方法的問題(之前只看顯著性,現在開始看效應值了)所以重複性一向不太好。
再加上有些人但做研究的時候,學術不端,前期做很多人,然後把符合假設的數據留下來,不符合的刪掉,這就更加導致別人重複不了了。
還有些人是實驗好多次,然後選擇結果符合假設的那個。
其實物理實驗也是這樣試錯出來的,但物理實驗只要一次成功了,後面就可以複製,但心理學的可不一定。心理現象變化太複雜了,所以就導致研究態度情緒行為之類的社會心理學研究重複性比較差。
所以出現不顯著的情況真是常態,沒有必要為了顯著而顯著,這樣搭上的不僅僅是自己的學術聲譽,還會影響心理學在整個學術圈的地位換種統計方法
除了data massage外。。
假如我的老闆是都教授,他一定會。。一 (發) 針 (現) 見 (問) 血 (題)審 (看) 時 (出) 度 (pat-) 勢 (tern)運 (修) 籌 (改) 帷 (實) 幄 (驗)力 (終) 挽 (於) 狂 (顯) 瀾 (著)救我於水生火熱之中。。相信數據
這個...不光是...心理學獨有的...問題...可以用統計學手段解決...
我有寫過一篇關於選擇反應時和簡單反應時的實驗論文,然後吧,分析出來的三分之二點五的結果都是無顯著,就討論的時候分析分析了為神馬沒有顯著,參考了文獻。
最後老師還說我論文討論寫的恰到好處,高分過( ????? )所以沒顯著沒關係,誰規定的一定要有顯著才是一篇好論文( ????? )抖個機靈: 不顯著想盡辦法讓它顯著。再不行多個因子挑幾個顯著。再不行找個顯著的方向換題目。…………再不行,,,你聽說過邊緣顯著么?_(:з」∠)_(僅限於混畢業)
不得不匿實際上我們直接改原始數據有些人是經常改數據發現也有人匿名舉報自己改數據哈哈哈哈
1)最可能也最沒招的就是control控制不好,實驗設計干擾。所以文獻很重要。看能不能找到某重要控制變數,並且有幸前面測了,並且一控制就顯著了(渺茫)。2)回去看各種描述統計,檢查是不是假設不準確,比如不是線性相關,不是正態分布的。3)還有個很悲催的,就是回去看錄入和預處理,糾錯和改進。我每次都會把採集和錄入者的名字登記,這時候就可以檢查有沒有某位嚴重偏移其他樣本分布(可能這位同學造假,或者錄入不規範)4) 嘗試各種統計檢驗。增加過擬合風險。但這個一般要有點接近顯著才有做的必要,先看看散點圖有沒有趨勢。想起一個還可以接受的擦邊球,碰到過一牛校哥們,mlr結果顯著但實際效果微弱。為了total r sq好看,把一個應該組合放dv的放在iv,單因素r sq 就30%左右,立馬數據好看了。5)不顯著後刪數據就是data manipulation了,而不說明outlier 規則的刪數據就是赤裸裸的造假。
不顯著也是一種結果,如果實驗設計和統計方法都沒錯的話。
當然是換個統計方法嘍
科學地對假設進行證實或證偽都是有價值的。
非要執著於用各種辦法讓實驗結果符合預期,想搞一個大新聞,這是中二病,得治。
比如你以為青少年的暴力傾向與玩電子遊戲的程度相關,後來發現並不顯著。那就實話實說唄!想想你能從戒網中心拯救出幾個無辜少年,使他們免遭電擊,不也是善莫大焉?改變統計方法換/加 其他變數直接寫出陰性結論其他的我就不說了
推薦閱讀:
※哪個開源的問卷調查系統最好用?
※給調查問卷設計問題有哪些技巧和雷區?
※您覺得一份優秀的問卷有哪些標準?
※做調查問卷時,願意受訪的人員是否有共性,如果共性很大,調查結果是否不算真實可靠?
※怎樣調查客戶滿意度並找到影響滿意度的主要因素?