兩種結論錯誤與研商

兩種結論錯誤與研商

來自專欄 土鱉的論文修養

讀論文結論時其實我們都在跟著作者的事實推理邏輯進行決策,而決策就有對有錯,這與事實或規律本身無關,只代表當下的認知水平。正是因為承認這一點,科研才不會糾結於錯誤,或者說科研就是在錯誤中前行的。同樣的數據是有可能得到完全不同結論的,這是個時間的函數,逼近而不是揭示真相。所以,在這個有決策的過程中錯誤是可以用概率來描述的,p值的流行很大程度上是因為它給了一個通用版的決策方法與閾值,隨之而來的就是兩種錯誤,一種是假陽性,一種是假陰性。

所謂真假,必有對照,多數假設檢驗的空假設就是個對照基礎,這個基礎一般是一個分布或就是隨機條件。多數對這種判斷詬病的根源也在這裡,因為真實實驗或觀察中基線往往不服從分布或隨機,為此統計學家提供了大量手段來平衡掉不隨機的部分讓隨機成為基線,在此基礎上進行的差異比對就是一個令人信服的相對正確結論。在結論的修飾語中,相對正確是理想化的,令人信服才是被發表出來的原因,多數人沒搞懂這一點去解讀文獻其實是一種科黑。

顯然,平衡掉不隨機的部分需要你事先知道這部分是什麼,很遺憾,目前科研特別是基於觀察的研究並不能事先知道,有時候就是想發現這些不知道自己不知道的東西。這種情況下基於p值或空假設的假設檢驗其實是不應該用的,打個比方,你發現觀測數據中A基因與甲疾病相關,但究竟是不是A基因引發甲疾病還是需要用控制變數來驗證的,很有可能A基因與甲疾病同樣被B基因調控,但你根本就沒測B基因,所以研究本身就是不完整的。那麼通過組學技術知道的不知道的我一起去測不就完整了嗎?也不是,當你測量數量增加時,假設檢驗的個數也增加了,此時你的p值閾值如果是0.05,那麼10000個測量變數中會有500個即使隨機測定都會出現差異的基因。去年有人建議把p值閾值設到0.005,但這根本不解決問題,只是把需要核實的數量減少了,雖然這也有一定意義。舉個例子,10000個基因中有一個是真實的,你測定後按照0.05發現了501個,按照0.005發現了51個,也就是說需要驗證的數量減少了。但真實研究中,你會遇到0.05發現了501個但0.005隻發現了50個的情況,真實差異由於效應量或造成的差異量不夠大而被你的決策方法給漏掉了。甚至也會出現0.05發現了480個而0.005隻發現了48個的情況。也就是說,當你觀察的問題效應不大時,p值有可能不管怎麼調整都無法發現。這個鍋不在p值,在於你要研究的效應效應太低而你用了不恰當的研究方法與假設來檢驗這個現象。這類效應大小問題就是 type M 型錯誤,只要你假設檢驗很多,這個問題就很難規避。

讀博期間跟室友卧談時我曾說過,現在只能相信強結論,也就是說無論你用哪種統計方法去進行檢驗,這個現象都是客觀存在的,不會因為決策方法的變化而出現結論差異。不過這個提法現在看還是太理想了,因為強結論真的很強或顯而易見,屬於科研里低垂的果實,前人都摘的差不多了。如果一個現象足夠強,p值一定會發現,貝葉斯方法也一定會發現,此時不存在效應大小問題。但更多的事實或規律是埋藏在當前認為的隨機或噪音之中的,我們的分析水平也就剛剛好能把疑似信號與噪音進行區分,而這個區分是否靠譜則完全成了迷,統計學在這裡幫不上忙,技術進步倒成了關鍵。我看到一些研究寄希望於數據挖掘技術解決學科內現象發現問題,這裡我只能說對於顯而易見但被忽視的現象是有幫助的,但對於高噪音數據,降低測量噪音對結論的幫助要遠大於遴選能發現差異統計方法的努力。數據迷信會讓你看到偽規律,而測量技術進步才會真的發現價值規律。我曾經也想把生活完全量化,但後來發現測量與感測方面的誤差會讓量化數據變成垃圾,大數據很美但也可能很虛。

另一個則是方向問題,p值經常是雙邊概率取中間那一部分,所以當你看到一個很小的p值時,你並不知道這個效應的方向是更大還是更小,此時你還是需要去看效應值。在這個情況下,如果報導p值不報道效應,那麼就好比我告訴你明天要變天但又不告訴你變成什麼一樣毫無意義。在多數實驗設計中,變化幾乎是一定存在的,例如我敲掉了某個基因去驗證功能,基因的變化與功能肯定有區別,大都來源於觀察實驗,更有意義的是影響大小,這個大小更多需要專業判斷而不是簡單的p值。如果理科學生學了半天最後就知道用p值來判斷結論,那麼這個學位不給也罷。這類搞不清楚效應方向的問題是 type S 型錯誤,驗證性實驗特別需要注意。

今天特意講這個是因為我去年年底看了一篇論文,上面測量了很多種污染物的濃度,然後就對著很多健康指標進行了相關分析。這是一種多對多的結果遴選,在組學研究中也很常見,需要承認的是這是很多環境健康研究的慣用套路,然後只報道那些差異顯著的結果。我將這篇論文轉給了哥倫比亞大學的 Gelman 教授,詢問他從數據分析角度有沒有什麼建議,他告訴我會在半年後在博客上公開回復這個問題(他檔期真的很滿)。然後這個月我看到了回復,總結下就是 Gelman 教授認為1)顯著性檢驗是不靠譜的,2)通過多層模型來減小M型錯誤影響(這是一種我認為很符合中庸之道的模型)並且3)儘可能多的平衡掉已知效應。更重要的是, Gelman 教授指出這屬於探索性分析而非驗證性分析,對於結論不應該太過信賴。這個回復是很中肯的,但一線研究人員能否理解並應用就不好說了。如果把對當今科研中的問題理解程度量化為「研商」,我想國內對於研商的培養是缺失非常嚴重的,從學生到老師職業功利性都遠大於 對研究本身的理解,或者說我們缺少一個氛圍。如果你去看 Gelman 教授的回復,你會發現博客下面的評論中引發了更多對科研成果報導、開放獲取期刊等問題的討論。而國內的科研博客評論里普遍理性討論少,簡單評價多,這個氛圍的形成需要包括你我在內的一代甚至幾代人的努力。

小結

  • 除了假陽性與假陰性錯誤,科研結論中還存在效應大小錯誤與方向的掩蓋
  • p值對於後面兩種錯誤的解決幫助不大,貝葉斯分層模型有助於問題部分解決
  • 強結論很美好,但同時依賴數據分析與測量技術,後者容易被忽略但更為關鍵
  • 研商是區別科學家與科研從業人員的重要指標,國內對此培養欠缺
  • 在線公開討論問題對於問題的理解與解決是有幫助的,這是互聯網時代的研究紅利

推薦閱讀:

相關配對檢驗--斯特魯普效應
假設檢驗之斯特魯普效應檢驗
如何理解假設檢驗
假設檢驗——獨立雙樣本檢驗之 AB測試案例
需求定律中的假設、事實及啟示

TAG:科研 | 假設檢驗 | 論文 |