標籤:

生存數據的左右截尾是什麼?請舉例說明。

和刪失不太能精準區別。


不好意思,收到邀請很長時間,現在才回答問題。按你提問的內容,我理解你這裡說的截尾應該就是censoring,左右截尾就是left/right censoring。刪失就是truncation。(如果有錯誤,請指出)。這兩個概念有相似的意義,但是,本質上面是完全不同的。

1. 截尾

i. 截尾的定義

截尾在wiki中給出的定義是「censoring occurs when the values of a measurement or observation is only partially known」. 但是,這個partially known就成為了混淆截尾和刪失的根本原因。因為截尾和刪失都有partially known的性質,但是造成的原因確實是不同的。截尾更準確的定義,應該是在研究學習過程中,在某個點上,某個或某些研究對象的信息有缺失。這種確實的原因主要有兩點,第一點是因為沒有繼續的跟蹤調查;另一點是在實驗結束前,這個實驗對象就由於某個和實驗無關的原因消逝了。比如,深海的溫度是0攝氏度。但是我們的溫度計的範圍是10-100攝氏度。這個時候,我們所測量到的深海溫度就是10攝氏度。這時,我們只能說,深海的溫度最多是10攝氏度,但是具體是什麼,我們不知道。這個「10攝氏度」就是一個截尾。造成這個截尾的原因就是我們沒有繼續跟蹤調查,也就是,我們沒有繼續探索。再比如一個例子,某個實驗要研究某肺癌藥品的療效。志願者A在參與這項實驗之前就因為肺癌去世了,那麼這個A就沒有截尾點;志願者B在參加這個實驗一段時間後,比如時間B,就離開了。時間B就是截點。我們僅知道在時間B 和之前B沒有因為肺癌死去,我們只能確定他死亡的時間是時間B之後,但是具體是什麼,不清楚;再比如志願者C,他在參與這項實驗到時間C的時候,由於意外車禍去世了。這個時候,時間C也是截尾點,這個截尾點生成的原因就是「另一點是在實驗結束前,這個實驗對象就由於某個和實驗無關的原因消逝了」。

ii. 截尾的兩種形式

截尾的兩種形式是點截尾point censoring和段截尾interval censoring

i). 點截尾

截尾以某個具體的時間點出現,主要有以下兩種情況:

  • 右截尾:在時間具體發生前,就離開了。比如上述例子中的志願者B和C,他們都是在肺癌死亡前結束了這個實驗;
  • 左截尾:此形式出現的可能性相當低。是在被觀察對象參與前,所研究的事件就具體發生了。比如,某實驗要研究HIV在多久後會轉化成為AIDS。某志願者參與到實驗的時候才發現他的HIV已經轉為AIDS了。雖然不確定是什麼時間,但是可以確定的是在實驗開始前。

ii). 段截尾

截尾出現的形式是一段時間。比如假設實驗中,很確定HIV向AIDS的轉變是在某特定時間軸內,那麼這個就是段截尾。

2.刪失

i.刪失定義

和截尾都有「不完整」這一性質,但是刪失是的不完整性是由於實驗設計造成的。比如,在某實驗中,我們要徹底忽略大於和小於某一範疇的實驗對象。

ii. 刪失的兩種形式

  • 左刪失:大於或等於某設定點的所有實驗對象。這個設定點可以對所有觀察對象都相同,或者可以是對每個對象隨機取樣出來的。比如,某保險公司彙報了雖有大於或者等於某花銷的支出。那麼,當我們繼續進行截尾時,我們只對這部分「大於」的支出進行截尾;
  • 右刪失:小於或等於某設定點的所有實驗對象。比如,實驗要研究大學前,年齡和抽煙量的關係。你要實現問每個人的年齡,這樣就能保留所有小於大學入學年齡的樣本。

3. 總結

所以,右截尾和左刪失是最常見的。

索引請參考我的blog &


首先是英文翻譯:人大教科書《生存分析》生存分析_百度百科,翻譯是:刪失(censored),截尾(truncated)。

刪失(censored)數據比較好理解,有些樣本在觀測結束時還沒有死亡,壽命就記為34+,這就是右刪失數據,因為壽命t>34,壽命的右邊被刪去了;有些樣本知道出生日期,但是在觀測開始時已經去世了,壽命t&<10,這就是左刪失數據;當然,左右刪失包含各種類型,還有區間刪失。總之,刪失是某個樣本的特性,表現出某樣本時間是不等式。

截尾(truncated)是所有樣本的綜合特性,指的是你觀察的總體是有偏的。比如你的壽命樣本全部來自於退休中心,但是退休中心只有60歲以上才能加入,所以你的所有樣本都是t≥60,t<60的數據被排除掉了,是左截尾(注意此處與刪失不同);要是你的所有樣本只是80歲以下死亡的老人的壽命,那就面臨右截尾。

所以,對於壽命t&>60,要是某個樣本展現的特性,則此樣本在60的右邊被刪掉了,是右刪失數據;要是由於系統原因排除掉了t≤60導致總體具有t>60的特性,所有樣本從60才開始計算,就是左截尾數據。因此構造似然函數時截尾數據要引入條件分布,而刪失數據要考慮積累概率分布。


我也不是很理解 只是查閱資料 希望能盡微薄之力

reference : survival analysis techniques for censored and truncated data


百度文庫有個講的還挺清晰的。

https://wk.baidu.com/view/6a8fd60ca8956bec0975e3c0?pcf=2from=singlemessage

不過自己在用的教材里是這樣說的:

終檢censor

截尾數據censored data


很早之前就看到了這個問題,自己也不太理解,一直划水。。。

直到最近開始看這本資料:

John P. Klein, Melvin L. Moeschberger Survival analysis Techniques for censored and truncated data

參照文章裡面的定義和例子,大概寫出自己的想法,有錯誤還希望指正 = =

(回答以生存分析為例)

先是主要結論:刪失和截尾最主要的區別,粗糙一點來說

觀測者對於刪失數據的發生是知情的,只是仍然不知道對應這些刪失數據,其失效事件發生的精確時間。

觀測值對於截尾數據的發生是不知情或不關心的。

下面是具體的理解


首先是翻譯問題

按照其他回答中提到的,總結起來,censoring翻譯為刪失,truncation翻譯為截尾或截斷。

按照這個翻譯來看, @JANE.MIAO 的說法應該有誤,將兩者搞反了。

censoring:刪失

按照參考資料中的解釋:Censored data arises when an individual』s life length is known to occur only in a certain period of time.(正文Page1)

也就是說,要想知道對象存活到的準確的時間點(lifetime),事件的失效時間點(failure time)必須要在刪失時間的區間以內,也就是要在觀察區間以內。如果失效事件發生的時間不是在觀察的時間區間以內,該對象的數據就會以刪失數據(censored data)的形式出現。我們只知道事件在觀測區間以外發生了這個事情,但並不知道具體事件發生的失效時間點的精確值。和截尾不同的是,數據存在的事實我們是知道的(後面會說截尾的特點,主要是對於觀測外的事件的發生並不知情/不考慮)。

左刪失(left censoring)

當事件發生時,觀測還沒有開始,事件發生時間位於觀測區間的左側,那麼相應的數據就是左刪失的數據。我們只知道事件在觀測開始之前就發生,但還是不知道精確的發生時間。

右刪失(right censoring)

在觀測區間中,對象並沒有發生失效事件,失效事件的發生時間是在我們觀測區間的右側,但我們也不能得到精確的失效時間。

比如在對一群癌症病人死亡時間的統計中,由於時間和成本的限制,我們只能觀測記錄接下來5年內病人死亡情況。但當時間超過5年時,也許還是有一部分病人沒有死亡,但我們實驗的觀測和記錄已經終止了,那麼這些還未死亡的病人的數據就是右刪失的數據。

interval censoring(區間刪失/間隔刪失?翻譯不太好...)

在某一個時間區間內,我們無法知道事件的精確失效時間,只知道失效事件是在這個區間內發生的。

truncation 截尾/截斷

原文:Truncation of survival data occurs when only those individuals whose event time lies within a certain observational window (YL,YR) are observed. An individual whose event time is not in this interval is not observed and no information on this subject is available to the investigator.(正文Page72)

也就是說,我們只能從一個固定的時間窗內觀測,記錄事件在這個時間段內發生的精確時間點。但是對於時間窗以外的時間發生的失效事件,我們是不知情的。只有當事件的失效時間(也就是事件的發生時間,文中的event time)出現在觀測區間內,我們才能知道這個事件及其觀測數據的存在。

左截尾(left truncation):只能觀測到一個時間點之後發生的失效事件。左截尾時間點之前發生的失效事件不知情/不關心。

右截尾(right truncation):只能觀測到一個時間點之前發生的失效事件。右截尾時間點之後發生的失效事件不知情/不關心。

interval truncation(大家自己翻譯吧...):在這個固定區間內發生的失效事件不知情,也就是在這個區間內發生的失效事件不能被觀測到,或者說不關心或不知情。

我認為刪失和截尾最主要的區別是:

觀測者對於刪失的數據是知情的,只是仍然不知道對應這些刪失數據,其失效事件發生的精確時間。

觀測值對於截尾的數據的發生是不知情或不關心的。


從數據分析的角度,左右的區別比是刪失還是截尾要大。

右截斷可以model成survival,但是左截斷就基本只能靠strong assumption + data augmentation了。

但是,如果observation存在異質性,右端截斷(不管是censor還是truncate)都會帶來selection bias(選擇性偏誤);而censor比truncate會更嚴重。。以labor training 為例。如果我們一直提供training到找到工作,那麼留下來的人群可能是低素質的,而離開的人可能是高素質的。高素質的unlucky observation和低素質的normal observation是observationally equivalent的。


推薦閱讀:

有些電影小說里人物經常說的成功率是怎麼算出來的?
按一個人壽命70歲計算,一個人一生呼出了多重的碳?
請問有沒有概率與幾何結合的知識或者理論?請教諸位大神~~

TAG:統計 |