刪失和截斷
來自專欄生存分析
1.introduction
實驗有開始觀測時間(start of study)和結束觀測時間(end of study),我們關心的事件發生時刻用 X 表示,實驗對象因其它原因而丟失的時刻為 。實驗對象到達end of study,這個時刻均為 ,因其它原因死亡的時刻也稱為 。 時,我們仍可以正常觀測到事件 X 的發生; ,即對象在事件 X 發生之前就丟失,這樣,我們就無法觀測到事件 X 發生的具體時間值,稱為刪失了。
用 表示實際情況, 表示實驗期間觀測到X的發生, 表示實驗期間已經刪失了,整個實驗期間都沒有觀測 X 的發生。 為這個實驗對象停止觀察的時間。
2.right censoring
[1]type I censoring
(1)type I censoring
刪失時間在end of study
(2)progressive type I censoring
有多個 sacrifice 時間導致刪失。sacrifice 模擬的動物中非致死疾病的。
(3)generalized type I censoring
start of study 的時間不同。
[2]type II censoring
(1)type II censoring
實驗只進行到有 r 個(一共 n 個實驗對象)failure發生就終止,因為等到所有對象都failure可能要很長時間。所以我們得到的是前 r 個最小的 X ,故在後面進行統計推斷的時候會用到順序統計量。隨機變數 指第 r 個對象發生 failure 的時間。
(2)generalized type II censoring
同 I 型擴展刪失類似,共 n 個實驗對象,已知 。第一次直到 個failure發生,再sacrifice 個對象,本次剩餘 個對象;第二次直到 個failure 發生,再... ...
隨機變數
[3]competing risks censoring
我們對某些cause感興趣,但實驗對象卻被另一些competing risks 刪失(如死亡),導致無法觀測到感興趣的cause發生。
第4章詳細講了這個。
lifetime, failure, event均特指我們關心的事件的發生時刻。
3.left or interval censoring
[1]left censoring
右刪失指時刻 之後研究對象丟失而failure又發生在 之後,因此我們無法觀測到failure發生。左刪失指時刻 之前研究對象的信息丟失,且failure發生在 之前,因此我們無法準確知道failure發生在 之前的哪個時刻。
用 表示實際情況, 表示實驗期間觀測到X的發生, 表示實驗期間已經刪失了,整個實驗期間都沒有觀測 X 的發生。 。
[2]interval censoring
同其它刪失類似,區間刪失指在 研究對象丟失,而 failure 又剛好發生在這個區間,於是我們無法知道 failure 具體發生在中的哪個時刻。
4.truncation(截斷)
觀察期(observational window), 。研究對象均在 ,稱為左截斷。同理右截斷。這樣左截斷在估計時一定是條件分布 。
左刪失時,我們知道 failure 一定發生在 之前;但左截斷,我們沒有採集在截斷數據左側研究對象,不知道他們的任何信息,其failure 可能發生截斷時刻前也可能在截斷時刻後,但我們仍不關心這個對象。
5.likelihood construction for censored and truncated data(建立刪失數據和截斷數據的似然函數)
一個重要的假設是lifetime 和censoring time 是相互獨立。否則,就需要引入特殊的方法來建立。
exact event time observations告訴我們 event 發生這個時刻,這種數據對於總體的 event 分布的估計最有用。但其它刪失截斷數據也能提供部分信息,直接丟掉是浪費的。
right-censoring observation 告訴我們有一個 event X 發生在 之後;left-censoring observation 告訴我們有一個 X 在 ;interval-censoring observation,... ...
truncated observation 告訴我們 X 的條件分布。
用式子表示對應的概率:
[1]刪失數據的似然函數
[2]截斷數據的似然函數
[3]對於右刪失數據,用 來表示似然函數
將兩種情況結合在一起寫為, ,於是似然函數為,
又由 ,可將上式改為,
6.counting processes
除了上面用似然函數來估計參數,也可以利用隨機過程中的知識來進行非參數估計。這裡主要講隨機過程中的鞅(martingale)在生存數據中的應用。
[1]
計數過程 ,有 ,右連續, 每次只+1。
如右刪失數據, 是一個計數過程,在對象 i failure 後變為1; 也是一個計數過程,在對整個研究對象進行計數。這兩個過程都滿足計數過程的條件,因此都是計數過程。
用 表示 t 之前發生的事情, 表示 t 到離時刻 t 之前但很接近發生的事情。
右刪失數據,且假設 與 相互獨立,則 t 時刻 i 對象發生 event 的概率為,
表示在 t 時刻一瞬間發生的event數量。 為 的對象數量,即 t 時刻還存在的對象。則 t 這瞬間發生 event 的期望數量為,
把 稱為計數過程中的 intensity process。
稱 為cumulative intensity process,且有 ,這用了積分。一旦知道了 t 之前發生的事情, 就固定了, 也不隨機了。
[2]
隨機過程 稱為 the counting process martingale。隨機過程中是真喜歡把很多東西稱為一個過程(process)。
計數過程鞅的性質,
鞅的定義,
再使用鞅的定義證明計數過程的鞅確實是一個鞅過程,
一個例子,
階梯函數表示 ,一旦出現一個event就+1,上圖階梯線。一旦出現一個event或刪失, 就-1。 是平滑過程,可看作 t 的預測,也稱為計數過程的補(compensator),上圖虛線。
鞅M(t)可被看作0均值雜訊。如上圖。
[3]M(t)的可預測變異過程(predictable variation process),用<M>(t)表示,被定義為過程 的補。
類似上面計數過程的 , 會產生一個鞅,且有 , 。
由上面關於M(t)的分析知 ,易得,
注意區分
第一個等式用了,第二個等式用了 。
的方差可用 表示,這也是定義<M>(t),且把它稱為可預測變異過程的原因。
是一個可預測過程,即只要知道 隨機過程 的就是已知的。如 就是predictable process。
使用鞅對K(t)進行積分 ,它的一個性質是若作為 t 的函數,它本身也是一個鞅。它的可預測變異過程可以從初始點的鞅的可預測變異過程得到,
[4]用上面的工具來對右刪失數據進行非參數估計得到累積的hazard rate H(t),稱為Nelson-Aalen estimator
由 ,若 非零,易得,
#1
可得 的期望方差,
令 是 為正的示性函數,且定義0/0=0,對#1兩邊同乘並積分得,
W(t)是由鞅 對可預測過程 進行積分得到,也是一個鞅。故可把W(t)看作積分過程的雜訊或不確定因素。上式中 是估計值, ,W(t)是雜訊。
[5]鞅中心極限定理(martingale central limit theorem)
當 n 很大時,假設 。
令 ,則,
第二個等式注意 是示性函數。第四個等式看 P84 下方文字(沒看懂,以後再來解釋吧)。
survival function 的估計,Kaplan-Meier 估計,
推薦閱讀:
TAG:數學 |