標籤:

刪失和截斷

刪失和截斷

來自專欄生存分析

1.introduction

實驗有開始觀測時間(start of study)和結束觀測時間(end of study),我們關心的事件發生時刻用 X 表示,實驗對象因其它原因而丟失的時刻為 C_{r} 。實驗對象到達end of study,這個時刻均為 C_{r} ,因其它原因死亡的時刻也稱為 C_{r}X leq C_{r} 時,我們仍可以正常觀測到事件 X 的發生; X geq C_{r} ,即對象在事件 X 發生之前就丟失,這樣,我們就無法觀測到事件 X 發生的具體時間值,稱為刪失了。

(T,delta) 表示實際情況, delta = 1 表示實驗期間觀測到X的發生, delta=0 表示實驗期間已經刪失了,整個實驗期間都沒有觀測 X 的發生。 T=min(X,C_{r}) 為這個實驗對象停止觀察的時間。

2.right censoring

[1]type I censoring

(1)type I censoring

刪失時間在end of study

(2)progressive type I censoring

有多個 sacrifice 時間導致刪失。sacrifice 模擬的動物中非致死疾病的。

(3)generalized type I censoring

start of study 的時間不同。

[2]type II censoring

(1)type II censoring

實驗只進行到有 r 個(一共 n 個實驗對象)failure發生就終止,因為等到所有對象都failure可能要很長時間。所以我們得到的是前 r 個最小的 X ,故在後面進行統計推斷的時候會用到順序統計量。隨機變數 T_{(r)} 指第 r 個對象發生 failure 的時間。

(2)generalized type II censoring

同 I 型擴展刪失類似,共 n 個實驗對象,已知 {(r_{i},n_{i})} 。第一次直到 r_{1} 個failure發生,再sacrifice n_{1}-r_{1} 個對象,本次剩餘 n-n_{1} 個對象;第二次直到 r_{2} 個failure 發生,再... ...

隨機變數 T_{(r_{1})},T_{(n_{1}+r_{2})},....

[3]competing risks censoring

我們對某些cause感興趣,但實驗對象卻被另一些competing risks 刪失(如死亡),導致無法觀測到感興趣的cause發生。

第4章詳細講了這個。

lifetime, failure, event均特指我們關心的事件的發生時刻。

3.left or interval censoring

[1]left censoring

右刪失指時刻 C_{r} 之後研究對象丟失而failure又發生在 C_{r} 之後,因此我們無法觀測到failure發生。左刪失指時刻 C_{l} 之前研究對象的信息丟失,且failure發生在 C_{l} 之前,因此我們無法準確知道failure發生在 C_{l} 之前的哪個時刻。

(T,varepsilon) 表示實際情況, varepsilon = 1 表示實驗期間觀測到X的發生, varepsilon=0 表示實驗期間已經刪失了,整個實驗期間都沒有觀測 X 的發生。 T=max(X,C_{l})

[2]interval censoring

同其它刪失類似,區間刪失指在 (L_{i},R_{i}) 研究對象丟失,而 failure 又剛好發生在這個區間,於是我們無法知道 failure 具體發生在(L_{i},R_{i})中的哪個時刻。

4.truncation(截斷)

觀察期(observational window), (Y_{L},Y_{R}) 。研究對象均在 (Y_{L},+infty) ,稱為左截斷。同理右截斷。這樣左截斷在估計時一定是條件分布 P( X| X>Y_{L})

左刪失時,我們知道 failure 一定發生在 C_{r} 之前;但左截斷,我們沒有採集在截斷數據左側研究對象,不知道他們的任何信息,其failure 可能發生截斷時刻前也可能在截斷時刻後,但我們仍不關心這個對象。

5.likelihood construction for censored and truncated data(建立刪失數據和截斷數據的似然函數)

一個重要的假設是lifetime 和censoring time 是相互獨立。否則,就需要引入特殊的方法來建立。

exact event time observations告訴我們 event 發生這個時刻,這種數據對於總體的 event 分布的估計最有用。但其它刪失截斷數據也能提供部分信息,直接丟掉是浪費的。

right-censoring observation 告訴我們有一個 event X 發生在 C_{r} 之後;left-censoring observation 告訴我們有一個 X 在 C_{l} ;interval-censoring observation,... ...

truncated observation 告訴我們 X 的條件分布。

用式子表示對應的概率:

[1]刪失數據的似然函數

式3.5.1

[2]截斷數據的似然函數

[3]對於右刪失數據,用 (T,delta) 來表示似然函數

將兩種情況結合在一起寫為, P(T,delta)=[f(t)]^{delta}[S(t)]^{1-delta} ,於是似然函數為,

又由 f(x)=h(x)S(x) ,可將上式改為,

6.counting processes

除了上面用似然函數來估計參數,也可以利用隨機過程中的知識來進行非參數估計。這裡主要講隨機過程中的鞅(martingale)在生存數據中的應用。

[1]

計數過程 N(t) ,有 N(0)=0,N(t)<infty ,右連續, N(t) 每次只+1。

如右刪失數據, N_{i}(t)=I[T_{i} leq t,delta_{i}=1] 是一個計數過程,在對象 i failure 後變為1; N(t)=sum_{i=1}^{n}N_{i}(t)=sum_{t_{i}leq t}delta_{i} 也是一個計數過程,在對整個研究對象進行計數。這兩個過程都滿足計數過程的條件,因此都是計數過程。

F_{t} 表示 t 之前發生的事情, F_{t^{-}} 表示 t 到離時刻 t 之前但很接近發生的事情。

右刪失數據,且假設 X_{i}C_{i} 相互獨立,則 t 時刻 i 對象發生 event 的概率為,

dN(t)=N[(t+dt)^{-}]-N(t^{-}) 表示在 t 時刻一瞬間發生的event數量。 Y(t)T_{i}geq t 的對象數量,即 t 時刻還存在的對象。則 t 這瞬間發生 event 的期望數量為,

lambda(t)=Y(t)h(t) 稱為計數過程中的 intensity process。

Lambda(t)=int_{0}^{t}lambda(s)ds 為cumulative intensity process,且有 E[N(t)|F_{t^{-}}]=E[Lambda(t)|F_{t^{-}}]=Lambda(t) ,這用了積分。一旦知道了 t 之前發生的事情, Y(t) 就固定了, Lambda(t) 也不隨機了。

[2]

隨機過程 M(t)=N(t)-Lambda(t) 稱為 the counting process martingale。隨機過程中是真喜歡把很多東西稱為一個過程(process)。

計數過程鞅的性質,

鞅的定義,

再使用鞅的定義證明計數過程的鞅確實是一個鞅過程,

一個例子,

階梯函數表示 N(t) ,一旦出現一個event就+1,上圖階梯線。一旦出現一個event或刪失, Y(t) 就-1。 Lambda(t) 是平滑過程,可看作 t 的預測,也稱為計數過程的補(compensator),上圖虛線。

鞅M(t)可被看作0均值雜訊。如上圖。

[3]M(t)的可預測變異過程(predictable variation process),用<M>(t)表示,被定義為過程 M^{2}(t) 的補。

類似上面計數過程的 N(t),Lambda(t)M^{2}(t)-<M>(t)  會產生一個鞅,且有E[dM^{2}(t)|F_{t^{-}}]=d<M>(t)E[M^{2}(t)|F_{t^{-}}]=<M>(t)

由上面關於M(t)的分析知 E[dM(t)]=0 ,易得,

注意區分 dM^{2}(t),[dM(t)]^{2}

第一個等式用了E[dM(t)]=0,第二個等式用了 [dM(t)]^{2}=dM^{2}(t)-2M(t^{-})dM(t)

dM(t)|F_{t^{-}} 的方差可用 d<M>(t) 表示,這也是定義<M>(t),且把它稱為可預測變異過程的原因。

K(t) 是一個可預測過程,即只要知道 F_{t^{-}} 隨機過程 K(t) 的就是已知的。如 Y(t) 就是predictable process。

使用鞅對K(t)進行積分 int_{0}^{t}K(u)dM(u) ,它的一個性質是若作為 t 的函數,它本身也是一個鞅。它的可預測變異過程可以從初始點的鞅的可預測變異過程得到,

<int_{0}^{t}K(u)dM(u)>=int_{0}^{t}K(u)^{2}d<M>(u)

[4]用上面的工具來對右刪失數據進行非參數估計得到累積的hazard rate H(t),稱為Nelson-Aalen estimator

dN(t)=Y(t)h(t)dt+dM(t) ,若 Y(t) 非零,易得,

frac{dN(t)}{Y(t)}=h(t)dt+frac{dM(t)}{Y(t)} #1

可得 frac{dM(t)}{Y(t)}|F_{t^{-}} 的期望方差,

J(t)Y(t) 為正的示性函數,且定義0/0=0,對#1兩邊同乘J(t)並積分得,

W(t)是由鞅 M(u) 對可預測過程 J(u)/Y(u) 進行積分得到,也是一個鞅。故可把W(t)看作積分過程的雜訊或不確定因素。上式中 hat{H}(t) 是估計值, H^{ast}(t) ,W(t)是雜訊。

[5]鞅中心極限定理(martingale central limit theorem)

當 n 很大時,假設 Y(t)/n
ightarrow y(t)

Z^{n}(t)=sqrt{n}W(t)=sqrt{n}[hat{H}(t)-H^{ast}(t)] ,則,

第二個等式注意 J(u) 是示性函數。第四個等式看 P84 下方文字(沒看懂,以後再來解釋吧)。

survival function 的估計,Kaplan-Meier 估計,


推薦閱讀:

TAG:數學 |