標籤:

負二項分布為什麼叫這個名字?「負」從何而來?


X為參數為(r, p)的負二項隨機變數

P(X=n)=dbinom{n-1}{r-1}p^{r}(1-p)^{n-r}\
=dbinom{n-1}{n-r}p^{r}(1-p)^{n-r}(symmetry)\
=p^{r}dbinom{r+j-1}{j}(1-p)^{j}(j=n-r)\
=p^{r}(-1)^{j}dbinom{-r}{j}(1-p)^{j}(dbinom{r+j-1}{j}=(-1)^{j}dbinom{-r}{j})\
=p^{r}dbinom{-r}{j}(p-1)^{j}

現在我們再看看係數為負的二項展開

[1+(p-1)]^{-r}=sum_{j}{dbinom{-r}{j}(p-1)^{j}},r > 0

由此看出負二項分布是係數為負的二項展開。與它相對的是二項分布,它是係數為正的二項展開。


從定義上看:

Binomial分布和Negative Binomial分布,都是多次重複Bernoulli實驗。

Binomial關注的是,重複Bernoulli實驗成功概率為p,條件為總共實驗N次,隨機變數為N次實驗中成功實驗次數k(k∈Z,k∈[0,N]),該隨機變數的概率分布為Binomial分布。

Negative Binomial關注的是,重複Bernoulli實驗成功概率為p,條件為累計出現r次失敗,隨機變數為成功實驗次數k(k∈Z,k∈[0,+∞)),該隨機變數的概率分布為Negative Binomial分布。

Binomial和Negative Binomial分布的隨機變數都是成功實驗次數,條件不同。從定義上來看,」負「可以理解為站在失敗次數的角度看成功。

從公式上看:

Binomial分布的PMF為:

Pr(k;n,p)=Pr(X=k)={n choose k}p^{k}(1-p)^{n-k}

Negative Binomial分布的PMF為:

Pr(k;r,p)=Pr(X=k)={inom {k+r-1}{k}}p^{k}(1-p)^{r}

其中,第一個括弧里的部分為二項式係數,可以展開為:

{inom {k+r-1}{k}}={frac {(k+r-1)!}{k!,(r-1)!}}={frac {(k+r-1)(k+r-2)dotsm (r)}{k!}}

經過變化可以得到: {frac {(k+r-1)dotsm (r)}{k!}}=(-1)^{k}{frac {(-r)(-r-1)(-r-2)dotsm (-r-k+1)}{k!}}=(-1)^{k}{inom {-r}{k}}

所以Negative Binomial分布的PMF還可以寫成如下形式:

Pr(k;r,p)=Pr(X=k)=(-1)^{k}{inom {-r}{k}}p^{k}(1-p)^{r}

和Binomial分布的PMF比照而言,不難看出,「負」也體現在二項式係數的部分。

註解:公式部分內容源自維基百科

參考鏈接:

Binomial distribution

Negative binomial distribution


以下圖片來自《統計推斷第二版》第三章。


按照離散次數的統計,負二項分布描述第k次成功需要的總次數。是統計其歷史數據的,方向是反的,所以用「負」來表示。

一家之言!


推薦閱讀:

如何看待羅永浩的微博中提到的:鎚子在降價後一天內買出15000台的數據,是否可信呢?
standard deviation 和standard error的區別,能講的通俗些嗎?
知乎什麼時間發問被大量回答的概率最高?
數據分析師是怎樣煉成的,數據分析在不同行業有什麼不同要求?如互聯網、金融、傳統行業。
如何評價英國《經濟學人》發布的全球「仇富榜」中國倒數第四的情況?

TAG:統計 |