語料庫語言學基礎知識:概率論2(連續變數、聯合分布)

語料庫語言學基礎知識寫作計劃:

  • 矩陣(Matlab, Python, R, Haskell)
  • 概率論(基本概念、離散分布,2
  • 統計學(Matlab, Python, R, Haskell)
  • 機器學習(Matlab, Python, R, Haskell)

主要參考資料:Introduction to Probability and Statistics

I. 連續隨機變數(continuous random variables)

變數 X 是連續的,如果存在一個函數 f(x) 使得對於任何 cle d ,我們都有

P(cle Xle d) = int_{c}^{d}f(x)dx.

函數 f(x) 被稱為概率密度函數(probability density function, pdf),概率密度函數滿足下面兩個特徵:

  1. f(x)ge 0
  2. int_{-infty}^{infty}f(x)dx=1

f(x) 為連續隨機變數 X 的概率密度函數, X累積分布函數(cumulative distribution, cdf) F(b) 定義如下:

F(b)=P(Xle b)=int_{-infty}^{b}f(x)dx

連續隨機變數的累積分布函數滿足下列特徵:

  1. F(x)=P(Xle x)
  2. 0le F(x)le 1
  3. f(x) 是非遞減的,即如果 ale b ,則 F(a)le F(b)
  4. lim_{x	o infty}F(x)=1; lim_{x	o -infty}F(x)=0
  5. P(ale Xle b)=F(b)-F(a)
  6. F(x)=f(x)

X 為連續隨機變數,範圍為 [a,b] ,概率密度函數為 f(x) ,那麼 X期望值定義如下:

E(X)=int_{a}^{b}xf(x)dx

方差	ext{Var}(X) = E((X-mu)^2)

II. 幾種連續隨機變數

均勻分布(uniform distribution)

  • 參數: a,b
  • 範圍: [a,b]
  • 標記: 	ext{uniform}(a,b); 	ext{U}(a,b)
  • 密度: f(x)=frac{1}{b-a}, ale x le b
  • 分布: F(x)=(x-a)/(b-a), ale x le b
  • 適用於:範圍內任何點都有均等的概率

R:

> u = seq(0.01,1,0.01)> plot(u,dunif(u), xlab = "X value",+ ylab = "Probability density", main = "Uniform pdf")

> plot(u,qunif(u), xlab = "X value",+ ylab = "Cumulated density", main = "Uniform cdf")

指數分布(exponential distribution)

  • 參數: lambda
  • 範圍: [0,infty)
  • 標記: 	ext{exponential}(lambda); 	ext{exp}(lambda)
  • 密度: f(x)=lambda e^{-lambda x}, 0le x
  • 分布: F(x)=1-e^{-lambda x}, xge 0
  • 適用於:改變狀態的連續過程的等候時間

e = seq(1,100,0.1) plot(e,dexp(e, rate = 0.1), xlab = "X value",+ ylab = "Probability density", main = "Exponential pdf")

> plot(e,pexp(e, rate = 0.1), xlab = "X value",+ ylab = "Cumulated distribution", main = "Exponential cdf")

正態分布(normal distribution, Gaussian distribution)

  • 參數: mu, sigma
  • 範圍: (-infty,infty)
  • 標記: 	ext{normal}(mu,sigma^2); 	ext{N}(mu,sigma^2)
  • 密度: f(x)=frac{1}{sigmasqrt{2pi}}e^{-(x-mu)^2/2sigma^2}
  • 分布:沒有公式,使用表格或 R 軟體來計算
  • 適用於:測量誤差、能力、身高,以及大量數據的平均數

> n = seq(-5,5,0.01)> plot(n,dnorm(n), xlab = "X value",+ ylab = "Probability density", main = "Normal pdf")

> plot(n,pnorm(n), xlab = "X value",+ ylab = "Cumulated distribution", main = "Normal cdf")

III. 中心極限定理和大數定律

如果 X_1,dots,X_n 是獨立的隨機變數,且遵循同樣的分布,我們稱 X_i 是獨立同分布的。所有的 X_i 都有同樣的 musigma 。設 overline{X}_nX_1,dots,X_n 的平均數:

overline{X}_n=frac{1}{n}sum_{i=1}^{n}X_i

overline{X}_n 本身也是一個隨機變數。

  • 大數定律(Law of Large Numbers)告訴我們,隨著 n 的增長, overline{X}_n 接近 mu 的概率趨近於1.
  • 中心極限定理(Central Limit Theorem)告訴我們,隨著 的增長, overline{X}_n 的分布接近正態分布 N(mu,sigma^2/n) .

IV. 聯合分布和獨立性

離散聯合分布(discrete joint distribution)

對於取值為 {x_1,x_2,dots,x_n} 的離散隨機變數 X 和取值為 {y_1,y_2,dots,y_m} 的離散隨機變數 Y ,有序對子 (X,Y) 的取值為積 {(x_1,y_1),(x_1,y_2),dots(x_n,y_m)}XY聯合概率質量函數 p(x_i,y_j) 為聯合結果 X=x_i,Y=y_j 提供概率描述。聯合概率質量函數需要滿足:

  1. 0le p(x_i,y_j)le 1
  2. sum_{i=1}^{n}sum_{j=1}^{m}p(x_i,y_j)=1

離散聯合分布的聯合累積分布函數F(x,y)=sum_{x_ile x}sum_{y_ile y}p(x_i,y_j) .

連續聯合分布(continuous joint distribution)

對於取值範圍為 [a,b] 的連續隨機變數 X 和取值範圍為 [c,d] 的連續隨機變數 Y ,有序對子 (X,Y) 的取值為積 [a,b]	imes[c,d]XY聯合概率密度函數 f(x,y) 為點 (X,Y) 處的概率密度。聯合概率密度函數需要滿足:

  1. 0le f(x,y)
  2. int_c^dint_a^bf(x,y) dx dy=1

連續聯合累積分布函數F(x,y)=int_c^yint_a^xf(u,v) du dv ,對該函數進行偏微分可得聯合概率密度函數: f(x,y)=frac{partial^2F}{partial xpartial y}(x,y) .

邊際分布(marginal distribution)是在聯合分布的前提下只考慮一個變數的分布情況。當 F(X,Y)=F_X(x)F_Y(y) 時,聯合分布的隨機變數 XY 是相互獨立(independent)的。

協方差(covariance)	ext{Cov}(X,Y)=E((X-mu_X)(Y-mu_Y)).

相關係數(correlation coefficient)	ext{Cor}(X,Y)=
ho=frac{	ext{Cov}(X,Y)}{sigma_Xsigma_Y} .


推薦閱讀:

語料庫語言學基礎知識:矩陣(Matlab版)

TAG:概率論 | 語料庫 |