語料庫語言學基礎知識:概率論2(連續變數、聯合分布)
語料庫語言學基礎知識寫作計劃:
- 矩陣(Matlab, Python, R, Haskell)
- 概率論(基本概念、離散分布,2)
- 統計學(Matlab, Python, R, Haskell)
- 機器學習(Matlab, Python, R, Haskell)
主要參考資料:Introduction to Probability and Statistics
I. 連續隨機變數(continuous random variables)
變數 是連續的,如果存在一個函數 使得對於任何 ,我們都有
函數 被稱為概率密度函數(probability density function, pdf),概率密度函數滿足下面兩個特徵:
設 為連續隨機變數 的概率密度函數, 的累積分布函數(cumulative distribution, cdf) 定義如下:
連續隨機變數的累積分布函數滿足下列特徵:
- 是非遞減的,即如果 ,則
設 為連續隨機變數,範圍為 ,概率密度函數為 ,那麼 的期望值定義如下:
方差為 。
II. 幾種連續隨機變數
均勻分布(uniform distribution)
- 參數:
- 範圍:
- 標記:
- 密度:
- 分布:
- 適用於:範圍內任何點都有均等的概率
R:
> u = seq(0.01,1,0.01)> plot(u,dunif(u), xlab = "X value",+ ylab = "Probability density", main = "Uniform pdf")
> plot(u,qunif(u), xlab = "X value",+ ylab = "Cumulated density", main = "Uniform cdf")
指數分布(exponential distribution)
- 參數:
- 範圍:
- 標記:
- 密度:
- 分布:
- 適用於:改變狀態的連續過程的等候時間
e = seq(1,100,0.1) plot(e,dexp(e, rate = 0.1), xlab = "X value",+ ylab = "Probability density", main = "Exponential pdf")
> plot(e,pexp(e, rate = 0.1), xlab = "X value",+ ylab = "Cumulated distribution", main = "Exponential cdf")
正態分布(normal distribution, Gaussian distribution)
- 參數:
- 範圍:
- 標記:
- 密度:
- 分布:沒有公式,使用表格或 R 軟體來計算
- 適用於:測量誤差、能力、身高,以及大量數據的平均數
> n = seq(-5,5,0.01)> plot(n,dnorm(n), xlab = "X value",+ ylab = "Probability density", main = "Normal pdf")
> plot(n,pnorm(n), xlab = "X value",+ ylab = "Cumulated distribution", main = "Normal cdf")
III. 中心極限定理和大數定律
如果 是獨立的隨機變數,且遵循同樣的分布,我們稱 是獨立同分布的。所有的 都有同樣的 和 。設 為 的平均數:
本身也是一個隨機變數。
- 大數定律(Law of Large Numbers)告訴我們,隨著 的增長, 接近 的概率趨近於1.
- 中心極限定理(Central Limit Theorem)告訴我們,隨著 的增長, 的分布接近正態分布 .
IV. 聯合分布和獨立性
離散聯合分布(discrete joint distribution)
對於取值為 的離散隨機變數 和取值為 的離散隨機變數 ,有序對子 的取值為積 。 和 的聯合概率質量函數 為聯合結果 提供概率描述。聯合概率質量函數需要滿足:
離散聯合分布的聯合累積分布函數是 .
連續聯合分布(continuous joint distribution)
對於取值範圍為 的連續隨機變數 和取值範圍為 的連續隨機變數 ,有序對子 的取值為積 。 和 的聯合概率密度函數 為點 處的概率密度。聯合概率密度函數需要滿足:
連續聯合累積分布函數是 ,對該函數進行偏微分可得聯合概率密度函數: .
邊際分布(marginal distribution)是在聯合分布的前提下只考慮一個變數的分布情況。當 時,聯合分布的隨機變數 和 是相互獨立(independent)的。
協方差(covariance):
相關係數(correlation coefficient): .
推薦閱讀: