信號中的特徵

信號中的特徵

來自專欄信號分析與機器學習

在信號分析及機器學習中,特徵的提取至關重要,好的特徵提取可以更清楚的了解信號中的信息。信號中的特徵主要來自兩方面,有統計學的信息,還有資訊理論中的知識。

信號的統計學的特徵有:

均值: mu = frac{1}{n}sum_{i=1}^{n}{x} (假設信號為離散信號,長度為 n ,下同)

方差: sigma=frac{1}{n}sum_{i=1}^{n}{(x-mu)^{2}} (表徵概率分布的離散程度)

偏度: gamma_{1}= frac{frac{1}{n}sum_{i=1}^{n}{(x-mu)^{3}}}{(frac{1}{n}sum_{i=1}^{n}{(x-mu)^{2}})^{frac{3}{2}}} (表徵概率分布密度曲線相對於均值不對稱程度的特徵量)

峭度: K= frac{frac{1}{n}sum_{i=1}^{n}{(x-mu)^{4}}}{(frac{1}{n}sum_{i=1}^{n}{(x-mu)^{2}})^{2}} (衡量實數隨機變數概率分布的的峰態;表示樣本的函數圖形頂峰的凸平度[1])

均方根: X_{rms}=sqrt{frac{sum_{i=1}^{n}{x^{2}}}{n}} (常用來表徵有效值)

方根幅值: x_{r}=(frac{1}{n}sum_{i=1}^{n}{sqrt{left| x 
ight|}})^{2}

整流平均值: X_{arv}=frac{1}{n}sum_{i=1}^{n}{left| x 
ight|} (信號絕對值的平均值)

峰峰值: x_{p}=x_{max}-x_{min} (信號變化的範圍)

波形因子: k_{f}=frac{X_{rms}}{X_{arv}}

峰值因子: k_{a} = frac{X_{max}}{X_{rms}} (峰值在波形中的極端程度)

裕度因子: k_{f}=frac{x_{p}}{x_{r}} (檢測信號中的衝擊信號,與峰值因子相似)

距離度量(衡量兩個分布的相似性,設 PQ 為兩個離散概率密度函數, n為離散點數目):

KL散度: KLD=sum_{i=1}^{n}({p_{i}logfrac{p_{i}}{q_{i}}}+q_{i}logfrac{q_{i}}{p_{i}})

Hellinger 距離: H(P,Q)=frac{1}{sqrt{2}}sqrt{sum_{i=1}^{k}{(sqrt{p}-sqrt{q})^{2}}}

資訊理論中特徵:

排列熵:先利用相空間重構延遲坐標法對原始信號進行相空間重構,對於一個時間序列, X=left{ x(1),x(2),cdotcdotcdot,x(n) 
ight} ,得到相空間矩陣 X=left{ X_{1},X_{2},cdotcdotcdot,X_{n-(m-1)	au} 
ight}^{T}其中, X_{i}=left{ x_{i},x_{i+	au},cdotcdotcdot,x_{i+(m-1)	au} 
ight} ,其中, m	au 為重構維數和時間延遲,然後對 X_{i} 里各元素進行按升序排序,得到 :X_{i}=left{ x(i+(j_{1}-1)	au)leq x(i+(j_{2}-1)	au)leq cdotcdotcdot leq x(i+(j_{m}-1)	au) 
ight} ,則排序方式為: left{ j_{1},j_{2},cdotcdotcdot,j_{m} 
ight} ,這是其中 m! 種排序中的一種,,計算每種排序出現的概率,設為 P ( left{ p_{1}, p_{2},cdotcdotcdot,p_{k} 
ight},kleq m! ),則其排列熵為: H=(-sum_{i=1}^{k}p_{i}log p_{i})/log(m!) ,排列熵是衡量一維時間序列複雜度的度量,排列熵值越大,時間序列越接近隨機,排列熵值越小,時間序列越有序。

近似熵(1991,定義:相似向量在由 m 維( m 為嵌入維數)增加至 m+1 維時繼續保持其相似性的條件概率):

對於一維向量 left{ u(i), i=1,2,cdotcdotcdot,n 
ight} ,重構 n-m+1m 維向量,其中 X_{i}=left{ u_{i},u_{i+1},cdotcdotcdot,u_{i+m-1} 
ight} 。對於 X_{i} ,求出 X_{i} 與任意向量的距離,其表達式如下, dleft[ X_{i},X_{j} 
ight]=max_{i,j=0,1,cdotcdotcdot,m-1}left| u_{i+k}-u_{j+k} 
ight| ,給定閾值 r ,對於每個 i 值,統計 dleft[ X_{i},X_{j} 
ight]leq r*std 的數目, std 為序列標準差,設: C_{i}^{m}(r)=frac{num(dleft[ X_{i},X_{j} 
ight]leq r*std)}{n-m+1} ,定義 phi^{m}(r)=frac{1}{n-m+1}sum_{i=1}^{n-m+1}lnC_{i}^{m}(r) ,將 m 加1,求出 phi^{m+1}(r) ,則近似熵為 ApEn(m,r,n)=phi^{m}(r)-phi^{m+1}(r) 。在實際種 m 常取2和3, r 常取為0.2,0.3。近似熵可以描述時間序列的複雜程度可由,時間序列複雜熵值大,信號頻率成分豐富,時間序列複雜;時間序列平穩熵值小,信號頻譜窄,時間序列規則。近似熵優點是具有一定抗噪性能,所需序列點數較少,1000點就可以計算出近似熵。

樣本熵(2000):樣本熵是基於近似熵的一種改進方法,針對的是近似熵種存在自身匹配引起的偏差,估值更準確,有更好的一致性。

其中: B_{i}^{m}(r)=frac{1}{n-m}numleft{ dleft[ X_{i},X_{j} 
ight] <r *std
ight}

B^{m}(r)=frac{1}{n-m+1}sum_{i=1}^{n-m+1}B_{i}^{m}(r)

SampEn(m,r,n)=-logleft[ B^{m+1}(r)/B^{m}(r) 
ight]

模糊熵(2007):模糊熵是基於近似熵、樣本熵提出的改進方法,針對距離與數目的二值化相似性判斷(數目小於 r*std 就判定為1,大於 r*std 就判定為0)的缺陷,提出了利用隸屬度函數來判斷相似性。模糊熵可以更精確的描述系統的複雜程度。

對於 嵌入維數m 和序列長度 n,得到重構序列 left{ X_{i}^{m} 
ight},i=1,2,cdotcdotcdot,n-m+1,其中, X_{i}^{m}=left{ u(i),u(i+1),cdotcdotcdot,u(i+m-1)
ight}-u0(i),其中 u0{i}=frac{1}{m}sum_{j=0}^{m-1}u(i+j),定義 d_{ij}^{m}=d[X_{i}^{m},X_{j}^{m}]=max_{k=0,1,cdotcdotcdot m-1}left| (u(i+k)-u0(i))-(u(i+k)-u0(j)) 
ight|,利用隸屬度函數求得相似度為: D_{ij}^{m}(k,r)=exp(-(d_{ij}^{m}/r)^{k}) ,則定義:

phi^{m}(k,r)=frac{1}{n-m}sum_{i=1}^{n-m}(frac{1}{n-m-1}sum_{j=1,j
e i}^{n-m}D_{ij}^{m}(k,r)) ,讓 m+1,則求得 phi^{m+1}(k,r),則模糊熵為: FuzzyEn(m,n,r,k)=lnphi^{m}(k,r)-lnphi^(m+1)(k,r) , k 取2或3。


推薦閱讀:

數字信號處理筆記1導論
從概念上理解濾波~
被詩人和金主爸爸逼出來的思考
數字信號處理筆記3FFT
Precoding 和 Beamforming啥區別

TAG:科技 | 數字信號處理 | |