信號中的特徵

08-15

信號中的特徵

來自專欄信號分析與機器學習

在信號分析及機器學習中，特徵的提取至關重要，好的特徵提取可以更清楚的了解信號中的信息。信號中的特徵主要來自兩方面，有統計學的信息，還有資訊理論中的知識。

信號的統計學的特徵有：

均值： $mu = frac{1}{n}sum_{i=1}^{n}{x}$ （假設信號為離散信號，長度為 $n$ ，下同）

方差： $sigma=frac{1}{n}sum_{i=1}^{n}{(x-mu)^{2}}$ （表徵概率分布的離散程度）

偏度： $gamma_{1}= frac{frac{1}{n}sum_{i=1}^{n}{(x-mu)^{3}}}{(frac{1}{n}sum_{i=1}^{n}{(x-mu)^{2}})^{frac{3}{2}}}$ （表徵概率分布密度曲線相對於均值不對稱程度的特徵量）

峭度： $K= frac{frac{1}{n}sum_{i=1}^{n}{(x-mu)^{4}}}{(frac{1}{n}sum_{i=1}^{n}{(x-mu)^{2}})^{2}}$ (衡量實數隨機變數概率分布的的峰態；表示樣本的函數圖形頂峰的凸平度[1])

均方根： $X_{rms}=sqrt{frac{sum_{i=1}^{n}{x^{2}}}{n}}$ （常用來表徵有效值）

方根幅值： $x_{r}=(frac{1}{n}sum_{i=1}^{n}{sqrt{left| x ight|}})^{2}$

整流平均值： $X_{arv}=frac{1}{n}sum_{i=1}^{n}{left| x ight|}$ (信號絕對值的平均值)

峰峰值： $x_{p}=x_{max}-x_{min}$ (信號變化的範圍)

波形因子： $k_{f}=frac{X_{rms}}{X_{arv}}$

峰值因子： $k_{a} = frac{X_{max}}{X_{rms}}$ (峰值在波形中的極端程度)

裕度因子： $k_{f}=frac{x_{p}}{x_{r}}$ （檢測信號中的衝擊信號，與峰值因子相似）

距離度量(衡量兩個分布的相似性，設 $P$ 和 $Q$ 為兩個離散概率密度函數， $n$ 為離散點數目)：

KL散度： $KLD=sum_{i=1}^{n}({p_{i}logfrac{p_{i}}{q_{i}}}+q_{i}logfrac{q_{i}}{p_{i}})$

Hellinger 距離： $H(P,Q)=frac{1}{sqrt{2}}sqrt{sum_{i=1}^{k}{(sqrt{p}-sqrt{q})^{2}}}$

資訊理論中特徵：

排列熵：先利用相空間重構延遲坐標法對原始信號進行相空間重構，對於一個時間序列， $X=left{ x(1),x(2),cdotcdotcdot,x(n) ight}$ ，得到相空間矩陣 $X=left{ X_{1},X_{2},cdotcdotcdot,X_{n-(m-1) au} ight}^{T}$ 其中， $X_{i}=left{ x_{i},x_{i+ au},cdotcdotcdot,x_{i+(m-1) au} ight}$ ，其中， $m$ 和 $au$ 為重構維數和時間延遲，然後對 $X_{i}$ 里各元素進行按升序排序，得到 : $X_{i}=left{ x(i+(j_{1}-1) au)leq x(i+(j_{2}-1) au)leq cdotcdotcdot leq x(i+(j_{m}-1) au) ight}$ ，則排序方式為： $left{ j_{1},j_{2},cdotcdotcdot,j_{m} ight}$ ，這是其中 $m!$ 種排序中的一種，，計算每種排序出現的概率，設為 $P$ ( $left{ p_{1}, p_{2},cdotcdotcdot,p_{k} ight},kleq m!$ )，則其排列熵為： $H=(-sum_{i=1}^{k}p_{i}log p_{i})/log(m!)$ ，排列熵是衡量一維時間序列複雜度的度量，排列熵值越大，時間序列越接近隨機，排列熵值越小，時間序列越有序。

近似熵（1991，定義：相似向量在由 $m$ 維（ $m$ 為嵌入維數）增加至 $m+1$ 維時繼續保持其相似性的條件概率）：

對於一維向量 $left{ u(i), i=1,2,cdotcdotcdot,n ight}$ ，重構 $n-m+1$ 個 $m$ 維向量，其中 $X_{i}=left{ u_{i},u_{i+1},cdotcdotcdot,u_{i+m-1} ight}$ 。對於 $X_{i}$ ，求出 $X_{i}$ 與任意向量的距離，其表達式如下， $dleft[ X_{i},X_{j} ight]=max_{i,j=0,1,cdotcdotcdot,m-1}left| u_{i+k}-u_{j+k} ight|$ ，給定閾值 $r$ ，對於每個 $i$ 值，統計 $dleft[ X_{i},X_{j} ight]leq r*std$ 的數目， $std$ 為序列標準差，設： $C_{i}^{m}(r)=frac{num(dleft[ X_{i},X_{j} ight]leq r*std)}{n-m+1}$ ，定義 $phi^{m}(r)=frac{1}{n-m+1}sum_{i=1}^{n-m+1}lnC_{i}^{m}(r)$ ，將 $m$ 加1，求出 $phi^{m+1}(r)$ ，則近似熵為 $ApEn(m,r,n)=phi^{m}(r)-phi^{m+1}(r)$ 。在實際種 $m$ 常取2和3， $r$ 常取為0.2，0.3。近似熵可以描述時間序列的複雜程度可由，時間序列複雜熵值大，信號頻率成分豐富，時間序列複雜；時間序列平穩熵值小，信號頻譜窄，時間序列規則。近似熵優點是具有一定抗噪性能，所需序列點數較少，1000點就可以計算出近似熵。

樣本熵（2000）：樣本熵是基於近似熵的一種改進方法，針對的是近似熵種存在自身匹配引起的偏差，估值更準確，有更好的一致性。

其中: $B_{i}^{m}(r)=frac{1}{n-m}numleft{ dleft[ X_{i},X_{j} ight] <r *std ight}$

$B^{m}(r)=frac{1}{n-m+1}sum_{i=1}^{n-m+1}B_{i}^{m}(r)$

$SampEn(m,r,n)=-logleft[ B^{m+1}(r)/B^{m}(r) ight]$ 。

模糊熵(2007)：模糊熵是基於近似熵、樣本熵提出的改進方法，針對距離與數目的二值化相似性判斷（數目小於 $r*std$ 就判定為1，大於 $r*std$ 就判定為0）的缺陷，提出了利用隸屬度函數來判斷相似性。模糊熵可以更精確的描述系統的複雜程度。

對於嵌入維數 $m$ 和序列長度 $n$ ，得到重構序列 $left{ X_{i}^{m} ight},i=1,2,cdotcdotcdot,n-m+1$ ，其中， $X_{i}^{m}=left{ u(i),u(i+1),cdotcdotcdot,u(i+m-1) ight}-u0(i)$ ，其中 $u0{i}=frac{1}{m}sum_{j=0}^{m-1}u(i+j)$ ，定義 $d_{ij}^{m}=d[X_{i}^{m},X_{j}^{m}]=max_{k=0,1,cdotcdotcdot m-1}left| (u(i+k)-u0(i))-(u(i+k)-u0(j)) ight|$ ，利用隸屬度函數求得相似度為： $D_{ij}^{m}(k,r)=exp(-(d_{ij}^{m}/r)^{k})$ ，則定義：

$phi^{m}(k,r)=frac{1}{n-m}sum_{i=1}^{n-m}(frac{1}{n-m-1}sum_{j=1,j e i}^{n-m}D_{ij}^{m}(k,r))$ ，讓 $m+1$ ，則求得 $phi^{m+1}(k,r)$ ，則模糊熵為： $FuzzyEn(m,n,r,k)=lnphi^{m}(k,r)-lnphi^(m+1)(k,r)$ , $k$ 取2或3。