信號中的特徵
來自專欄信號分析與機器學習
在信號分析及機器學習中,特徵的提取至關重要,好的特徵提取可以更清楚的了解信號中的信息。信號中的特徵主要來自兩方面,有統計學的信息,還有資訊理論中的知識。
信號的統計學的特徵有:
均值: (假設信號為離散信號,長度為 ,下同)
方差: (表徵概率分布的離散程度)
偏度: (表徵概率分布密度曲線相對於均值不對稱程度的特徵量)
峭度: (衡量實數隨機變數概率分布的的峰態;表示樣本的函數圖形頂峰的凸平度[1])
均方根: (常用來表徵有效值)
方根幅值:
整流平均值: (信號絕對值的平均值)
峰峰值: (信號變化的範圍)
波形因子:
峰值因子: (峰值在波形中的極端程度)
裕度因子: (檢測信號中的衝擊信號,與峰值因子相似)
距離度量(衡量兩個分布的相似性,設 和 為兩個離散概率密度函數, 為離散點數目):
KL散度:
Hellinger 距離:
資訊理論中特徵:
排列熵:先利用相空間重構延遲坐標法對原始信號進行相空間重構,對於一個時間序列, ,得到相空間矩陣 其中, ,其中, 和 為重構維數和時間延遲,然後對 里各元素進行按升序排序,得到 : ,則排序方式為: ,這是其中 種排序中的一種,,計算每種排序出現的概率,設為 ( ),則其排列熵為: ,排列熵是衡量一維時間序列複雜度的度量,排列熵值越大,時間序列越接近隨機,排列熵值越小,時間序列越有序。
近似熵(1991,定義:相似向量在由 維( 為嵌入維數)增加至 維時繼續保持其相似性的條件概率):
對於一維向量 ,重構 個 維向量,其中 。對於 ,求出 與任意向量的距離,其表達式如下, ,給定閾值 ,對於每個 值,統計 的數目, 為序列標準差,設: ,定義 ,將 加1,求出 ,則近似熵為 。在實際種 常取2和3, 常取為0.2,0.3。近似熵可以描述時間序列的複雜程度可由,時間序列複雜熵值大,信號頻率成分豐富,時間序列複雜;時間序列平穩熵值小,信號頻譜窄,時間序列規則。近似熵優點是具有一定抗噪性能,所需序列點數較少,1000點就可以計算出近似熵。
樣本熵(2000):樣本熵是基於近似熵的一種改進方法,針對的是近似熵種存在自身匹配引起的偏差,估值更準確,有更好的一致性。
其中:
。
模糊熵(2007):模糊熵是基於近似熵、樣本熵提出的改進方法,針對距離與數目的二值化相似性判斷(數目小於 就判定為1,大於 就判定為0)的缺陷,提出了利用隸屬度函數來判斷相似性。模糊熵可以更精確的描述系統的複雜程度。
對於 嵌入維數 和序列長度 ,得到重構序列 ,其中, ,其中 ,定義 ,利用隸屬度函數求得相似度為: ,則定義:
,讓 ,則求得 ,則模糊熵為: , 取2或3。
推薦閱讀:
※數字信號處理筆記1導論
※從概念上理解濾波~
※被詩人和金主爸爸逼出來的思考
※數字信號處理筆記3FFT
※Precoding 和 Beamforming啥區別