數據分析常用的方法

數據分析常用的方法

一、描述性統計

描述性統計是一類統計方法的匯總,揭示了數據分布特性。它主要包括數據的頻數分析、數據的集中趨勢分析、數據離散程度分析、數據的分布以及一些基本的統計圖形。

1、缺失值填充:常用方法有剔除法、均值法、決策樹法。

2、正態性檢驗:很多統計方法都要求數值服從或近似服從正態分布,所以在做數據分析之前需要進行正態性檢驗。常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。

二、回歸分析

回歸分析是應用極其廣泛的數據分析方法之一。它基於觀測數據建立變數間適當的依賴關係,以分析數據內在規律。

1. 一元線性分析

只有一個自變數X與因變數Y有關,X與Y都必須是連續型變數,因變數Y或其殘差必須服從正態分布。

2. 多元線性回歸分析

使用條件:分析多個自變數X與因變數Y的關係,X與Y都必須是連續型變數,因變數Y或其殘差必須服從正態分布。

3.Logistic回歸分析

線性回歸模型要求因變數是連續的正態分布變數,且自變數和因變數呈線性關係,而Logistic回歸模型對因變數的分布沒有要求,一般用於因變數是離散時的情況。

4. 其他回歸方法:非線性回歸、有序回歸、Probit回歸、加權回歸等。

三、方差分析

使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態分布總體;各總體方差相等。

1. 單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變數的關係。

2. 多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變數的關係,同時考慮多個影響因素之間的關係

3. 多因素無交互方差分析:分析多個影響因素與響應變數的關係,但是影響因素之間沒有影響關係或忽略影響關係

4. 協方差分祈:傳統的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,降低了分析結果的準確度。協方差分析主要是在排除了協變數的影響後再對修正後的主效應進行方差分析,是將線性回歸與方差分析結合起來的一種分析方法。

四、假設檢驗

1. 參數檢驗

參數檢驗是在已知總體分布的條件下(一股要求總體服從正態分布)對一些主要的參數(如均值、百分數、方差、相關係數等)進行的檢驗 。

2. 非參數檢驗

非參數檢驗則不考慮總體分布是否已知,常常也不是針對總體參數,而是針對總體的某些一般性假設(如總體分布的位罝是否相同,總體分布是否正態)進行檢驗。

適用情況:順序類型的數據資料,這類數據的分布形態一般是未知的。

1)雖然是連續數據,但總體分布形態未知或者非正態;

2)總體分布雖然正態,數據也是連續類型,但樣本容量極小,如10以下;

主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、遊程檢驗、K-量檢驗等。

五、相關分析

相關分析是一種非確定性的關係,研究現象之間是否存在某種依存關係,並對具體有依存關係的現象探討其相關方向以及相關程度。

1. 單相關:兩個因素之間的相關關係叫單相關,即研究時只涉及一個自變數和一個因變數;

2. 復相關:三個或三個以上因素的相關關係叫復相關,即研究時涉及兩個或兩個以上的自變數和因變數相關;

3. 偏相關:在某一現象與多種現象相關的場合,當假定其他變數不變時,其中兩個變數之間的相關關係稱為偏相關。

六、聚類分析

聚類是將數據分類到不同的類或者簇這樣的一個過程,因此同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。

1)系統聚類法: 適用於小樣本的樣本聚類或指標聚類,一般用系統聚類法來聚類指標,又稱分層聚類。

2)逐步聚類法 :適用於大樣本的樣本聚類。

3)其他聚類法 :兩步聚類、K均值聚類等。

七、判別分析

判別分析,是一種統計判別和分組技術,就一定數量樣本的一個分組變數和相應的其他多元變數的已知信息,確定分組與其他多元變數信息所屬的樣本進行判別分組。

判別分析與聚類分析的區別

1. 聚類分析可以對樣本逬行分類,也可以對指標進行分類;而判別分析只能對樣本進行分類;

2. 聚類分析事先不知道事物的類別,也不知道分為幾類;而判別分析必須事先知道事物的類別,並且知道分幾類;

3. 聚類分析不需要分類的歷史資料,而直接對樣本進行分類;而判別分析需要分類歷史資料去建立判別函數,然後才能對樣本進行分類。

八、因子分析

因子分析是指研究從變數群中提取共性因子的統計技術,從大量的數據中尋找內在的聯繫,減少決策的困難。因子分析的方法約有10多種,如重心法、影像分析法、最大似然法、最小平方法、阿爾發抽因法、拉奧典型抽因法等等。這些方法本質上大都屬近似方法,以相關係數矩陣為基礎。在社會學研究中,因子分析常採用以主成分分析為基礎的反覆法。

九、主成分分析

通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數,轉換後的這組變數叫主成分。其主要思想是降維,將n維特徵映射到k維上(k<n),k維是全新的正交特徵。這個k維特徵稱為主元,是重新構造出來的k維特徵,而不是簡單地從n維特徵中去除其餘n-k維特徵。

與因子分析比較:

相同:都能夠起到分析多個原始變數內在結構關係的作用;

不同:主成分分析重在綜合原始變適的信息.而因子分析重在解釋原始變數間的關係。


推薦閱讀:

為什麼你的女神總缺一支口紅?一張可視化圖表告訴你!
如何提取特徵?
數據思維---互聯網時代的必備能力
數據分析基礎—2.2.5 SWOT分析法
數據挖掘與可視化分析——以武漢市房價為例

TAG:數據挖掘 | 數據分析師 |