數據分析該分析什麼?
很多時候我們走的走的就會忘記當初為什麼而出發。
我們有的時候在拿到數據以後不知道該怎麼進行分析,該去分析什麼,其實這些在我們以前的統計學中都學過。
不管是用Python還是R,其實和用Excel一樣,只不過現在之所以用Python、R是因為大數據時代么,數據太多,Excel的處理能力跟不上,但是這些都只是一個工具而已,核心還是圍繞統計學不變的。
今天就來聊聊我們該從哪些方向去分析(描述)數據。
01|總規模度量:
總量指標又稱統計絕對數,是反映某一數據的整體規模大小,總量多少的指標。他是對原始數據經管分組和匯總以後得到的各項總計數字,是統計整理階段的直接成功。
比如泰坦尼克號數據中總共有891條乘客數據,其中有342是倖存者。
02|相對度量:
相對指標是說明現象之間數量對比關係的指標,由兩個有聯繫的指標數值對比而求得,其結果表現為相對數,相對數的重要特點就是把兩個具體的數值概括為一個抽象的數.
比如:泰坦尼克號數據中我們可以把存者數據和所有乘客數據的相比概括為為倖存率這麼一個數。
相對數有有單位和無單位兩種表現形式,在相對指標中,大多數都是以無單位的形式表示的,無單位是一種抽象化的數值,常以係數、倍數、百分數等表示;而有單位主要是用來表現強度相對指標的數值,比如人口密度:「人/平方公里」。
03|集中趨勢的度量:
集中趨勢是通過指標反映某一現象在一定時間段內所達到的一般水平。用平均指標來表示。平均指標分為數值平均和位置平均。
比如:泰坦尼克號數據中平均年齡和平均票價。
1、數值平均是統計數列中所有變數值平均的結果。有普通平均數和加權平均數兩種。
2、位置平均時基於某種特殊位置上或者是普遍出現的標誌值作為整體一般水平的代表值。有眾數、中位數兩種。
眾數是被研究總體中出現次數最多的變數值,他是總體中最普遍的值,因此可以用來代表一般水平。如果數據可以分為多組,則為每組找出一個眾數。注意:眾數只有在總體內單位充分多時才有意義。
中位數是將總體中各單位標誌值按大小順序排列,處於中間位置的變數值就是中位數。因為處於中間位置,有一半變數值大於該值,一半小於該值,所以可以用這樣的中等水平來表示整體的一般水平。
04|離散程度的度量:
變異指標是用來表示總體分布的變異情況和離散程度的指標,通過變異程度也可以看出平均值指標的代表性程度,如果離散程度小,說明大部分數據都是挨著的,則平均值可以很好的反映整體情況的一般水平,反之相反。
全距(又稱極差)、方差、標準差等幾個指標是用來衡量數值的分散性和變異性。
1、全距(極差):平均數讓我們有辦法確定一批數據的中心,但是無法知道數據的變動情況,所以引入全距,全距的計算方法是用數據集中最大數(上界)減去數據集中最小數(下屆)。
全距存在的問題:
容易受異常值影響。
全距只表示了數據的寬度,但是沒有描述清楚數據上下界之間的分布形態。
2、對於第一種問題我們引入四分位距的概念。四分位數將一些數值從小到大排列,然後一分為四,最小的四分位數為下四分位數,最大的四分位數為上四分位數,中間的四分位數為中位數。
3、對於問題2我們引入了方差和標準差兩個概念來度量數據的分散性。
方差是每個數值與均值距離的平方的平均值,方差越小說明各數值與均值之間的差距越小,數值越穩定。
標準差是方差的開方。表示數值與均值距離的平均值。
05|偏態與峰度的度量:
1、偏度是用來衡量統計分布的不對稱程度或偏斜程度的指標,值越大,偏斜成度越大;值越小,偏斜成度越小。
2、峰度又稱峰態係數。表徵概率密度分布曲線在平均值處峰值高低的特徵數。直觀看來,峰度反映了峰部的尖度。值越大,越尖。
06|相關性度量:
上面提到的幾個維度是對數據整體的情況進行描述,但是我們有的時候想看一下數據整體內的變數之間存在什麼關係,一個變化時會引起另一個怎麼變化,我們把用來反映這種關係的指標叫做相關係數。
(相關係數計算公式)
關於相關係數需要注意幾點:
相關係數r的範圍為:[-1,1]。
r的絕對值越大,表示相關性越強。
r的正負代表相關性方向,正代表正相關,負代表負相關。
推薦閱讀: