標籤:

數據分析師養成記:相關係數,干神馬用的?

在金融投資中,投資組合經理常常利用具有負相關性的資產組合配置來分散風險。申萬宏源①通過計算28個行業的樣本,得出紡織服裝業和化工業的相關性最高,計算機行業和銀行業的相關性最低,相關性越高,「同漲同跌」的概率越高,反之同理。因此建議投資組合經理考慮構建銀行和計算機的行業資產組合,來分散經濟市場波動帶來的風險。

有一份對零售業巨頭沃爾瑪的分析報告中指出,沃爾瑪增加的分店數量與增長的凈收入之間的相關性為正,但是非常低。這意味著雖然分店數量的增加導致了凈收入的增長,但是增長的幅度非常小,比如增加了10家分店但是凈收入僅上升了0.01個百分點。不禁使人思考這種現象是否是由於沃爾瑪本身的戰略和對不同地區市場的份額配比不均。例如, 2006年沃爾瑪在中國地區開了 45 家分店,但這 45 家分店並沒有成功形成規模效應; 甚至連中國地區的配送中心都寥寥無幾,導致這 45 家新增的分店對沃爾瑪全球凈收入的貢獻基本可以忽略。

儘早識別出不同商業因素的相關性,可以幫助企業提前對一些快速增長的新興市場和要害地區進行戰略布局。

在上面的例子中「相關性」反覆出現,實際上相關性也是數據分析中常常用到的重要指標。在實際分析數據時,我們常常需要考慮如下問題:

  • 如何查看不同維度之間是否具有相關性?
  • 如何展現不同維度間相關性的強弱?
  • 如何判斷某些維度是否適用於所關注的問題?

在數據分析中,我們用相關係數來衡量兩個維度之間的線性相關程度。

相關係數的公式

公式:

取值範圍:相關係數取值範圍介於-1到1之間,-1代表兩者完全線性負相關,1代表兩者

完全線性正相關。

Kyligence Enterprise從v2.5.5版本開始支持設置相關係數的度量,通過預計算相關係數提升了數據分析的速度與企業決策效率,助力各個企業的新市場策劃與關鍵戰略布局。

Kyligence Enterprise中相關關係(CORR)函數的使用規則參見產品手冊(文章結尾處可見操作方法)。

小結案例

下面的例子計算了訂單總價和營收賬款的相關係數,按照商品折扣進行分組,數據來源於樣例數據集Star Schema Benchmark。

金融行業使用案例

案例背景

互聯網金融企業常常藉助用戶畫像來了解客戶信息,定位目標客戶。構建用戶畫像需要從海量的數據信息中,通過對用戶不同維度的分析,精確地提取出有價值的用戶數據範圍。

對於互聯網金融企業,用戶收入決定了用戶的消費能力,用戶收入越高越有價值。為了構建用戶畫像,選取用戶收入、年齡、學歷、身高、體重等維度,考慮用戶收入與其餘各維度間的相關關係。

如果某一維度與用戶收入呈正相關,則該維度數值越高,用戶收入越高。反之呈負相關時,該維度數值越高,用戶收入越低。若沒有相關性,則該維度與用戶收入無關,不建議用於構建用戶畫像。

案例實現

本段以用戶收入與用戶職業間的相關係數為例,從一個維度入手進行用戶畫像構建。為了定量計算用戶收入和用戶職業的相關係數,需要先將用戶職業數值化。由於不同行業從業人員的平均受教育年限差別較為明顯,所以選取平均受教育年限作為用戶職業的數值代表。選取2015年全國20個行業的年平均工資和行業平均受教育年限進行數據分析②。

在Kyligence Enterprise中導入數據並按需求創建模型,在設置Cube時添加CORR函數。本例中AVG_STUDY代表用戶平均受教育年限,AVG_SALARY代表用戶平均年工資。

在分析頁面根據需求輸入SQL語句:select CORR(維度1,維度2) from 表名

在本例中相關係數高達0.8374,非常接近1,可以認為用戶收入和用戶職業呈高度線性正相關。因此在構建用戶畫像時,用戶職業可以在很大程度上解釋用戶收入的高低,所以它是一個比較好的維度,用來標識不同收入人群的特徵。

案例結論

類似的,可以計算出用戶收入與不同維度之間的相關係數。

  • 用戶收入與年齡、受教育方向、工作地點等維度的相關關係都是高度線性相關。比如在

其他條件相同的前提下,35歲左右的用戶的平均收入高於30歲用戶的平均收入等。

  • 用戶收入同用戶的身高、體重、星座等維度的相關係數接近於0。也就是收入與用戶

身高、體重、星座關係非常弱,這些維度並不明顯影響個人收入的多少。

  • 高相關係數的指標對用戶的消費能力影響較大,而低相關係數的指標則不具有較大的商

業價值,不推薦作為指標加入用戶畫像構建。

結語

在數據分析中,CORR函數可以定量展現不同維度的相關性,幫助各企業篩選出需要的維度。Kyligence Enterprise幫助各企業進行基於海量數據的CORR函數計算,具有計算速度快、查詢效率高、輸出結果準確等特點。

之後還會針對更多統計函數推出實例介紹和使用展示,敬請期待。

  1. 申萬宏源:國內知名證券公司,其旗下研究所提出的行業分類被大部分國內其它的證券研究機構採用。
  2. 數據來源於《中國勞動統計年鑒-2016》

了解更多關於 Kyligence Enterprise 中相關關係(CORR)函數的使用規則可點擊下方鏈接

Login to access Kyligence Services?

docs.kyligence.io

使用說明

第一步:註冊Kyligence Account賬號並登陸

第二步:返回公眾號頁面,再次點擊【閱讀原文】,即可查看 Kyligence Enterprise 中相關關係(CORR)函數的使用規則參見產品手冊

看完不過癮?戳下方鏈接,歡迎登陸我們的官網查看更多信息喔~

Kyligence - Enterprise OLAP for Big Data?

kyligence.io


推薦閱讀:

數據分析 | 想入門數據分析要先了解這些才行
小白python之路的開啟
八大數據分析模型之——用戶模型(一)
Kaggle競賽--泰坦尼克號生存預測
2017上半年數據分析學習計劃

TAG:數據分析 |