航空客戶價值分析-聚類分群

05-03

對於飛機客戶的屬性是很多的，我們進行挖掘的目的是希望對客戶進行特徵分析，比較不同客戶的價值，分類，然後指定不同的營銷服務。

一共四十多條屬性，兩年的歷史數據，為6萬8千多條數據，大小為13.8M

對於客戶分群，自然是經典的rfm模型，但考慮到種種因素，決定採用trflc（加入時間，f，r，總飛行長度，平均折扣）指標進行分類

1.首先利用python對於各屬性數據進行探索分析，放到我原來用的spss就叫描述性統計。

#coding=utf-8#對數據進行基本探索#返回缺失值個數以及最大最小值import pandas as pddatafile=chapter7/demo/data/air_data.csv#航空的原始數據，第一行為屬性標籤resultfile=chapter7/out/explore.xlsdata=pd.read_csv(datafile,encoding=utf-8)#讀取數據，指定utf—8編碼print len(data)explore=data.describe(percentiles=[],include=all).T#print explore[:5]#包括對數據的基本描述，percentiles參數是指定計算多少分位數表，如四分之1分位數，中位數等，#t是轉置，轉置後更方便查閱explore[null]=len(data)-explore[count]#decribe函數是自動計算非空數值，需要手動計算空值數explore=explore[[null,max,min]]#print explore#explore=explore[null,max,min]錯誤explore.columns=[u空值數,u最大值,u最小值]#print exploreexplore.to_excel(resultfile)#導出結果

票價有缺失值，但前後數據差別太大，無法插補，而且相對於總數據來說也不算多，所以直接刪去。

還有就是金錢為0，飛了了兩年，票價為0，說明數據有問題

所以只保留，票價不為0，或者折扣和里程同時為0的數據

cleanedfile=chapter7/out/cleanedfile.xlsdata=pd.read_csv(datafile,encoding=utf-8)data=data[data[SUM_YR_1].notnull()&data[SUM_YR_2].notnull()]#有的版本是*，但是已經被&替代#票價非空index1=data[SUM_YR_1]!=0index2=data[SUM_YR_2]!=0index3=(data[SEG_KM_SUM]==0)&(data[avg_discount]==0)data=data[index1|index2|index3]data.to_excel(cleanedfile)print len(data)

內部數據處理完，對屬性變換規約

前面說了只保留五個屬性，因此留下六個（因為加入時間和觀測結束時間需要拿出來相減計算時間長度）

print data.columnsdata=data[[uFFP_DATE,LOAD_TIME,FLIGHT_COUNT,uavg_discount,SEG_KM_SUM,LAST_TO_END]]data.to_excel(chapter7/out/air_data_processed.xls)data=pd.read_excel(chapter7/demo/data/zscoredata.xls)explore2=data.describe().Texplore2=explore2[[min,max]]#這個只能提取列print explore2

對於五個屬性，極差較大，因此標準化

最常見的z分數標準化

接著就是最後的步驟：建模--聚類

根據業務場景，設定為5類

#聚類data=pd.read_excel(chapter7/out/zscoredfole_processed.xls)from sklearn.cluster import KMeansk=5kmodel=KMeans(n_clusters=k,n_jobs=1)kmodel.fit(data)r1=pd.Series(kmodel.labels_).value_counts()print r1r2=pd.DataFrame(kmodel.cluster_centers_)print r2r=pd.concat([r2,r1],axis=1)r.columns=list(data.columns)+[u類別數目]print rr=pd.concat([data,pd.Series(kmodel.labels_,index=data.index)],axis=1)r.columns=list(data.columns)+[u類別]#r.to_excel(chapter7/out/kmeans.xls)

這就是聚類中心，與各個類別的數目。（k—means均值聚類是隨機選擇聚類中心，所以每次聚類的類別號和聚類中心是不盡相同的）

構建雷達圖

客戶群4在fm上最大，r最小，客戶群3在l上最大，1在r最大，fm最小，0在lc上最小，2在c屬性上最大。

根據業務經驗，將五類化為保持客戶，發展客戶，挽留客戶，一般價值客戶，和低價值客戶

可以看到，類別都標註出來了，這裡因為偷懶所以把id刪掉了，所以只需要保留原始客戶的id，就可以根據id為索引查找客戶的屬性，對這些不同族群的客戶進行不同的分類營銷政策。