記錄我是如何轉型大數據分析(三)——Lending Club分析

奔著風險管理和數據分析的目標繼續

前幾天看了@SHAN的《數據分析工具之Python大法》系列的文章,文中他使用了Lending Club 2016年第一季度的數據,這裡也學著自己動手分析一下2016年第四季度的公開數據。

公開數據鏈接(點擊這裡)下載數據以及數據說明

  • DOWNLOAD LOAN DATA

  • DATA DICTIONARY

有關Lending Club公司以及美國其他P2P公司,可以參考Top P2P Companies in the United States

下載數據之後,我們用pandas 讀取數據。

import pandas as pddata = pd.read_csv(LoanStats_2016Q4.csv,header = 0)data.head()

每一條記錄總共有111個變數。

data.describe()

2016年第四季度總共有103546條記錄,貸款金額平均在14151.44美元,最小的貸款金額1000美金,最高貸款金額40000美金。

從111個變數中,我們選取25個研究變數

analysis_columns = [issue_d,term,int_rate,emp_title,grade,home_ownership,verification_status,purpose,loan_amnt,total_pymnt,out_prncp,total_rec_int,total_rec_prncp,installment,annual_inc,dti,fico_range_low,fico_range_high,last_fico_range_low,last_fico_range_high,open_acc,loan_status,delinq_amnt,acc_now_delinq,tot_coll_amt]deal_data = data.loc[:,analysis_columns]

1、第四季度按月貸款筆數以及貸款金額總量

deal_data.groupby(issue_d).agg({loan_amnt:sum}).plot(kind="bar")deal_data.groupby(issue_d).agg({issue_d:count}).plot(kind = bar)

2016年10月到12月,貸款總金額以及貸款筆數都逐步增加,12月的貸款金額突破5億美金,貸款筆數也突破了35000筆。

2、第四季度貸款目頻率分布分析

deal_data.groupby(purpose).count().loc[:,"issue_d"].plot(kind =bar)

可以看到主要的目的是debt consolidation,大概有佔到57.7%,其次是用於信用卡,之後是房屋改善。對於debt consolidation,我的理解就是用一個新的貸款,貸出來的錢去償還另外的貸款。

Debt consolidation is a form of debt refinancing that entails taking out one loan to pay off many others.

3、第四季度貸款金額頻率分布

sns.distplot(deal_data[loan_amnt])

貸款金額數目的頻率分布圖中,在每個整數金額出都會出現一個小波峰;從整體來看,貸款金額主要集中在10000美金附近(與之前的貸款金額平均數統一)

4、不同評分等級的每月貸款總量分布

chart2 = deal_data.groupby([issue_d,grade]).agg({loan_amnt:sum})a = sns.barplot(lchart2.index,cloanbygroup[loan_amnt])a.set_title(loan amount by grade and by month)

從第四季度來看,A,B,C,D,E,F,G等級的分布基本一致。B,C類評級的數量佔比大概50%以上。

5、貸款人群中房屋擁有情況分析

a = deal_data.groupby(home_ownership).agg({home_ownership:count})a.plot.pie(subplots=True,autopct=%1.1f%%,figsize=(8,8))

有房的群體貸款佔比明顯低於有房貸或者租房子的群體。49%的的群體是有房貸,聯繫debt consolidation的佔比,是否可以聯想到有房貸的群體主要目的是為了償還房貸呢?

a = deal_data[deal_data.home_ownership == MORTGAGE]a.purpose.value_counts().plot.pie(autopct=%1.1f%%,figsize = (8,8))

我將有房貸的群體提取出來,以房貸群體為樣本,計算貸款目的比例。debt consolidation的佔比僅有少許增加,所以上面的猜想並不正確。

回顧所有的分析,主要是對Lending Club的第四季度業務回顧,下面附帶我從google 上截取了Lending Club收益情況。

推薦閱讀:

Lending Club 做的事為什麼商業銀行做不了?
盛大為什麼要投資 Lending Club,成為其最大股東?
哪些 VC 從 Lending Club 上市賺了大錢?
以 Prosper、Lending Club 為代表的 P2P 互聯網借貸模式是否得到了市場的驗證?本土 P2P 借貸網站前景如何?

TAG:LendingClub | 數據分析 | Python |