記錄我是如何轉型大數據分析(三)——Lending Club分析
奔著風險管理和數據分析的目標繼續
前幾天看了@SHAN的《數據分析工具之Python大法》系列的文章,文中他使用了Lending Club 2016年第一季度的數據,這裡也學著自己動手分析一下2016年第四季度的公開數據。
公開數據鏈接(點擊這裡)下載數據以及數據說明
- DOWNLOAD LOAN DATA
- DATA DICTIONARY
有關Lending Club公司以及美國其他P2P公司,可以參考Top P2P Companies in the United States
下載數據之後,我們用pandas 讀取數據。
import pandas as pddata = pd.read_csv(LoanStats_2016Q4.csv,header = 0)data.head()
data.describe()
從111個變數中,我們選取25個研究變數
analysis_columns = [issue_d,term,int_rate,emp_title,grade,home_ownership,verification_status,purpose,loan_amnt,total_pymnt,out_prncp,total_rec_int,total_rec_prncp,installment,annual_inc,dti,fico_range_low,fico_range_high,last_fico_range_low,last_fico_range_high,open_acc,loan_status,delinq_amnt,acc_now_delinq,tot_coll_amt]deal_data = data.loc[:,analysis_columns]
1、第四季度按月貸款筆數以及貸款金額總量
deal_data.groupby(issue_d).agg({loan_amnt:sum}).plot(kind="bar")deal_data.groupby(issue_d).agg({issue_d:count}).plot(kind = bar)
2、第四季度貸款目頻率分布分析
deal_data.groupby(purpose).count().loc[:,"issue_d"].plot(kind =bar)
Debt consolidation is a form of debt refinancing that entails taking out one loan to pay off many others.
3、第四季度貸款金額頻率分布
sns.distplot(deal_data[loan_amnt])
4、不同評分等級的每月貸款總量分布
chart2 = deal_data.groupby([issue_d,grade]).agg({loan_amnt:sum})a = sns.barplot(lchart2.index,cloanbygroup[loan_amnt])a.set_title(loan amount by grade and by month)
從第四季度來看,A,B,C,D,E,F,G等級的分布基本一致。B,C類評級的數量佔比大概50%以上。
5、貸款人群中房屋擁有情況分析
a = deal_data.groupby(home_ownership).agg({home_ownership:count})a.plot.pie(subplots=True,autopct=%1.1f%%,figsize=(8,8))
a = deal_data[deal_data.home_ownership == MORTGAGE]a.purpose.value_counts().plot.pie(autopct=%1.1f%%,figsize = (8,8))
回顧所有的分析,主要是對Lending Club的第四季度業務回顧,下面附帶我從google 上截取了Lending Club收益情況。
推薦閱讀:
※Lending Club 做的事為什麼商業銀行做不了?
※盛大為什麼要投資 Lending Club,成為其最大股東?
※哪些 VC 從 Lending Club 上市賺了大錢?
※以 Prosper、Lending Club 為代表的 P2P 互聯網借貸模式是否得到了市場的驗證?本土 P2P 借貸網站前景如何?
TAG:LendingClub | 數據分析 | Python |