爬蟲與金融結合的前景?


大數據和金融結合一個非常重要的場景就是徵信,當然這裡面又分為個人徵信和企業徵信,其中個人徵信要求較高,需要5000萬註冊資本,還需要牌照,國內只有9家企業拿到個人徵信牌照。企業徵信相對門檻較低,應用場景也很廣泛,我在這一塊也有一些研究心得,歡迎大家拍磚。

企業徵信的可行性

?商事制度改革,催生大批小微企業

?互聯網金融開放,帶來徵信業需求快速增長

?《徵信業管理條例》、《徵信機構管理辦法》發布,提供了政策支持和規範

?政府信息公開,透明化,鼓勵市場積极參与

?徵信也在國內尚處於起步階段,中國市場誠信缺失等特點也決定了信用體系亟需完善

?綜上,小微企業徵信未來應該是以市場為主導,政府幫扶和指導為輔,階段性快速發展的一個過程,市場機會及發展空間巨大。

當然以上是可行性,也有存在以下風險:

?銀行及阿里等巨頭徵信業務主要依靠自身數據,自建系統,並藉助央行徵信系統,政府信用網等其他方式,根據業務主體不同分析方式和模型都不同,這一塊進入難度很大,短期內不大可能有第三方進入,但其定位應該是以直接服務終端客戶為主,不會成為獨立第三方信用服務平台。

?國內外目前可行的信用分析模型主要還是以財務指標為重點,小微企業領域,財務數據屬於私有數據,獲取和使用方式受到很大限制。

?國內外很多模型都不完全適用於中國小微企業,建立準確可靠的分析模型依賴大量的原始數據分析與驗證。

?徵信業獨立第三方權威性建立需要很長周期。

?綜上,策略上必須走差異化路線,以客戶和小微企業都能接受的方式獲取和使用私有數據,通過與一兩家合適規模的互聯網金融機構合作,以便根據其需求和積累的數據建立並完善分析模型,並結合政府信息等現有權威信息,保持獨立身份,然後逐步建立公信力。

可以鎖定以下客戶群體:

?以小微企業為主要客戶並且業務依賴小微企業信用的企業,例如互聯網金融公司,小貸公司,採購商,供應鏈企業。

企業徵信給客戶帶來的價值在於:

?徵信業能為以上客戶帶來的最大價值在於風險控制。徵信服務的重點應該是如何幫助客戶更低成本,高效率的進行業務審核與風險管控。

我也考慮了徵信的多種商業模式,個人建議如下:

?為大眾提供免費的基礎信用服務。

?為小微企業提供自身信用分析,監控,防止信用盜用,減少意外信用污點對企業的不良影響,引導企業建立良好信用。

?為金融機構和採購商,供應鏈企業等提供信用審核,信用分析,風險跟蹤預警等服務。

為了建立整個體系,需要很多步驟,其中最重要的是以下3點,這其中爬蟲的重要性非常明顯:

1. 數據收集:

?單個數據價值不大,數據的價值來自整合,因此必須儘可能獲取最多最全面的數據。

?對於能預先採集的數據要預先採集,其他數據可以進行實時採集。

?提供免費移動端(如微信服務號查詢服務)和web端(如信用分析工具),收集用戶行為及上傳的數據。

?其他私有數據利用合作、免費提供工具服務等方式獲取使用權,並在內部使用。

2. 數據分析建模

?對各種渠道獲取的數據進行匹配,相互校驗,完整度,可信度等深入加工。

?依據中國小微企業特點,在成熟分析模型基礎上調整,用大數據思路設計信用分析模型,在分析模型中加入行業和市場因素,並建立動態跟蹤模型。

3. 市場運作

?建立一個包括金融分析建模,互聯網金融等相關行業人才的核心團隊。

?先建立初期數據和分析框架,然後以一兩家合適規模的金融機構為起點深入合作,完善分析模型,對接市場具體需求。

?不斷積累數據以提高競爭力和壁壘,深入結合大數據以提升信用分析,風險管控等核心價值。

重點說一下做企業徵信的時候,爬蟲需要採集的數據源,我這裡羅列一些重要的,當然如果全部列出來可能有幾千個以上,拋磚引玉,請大家補充:

?各地工商網站:一手權威基礎信息

?各地信用網:政府已經整合的信用數據

?法院網站:失信被執行數據(信用污點)

?知識產權局網站:專利數據

?檢驗認證網站及行業協會:資質數據

?政府採購網站:供應商基礎信息,曝光信息(信用污點),中標信息

?其他信用信息平台:其他同行業企業或網站收集的信用數據

?客戶提交的資料以及分析工具中收集的數據:財務數據

?阿里,慧聰等企業信息網站:電子商務信息,認證信息,其他企業相關數據

?點評類網站(大眾點評,口碑等):社會輿論評價

?新聞媒體:社會影響力,正面負面報道

?招聘網站:公司人員類型及薪資等

?社交媒體:企業法人,影響力等關聯信息

有了數據之後,還要建立分析模型,分析模型的一些主要指標,我這裡以目前信用評估用到的基礎信息為核心,結合成數據分析模型和國內小微企業特點。

?基本情況:階段,規模,員工

?財務:盈利能力,償債能力,成長性

?領導者:學歷,行業經驗,個人信用記錄,婚姻等

?競爭能力:專利,資質,銷售渠道,採購渠道,

?市場因素:行業,對比

?履約情況:銀行信用,商業信用,誠信污點

結合以上所有內容,我把整個徵信系統的體系架構圖畫出來給大家看看:


近兩年,金融領域對網路爬蟲的推動很大。在我的專欄里講解的開源的Python即時網路爬蟲項目最初就是落地在徵信系統中。如下圖的系統結構:

根據服務的項目類型,我能感受的一些逐步的變化,上圖主要用於個人徵信領域,現在逐步向企業畫像和價值評估和風險分析方向轉移,比如,用爬蟲製作企業圖譜:

這些案例是對多源數據的整合,其實還沒有深層次涉入金融信息處理,目前我更加關注的是真正的大數據——量化


徵信 投資的情緒面分析 別的想不到了


推薦閱讀:

免費送POS機有什麼貓膩么?
如何防止被盜刷網銀?
刷臉支付真的會變成現實么?
樂視到底怎麼了?
如何看待福布斯發布的「中國互聯網金融公司 50 強」榜單中的分類?

TAG:爬蟲計算機網路 | 互聯網金融 |