AI+互聯網金融--入職半年總結
業務關鍵詞:營銷、信審、反欺詐、催收
技術關鍵詞:機器學習、深度學習、統計NLP、Deep NLP、強化學習、複雜圖計算
17年7月畢業、入職半年、年底了、對做過的模型/項目做個簡單的總結(偏技術),順便show一下AI在互聯網金融行業的幾個應用點--當然,AI+互聯網金融有很多事情可做,這裡,我只是寫了我做的部分,涉及公司機密的內容我會略去。
智能催收
顧名思義,此項目使用人工智慧技術輔助催收,以提升催收效果、節約催收人員培訓成本。
目前我帶著一個實習生呼延偉在做:話術生成,來年繼續完善並著手探索催收機器人。
話術生成
根據案件信息自動生成一份催收話術範文,舉個簡單的例子:
例子:A向宜人貸借錢2w,如今逾期了兩期,期間打過一次電話催他還錢,通話中提了逾期對個人信用的影響等等,那麼下次何時給他打電話、通話時聊什麼能使他儘快還錢呢?
-- 模型就是用來解決這個問題的,把歷史的催收數據餵給模型讓它學會績優催收人員的慣用套路,後續使用時將案件信息告訴它,它就會分析案件並輸出一份標準的話術模板。
當然,實際情況要比例子複雜的多,對於不同的產品、催收對象、逾期數、前置鋪墊等等 講的topic和力度都會差很多,這些條件的組合是指數級的,用技術可以更好hold住所有情況也可以做的更細粒度;模型也沒有私心、它比人更願意分享、生成的話術也更規範、更合規;抽的句子級、主題級話術也是後續做chat bot的語料。
話術生成主要包括「話術抽取」和「範文生成」,主要使用了:詞權重模型、BOW、topic model(LSA、LDA)、關鍵詞/句抽取、層次聚類、自動摘要、語義連貫性度量模型等。其中,詞權重模型是後續很多步驟的基礎,現有的演算法與我們的場景不太match、實際效果也不好,比如TF--我發現好的話術/詞與其在一次催收中出現的頻率並不成正比(這裡也斃掉了一堆基於語義+圖+pagerank的演算法,如textrank等,它們本質雷同「詞本身/同義詞出現越多越關鍵」)、IDF--沒有考慮類別信息(績優or績差)、ICF--考慮了類別信息、但在二類情況下不夠smooth、等等,所以我根據業務先驗知識重新定義了token的local weight和global weight。
(小心得:現有的學術模型雖然很多,但並不一定與工業界的具體場景match,還是要多看數據、多看數據、多看數據,歸納先驗,根據實際情況選擇or重製model)
話術抽取:有了上面的詞權重模型後就可以用BOW、topic model對文檔向量化、做聚類,使內容雷同(如打給相同對象、具有相同話題 等)的文本大概率聚到一類中,從催收效果好的類中抽取topic(談個人影響、談法律、談上門催收等等),再從各topic中抽取范句。
範文生成:先根據案件信息決定本次通話的topic slot(一個簡單的基於統計的bayes就可以搞定),根據既定的topic選出候選sentences,通過語義連貫性度量模型+beam search把句子組合成更流暢的範文。這裡的語義連貫性度量模型是可以在chat bot中復用的,暫時用的是一個簡單的end2end模型,主要包括兩部分:1,hierarchical BILSTM encoder,分別做sentence級別的和paragraph級別的encode;2,topic encoder,對topic編號、embedding、通過RNN對topic sequence做encode;concat起1和2的vector後接DNN做評分。為了提高範文的質量與多樣性防止以後用到bot上後凈回復廢話(源於MLE固有的缺陷),用強化學習策略網路對模型retrain,根據句子的質量(用之前的詞權重模型度量)做good/bad reward,這一塊還在實驗。
(我去,一個項目就啰啰嗦嗦寫了這麼多,下面的得簡練一些)
反欺詐
這個好理解:根據進件特徵判斷進件人(即申請貸款的人)是不是欺詐用戶。
我主要從特徵和模型兩方面做了些實驗。
特徵挖掘:利用community detection演算法對社交網做分團、以發現欺詐團伙、為決策模型提供特徵。技術方面見這篇文章:圖計算1:社區發現(分團)-python(networkx 、igraph),不贅述了。
模型:實驗了一下 傳統ML的LR、隨機森林等以及DL的多層的NN做欺詐預測。其中在深層網路中實驗了多種trick:比如為了減少原始信息在中間各層傳遞時的損失,參考了residual network以及highway network的思路、有時甚至直接把原始input concat上當前層的輸出傳遞給下一層。結論就是:...嗯...業務上的東西不能寫、那麼結論就是~ 用pytorch寫各種腦暴的「非主流」模型最爽!可以靈活的拼各種奇形怪狀的模型,而且升級時API的變動也不會像TensorFlow那麼大!(講真、TensorFlow的API老是變來變去、我想說髒話)
信審機器人
業內對客戶的信息審核一般都是通過人工打電話校驗,現在也有些產品能通過讓客戶答題的方式自動對地址類信息做驗證,我司要出一款信審機器人~它功能更完善~吸取了競品的優點、改進了競品的缺點... (不敢透露太多)
對話管理的實現這塊主要是我和王燦做的,包括:webservice、知識圖譜、語義計算(比如用戶說他是做麵包的的,則需要把他歸一化到西餐廚師)等等。主要就是一些深度學習、語義增強、距離度量(cosine、word mover『s distance等)等方面的東西。(不敢透露太多)
智能營銷
用人工智慧輔助做營銷。
我做了:觀點分析模型,從電銷與客戶的通話數據中抽出用戶對各產品/活動/優惠/風險等方面的觀點,如客戶A對體驗金不感興趣、對滿減券感興趣、擔心P2P跑路、對養老產品感興趣 等等,可以用來做用戶畫像、精準推銷等。
技術:挺傳統的、其實就是個情感分析模型,一部分是粗粒度的判斷情感極性、一部分是細粒度地抽出實體詞及態度詞,基於 依存句法 和 業務 寫規則->統計->寫規則......而且,口語對話中存在大量的間斷、重複、顛倒使得依存分析的召回低的可怕...
智能客服demo
hackathon時,做了個智能客服toy,詳見這裡:做個聊天機器人/智能客服,木想到還賺了三千塊錢、並且當做demo掛在了團隊的網站上。
NLP基礎服務
做了個簡單語義相似度模型、綜合使用了統計NLP和Deep NLP、懶得寫詳情了、配了個簡單的web demo掛著團隊主頁、等待有需求的業務方來定製。
本來計劃中,最後這裡還要寫1000字的入職感想的,嗯~簡練點吧:挺好的。結束。
推薦閱讀:
※從E租寶,到錢寶網,兩個500億,互聯網金融該怎麼管?
※金融產品設計(二):投資者需要什麼樣的股票投資產品?
※銀行和四大AMC不良資產處置新招式全解
※一個互聯網金融反欺詐評分模型
※唯快不破:微粒貸用「執行力」踐行普惠金融的初心