AI+互聯網金融--入職半年總結

02-13

業務關鍵詞：營銷、信審、反欺詐、催收
技術關鍵詞：機器學習、深度學習、統計NLP、Deep NLP、強化學習、複雜圖計算

17年7月畢業、入職半年、年底了、對做過的模型/項目做個簡單的總結（偏技術），順便show一下AI在互聯網金融行業的幾個應用點--當然，AI+互聯網金融有很多事情可做，這裡，我只是寫了我做的部分，涉及公司機密的內容我會略去。

智能催收

顧名思義，此項目使用人工智慧技術輔助催收，以提升催收效果、節約催收人員培訓成本。

目前我帶著一個實習生呼延偉在做：話術生成，來年繼續完善並著手探索催收機器人。

話術生成

根據案件信息自動生成一份催收話術範文，舉個簡單的例子：

例子：A向宜人貸借錢2w，如今逾期了兩期，期間打過一次電話催他還錢，通話中提了逾期對個人信用的影響等等，那麼下次何時給他打電話、通話時聊什麼能使他儘快還錢呢？

-- 模型就是用來解決這個問題的，把歷史的催收數據餵給模型讓它學會績優催收人員的慣用套路，後續使用時將案件信息告訴它，它就會分析案件並輸出一份標準的話術模板。

當然，實際情況要比例子複雜的多，對於不同的產品、催收對象、逾期數、前置鋪墊等等講的topic和力度都會差很多，這些條件的組合是指數級的，用技術可以更好hold住所有情況也可以做的更細粒度；模型也沒有私心、它比人更願意分享、生成的話術也更規範、更合規；抽的句子級、主題級話術也是後續做chat bot的語料。

話術生成主要包括「話術抽取」和「範文生成」，主要使用了：詞權重模型、BOW、topic model（LSA、LDA）、關鍵詞/句抽取、層次聚類、自動摘要、語義連貫性度量模型等。其中，詞權重模型是後續很多步驟的基礎，現有的演算法與我們的場景不太match、實際效果也不好，比如TF--我發現好的話術/詞與其在一次催收中出現的頻率並不成正比（這裡也斃掉了一堆基於語義+圖+pagerank的演算法，如textrank等，它們本質雷同「詞本身/同義詞出現越多越關鍵」）、IDF--沒有考慮類別信息（績優or績差）、ICF--考慮了類別信息、但在二類情況下不夠smooth、等等，所以我根據業務先驗知識重新定義了token的local weight和global weight。

（小心得：現有的學術模型雖然很多，但並不一定與工業界的具體場景match，還是要多看數據、多看數據、多看數據，歸納先驗，根據實際情況選擇or重製model）

話術抽取：有了上面的詞權重模型後就可以用BOW、topic model對文檔向量化、做聚類，使內容雷同（如打給相同對象、具有相同話題等）的文本大概率聚到一類中，從催收效果好的類中抽取topic（談個人影響、談法律、談上門催收等等），再從各topic中抽取范句。

範文生成：先根據案件信息決定本次通話的topic slot（一個簡單的基於統計的bayes就可以搞定），根據既定的topic選出候選sentences，通過語義連貫性度量模型+beam search把句子組合成更流暢的範文。這裡的語義連貫性度量模型是可以在chat bot中復用的，暫時用的是一個簡單的end2end模型，主要包括兩部分：1，hierarchical BILSTM encoder，分別做sentence級別的和paragraph級別的encode；2，topic encoder，對topic編號、embedding、通過RNN對topic sequence做encode；concat起1和2的vector後接DNN做評分。為了提高範文的質量與多樣性防止以後用到bot上後凈回復廢話（源於MLE固有的缺陷），用強化學習策略網路對模型retrain，根據句子的質量（用之前的詞權重模型度量）做good/bad reward，這一塊還在實驗。

（我去，一個項目就啰啰嗦嗦寫了這麼多，下面的得簡練一些）

反欺詐

這個好理解：根據進件特徵判斷進件人（即申請貸款的人）是不是欺詐用戶。

我主要從特徵和模型兩方面做了些實驗。

特徵挖掘：利用community detection演算法對社交網做分團、以發現欺詐團伙、為決策模型提供特徵。技術方面見這篇文章：圖計算1:社區發現(分團)-python(networkx 、igraph)，不贅述了。

模型：實驗了一下傳統ML的LR、隨機森林等以及DL的多層的NN做欺詐預測。其中在深層網路中實驗了多種trick：比如為了減少原始信息在中間各層傳遞時的損失，參考了residual network以及highway network的思路、有時甚至直接把原始input concat上當前層的輸出傳遞給下一層。結論就是：...嗯...業務上的東西不能寫、那麼結論就是~ 用pytorch寫各種腦暴的「非主流」模型最爽！可以靈活的拼各種奇形怪狀的模型，而且升級時API的變動也不會像TensorFlow那麼大！（講真、TensorFlow的API老是變來變去、我想說髒話）

信審機器人

業內對客戶的信息審核一般都是通過人工打電話校驗，現在也有些產品能通過讓客戶答題的方式自動對地址類信息做驗證，我司要出一款信審機器人~它功能更完善~吸取了競品的優點、改進了競品的缺點... （不敢透露太多）

對話管理的實現這塊主要是我和王燦做的，包括：webservice、知識圖譜、語義計算（比如用戶說他是做麵包的的，則需要把他歸一化到西餐廚師）等等。主要就是一些深度學習、語義增強、距離度量（cosine、word mover『s distance等）等方面的東西。（不敢透露太多）

智能營銷

用人工智慧輔助做營銷。

我做了：觀點分析模型，從電銷與客戶的通話數據中抽出用戶對各產品/活動/優惠/風險等方面的觀點，如客戶A對體驗金不感興趣、對滿減券感興趣、擔心P2P跑路、對養老產品感興趣等等，可以用來做用戶畫像、精準推銷等。

技術：挺傳統的、其實就是個情感分析模型，一部分是粗粒度的判斷情感極性、一部分是細粒度地抽出實體詞及態度詞，基於依存句法和業務寫規則->統計->寫規則......而且，口語對話中存在大量的間斷、重複、顛倒使得依存分析的召回低的可怕...

智能客服demo

hackathon時，做了個智能客服toy，詳見這裡：做個聊天機器人/智能客服，木想到還賺了三千塊錢、並且當做demo掛在了團隊的網站上。

NLP基礎服務

做了個簡單語義相似度模型、綜合使用了統計NLP和Deep NLP、懶得寫詳情了、配了個簡單的web demo掛著團隊主頁、等待有需求的業務方來定製。

本來計劃中，最後這裡還要寫1000字的入職感想的，嗯~簡練點吧：挺好的。結束。