人工智慧對銀行推動的展望

文|鮑捷 文章寫於2016年11月25日

以下內容整理自鮑捷於2016年11月19日在第一財經和文因互聯合辦的《知識圖譜與新金融》沙龍活動中的演講。

一、銀行是什麼?

根據維基百科的定義,銀行是以存款、貸款、電匯、儲蓄等業務,承擔信用中介的金融機構。

佔據80%以上金融市場份額的銀行,是中國整個市場體系絕對的主流。券商相比銀行來說就小很多,VC則是相對更小的市場。起初我們設想從VC開始做,後來發現這個設想是錯誤的,所以就慢慢往前探索到銀行這邊來了。在這個過程中,我們也經歷了很多思想的變遷,比如說銀行到底是什麼?剛開始接觸銀行業務的時候,我們僅僅從信貸的角度來思考銀行,但越往後做越發現不能那麼狹隘地去看這件事情。

在投行互聯網化、銀行投行化的兩個大趨勢下,技術給金融機構帶來了很大的變遷。這個變遷並不是每一個人在第一時間都能體會到,或者說體會到了之後能夠去實踐,因為這中間確實有太多的顛覆式創新。所謂顛覆式創新,就必須經過一些坎。這件事情現在還沒有做得很成功,就是因為這種顛覆性的創新需要龐大的基礎工作。

談及銀行的歷史,現代銀行在美國發展了二百多年,在歐洲可能是四五百年發展起來的。但是銀行這個事物古已有之,最早出現在兩三千年前。在巴比倫時代就已經有了銀行與投顧。上面這張圖是在吐魯番出土文物裡面找到的,是唐朝時的一個信貸記錄。我們可以看到那個時候已經有了年化利率、展期利率、T+0索回等。這些我們現在能想到的銀行業務,一千多年前古人已經早就想到了,只不過他們缺乏我們現在的這些技術。在過去的半個世紀里,技術一直不斷地推動著銀行往前發展:一方面,技術提高了銀行現有業務的效率;另一方面,技術在每一個十年里都會創造出以前根本無法想到的新業務。

在計算機剛剛發明的50年代,沒有人會預想到信用卡會在十年後應運而生。而放到今天,這些提高信貸效率、降低欺詐率的嘗試,會不會給我們帶來全新的東西?我想應該是的。但具體是什麼?坦白說我也不知道,這可能就是技術的魅力。技術之所以是顛覆式的,是因為技術能夠帶給我們不可能想像到的新事物。

所謂「更快的馬」的比喻,相信很多人聽說過:福特在造車的時候,問大家需要什麼,大家都說需要更快的馬。最後的結果不是更快的馬,而是一個叫「汽車」的全新事物。這樣的邏輯在火車上也有體現,甚至火車比汽車在這方面更明顯。因為火車並不是什麼新事物,在有火車之前早就有了蒸汽機,也早就有了軌道。那時候,軌道上面跑的車,不是蒸汽推動的,而是馬推動的。雖然現在我們覺得火車替代馬車是很自然的事情,但回到一八二幾年的時候,其實這是一個非常難以想像的事情。因為當時的火車不但不穩定,而且還沒馬跑得快。

所以,現在我們看到技術創新的時候也是一樣的,最早的技術創新其實沒有傳統技術好。這也是為什麼PayPal創始人在回顧PayPal誕生時說:只有我們能夠創造出來PayPal,銀行專業人士沒有辦法創造PayPal。這是因為銀行的人沒有辦法跳出來,沒有辦法去承載銀行系統原來不能承載的風險。這就是顛覆式創新本身的特點。再舉個例子,比如說銀行有不良貸款控制的KPI指標,比如說今年是2000萬,現在用大數據手段,降到了1500萬,是不是銀行里每一個人都開心呢?不一定,比如說該部門明年的KPI指標可能就因此降到1500萬了,他的壓力反而更大了。在這種情況下,他反而沒有動力去做技術的革新。所以技術創新,一定要在組織革新的基礎之上。

那麼我們今天可能也面臨同樣的情況,對銀行業務的探索不能僅停留在不良貸款率控制上。我們要看得更長遠一些,不良率對於銀行來說是最重要的事情,對此大家都有不同的看法,那麼銀行是什麼?

銀行,是一個信用中介。實際上所有能夠創造信用的部門,都是有可能會動銀行乳酪的部門。可以這樣說,全中國有3000家上市公司,就有3000家銀行。互聯網公司之所以成長到一定程度後都會嘗試做支付,也是因為它們承載了信用。不管銀行是主動還是被動,每一個承載了信用的機構都會與銀行競爭。傳統的銀行是看風險的。風險是什麼,是過去!更重要的是什麼?是價值,是未來!這個對於我們現在做的中小企業服務更是尤為重要。銀行能不能快速轉變做價值判斷,是決定銀行能不能往前走的根本。所以銀行不能只停留在自己的象限里,不然銀行的敵人會從四面八方殺過來。

出處:楊凱生《商業銀行的大數據建設及其在風險管理中的應用》,互聯網金融12講 p235

銀行之所以現在能夠來做一些智能化工作,不是憑空而生,是基於過去十年整個系統的進化。上圖是工商銀行的一個大數據基礎架構,這個建設其實早在十年前就已經開始了。後來國內的一些其他的銀行,也是參照類似的架構。我們今天提到的很多所謂大數據徵信、大數據反欺詐,其實工行早就已經在做了。正是因為工行有了前期的這種大量數據的準備工作,今天才產生智能化的需求。

按照楊凱生行長的看法,中國的銀行已經把前三步做得比較好了。

第一步:銀行把內外部信息及內部多樣系統的信息進行匯總,實現秒級的信息集成並生成每日報表。

第二步:是對數據進行分析,分析到底為什麼會發生這種事情。例如一筆信貸發生變化,為什麼會發生這個變化。分析後才能發現背後的因果關係,才能做出預測。所以我們所謂的大數據,在大部分情況下還是停留在第二個層面,而真正往前走還需要到預測。

按照楊行長的看法,到2016年為止,銀行大數據在前面的三步中已達到比較成熟的程度了,後面兩步才是剛剛起步,後面兩步為什麼「難做」呢?就是因為僅僅依靠傳統統計的方法做大數據是不夠的,必須用各種人工智慧技術才能做好運營分析,快速秒級的實現一些規則的運行和提取。

第三步:動態,如何讓這個事情發生形成一個閉環、形成一個反饋。這兩塊都需要做大量人工智慧的投入才行。比如工行有上千萬筆數的住房抵押,我們知道抵押時抵押物的管理很重要,但是工行是否能把這上千萬棟房子的估值都過一遍?很顯然人力是無法解決,必須用機器。所以工行開發了一套系統,運用自然語言處理和機器學習估計房子的價值和跟蹤產權的變化。在這個上面才真正有可能去分析正在發生什麼。我推薦大家去看看這本書《互聯網金融12講》,從不同的角度來分析大數據和人工智慧對互聯網金融的影響。

二、有限的人工智慧

前面是從銀行的角度來講,接下來是介紹人工智慧。一個所謂正常的產業成熟曲線圖是:在一開始的產業成長期會有一個高峰,然後泡沫破滅,大家覺得這玩意是騙人的;再過兩年,大家又發現其實也不全是騙人的,其中還是有一些合理性。

但人工智慧的曲線是完全不一樣的。人工智慧到現在為止經歷了兩次冬天,為什麼?因為每過20年左右就有這麼一個循環,大家一開始說人工智慧要毀滅人類,然後過了幾年發現不是這樣。我在讀博士期間,恰好經歷了第二個「騙人」的低谷,所以我受傷非常深。昨天看到一個新聞,說百度已經開出80萬年薪來招深度學習的博士。這是我當時完全無法想像的。在從業者的角度,其實並不希望這種事情發生。我們可以預言到在不遠的未來,也許下一個「騙子」時期就會出現呢?

現在,大家在談人工智慧時都有過高的預期,覺得人工智慧可以解決很多問題,特別是在AlphaGo之後。這可能也是我們今天坐在這兒的原因。但是我們要清楚人工智慧不是萬能的。在我們談到人工智慧的時候,其實我們指的是不同的東西。比如,智能燈泡、智能音箱、智能汽車這三個中文裡都是智能,但其實講的是完全不一樣的東西。

  • 第一個,智能燈泡是一種自動化,就是去完成一些人反反覆復根本不用動腦子的重複勞動,這就是第一步自動化。
  • 第二個,智能音箱做的是殺馬特,Smart,就是小聰明。它可以完成幾個人一起完成的一個事情,比如數據集成,數據查找這樣一些事情。
  • 第三個,智能汽車是一種更高級的智能,它可以進行預測,進行規劃,進行一種洞察,需要長期的訓練才能夠擁有的這個智能,這也是我們所謂的Artificial intelligence(AI)。

在真正進行領域應用的時候,我們通常並不是真的需要一定要到AI這個層面上,Robot和Smart這兩個層面其實已經可以幫助我們完成很多工作。

第一個層次:比如,現在在每一個金融機構里,都會有一大堆實習生從PDF報表裡面提取數據。這樣的事情為什麼讓人類來做?這完全是對我們進化的一種侮辱!我們應該用機器來做這件事情,這就是Robot層面的事情。其實智能投顧(robot advisor)就是套公式,如果我們還僅僅用Excel進行計算的話,也是對我們的侮辱!所以應該用機器(Robot)來做,這是第一個層次。

第二個層次:是Smart,是對數據進行簡單分析,按照一定規則進行的過濾。美國 AlphaSense 這樣的公司就是這樣在做規則的提取。當前的人工智慧在這方面已經做得比較好了。我們現在可以比較有信心地說,「人工智慧可以把大部分實習生幹掉」這件事情應該是沒有問題的。兩年到三年之後,人工智慧是可以把數據分析師的大部分重複勞動取代掉。

第三個層次:是真正的資深的或者中高級層面才能用的洞察力。這樣的洞察力不但能夠發現事實,還可以解釋這是什麼,並且進一步做出預測。但是這種預測不是簡單的像量化投資那樣的預測。量化投資的預測是屬於短期的一種,時間序列分析就可以完成的,並不會涉及到事物本質的因果關係。我們真正想達到智能化,就需要去了解它的因果性,這也是目前只有中高級的分析師才能達到的。Kensho想達到這種目標,其實也還沒有達到。在其他領域,我們也可以看到像Watson這樣的系統,證明我們現有技術已經可以達到,但是在任何一個具體的垂直領域應用時,我們還需要進行人才、數據和市場的準備。這個在中國,包括美國在內,準備都不夠充分。這也就是為什麼今天討論的,是smart bank而不是intelligent bank(智能銀行)。因為目前的產業還接受不了這個事物,或者說成本太高做不了。那麼我們應該循序漸進地去做當下的歷史階段能夠做的事情。

人工智慧不是萬能的。我們大多數的時候被人叫做騙子,因為絕大多數人可以感知的信息都是機器不能夠處理的,例如表情、情緒。很多事物機器是沒有辦法去感受,很多時候,我們在認知上的這種局限,決定了我們在決策時會摻雜許多情緒。特別是金融市場,這不是一個理性的市場。所以我們真正想做到金融決策,依靠目前的技術只能做到小眾領域。我們把這一部分先做好,達到一個有限的目標。那麼現在我們有機器學習、知識圖譜以及一些現成的工具,我們把這一部分去加速現有數據處理效率的小事先做好,不是去做像AlphaGo那樣讓人分泌腎上腺素的那種事情。如果我們能做到供應鏈分析、對標分析、新聞事件分析這些小事,就已經可以節約大量的人力,可以說80%以上的人力都可以解放出來。

這些事情的底層我們用了很多的技術,包括我們剛才提到的知識圖譜。其實,知識圖譜不是一個技術,它是幾十個細分領域的綜合,涉及到知識提取的技術、知識表現的技術、知識存儲的技術、知識檢索的技術。每一個細分都有很多種。比如知識提取,會涉及到很多從自然語言、文本語言去進行表格、段落、句子的提取;再深一層就到實體的提取、關係的提取和規則的提取,有很多細分的技術。最終我們可以拿到一個結構化比較好的數據。隨便舉個例子,比如說對於表格的提取,我們知道在股轉書、年報、季報里,或者評估報告里有大量的表格,我們不應該再用人力處理這些表格,而應該運用機器做財務表格、文本的提取。

比如說我們發現,客戶經理的信貸測評報告中,是可以自動化提取一些內容的,比如這家公司是做什麼的、屬於哪個行業等。結合基金業協會的數據、股轉書的數據,還有工商的數據,我們可以發現一個公司除了自己聲明的股東之外,還有哪些隱藏的股東,可以通過推理挖掘出來,這是事件關聯的分析。當某個地區發了一個文件,說房地產要做調控,那麼到底會影響新三板上的哪些公司?這就涉及到我們要先建立一個行業邏輯,從一個事件到其對公司會產生的影響。更深入一點的,還可以解釋到底為什麼。中間邏輯鏈條,第一步、第二步、第三步為什麼發生,這是事件關聯的分析。

這是針對行業研究做的一個分析,是我們銀行項目的一部分。行業研究、企業研究這兩塊,是銀行研究最關心的內容之一。行業研究涉及的問題有:這個行業有哪些公司?這個領域做什麼?這個領域上游企業、下游企業是什麼?這些產品之間的關係?比如,新三板上面有一萬家公司在生產六萬種產品,這六萬種產品裡面,有一千多個行業,每一種產品在哪一個行業。這種事情如果由人力來做,沒有辦法做,我們應該用機器人來做。舉一個具體的例子,這也是銀行委託我們做的一個作業。銀行之前要找潛在的行業龍頭企業是用各地的分支機構來做,做了好幾個月時間才找到了200家潛在的行業龍頭企業。隨後通過和我們數據分析師交流,在我們資料庫裡面搜集了許多研報,研究員在評論一個行業的時候會有很多領頭企業的描述——那麼這種描述肯定有變化,但是通過自然語言處理,我們可以容忍這些變化——那麼只花了幾個小時就找到了400多家企業,比銀行之前幾個月做得都多。

我們通過自然語言處理的方法,可以大大地加速這個行業研究的過程。我們做完分析之後,要生成報告。這是我們早期做的一個公司的自動化報告。我們後來做了很多對比研究,我們委託了一個諮詢公司,找他們的實習生來生成這樣的報告,第一個月肯定做不出來這種報告的,一直培訓了三個月,他們才可以做出這樣的一份自動化的企業分析報告,大概要花一整天的時間,用機器來做的只要一秒鐘的時間。

這個基礎上衍生出來很多其他的需求,比如銀行問能不能做自動化信貸報告。自動化信貸報告也分為兩塊,客戶經理現場調查之後生成一個報告,風控經理拿到這個報告,也要生成一個風控報告。這兩塊其實都有大量的機械的勞動,都可以用機器來做的。這也是一個小的例子,這些報告里有一些數據加紅,都是可以自動的去開發,不需要人再去做。

我們今天看到了,從唐朝,到馬拉的火車,再到蒸汽火車發明,實際上經歷了技術在行業的推動的過程中,會經歷很多的一個一個的坎。我們今天看到的這種自動化報告,自動化的信息分析與數據提取,其實並沒有真正能夠突破銀行現有的業務,我覺得我們應該感興趣的事情是這個省略號裡面的東西。將來如果說銀行能夠往前走,人工智慧可能帶來的一些價值應該在這裡。


推薦閱讀:

PyTorch 這一年——十佳開源項目
從伺服器端到移動端的轉折,On Device AI革命進行時
semantic web 語義網路是如何工作的?

TAG:Ren'Py | 人工智能 | 金融 |