數據分析在各行各業怎麼用?(二)——「智能」證券報表系統建設
「 數據分析在各行各業怎麼用?」的系列文章將發布第二篇——證券行業。
上一篇回顧:數據分析在各行各業怎麼用?(一)——稅務分析支撐調控
————正經線————
證券行業是中國計算機應用高度密集的行業之一,如何利用好各項數據是券商擺脫低層次的同質化競爭,走向差異化服務優勢的重要途徑。那麼以數據為基礎,通過數據分析指導服務和決策就顯得尤為重要。
本文以東北證券為例,站在IT的角度來分享證券行業的數據化建設思路。
背景
在數據平台建設完畢之後,結構化數據初步實現了統一歸集,數據報表和圖表可視化均可以通過Cognos工具實現。但是,由於Cognos使用繁瑣、開發複雜,數據小組一直無法接手該工具。
同時,隨著新需求不斷出現,也亟需通過系統保存工作中產生的結構化數據,取代excel記錄和上報數據的模式。所以,IT小組自助開發了「數據助手」這一B/S架構的系統,較為完善的解決了當前數據填報的需求。
但是,因為多種原因,兩個系統並未採用統一資料庫,報表數據查詢基於oracle資料庫,數據填報則基於SQL server資料庫。數據同步通過ETL工具,每天晚上定時將數據助手庫數據抽取至數據平台庫。總之,兩個不同的系統和兩個不同的資料庫,讓業務人員在使用上費時費力,讓IT人員在後台管理上勞心勞力。
目前公司有著近百家營業網點,分布於全國各地,公司總部對各營業網點的任務數據下達需求越發強烈。此外,在大數據和商業智能報表系統技術的迅速發展下,信息技術部認為,公司需要一套全新的智能報表系統,解決上述全部痛點,同時能夠迎上大數據可視化的浪潮,幫助公司不斷向前。
周期/節奏
2015年11月,信息技術部完成了公司大數據分析挖掘平台可行性分析報告,其中智能報表系統將作為其平台上層應用系統之一。報告分析比較了開源版大數據平台和商用版大數據平台的優缺點,已經智能報表系統在大數據平台之上能夠為公司提供哪些應用場景。
2016年1月至2月,信息技術部完成了國內幾家大數據平台、智能報表系統等產品的POC測試,完成POC測試報告的編製。2016年7月,在智能報表系統方面選擇了帆軟報表系統。2016年8月,完成報表開發的總體需求分析工作,確定了統一的報表式樣。2016年9月,完成了各項需求的開發和測試工作。
2016年10月,智能報表系統上線試運行。2016年11月,東智能報表系統正式上線運行。2016年11月至今,信息技術部已經能夠獨立承擔公司各項報表開發工作,對公司各業務部在報表數據支持方面,做到了報表需求及時響應,快速落地。
任務/目標
1、智能報表系統能夠對接Hadoop大數據平台,通過此系統能夠完成BI拖拽和分析功能;
2、實現各營業網點有許可權的查詢統計自家資產、交易量和客戶數等數據;
3、實現各營業網點有許可權的查詢公司總部下達的任務及最新任務完成情況;
4、解決數據填報的問題,在一套系統中實現數據查詢和數據填報等功能,擁有附件上傳等功能;
5、實現經紀業務管理部、零售客戶部、網路金融部的考核任務填報、績效考核數據填報;
6、實現經紀業務管理部對公司各營業網點的基本信息、人員信息、經紀業務數據等多項數據的上報、審核和管理;
7、實現智能報表系統同電子簽字板對接,實現無紙化簽字辦公,實現辦公簽字統一管理
挑戰
項目實施過程中,主要的挑戰來自以下幾個方面:
1、傳統關係型數據倉庫對於大數據量數據的統計、計算效率上的挑戰。
2、公司各項經營指標計算方式的了解、掌握、梳理工作。公司數據平台採集匯總多個系統數據,每個系統有各自的供應廠商負責,所以如何了解、掌握各系統資料庫表結構,梳理出一系列準確的指標項數據是我們首要面對的挑戰之一。
3、由於營業網點數量近百家,並且每家營業網點均有3人使用此系統進行數據填表和查詢等工作,這樣在營業網點方面用戶數量有3百人,用戶數量較大。同時,地域分布廣,所以在系統上線初期,如何讓如此數量的公司員工學會使用該系統,讓其學會通過此系統完成數據填報和Excel數據導入等,是比較大的挑戰。
4、公司總部處於東北長春,相比其他地方,在IT技術、IT人員方面均有不小差距,在大數據技術方面更是如此。所以公司如何能夠招入更多大數據技術人才,組建大數據團隊,真正將公司大數據平台運作起來,是一項不小的挑戰。
實施過程/解決方案
1、平台架構
公司數據平台基於Oracle資料庫實現,在大數據量數據的統計、計算效率上性能低下,導致某些報表查詢時間超長,操作不友好。
在公司尚不具備Hadoop大數據平台的背景下,先通過編寫存儲過程的方式,優先計算出結果數據,並保存在一張結果表中,從而大幅縮短查詢時長。但是仍存在一個問題,就是查詢數據僅能實現T+1式查詢。與此同時信息技術部正在籌建Hadoop大數據平台,從而徹底解決此問題。
2、數據採集
在數據採集方面,由於東北證券擁有數據平台,能夠實現結構化數據的歸集。每個工作日,在櫃檯交易系統數據初始化完成後,開始進行櫃檯數據、CRM數據、自營、資管等十多個應用系統數據的採集工作。在數據採集方面不存在困難。
3、數據清洗
較為複雜的工作就是數據清洗。由於ODS層數據包括了櫃檯數據、CRM數據、自營、資管等十多個應用系統數據,並且每個系統供應廠商並不相同,所以在數據清洗環境耗時耗力較大。
各系統供應商中,有的不同意提供系統表結構文檔,有的同意提供系統表結構文檔但是文檔質量不高,或是文檔更新緩慢。
對於不同意提供系統表結構文檔的系統供應商,採用同其項目經理溝通指標需求的方式,由其反饋基於ODS層數據的SQL語句。
對於同意提供系統表結構文檔的系統供應商,採用先查看錶結構文檔,根據文檔內容同其項目經理溝通指標需求,自主編寫SQL語句。此方式較上一種而言,效率更高效,並且可以使我們快速了解表含義和結構關係。
數據清洗結果產出多項數據指標,用於支持智能報表查詢統計。
4、數據填報報表開發
數據填報報表分為總部業務部門填報報表和營業網點填報報表。
(1)總部業務部門
總部業務部門填報報表主要用於編製營業網點當年任務、預算,往年績效數據。
如公司網路金融部根據各營業網點去年開戶數量、導流數量,再乘以一定比例,即定義出各營業網點今年需推廣安裝融e通App的任務數據。此時,數據仍存儲在Excel文件中,通過系統的Excel導入功能,導入此數據。
營業網點通過系統可以查詢到自家各項任務數據,同時也可以查看到前一工作日任務完成情況數據。例如,本年度任務數量為1萬戶,截至到上一工作日完成數量3千戶,剩餘7千戶,完成比例30%。
由於總部下達的各項任務數據的計算公式每年都會有變動,所以採用通過數據填報的方式導入數據,而不是在數據平台中通過sql語言編寫。優點主要為,計算過程和計算思路均由業務部門完成,技術部門僅需根據需求提前做出填報報表即可。
(2)營業網點
營業網點通過填報報表主要進行數據上報等工作。
公司在沒有這種B/S架構系統之前,每個月月初,營業部數據上報需要通過填寫Excel後,郵件發送至總部,再由總部逐一核查存檔。這種工作方式,對於擁有上百家營業部的公司而言,簡直是噩夢。
而如今,通過此系統,公司營業網點在每月月初填報數據即可。現已經做成的填報報表有營業部基本信息報表、營業部人員信息報表、營業部許可證掃描件、營業部經紀數據上報報表等6張填報報表。
(3) 實施過程
- 在數據平台中創建符合該需求的資料庫表,建立表欄位及索引,建立ID主鍵。
- 通過智能報表系統的可視化報表開發工具,完成填報報表與數據平台相應表的關聯,保證在系統前端,新增、修改、刪除數據的同時,對後台物理表進行相同操作。
- 定製開發Excel增量導入插件,通過java編程方式,開發Excel增量導入插件,實現大批量數據,以Excel增量導入的方式,將數據存儲後台資料庫。
- 將開發好的數據填報報表掛至系統,在授權後,公司業務部門人員可以訪問此報表。
5、考核數據、經營數據查詢
除數據填報報表外,另一大類別報表就是考核、經營數據查詢報表。
公司總部,如經紀業務管理部、零售客戶部、機構業務部、網路金融部等等,查詢公司經營數據為全體營業網點數據。公司各營業網點則只能查詢自家經營數據。
經營數據包括了,新開客戶數據、客戶資產數據、客戶交易量數據、理財產品持倉數據等,包括了公司所有業務部門,所有業務的經營數據。
實施過程:
- 各項經營指標的編寫梳理工作,通過編寫sql的方式,根據指標基本含義,完成某統計報表腳本編寫工作。
- 通過智能報表系統的可視化報表開發工具,完成sql腳本同報表樣式的綁定工作。
- 將開發好的統計報表掛至系統,在授權後,公司業務部門人員可以訪問此報表。
6、編製使用手冊
使用手冊主要用於讓公司各業務網點的數據填報人員儘快了解掌握數據填報功能。
結果/效果總結
案例項目上線後,該系統得到了各業務部門、營業網點的肯定。系統指標項規模達到1千左右,系統月查詢次數突破1.8萬次/月,環比增加100%以上。
營業網點在數據查詢、統計、上報方面更加遊刃有餘,實時高效,讓其有更多的時間做客戶服務工作。
未來的規劃
目前整個公司的數據量約有30TB,在傳統數倉下,查詢統計數據時效性均無法令人滿意,在做數據挖掘時,傳統數倉中的數據模型工具缺少已成為阻礙挖掘的絆腳石。當前,總部已經立項並考察測試了國內多家大數據平台,同時結合帆軟報表進行POC測試。
未來打算在大數據平台上線後,結合現有的BI 功能,實現以下項目目標。
一期項目建設目標(2017年7月至2017年12月)
(1)搭建分散式大數據平台,作為公司唯一的分散式架構平台,作為公司唯一的結構化數據和非結構化數據存儲分析計算平台;
(2)用好公司現有數據,將數據指標化、標準化;
(3)完成與智能報表系統對接,讓業務部門可以自主出具報表;
(4)上線大數據平台門戶系統,作為公司大數據平台門戶系統,管理大數據平台上層各項應用系統。
二期項目建設目標(2018年1月至2018年6月)
(1)補充外包數據,打通公司客戶的內外數據;
(2)建造客戶服務、產品營銷新模式,創建客戶/產品標籤系統,上線資訊/產品推薦系統,創建客戶、產品分析模型;
(3)加強與線上用戶的聯繫和互動,提升客戶體驗;
(4)建立多項風險分析模型,做到風險控制、預警。
三期項目建設目標(2018年7月至2018年12月)
(1)將固定的流程化業務工作,交由機器演算法完成,減少人工工作量,例如非現場開戶業務、電話服務錄音分析;
(2)加強公司輿情信息監控,及時避免負面消息的蔓延;
(3)監控金融證券輿情信息,分析並得出其對市場的影響力度,即可服務公司,也可服務客戶。
推薦閱讀:
※簡析關係型資料庫和非關係型資料庫的比較(上)
※分庫分表基礎
※常用科研軟體和計算資料庫鏈接 (持續更新)
※學習SQL【3】-查詢基礎
※八字資料庫---庚金日元