對話東航數據實驗室王學武:打造爆款速勝產品,為數據找到立足之地
大數據文摘作品,轉載要求見文末n
大數據文摘記者 | 魏子敏
「數據實驗室不是科研組織,我們要的是成果落地。」
中國東方航空數據實驗室負責人王學武非常明確數據的價值所在,「科研成果變為勞動生產力需要有很長的路要走。而我們要的就是分析成果的落地,要的就是全面鋪開,釋放數據的潛能,通過數字化推動業務的提升。」
隸屬東方航空客運營銷委員會和東航信息部,東航數據實驗室經過一年籌備,於2017年初正式成立。
變現大數據資產的價值,推動業務價值提升,後期甚至可以孵化新的項目出來,儘管剛剛出現不到一年,王學武對這一籌備許久終於上馬的項目充滿了想像力。
而當把航空這一與用戶貼合緊密的領域與大數據放在一起,也確實可以產生很多新的碰撞場景。
數據實驗室不是隨便建起來的拍腦袋工程,在其正式成立之前,王學武和同事花費了大量的時間與公司高層、與目標用戶進行溝通。他很明確的告訴大數據文摘記者,首先,從公司戰略需求層面考慮,一個公司需要從戰略上明確,為什麼需要到數據實驗平台?將會起到什麼作用?再從高級分析用戶層面考慮,數據實驗室是否能解決他們現有數據分析的難點和痛點?有沒有一個明確的業務場景,能夠推動他們在數據實驗平台作嘗試?
「用的順手」是讓大家「真正用起來」的關鍵
「大家都在上(數據團隊/項目),但到底能做什麼?具體做什麼?其實很多都還不知道。但是別人都在做,你沒做的話就像土八路了。」王學武說。
數據實驗室是適應東航數據分析發展的產物。如何讓分析人員在實驗室真正創造價值,把數據探索、數據挖掘、數據可視化等工具用起來,卻不容易。對此,王學武認為,「對數據的價值有非常清晰的定位,讓大家用的順手」是讓產品「真正被用起來」的關鍵。
基本的出發點有了,團隊在著手做事情前,要有非常明確的目標和清晰的商業訴求,能清楚地描述給來自各領域的聯合數據分析團隊成員,統一目標,並制定合理的計劃。
數據實驗過程是一個持續探索、持續迭代的過程。不僅是對分析成果進行迭代,也對工作方式和流程進行優化。
「最重要一點,我們會針對不同類型的分析成果,制定它們的量化規則,量化通過模型所產生的經濟收益、生產效率的提升幅度或其他考核指標,以此量化數據分析的價值。」這也是數據驅動文化真正建立起來的重要步驟。
王學武稱東航建立數據實驗室沒有現成的經驗可參考,需要進行很多創新嘗試。實驗室前期籌建階段,也是一個推廣的階段,「我們經常與用戶進行頭腦風暴,一是能讓用戶更深入了解數據實驗平台,了解相關技術和機器學習概念,二是我們能了解用戶的痛點,與用戶一起構思大數據應用場景。定期對各部門的核心分析人員進行數據挖掘知識和技術培訓,以及統計學等方面知識培訓,形成很好的學習氣氛。」
合作各方,先打造幾款爆款產品「速勝」
「燃油是航空公司高層例會上最大的敏感詞,只要你提到【可以降低燃油能耗】,你就能看到,大家會立刻提起興趣。」王學武玩笑著說出了這個航空公司的大難題。
和很多數據團隊一樣,在成立之初,王學武的團隊面臨著如何讓高層和業務團隊看到自身價值的問題,這時候,打造一款「爆款」產品,讓各合作方看到數據的價值十分重要。「燃油效率分析」是其中一個這樣的課題。
油價是航空公司最大的變動成本項,航空公司急需通過控制油耗來降低運營成本。但是,與實際油耗相關的屬性有70多個,逐個去分析它們的相關性,很耗時,容易出錯。而且需要有很好的業務知識支持。
東航數據實驗室就此通過Oracle BDA解析QAR數據,準備打造了一款針對燃油效率分析的產品;分析發動機壽命,預測可能出現故障的設備。通過平台提供的工具,即便在不是很熟悉業務的情況下,也能很方便快速地發現一些問題:
首先,用戶在數據列表找到自己所需的數據,將它們導入個人數據沙箱;
然後,利用實驗室的數據發現工具,瀏覽數據狀況,剔除數據質量不高的屬性。屬性由原來的70多個減少到60個;
再按與實際油耗的相關程度進行排序,與油耗相關程度越高的就排在越前面,這樣就可以很快地發現那些是相關程度最高的屬性。比如:飛行距離、最大業載、機型、最大起飛重量、實際業載、發動機型號等;
再進一步,挑選幾個需要分析的屬性,可以看到它們與實際油耗的相關係數和圖形化的分布情況。為後續深入分析指引方向。
航空領域天然擁有不少數據。而提到飛行,除了油耗,多數乘客首先想到的應該都是黑匣子中記錄下的數據。其實,飛機飛行數據的記錄時刻都在進行,比如飛機快速存取記錄器(下稱QAR)記錄的數據,通過遍布飛機全身的數千個感測器,記錄飛機在飛行時的品質、安全等參數,是輔助飛行員養成良好飛行習慣的必需品。
QAR可實時記錄飛行員自飛機倉門關閉、爬行、攀升、漸進到降落的整個航程的操作行為和發動機狀態的數據。這個數據量很大,每年將產生100T的數據量。
通過飛機上的感測器,東航可以獲取每個飛行員從起飛到降落的所有操作行為,以及發動機的損耗,氣象資料等數據,利用大數據建立模型分析,找出飛行員日常操作和飛行潛在風險因素,提升安全水平,並可以有針對性地加強飛行員培訓,為其養成良好的操作習慣,糾正飛行員有時候出現的不規則的操作手動,減少因操作不當造成的飛機發動機損耗等問題,也會給飛行員提供更節省燃油的飛行建議,比如,在不同的機型、風力、高度、航道的擁堵等情況,給出建議的飛行速度。
東航數據實驗室技術架構探索:基於Oracle BDA解析QAR數據
如此高量級的數據存儲分析需求也對東方航空的數據架構提出了更高的要求。
東航數據實驗室利用Oracle BDA的12個節點所提供強大的計算能力和網路傳輸能力來處理來自營銷、運行、機務、物流、地服、電商、呼叫中心等業務領域的海量數據,並將處理好的結果數據供數據實驗室使用。
東航是基於旅客出行的全流程來建立數據分析體系。在旅客的航前、航中、航後環節,建立相應應用系統,增加和旅客的業務接觸點,通過「以客戶為中心」的服務理念,為客戶提供全方位的出行服務。並在每個環節都有相應的運營系統作支撐。
數據實驗室通過一套流程去促進業務提升。從上圖可以看出,整個流程分為執行層面和創新層面。實驗室是其中的一部分,數據流通過前端應用的客戶接觸點進入到數據平台,數據實驗室從數據平台獲得數據,進行分析,得到成果,通過規則引擎、數據產品等方式發布到應用前端,促進業務效率提升。
數據實驗室有個優點就是數據實驗環境與業務生產環境是相互隔離的。數據實驗室通過ETL把BDA、Teradata、Exadata、Greenplum的數據抽取到實驗室數據存儲區,用戶直接操作的是實驗室數據存儲區的數據,即便用戶在實驗環境進行大數據量操作時,也不會對現有的生產系統產生影響。
應用架構分為生產環境和實驗環境兩部分。實驗存儲區通過ETL從數據平台抽取數據,再整合用戶上傳的數據、各主題數據、參數數據和實驗成果等數據。用戶在數據沙箱獲取這些數據,再利用前端工具使用數據。目前,實驗存儲區使用私有雲Hadoop集群,未來也會考慮向公有雲擴展。
信息化是企業開啟數據化的第一步
東航在2014年就開始布局大數據戰略,時任東航CIO蔡陽先生帶領著信息部各產品部成立了BICC商業智能競爭力中心,進行數據,技術和思維的專題研究,定期交流成果。圍繞著這三方面,東航數據實驗室討論了很多主題,從雲計算,大數據技術,數據價值鏈,產品路線圖,演算法,再到一張機票後面的二維碼,都在討論範圍內。經過了1年多的場景探索,最終基本確定了營銷,服務和運行這三大領域的業務目標。
在很多傳統企業,信息化都是企業開啟數據化的第一步,數據團隊在進行數據分析、洞察、打造爆款產品之前,需要先整合企業內部數據,進而不斷引入結構化和非結構化的外部數據,並通過數據管理,提升數據質量,統一數據標準。
「信息化之後,數據在東航發揮著越來越核心的作用,航空業的數字化業態逐漸形成。我們信息部和各業務部門緊密聯繫在一起,共同攻關克難,所收穫的成果、經驗與教訓,這都將為建設數字化東航打下基礎。」王學武說。
王學武坦言,隨著分析用戶的水平越來越高,在使用數據分析系統時,也遇到了很多痛點和難點,阻礙他們進一步去分析數據。比如:
A.用戶在進行大數據量查詢與計算時,會直接對生產系統的性能產生影響;
B.實現用戶的分析需求,需要業務與技術來回溝通,周期較長;
C.隨著用戶分析能力提高,用戶使用數據的局限性也越來越明顯,他們迫切需要一個能自主,自助進行數據分析的平台,且有很多易用的工具選擇;
D.用戶希望能有一個快速定位問題、快速試錯的平台,從而降低決策和投資的風險;
E.他們想獲得更多的數據,而不限於自己部門的;
F.要打破公司內各領域間的數據孤島問題,能讓數據流動起來;
G.現在課題的攻關難度比以往更大,需要多領域的專家一起解決,這就需要一種創新的協作方式,有效銜接業務、技術、學科等領域的專家;
H.從應用數據的角度來看,用戶希望能「看得懂、拿得到、做得了事情」,即用戶能知道有什麼數據?它的質量怎麼樣?適不適用?通過什麼渠道可以拿到這些數據?通過哪些合適的工具去分析這些數據?從而產出一定成果。
為了解決這些問題,數據實驗室應運而生。
數據實驗室有4個核心理念:
開放:實驗室是開放的大數據實驗平台,用戶擁有最大程度的靈活性與自由度去使用數據;
連接:連接人、數據和分析演算法,以及能在不同的人之間,不同的數據之間,不同的演算法之間建立連接。這些連接會形成一種合力,能有效地解決課題研究的難點;
融合:數據融合、數據流動、數據活力。通過跨領域的數據融合,可以發現各領域之間的相關性,聯動性,通過有效的協調,提高整體的競爭力;
生產力:數據驅動、數據產品,分析成果與生產應用的緊密結合,促進價值提升。
數據人才建議:應該以明確清晰的商業目標為導向
現階段,數據實驗室成員來自信息部數據產品部、營銷委的網路收益部和客戶關係部,以及其他部門的分析團隊,共30多人。主要由具體作數據分析和實施課題的人員組成,公司領導為實驗室明確戰略方向和協調資源。成員包括業務部高級經理、統計學博士、業務專家、市場研究、產品規劃、產品經理、技術架構師、大數據工程師、高級數據分析等。
王學武對於數據人才的培養也給出了自己的建議:「以明確的、清晰的商業目標為導向,通過在作課題和項目的過程中,培養具有複合能力的數據科學人才。定期舉行技術、業務培訓和知識分享。發揮企業內社區的作用,提升成員的認同感與成就感,進而提升參與度。在工作中,計算機科學、數據可視化、業務分析、運籌、統計等角色的成員之間要保持緊密的溝通,在不斷提升自己領域的專業水平,以更好對外提供支持的同時,還要學習其他領域的知識和技能,建立一個良好的學習共進氛圍,讓成員具備更多的能力維度。
經常帶著商業問題,在數據中去探索,去驗證自己的想法。這數據發現的過程,會很有意思,很有趣,會逐漸理解數據,以及數據之間的關係,加快掌握業務知識。注意在課題和項目的實施過程中作總結和積累經驗,失敗的或成功的經驗都是非常有價值的,最後,套一句互聯網思維的話,懂得分享,才更有價值。」
數據驅動時代,數據團隊作為一家公司的核心競爭力所在,正在受到越來越多關注,行業、公司間數據化程度的你追我趕,也儼然一場數據軍備競賽。目前,相對公司中的財務、運營等已經規模化的組成,數據團隊還是不少公司可有可無的部分,即使是一些已經建立了獨立數據團隊的公司,其運作方式以及與其他團隊的協作
推薦閱讀:
※全棧 - 1 序言 暖個場子
※使用BulkLoad快速向HBase導入數據
※信貸數據探索(二)逾期客戶年齡特徵
※首份《頂級數據團隊建設全景報告》重磅發布: 逾半數據團隊稱人才儲備不足
※「銀聯消費數據」可以從哪裡獲取?