標籤:

數加:從數據工程師到CDO的七次升職路

2017雲棲大會深圳峰會,阿里雲高級產品專家陳鵬宇帶來題為「數加:邁向數據智能之路」的演講。本文引入一個數據工程師到首席數據官的七次升職過程,闡述了阿里大數據的進化史,其中包括Quick BI、DataV、PAI、公眾趨勢分析、MaxCompute & Data IDE以及推薦引擎等都進行了詳細的解析,一起來了解下吧。

以下是精彩內容整理:

大數據實踐之路並不像新聞描繪的高大上,很多企業仍然還沒有解決看數據的問題,下面我會結合自身的體會,以一個虛擬人物的形象來描述如何一步步把企業大數據應用水平從早期的BI看數據一直到數據化運營到後來建立數據中台運營數據、激發數據創新的過程,在此過程中,數加也完成了它的使命,即幫助開發者在大數據方面實現升職加薪。

那麼,小D是如何實現七次升職,從數據工程師到首席數據官CDO的呢?

第一份工作

老闆需要一份經營報告,看過去一年各地區的新用戶發展情況。小D熬了一個通宵將數據用腳本拖到臨時資料庫中,寫了幾十條SQL並生成一份報表交給了老闆,並獲得了表揚。

而老闆/業務人員的需求越來越難滿足,他們會不停地要經營報告、會員分析等,小D自己是處理不完這些事情的,所以就會請數據開發工程師幫忙提數據,工程師需要考慮搭建數據倉庫,考慮從源數據找各種數據,理解數據含義、梳理數據結構並重新加工清洗,過程中經歷幾次的傳遞,出報表時可能以及不符合老闆需求,同時周期特別長,所以小D就會過著跟需求作鬥爭的苦日子,所有人都會跟他要報表。

所以小D突然醒悟:我缺一個能解放雙手的工具!

第一次升職

數加·Quick BI

數加Quick BI就是專門為解決人肉提數人的痛苦而誕生的,它可以做到在30分鐘內,老闆也能上手的BI。

報表加工過程零SQL,直接連接到數據源庫,拖拽式,類Excel多維分析 ,告別臨時拖數據,該過程簡單好用,不用寫SQL就可以將看數據門檻降的很低。

Quick BI是到阿里雲上的,可以很方便地連接雲上的各種數據源,包括redis、ADS、HybridDB等所有的雲上資料庫,點點滑鼠就出數據了。

Quick BI之所以能做到直連數據源做分析,是因為背後有很強大的OLAP引擎,提供秒級別的查詢響應,針對不同的查詢規模,提供合適的加速服務,從而獲得最快的響應速度。

Quick BI快捷好用,預置了很多模板,採用可視化模板,快速設計儀錶板,為各部門搭建數據門戶,基本一天可以搞定。

Quick BI報表可以嵌入系統自身運營系統中,可以把報表嵌入公司的Portal,方便大家集中看數據。

在Quick BI的幫助下,可以實現將需求響應速度從「1周」縮短到「1小時」。

但目前為止,小D仍然沒有得到解放,他依然在做報表,響應速度越快,需求方給的需求就越多,小D就會越累。有一天小D生病了,數據處理不過來時,可能就需要將Quick BI賬號給需求方,讓他們自己做。

需求方按照小D教的方法,真的自己把報表做出來了。

各部門紛紛效仿,連繫統工程師都開始使用 Quick BI!Quick BI for 萬網,CDN,DMS,阿里雲企業控制台,…

從此以後,公司里的每一個業務人員,包括大老闆,都使用 Quick BI 做數據分析!

數加·Quick BI 把小D從提數工作中解放出來,伴隨著數據分析效率的提升,小D迎來了第一次升職。人閑了之後,開始長出藝術細胞,小D開始琢磨著如何更好地展現數據?

第二次升職

數加·DataV

dataV做出了阿里雙十一震撼的實時業務大屏,小D想嘗試如何用更直觀、更震撼的方式呈現數據。

春節的紅包大戰給了他機會,小D的第一個可視化大屏作品誕生了。領導特別滿意,當場給我發了1萬元紅包,但小D想要更美的方式!於是…他做了各種嘗試:

實時指揮監控

業務運營大圖

直到有一次國家領帶來訪,CEO給國家領導作了一次精彩的彙報,小D深受鼓舞原來自己身上有辣么多藝術細胞。

於是,他買了DataV開發者版,開始想著如何賺外快。比如:

企業概況

工業物聯網

稅收分析

智慧城市

DataV 幫小D賺了很多外快,心有戚戚,總想著為社會做點貢獻:

2017/01/23-22時空氣質量

全球象牙走私犯罪活動數據

數加·DataV 讓我看見數據之美,在提升公司格調的同時,小D也迎來了自己的第二次升職。

第三次升職

美好時光總是波瀾不驚…直到某個周末,突然間,負面新聞鋪天蓋地而來。

一次負面新聞被炒作擴散了,該從哪著手分析呢?這時就需要一個手段,能夠快速的幫他對負面事件的影響和傳播情況進行預判和控制,這就需要輿情監控工具的幫助。

數加·公眾趨勢分析

公眾趨勢分析可以時刻關注您的口碑,它可以直觀的看到事件造成的影響面和傳播效果。

我們可以看到是誰在傳播輿論,共計轉發次數和每層轉發次數,是否被衰減,過程中有沒有水軍參與等,都可以一目了然。

還會對影響面進一步分析,擴散範圍有多大等等

也會對公眾對此事件感受如何作分析,在不同階段,公眾整體對事情的認知,會有博弈、會有專家跳出來,也有公司公關部門參與,我們可以用從情感值的變化來看公司公關採取手段是否有效。

通過公眾趨勢分析,我們總結出來以上幾種輿情擴散模式。

公眾趨勢分析主要從四方面為大家提供方便:

  • 監測:2分鐘更新一次大中型網站數據;涵蓋全球網路媒體,千萬源站,20億網頁(包含境外主流新聞網站數據來源);高效、穩定的爬蟲技術及平台支撐;
  • 預警:負面輿情自動預警;
  • 分析:輿情精準匹配;精準演算法將信息自動聚類;情感正負面分析;熱詞雲圖,專業圖表報告;
  • 跟蹤:輿情事件跟蹤。

利用公眾趨勢分析可以做很多很多事情,比如:

  • 傳媒行業:發現事件熱點,梳理傳媒脈絡,跟蹤欄目受眾的喜好傾向,鑒別新聞炒作
  • 企業品牌:分析消費者對品牌的認知和注意力遷移,關注競品分析,塑造品牌口碑
  • 旅遊行業:傾聽遊客反饋,預判旅遊出行趨勢和熱門程度,提升旅遊服務的體驗

數加·公眾趨勢分析 賦予我千里眼、順風耳,在挽回公司口碑的同時,小D實現了第三次升職。

第四次升職

此次負面新聞使得用戶粘性下降了,老闆要我出一個提升業績的方案。

小D給老闆建議做內容社交,先從新聞推薦做起。本來這就是嘗試性的事情,對於創業公司投入太多精力是不划算的,所以小D用了數加推薦引擎。

數加·推薦引擎

推薦引擎21天搭建個性化推薦系統,在新聞場景中推薦引擎提供了哪些能力?具體如下:

1. 新用戶冷啟動:通過阿里雲提供的海量用戶人群特徵提供最精準的推薦服務,為企業解決新客戶的冷啟動推薦;

2. 新聞智能分類:通過自然語言處理(NLP)、深度學習為新聞實現自動打標,並分類;

3. 用戶興趣畫像:基於新聞內容、用戶屬性、用戶行為三類數據,進行特徵提取,輸出用戶興趣畫像、品類畫像、新聞畫像;

4. 新聞實時推薦:新新聞毫秒級推薦(實時修正),老用戶毫秒級推薦(在線推薦),新用戶2~3分鐘推薦(近線推薦)。

推薦引擎真的很簡單,按照開題服務——上傳數據——配置推薦場景演算法——API對接——查看效果報表的流程實現。

除了新聞推薦,還做了短視頻、音樂、內容社交和群組等。我也推薦給朋友們用:

好看鎖屏

大麥網

以大麥網安卓客戶端為例,圖中為已有的個性化推薦。

短視頻推薦

數加·推薦引擎讓我第一次感受演算法的魅力,成功啟動內容社交的同時,小D獲得了第四次升職。

第五次升職

後來小D驚喜地發現:數加·推薦引擎 居然支持自定義演算法,但小D沒有學習過演算法,機器學習PAI恰巧可以解決問題。

數加·PAI

數據分析師 + 數加·PAI = 數據科學家

不需要很深入的了解,只需要演算法的關鍵參數配置,理解應用場景,經過1天的學習,很快就可以上手了。PAI提供了數據預處理、特徵工程、機器學習模型訓練和模型評估等方面整個過程的包裝。

了解後,小D開始用演算法解決社交場景中的難題:

  • 利用關係挖掘演算法K-CORE找出社交關係鏈中的粉絲領袖
  • 通過掌握粉絲領袖的屬性特點可以快速實現整個粉絲群體的人物畫像
  • 通過標籤傳播演算法,可以分析社交鏈路中的情感傳播模式,對微博大V的正面情緒或者是負面情緒在整個粉絲鏈中的傳播效果進行預判
  • 通過最大聯通子圖和最短路徑演算法,可以將社交鏈路中的人脈關係按照一度人脈、二度人脈準確分類

阿里雲機器學習(PAI)有最全的分散式演算法庫,支持流行的深度學習框架,阿里自己也會有深度學習的演算法。同時,PAI天池演算法大賽已經有數萬名選手參加,這裡才是最強大腦。

數加·機器學習PAI 讓分析師也會用演算法,提升數據化運營能力的同時,小D實現了第五次升職。

第六次升職

公司的社交網路越做越大,老闆開始想要收入了,從流量變現開始。

我們自己研發的營銷系統,很快遇到了瓶頸。比如:

  • 性能不達標:高並發訪問,整個廣告過程要求小於100毫秒
  • 營銷效果不佳:數據積累不夠,演算法效果一般
  • 實時優化與海量數據的矛盾:數據量日益龐大,但廣告優化的實時性要求不減
  • 工程量及運維挑戰:開發和運維的人力投入成本較大

我們不想過多的經歷解決技術問題,只關心流量問題,因此嘗試了數加營銷引擎。

營銷引擎

營銷引擎將原來流量系統遷移到新版流量系統中,對接的第三方投放系統也可以自己來做,3天可以搭建高水準的DSP系統。

營銷引擎提供了所有基礎的能力和功能,整個過程只需要一個人,2天半時間就可以將全新的營銷系統搭建起來。

營銷引擎提供很多技術能力,效果得到顯著提升。

最終給客戶形成完整的、帶數據的、自有的廣告營銷平台。

營銷引擎(Open Ad)為企業搭建自有DSP、ADN、DMP系統,提供穩定可靠有效的競價、投放、受眾定向、CTR預估、效果優化等核心能力。以API及源碼的形式提供。

數加·營銷引擎讓我們看到流量變現原來可以這樣玩,在幫助公司盈利時,小D又一次實現了升職。

第七次升職

內部數據已經形成了脆弱的生態系統,深層次問題浮出水面,比如規模達到PB級,算不動了;存儲和計算成本越來越高;平台穩定性差;同一份數據被重複存儲和計算;幾千份代碼不好管理等。

數加·MaxCompute & Data IDE可以幫助數據官搭建底盤。

數加·MaxCompute & Data IDE

簡單易用的數倉開發套件 Data IDE,從找表開始,到申請許可權,設計工作流,支持跨團隊合作,再到發布監控,包括數據質量的監控等。

整個數據加工處理的過程就是傳統的數倉,數倉的建設是一個迭代的過程,快速構建基於雲的數據倉庫,可以支持機器學習PAI演算法的挖掘、BI的OLAP等。

形成【數據中台】體系,支撐數據應用快速創新,需做到以下三點:

1. 統一平台,數據大集中:統一的存儲,統一的計算引擎,統一的數據開發平台

2. 資源共享,彈性分配:基於ODPS多集群技術,由數以萬計的伺服器提供超級計算能力,按需彈性分配給各數據開發團隊

3. 數據隔離,分權管理:基於ODPS多租戶機制,各部門可獨立管理自身的數據,獨立做數據授權

實現統一平台後,就可以做數據安全、數據質量、數據成本的管理,我們的演算法模型、數據等都是可以共享的。中台上面支撐的業務是一個存——通——用的過程。

所有行為的背後都是有數加引擎支撐,maxcompute是數據倉庫的基石,analyticDB可以讓數據探查變得自由等。

依附數加·計算引擎大數據的百年根基,搭建數據中台,自此,小D完成了到CDO的轉變。

原文


推薦閱讀:

掃碼支付吃個煎餅,街邊攤支付的背後也要有大數據運營

TAG:数加 |