沈志勇:做一個大數據技術的搬運工

文/程一祥

如今,我們每個人都在談論「數據科學」,《哈佛商業評論》甚至將數據科學家定義為「21世紀最性感的職業」。在這個大數據時代,究竟什麼是數據科學?數據科學家又究竟是怎樣的一群人?他們在創造著什麼令人著迷的東西?DT君將在2018年走訪50位來自各行各業的頂尖數據科學家,希望能讓你們了解這些神奇的人和他們神秘事兒,為你們一窺數據科學的未來與未知。

畢業於北大數學院概率統計專業,在中科院軟體所完成數據挖掘方向的計算機博士學位,沈志勇這位一路「根正苗紅」、踩著大數據科班道路走出來的數據科學家說,如今他更願做一個大數據技術的「搬運工」——讓大數據在各行各業,「燃」燒起來。

▍根正苗紅的「數據科學家」

在沈志勇的印象中,記憶最深的莫過於他經歷過的兩次高考。第一次是在1999年,當時他考入了北京大學數學學院。第二次,則是在四年前的那個夏天。

2014年的6月與往常一樣,全國幾百萬考生正在為幾天後 「人生最重要」的一場考試做著最後的準備;老師和家長們,則一遍又一遍地為他們查閱著各種「押題」指南,期待有巧合或者奇蹟押中真題。

沈志勇坐在辦公室里,也在緊鑼密鼓地準備著什麼。不久,他指導的一個「大數據預測高考作文題」的項目面世。這是第一次有人用大數據預測高考作文題目。

(圖片說明:百度預測2014年高考作文題目)

幾天後,結果出來了。在全國18卷的語文考試中,他們的預測命中了其中12卷的作文命題方向。一時間,網友開始紛紛感嘆:大數據連高考都能預測,簡直 「神」了!

「那次頗具普及性質的活動讓更多人看到了大數據的價值、希望能了解大數據。」項目背後的沈志勇現在回憶起那次活動,覺得它的傳播意義更加鮮明。雖然對普通人來說,這種預測很新鮮;但對沈志勇來說,大數據已經是十多年的「老朋友」了。

本科畢業於北京大學數學學院概率統計系、在中科院軟體所獲取博士學位、曾在惠普從事數據挖掘研究,現任百度雲首席數據科學家……從簡歷上看,沈志勇是一位「根正苗紅」、科班出身的數據科學家。從大二接觸概率統計開始,沈已經在數據分析處理這條路上走了近二十年。

在他看來,「數據科學家」的概念無需咬文嚼字糾結科學二字,它們本質上就是集合工程能力、業務能力和理論知識的數據型人才。

(圖片說明:2010年,數據科學家Drew Conway發表了他認為的「數據科學技能韋恩圖」,認為集合了黑客能力Hacking Skill、業務能力 Substantive Expertise和數理知識的Math & Statistics Knowledge的人才才是數據科學家。沈認為,在實際操作中,黑客能力更多的是工程能力;

在大數據剛出現的時候,大家無法看清這個龐大複雜的新興事物。就像美國心理學和行為經濟學教授Dan Ariely當年描述的一樣,大數據就像青少年的性行為:每個人都在談論它,但是沒有人真正知道那是什麼,所以每個人都聲稱自己正在做這件事兒。

(圖片說明:Dan Ariely教授2013年在臉書上諷刺社會對大數據的狂熱追捧現象。)

沈志勇則認為,其實這件事兒遠沒有大家想的那麼玄。「都說把數據比作工業的新石油,從事大數據其實就相當於在從事石油開採與冶煉行業。你要經歷探礦(尋找並評估什麼數據源有價值)——採油(數據的ETL、預處理)——冶煉(數據建模與分析)——加工(數據產品化、可視化)這一系列過程,最後把數據產品和服務交到用戶手裡,燃燒,產生能量,驅動業務。」

「但是油田在哪裡呢?最後我發現,豐富的原生數據油田,主要在業界。」沈志勇說道。也正是意識到了這一點,博士畢業後他並沒有選擇留在學校科研院所,而是出走業界,做真正的「大數據」。

▍大數據預測,是玄學還是科學?

在與大數據的相關話題中,人們普遍最感興趣的就是「預測」。我們大多相信,未來是難以把握的,但是一旦這種不確定性被大數據「確定」了下來,我們豈不是就能「人定勝天」了?

抱著對這種美好未來的期盼,大數據火了之後,也有越來越多的人們開始用它進行各種預測:大數據相親、大數據求職、大數據買房等等,結果有好有壞,人人蔘差不齊。不久,相反的聲音也開始出現:大數據預測就和算命沒什麼兩樣,說到底還是一個運氣罷了。

「算命,其實是挺大數據的一件事兒」,沈志勇打趣說,「算命也是觀察對象、尋找規律,不過大數據的邏輯要更複雜一些。」沈認為,毫無疑問,大數據預測完完全全是科學的範疇。

其實,我們一直都在進行各種預測:預測天氣、預測股票等等,大數據預測與這些並沒有什麼本質不同。海量的數據資源讓很多之前看似「無法被預測」的事情,也能夠被預測出來,這就是大數據的力量。

沈志勇接著為DT君講了一個2014年世界盃的預測案例。「足球是圓的」,體育比賽一直以來都以其「不可預測性」而著稱。即使是最優秀的運動員,在瞬息萬變的賽場上也很難說就一定會贏。「黑馬」的頻頻出現是我們對體育賽事最津津樂道的話題之一。但在2014年世界盃比賽中,沈志勇和他的團隊就試圖用大數據來「預測」比賽結果。

包括高盛、微軟、谷歌在內的眾多公司當時都對比賽進行了基於大數據分析的預測,最終結果是:沈志勇他們團隊的預測是最準確的。他們從淘汰賽開始,100%預測對了每一場比賽的結果。

(圖片說明:2014年世界盃百度預測圖片。)

「在這個預測中,我們使用了幾百家家博彩公司的數據,這個數據源非常重要。」沈志勇笑說,在他們的預測模型中,負責模型設計的小夥伴考慮了球隊攻擊力,球隊防守能力,比賽本身存在的偏置等因素,以此專門開發了一套

「攻防因子模型」演算法刻畫上述因素,對球隊進行模擬比賽。「我們在電腦里進行了一萬次世界盃,最終給出了這份預測。」

用大數據來影響體育比賽其實已經不是新鮮事兒了。地處美國矽谷的NBA球隊金州勇士,在訓練、戰術、球員選拔等層面廣泛地運用了大數據分析,甚至據此開發出了一套小球戰術。在短時間內讓球隊從聯盟吊車尾,躍升為總冠軍,引領了整個聯盟的籃球風潮。

(圖片說明:覆蓋NBA場館的6台高速攝像機和背後的SportVU系統,能夠每秒鐘追蹤25次球員和籃球的運動,記錄下速度、距離、球員間隔和控球等數據,用於之後的體育分析,提升球隊成績。圖片來源:視覺中國)

收集數據、分析、建模、模擬、總結,這是大數據時代的一種預測方法。

沈志勇認為,利用大數據進行預測的關鍵在於「採礦」和「冶煉」。「在海量的信息流里,究竟什麼數據有用?怎樣才能獲取這些信息?獲取後要如何加工處理?這是都是考驗人類智慧的環節,這也是數據科學家這個角色的任務。」

在《黑鏡》第四季第四集中,導演們設想了一個「相親」的大數據預測系統。它會收集一個人的所有數據:包括你的喜好、性格等等,然後在虛擬空間進行模擬配對。讓這個「你」在系統中與其他用戶模擬交往1千次,最後給出你的「完美伴侶」。這與沈志勇他們的世界盃預測邏輯如出一轍。

差別只在於,我們暫時還無法收集這麼全面的數據罷了。

大數據讓我們從海量信息中心尋找相關性變得可能。有些東西無法預測,可能只是因為我們沒有收集到足夠的數據支持。

不過沈志勇也強調,大數據遠遠不是萬能的,完全隨機的事件也是無法預測的。「就像彩票」,沈志勇笑道。

除此之外,他還領導團隊做了景點人流量預測等很多其他預測性項目的建模工作,有些已經被政府等機構所採用,作為資源調度、人力分配等決策的重要參考依據。實實在在地改變了人們的生活。

▍搬運工的小目標:讓數據「燃」起來

常年浸染在數據一線,讓沈志勇始終走在大數據研發的最前沿。但他越來越發現:在互聯網以外,還有好多領域和產業並沒有充分利用大數據技術。在這一層面,大數據技術的發展與社會需求是脫節的。

「隨著技術發展和媒體渲染報道,大數據一夜之間從『專業技術』變成了『顯學』,引起越來越多人的討論。但是當他們想用的時候卻不知道該怎麼用,如何用。於是人們由期望轉為失望,開始說大數據都是忽悠。」沈志勇總結自己的經驗認為,與其更追求高精尖的陽春白雪,不如讓大數據技術落地到更多行業和領域中去,幫助它們實現轉型升級。

大數據技術在互聯網公司早已是基礎技術。沈曾經負責過一段時間的音樂推薦系統。他用了三個月的時間,通過梳理用戶數據,構造新的模型、微調模型參數等措施,在不增加任何外部成本的情況下,僅僅通過優化內部演算法,就讓產品的播放量達到了翻倍的效果,同時帶來了大量的用戶增長。這讓他第一次嘗到了從科研到實踐「學以致用」的樂趣。緊接著他想,大數據技術的應用場景,應該不局限於互聯網行業,應該讓它在全行業都能運用起來。

現在,沈志勇更願意把自己比喻成一個大數據技術的「搬運工」:「我從兩個源頭搬運東西:一個是學術領域、替他們找到真正適用的場景;另一個是從互聯網領域,把從中孵化出來的大數據技術與資源,搬運到其他行業。」

從「探索者」到「搬運工」,對於沈志勇來說,其實也是一種「取捨」:他放棄了去攀登更高層數據科學的機會。「但是必須有人要做這件事兒」,沈志勇說。大數據初期由研究和技術人員主導、以技術為核心,容易造成場景與需求端的脫節。

「我想做這樣一座橋樑:一頭連接著技術,了解大數據技術是什麼,能力的特點怎樣、邊界在哪裡;另一頭連接著行業,去了解行業痛點,抽象行業需求。基於對供需兩側的理解,做好頂層設計,讓大數據技術真正賦能全行業,實現業務升級。」沈志勇說道。

在百度大數據實驗室,沈志勇前後探索了大數據在近十個行業的應用思路與實踐。「金融、醫療、零售還有智能製造等是我們當時投入最多的幾個行業」沈志勇回憶道。

最近,行業關於「新零售」的討論一直是行業熱點。沈志勇和他的夥伴們早在15年初就開始了大數據技術在零售行業應用的探索。「零售大數據是我做過很有意思的項目,因為這個領域和我們的日常生活息息相關」沈志勇提到。

在這個項目中,沈志勇的團隊打通了線上的互聯網數據和線下購物中心的零售數據,為線下的零售實體,一方面提供了個性化的營銷手段——「個性化推薦原本是線上的電商的專屬,我們的技術讓線下零售實體也能為用戶提供個性化的服務和折扣信息推送」;另一方面基於零售實體周邊用戶整體互聯網行為的分析,為零售實體的招商、運營和選址等業務提供了大數據參考。

在醫療領域,大數據也同樣受到了關注。沈志勇舉了一個糖尿病研究中應用大數據的例子,糖尿病的成因有基因的也有生活習慣,醫院可以測得前者,但在生活習慣的數據獲取中,會受到很多主觀因素的干擾而難以準確全面的獲取。他們和相關領域的醫學研究人員合作,以地域為結構,分析了飲食習慣和糖尿病發病之間的關係,取得了很多有益的結果。

問起沈志勇在行業大數據探索的第一個行業,「當然是金融了,離錢近,行業數據基礎也好。」他笑著說,「我們曾經嘗試將大數據技術在金融理財產品的營銷、金融風控以及利用另類數據做量化投資等方向都做了積極的嘗試」。

此外,沈志勇還提到了和小夥伴們,一起探索如何製造業、教育、旅遊、文娛等多個領域,通過大數據技術,優化資源配置,降低損耗,提升業績,讓數據在這些行業,開採、冶煉出來,「燃」起來,驅動行業的轉型升級。

▍關於AI:你應該擔心,但也不要灰心

大數據和人工智慧,一前一後成為社會熱點,真有點「你未唱罷我登場」的感覺。隨著各大互聯網公司在人工智慧領域的競爭開始進入白熱化階段,互聯網以外的行業也紛紛加入戰團。也有越來越多的人開始擔心,人工智慧將來會不會搶走自己的工作?

「你應該有危機感,需要擔心人工智慧會帶給你很大的衝擊。」沈志勇在談到這個話題時,表情格外嚴肅。「但是你也不用太悲觀,因為人工智慧暫時不會真的這麼做。」

在沈志勇看來,人工智慧真正的價值在於四個方面。第一,改變了人機的交互方式(基於語音交互的智能家居等);第二,賦予機器類人的識別、判斷力,讓業務流程變得高效(車牌識別抓違章等);第三,讓非結構化數據結構化,為大數據提供更多數據(圖像、語音、自然文本的理解等);第四,提供人力資源供給側不足時的輔助與補充(醫療、教育、法律、金融等專業領域的機器人輔助等)。

關於第四點沈志勇認為,在未來,人工智慧不會去「搶」工作,而是首先去「輔助」工作。在他看來,當今社會,人類依然還被看病難、打官司貴、教育資源匱乏等問題所困擾,這些本質上是醫療、法律、教育等領域人力供給側資源的稀缺。在這些高度專業化領域,往往需要社會付出大量的時間去培養一個相關人才。比如在現代醫療體系中,一個合格的醫生通常需要5-10年的學習時間才能走進病房。人才培養周期實在太過漫長。

(圖片說明:醫療行業已經開始運用一些人工智慧產品,輔助醫生進行決策。一些圖像視頻技術已經可以幫助醫生處理大量的X光片診斷處理。圖片來源:視覺中國)

人工智慧會首先進入這些行業,一方面輔助現有專業人員提高效率,另一方面幫助新從業者降低職業門檻。而說服醫院等其他行業的人們,擁抱大數據和人工智慧的價值,就是沈志勇現在每天在做的事情。

聊到最後,DT君問沈志勇,做一個大數據技術的「搬運工」,是否意味著放棄探索「更高更強」的人工智慧?會有遺憾嗎?

「其實,在讀博士時候,我的導師正是研究人工智慧的學者。當年正趕上人工智慧的第二次衰落,導師跟我說,這個研究方向現在不好發paper(論文)啊。還有一個方向叫數據挖掘,這個領域非常有前途,不如你考慮一下?」於是,沈志勇就這樣與大數據結下了緣分。十幾年過去了,他對大數據的考慮愈發成熟,對行業的看法也更加深入。

沈志勇現在認為,大數據和人工智慧並不對立:「我個人投入更多的是數據驅動的智能。各個行業在完成信息化的進程中,緊接而來的是高效的運用隨之而來的數據的價值,讓產業變得更加「智能」。」

如今,他更加相信數據驅動才是普世的方法論。「信息化帶來數據,互聯帶來數據的反饋閉環,反饋閉環帶來產品和服務的高效的優化迭代。同時基於歷史數據中的經驗規律,做資源的優選和撮合,達到資源的優化配置。這是最核心的行業需求。」

這位大數據的「搬運工」,充滿自信地表示,要讓數據在各行各業真正「燃」燒起來。

題圖 | 站酷海洛

期待更多數據俠乾貨分享、話題討論、福利發放?在公眾號DT數據俠(ID:DTdatahero)後台回復「數據社群」,可申請加入DT數據社群。

關於數據科學50人

數據科技50人項目是DT財經旗下數據俠計劃重點內容產品,旨在與數據科學領域KOL共同挖掘數據內容的價值。我們從商業數據科學領域選出最具代表性的50位先鋒進行深度專訪,50人由DT財經獨立評審並發布,第一財經數據科技及合作夥伴傾力支持。

數據俠門派

沈志勇博士,百度雲首席數據科學家。曾任百度研究院大數據實驗室高級數據科學家。在進入百度之前,任惠普中國研究院研究員。本科畢業於北大數學學院概率統計專業,隨後於中科院軟體所獲得計算機博士學位。

他是大數據分析技術國家工程實驗室學術委員會成員,大數據流通與交易技術國家工程實驗室專家委員,蘇州市人工智慧學會副理事長。他還是中國大數據產業生態聯盟,中國雲服務聯盟,中國商業聯合會數據分析專委會,中國醫藥教育協會基層醫藥教育專委會,中國人才大數據聯盟專委會等機構的專家委員。

加入數據俠

「數據俠計劃」是由第一財經旗下DT財經發起的數據社群,包含數據俠專欄、數據俠實驗室系列活動和數據俠聯盟,旨在聚集大數據領域精英,共同挖掘數據價值。了解數據俠計劃詳情請回復「數據俠計劃」,投稿、合作請聯繫datahero@dtcj.com。

推薦閱讀:

TAG:數據分析師 | 大數據時代 | 數據科學家 |