一個華人數學博士,16年前如何押准中國大數據變革?

文/胡世龍

如今,我們每個人都在談論「數據科學」,《哈佛商業評論》雜誌甚至將數據科學家定義為「21世紀最性感的職業」。在這個大數據時代,究竟什麼是數據科學?數據科學家又究竟是怎樣的一群人?他們在創造著什麼令人著迷的東西?DT君將在2018年走訪50位來自各行各業的頂尖數據科學家,希望能讓你們了解這些神奇的人和他們的神秘事兒,為你們一窺數據科學的未來與未知。

1990年的一天,一位即將博士畢業的華人學生站在加州大學伯克利分校的薩瑟塔(Sather Tower)上向遠方眺望。這所出過近百位諾獎得主的頂尖學府的標誌性建築於1914年建成,見證了近一個世紀的潮起潮落。而將同樣被見證的,還有20年後橫跨太平洋的一場大數據變革。

這是個滿城盡談大數據的時代,各種大數據的創業公司多如牛毛。

但如果時間倒轉回16年前,情況可就不同了。當時,美國互聯網泡沫(Dot-com Bubble)剛剛結束,劉強東的京東還在中關村做著光磁產品代理,馬雲還在構思一個叫做淘寶的個人網路購物網站。

這時候要是有人說要在中國做一家數據公司,你會怎麼看?

有個人就這麼做了,而且理由是「我想辦的公司要和數學相關,除了數據挖掘想不到什麼更合適的」。

說出這話的是那個曾經站在薩瑟塔上的華人學生,他叫宣曉華,一個押對了這場中國大數據變革的人。

他2002年創立的華院數據,16年間,從幾人發展到近1000人,並且在公司體系內成功孵化了20多家各垂直領域的大數據創業公司。

在成立的前10年,公司沒有融資,卻成功度過了大數據的「萌芽期」。這背後,宣曉華是怎樣的一個人?華院又是怎樣的一家公司?

因為數學,愛上數據

上海中心城區東北角的楊浦五角場地區,一直以來都以高校眾多、創新氛圍濃厚著稱。12月初的一個午後,在離楊浦創新地標創智天地一路之隔的一幢大廈內,DT君見到了剛剛開完會的華院數據創始人宣曉華。他的另一個身份是中國工業和應用數學學會副理事長。

待人謙和、偶爾微笑、略帶浙江口音的普通話,是他給DT君的第一印象。而在DT君接觸的華院幾位員工看來,低調、愛給員工講數學,則是宣曉華的另外兩個「標籤」。

宣曉華對數學的喜好,從小就開始了,後來一直延續到大學、碩士。再後來他又赴美國加州大學伯克利分校攻讀數學博士。這所名校曾經走出了國際數學大師、微分幾何之父、沃爾夫數學獎(數學界的諾貝爾獎)得主陳省身等華人數學家。

一切都順理成章,宣曉華走得原本是一條外人看來極為學術的路線,但因為在博士期間跟著導師接觸了相對偏嚮應用的計算數學(Computational Mathematics),跟美國工業界有了更多接觸,這條路線發生了轉變。

當時,計算數學雖然研究的主要是演算法相關理論,與各種方程、演算法打交道,但卻是當時美國工業界的大企業所迫切需要的。這門學科在電路模擬、航天航空、機械設計、金融等環節,都十分重要,在當時算是熱門的專業方向。

等到畢業後,宣曉華順利進入了當時如日中天的惠普公司,從事電路模擬方面的演算法研究和大型軟體開發。

「當時惠普公司內部也有一些人在做類似數據分析的工作,但相對簡單。而我們做的事是怎麼樣通過計算,幫助工程師更快更好地做產品設計,有點像現在的機器學習中的一種底層的支撐。」宣曉華解釋道。

1997年香港回歸了祖國,在惠普工作了7年的宣曉華也做出了相同的決定——回國。

談及原因,宣曉華坦承,90年代中國蓬勃發展的形象已經讓他頗有感受。「當時,中國發展很快,我就想回去經歷一下,但說實話,在回國前其實並沒有什麼大的計劃。也許工作一段時間後,又回去(美國)了。」

在他看來,也許在惠普工作可以讓自己生活地很好,但卻少了些價值。「計算數學在美國的應用、電路模擬方面的人才相對較多,是個很成熟的領域。而在中國,這個領域一直很少人願意做。」

我們應該都聽說過百度李彥宏放棄美國的生活、被妻子逼回國創業的故事。

宣曉華的故事則是另外一個版本:他是主動回的國,而且一開始也沒想過要創業。

直到在國內企業做了幾年技術總監後,2002年,宣曉華才下定決心牽頭做些事情。他們在上海創辦了華院數據,員工一開始只有幾個人,辦公室也不大,但宣曉華卻始終覺得,數據這件事,有未來。

在創業之前,對於做什麼,他其實也有過思考,但想來想去,還是要符合兩點:一是要和數學有關,因為自己的專業是數學,這也是自己希望繼續從事的;二是要有市場。

當時能同時符合這兩點的選擇很窄,最直接的就是數據挖掘(Data Mining),既能用到演算法,也有一定的市場。

「那時,互聯網還不算是一個數據的主要來源,但信息化卻是很多企業都有了的。銀行、證券業的核心業務系統等,都會產生一些數據。」

(圖片說明:宣曉華在一個簽約儀式上分享其對數據及人工智慧的看法。)

宣曉華當時對中國大數據的未來很有信心。「我覺得數據量級趨勢是越來越大,不僅是公司裡面,在政府、企業、金融體系裡面,數據量越來越多。而這個時候,如果有一家公司能夠幫助企業把數據變成價值、增加收入,還能幫助決策,這樣的生意應該是可以做的。」

16年前為何無風來?

2002年,國內很少有人有大數據的意識。以現在的眼光看,當時要做一家數據公司肯定很難,但機會往往就在你認為最艱難的地方。

有數據意識的公司少,意味著你更不容易找到你的客戶。宣曉華找了兩個行業作為切入口,一個是金融,一個是電信。這兩個行業當時在國外已經有了相對成熟的數據挖掘經驗,而國內的企業也許會有通過數據分析服務於營銷、擴大市場份額的需求。

但進一步接觸後,宣曉華髮現,當時的金融企業如銀行等,對數據的分析處理需求並不大,沒有這些「好像大家仍然活得很好」。而當時在國外,銀行對數據分析處理的意識已經很強烈了。

在服務過少量的金融客戶後,華院快速調整了業務方向,將主要突破口轉向電信行業,這一次,果然找對了路。

2000年之後,中國電信行業發展很快,這體現在用戶數的節節攀升。而其中,中國移動恰巧又是一家「好學」的公司,願意嘗試各種新的方法,最重要的是,這家公司也肯投入資金。這給華院這樣做數據分析的初創公司提供了很大的機會。

大的全國性業務難以拿下,那就從省級公司做起,「各個擊破」。新疆移動是華院的突破口,基於對方的內部經營分析系統留存的數據,做數據的整合分析,並分析用戶的消費行為、使用偏好等,進而給出營銷的具體建議。後來這樣的合作又擴展到幾乎所有的省級移動公司。

具體會給移動運營商提出哪些建議呢?宣曉華略有思索,回憶了兩個他覺得可能跟每個手機用戶都相關的業務:「比如會基於數據分析,向運營商提供資費套餐的建議,另外還推出了一種叫做「信用評分」的業務——也就是現在大家日常接觸到的話費授信額度。」

這樣的服務,華院一直做了7、8年。也正是靠著在電信行業的持續耕耘和穩定的業務來源,公司度過了大數據「萌芽期」,不僅穩定了下來,業務規模也越來越大,也開始進入新的業務領域,並且有能力孵化新的公司。

直到2010年,公司才真正意義上涉足第二個領域——電商。一來,當時中國電商開始起步,發展迅速,二來,曾經的移動業務也越來越不足以滿足公司發展的需求。

「電商和移動運營商不同,運營商可以一次性付100萬讓你做一個項目,但電商的付費能力相對較弱,可能只是付幾萬塊錢。」對此華院有著不同的應對戰術。「你會發現這些電商商家的學習能力非常強,他們的競爭非常激烈。因此只要我們能推出好的解決方法,只要能對他們的業務有意義,他們就會很樂意去使用。」宣曉華點出了電商商家的特點。

華院推了一些針對中小網商的數據分析產品服務,希望靠「長尾效應」在電商領域打開一片新天地。

不僅僅是電商,按照華院方面的資料,後來公司的業務陸續擴展到了金融、電信、醫療、零售、電商等多領域,到2016年,實施的各種項目總計已超過600個。

( 圖片說明:2012年,華院完成A輪融資,紅杉資本參與其中)

一般而言,創業公司對外部資金的渴求往往都十分強烈。但在華院數據的發展過程中,有一點值得一提:成立的前10年內,公司沒有對外融過資。

直到2012年,才有紅杉資本的A輪資金注入。

對此,宣曉華的回答很直接:「公司成立後的前些年也沒有人太關注數據這個領域,我們也沒有去積極找投資。」

「另一方面...」宣曉華稍有停頓,這也是他態度嚴謹的一面,「是自己對外部投資也有一些顧慮,拿了別人的錢,對方肯定希望你發展得很快,但我們當時覺得,並沒有那麼多的行業願意接受數據相關的產品服務。」

在DT君看來,圍繞自己興趣,不盲從接受外部資本的「指揮」,而是堅持自己的發展方向,這些特質和宣曉華的個性不無關係。

即便是公司規模越做越大、並且有了外部資本的助力,宣曉華對公司的發展仍舊有著堅持,並且做了一些獨特的嘗試。

2014年,華院數據開始深度孵化垂直領域的大數據公司,除了為創業者提供方向、資金、輔導外,華院顧問和技術團隊也參與孵化,與創業者探索商業模式和新技術。

到目前為止,在這套模式下,公司已經成功孵化了華院分析、杭州數雲、數尊等近20多家大數據應用公司,涉足互聯網金融、醫療、風控徵信、智能教育、時尚文化等多個領域。

「這種模式可以說是我們獨創的,是一種新的企業管理模式,過去傳統的企業內部大多都是事業部的形式,我們打破了這種模式,採用的是成立許多獨立的公司,這是一種新的企業生態。」宣曉華曾經接受媒體採訪時如此說道。

下一步:數據+智能

在交談中,宣曉華毫不掩飾自己的數學情結。在他看來,數學本身是一個非常基礎的學科,也是更深層次的應用的基礎。包括人工智慧等,都離不開基礎的演算法理論支撐。

(圖片說明:宣曉華在中英開放數據與大數據論壇上演講)

他這樣想,也這麼做了。

他跟自己博士時的導師史蒂文·斯梅爾(Stephen Smale,1996年美國國家科學獎、數學菲爾茲獎和沃爾夫獎得主)合作,發起成立了斯梅爾數學和計算研究院(Smale Institute of Mathematics and Computation)。

研究院研究的是偏基礎理論的課題,但也是相對長遠的。「雖然是基礎的研究,不一定有經濟上的效益,但也許未來有一天,就可能在特定領域孵化出新的業務。」他補充道:「做這件事更多還是自己的興趣,我也希望我自己的員工能夠在做技術開發的同時,也能接觸一些更長遠的研究。」

(圖片說明:宣曉華(左)與導師史蒂文·斯梅爾(中),後者是1966年菲爾茲獎及2007年沃爾夫獎得主。)

一方面是加強基礎的研究,另一方面則是在最前沿的領域謀求突破。

宣曉華表示,「數據+智能」會是公司未來最重要的方向。目前,公司已開始著力研發一些相對前沿的產品,比如分維(Fra+)智能畫像引擎,通過小數據輸入,跨學科模型智能分析,刻畫立體的人,這已在金融、保險、營銷廣告、HR等領域實現應用。

另外,公司還開發了一款叫做華院智影的產品。這是一套基於人工智慧的醫學影像輔助診斷系統,目前已和上海的一些知名醫院如上海胸科醫院、仁濟醫院等有了合作,希望能幫助醫生提升決策效率。

在宣曉華看來,如果人工智慧技術真的能做到大規模的應用,那麼無疑是頗有意義的一件事。

他也表示,公司還將持續推動孵化生態的發展,孵化出更多垂直行業應用的大數據、人工智慧方面的創新公司。

回顧過去16年在大數據挖掘和人工智慧領域的經驗,宣曉華覺得,大數據是一種思維和方法,要有量化的思維。但是,數據有時候不夠成熟,在必要時候還需要加入人的判斷。

這不是他第一次提出這樣的思考,他進一步解釋:「我們不應該老是去關注到底有多少數據,大數據不是目標,怎麼樣去分析應用,讓決策更好、做事更有效率、世界更美好才是目標。換句話說,也就是更加智能。」

題圖 | 視覺中國

期待更多數據俠乾貨分享、話題討論、福利發放?在公眾號DT數據俠(ID:DTdatahero)後台回復「數據社群」,可申請加入DT數據社群。

關於數據科學50人

數據科技50人項目是DT財經旗下數據俠計劃重點內容產品,旨在與數據科學領域KOL共同挖掘數據內容的價值。我們從商業數據科學領域選出最具代表性的50位先鋒進行深度專訪,50人由DT財經獨立評審並發布,第一財經數據科技及合作夥伴傾力支持。

數據俠門派

本文數據俠宣曉華,加州大學伯克利分校數學博士,中國工業和應用數學學會副理事長,復旦大學大數據學院外聘教授。2002年創辦華院數據,在此之前曾在美國加州惠普公司從事七年多的建模/模擬的演算法研究和大型軟體開發,也曾參與創辦易保網路技術有限公司,兼任公司技術顧問。

加入數據俠

「數據俠計劃」是由第一財經旗下DT財經發起的數據社群,包含數據俠專欄、數據俠實驗室系列活動和數據俠聯盟,旨在聚集大數據領域精英,共同挖掘數據價值。了解數據俠計劃詳情請回復「數據俠計劃」,投稿、合作請聯繫datahero@dtcj.com。

推薦閱讀:

【徵集】讓我們一起玩#別人的#數據研究人體
可視化之醫療保健數據的未來——繪製新用戶界面的方法
用數據化的方式解析投資條款(總結並持續更新)
獵聘網CDO單藝:大數據很熱,錢很多,但你真的喜歡它么?
數據有意思:馬拉松報名費是不是太「貴」了?

TAG:大数据 | 人工智能 | 数学 |