用數學思維,打破數據悖論 | 數據科學50人·吳明輝

吳明輝,明略數據、秒針系統創始人兼董事長,本科畢業於北京大學數學學院,北京大學人工智慧實驗室碩士。他從事軟體工程開發和演算法研究近二十年,是國內企業級服務領域裡全能型企業家。他所創辦的秒針和明略兩家大數據公司,都已經成長為中國數據科學領域的獨角獸企業。

「我的觀點是:用數據做生意,是一個悖論。」

說這句話的人,叫做吳明輝,他是兩家數據公司——明略、秒針的創始人,而且在他的帶領下,兩家都成長為了中國數據界的獨角獸級企業。

為什麼一個做數據生意的「成功者」,會說用數據做生意是一個悖論呢?悖論之下,他又是怎麼看待「數據」和「生意」這兩件事兒的呢?

也許接下來你所聽到的觀點,可能與傳統的數據故事有點「不一樣」,但是如果你了解吳明輝,了解了他對數據的看法,我想,你對於數據科學的認知,也會有點「不一樣」的改變。

流動,才是悖論的最優解

「我覺得數據和生意這兩個事從概念上就是矛盾的,數據是解決信息不對稱的,生意本質是什麼?是利用信息的不對稱。」在數據行業探索了近二十餘載後,這是吳明輝思考「數據生意」這件事兒得到的答案。

就像歷史上的歷次科學革命一樣,最近十年在全球範圍內興起的數據科學浪潮,催生了一大批以數據為主題的企業和「弄潮兒」。他們在矽谷、在北京成立起一家又一家創業公司,期待乘著數據科學的春風,在這個新市場上搶佔先機。

但是人們也逐漸發現,數據的生意並不好做。什麼是數據?數據生意的本質是什麼?很多人並沒有搞清楚這些基本問題,就匆匆涉足數據科學,最後的結果也只能是不了了之。那麼,做數據生意的價值究竟是什麼呢?

在吳明輝看來,首先數據本身並沒有價值,它只是對客觀世界的記錄。

(圖片說明:從地球可以清晰地看到絢麗的星空;圖片來源:吳明輝)

「今年春節我去了紐西蘭,中間有一站到了美麗的特卡波湖,這是全世界最有名的觀星地點。這裡幾乎沒有什麼光污染,隨便一個單反相機,只要曝光時間長一點就能拍出清晰的銀河系。」

吳明輝說,他在看到一閃一閃的星空時,就聯想到了數據。其實人類對天體物理的研究,正是現代數據科學最早的起源。「我就想,古人花很多時間和精力去研究星星,價值是什麼?」

天文學家開普勒提出了行星運動的三大定律,奠定了現代宇宙理論的基礎。開普勒的成就並非自己一個人的功勞,他能做到這些,是因為很幸運地得到了著名丹麥天文學家第谷·布拉赫,20多年所觀察與收集的精確天文數據。

開普勒雖然沒有直接觀察到這些數據,但是他站在第谷的肩膀上,利用數據發現了宇宙的運行規律,解決了行星和人類間信息不對稱的關係,為人類了解宇宙創造了價值。

這啟發了吳明輝,他認識到,數據的價值,就在於幫助那些沒有「觀察」的人,解決信息不對稱的問題。

但數據和生意的悖論又該如何解決呢?關鍵在於兩個字——變化。

眾所周知,商業是利用信息不對稱盈利的活動。在吳明輝看來,商業中的信息不對稱有兩種:一種是一次性的信息不對稱,一種則是持續變化的信息不對稱。

「什麼叫一次性信息不對稱?有人說某個股票要漲,這是一次性的信息不對稱,這是不好做生意的,只有自己悶聲發大財。另一種是流動的信息不對稱,這才是有機會做生意的,因為這個事兒每天都在發生變化」,吳明輝說到。數據就是幫助人們縮短自己與變化中信息的不對稱關係。

他舉了一個零售選址的例子。很多人覺得零售選址是個一次性的信息不對稱活動,假如一個商家要開快餐店,選好了地點開業後,這個選址的行為就結束了。而且,在選址領域,麥當勞、星巴克等國際連鎖的大公司,已經把方案都研究透了,很多人覺得這個場景沒有做數據生意的機會。

(圖片說明:很多便利店的選址並非一次性工作,而是隨著時間而不斷變化流動的過程,圖為上海某全家便利店;圖片來源:Wikimedia Commons)

但後來,他發現實際情況並非如此。「我們有一個客戶是中國最大的便利店集團,有一萬家店,每年都要開幾千家店,但同時又都要關幾千家。他要不停地選,因為今天選擇了一個好地方,明天不一定好。比如今天在這裡開一個7-11,明天突然旁邊有人又來開了一個物美,你的客流就被搶走一半。因為你周圍的環境在不停變化的,這件事情就變成一個流動的信息不對稱問題了,它是有商機的。」

當場景隨著時間不斷地發生變化,信息不對稱的情況就總會出現,數據生意也就產生了商業價值,這也就從根本上解決了數據和生意的矛盾——信息是不斷變化的,而數據的生意就是追趕人們與這段變化的距離。

吳明輝對數據和商業世界的認知,大多源自他在求學時對數學的探索。是數學塑造了他對問題刨根問底的精神,讓他能更深刻地理解數據的意義。

一切都從數學開始

吳明輝說,自己小時候的夢想,是成為一名數學家。

「我從小對數學有一種特別的感覺,大家都覺得數學很難很枯燥,我不覺得,我認為在數學裡探索那些嚴密的邏輯,把現實世界用公式抽象出來,很有意思,而且很美。」吳明輝形容自己在學生時代,對數學的感情是「近乎痴迷」的狀態,喜歡數學的簡潔、優美。

「而且,數學是非常接近哲學的一個學科。」它會促使吳明輝不斷地去思考一些最根本的問題,無形中,培養了他的思維和追求極致的性格。

他從小就是父母老師眼中「別人家的孩子」,在學校的成績始終名列前茅。千禧年,他憑藉全國奧利匹克競賽獲得了大學保送的資格,真的遇到了選清華還是選北大的問題。「當時我們的競賽領隊跟我說:『把數學的基礎打牢了,將來做什麼都可以』。於是我就選擇了全國最好的北大數學學院,現在回過頭來看,真的很感謝當年的選擇。」

在北大數學系,《高等代數》《解析幾何》以及《數學分析》是吳明輝大一時必修的三門課程。這是數學中最基礎的三門課,分別講了時間、空間和變化的概念,而這也是數學研究的三大主要領域。

「《高等代數》就是算數,算數是怎麼來的呢?其實最開始是為了算時間。看太陽什麼時候升起落下,看月相陰晴圓缺;《解析幾何》是為了算空間、位置;而《數學分析》就是研究函數和函數的變化,核心是變化。這就是數學。」

這些數學的思維理念一直伴隨著吳明輝,他所思考的「變化是數據生意悖論的解法」等問題,都深深地收到了自己數學思維的影響。

(圖片說明:左、右分別為中國青年數學家惲之瑋和張偉,他們在科學突破獎頒獎典禮上獲得了「數學新視野獎」;圖片來源:

北京大學新聞網

2000級的北大數學學院出了很多天才型的數學家,比如惲之偉和張偉。他們去年獲得了有著「科學界奧斯卡」之稱的「數學新視野獎」,以及僅次於菲爾茲獎的「拉馬努金獎」,是數學界冉冉升起的青年科學家。吳明輝跟他們當年是同學,不過與他們不同的是,大學階段的吳明輝除了數學外,一直還是一個「斜杠青年」,他還同時在研究計算機,而且比起數學,他逐漸覺得自己更喜歡編程這種創造性更強的工作。

「我從初二開始接觸編程,當時參加奧林匹克競賽,數學、物理、化學、計算機,每一科我都參加了,成績都在前幾名,最後數學成績最好而被保送北大。」吳明輝說,有一次學校舉辦數學建模,他想找惲之偉組隊,就對他說:「惲之偉,你數學最好,我編程最好,咱倆組個隊吧,就天下無敵了。」

結果惲之偉語重心長地對他說:「明輝同學,我們學數學不是用來做應用的。」這讓吳明輝意識到數學家們令人真正尊敬的地方。吳明輝後來感慨道,「真正的理論數學是離商業非常遙遠的」,數學家們的腦海中想的不是應用,而是星辰大海。

雖然數學的思想非常吸引吳明輝,但他覺得自己還是更喜歡計算機等偏重應用的學科。在本科階段,他就開始了自己的創業生涯。「其實我當時主要想自己賺點生活費,」吳明輝說,他一開始做軟體外包,到後來連新浪、搜狐等大公司都成了他的客戶,他還幫清華北大的寫了很多教學管理系統。

「然後生意越做越大,我想要不幹脆就成立個公司吧!於是就成立了一個公司,我做CEO。」吳明輝說到,從數學轉向商業的事兒,就這麼誤打誤撞地做起來了。

創造信任,是數據最重要的價值之一

本科畢業後,吳明輝進入北大人工智慧實驗室繼續深造,他當時的研究方向是圖像處理和掌紋識別。與數學學院不同,人工智慧實驗室是建立在北大的計算機學院下面,吳明輝的研究也基本都轉向了應用領域。

從2005年開始,中國互聯網迎來了一波野蠻生長的黃金時期。中國網民數量超過了1億並且仍在飛速上漲,盛大、前程無憂、攜程、騰訊等十多家互聯網公司在海外上市,讓人們看到了互聯網的商業價值。

吳明輝也看到了這股風潮,在學校讀研究生的同時,他還運營著自己的公司。對於吳明輝來說,選擇投身互聯網科技行業,已經是早晚要做的事了。

「當時,我們團隊是做人工智慧演算法的,旁邊是天網搜索引擎實驗室。所以我的團隊里有做AI的同學、有做搜索的同學,還有數學系的同學,我就想能不能把大家的核心優勢集中起來」,吳明輝說。經過半年的思考和探索後,他最終選擇了廣告這個應用場景。

他一開始的想法是做廣告的個性化推薦,「其實就是今日頭條的原型」,吳明輝說到。但是他們遇到的第一個問題是沒有數據,沒有數據支持的演算法怎麼能推薦呢?於是他們就想到,可以寫一個軟體去互聯網裡採集數據。

吳明輝回憶說:「我們當時就做了一個數據軟體,免費送給互聯網公司,跟人家說你用我這個軟體,我可以免費幫你分析流量數據,同時,這個數據我就拿到了。但發現他們都沒人用,為什麼呢?後來我們知道,他們都怕別人知道自己的真實流量數據。」

在當時的廣告行業,數據流量造假是一個非常普遍的問題,這是一個典型的信息不對稱行業。廣告主並不知道自己廣告投放平台的真實流量,互聯網平台卻收取了高額的廣告費用。吳明輝說道,媒體流量造假其實並不新鮮,早在電視媒體的黃金年代,就頻繁出現廣告流量造假的灰黑產業,而根本問題就在於流量信息的不對稱。

當時央視最大的收視率公司索福瑞,一年在中國的收入約10億元;但圍繞收視率做刷榜的黑色產業,一年則能收入40億。

「這個收視率刷榜怎麼做呢?污染樣本戶。央視索福瑞是通過抽樣調查的方法來統計收視率的,一個城市比如說北京兩千多萬人口,抽樣1000個家庭,平時看什麼台統計一下,最後預測,整個北京市大家都在看什麼台。造假怎麼造呢?只要搞清楚這1000家在哪裡就行了。然後到他家裡說,我是某某衛視,如果你每天看我們台,我一年送你50斤花生油。很多樣本戶就這樣被污染了,1000戶裡面影響50戶就能讓收視率上來5個點,他一年收入可能就能多10個億。」吳明輝講到。

這種現象在互聯網時代則更加嚴重,因為互聯網的出現讓造假更容易了,每個平台的流量只有自己知道,對外造假的成本更加低廉。在灰黑產比數據生意本身還賺錢的時候,用數據去賺錢其實不是「賺錢」,而是破壞別人賺錢的機會。但造假行為本身,並不能創造任何價值。

(圖片說明:吳明輝在第四次中國-以色列科技創新投資大會發言)

於是吳明輝他們就與傳統的互聯網媒體平台展開了一場激烈的「數據攻防戰」。他們通過技術手段,不斷把檢測代碼嵌入到互聯網平台,想要收集平台的真實流量數據;另一方面,平台也在不斷封鎖他們的代碼,極力維護自己流量數據的排他性。吳明輝說,整個08年一年,幾乎都在與媒體PK,代碼加了刪,刪了再加。

「後來我們發現,就連四大門戶網站之一的某網站,真實流量也只有它宣傳的十分之一,非常嚴重。」吳明輝回憶說,當時自己相當於是在用數據,挑戰整個互聯網媒體平台的權威,阻力之大可想而知。

2009年底,寶潔的出現為這場攻防戰打破了僵局。作為老牌世界五百強企業,寶潔對數據運營和決策的理念非常認同,對吳明輝他們的檢測服務效果很滿意。於是,到了年底,它就跟所有合作平台提了要求:必須用吳明輝他們的產品來檢測自己的廣告投放效果,否則將不再合作。

一時間,以寶潔為代表的廣告主們開始紛紛支持他。吳明輝的數據產品就像有一個「公平秤」,有了這桿秤,大家就會開始信任它。「信任太關鍵了,這就是數據創造的價值」,吳明輝說。

從本質上來說,吳明輝這次瞄準的數據生意,是把廣告投放這件事從過去的一次性信息不對稱,變成了流動性的信息不對稱,從而取得了成功。因為有了流量檢測後,只有更有創造力的廣告、更具備內置內容的互聯網平台才能夠吸引流量,而這是一個流動變化的過程。客觀上,這促進了廣告和媒體行業的良性競爭,體現了數據生意的真正價值。

數據生意的「黃金法則」

「我想再說一下,數據本身是沒有價值的,它的價值源自數據產品引發的後續行為的價值。」吳明輝強調,不僅在廣告行業這麼做,他第二次創業時候也是這麼做的。

吳明輝第二次創業的時候,將目光集中在了安防領域。吳明輝說,第二次創業是受到了美國Palantir公司的啟發。這家大數據公司在安防領域的表現十分出眾,在美國政府抓捕並擊斃本·拉登的行動中大放異彩,為人所熟知。

吳明輝的父親曾經是一位警察,因此他非常了解警察的工作情況。中國是人均警力不足的國家之一,在北京上海等城市,一名民警通常要負責400-500名市民,而美國的警民比大約是1:200。吳明輝說,「一個正常的公安局破案研判的過程非常複雜,複雜的案子要一個月,有些更是一破要一年,因為實在是證據太多了,數據太多了,很多警察就看那個對帳單就看到眼花,經常都把幾個藥店的眼藥水全買光了,就是這個水平,所以非常辛苦的。」

在數據行業積累了多年後,他想能不能用數據科學的方法,幫助警察把線索數據都關聯起來,自動識別不同案件中的人、事、物、地點、組織等信息,通過人工智慧的方式整理歸納,然後再交給警察做邏輯推理判斷。

但是警務系統與互聯網非常不同,這是一個具有極高保密級別且內部分散獨立的數據系統。數據人員不僅需要很擅長數據處理分析,更需要一個從零開始搭建數據系統的能力。吳明輝說,自己在第二次創業伊始,最核心的價值就是有一支「作戰經驗」豐富的數據團隊,能夠處理大數據的各種問題,「當公安部門找到我們的時候,我們甚至還沒有推出的自己的商業化產品,客戶看中的其實是這支有著豐富實戰經驗的大數據團隊。」吳明輝自豪地表示。

(圖片說明:明略數據是吳明輝第二次創業的數據公司,圖為針對安防推出的數據科學分析系統SCOPA)

後來,這支團隊也果然沒有讓他失望。有一次,公安部門接到了一起兇殺案的報警電話,經過了幾個月的調查,依然毫無進展。於是他們找到了吳明輝,希望通過數據分析案情線索,但他們很快發現,兇手所在的案發現場沒有留下任何數據資料。

「整個的街道上的攝像頭接近一半都沒通電,要麼就壞了,所以根本就沒有視頻數據。後來我們有查找一些卡口、電子眼等資料,發現犯罪嫌疑人反偵察能力很強,基本沒有留下任何信息。」後來,他們通過數據對比,發現另一個城市的一起犯罪案件,與這次兇殺案有很多相似的地方,於是判斷可能是同一個犯罪嫌疑人所為。

通過另一起案件的線索,最終他們幫助公安部門成功將犯罪嫌疑人緝拿歸案。這種案件與案件之間的數據關聯性分析,是吳明輝團隊在安防領域的特長。「破案本質就是一個搜索問題」,吳明輝覺得,從最一開始報案的原始情報,一直搜到最後的犯罪嫌疑人,再搜到他今天的軌跡。「當優秀的警察用這套數據系統時,系統也會學習沉澱警察們的分析思路,最後在後台沉澱出一個『Alpha Police』,變得越來越牛,沒有人再能趕上,這就是這套系統的本質。」

經歷了兩次成功的數據創業,吳明輝覺得,數據生意的黃金法則無外乎三個:數據+人+場景。在廣告領域,數據是流量,人就是廣告主,場景就是廣告營銷;而在安防領域,數據變成了案件信息,人就是警察,場景則是偵破犯罪案件。

數據是感知,是對客觀世界的觀察;人是行動的主體,要對分析、理解、決策;場景則是產生價值的實體,任何行動只有在特定場景下才會產生結果,最終形成價值。數據產生信任,信任讓人行動,而行動創造價值。

吳明輝說,在數據科學界,比起「數據科學家」,他更喜歡稱自己為「數據產品設計師」,因為對他來說,做好一個產品,就是數據科學最重要的事兒。

作者 | 程一祥:chengyixiang@dtcj.com

題圖 | 站酷海洛

數據俠門派

吳明輝,明略數據、秒針系統創始人兼董事長,人工智慧技術專家,連續創業者和天使投資人,北京大學計算機碩士(人工智慧實驗室)。吳明輝擁有二十年軟體工程開發和演算法研究經驗,2006年在大學裡創辦了全域營銷數據與技術服務提供公司秒針系統,2014年創辦明略數據,並負責公司產品創新、資本運作和戰略統籌。

數據科學50人

「數據科學50人」項目是DT財經旗下數據俠計劃重點內容產品,與數據科學領域KOL挖掘數據內容的價值。我們從商業數據科學領域選出最具代表性的50位先鋒進行深度專訪,50人由DT財經獨立評審並發布,第一財經數據科技及合作夥伴傾力支持。

往期文章回顧:

王煉   

+

 

謝梁   

宣曉華   

+

 

丁宏偉

 +

 

謝梁    

+

 

甄浩    

+

 

湯奇峰   

+

 

劉富兵  

單藝   

柳超   

+

 吳甘沙   

+

 

閔萬里

+

 

高豐 

  

陳為

   

崔曉波   

+

 

沈志勇

杜曉夢   

+

 

吳海山

  

+

 

丁磊

+

 鄔學寧 

 

+

 

呼延如生 

 

張智林 

+

萬菁

加入數據俠

「數據俠計劃」是由第一財經旗下DT財經發起的數據社群,包含數據俠專欄、數據俠實驗室系列活動和數據俠聯盟,旨在聚集大數據領域精英,共同挖掘數據價值。了解數據俠計劃詳情請回復「數據俠計劃」,投稿、合作請聯繫datahero@dtcj.com。


推薦閱讀:

時間是什麼?----中國科學院國家授時中心
「宗教與科學」對談會後記
如何科學進行語言胎教
風水之科學揭秘

TAG:數學 | 科學 | 悖論 | 思維 | 數據 | 數據科學 |