標籤:

大數據的狂妄和南牆 | 方承志

關注風雲之聲提升思維層次

解讀科學,洞察本質

戳穿忽悠,粉碎謠言

導讀

IT業界利用大眾的認知差距,把有一定作用的數據分析和相應的漸進改進效果吹成革命性的突破,忽悠其它行業出錢出力,順帶建立IT巨頭的核心地位。IT企業為了進入和引誘傳統產業,吹得泡泡太大,過多的噱頭挾裹下,大數據終將撞上現實的南牆。

——————————————————————————————————————

「你是電, 你是光, 你是唯一的神話

我只愛你 You are my super star」

這段歌詞出自於美少女組合SHE演唱的歌曲《superstar》,本意是形容粉絲追求偶像的瘋狂和夢想,但最近幾個月來,公眾對於大數據的態度庶幾近之。

似乎是從上一次領導換屆後,大數據這個概念開始在IT業界流行起來。幾年前,本人某個在知名企業工作的本科同學,被委任領導大數據方向的研發工作,開口閉口都在宣傳大數據的美好前景。而最近一段時間,和人工智慧深度學習等時髦詞結合後,大數據似乎有席捲天下之勢,眾多IT大佬不扯幾句「大數據」,都不好意思在江湖混了。順帶著,IT業界外慢慢也流行大數據的神話,好像有了大數據,傳輸中的寶藏大門就有了打開的契機。

到了17年年末,隨著國家主。席。的表態,大數據概念的狂熱達到了一個新的頂峰,年底的股市爆炒,互聯網大會論壇上的喧囂,新華社的報導,微信上大數據神話視頻的傳播,鼓吹一波接著一波,似乎在大數據的助力下,第四次技術革命的曙光已經在望。

首先要指出的是,大數據的此番炒作,主要源自於IT業界的擴張需求。為什麼大數據概念聲勢如此喧囂?因為IT業界天生就和媒體結合得很緊密,在創造噱頭方面向來都是和媒體一拍即合。有一句老話說得好,最高明的廣告就是洗腦。當IT業內巨頭壟斷已定時,為了避免內耗,IT業迫切需求進入其它行業。如果大數據概念深入人心,在數據收集上天然便利的IT巨頭自然如魚得水,典型例子就是Google的自動駕駛概念,一個和汽車行業八竿子都搭不上的企業竟然被認為是新時代的汽車標杆。

簡而言之,IT業界利用大眾的認知差距,把有一定作用的數據分析和相應的漸進改進效果吹成革命性的突破,忽悠其它行業出錢出力,順帶建立IT巨頭的核心地位。

事實上,大數據不是新鮮概念,查查Gartner過去20年的技術炒作曲線,按照Michael 的說法,大規模數據和內容分析已經在炒作周期中三進三出:數據挖掘(90 年代)讓位於分析(2000 年),分析隨後又讓位於大數據(2010 年)。每次勾起業界興趣後,都遭遇了不少難題,無法達到預期效果,銷聲匿跡一陣子,披個新馬甲又重出江湖。這次也不例外,大數據和背後的深度學習有一定的用途,但IT企業為了進入和引誘傳統產業,吹得泡泡太大,過多的噱頭挾裹下,大數據終將撞上現實的南牆。

為什麼互聯網時代的大數據沒有想像中的神奇功能?在詳細解釋原因之前,先回顧一下歷史。

大數據其實是一個古老的概念,在計算機和互聯網崛起之前,在很多領域,早就應用了大規模數據分析。很多科學定律都是科學家收集了海量數據後推導出來的,最典型的就是開普勒的行星運動三定律。

德國天文學家開普勒因為以數學方式總結出行星運動三定律,被很多人認為是近代天文學的一位重要奠基人。但事實上,開普勒的成就是建立在其老師第谷的工作之上。第谷在自己的私人小島上,用自製儀器觀察星空,在長達20年的時間內,仔細記錄,積累了那個年代堪稱海量的天文數據。臨死前,第谷把這些數據交給了開普勒。在這些史無前例的數據幫助下,開普勒在天文學的數學化方面取得了關鍵性的突破。

在這之後,還有很多很多的科學家,藉助數據積累取得了在科技方面的貢獻,比如盧瑟福的原子模型,再比如雙螺旋結構。中學和大學教科書上,這樣的例子數不勝數。而在科技之外,在其它領域,也有很多依靠數據分析獲得成功,甚至開創新局面的例子,比如按揭買房貸款。

對於從小就浸潤在科技氛圍的現代人而言,大數據的好處似乎是天經地義的。那麼多前輩依靠數據分析而成功,現在移動互聯網時代,海量數據能獲得的回報應該也不會少。事實上,眾多IT企業也有不少成功的例子,因此,大數據的狂妄並不是建立在沙灘上。

但正如數學推導中要區分充分條件和必要條件,大數據的重要性並不意味著大數據的萬能性,大數據在某些方面的成功不能推導出大數據在其它方面就一定能得心應手。即使在科學領域,也不是所有的定律都是依靠數據分析得出的。甚至可以說,很多重要科學成就和大規模數據分析無關,最典型的是愛因斯坦的相對論。 愛因斯坦的相對論,尤其是廣義相對論,是理性思維和大膽假設的結果,在此過程中,並沒有海量外部數據來為愛因斯坦提供幫助。

在社會領域,最新大數據失敗的例子就是2017年的爆款電影《戰狼2》。如果在前兩年,諮詢來自IT企業的跨界電影製作人,什麼樣的電影能取得票房成功?這些人會毫不猶豫的說,IP(不是網路IP協議)+小鮮肉明星。在這之前,無數此類的電影已經取得了成功,最典型例子就是《小時代》系列電影,《同桌的你》以及《爵跡》等。這些電影以小搏大,其回報率羨殺《太平輪》這類的傳統大片。某IT巨頭的電影部門負責人甚至公開宣稱,以後不需要專業編劇,IP改編就行了。為什麼有這樣的自信?因為這些IT企業依據過往的大數據進行分析,IP+小鮮肉明星是一條成功的捷徑。但2017年的暑假檔給了這類電影一個大耳光,《三生三世十里桃花》,《悟空傳》,《鮫珠傳》走的都是「大IP+小鮮肉」的模式,但在《戰狼2》的巨輪前,統統被碾成碎渣。《戰狼2》的空前票房紀錄表明,創意+精心製作仍然是電影成功的基本因素,但創意這個東西,是大數據所不能企及的。

為什麼大數據不能無往不利?因為建立在計算機技術基礎上的大數據,其背後的指導思想本質上還是「量變導致質變」,不涉及,也不可能涉及範式轉移。

前面提到開普勒的成功建立在第谷積累的數據基礎上。那為什麼第谷沒有做出相應的發現?因為在中世紀的歐洲,天文學範式是地心說。即使在哥白尼提出日心說以後,第谷依然堅持日心地不動模型。他認為所有行星都繞太陽運動,而太陽率領眾行星繞地球運動。他的體系本質上還是屬於地心說。在這樣的範式模型下,再多的數據積累也不可能給出正確的行星運動定律,只會在錯誤的道路上越走越遠。而開普勒突破了地心說的範式,換一個角度來考慮問題,把地球當成一顆普通行星,第谷在地球上觀測到的數據才有意義,才能總結出正確的關於行星運動的數學描述。

康德有句名言,人的理性為自然立法。人類的大腦具備有先天綜合的能力,能洞察出紛繁數據後的本質規律。當數據的連續積累效應無法起作用時,莫可名狀的人類直覺能實現驚人一躍,實現範式突破。所以,開普勒突破了地心說的窠臼,轉而用日心說來考慮問題;化學家凱庫勒想到了苯分子結構中,碳原子鏈可能咬尾;盧瑟福突破了物質均勻分布的框架,提出了原子核模型。

與人類大腦的湧現特性相反, 現代計算機體系是徹徹底底的決定論。任意給定一個時刻,在知曉計算機的當前狀態和計算機後面的輸入數據基礎上,計算機內部的任何細節理論上都是線性可預測的。現代計算機是數學家拉普拉斯所推崇的決定論的完美體現。建立在計算機技術上的大數據分析,代碼賦予其能力,也束縛了其範圍。

舉一個關於曲線擬合的例子。一台理想中的計算機,其附帶的曲線擬合程序代碼中,已經內嵌了關於多項式函數,指數函數,正弦函數等無數的經典數學函數。對於絕大部分曲線擬合,在不知道數據點背後產生原因的情況下,程序擬合出來的曲線,在一定範圍內,其外推性也是足夠精確的。而且,數據越多,精確性越高,這體現了程序背後的微分原理----在某個點附近,導數乘以自變數的微小變化約等於函數值的微小變化。但如果現在碰到類似x(i+1)=k*x(i)*(1-x(i))這樣的迭代方程給出的數據點,程序要抓狂了,原因很簡單,這類數據點對於參數k和初始值是極度敏感的,其混沌效應不是任何經典數學知識所能預測的。在這種情況下,再多的數據也無法幫助程序來擬合這類曲線,因為這涉及到代碼之外的東西。面對這種數據,需要的是人類的大腦的創新和抽象思維能力。

現在流行的大數據,缺乏的就是這種能力。收集了數據,並不意味著數據能自動告訴使用者怎麼做。數據必須借著程序的威力來展現自身,而程序是由人編寫的。代碼是編程者對世界的認知模型,從輸入計算機的那一刻開始,這個認知模型就已經固定了,除非手動修改。而現有的各種認知模型本質上都是從某些側面對複雜世界所做的局部剪影,這種模式建立在已有範式上。相應的計算機程序幫助人類在有限範圍內活動。但由於計算機的決定論特性,程序無法跳出代碼的框架,程序完成後,如果想追求範式之外的發現,只會緣木求魚。所以數據分析給出了「大IP+鮮肉」的電影票房成功模型,但程序不會知道,觀眾已經厭煩了這一個固定套路,後來者只會落得東施效顰的下場。反而是人類大腦能夠敏銳的發現,市場已經起了變化!《戰狼2》的硬漢模式正當其時!

事實上,網路上到處都有這種僵化的數據分析結果。本人曾經在百度上搜索過「果汁機」,結果一段時間內,到許多網站訪問時,彈窗廣告都給我推薦"果汁機」,問題是我搜索「果汁機」,只是想看看果汁機怎麼用,而我早已經買過果汁機了。

如果說,大數據分析在科學定律的發現過程中有著重要作用,具體到人類的技術領域,大數據起的作用可能會更小。因為科學定律有著時空上的穩恆性,眾多的數據或多或少會反映定律的某個側面,因此數據積累總體而言是有意義的。但技術的核心是實踐,技術與現實世界相互依賴,相互反饋。任何革命性技術的普及,不僅要考慮到技術本身的優劣,更重要的是能與現實世界成功互動,受制於世界,但更能超脫世界。

現有的大數據概念,為了吸引金主,提出了各種各樣的口號,其中最具有蠱惑性的就是「大數據能幫你更好的了解用戶和問題」。這口號有問題嗎?貌似沒有問題。有很多例子表明,基於消費者的數據積累能幫助企業更好的了解產品的缺陷,進而通過技術融合和擴展製造出更好的產品。消費者(或者使用者)的意見肯定很重要,但問題是消費者真正明白自己需要什麼嗎?消費者現有的需求是建立在企業現有產品上,分析數據的人員也是為企業服務的。大數據分析能夠幫助企業了解消費者的表層需求,進而改進現有技術,但這一過程不能無限推進,數據分析並不是萬能的。大約十年前,移動運營商的簡訊服務曾經風靡一時,運營商做了大量市場調研和數據分析,推出了各種各樣的簡訊服務套餐(如10元包300條簡訊),力圖滿足各層次消費者的需求。「拇指一族」在某個時候肯定是感激涕零,運營商也是志得意滿。但微信的降維打擊來臨時,運營商突然發現,所謂的消費者大數據分析很大程度上是自欺欺人。

和需求導向不同,世界上有一個被稱為供給學派的經濟學支派,他們更推崇的是「供給創造需求」,好產品自動會引發新需求。因為很多時候,消費者(或使用者)往往會處於既有範式之中,所謂的需求會局限於老產品的逐步改良上。在19世紀末到20世紀初這一段時間內,西方城市交通的主力是馬車,城市裡塞滿了馬,隨之而來的牲畜排泄甚至導致各國召開了一次國際會議來討論處理城市馬糞問題。

在這個時候,如果諮詢消費者,你需要什麼樣的交通工具。消費者肯定是圍繞馬來進行改進,亨利福特有一句名言:他們會說需要更快的馬!最終,城市交通問題的解決不是依靠馬,而是更高層次的汽車!亨利福特以其勇氣和智慧給世界帶來了海量的便宜汽車,徹底改變了城市交通面貌。

這樣的例子舉不勝舉,最近的例子就是風靡整個中國的共享單車。歷史已經一再證明,能改變或創造一個產業的大創新,更需要的是突破現有範式的洞察力。這種洞察力不是大數據和背後的計算機程序能夠提供的,只有人的大腦才能勝任這樣的工作!

因此,在大數據沸反盈天之時,我想問一聲,大浪退去之時,誰來給大數據概念穿上泳衣?

背景簡介:本文作者為南京郵電大學電子與光學工程學院副教授方承志。文章於2018年1月5日發表於個人微信公眾號 東流看技術mp.weixin.qq.com/s?),風雲之聲獲授權轉載。責任編輯:孫遠

歡迎關注風雲之聲

知乎專欄:

zhuanlan.zhihu.com/feng

一點資訊:

yidianzixun.com/home?

今日頭條:

toutiao.com/m6256575842


推薦閱讀:

筆記 | 如何選擇一個靠譜的物聯網平台
一、大數據的誕生
大數據學習筆記:Hadoop之HDFS(下)
RDD論文翻譯:基於內存的集群計算容錯抽象
又到求職黃金季,這些技能助你一臂之力【阿里直聘優先錄取】

TAG:大數據 |