標籤:

大數據時代下數學建模還有作用嗎?


我記得老早以前,一個作非線性混沌的研究者宣稱,研究例如天氣,生態等混沌系統,只要有xx年數據便可,不需要方程,不需要建模就能預測,論文參見:
Equation-free mechanistic ecosystem forecasting using empirical dynamic modeling,Equation-free mechanistic ecosystem forecasting using empirical dynamic modeling。

這篇文章發表在PNAS上,這個宣稱緣起一條稱之為延遲嵌入的神奇數學定理(
Takens theorem),定理直觀點說,就是任何有周期的時間序列(具體是混沌吸引子),其在某個N維的線性空間的嵌入結構是「固定的」,不隨時間變化(專業點說,混沌吸引子流形同n維空間的嵌入流形是一一對應的),所以只要獲得這個幾何結構,就能預測未來,無論時間演化到那,你都能跟蹤捕捉到。而獲得這個幾何結構的方法很簡單,就是作大數據的數據流形重構。

我不搞生態,評價不了這篇文章,借他們的方法說一個我曾搞過的所謂大數據時代,不講數學,不建模的傻事:


我首先用到一個混沌時間序列上(下圖),圖中的下半部分是時間序列,上半部分是利用延遲映射獲得的2維流形結構,很規則是吧~,這個確實可以用來預測下面貌似毫無規律的時間序列,而且,預測結果只差很小的相位。。方法就是將時間箭頭一一標定在這個幾何結構上,下次跑到這個流形上某個點時,由於流形形狀不隨時間變化,可以直接用這個點的鄰域數據推斷未來:

然後,我很高興,很功利,很快拋棄所有搞科學的信仰和尊嚴,我決定用這個定理到股市數據上,我要賺大錢。我不管任何已有的假設,直接上K線,取對數差分,拿一個滬股來說吧,具體是那個忘了,得到的結果如下圖:

圖中上半部分是對比的人造序列(具體是啥忘了),下半部分是股指的低維嵌入(首先將股指序列嵌入到100維線性空間,然後作t-sne約化到2維),是不是出現三個環狀結構呢?根據定理,有了結構就能預測了!我發現規律了!我發現股值的神奇環狀結構了!我要得諾貝爾數學獎了!我要賺大錢成土豪了

其實,最後發現,這些環狀結果是股市價格只能精確到分導致的,低維嵌入時候放大了這些gap。。。。現實就是一大坨不知道是啥的橢圓結構。。。


這就是不講模型,不講數學,胡亂搞的後果。。還好,看完好些頭疼的數學論文,然後搞了股市數據,做了分析到發現錯誤才用一周多點。。。後面及時止損。。。


一直以來很想回答這個問題。只是後來發現我想說的很多回答者已經回答過了。今天看了「拒絕用QQ郵箱發應聘郵件的求職者是否合理?」的有關討論,突然發現,在這個問題裡面,可以把我的「沒處答的一些話」寫下來。

我曾經有一次跟 @曾博 討論過有關機器學習的事情,我很相信這樣的方法可以為我們「解決」某些問題提供幫助,但是他對這些方法很不喜歡,因為「解決」問題跟「理解」問題是兩碼事。大數據時代的各種統計學習方法可以為我們解決許多問題,但我們卻不知道為什麼會這樣。

有了大數據,我們直接從數據裡面就得出來很多奇妙的結論。例如@楊宣 指出的,在「不通過」這個分類之下,qq 郵箱是概率排名前五的強特徵。這就是「大數據時代」(或者其它各種各樣類型的「實證研究」)為我們解決的一個問題——至少 HR 們篩掉 qq 郵箱在統計的意義上是有些理性依據的。

但是是不是有什麼東西被我們錯過了呢?

今年暑假的某一天,我聽一個我很尊重的老師批評了目前在做複雜系統有關問題時,主要基於統計的那些研究者,他們做出來的一些東西。我們都知道現在做這些問題的研究者可以發表很多很好的文章,但是這些文章缺少了某些東西。

以往,如果我寫了一篇論文,發現某個結論,並且在文中提出得出這個結論可能的一個原因,甚至提出來一個數學模型,這個模型可以解釋我從數據分析中得到的那個結論。要是把我寫的這篇文章投稿到比較好的期刊,審稿人必然會提意見——你提出了一種產生這個結論的原因,可是你怎樣排除掉其它的原因呢?如果你不能排除掉其它的因素的影響,那我們很遺憾只能拒絕掉你的文章了。

在大數據時代,審稿人們還能以此為理由拒絕掉別人的文章嗎?這些數據這麼珍貴,甚至有的是從運營商、航空公司、網站和志願者處花費了金錢和時間才得到的,提出這樣的一個解釋就已經很好了……可是我們很可能會距離理解各種問題越來越遠。在大數據時代,通過各種統計的方法,我們可以得到許多有意思的結論,但是這些結論不能讓我們心安。就像「用 qq 郵箱的求職者很可能有著較低的簡歷質量」也可能會是一個從大數據分析得到的結果,可是我們不會知道為什麼會這樣。公開這些結論,甚至可能招致他人的批評。每個人可能有不同的看法,也會自己提出對這個問題的解釋,即每個人都會對這個結論提出自己的「模型」,並把自己的「模型」跟這個結論等價起來。如果「模型」不能排除其它因素的影響,那麼你可以提出你的理論來解釋這個問題,而我也可以提出我的模型來解釋這個結論,我們最終會無法說服他人。遺憾的是,正因為我們的結論來自大數據,很多時候我們很難再找出「對照實驗」的那些數據了,雜誌社沒有辦法說「如果你能排除掉其它的因素的影響,我們就發表你的文章」。我們很可能會距離「為什麼」越來越遠。

而如果把「大數據」和「數學模型」對立起來,則這裡所說的「模型」便是另一碼事了。這裡的「模型」與「機制」「假設」「簡化」等等更接近。有了「模型」,我們就可以從「純粹理性」而非「實踐理性」的高度讓你心安。就像每個 HR 都可以提出無數個討厭 qq 郵箱求職者的理由,只可惜,這些模型都是你個人的角度,大家攻擊起來實在容易。我們或許會越來越難摒棄掉這些偏見,因為沒有一個可以讓大家都相信的「理論」(或者「模型」)。我們只知道結論。

這時候,如果你是天才的建模者,提出一個能被大家公認的模型,並排除掉其它也可能造成這一現象的干擾因素,那就是真正的大神了。我比較悲觀,因為我自己也會在實用的結論面前滿足。


正好今天大Boss講什麼是Mathematical Modelling,搬來分享下。

一個好的數學模型具備以下三點:
1. 描述性;
2. 預測性;
3. 說明性。
具體地說就是,一個好的數學模型能描述建模基於的系統,並且對其做出預測,同時能解釋為什麼這麼建模以及建模得出的結論。

針對以上三點,我們來看看數據和模型的區別。首先數據可以說是具有描述性,但僅是局部描述性,除非給出的數據能遍歷每一種情況,而數學模型則具有全局描述性。其次,數據的預測性表現在可以通過數據建立模型,來給出預測結果。最後,好的數學模型能明確解釋數據的走向,但光看數據你只能知道數據是怎麼變化的,但不知道為什麼這麼變。

在我看來,建模和數據是相輔相成的,針對一個問題,建模是將其抽象到純數學層面以尋求普適的解決方法與結論,數據是用來驗證建模的結論,或者是輔助求解模型的(比如有些固定參數需要通過具體的實驗或者觀測數據來確定)。當然,只有用在好模型上,數據才會顯得有意義。

最後,如果數學建模真的因為大數據而沒用了,那也不會有那麼多應用數學家還在探討關於數學建模的問題了。


講個真實的故事,順便給自己的專欄做個廣告。

對廣告沒有興趣的請直接看專欄:https://zhuanlan.zhihu.com/nullgate

幾年前,我還在友盟思考可視化的時候,發現 Sankey Diagram (Sankey diagram - Wikipedia) 可以用來描述用戶的流轉。有一天我突然觀察到用戶的流轉可以用一個 Markov Process (Markov chain - Wikipedia) 來描述,這就意味著可以對這個狀態的分布進行預測。於是我處理了一些數據扔給 @livhui liu 同學,讓她用 Excel 做個 WAU 的 Markov Model,後來就有了友盟的用戶構成這個產品。@livhui liu 做了很多分析工作,發現了一個讓我很困惑的現象:這個非常簡單的模型預測的效果非常好。

解釋:知乎專欄

這件事情困擾了我很久,因為我覺得這個模型很粗糙。於是我試圖推廣這些工作,用統計力學的方法來定義一個信息量更大的狀態空間(這時候我已經皈依 Jaynes 了)。新的模型取得了更好的預測效果和穩定性,但是我得到的還是一個 Markov Process。從統計力學的隱喻來解釋,兩個模型都是在做粗粒化(Coarse Graining),只是前者的狀態空間是預先設計的,而後者的狀態空間是由一個量化函數離散化得到的。就我的直覺而言,如果我用纖維叢的代數構造來歸納這兩類模型的數據流,則可以將這個過程抽象成:

{displaystyle {egin{matrix}{}\Datalongrightarrow Baseotimes Projection {xrightarrow {, pi  }} Distribution\{}end{matrix}}}
Fiber bundle - Wikipedia

這時我已經知道我可以構造更多的模型,它們的數據處理流程是相同的,而且都可以用一個 Markov Process 來建模和預測。在那個時候,我沒有意識到它們的相體積是相同的守恆量,更不知道這兩個模型的底空間是相同的。為了避免回到民數的老路上,我不會展開討論纖維叢和流形嵌入這些晦澀的概念,它們跟下文的討論也沒有半毛錢關係(我所使用的拓撲空間主要是離散的,不能稱之為流形)。

解釋:知乎專欄

這時候我通過可視化觀察到了一個新的現象,在新的模型裡面我觀察到了類似隨機行走的的擴散過程(Diffusion Process)。這迫使我尋找一個理論框架來進一步擴展這些模型,因為我的 Bayesian 立場,我轉向了 Generalized Bayesian Method,也就是 Statistical Mechanics 和 MaxEnt。在這個過程中我讀了幾乎所有的 Jaynes 的論文,也開始寫專欄。但是在涉及熱力學第二定律的時候,我發現我和 E.T. Jaynes 之間存在根本性的分歧。很幸運的是,因為機緣巧合,我從一本很垃圾的科普書中發現了 Ilya Prigogine 的名字,於是我買了一大堆 Prigogine 的書。Prigogine 基本上就是個神棍,他的書裡面沒幾個公式,但是基本上都是一堆算符,而且言必稱量子力學。這讓我非常頭疼,被逼無奈,只好去買了費曼的量子力學入門教材(還有朗道的書,這個完全沒法讀)。量子力學當然並沒有學會,但是我基本上搞清楚了算符形式化,以及 Prigogine 到底在說什麼鬼。

解釋:知乎專欄

就這樣,我終於搞清楚怎麼把這些模型規範化——Markov Process 寫成算符形式就是這麼簡單:

{displaystyle {egin{matrix}{}\Dataleft( t 
ight) longrightarrow Baseotimes Projection(t) {xrightarrow {, pi  }} 
ho left( t 
ight)\{}end{matrix}}}


ho left( t 
ight) =Lambda^{t} 
ho left( 0 
ight) ; tin N

換句話說,每個模型其實都是一個表徵狀態的算符導出的密度函數,密度函數的演化可以用一個超算符來描述。如果兩個算符對易,可以用同時用兩個算符得到更精細的狀態空間劃分;如果兩個算符是獨立的,則密度函數可以用直積計算。就這樣,只要借鑒量子力學的框架,我可以用一個公式來描述我做了兩年多的統計模型。類似動量表象和位置表象,我在兩個模型中使用的其實是兩類不同的算符,它們提供了不同的統計表徵。很顯然,可以構造其他種類的算符,並有可能解決別的問題。我得承認,這個旅程中的感覺實在是太奇妙了。

解釋:知乎專欄

此外,藉助 Prigogine 的非平衡態熱力學,我還搞清楚了這些統計模型的適用範圍。實際的系統的演化並不是線性的,但是在准平衡態總是可以找到一個線性近似,其期望值就是 Markov Process 的轉移矩陣。對於任何處於准平衡態的系統,這些預測模型都能取得很好的預測效果;對於失去平衡系統,這些模型可以刻畫系統的失穩和重新平衡的過程。這也意味著,這一類模型的適用範圍遠遠超出了我最初的預期。到此為止,我發展出了一個大規模數據分析的基礎理論,我稱之為 Field Theory of Data。其實,它是一個山寨版的 Quantum Field Theory。對於大量的可以長期採集數據的個體行為,我們都可以對關心的可觀測量定義若干個算符,用合適的算符來表徵其宏觀性質,進行統計描述或預測。類似於統計力學要求熱力學極限,這類模型要求個體的數量足夠大——而在大數據時代這幾乎是一個不言自明的前提。

後來我不再糾結於模型是否簡單,並且試圖在儘可能多的數據集上測試基於 WAU 的統計模型的適用性。目前,我已經測試過 App、App 內行為、App 充值行為、手機生命周期、機頂盒生命周期、電視生命周期,這個模型每次都超出了我的預期。我還將周期變成了兩周、四周,預測周期從最初的數周推到了數十周,回測都取得了很好的效果。雖然我的興趣僅僅是由好奇心驅動,但是其中的一些模型為實際的商業決策提供了依據(毫不誇張地說,這個模型描述的是上億美元的業務)。

和主流的大數據實踐不同,無需使用集群或者 GPU 加速,這些模型用一個 Excel 就可以構造和進行預測(當然 ETL 涉及的原始數據通常都涉及百萬級別的獨立用戶,在個別例子中為數千萬)。我能用一個足夠小的狀態矢量和轉移矩陣來描述和預測宏觀系統,對此我頗有些得意;我也不反對有人想要分別計算幾千萬個用戶的未來軌跡,然後虛構數千萬新用戶的軌跡,再將這些軌跡進行求和——只要別在我的 Surface Book 上跑就好。需要特別說明的,雖然我提到了 Markov Model、概率和預測等術語,上述計算過程中不涉及任何偽隨機數或者優化演算法。這件事情其實也困擾了我一段時間,最終還是 E. T. Jaynes 讓我找到了內心的平靜:

綜上所述,大數據時代的數學建模是有用的。退半步說,數學建模非常有意思。

對概率和統計力學感興趣可以移步我的專欄:https://zhuanlan.zhihu.com/nullgate

BTW:友盟這個產品上線很久了,但是我和 @livhui liu 發現沒幾個人意識到這個產品的價值,頗有些遺憾。當然在加入友盟的第一天,我就清楚免費的產品很難得重視和充分利用。作為一個民科,我更偏好輸出理論和價值觀,而不是作為黑盒的產品。


當然有用!我從以下幾個方面給你回答吧:
首先,為什麼要建模?我個人一直認為,模型是對現實問題的抽象,是使用數學語言來描述你要分析的問題,是量化你的問題。比如你想知道什麼決定了市場價格?什麼決定了產品銷量?等等這些問題擺在你面前的時候,這時你就需要建立相應的模型來尋找問題的答案。
其次,建模時最先需要做什麼?一些人此時就會說「好用的模型、好找的數據」,這個答案其實是錯誤的,此時你該做的是機理分析,而不是找個別人用過的模型、再用模型中提到的相應數據開始建模。這些人總想圖省事兒,直接套用別人用過的模型,這樣往往就會忽略問題的本質。比如研究經濟學中的要素產出彈性,很多人直接拿來C-D生產函數,找到相應的數就開始回歸,無論建模的過程如何規範,照貓畫虎也能夠得到顯著的參數估計結果,但是這是本末倒置的建模過程。就好比你看上了一款帽子,你不去考慮你的腦袋大小、形狀、出汗與否等問題,就戴在自己頭上,如果不合適就去削掉自己腦袋上的肉嗎?所以,從問題出發,提出自己的假設,把你認為影響這個問題的因素、因素之間的關係都找出來,再去考慮什麼樣的模型能夠描述這樣的機理。
再次,數據的作用是什麼?如果機理是模型的骨骼的話,數據就是模型的血液,血液的規模、質量直接決定你建立的模型是否能夠回答你的問題。一般來說,越複雜的模型,越能夠將問題描述清楚,機理也就越清晰,反之亦然。模型的複雜性必然會提高對數據的需求,在「大數據」這個概念下,很多機構、公司必然會加大數據的搜集力度,增加數據的種類,提高數據的質量。所以,大數據時代下的模型必然向複雜性更高的方向演化,複雜性更高的模型,必然能夠更加清晰的剖析問題產生的原因、過程和結果。
最後,再說一點關於我個人工作中遇到的數據與模型之間的矛盾問題。當我建立一個簡單模型的時候,我發現雖然變數數據很好找,但我能獲得的數據周期短,數據統計口徑時常發生變化,使數據不具備可比性,即使參數顯著也僅限於統計意義,經濟意義更是蕩然無存。當我建立一個具備複雜機理的模型時,我又發現很多數據找不到、找不全,不得不簡化機理,忽略掉一些關鍵機制,降低模型的解釋意義。所以,在這個到處宣揚「大數據」概念的時代,我真心寄希望於高效率的民營企業真正了解市場需求,用數據這種「虛擬資產」創造出最大的價值,將大數據作為推動社會前進的強大動力。
當然,以上只是我個人的簡單見解,有不妥之處望請指明。


1 我們對於某些事物的機理有一定的了解,如何在用數據搞推斷和預測的時候把這種知識用進來,是個比較麻煩的問題。起碼在因果推斷這個方面,有先驗知識的推斷比較複雜。如果能在已有的知識上建立合理的模型,對從數據里得到新結論有幫助。
2 大數據的處理方法有可能有局限性,比如大數據時代下數學建模還有作用嗎? - 知乎用戶的回答提到的方法。我覺得在一個充滿隨機的環境下,談一個連續狀態確定性動力系統的長期行為是非常制杖的。
3 數據本身有可能有質量問題,需要建模之類的幫助找出問題,悶著頭拿大數據方法算可能效果很差。
4 建模是為了描述機理,而且能夠指導進一步的實驗。大數據更多地回答『是什麼』,對於『為什麼』難以給出好的回答。
5 大數據是個外延非常模糊的東西,我上面的批評可能都是在立靶子給大數據潑髒水...


大數據時代,數學建模的作用尤其重要。

當數據已經足夠多並且還將繼續增多的時候,很多觀點和其反面觀點一樣都可以通過數據輕鬆得到論證。這時候,邏輯才能對兩個截然相反的觀點做出判別;這時候,數學建模是有效地搭建起邏輯與數據之間橋樑的工具。


數據挖掘、機器學習、人工智慧,不都是數學模型嗎?

這問題問的,我實在不知道該怎麼回答。


作為海德堡交叉學科計算中心博士,IT巨頭IBM的優化軟體Cplex(商業優化軟體NO.1)實習過半年,也算和數據分析有著很大的淵源。首先的問題,何為大數據,再次,什麼叫數據分析師,最後,數據分析師是如何分析數據的?我想你可以看看我在下面的回答,

https://www.zhihu.com/question/34310860/answer/108146170

必須的。

數學模型比什麼演算法都要重要。數學模型是解決問題的核心。

同一個問題,你可以建很多不同的數學模型,效果差異天壤之別。

歡迎大家關注我的運籌學專欄,會陸續發布運籌學、人工智慧相關乾貨,也歡迎同行投稿: [運籌帷幄]大數據和人工智慧時代下的運籌學 - 知乎專欄

歡迎參加我2017.6.11和7.29號舉辦的「運籌學系列」知乎live,探討關於運籌學、優化、AI的相關話題:

大數據人工智慧時代的運籌學-知乎Live入口

知乎 Live - 運籌學與供應鏈、金融大數據 (與斯坦福大學博士王子卓教授合辦的喲:)


飛機之所以能在天空自由飛行,不是在於仿生學,而是空氣動力學。

自然語言處理不是仿照人工智慧進行分詞和語法分析,而是以統計學為基礎的信息學。

設計或者建模的最高境界就是得到數學描述和直觀的物理解釋。因為它們最簡單和最一般。設計與分析問題最關鍵最困難的問題一般也就是數學中最抽象的部分。

當然,數學建模不是搞個多項式或者傅立葉變換進行逼近就結束,而是找到合理的結構和隱藏的幾何(物理或者機理)。

計算的目的在於提供洞察力而不是數據。Hamming

大數據對於社會科學研究是否有所幫助呢?在喬曉春看來,大數據是有局限性的。「社會科學研究反映的是一般人群的結果,而大數據有的時候只針對特定人群。此外,大數據所涉及的往往是獨立變數,很難把所有變數都整合在一起,但是社會科學用的數據有很多變數,變數和變數之間可以聯繫起來。學術研究探討的是因果關係,但是大數據只強調一件事情,只能得出相關關係,所以從科學研究來說是有它的局限性的。

我曾花了15年的時間做數學家,研究幾何與拓撲,非常抽象的數學。我在投資市場已經幹了30年了,而且用了一些數學方法,但這個工作完全偏離於那些在學術界所必需的非常深刻而抽象的思維。

有趣的是,我在越戰期間從事密碼破譯的工作對我極有幫助。作為密碼破譯者,你看到對手的大量數據;你有了想法,然後檢驗這些想法;大多數想法是錯的;如果運氣好,你猜中一些,然後開始得到正確的結果。幾年以後,我們開始應用數學,但那種數學完全不同於我之前所研究的數學。

這與預測金融數據相似:你有了想法,那麼當某個事件發生後你會期待出現某種模式;你可以檢驗它們;你也許對也許錯;這是使用數學方法的實驗科學,但不是數學。 這個工作主要是建立金融市場的模型,希望通過恰當的組織數據以幫助預測未來,非常不同於在牛頓之前為太陽系建立模型的方式。

我研究大量的金融數據,試圖從中形成數學圖景;這個工作可以做得很漂亮,但它完全不同於定理證明 James Harris Simons


大部分回答都是答非所問,汗。數學建模里有一類問題要靠統計模型來解決,統計學習方法在大數據時代已經越來越受重視了。但是這裡主要集中在分類和回歸,有些演算法可以反映因果關係,有些只能得到相關關係,不能一概而論。


有用。只是因為現在數據挖掘的條件已經成熟,一個是硬體計算能力足夠強了,另外是數據獲取能力也足夠容易了,所以大數據才流行。大數據不是一個新概念。

其實數據和建模本來就是相輔相成,兩者都是研究和解決問題不同的角度,如同交錯的螺旋線。等到數據挖掘和機器學習到達瓶頸的時候,人們又會轉向建模。


簡單來說吧,所謂的「大數據」分析需要有四個要素。第一,分析主題,即你分析的目的是什麼,比如,監測信用卡異常交易?預測下月銷量?追蹤埃博拉疫情蔓延態勢?第二,基礎數據,包括結構化及非結構化數據,當然結構化數據分析起來通常要方便些。第三,分析方法,即用什麼樣的數學方法來分析,既可以是基礎的概率統計,也可以是高階的機器學習,複雜數學建模等。第四,分析工具,即用於分析的軟體與硬體工具,我們常聽到的hapdoop,mapreduce等名詞,就屬於這個範疇
上述四要素,缺一不可。
所以,無論小數據時代,還是大數據時代,數學方法,那都是必不可少的。


前面幾位的回答已經基本把這個問題說清楚了,但是還是忍不住想要回答一下。算是提供一個不同的角度。

統計學習的最終目標是建立一些變數之間的聯繫。我不否認大數據在很多領域取得了巨大的成功,能夠預測很多自然界發生的人類不理解的行為。但是,在某些方面大數據是不能替代數學建模的。這個問題結合物理學的一些基本原則會比較容易理解。

首先,什麼是一個正確的理論?物理學是一個研究可觀測量之間聯繫的科學。對於一個物理理論來說,只能被證偽,不能被證實。

「If the experiment doesn"t see it, it is wrong.」

如果一個理論有一定的預言性,並且能夠解釋實驗現象,那麼至少這個理論在某種程度上就是正確的。比如,牛頓力學解釋宏觀低速的現象。從這個角度說,大數據的方法建立的模型一般在一定程度上都有預言性,能解釋發生的現象。因此,在某種程度上就是一個正確的理論。對於很多沒有靠譜理論的領域,這都是重大的突破。

然而,光有正確性,或者說僅僅能夠解釋實驗現象還不夠。相信大家第一次學到唯象理論的時候都會覺得很不舒服,學習場論的時候會覺得有些條件非常不自然。這大概是因為從小學開始,我們學習的理論都有都有很好的公理化,平面幾何有歐幾里得的5大公設,牛頓力學有牛頓三定律,量子力學有五個基本假設……我們習慣於從基本假設出發推導物理量之間的聯繫,然後接受這些基本假設描述的物理圖像,作為構建世界觀的基礎。比如牛頓力學告訴我們力是改變物體運動狀態的原因,比如量子力學告訴我們應該用波函數,用概率詮釋去理解微觀世界。同時我們也總是希望構建理論的基本假設越少越好,這驅使物理學家去研究大統一的理論。

與我們從基本假設出發建立物理理論的思路恰恰相反,大數據事實上是從大量的可觀測量出發。我一直覺得這種分析方法回歸了物理的本源,因為它一定有預言,可以被實驗檢驗(好想在這裡黑一下弦論lol)。不過,大數據說穿了就是回歸分析,優化參數。至於模型中的參數,你可以說是從現有的數據優化得到的,或者更直接的說就是人為手加的。從建立一個基本理論的角度,這就是理論模型的一個假設。

但是,剃刀原理告訴我們:

當兩個假說具有完全相同的解釋力和預測力時,我們以那個較為簡單的假說作為討論依據。

所以,自然地,人們會去試圖尋找一個具有最少假設又能正確描述體系行為的模型或者理論。這個時候,你告訴我你可以從實驗數據出發利用大數據的方法歸納出量子力學的五個基本假設?或者說從天文學觀測數據分析出廣義相對論?不僅這些東西都遠遠做不到,想要解釋大數據建立的模型中參數的物理意義也都不可能。

大家總是喜歡直觀的東西的,習慣給所有東西一個直觀的物理解釋,如果你不能把一個東西簡單地講清楚,那就是你沒有深刻地理解它。做大數據的朋友們都管那玩意叫黑箱,你根本不知道裡面發生了什麼,難道不好奇嗎?

這當然不是說大數據方法一無所用,比如說我們也許可以用大數據的方法歸納出開普勒三定律,然後那這個人們再建模搞出牛頓三定律來。在大數據不那麼強大的時候,一些數學建模的方法總歸是有用的。想像一下走迷宮,從進口走一段,再從出口倒著反推一段,是不是能更快地解決問題?大數據和傳統的數學建模的關係跟這個就很像。

我一直覺得大數據是唯象學。但是唯象學鼻祖朗道,對於自己那些理論也都有清晰直觀的解釋。把問題變簡單,變直觀,才是努力的方向。

前段時間看到有文章拿機器學習研究相變問題,我覺得對於那些理論發展很成熟的領域,大數據用處不是很大。對於沒有成熟理論的領域,大數據可以給出一個模型,接下來你試圖去理解它就好,這就將是巨大的突破了。所以說,拿來指導一下燒材料長晶體這種玄學還是很有價值的。


大數據時代下正是需要數學模型來利用數據,發掘隱藏在數據中的信息和規律。
能充分挖掘出大數據的價值的要素:
  精準的數據模型 + 高效的演算法 + 穩定的運算平台 + 人的頭腦
分享一個個人在前公司的項目經驗:
客戶: 電信行業(公司名保密)
數據: TB級別
演算法: Logistic + elastic net, 擬合效果好,解釋性高,簡單易實施
平台: 分散式系統
個人經驗而言,即使是相同的演算法或者模型,不同的人用起來效果差別也是很大的。
因此,在大數據時代,有一個清晰的分析思路和方法為前提,結合大數據和數學模型才能夠發揮出真正的作用。


在很多行業,早就是大數據了,比如機械設計領域、經濟領域,但是這些行業從來沒說過不需要數據建模輔助。

數學模型,本質上是提升思維能力的工具,在同樣的數據基礎上,模型越好,數據利用效率越高。當然,數據不同量級,比較模型意義不大。

從我個人角度來講,作為一個一直踐行數據與建模相結合,並用於產品設計的使用者,一直感恩數學建模帶給我的思維方式。


idea>數據>演算法>模型

舉個例子,交通模型那麼多人,研究多久了,解決了交通擁堵了嗎,現在一個百度地圖使用大數據顯示實時路況,大大方便了出行。


數據代替不了模型的作用。。。。數據在你看來可能是真實的,但它不能比模型更真實(比如物理機制,原理,萬事萬物中的道理)。

比如,你對一個人的判斷,只靠紙面上的數據,很容易被現實蒙蔽。一起來看這部電影,《最佳出價》。

男主角,維爾吉爾·奧德曼(傑弗里·拉什)是一家頂級藝術品拍賣行的老闆,為人性情古怪,目中無人。他把頭髮一絲不苟地染成灰白色,並且總是穿戴著手套。對於顧客和手下人來說,維爾吉爾是一個可敬更可畏的人。憑藉著老道的經驗和高超的鑒賞力,任何贗品或者是被人忽視的作品都逃不過他的火眼金睛。

看男主角眼熟嗎?沒錯,他就是奧博托船長。。。。。

一個偶然的機會,他接到女主角萊爾·伊伯特森(西爾維婭·侯克斯)的電話,希望奧德曼幫助她為父母留下的遺產估價——一座古堡似的別墅,飽含股東文物。女主角多次跟男主角奧德曼先生預約時間,清點物品,但是卻屢屢爽約。這讓男主角發瘋,因為從來都沒有人敢這樣「戲弄」他。結果一輪對決後,女主角終於在古堡別墅里與男主角對話,只是對話,看不見人。男主角覺得奇怪,後來幾經打探,指導女主角患有廣場恐懼症,怕見生人,甚至連這裡的傭人都沒見過女主角。

男主角開始疑惑,越發的對女主角產生了興趣,但由於他從小在孤兒院長大,不相信任何人,甚至直到功成名就之時還是孑然一身的處子,因此男主角對感情一竅不通,陷入了深深的疑惑恐懼和自我否定中。這時,他找到了身邊一個深受女孩子喜歡的年輕股東商,羅伯特(吉姆·斯特吉斯)傾訴衷腸。在羅伯特的幫助下,男主角終於獲得的女主角的芳心。就在一次男主角在雨中被搶劫後,女主角也終於克服了廣場恐懼症,把男主角送到了醫院。

男主角下定決心從此退出江湖,專心跟女主角過上幸福的小日子。

忘記介紹的是,女主角特別漂亮

然鵝。。。。。這一切都是一個騙局,女主角+傭人+年輕的股東商都是一夥的,欺騙了男主角,拿走了男主角家裡幾乎所有的油畫。這讓男主角收到了經濟和感情上的雙重打擊,幾近失能,住進了福利院。

這個電影告訴人們,你看到的(比如數據)不一定是真的,當你被感情或者善良的本性拖累時,你將很難做出理性的判斷(比如使用正確的模型)。


難道不是因為正是出於大數據時代,數學建模,數學模型才更為重要嗎


模型可以分為:

  • 經驗模型 (empirical model)
  • 機理模型 (mechanistic model)

通過數據,我們可以得到對象行為的(總體上的)描述,但不一定能直觀地推測這些行為背後的機理(整體論);而機理模型(更傾向於還原主義)可以有效地描述對象各個部件各個層次之間的關聯,但並不一定會形成對總體行為的簡潔描述。

機理模型的建立,意味著我們對系統有著更細緻的理解,但並不意味著它一定更深刻;可能在工程實踐中你可以寫出一百條方程,但你很難求出一個滿意的解;而一條莫名其妙的經驗公式,卻可以讓樓不倒橋不塌。

只有當我們終於找到了經驗模型與機理模型之間那一道隱秘的連接線,人類才可以自豪地說:

這個問題已經(基本上)被解決了!


推薦閱讀:

50 以最小精度 0.1 隨機分成 10 份,每份四捨五入後加和仍是 50 的概率為多少?
與數學撇清關係的經濟學是不是都在耍流氓?
如果一個人的兩次考試成績在班裡排前十,那麼這個人的兩次考試總成績在班裡一定排名前十嗎?
n 個平面最多把 3 維空間分成幾個部分?
如何理解德州撲克中的 ICM 模型(獨立籌碼模型)?

TAG:數學建模 |