如何看待 2018 年 1 月發表在 arXiv 上的這篇文章 arXiv:1801.06637 ?
Deep Hidden Physics Models: Deep Learning of Nonlinear Partial Differential Equations
機器學習是數據驅動,用數據和模型假設來構造具有預測能力的模型,相當於一個黑箱;而偏微分方程描述的是確定的模型,通常對應的是物理系統,相當於一個白箱,如何把這個黑箱和白箱結合到一起?這篇文章似乎做的就是這件事?
貼一下文章鏈接:https://arxiv.org/pdf/1801.06637.pdf
正好在做這個方向,前面來回答下
這個方向的文章我整理過全放在這裡了:? 2prime
最近幾個月懶了也沒再這個項目上花心思所以沒更新
回答一下 @Jason Yuan 的問題
很多時候你手動物理規則出來的pde可能不準
就算準了你也不知道係數
算係數也是反問題里很重要的問題
這裡用了學習的方法知道係數
如果你直接cnn/lstm無腦學 我相信也是ok的
但是基於pde的dl方法就會有透明性
最近有很多有意思的文章出來
這個項目是他博士後老闆George Em Karniadakis之前一直從事的從machine learning來學pde的思路,以前他們做法是用高斯過程
上個學期George來我們學校時候,talk里講個以前的例子,用數據學出來了一個分數階pde 階和時間dependent的pde
最後推薦下自己的文章
Zichao long*, Yiping Lu*, Xianzhong Ma*, Bin Dong. "PDE-Net:Learning PDEs From Data",ICLR Workshop Track2018
順路艾特一作來 @龍子超
https://arxiv.org/abs/1710.09668?arxiv.orgLearning PDEs from Data
Learning PDEs from Data?arxiv.org我們目的也是從數據中學pde【不是簡單的學一個係數】
我們的方法是同時把數值格式放進去學,observation是卷積核和差分格式非常類似,用卷積核和微分運算元關係在學pde同時學到了一個數值格式
我們的方法可以結合以前所有學pde的方法,比如著名的稀疏回歸的方法進行改進,非常靈活【和George這種直接用bp來算導數的方法就不行了】
不過的確這篇文章的大部分想法早在2005年左右就已經出現了,而且最近貌似很多人重新把這個想法拉回來說
從simulate data上看效果很好,也需要真實數據來測試
和george握過手誇過文章和idea的我也是人生圓滿了,但是一直沒有騰出手去做那個idea
hhhhh
粗略看了一下文章,先拋出幾個不成熟的看法。
該文章的思路是,使用某個物理過程的結果作為輸入,構建神經網路,通過神經網路來暴力逼近可以描述該物理過程的方程。
但是,我沒太看懂這項工作有哪些更深刻的意義。
直覺上,這項工作讓我們能通過實驗觀察的數據來逆向構造描述的物理過程的governing equation,似乎是一個反演問題。但是,反演問題的挑戰在於(1)少量觀測數據與大量未知參數帶來的ill-posed problem (2)反演的結果要能夠描述物理模型。第一個問題在文章里沒有重點討論,我們不知道這一方法能否較好的解決ill-posed problem;第二個問題直接是不可解決的,因為這個訓練之後的神經網路是一個黑箱,我們沒辦法從中提取信息用以描述物理模型。
這個思路隔一段時間就有人拿出來用一下,有的人把他當做system identification在做,有的人把他當做統計力學在做,比如我了解的早期一些做物理的人例如Rudolf Friedrich https://www.sciencedirect.com/science/article/pii/S0370157311001530在Physical reports 上就發表過類似的報告,高階運算元在尺度上的處理也一直是個難點(用filter啥的)。現在機器學習的東風起來了又可以刷一波了
說三點:
1、之前看過,2016年、2017年這哥們寫的幾篇。他到我們學校用這個IDEA來申請faculty。 但是他做報告能力不太好,說的時候不是很嚴謹,最後沒選上,遭到一頓批,很多人因為他做報告不嚴謹就沒仔細聽他的想法。總的來說,這個文章還不錯,很明顯我看到回答里有些人只看了頭幾段,沒有繼續往下讀。
2、算是一個灰箱模型,能找到這篇文章的題主說明是個有心人。但是這篇文章的大部分想法早在2005年左右就已經出現了。但是作者沒有引。我和我老闆說了,表示震驚,表示下次見面和卡尼達克斯說一下。
3、這個文章的想法在高維空間(我指的高維是PDE的時空維數(時間+空間),不是那種離散成ODE的無限的意思)下scaling不太好,這是受限於黑箱模型本身沒什麼好奇怪的。不過沒記錯的話2016,2017幾篇有講到和傳統數值方法的結合以彌補這個缺點,沒記錯的華他求了一個10多維的PDE,我覺得還不錯。雖然對我來說時空3維就足夠用了。
這不是之前做報告的小哥?
這paper之前大致粗略看過,就是因為發現他是把物理和DL結合起來做,有點另闢蹊徑的感覺,還考慮過要不要跟著這哥們兒合作一下,後來想想那還不如直接搞工業界的應用方向,不然總有點隔靴搔癢的感覺。
扔arxiv上叫占坑,不叫發表
不少人都在做這件事情吧。
我個人覺得PDE本身已經是對物理現象極其dense的表達了。
如果神經網路可以學到PDE的全部信息,那也可能是耗費更多資源的冗餘表達(而且從數值微分方程的角度學到的其實是一個線性差分?如果每一步長看做通過一個神經網路)。
不知道這個模型的泛化能力如何。
PDE為什麼要深度學習?PDE是極其精確的數學描述,在特定場合需要數值解時,也是做數學推導上非常嚴謹的近似。有點扯
不知道你有沒有看過sigmoid函數引起的gradient vanishing?其中解決方案是直接換掉sigmoid activation function,換成Relu activation function,但Relu是線性的,那不是深度學習和普通機器學習一樣了嗎?,但不是這樣。其實在多層layer下它已經不是完全的線性了
推薦閱讀:
※L.C.Evans的pde教材part3非線性pde寫的怎麼樣?
※Restriction Theorem 1
※學習偏微分方程需要具備什麼基礎知識?
※辛幾何在研究 PDE 方面有哪些應用?