具體哪裡會用到泛函分析和測度論?

關於泛函,現在只知道svm提到希爾伯特空間,好像還有要用到變分法的地方

測度論的東西還沒碰到過

求理論大牛解惑 這兩部分的數學內容具體跟機器學習的那部分相關

另外如果做應用 需要專門補它們嗎?(目前已有最優化,矩陣論,資訊理論和基本的隨機過程的基礎)


本科初涉泛函分析,碩士搞的運籌與控制,博士宏觀經濟學,跟泛函分析打了10年交道,嗯。

本科的線性泛函分析,最重要的應用是給線性積分方程和線性偏微分方程打下理論基礎的。

非線性泛函分析,最重要的應用,就是非線性動力系統、非線性偏微分方程(PDE)、變分法(工科或者經濟學裡叫:最優控制)。事實上,PDE和變分法兩者之間有著十分深刻的關係。(後文細表)

在工程技術或者經濟學領域,與泛函分析最密切的應用課題就是最優控制理論(在無限維賦范線性空間中選擇最優點,即"極值函數")了。一般的最優化理論、運籌學或稱數學規劃理論,其求解特徵以及最優解都具有靜態特徵(在有限維賦范線性空間中選擇最優點)。而最優控制求解的問題本質上都是動態的,直觀上看,最優控制問題是在系統的動力學方程約束(微分/差分方程約束、隨機微分/差分方程約束)條件下去最優化一個泛函(而非函數),眾所周知,泛函的取值是與系統狀態變數的整個路徑直接相關的。

在最優控制理論的研究中,線性泛函分析中聞名遐邇的Riesz-Frechet表示定理、Banach fixed point Theorem、Hahn-Banach定理及等價的所謂分離超平面定理、共軛運算元理論;非線性泛函分析中的Banach空間的微分理論、拓撲度理論都發揮了重要作用(比如現代變分學中著名的"山路引理")。其他的泛函分析課題,如譜理論等與最優控制關係不太大,我也了解不深,不加介紹。下面列舉幾個最優化理論和最優控制理論的經典例子。

【1】.對偶空間、共軛運算元理論在Hilbert空間最優化理論中是十分重要的。Linear Manifold(線性流形)下的投影定理個人認為是最優化理論中最為精巧的定理之一。它特別適合求解如下最優化問題:(絕對值符號代表範數)

minleft| u 
ight| s.t.int_{a}^{b} y_{1} (t)u(t)dt=c_{1} int_{a}^{b} y_{2} (t)u(t)dt=c_{2}

細心的同學已經發現了約束條件就是兩個內積!是一個線性運算元的等值面,故而是一個線性流形。線性泛函課程中的投影定理直接告訴我們,上述最優化問題的解為:

u(t)=alpha y_{1} (t)+eta y_{2} (t)

厲害吧?

線性流形,就是仿射集:affine set。我喜歡叫它線性流形,是因為它聽起來更有腔調。嗯。

事實上呢,從初等的微分流形理論就可以知道,光滑映射的等值面是一個流形(這就是隱函數定理拓撲學意義!)。線性流形就是線性映射的等值面

【2】.不動點定理,如壓縮映射原理在討論最優控制的Bellman方程中具有重要作用。當然還有其他許多不動點定理,有關這一方面的應用很多很多很多。

例:約束條件(s.t.)為隨機動力學系統(一般為一個伊藤過程),最大化系統的性能泛函(用初等微積分語言說,就是約束極值問題,只不過這裡的約束為微分方程或隨機微分方程,目標函數升格為泛函)

maxEint_{0}^{infty } e^{-
ho t} c(t)^{alpha } dt s.t.dX(t)=[rX(t)-c(t)]dt+mu X(t)dW(t)

注意:E為期望運算元,W(t)為標準布朗運動。

對於這個問題,寫出它的HJB方程,然後嘗試壓縮映射迭代!當然不一定總成功!

壓縮映射原理,就是所謂的Banach不動點定理。在最優控制問題的研究中,我們經常要運用此定理,還有Brouwer不動點定理、Lery-Schaulder不動點定理論證方程的可解性。當這些定理都失效時,作為終極手段,我們還有最後的大招:拓撲度理論(拓撲學裡喜歡叫映射度理論)比如,在最優控制的研究中,我們經常碰到一些複雜的運算元方程。如何確定最優控制問題有解,往往化歸為不動點問題。如果情況複雜,拓撲度一般作為解決此類問題的終極手段,其樸素思想來自於複分析中的環繞數。所謂拓撲方法,即證明deg(f,Ω,p)不為0來說明運算元方程解的存在性。核心方法就是構造同倫,與恆等映射聯繫起來(這樣拓撲度就是1,運算元方程有解),或者與某個已知的簡單映射聯繫起來,然後根據簡單映射的Jacobi行列式計算拓撲度。對於無窮維空間,基本思路就是先證明運算元是緊的,再想辦法將拓撲度與恆等映射緊同倫起來。

再比如,在非線性動力學問題中,研究周期軌道的存在性與穩定性,學過常微分方程的話,首先想到的是Poincare映射,即首次返回映射。研究Poincare映射的不動點,證明不動點存在等等(Brouwer不動點定理笑了)。

當然,這裡既然提到了隨機微分方程,那我順便說下,有的時候我們求解隨機微分方程的過程中,會遇到偏微分方程的問題。在物理學、經濟學中,偏微分方程也很常見。微分方程的求解也可以通過其等價的運算元形式,運用無限維空間的Newton迭代法求解。這也是建立在泛函分析的賦范線性空間的微分理論基礎之上的。

【3】.Banach空間微分學(變分法的理論基石)對於可微泛函的嚴格討論,需要Lebesgue控制收斂定理等實變函數的內容。

PS:不過可以認為,不嚴格的討論(只是應用的話),實分析倒不必要。這也是為什麼實分析是判斷一個人數學素養的關鍵課程之一

【4】.將最優化理論中最重要(沒有之一)的Kuhn-Tucker定理推廣到無窮維空間,需要有對偶空間和Hahn-Banach定理的深刻認識,比如拉格朗日乘子就是屬於共軛空間的一個元素等等。為什麼要把Kuhn-Tucker定理推廣到無窮維空間?拜託,最優控制問題就是無窮維空間的非線性規劃!

對於拉格朗日乘子與共軛空間的關係,並不是那麼顯然的。這個問題在普通的非線性規劃問題中體現不出來,原因是古典的非線性規劃問題局限於R^n空間,而R^n空間的共軛空間是他自身(等距同構).但是在泛函優化問題中,拉格朗日乘子在哪個空間是非常重要的,這直接影響Lagrange泛函的構造!

測度論,在高等概率論、高等隨機過程(隨機微分方程)里有大量應用。(同樣的,想要不嚴格地掌握諸如Ito公式這樣的隨機分析內容,其實也不用測度論或者實變函數)

【5】Hilbert空間的最優化問題

許多統計學中的優化問題可以使用共軛空間理論簡潔地解決。

說到統計學,我的一個數理統計學博士朋友在做機器學習變分貝葉斯推斷,我雖然不懂機器學習,但我看過他的文章,用的也是最基礎的泛函優化問題。

泛函分析的應用太多了,以上只是最優化理論部分,還有討論某些複雜數值演算法的發散性問題、積分方程、偏微分方程、隨機微分方程非線性控制論部分(這部分對拓撲學的要求非常高),以後有空再補充吧,希望能激發一下後生們學習泛函分析的興趣。

最後我再對上文劃線的那句話做出一個簡短解釋。

我們想要求f(x)=lnx-x的極值,一階條件是frac{1}{x} -1=0

在初涉微分學的時候,我們幾乎沒有人會意識到這個操作具有什麼深刻含義。事實上,這個步驟反映了方程和優化之間的某種對應關係。我們想要求一個函數的極值,一階條件就等價於求解一個代數方程。推廣到無窮維空間,就是說,我們想要求一個泛函的極值,一階條件就等價於求解一個微分方程(ODE或者PDE)

一個非線性微分方程是非常難解的,甚至是無解析解的,但我們依然需要知道解的某些性質。怎麼辦?我們可以繞過這道坎,轉而去求解一個泛函極值(或者更一般的臨界點)問題,讓泛函取到極值(或者臨界點,有些泛函無上下界,卻有臨界點,可以用所謂的Nehari流形來尋找泛函的臨界點)的那個函數,就是對應非線性微分方程的解。

有關非線性泛函分析與拓撲學在高維流形上的非線性動力學中的應用,請參考我的另一篇文章非線性科學中現代數學的力量——一個綜述。


回答前半部分,泛函分析一個非常重要的應用,是微分方程理論。或者反過來說,泛函分析的發展很大程度上來自於微分方程。現代的PDE理論依賴於泛函分析,就應用而言,需要泛函分析的大部分是偏微分方程。運籌學也要用到,主要是不動點那部分的理論。其他學科用到泛函分析的地方大部分是證明部分的了,比如說隨機分析定義隨機積分的時候。

至於機器學習部分,用到的可能是希爾伯特空間的理論,像再生核這樣的理論基礎。

至於測度論,是現代概率論的語言和數學基礎。它本身可以說沒有直接的應用,但是概率論,隨機過程都是基於測度論的。所以對於概率和統計來說,測度論是非常重要的基礎。


上個學期上課的老師說,機器學習粗略的可以被認為是,統計優化計算機,這三個方面的交集。就從優化來說吧,機器學習是要解優化問題的,對於有條件的優化問題,你一定學過拉格朗日乘子法吧。這個東西背後有個拉格朗日對偶理論。如果你稍微有點好奇心,肯定不會滿足於"啊這能用",肯定還想挖掘有沒有別的對偶形式,對偶到底是什麼,和線代裡面的對偶有什麼關係,和集合運算里的摩根律有什麼關係。然後你會遇到一個叫做對偶空間的概念,正如線代中的那個東西一樣,然後你會遇見希爾伯特空間的對偶,巴拿赫空間的對偶,就是樓上所說的Hahn-Banach定理。

這裡面有一個重要的idea就是可以把拉格朗日乘子法,原來目標函數後面加的那一串當作perturbation,當然你自己也能構造別的形式的perturbation,然後似乎你就可以天然的一定程度上理解,現有的演算法是怎麼解決有約束的優化問題了,凸優化為啥這麼重要了,怎麼做魯棒優化,甚至自己做改進。

另一個方面是,你提到了svm,你肯定知道支撐向量和超平面,然後泛函裡面討論了凸集分離,我目前只琢磨到有些時候那個支撐超平面不存在,猜測這個和svm多少有點關係吧。

另外我一直很好奇的一個問題,那個機器學習領域傳說中的核方法,和那個g(s)=int{k(s,x)f(x)dx}積分有關係嗎。。既然他們都叫kernel。。如果有關係,泛函又能和機器學習扯上點關係。。

我就是順著這個思路掉進泛函的坑裡的,切身體會是好奇害死貓,如果老老實實當個程序猿也不用在意這麼多數學細節。。我覺得如果你不做理論,不做演算法,好像這些細節不明白也不會有什麼影響的吧?鄙人只是非數學系渣渣,有哪裡寫的不對的地方,還請路過的前輩們不吝賜教。


一般來說,泛函,測度論在比較應用的學科里都是使用比較平凡的情形。如R^n。比如不動點理論只要用到壓縮映射就夠了。如果不懂的話,搜搜wiki。個人認為不用專門學。


證明一般均衡


本科局開始做泛函相關的圖像分析。在工程實踐上和優化論有比較深的交集。

概論

泛函是針對一族函數和,在其具有最基本的分析,代數,性質定義域上函數結構的函數結構解刨學課程!因為這樣的函數在滿足了,內積定義後和三角不等式,便可定義度量:度量空間自然有,依度量收斂,柯西完備性的性質. 變分法也就是variations like caculus 就是將函數定義y當作變化的因素,類比微積分講起變成一個 $$y+pg$$ 的形式逼近,其中p是實參數數,$y=f$, $g$ 都是函數或者函數在某個取值點上的值。這樣就可以對p進行多項式逼近展開討論,討論目標函數$y$在取最優函數形式$f$時所滿足的函數關係;進一步根據函數的連續性,可導性,甚至偏微分方程構造函數滿足形態.

和我對來自遠方的飄泊客的理解恰恰相反:泛函的理論,和最優化既不緊密也不必然。

從泛函角度看問題1

問題1重述:

minleft| u 
ight| s.t.int_{a}^{b} y_{1} (t)u(t)dt=c_{1} int_{a}^{b} y_{2} (t)u(t)dt=c_{2}

首先如果u,y是沒有給出定義的,如果是通常的一階連續函數C[a, b]。我們已經知道該內乘定義是不完備的:也就說,給定一族連續的函數滿足柯西條件,可以收斂到一個不連續的函數,從而不滿足點集封閉的特性。

一個集合有了,度量(滿足三原則)就可以討論大小;有了完備性,就可以討論收斂;有了內積,自然就定義了度量,並可以進一步的討論代數,幾何上的,垂直,平行,線性無關,基等結構上的性質。有了基就可以用解線性方程組,或廣義線性方程組的方法來逼近數值函數。

顯然這道題目是討論一族有上述定義的,函數u. u目前只有關於內積的表示。有了內積的大數據結果,我們可以看到u作為向量可以由若干個線性無關的基函數線性組合:

<y_{1}-c_{1} y_{2}, u>=int_{a}^{b} left( {y_{1} (t)-c_{1} y_{2}(t)}<br />
ight)u(t)dt=0

<y_{1}, u>=int_{a}^{b} y_{1} (t)u(t)dt=c_{2}

但這是函數,並不是真正的向量,因為這個它沒有維度,---- 分解成無限多個互補關聯的小格子,或者說是無限維的。拿到上面那個條件,你該怎麼做?

假如 u = 1 + x + x^2, 那 u就可以被 y1=1, y2=x, y3=x^2線性表出,不失一般性,

u=alpha y_{1} + eta y_{2} + gamma Res

我們有:

但是這個關係,只能給出前兩個參數的一個關係。比如:

<1-c_{1} x, 1+x+x^2>=int_{a}^{b} left( {1-c_{1} t}<br />
ight)(1+t+t^2)dt=0

<1, 1+x+x^2>=int_{a}^{b} (1+t+t^2)dt=c_{2}

通過調整c_1, c_2,我們總能使得上式子成立,但是u不能被y1,y2表示。

從這個角度,博士候選人1的回答,顯然不能讓人滿意。實際上這也是大多數人,經常犯得錯誤。

優化論和泛函分析

博士1,提出要得到優化的駐點,就「等價」與「一階條件」。顯然這是錯誤的。優化的駐點條件,始終是搜索過程中的一個必要條件。而如何獲得接近正確結果的搜索過程,顯然不是泛函等分析理論所能夠覆蓋的。它是計算範疇,也是工程範疇。這個領域有很多有趣的結論,比如wolf-powell條件,但是,這不是泛函所對應的。

實際上現代PDE求解中的一個方法,就是通過分段函數逼近,比如求解空氣動力方程有限元計算,最後將解用這些基的線性組合表示。

結語

泛函就是這樣一門課程,告訴函數在無限維度的空間,大概被看成向量,會有什麼樣的機構。但是你完全不需要用這樣的思維去看待所有的函數問題。承認泛函並不那麼實用,其實並不難。


推薦閱讀:

如何評價丘成桐團隊關於GAN的論文?
為什麼非科班這麼難進數據挖掘這一行?
量子計算機和量子演算法的出現會給機器學習領域帶來什麼樣的變革,為什麼會帶來這樣的變革?原理是什麼?
在機器學習時代,程序如何利用機器學習的原理反機器學習呢?
資訊理論、信號處理等領域的研究近年來有哪些進展或突破?

TAG:機器學習 | 測度論 | 泛函分析 |