矩陣,數列,微分方程的特徵值是什麼關係?

如題,矩陣有特徵值,數列算遞推時候也可以用特徵方程來解,二階微分方程也有特徵值。這些特徵值有什麼關係啊?


矩陣的本質是線性變換。

線性變換中最簡單的一類就是放縮變換。

如果在某個向量上,線性變換剛好是放縮變換,就定義之為特徵向量,放縮率為特徵值。

線性遞歸數列和線性微分方程可以看作找線性變換的不動點。

這類問題藉助特徵值和特徵向量可以給出一些特解,而這些特解往往又可以得到通解。

建議閱讀Apostol《線性代數及其應用導論》


矩陣,數列,微分方程的特徵值本質是一樣的。首先來解釋矩陣的特徵值:這裡直接引用一個結論:相似矩陣,就是同一個線性變換的不同基的描述矩陣。(詳細信息參見《神奇的矩陣》)矩陣的相似變換可以把一個比較丑的矩陣變成一個比較美的矩陣,而保證這兩個矩陣都是描述了同一個線性變換。至於什麼樣的矩陣是「美」的,什麼樣的是「丑」的,我們說對角陣是美的。在線性代數中,我們會看到,如果把複雜的矩陣變換成對角矩陣,作用完了之後再變換回來,這種轉換很有用處,比如求解矩陣的n次冪!而學了矩陣論之後你會發現,矩陣的n次冪是工程中非常常見的運算。這裡順便說一句,將矩陣對角化在控制工程和機械振動領域具有將複雜方程解耦的妙用!總而言之,相似變換是為了簡化計算!

從另一個角度理解矩陣就是:矩陣主對角線上的元素表示自身和自身的關係,其他位置的元素aij表示i位置和j位置元素之間的相互關係。那麼好,特徵值問題其實就是選取了一組很好的基,就把矩陣 i位置和j位置元素之間的相互關係消除了。而且因為是相似變換,並沒有改變矩陣本身的特性。因此矩陣對角化才如此的重要!

特徵向量的引入是為了選取一組很好的基。空間中因為有了矩陣,才有了坐標的優劣。對角化的過程,實質上就是找特徵向量的過程。特徵值就是這組基下的坐標,於是矩陣變成最簡單的形式。如果一個矩陣在複數域不能對角化,我們還有辦法把它化成比較優美的形式——Jordan標準型。下圖是從wikipedia的《特徵向量》一文中引用的

在這個錯切變換中,蒙娜麗莎的圖像被變形,但是中心的縱軸在變換下保持不變。(注意:角落在右邊的圖像中被裁掉了。)藍色的向量,從胸部到肩膀,其方向改變了,但是紅色的向量,從胸部到下巴,其方向不變。因此紅色向量是該變換的一個特徵向量,而藍色的不是。因為紅色向量既沒有被拉伸又沒有被壓縮,其特徵值為1。所有沿著垂直線的向量也都是特徵向量,它們的特徵值相等。它們構成這個特徵值的特徵空間

特徵值英文名eigen value。「特徵」一詞譯自德語的eigen,由希爾伯特在1904年首先在這個意義下使用(赫爾曼·馮·亥姆霍茲在更早的時候也在類似意義下使用過這一概念)。eigen一詞可翻譯為「自身的」,「特定於...的」,「有特徵的」或者「個體的」—這強調了特徵值對於定義特定的變換上是很重要的。它還有好多名字,比如譜,本徵值。為什麼會有這麼多名字呢?

原因就在於他們應用的領域不同,中國人為了區分,給特不同的名字。你看英文文獻就會發現,他們的名字都是同一個。當然,特徵值的思想不僅僅局限於線性代數,它還延伸到其他領域。在數學物理方程的研究領域,我們就把特徵值稱為本徵值。如在求解薛定諤波動方程時,在波函數滿足單值、有限、連續性和歸一化條件下,勢場中運動粒子的總能量(正)所必須取的特定值,這些值就是正的本徵值。

---------------------------------------------------接下來解釋微分方程的特徵值-------------------------------------------

前面我們討論特徵值問題面對的都是有限維度的特徵向量,下面我們來看看特徵值對應的特徵向量都是無限維函數的例子。這時候的特徵向量我們稱為特徵函數,或者本證函數。這還要從你熟悉的微分方程說起。方程本質是一種約束,微分方程就是在世界上各種各樣的函數中,約束出一類函數。對於一階微分方程

frac{dy}{dt} =lambda y

我們發現如果我將變數y用括弧[]包圍起來,微分運算的結構和線性代數中特徵值特徵向量的結構,即frac{d}{dt}[ y]=lambda yT[y] =lambda y竟是如此相似。這就是一個求解特徵向量的問題啊!只不過「特徵向量」變成函數!我們知道只有e^{lambda t} 滿足這個式子。這裡出現了神奇的數e,一杯開水放在室內,它溫度的下降是指數形式的;聽說過放射性元素的原子核發生衰變么?隨著放射的不斷進行,放射強度將按指數曲線下降;化學反應的進程也可以用指數函數描述……類似的現象還有好多。

為什麼選擇指數函數而不選擇其他函數,因為指數函數是特徵函數。為什麼指數函數是特徵?我們從線性代數的特徵向量的角度來解釋。這已經很明顯了e^{lambda t} 就是「特徵向量」。於是,很自然的將線性代數的理論應用到線性微分方程中。那麼指數函數就是微分方程(實際物理系統)的特徵向量。用特徵向量作為基表示的矩陣最為簡潔。就像你把一個方陣經過相似對角化變換,耦合的矩陣就變成不耦合的對角陣一樣。在機械振動裡面所說的模態空間也是同樣的道理。如果你恰巧學過振動分析一類的課程,也可以來和我交流。

同理,用特徵函數解的方程也是最簡潔的,不信你用級數的方法解方程,你會發現方程的解有無窮多項。解一些其他方程的時候(比如貝塞爾方程)我們目前沒有找到特徵函數,於是退而求其次才選擇級數求解,至少級數具有完備性。實數的特徵值代表能量的耗散或者擴散,比如空間中熱量的傳導、化學反應的擴散、放射性元素的衰變等。虛數的特徵值(對應三角函數)代表能量的無損耗交換,比如空間中的電磁波傳遞、振動信號的動能勢能等。複數的特徵值代表既有交換又有耗散的過程,實際過程一般都是這樣的。復特徵值在電路領域以及振動領域將發揮重要的作用,可以說,沒有複數,就沒有現代的電氣化時代!

對於二階微分方程方程,它的解都是指數形式或者復指數形式。可以通過歐拉公式將其寫成三角函數的形式。復特徵值體現最多的地方是在二階系統,別小看這個方程,整本自動控制原理都在講它,整個振動分析課程也在講它、還有好多課程的基礎都是以這個微分方程為基礎,這裡我就不詳細說了,有興趣可以學習先關課程。說了這麼多只是想向你傳達一個思想,就是復指數函數式系統的特徵向量!

如果將二階微分方程轉化成狀態空間frac{dx}{dt} =Ax的形式(具體轉化方法見現代控制理論,很簡單的)

。則一個二階線性微分方程就變成一個微分方程組的形式這時就出現了矩陣A,矩陣可以用來描述一個系統:如果是振動問題,矩陣A的特徵值是虛數,對應系統的固有頻率,也就是我們常說的,特徵值代表振動的譜。如果含有耗散過程,特徵值是負實數,對應指數衰減;特徵值是正實數,對應指數發散過程,這時是不穩定的,說明系統極容易崩潰,如何抑制這種發散就是控制科學研究的內容。

提到振動的譜,突然想到了這個經典的例子:美國數學家斯特讓(G..Strang)在其經典教材《線性代數及其應用》中這樣介紹了特徵值作為頻率的物理意義,他說:"大概最簡單的例子(我從不相信其真實性,雖然據說1831年有一橋樑毀於此因)是一對士兵通過橋樑的例子。傳統上,他們要停止齊步前進而要散步通過。這個理由是因為他們可能以等於橋的特徵值之一的頻率齊步行進,從而將發生共振。就像孩子的鞦韆那樣,你一旦注意到一個鞦韆的頻率,和此頻率相配,你就使頻率盪得更高。一個工程師總是試圖使他的橋樑或他的火箭的自然頻率遠離風的頻率或液體燃料的頻率;而在另一種極端情況,一個證券經紀人則盡畢生精力於努力到達市場的自然頻率線。特徵值是幾乎任何一個動力系統的最重要的特徵。"

---------------------------------------------------下面是數列的特徵值-------------------------------------------

其實直接說是數列的特徵值並不準確,應該是遞推方程的特徵值。你可能還不知道,遞推方程還有一個名字叫差分方程。這裡首先要做一下聲明:以下涉及的遞推方程都是線性方程:也就是滿足比例性和加法性。因為只有線性的方程才有特徵方程這種說法。

言歸正傳:如果你理解了上面的微分方程特徵值問題那就好辦了,我們將微分方程離散化,也就是通訊領域所說的採樣。再通俗一點解釋就是每隔一定的時間間隔取一個點。微分方程就變成差分方程了,也就是你說的數列遞推公式。如果你想了解更詳細的轉化過程,去看現代控制理論或者數字信號處理(最好是國外有介紹差分方程求解的書)。接下來你肯定會問這個差分方程和特徵值有半毛錢關係么?

當然有。就像上面提到的那樣:方程本質是一種約束,差分方程也可以在世界上各種各樣的函數中,約束出一類函數。對於一階差分方程

y(n+1) =lambda y(n)

和上面微分方程的類似,差分方程的結構和線性代數中特徵值特徵向量的結構也是類似的,等號左右只差一個延遲對不對,即(一個時間延遲)[ y(n)]=lambda y(n)T[y] =lambda y非常相似,請注意我的寫法,這裡用了(一個時間延遲)運算符,看到數字信號處理的書中你會發現其實(一個時間延遲)=z^{-1} ,這當然是後話。這就是一個求解特徵向量的問題啊!只不過「特徵向量」變成離散的函數 !我們知道只有lambda^{n} 滿足這個式子。於是,很自然的lambda^{n} 就是特徵向量。

如果是一組差分方程或者一個高階的差分方程,也可以轉化成離散的狀態空間x(n+1) =Ax(n)形式(具體轉化方法見現代控制理論)。這時就出現了矩陣A,矩陣可以用來描述一個系統:如果是振動問題,矩陣A的特徵值是虛數,對應系統的固有頻率,也就是我們常說的,特徵值代表振動的譜。如果含有耗散過程,特徵值是負實數,對應指數衰減;特徵值是正實數,對應指數發散過程,這時是不穩定的,說明系統極容易崩潰,如何抑制這種發散就是控制科學研究的內容。這一點和微分方程的結論一樣!x(n+1) =Ax(n)是最簡單的形式,還有其他複雜的形式,比如x(n+1) =Ax(n)+Bu(n).但是理解了最基本的形式,其他形式都以此類推,並沒有太大差異。

如果你感興趣還可以看一看《數值計算》中的牛頓迭代和方程組迭代那部分,其實就是應用差分方程的知識。從高中的數列;到本科的線性代數、微分方程、傅里葉變換、數字信號處理、現代控制理論;再到研究生的數值計算、矩陣論,偏微分方程的數值解,突然發現自己一直都在和特徵值打交道,如果你想了解更多的矩陣方面的知識,可以百度搜索《神奇的矩陣》和《神奇的矩陣第二季》,也可以加讀者交流群,裡面有最新的版本。


原文鏈接:特徵值、Fibonacci數列、微分方程

高中時學線性遞推數列,只記得老師在黑板上寫了一堆眼花繚亂的黑科技,得到了一個好像很厲害的結論,然後就沒有然後了。

那種做法被稱為「特徵根法」。以Fibonacci數列為例:

F_{n+2}=F_{n+1}+F_n

lambda^2代替F_{n+2}lambda代替F_{n+1}1代替F_n,得到特徵方程lambda^2-lambda-1=0,進而得到兩特徵根lambda_1,lambda_2.

F_n可以表示為c_1lambda_1^n+c_2lambda_2^n

F_0=0,F_1=1即可確定待定常數c_1,c_2.

在線性代數中,又遇到了「特徵值」的概念。這次,求Fibonacci數列通項公式的做法變成了這樣:

u_n=left[egin{array}{cc}x_{n+1}\x_n end{array}
ight],u_{n+1}=Au_n,A=left[egin{array}{cc} 11\10end{array}
ight],

f_A(lambda)=left|egin{array}{cc}1-lambda1\1-lambda end{array}
ight|=lambda^2-lambda-1=0,

得到特徵值lambda_1,lambda_2和對應的特徵向量x_1=left[egin{array}{cc} lambda_1\1end{array}
ight]x_2=left[egin{array}{cc} lambda_2\1end{array}
ight].

於是u_n=A^nu_0=A^n(c_1x_1+c_2x_2)=c_1lambda_1^nx_1+c_2lambda_2^nx_2=left[egin{array}{cc} c_1lambda^{n+1}+c_2lambda^{n+1}\c_1lambda^{n}+c_2lambda^{n}end{array}
ight]

F_n=c_1lambda_1^n+c_2lambda_2^n.

這兩種看似不同的做法,為何從過程到結果都驚人地相似?不妨從矩陣A的本質著手理解。

矩陣的本質是線性變換。而在本例中,u_{n+1}=Au_{n},用最通俗的話講,A的作用就是把u的下標加了個一。

注意到A的特徵值lambda和對應的特徵向量x滿足Ax=lambda x,若我們將u表示為兩個特徵向量x_1,x_2的線性組合,「加下標」的運算就變成了「乘以lambda」 的運算,求通項也就輕而易舉了。

我們當然可以按部就班地求矩陣的特徵值、特徵向量,得到答案。但這裡為了說明上述兩種解法的關聯,這裡不直接對矩陣「動手」,而從其作用出發給出直觀理解:

對於特徵向量x,我們希望「下標加一」和「乘以lambda」這兩個操作是等價的。很自然地,我們想到這樣一個數列:

1,lambda,lambda^2,lambda^3,cdots

將任意相鄰兩項向右「平移」一個單位,這兩項確實都變成了原來的lambda倍。

於是,特徵方程就是lambda^2-lambda-1=0. 至此,第一種基於觀察的做法而第二種嚴格的推理統一了起來。

有了這樣的觀察,再去解常係數線性常微分方程,就再簡單不過了。為方便比較,這裡選取「對應於」Fibonacci數列的微分方程:

y^{(n+2)}=y^{(n+1)}+y^{(n)}

這裡與「乘以lambda」對應的,變成了「求一次導」,剛才的

1,lambda,lambda^2,lambda^3,cdots

也就變成了

e^{lambda x},lambda e^{lambda x},lambda^2 e^{lambda x},lambda^3 e^{lambda x},cdots

特徵方程依舊是lambda^2-lambda-1=0.不難看出,兩個問題的本質是完全相同的。


首先說「高階遞推公式的數列」x_n=sum_{i=0}^{n-1}{c_ix_i} 的特徵方程

和「高階常微分方程」x^{(n)}=sum_{i=0}^{n-1}{c_ix^{(i)}} 的特徵方程。

這兩個本質上其實都是求一種變換的通式,

就是 sum_{i=1}^{n}{a_ix_i} =b_i(sum_{i=0}^{n-1}{a_ix_i} )sum_{i=1}^{n}{a_ix^{(i)}} =b_i(sum_{i=0}^{n-1}{a_ix^{(i)}} )

這麼寫出來是不是就很像了呢?(其實一共有 n 個方程,然後通過這 n 個來解出通項公式或原函數)不過就是求解方便而已,沒啥意義。

「線性常微分方程組」的特徵方程和「矩陣」的特徵方程其實完全就是一個東西,因為我們是要把線性常微分方程組進行變換,變到能求解的對角矩陣。


推薦閱讀:

倒立擺系統中的動力學建模,桿的旋轉中心為什麼要進行等效?
是否存在一個常微分方程存在整體解的充要條件?
有限元演算法,無論四面體單元還是六面體單元,如果單元數量無窮多,結果是否都收斂於一個值?

TAG:數學 | 數學史 | 矩陣 | 微分方程 | 特徵值 |