矩陣的奇異值與特徵值有什麼相似之處與區別之處?


贊同 @趙文和的答案=w= 奇異值分解把線性變換清晰地分解為旋轉縮放投影這三種基本線性變換。

我從另一個角度說一說『奇異值』和『特徵值』的相似與不同之處。

首先,矩陣是對線性變換的表示;確定了定義域空間與目標空間的兩組基,就可以很自然地得到該線性變換的矩陣表示。(如果對此不理解,建議先看:線性變換的矩陣為什麼要強調在這組基下? - 匡世珉的回答,這很重要。)

我們把線性變換T:V
ightarrow W關於基v_{1},...,v_{n}和基w_{1},...,w_{m}的矩陣記作M(T, (v_{1},...,v_{n}),(w_{1},...,w_{m}))

如果TV到自身的線性映射(線性運算元),並且變換前後用的是同一個基v_{1},...,v_{n}表示,那麼其矩陣就簡記為M(T, (v_{1},...,v_{n})).

好的,首先說相似之處。既然是相似之處,我們就把討論範圍限定在線性運算元T:V
ightarrow V上(也就是說,矩陣都是正方形的),否則特徵值的意義就不大了。

放兩張圖,第一張關於特徵值:

第二張關於奇異值:

這樣一來,特徵值lambda _{i}和奇異值s_{i}的相似之處就很清楚了:

通過選擇比較好的基,我們就可以很清晰地描述線性變換的效果:對應基向量的變換隻是乘了一個常數(對角矩陣的意義)。這些常數就是特徵值奇異值

我們對比兩張圖也可以清晰地看出不同之處:

特徵值關於同一組基:一組由特徵向量組成的基v_{1},...,v_{n}.

奇異值關於不同的基:兩組規範正交基e_{1},...,e_{n}f_{1},...,f_{n}.

由於奇異值關於不同的基,所以可以擴展到任意線性變換T:V
ightarrow W;而特徵值則只能描述線性運算元

任意線性變換都可以進行奇異值分解;但如果找不到由特徵向量組成的基,就沒有辦法把線性變換表示為漂亮的對角矩陣了。

此外,奇異值都是非負的,而特徵值可能是負的,但這個區別光看圖是看不出來的。

後者很好理解,特徵值是負的就意味著有些特徵向量被線性變換反向了。

而要理解前者,則需要更深入地理解奇異值分解,我這裡非常簡要地說一下。

先給一些定義:

有一些線性運算元不改變向量的長度(範數),也就是說,對於所有的v in V,都有lVert S v 
Vert=lVert v 
Vert,這樣的線性運算元S被稱為等距同構

實內積空間上的等距同構就是正交運算元,復內積空間的等距同構就是酉運算元

如果線性運算元T等於其伴隨T^{*},那麼就稱T自伴的(self-adjoint)。

如果線性運算元T是自伴的,並且對於所有的v in V,都有langle,Tv,v
anglegeq 0,那麼稱T正的(positive)或者半正定的(positive semidefinite)。

正運算元的所有特徵值都是非負的

我們可以做一個類比:每一個非零複數z都可以寫成z=(frac{z}{left| z 
ight| } )left| z 
ight| =(frac{z}{left| z 
ight| } )sqrt{zar{z} } ,也就是一個單位圓上的複數與一個正實數的乘積。

這個類比了啥……?

單位圓上的複數類比於等距同構(因為left| z 
ight| =zar{z}=1類比於T^{*}T=I);實數類比於自伴運算元;正實數類比於正運算元。

於是,這個類比就讓我們浮想聯翩:任意運算元是不是都能寫成等距同構正運算元的複合呢?

是的!猜對啦!那怎麼寫呢?

根據類比,T=Ssqrt{T^{*}T} ,其中S是等距同構。這就被稱為線性運算元的極分解。(當然,類比並不能代替嚴謹的證明;類比來自雙線性代數。)

實際上,奇異值就是sqrt{T^{*}T} 的特徵值。由於sqrt{T^{*}T} 是正運算元,其特徵值都是非負的,所以奇異值自然都是非負的。

譜定理表明,正運算元的本徵向量可以組成V的規範正交基(正運算元是自伴的),所以我們可以把sqrt{T^{*}T} 對角化,代入極分解中就得到了奇異值分解。

也就是說,極分解與譜定理共同保證了奇異值分解的可行性

嗯,我知道後半部分寫得很不清楚……但教材寫得清楚呀=w= 想具體了解還是好好看教材。

再次推薦《Linear Algebra Done Right》(中文版《線性代數應該這樣學》),這本書也是此回答的參考資料。

那麼就這樣=w=


首先,矩陣可以認為是一種線性變換,而且這種線性變換的作用效果與基的選擇有關。

以Ax = b為例,x是m維向量,b是n維向量,m,n可以相等也可以不相等,表示矩陣可以將一個向量線性變換到另一個向量,這樣一個線性變換的作用可以包含旋轉縮放投影三種類型的效應。

奇異值分解正是對線性變換這三種效應的一個析構。
A=mu Sigma sigma ^{T} mu sigma 是兩組正交單位向量,Sigma 是對角陣,表示奇異值,它表示我們找到了mu sigma 這樣兩組基,A矩陣的作用是將一個向量從sigma 這組正交基向量的空間旋轉mu 這組正交基向量空間,並對每個方向進行了一定的縮放,縮放因子就是各個奇異值。如果sigma 維度比mu 大,則表示還進行了投影。可以說奇異值分解將一個矩陣原本混合在一起的三種作用效果,分解出來了。

特徵值分解其實是對旋轉縮放兩種效應的歸併。(有投影效應的矩陣不是方陣,沒有特徵值)
特徵值,特徵向量由Ax=lambda x得到,它表示如果一個向量v處於A的特徵向量方向,那麼Av對v的線性變換作用只是一個縮放。也就是說,求特徵向量和特徵值的過程,我們找到了這樣一組基,在這組基下,矩陣的作用效果僅僅是存粹的縮放。對於實對稱矩陣,特徵向量正交,我們可以將特徵向量式子寫成A=xlambda x^{T} ,這樣就和奇異值分解類似了,就是A矩陣將一個向量從x這組基的空間旋轉到x這組基的空間,並在每個方向進行了縮放,由於前後都是x,就是沒有旋轉或者理解為旋轉了0度。

總結一下,特徵值分解和奇異值分解都是給一個矩陣(線性變換)找一組特殊的基,特徵值分解找到了特徵向量這組基,在這組基下該線性變換隻有縮放效果。而奇異值分解則是找到另一組基,這組基下線性變換的旋轉、縮放、投影三種功能獨立地展示出來了。我感覺特徵值分解其實是一種找特殊角度,讓旋轉效果不顯露出來,所以並不是所有矩陣都能找到這樣巧妙的角度。僅有縮放效果,表示、計算的時候都更方便,這樣的基很多時候不再正交了,又限制了一些應用。

推薦文章:
Feature Column from the AMS
奇異值的物理意義是什麼? - 知乎用戶的回答
線性變換的矩陣為什麼要強調在這組基下? - 匡世珉的回答


eigshow, week 1
eigshow, week 2
eigshow, week 3
這三篇文章是介紹MATLAB中的一個demo,在MATLAB執行「eigshow」可以打開文章中的程序,沒有MATLAB也沒關係,文中有很詳細的配圖
結合前邊幾個高票的文字描述可以更加直觀的理解特徵值和奇異值分解


謝謝邀請。

特徵值用來描述方陣,可看做是從一個空間到自身的映射,這也表現在了名字eigenvalue中。奇異值可以描述長方陣或奇異矩陣,可看做是從一個空間到另一個空間的映射。

特徵值和奇異值都可用於分解矩陣,分解式長得像。兩種分解的關係可以看下面的維基鏈接[1](知乎沒法打公式)。因為這種關係,經常將奇異值視作特徵值的平方根,但是不推薦這樣的理解……

下面還給出了一個講解得不錯的PDF[2]。

[1] http://en.wikipedia.org/wiki/Singular_value_decomposition#Relation_to_eigenvalue_decomposition
[2] http://www.mathworks.com/moler/eigs.pdf


可以理解為奇異值是特徵值的推廣,對長方形或者正方形但不滿秩的矩陣,我們總可以求其奇異值。對於一般方陣兩者不一定有聯繫。對於對稱方陣,二者相等。


1.相似之處
都是對線性變換(即矩陣)M進行分解,可以提取出主要的特徵向量

2.不同之處
2.1.奇異值分解適用範圍更廣,而特徵值分解只適用於方陣
2.2.奇異值分解將矩陣M分解拉伸矩陣、旋轉矩陣以及特徵值矩陣(即奇異值)
2.3.特徵值分解只分解為拉伸矩陣和特徵值矩陣,不對變換本身做旋轉(此條是個人理解,不保證準確性,看其公式兩個特徵向量矩陣是同一個).


矩陣的本質是線性變化,所以我們接下來從線性變換的角度來考慮這個問題。


假設有一個n 維空間和一個m 維空間,其對應的兩組基分別為{alpha_1, dots, alpha_n}{eta_1, dots, eta_m}。現在有一個m	imes n 矩陣A_{m	imes n} ,這個矩陣就表示了一個從n 維空間到m 維空間的一個變換。從幾何上講,一個線性變換對應了對一個向量的旋轉,縮放,和投影(個人喜歡稱之為有沒有元素的缺失)


那麼,很多時候,我們不關心一個向量是否被旋轉了,而更加關心它有沒有變大、變小或者少了點啥。我們知道,對角矩陣就描述了這樣一種線性變換,那麼一個很自然的想法是我能不能找到一個與A_{m	imes n} 等價的對角矩陣Sigma_{m	imes n},這樣的一個矩陣就可以表示移除了旋轉之後的原變換。


那麼,怎樣來找到這樣一個矩陣呢?試想,如果我們可以在n 維空間中找到另一組基{alpha^{prime}_1, dots, alpha^{prime}_n} ,使得這組基經過線性變換A_{m	imes n} 後,剛好對應m 維空間中的另一組基{eta^{prime}_1, dots, eta^{prime}_{m}}那麼在這兩組新基下的線性變換與原變換等價,而且,新的變換可以由一個對角矩陣Sigma_{m	imes n}描述。Okay,能做到這一步的話,恭喜你,共產主義的社會目標已經實現啦,game over。

------------------------------------------------------------------------------------------------------------------------

以上就是奇異值分解的崇高理想,接下來我們來看,怎樣找到這樣兩組基從而把理想變成現實。


剛巧,我們發現矩陣A^TAn個單位正交的特徵向量{alpha^{prime}_1, dots, alpha^{prime}_n} ,在經過線性變換A後,剛好對應於m 維線性空間的r個正交基{eta^{prime}_1, dots, eta^{prime}_r},經過擴充後可以得到{eta^{prime}_1, dots, eta^{prime}_{m}}

- 由於矩陣A的rank為r,所以線性變換後,只剩下r個線性無關的基
- 證明為什麼線性變換後的r個基是正交的:
漫談奇異值分解

{alpha^{prime}_1, dots, alpha^{prime}_n} 在基{alpha_1, dots, alpha_n}下的坐標表示為V_{n	imes n}=[v_1, dots, v_n] 。那麼在n維空間中,任意向量vec{a}在基{alpha_1, dots, alpha_n}下的坐標表示m{a} 與在基{alpha^{prime}_1, dots, alpha^{prime}_n} 下的坐標表示m{a}^{prime}有如下轉換關係:

m{a} = V_{n	imes n} m{a}^{prime}

同理,記{eta^{prime}_1, dots, eta^{prime}_{m}}在基{eta_1, dots, eta_m}下的坐標表示為U_{m	imes m} = [u_1, dots, u_m] 。那麼在m維空間中任意向量vec{b}在基{eta_1, dots, eta_m}下的坐標表示m{b} 與在基{eta^{prime}_1, dots, eta^{prime}_{m}}下的坐標表示m{b}^{prime} 有如下轉換關係:

m{b} = U_{m	imes m} m{b}^{prime}

因此,n維空間任意向量vec{a}經由線性變換A_{m	imes n}後得到vec{b} 有如下關係:

m{b} = A_{m	imes n} m{a} \ U_{m	imes m} m{b}^{prime} = A_{m	imes n}V_{n	imes n}m{a}^{prime} \ m{b}^{prime} = U_{m 	imes m}^{-1}A_{m	imes n}V_{n	imes n} m{a}^{prime}

同時,我們知道m{b}^{prime}m{a}^{prime} 的變換可由對角陣Sigma_{m	imes n}描述:

m{b}^{prime} = Sigma_{m	imes n}m{a}^{prime}

從而可以將原矩陣分解如下:

A_{m	imes n} = U_{m	imes m} A_{m	imes n}V_{n	imes n}^{-1}

細心的小夥伴已經發現了,V是單位正交陣,但是,U正交但不一定是單位向量。所以此時的Sigma_{m	imes n} 對角線元素都是0或者1,0代表對應的component在變換後消失了,1代表該component被保留下來了。而線性變換對沒個component放大縮小的作用隱藏在U的向量長度中。所以,當把U單位化後,Sigma_{m	imes n}的對角線元素就對應了線性變化放大和縮小的作用。也就是最終的奇異值分解。

------------------------------------------------------------------------------------------------------------------------

以上是奇異值分解的那點事兒,現在談一談奇異值分解與特徵值分解的關係。

上面討論的都是n維空間到m維空間的映射,但如果是n維空間到n維空間的恆等映射呢?這時候問題就退化成了特徵值分解。


請問對矩陣和的奇異值分解有什麼定理嗎?比如[U1,S1,V1] = svd(M),[U2,S2,V2] = svd(N),[U3,S3,V3] = svd(M+N)。那麼U3和U1,U2有什麼關係嗎?


在Matlab中求n階矩陣A的特徵值和特徵矢量時,當A為對稱矩陣時,eig和svd的結果不一樣,當A為半正定或者正定矩陣時,eig和svd的特徵值的結果一樣,特徵矢量的方向相反。


這裡有乾貨。

知乎用戶:奇異值的物理意義是什麼?


奇異值分解可以由自交後矩陣的特徵值分解得到 可以看成矩陣的平方與開方特徵


從向量空間的觀點來看。
運算元T的奇異值就是TT*的平方根的本徵值。
這樣一來我們就可以用兩個不同的規範正交基來表示運算元的矩陣,而且這樣一來就可以得到一些對角矩陣。
具體的論述可以參考Sheldon Axler的《線性代數應該這樣學(Linear Algebra Done Right)》。


推薦閱讀:

中國現在各行業的發展情況如何?
怎樣快速掌握 VLookup?
為什麼那麼多牛人成天在研究討論演算法,系統自動推薦的東西還是不能令人滿意呢?
怎麼查每個軟體的實際裝機量呢,有哪些方法或者數據可以參考?
搜索推薦系統是如何實現的?

TAG:數學 | 數據分析 | 矩陣運算 | 奇異值分解 |