請問將方陣做特徵值分解,再去掉對角陣中的較小特徵值,這種操作叫什麼?

感謝大家的幫助!剛才查了一下王博士給的名稱,發現這裡好像確實是TSVD,找到了一篇介紹http://infolab.stanford.edu/pub/cstr/reports/na/m/86/36/NA-M-86-36.pdf裡面確實是這麼做的,明天有時間研究一下…

論文的題目是Using confidence bounds for exploitation exploration trade offs,這有鏈接http://www.ai.mit.edu/projects/jmlr/papers/volume3/auer02a/auer02a.pdf我主要看的是後面第四部分linear feedback。不過過這篇文章有些長又比較理論,大家應該沒有時間看吧…

--------------------------------------

(朋友們有沒有興趣關注一下啊...)

這是最近在一篇論文里看到的:

(設Z是一個n*n方陣)

(作者正在證明一個演算法的某個bound),演算法中有一步算一個東西本來用到Z*Z的逆,但作者說「It turns out that we get useful bounds only if Z*Z is sufficiently regular in the sense that all eigevalues are sufficiently large",因此作者沒有直接用 (Z*Z)^{-1},而是先進行特徵值分解:

然後把第k個以後的特徵值置為0。最後(Z*Z)^{-1}化為:

(上圖是自己寫的)

這樣做似乎有一定道理,忽略一些小特徵值,感覺很類似於PCA又不能準確地說出來...我覺得這種方法肯定不是這個人想出來的,所以想問一下這種方法是不是某種套路(指應用很廣的方法),或者有沒有個名字之類的?

最近在看online bandit learning,感覺這裡面證明演算法收斂的這些方法還是比較困難的。問題可能比較基礎...大四看論文比較尷尬,找不到人討論論文,問老師又害怕問題太簡單...


truncated singular value decomposition


他用的是pseudo-inverse, 我猜最後condition number的dependency好一點


他只是對Z做了SVD奇異值分解。。。利用了SVD來引入Z的協方差矩陣的特徵值,去掉特徵值小的成分,起到降維的作用。這就是一種PCA主成分分析方法。

這篇論文的奇異值分解應該是:

Z=U^{T}Sigma V (一般的習慣是Z=USigma V^{T}, 其實就是多一下轉置而已,沒什麼區別。各種教材的寫法不太一樣。)

U,V都是正交陣,Sigma 是Z的奇異值對角陣,Z的奇異值即ZZ^T的特徵值的平方根

ZZ^{T}=U^{T}Sigma V(U^{T}Sigma V)^{T}=U^TSigma VV^TSigma U=U^{T}Sigma ^{2}U=U^TDelta (lambda _1, ...lambda _d) U

=U^TDelta (lambda _1, ...,lambda _k, lambda _{k+1},...,lambda _d) U approx U^TDelta (lambda _1, ...,lambda _k) U

上面的Delta (lambda _1, ...lambda _d) 就是ZZ^T的特徵值對角陣了

(ZZ^T)^{-1}=(U^TDelta (lambda _1, ...lambda _d)U)^{-1}=U^{-1}Delta (lambda _1, ...lambda _d)^{-1}(U^T)^{-1}=U^{T}Delta (frac{1}{lambda _1}, ...frac{1}{lambda _k})U


叫approximation,經典套路了

edit1: 具體叫rank reduction


pca.....


推薦閱讀:

如何根據網站日誌進行分析並做出優化改進?
索引的索引:如何不系統地了解運籌學
為何不同標準庫實現的三角函數的執行效率差別如此巨大?
用2個玻璃球找到從一100層的大樓的某一層落下剛好會摔碎,如何制定最優策略?

TAG:數據挖掘 | 優化 | 線性代數 | 大規模機器學習 |