M.1.2 神經網路的數學基礎-度量、運動、變換和群

01-29

註：本節中無與神經網路直接相關內容，但是對於理解比較重要。

前文中提到了一些度量的概念，度量一般寫成矩陣的形式：

$bold{G} or g_{ij}$ 後面一種是指標表示張量

再來回想一下度量概念從何而來，其存在的目的在於定義向量的長：

$|xi|^2=g_{ij} xi^i xi^j$

運動和變換

如果變換 $x^i=x^i(z_1,z_2,cdots,z_n)$ 保持 $g_{ij}$ 的形式不變，則稱變換 $x^i=x^i(z_1,z_2,cdots,z_n)$ 是度量 $g_{ij}$ 之下的一個運動。而稱在所給度量之下所有的運動稱為一個群。

一個簡單的例子，坐標系的平移：

$[x_1,x_2]^T=n[y_1,y_2]^T+[xi_1,xi_2]^T$

上述變換是度量 $nbegin{bmatrix}n1&0n0&1nend{bmatrix}n$ 下的一個運動。

對於坐標的伸縮變換:

$[x_1,x_2]^T=begin{bmatrix}nlambda_{11}&0n0&lambda_{22}nend{bmatrix}n[y_1,y_2]^T=Lambda [y_1,y_2]^T$

顯然一般情況下伸縮變換並不是一個運動，同時過去也學過伸縮變換之下空間中線段的長度發生了變化，所以一般情況也稱空間中的運動為保距變換。

仿射變換由線性變換和平移組合而成，其形式為：

$[x_1,x_2]^T=begin{bmatrix}nlambda_{11}&lambda_{21}nlambda_{21}&lambda_{22}nend{bmatrix}n[y_1,y_2]^T+[xi_1,xi_2]^T$

如果放射變換為度量 $nbegin{bmatrix}n1&0n0&1nend{bmatrix}n$ 下運動，則顯然需要： $x$

$begin{bmatrix}nlambda_{11}&lambda_{21}nlambda_{21}&lambda_{22}nend{bmatrix}nnbegin{bmatrix}n1&0n0&1nend{bmatrix}nnbegin{bmatrix}nlambda_{11}&lambda_{21}nlambda_{21}&lambda_{22}nend{bmatrix}nn=nnbegin{bmatrix}n1&0n0&1nend{bmatrix}$

再舉幾個例子：

如果閔可夫斯基空間 $mathbb{R}^4_1$ 中的度量定義為 $begin{bmatrix}n1&0&0&0n0&-1&0&0n0&0&-1&0n0&0&0&-1nend{bmatrix}$

則向量的長度為：

$|xi|^2=<vec{xi},vec{xi}>=(xi^0)^2-(xi^1)^2-(xi^2)^2-(xi^3)^2$

此空間為狹義相對論的時空空間，假設通常 $x_0=ct$ ,c為光速。

對於使得空間中向量 $|xi|^2$ 為0的畫出的曲面稱為迷向錐面。

在對參照系進行轉移的過程中(就是一個選取新坐標的過程，類比運動)。如果在一個慣性參照系 $(ct,x^1,x^2,x^3)$ 轉移到另一個慣性系 $(ct,x^1,x^2,x^3)$ 的過程中首先要保證度量不發生變化，也就是長度的定義未發生變化。假設系統 $x$ 相對於系統 $x$ 沿著坐標 $x^1$ 以速度v運動。

$[x^0,x^1]^T=nbold{A}[ct,x^1]nx^2=x^2nx^3=x^3$

若對於上述坐標變換為一個運動則可求解係數矩陣A，求解A的過程這裡不再詳述，最終我們會得到洛倫茲變換：

$t=(t+frac{v}{c^2}x^1)frac{1}{sqrt{1-frac{v^2}{c^2}}}$

$x^1=(x^1+vt)frac{1}{sqrt{1-frac{v^2}{c^2}}}$

曲面上的度量

對於度量還存在於空間曲面上，空間曲面上的度量與前面的度量的基本思路是一致的：確定在坐標變換過程中不變的量。

對於歐式空間中的長度定義：

$l=int_a^b{sqrt{dot{x}^2+dot{y}^2+dot{z}^2}}dt$

其中速度向量長度表示為：

$|xi|^2=dot{x}^2+dot{y}^2+dot{z}^2$

若空間曲面用參數形式表示：

$begin{matrix}nx=x(u,v)ny=y(u,v)nz=z(u,v)nend{matrix}$

那麼曲面上速度向量表示為：

$begin{matrix}n|xi|^2&=&&dot{x}^2+dot{y}^2+dot{z}^2n&=&&(x_ux_u+y_uy_u+z_uz_u)dot{u}dot{u}n&&+&(x_ux_v+y_uy_v+z_uz_v)dot{u}dot{v}n&&+&(x_vx_v+y_vy_v+z_vz_v)dot{v}dot{v}n&=&&bold{E}dot{u}^2+bold{F}dot{u}dot{v}+bold{G}dot{v}^2nnnend{matrix}$

通常稱為上述的式子為曲面的第一基本型或曲面上的誘導的黎曼度量。可以看到對於度量存在的目的依然在於保證曲面上的長度與所定義的長度一致，並將其轉化為曲面上的坐標。

曲面面積一般用一個二重積分表示，對於歐式空間中的曲面積可以表示為：