計算時Normalization的意義何在?一個好的Normalization應該是怎樣的?
我的理解是:消除某些使結果線性增加的量的影響。
維基解釋為:...normalization refers to the creation of shifted and scaled versions of statistics, where the intention is that these normalized values allow the comparison of corresponding normalized values for different datasets in a way that eliminates the effects of certain gross influences.但也看到一些Normalization,似乎單純為了無量綱化。舉例:plot某體系能量時,會把某些項normalize掉,比如能量 /高度/長度/表面張力,結果既無量綱,又消除了重複出現 (或不重複出現!)的高度等線性量(或非線性!)的影響,(被認為)簡化了問題。()內是我不理解的情況,並且還有 化學勢x高度/表面張力 這種讓人抓破頭的Normalization
常見的一些Normalization可能有這樣的一些情況:(1)無量綱化。無量綱化換一個角度來看,它本身意味著選取一個更適合的單位。比如同樣是作為能量,是選取eV,還是選取kT作為單位,這其實反映出對於具體問題的理解。(2)另一個想法就是讓不同大小的體系直接可以比較。比如一塊大材料和該材料的一份小樣品顯然它們的總的電子數是完全不一樣的,那麼這個時候來比較「單位體積內的電子數」這樣的概念就是很有必要的了。這個問題用更物理的語言來說,就是強度量和廣延量的問題,在比較中我們只能比較強度量,因此要利用廣延量構造出一些強度量來。
(3)還有一類特殊的我想特別指出一下,這一類很多都是都是與統計和統計誤差有關的檢驗統計量,大部分在假設檢驗中所引入,這裡有很多Normalization不但是要從量綱的角度上保證滿足,還希望我們得到的一些其它的怪異的分布能與正態分布(或者正態分布的衍生分布,如卡方分布等等)具有可比性(有的重採樣方法也是這一功能),因此可能必須引入一些其它的係數:
(a)例如最常見的,計算Z-score,就是讓數值與標準差可以發生比較的一個Normalization,Z=(X-Average)/Stdev(b)在統計上還有很多其它的神奇的量,例如(average-stdev)/(average+stdev),這個就可以反映出樣本是完全由平均值主導,還是由標準差主導。類似的構造在平時的其它問題中也可能經常要用到。什麼是好的normalization要看目的。所以沒辦法一概而論。盡量要一概而論的話,就是當你只關注曲線的形狀差別的時候,你可能需要做normalization。至於怎麼做,是對橫坐標還是對縱坐標還是both,就真得看具體你要比較的是什麼形狀了。我只舉我熟的一些例子,也沒有代表性。
最常見的是例如增長到不同的平台值,那就對平台值做normalization,比較誰增長得快這種。我就不詳述了。
有很多理論模型只預測無量綱化的標度關係。把散亂的數據按這種關係作圖後可以顯示出簡單的dependency,以驗證理論模型的預測,或者看到哪些條件的實驗結果偏離理論預測,很快就能反映出理論的適用範圍。
例如複雜流體流變學方面,預測鬆弛譜的動態模都是以無量綱化時間為自變數的。響應時間t一定除以 au,響應頻率omega一定乘以 au。最簡單的例如Maxwell模型,複雜點的如高分子的Rouse鬆弛、Reptation模型,過冷液體的MCT模型等等。這就是說,這些機制所預測的鬆弛譜形狀不變,但是具體落在哪個時間尺度,由無量綱化因子 au決定。 au又可以和很多具體實驗因素有關。例如高分子的時溫疊加原理,就是 au跟溫度有簡單關係(WLF方程),那麼如果把不同溫度下的曲線一律對無量綱化響應時間或頻率作圖,就是一條曲線。推薦閱讀:
※定向攪拌能夠產生手性分子嗎?如果分子不行,能夠形成具有手性的分子自組裝形態嗎?
※水面壓強越小,沸點越低,同時凝固點越高。所以減小氣壓,使水沸點和凝固點接近,可能同時凝固和沸騰嗎?
※為什麼啤酒杯里插筷子泡沫就消得快?
※為什麼表面積大的物質吸附性強,這種吸附的原理是什麼?
※「生物正交化學」是一個什麼領域?在做哪些研究?