使用Box-Cox轉換的益處
想像一下,你正在觀看長跑比賽,注視著終點線。當第一人跑完全程時,跑得最快的幾個人之間相差的時間很短。
現在等到最後一名跑到終點,我們考慮一下他們的完成時間。對於這些速度最慢的跑步者,跑步完成時間差異將非常大。這是因為在長跑中,很小的速度差將會對完成時間產生顯著影響。而對於跑的最快的人,速度的微小差異(決定性)影響到最終到達終點的時間。
這種現象被稱為「異方差性」(不恆定方差)。在這個例子中,變異量取決於平均值(差異小完成時間短,差異大完成時間長)。
跑步時間的數據分布可能不服從我們熟悉的鐘形曲線(又名正態分布)。結果得到的分布是不對稱的右側長尾分布。這是因為跑步時間短的呈現出左側變化較小的短尾分布,跑步時間長的呈現出右側變異大的長尾分布。
為什麼是這樣呢?
1.模型偏倚和偽交互作用:如果您正在進行回歸分析或實驗設計(任何統計模型),這種不對稱分布可能會導致模型扭曲。如果一個因子對平均速度有顯著影響,這意味著對於一個較大的平均跑步時間來說該因子的差異更大。當均值較大時,許多因子似乎都有更強的影響。然而,這並不是真正的因子產生的影響,而是當均值較大時,變異的增加導致所有因子效應估計變大。這可能會產生虛假的交互作用,由於不恆定的變化產生一個具有許多(虛假的、不現實的)交互的、非常複雜的模型。
2.如果你執行一個標準的過程能力分析,這種分析是基於正態分布的假設。過度偏離正態分布會使你的能力估計產生偏差。
Box-Cox 轉換
解決這個問題的一個方法是使用Box-Cox轉換將數據轉換為正態,Minitab軟體會選擇最好的數學函數進行數據轉換。目的是得到正態分布的數據(轉換後)和穩定的方差。
考慮下面的不對稱函數:
如果對這個分布進行對數變換,較小數據之間的差異將會變大(因為對數函數的斜率很小),而較大數據之間的差異將減少(因為該分布中較大數據的斜率很小)。如果你拓展了左尾的差異,減少了右尾的差異,結果將是方差恆定、形狀對稱的正態分布(無論均值大小如何)。這就是為何在Minitab協助中無論對於什麼樣的數據通常都建議使用Box-Cox轉換,,以及為何在Minitab軟體的回歸分析或DOE(試驗設計)的對話框中,Box-Cox轉換是其中一個選項,,無論哪種情況都可以考慮是否需要將數據轉換成正態。
上面的圖形說明通過 Minitab軟體協助(能力分析)中的Box-Cox轉換,不對稱分布的數據已經轉換成了一個對稱的正態分布(成功地通過了正態性驗證)。
Box-Cox轉換和變數
注意,Minitab軟體將使用最佳的變換函數,它不一定是對數轉換。
通過這個轉換,原來的變數尺度可能發生了改變,在查看過程能力圖形時,可能無法識別典型數據(轉換後)的大小。然而, 基於正態分布估計的Ppk和Pp等能力指數將是可靠的。同樣,儘管轉換明顯有助於消除虛假的交互並識別非常重要的因子,但您需要注意在回歸模型中其係數將被修改。
推薦閱讀:
※MSA系列11:如何分析計數型測量系統的穩定性
※你有三段論,我有五步法
※讀《六西格瑪管理》,負反饋與迴路
※SPC系列3:在對製造過程實施SPC時,應如何採集子組樣品?
※FMEA系列2:如何有效實施FMEA的維護