使用Box-Cox轉換的益處

07-05

使用Box-Cox轉換的益處

想像一下，你正在觀看長跑比賽，注視著終點線。當第一人跑完全程時，跑得最快的幾個人之間相差的時間很短。

現在等到最後一名跑到終點，我們考慮一下他們的完成時間。對於這些速度最慢的跑步者,跑步完成時間差異將非常大。這是因為在長跑中，很小的速度差將會對完成時間產生顯著影響。而對於跑的最快的人，速度的微小差異(決定性)影響到最終到達終點的時間。

這種現象被稱為「異方差性」(不恆定方差)。在這個例子中，變異量取決於平均值(差異小完成時間短，差異大完成時間長)。

跑步時間的數據分布可能不服從我們熟悉的鐘形曲線(又名正態分布)。結果得到的分布是不對稱的右側長尾分布。這是因為跑步時間短的呈現出左側變化較小的短尾分布，跑步時間長的呈現出右側變異大的長尾分布。

為什麼是這樣呢？

1.模型偏倚和偽交互作用：如果您正在進行回歸分析或實驗設計(任何統計模型)，這種不對稱分布可能會導致模型扭曲。如果一個因子對平均速度有顯著影響，這意味著對於一個較大的平均跑步時間來說該因子的差異更大。當均值較大時，許多因子似乎都有更強的影響。然而，這並不是真正的因子產生的影響，而是當均值較大時，變異的增加導致所有因子效應估計變大。這可能會產生虛假的交互作用，由於不恆定的變化產生一個具有許多(虛假的、不現實的)交互的、非常複雜的模型。

2.如果你執行一個標準的過程能力分析，這種分析是基於正態分布的假設。過度偏離正態分布會使你的能力估計產生偏差。

Box-Cox 轉換

解決這個問題的一個方法是使用Box-Cox轉換將數據轉換為正態，Minitab軟體會選擇最好的數學函數進行數據轉換。目的是得到正態分布的數據(轉換後)和穩定的方差。

考慮下面的不對稱函數：

如果對這個分布進行對數變換，較小數據之間的差異將會變大(因為對數函數的斜率很小)，而較大數據之間的差異將減少(因為該分布中較大數據的斜率很小)。如果你拓展了左尾的差異，減少了右尾的差異，結果將是方差恆定、形狀對稱的正態分布(無論均值大小如何)。這就是為何在Minitab協助中無論對於什麼樣的數據通常都建議使用Box-Cox轉換，,以及為何在Minitab軟體的回歸分析或DOE(試驗設計)的對話框中，Box-Cox轉換是其中一個選項，,無論哪種情況都可以考慮是否需要將數據轉換成正態。

上面的圖形說明通過 Minitab軟體協助(能力分析)中的Box-Cox轉換，不對稱分布的數據已經轉換成了一個對稱的正態分布(成功地通過了正態性驗證)。

Box-Cox轉換和變數

注意，Minitab軟體將使用最佳的變換函數，它不一定是對數轉換。

通過這個轉換，原來的變數尺度可能發生了改變，在查看過程能力圖形時,可能無法識別典型數據(轉換後)的大小。然而, 基於正態分布估計的Ppk和Pp等能力指數將是可靠的。同樣，儘管轉換明顯有助於消除虛假的交互並識別非常重要的因子，但您需要注意在回歸模型中其係數將被修改。