均勻設計篇之三:均勻設計數據分析
均勻設計不需要專用的分析工具,其採用的回歸分析方法在很多流行的統計分析軟體中都有。均勻設計學會曾編寫了一個均勻設計軟體,但這幾年沒有更新版本,其3.0版已經不能在win7以上的操作系統中安裝了。浙江大學出品的DPS數據處理系統中有均勻設計。
在六西格瑪中,我們學的比較多的是線性回歸,但實際工作中常常會遇到非線性的情況,這時就需要考慮非線性回歸。均勻設計比較多地採用二次多元回歸來分析數據,其中包含既因子的線性項,也包含因子的二次項和因子間的交互項。通常交互項只考慮二階交互,三節及以上的交互項在實際工作中非常難以掌握,通常不考慮,當然有些特殊情況下也會考慮更高階的交互,我們在學習試驗設計的時候也是這麼約定的。
基於以上考慮,二階多元回歸方程可以表示如下:
其中為回歸係數,ε為隨機誤差。我們看到,這時除了常數項以外,方程有m(m+3)/2項,當m=1,2,… 時項數為
若使回歸係數的估計有可能,必要條件為n>1+m(m+3)/2。當m較大時,通常不能滿足這個必要條件。於是有必要從方程中選擇貢獻顯著的項,刪除不重要的項。有時,實際問題需要考慮高階的交互作用,如等,這時篩選變數的任務就更為重要。在回歸分析中,有許多有效的篩選變數的技術,如前進法、後退法、逐步回歸法、最佳子集法,在分析時都可以考慮採用。
下面是從方開泰先生的書中摘取的例子,嘗試用軟體來回歸一下,看看能不能得到相同的結果。
例:重金屬對老鼠壽命的影響
這是香港浸會大學生物系的一個試驗。
為了研究環境污染對人體的危害,今考核六種金屬的含量:鎘(Cd),銅(Cu),鋅(Zn),鎳(Ni),鉻(Cr),鉛(Pb),每種金屬含量分別取了17個水平(單位:百萬分之一,ppm):0.01,0.05,0.1,0.2,0.4,0.8,1,2,4,5,8,10,12,14,16,18,20。欲考慮這些金屬含量(包括它們的交互作用)對老鼠壽命的影響,該試驗考核老鼠身上某種細胞的死亡率。它們選用表,根據使用表的指示,它們選用了表中1,4,6,10,14,15列來安排六個因子,其試驗方案如表1所示。試驗的結果為死亡率。為了了解試驗誤差,提高結論的精度,他們在同一試驗條件下將試驗重複三次,三次結果()列於表2,三次死亡率的均值為,列於表2的最後一列.我們看到第17號試驗的死亡率為最高,因為這時六種金屬都是最高含量,表明這些金屬對老鼠細胞確有致命作用。
現進一步用回歸分析來分析數據.由於每種金屬的含量由0.01(ppm)變到20(ppm),最大值與最小值相差2000倍,於是直接用各因子的水平值作回歸不易獲得好的結果,通常要對水平值先作變換,用變換後的數據進行回歸。最常見的變換是取對數。於是回歸分析中的自變數成為logCd, logCu, logZn, logNi, logCr和logPb.根據以往經驗,知道六種金屬間有交互作用,故應選用二次型回歸模型,並用逐步回歸來篩選變數。用同樣的和,對和分別進行逐步回歸,發現四組數據的結果非常吻合,表明試驗誤差不大,該試驗可以獲得可靠結論。對的回歸方程如下:
由方程我們可以給出如下結論:a)Cd,Cu 和Ni含量過高,對老鼠細胞的死亡率有顯著作用,b)金屬Cd和Cu,Cd和Cr,Cu和Pb有交互作用,其中Cd和Cu,Cu和Pb對死亡率起正交互作用,而Cd和Cu對死亡率起負交互作用,c)Zn可能會中和其它金屬的破壞作用,降低老鼠細胞的死亡率,有興趣的讀者可以作更為詳盡的分析。
根據例子中的數據,我嘗試進行了多次擬合。按因子不變換、以10為底的對數變換、自然對數變換三種,因子採用一次項、二次項和所有的二階交互項,加上常數項共28項。需要估計的參數遠遠超過了試驗次數(17次),因此最佳子集法和後退法不能用,最後選擇逐步法做回歸。對三次分析的結果分別為:
未變換:(12項顯著)
以10為底的對數變換:(15項中除最後一項p值為0.106略大以外,其它均顯著)
自然對數變換:(除係數不同外,顯著項及p值均與上一個相同)
用書上的結果進行擬合:(係數基本相同,但殘差比上面的擬合要差一些)
從上面的分析對比來看,我嘗試的回歸與書上的結果有比較大的差異,當然我無法判斷誰的更好一些。由此我又注意到這個實驗是做了51次,即仿行了3次,於是我想到把三次的結果合到一起做一次分析。結果是這樣的:
這次的結果與我前面的結果有所不同,少了Cr和Pb的平方項,還有一個交互項不同,其它有12個顯著項相同,但與書上的結論還是有比較大的差異。
當然還可以做很多嘗試,比如多重共線性的問題,限於篇幅,這裡不再展開。這裡只是針對數據進行分析得出的結果,只有模型是否恰當,還需要專業的知識來判斷,不排除做進一步的驗證試驗。
最後總結幾點我對回歸分析的認識:
1)回歸分析的結果不是唯一的,不存在對錯,當然可以在一定程度上比較好壞,因此最終選擇哪個模型取決於人在專業上的判斷。
2)回歸分析的結論不能違背常識和專業知識,比如肺癌明明與抽煙正相關,但回歸模型的係數卻是負的,這就與專業知識不符了。如果出現這樣的結論,則有可能是數據錯了,或者模型選擇錯了。
以上只是我在學習均勻設計時的思考和體會,難免片面,歡迎批評指正。
例:尋求最優工藝條件
來自上一篇最後的例子,試驗結果如下:
試驗設計的目的通常主要有二個,一是揭示變數(Y)與各因子之間的定性關係,二是尋求最優工藝條件,回歸方程的建立可以達到一箭雙鵰的目的。
經過分析,得出回歸方程式:
顯然,要想Y最大,要最大,取3.4,帶入方程,得到下面的式子:
可以用簡單的微積分求得極值,令,解得0.3309-0.12=0,=2.7575,這時Y的極大值為51.85%。工藝條件=3.4,=2.7575 並未出現在原有試驗方案中,故應在這個條件追加試驗,由於的最佳條件在試驗範圍邊界,故應擴大試驗範圍。
歡迎關注我的微信公眾號:張老師漫談六西格瑪
推薦閱讀:
※Fisher, Neyman, Pearson,和Bayes檢驗(三)
※假設檢驗之二:假設檢驗的基本原理
※數據收集篇之十二:GR&R中的ANOVA問題答案
※數據收集篇之十六:EMP分析步驟
※經典比較篇之十:要收集多少數據才能做有效比較?