數據分析18 – 試驗設計01

數據分析18 – 試驗設計01

來自專欄數據分析

談到試驗設計,也許感覺離數據分析稍稍遠了一點。初看到這篇文章的標題的確有這樣的感覺,但是如果我們理解了試驗設計的原理以及精髓,最後會發現,這個跟數據分析密不可分。試驗設計應該是為了對某些信息進行分析,有目的,有步驟的去採集信息以供分析的手段。如果僅僅是進行了試驗而沒有分析,那我們必然得不到合理正確的信息。

一直也沒有想清楚試驗設計應該如何去寫,今天先來一篇簡介吧!

在沒有接觸試驗設計前,可能會認為這個東西比較高大上,此話說對也對,說不對也不對。試驗設計其實是一個非常大的範疇,其中有非常高大上的東西,也有非常貼近日常生活的「土」方法。讓我們一一來看看吧!

1. 隨機試驗法(試錯法):

看到這個名字是不是覺得有點親切,這個不是我們日常生活中常用的方法嗎?有時候為了搞清楚一道菜如何能做得更好吃,也許會嘗試多加一點料酒、也許會嘗試加入一點香料、也許會嘗試少加點鹽等等。總而言之就是自己多嘗試,在嘗試的過程中不斷增加經驗。很多人跟我說,中國做菜是一種藝術,全憑自我的理解和量掌握。一般料到這麼哲學的問題,我都會放棄。畢竟我的語文小學畢業後就沒有再及格過了,實在不敢涉足文科類事業。

只要稍加留意,隨機試驗在日常工作和生活中處處可見,只不過其效率和準確性比較低下,完全靠經驗來指導我們的工作,然而很多時候經驗幫不了我們。還是拿做菜來說吧,同樣的菜量,每次給一勺鹽正好,但是為什麼昨天的就咸了呢?問過家裡採購主管才知道,原來的鹽用完了,這次換了一個牌子的鹽,其鹹度跟以前不一樣了。原諒我一般不負責採購油米柴鹽吧,因為家裡我只負責支付大件,如房貸 !

2. 單因子試驗(OFAT):

這個方法就比隨機法要進步一些了,當多個因素對輸出結果造成影響時,我們可以固定住其它因素,一次只改變一個因素來試驗並獲得數據。比如:溫度、壓力、濃度對產出有影響時,可以先將溫度和壓力固定住(或者隨機),通過不斷改變濃度來研究濃度對產出的影響;然後再是溫度;再是壓力。很明顯,這樣做完以後結合回歸分析,很容易得到三個一元函數,既溫度、壓力、濃度分別對產出的影響函數。這樣做已經比隨機試驗有了進步,但是由於一般只能得到一元函數,所以效率不高,同時如果這些因素之間有交互作用時,我們得到的多個一元函數未必能指導我們工作。這樣的場景也經常可以見到,比如在找故障原因的過程中使用的排除法,或者AB試驗等

3. 全因子試驗:

全因子試驗就是比較有計劃的將可能的影響因素進行合理搭配後進行試驗,收集到相關數據後落實分析的方法,其內核在設計的過程中主要利用了正交,分析過程中主要利用了方差分析。全因子試驗正式被提出不到100年時間,所以算是一個比較新興的方法吧,由於其對因素進行了合理配置,能讓我們在短時間內獲得更多信息。大大提升了效率,同時因為因素相互配合合理,可以對結果進行直接實施多元回歸分析,從而能獲得因素間的交互作用。該方法雖然有很多優勢,但是最大的缺點就是當因素和水平多了以後,試驗次數可能是個災難性的數字。如:如果有10個因素有,每個因素有兩個水平,那一輪的試驗次數將是2的10次方,1024不算很大的數字,如果因素和水平再提升,恩~ 可能某些試驗在我們的有生之年是無法完成了!

4. 部分因子試驗:

部分因子試驗的原理和全因子試驗的原理並無巨大差別,也是通過對因素合理配置後試驗,能快速找到因素和結果直接的關係。但是針對全因子試驗次數的問題,部分因子試驗通過拋棄不必要的高階交互作用,從而能大幅度減少試驗的次數。由於有部分因素的交互作用與其主效應有混合,其試驗精度一定是沒有全因子試驗高。所以結合這個特點,在試驗設計過程中,可以兩個方法聯合使用。既通過部分因子試驗對大量因素進行初篩,然後通過全因子試驗對篩選後的少量因素進行精準建模。

5. 計算機模擬試驗:

顧名思義,通過計算模擬來進行試驗分析,基於現在已經進入信息化時代,計算機的計算能力已經足夠滿足日常算力需求,計算機模擬試驗也越來約被廣泛使用。如果看到前面一些文章的讀者,應該注意到了,我在前面一些短文里有用到計算機模擬的方法進行過一些數據分析的試驗。計算機模擬試驗精度高,速度快,但是唯一缺點是需要模型的輸入,如果沒有計算模型的輸入,計算機完全不會搭理你!

以上就是整個試驗設計的幾個方法了,通過簡單的介紹,可以看出了,有些方法比較高大上,有些則是我們日常經常用到的普通方法。本文也僅僅只是介紹了一點試驗設計的皮毛,本系列屬於科普類系列,並不會涉及到很深的應用介紹,如果大家對深入應用感興趣的話,可以留言喲。根據留言數量,後期會做出相應的調整。好了,這篇沒有圖片居然也寫到了1900字,到此打住,下篇再來吧!

推薦閱讀:

關於心理實驗軟體編程那些事(學習篇)

TAG:數據分析 | 數據挖掘 | 實驗設計 |