標籤:

如何定義一個數據分析問題

如何定義一個數據分析問題

4 人贊了文章前言:總算是迎來了2017第一更,上一次更新還得追溯到去年10月份,(然後就進入了996加班潮,各種不可描述的理由沒時間讀書,更沒時間記錄),數據分析、挖掘算是這兩年的熱門領域,大家都喜歡沒事提兩句,學術界我就不講了,單說工業界的事情,在座從事數據行業的有多少人了解數據分析到底包含了哪些分類?畢竟,在解決一個問題之前最好還是先弄懂我們正在面對的是什麼。

數據可以被用來回答很多問題,但並非全部問題,有一位數據科學家講得最好:

The data may not contain the answer. The combination of some data and an aching desire for an answer does not ensure that a reasonable answer can be extracted from a given body of data.

John Tukey

在開始數據分析之前最關鍵的就是確認你當前正在面對的數據分析問題的類別。一些問題有了數據能夠更好地回答,但一些問題有了數據說不定更難。如果按照用數據回答問題的難易程度來分類的話,這分類就廣了去了。還是老辦法,咱們用下面這個流程圖來定義數據分析問題的類型。

一、描述性數據分析

描述性數據分析簡單來說就是在不需要更多解釋的情況下根據基本數據集做出的總結(只是對數據集的簡單描述)。

一個簡單的例子就是美國人口普查,在人口普查中會在特定的時間裡收集所有美國人的年齡、性別、種族等等信息。人口普查本身是描述性的,因為其目標是從這些特定數據集中總結出人口統計數據並描述美國各州生活了多少人,而剩下的解釋部分以及統計數據的其它使用已經不屬於描述部分。

二、探索性數據分析

探索性數據分析是建立在描述性分析的基礎上的進一步分析手段,比如通過探索數據趨勢、相關性(或多個變數之間的關係)來發現新的idea或者假想。

舉個例子,業餘天文學家通過 the Kepler telescope 的公共天文數據發現了四體行星系統。這些數據可以在 planethunters.org 網站上下載到,人們可以通過這個網站上的數據來發現潛在行星的特徵模式。像這樣的探索性分析致力於發現新的東西,但卻很少能夠證明這些發現。在這個業餘天文學家的例子中,也尚且需要後續研究以及相關數據來證明四體行星系統的存在。

三、推理性數據分析

推理性數據分析與探索性數據分析不同,區別在於觀察到的模式是否可能用於手頭外的其他數據。推理性數據分析在正規的科學研究中是最常見的統計分析問題。

舉個例子,一個關於美國各州空氣污染水平與平均壽命之前關係的研究。其目標是確定二者之間的關係強度以及確定該關係是否會繼續存在於未來的數據中。在非隨機試驗中,通常我們只能觀察到二者之間的關係是否存在,而幾乎不可能解釋為什麼這個關係會存在 - 其很有可能是因為未測量數據或者未知模型(關係)而導致的。

四、預測性數據分析

與推理性分析發現變數間關係不同,預測性分析使用一部分變數組成的數據子集(特徵)來預測另一個變數(輸出)(針對某個特定人物 or 群體集合)。

舉個?? ,FiveThirtyEight.com 使用民意調查的數據來預測人們會在選舉日最後會選誰。在很多情況下,一般被用來預測輸出變數的特徵數據集總是「直覺」產生的。比如說,為什麼民意調查的數據可以用來選舉行為結果?理由很明顯嘛(不需要解釋)。但預測性數據分析僅僅能夠顯示你可以通過一些變數來預測其它變數,而我們沒有必要解釋預測為什麼會成立。

五、因果性數據分析

因果性數據分析,就是發現在一個變數改變時另一個變數會發生什麼。舉個例子,有一個關於fecal transplants reduces inflections due to Clostridium dificile 的隨機臨床試驗。在這項研究中,病人被隨機分配到兩個組中分別接受 fecal transplant plus standard care 或者 簡單的標準護理。通過這次對照試驗的結果數據,研究者證明了二者之間的關係並且證明了是fecal transplant 造成了reduction in infection outcomes.

與預測性分析和推理性分析不同,因果性數據分析能夠證明變數間關係的程度以及方向(到底是誰引發了誰)。

六、機械性數據分析

因果性數據分析更多地是在尋找包含很多噪音變數的數據集對其它變數產生的概率性影響(發生變化的概率)。舉例來說,前十多年的數據研究表明吸煙與癌症之間明顯的因果關係。如果你吸煙,那我們就可以確定你患癌症的風險會大大提高。但這並不說明你一定會得癌症。因果影響確實是真實的,但它只是反映在你所面臨的平均風險概率上。

而機械性數據分析致力於證明確定性的影響(一個變數發生改變,另一個變數必然改變)。其目標不僅是要理解這裡為什麼會有這個影響,而且還需要說明這個影響是如何運行的。

一個機械性數據分析的例子就是通過數據研究機翼設計如何改變機翼上的氣流 (從而降低阻力)。除工程學以外,機械性數據分析絕對是一個極大的挑戰因此基本不被採用。


推薦閱讀:

店鋪選址分析
紐約時報廣告數據分析(二)
機器學習搞定移動數據分析
這樣一本Python數據挖掘書籍,你願意讀嗎。
數據最強音 | 尾盤突然拉升,主力意欲何為?

TAG:數據分析 |