數據分析思維-提供另外一種審視世界的視角

數據分析思維-提供另外一種審視世界的視角

在BBC的記錄片統計的樂趣中,對於大數據分析做了簡要的了解

v.qq.com/iframe/player.

這個紀錄片如果認真進行的看的話,還是有所收穫的,

首先統計學作為一個專業性以及普及性很強的學科,在生活中的影響具有很強的意義,

小到問卷調查幾十個數據,達到生物遺傳學的內部知識上ZT的數據量,統計學可謂應用極廣,後面關於統計學方面,又將會介紹一下關於目前製造業中主要的質量控制手段SCP的應用。

在統計學的歷史發展中,統計手段必然是伴隨著科技手段進行適應,在最開始最為政治手段用以管理民眾,相關統治階級會制定一系列的問卷調查單,以統計民眾的政治趨向,鞏固統治地位,這裡的統計學的決策功能已經有所體現。

在統計學伴隨科技發現的今天,統計學在慢慢的揭示一些科學定論以及一些目前無法解釋的定論,比如28原則,這也是為什麼數據分析的魅力所在。

在於後期的人工智慧領域,因為現在的外企,就算是製造業的外企,對於英語的要求也很高,但是如果現在基於統計學中的語音相關性的語音互譯能夠實現,這個職業技能是否會就此隕落,後期的職業優勢在滿足溝通的基本要求,科技和統計學對於生活的改變影響還是很大的。

描述統計學

定義:是將一系列的數據進行濃縮以及幾個標誌性的值,以代表這個數據集的大體情況

其中主要以下面四個值最為常見:

  • 平均值
  • 四分位數
  • 標準差
  • 標準分

  1. 平均值

Average=sum/n

最為常見統計參數之一,日常的班級平均分,平均身高等等,平均值能夠表現一個整體的大致情況,比如

  • 初一的學生在體檢中的平均身高為165cm,初三的學生為173cm,我們可以知道相對於整體來說,初一學生的身高在大體趨勢下比起初三的學生會低一些,這個也是符合大眾認知常識的
  • 但是平均值不能防範極端值的產生,比如現在部分初一生的身高已經超過180cm,遠比一些初三生高,所以平均值給我們帶來的是關於大眾認知的依據,卻不能作為絕對的定理存在。
  • 2. 四分位數

四份位數在字面上理解就是講數據集按照從小到大,依據數據集數量進行四等分,每個等分點的數字成為分位數,大體為下圖

關於四分位數的理解,分位數是為了彌補上書的對於極端值得差異進行的一個補充說明,補充說明其中的一個很重要的圖:箱線圖

四分位數的主要作用為兩點:

  • 不同類型數據的對比

有圖可見,在同一個圖標中對於不同類別的箱線圖中進行的的綜合比較中,能夠很清楚的知道關於現有數據集的一些綜合比較,

  • 識別可能的異常值

對於異常值,我們一般的處理方法主要為

  1. 運用技術手段識別
  2. 處理異常值

通過四分位數的異常值主要通過下述方法進行的

正如上述,所說,四分位數的能夠很好的彌補平均值的缺點,但是四分位數的問題點在於無法期限數值的穩定性,一次引出下面的標準差。

3.標準差

數據在一定程度的體現體現這一點,正如數據的基本關係在於很大程度關於數值關係的進一步的穩定性,即離散程度,

標準差能夠很好的體現數值的波動情況,首先明確一下幾點認知:

  • 標準差是有單位的,單位為計算的數值的單位一致
  • 標準差的大小中,數值越小,證明數值波動越小,數據越好

常見的標準差的使用的情況中,有以下例子

  1. 球員的表現
  2. 股市的波動

4.標準分

標準分給出了一個關於數據集中各個數據的排名情況的劃分,

在正常的規劃中,標準分的意義在於知道單個數據距離平均值多少個標準差,這個廣泛應用於質量管理的標準中,比如6σ(6西格瑪)。

根據上述的一些關係,我這邊想要介紹目前製造業中,關於統計過程式控制制中SPC的原理介紹

  • 統計過程式控制制
  1. 分析過程的輸出並指出器特性
  2. 使過程在統計控制情況下成功地進行和維持
  3. 系統地減少該過程主要輸出特性的變異

簡單的說,SPC是通過運算統計學上的技巧如控制圖分析過程和器輸出,從而做出適當的行動已達到及保持統計控制狀況及改善過程能力.

控制圖的相關介紹

6σ運6σ用上述的關於控制標準分的定義中,在6σ中認為產品是合格的,產品的相對合格穩定的。

概率分析思維

生活中的很少有絕對的事情,每個結果在還未發生之前都或多或少的概率組成,我們經常會以可能性這種很籠統的說法去判斷一件事情成功或者失敗的機會大小,但是這個可能性大小卻不能夠作為決策的依據,因此我們用概率來表示某件事情發生的可能性。

概率大小主要包括:0-1

隨機事件:每個事件發生的概率為=1/所有可能發生的事件

複雜概率的計算

  • 尋找經驗概率
  • 數據分析→這個是大部分數據工作者的工作

小數定理&大數定理

小數定律在形式上應該解釋為偶然性事件的起因,大數定律為整體的必然趨勢,正如墨菲定律中所說,凡是只要可能出錯,就會出錯,知識數據量需要盡量較大。

不同事件的分類

獨立事件&相關事件

這裡我們先介紹一下賭徒謬論

每次下注結果不會受到之前下注結果的影響,但是根據統計數據來看,大概會有80%的人會受到賭徒紐倫的影響,我們更願意相信炸彈不會落在同一個彈坑裡,之前遇到的困難以後不會再遇到等等,這個取決於個人意識的趨向性決策明顯是


上述的賭徒謬論是屬於對於獨立事件的誤解

所謂的獨立事件是指事件之間不會相互影響,最常見的是:擲骰子,拋硬幣之類的單詞操作的事件

而與相對的就是所謂的相關事件,相關事件受過去事件的影響,通常我們用決策樹進行條件概率的求解

條件概率可表示為

運用決策樹,我們可以看一下關於日常工作中的投資決策的案例

由上圖可知,最後的值為:建新廠的預期收益為:5000萬美元

擴建舊廠預期收益為8000萬美元

所以對於決策的語氣中,投資舊廠和收益更大。

推薦閱讀:

克服困難,收穫喜悅——第二關,數據結構入門
數據驅動增長?看了太多虛假的成功,我們來看看真實的失敗(上集)
利用EXCEL進行數據分析
Python學習(一)
用戶畫像就是這樣簡單

TAG:數據分析 | 數據挖掘 | 數據分析師 |