認識概率,更理性地生活(三)

概率與生活是息息相關的,比如今天會不會下雨要不要帶傘,這個時候開車出去會不會太堵還是坐地鐵吧等等,所以懂一點概率的知識是非常有必要的。法國的數學家拉普拉斯也說了:「人生中絕大多數重要的問題,都只是概率問題」。在學完猴子老師的兩個live課程,今天來做一下課程的總結。

在《人工智慧時代,用概率思維發現人生機會》這課中,主要學到了一下幾個重要的定律:

1.賭徒謬論:絕大所數的賭徒都傾向於相信之前下注的結果對當前下注有影響。這就告誡我們,不要過於去相信主觀感受,要從客觀的角度審視問題。

2.小數定律:如果統計數據很少,那麼事件表現為各種極端情況,而這些情況都是偶然事件,跟他的期望值一點關係都沒有。這個給我們的教訓就是不要從一個人的某一件小事上就給別人貼上某個標籤,這樣不僅不是得體的也不是準確的。

3.大數定律:如果統計數據足夠大,那麼事物出現的頻率就能無限接近他的期望。這也正說明的統計的重要性和正確數據的重要性,從大量的數據中我們是可以找出我們需要的東西的。

4.墨菲定律:凡事只要有概率發生,那它就一定會發生。所以僥倖心理切記不要有啊。

這幾個定律在生活中都是經常會出現的,了解他們對我們理解生活是有一定用處的。

在《描述統計學》的live中,學到了描述數據集常用的數據指標。

1.平均值。平均值在生活中是非常常見的,在數據集非常大的時候,可以總體的反應數據集的一些特徵,但是在數據集不大的情況下,容易被個別的極值影響,從而掩蓋真實的數據特徵。

2.四分位數。分位數就是把數據集排列好後,將數據集分為四等份,利用下界,下四分位數,中位數,上四分位數,上界五個數據來反應數據集的特徵。關於四分位數的演算法,有很多種,實際值也會有不同,但是不影響,四分位數的作用就是把數據集分為四等份。四分位數的應用有很多,比如用TUkeys test方法來識別可能的異常值。

下圖是我根據matplotlib官網圖例繪製的箱型圖。我們可以方便的在matplotlib的官網圖例中找到相應圖形的繪製代碼。

3.標準差。標準差是方差的開方,只要用來表示數據集中數據的波動大小,換句話說就是反應數據的變異程度。值得注意的是標準差的單位度量與原數據一樣。

4.標準分。對於一個數據集,除了位置和變異程度外,我們還對數據集中數值的相對位置感興趣,相對位置的度量可以幫助我們確定一個特殊的數值距離平均數有多遠。這就是標準分。

計算方法

x為數據集的某個數值,μ為數據集的平均數,σ為數據集的標準差。

z表示x距離平均數是z個標準差。

關於老師在課程中講到的6σ管理法,我從百度上截取一段註解來輔助理解:「σ」是希臘文的一個字母,在統計學上用來表示標準偏差值,用以描述總體中的個體離均值的偏離程度,測量出的σ表徵著諸如單位缺陷、百萬缺陷或錯誤的概率牲,σ值越大,缺陷或錯誤就越少。6σ是一個目標,這個質量水平意味的是所有的過程和結果中,99.99966% 是無缺陷的

下面是Facebook2017年股票的漲跌情況分析。

因為未知原因,在自己已經科學上網的情況下,利用get_data_yahoo方法總是報錯。

在GitHub上也找不到解決辦法。所以用了資料裡面的Excel數據。

首先導入模塊:

讀取數據:

查看前十行:

查看數據集的統計描述:

繪製漲跌圖表:

這課算是數據分析課程裡面的理論課,我們需要掌握的理論知識遠不只這些,要做好數據分析,還需要不斷的學習,一起加油。


推薦閱讀:

【譯Py】Python互動式數據分析報告框架~Dash介紹
20170430 pandas入門
【重讀經典】《Python核心編程(第3版)》
tornado, pika, async/await 以及 asynchronous iterator
Loan Company Data Analysis

TAG:數據分析 | Python |