標籤:

udacity優達學城數據分析學習筆記一

udacity優達學城數據分析學習筆記一

4 人贊了文章斷斷續續學習了一個月,自己時間安排還不是很好。一定要改善!

這階段大致學習了統計學的基礎知識。

  • 集中趨勢的量度

有時候,把握問題的核心才是當務之急,從一大堆的數字看出模式和趨勢可能頗為不易,求出平均數往往是把握全局的第一步,有了平均數就能迅速找出數據中最具代表性的數值,得出重要結論。所以,也是先學習了:均值,中位數,眾數的定義。

  • 分散性和變異性的量度

平均數在尋找數據集的典型值十分了得,但是平均數並不能說明一切,平均數僅僅讓你知道數據中心所在,但若要給數據下結論,還要分析各種距和差,異常值的定義,四分位數(IQR),方差,標準差,貝塞爾校正的樣本標準差等

  • 正態分布

形狀為對稱的鐘形,眾數,均值,中位數都相等。

求正態概率的時候,首先要確定所需要的概率範圍,然後求出這個範圍的極限的標準分,z=(x-μ)/σ

通過概率表查找標準分,可求出正態概率,

  • 統計抽樣的運用

統計需要數據,數據從何而來,很多時候,數據收集並不容易,當事件數量十分龐大的時候,如何進行抽樣的統計,還有如何利用到手的樣本,利用樣本準確的預測總體。

總體均值,點估計量可以近似總體參數,大量相互獨立的隨機變數,其均值的分布以正態分布為極限

  • 置信區間的構建

有時候樣本無法給出足夠的正確的結果,比如用點估計量估計總體均值,方差或一定比例的精確值。問題在於怎能肯定自己的估計完全正確,畢竟,僅是依靠樣本對總體作出假設,所以需要構建置信區間。

  1. 選擇總體統計量

  2. 求出所選統計量的抽樣分布

  3. 決定置信水平

  4. 求出置信上下限

測試主要要點

確定自變數和因變數

確定假設集是什麼

設計統計檢驗來辯證提出的假設

對結果做解釋,例如:

如何通過 p 值決定選擇哪個假設的邏輯推導過程


推薦閱讀:

如何科學地「學習」中餐菜譜
大型商場銷售預測
玩轉Pandas,讓數據處理更easy系列3
ch6 連續型概率分布
出發吧!用自己喜歡的方式過一生

TAG:數據分析 |