時間與眾生引灌的概率金花
這是猴子分析社群的第三關學習筆記,也是一次對概率切切實實的認知路程,希望對你有用。
話說轉眼學習進入第三關。我們社群學習的路線很清晰,目標是學會數據分析,學以致用找到好工作實現更高的人生價值。於是首先認識大數據,繼而學習PYTHON工具,第三關主要是學習概率的基本知識,接下來就是用這些知識切切實實解決問題,首先是簡單的,然後是真實複雜的。 書歸正傳,概率知識在高中基本涉獵,大學也上過《概率知識與統計》,著名的與高數,線性代數合成的「高數三大碗」之一,但是當時理論頗多,枯燥難學。但是通過社群學習,確實活生生的體會到了概率的神奇之處。對知識作簡單梳理如下:? 分散性與差異性的度量:名字很專業,其實很實用,所謂的實用就好像以前的塞班智能機和蘋果手機一樣,更簡潔,更精準,更容易使用。
拿工資作比喻,現在年末了,大家可能會拿出工資條看看,上面就有一年工資的全部數據,把這些工資條整理一下做個對比會發現每個月工資有低有高。其中你注意到最高工資和最低工資差了2000元,這就是所謂的這組工資數據的全距,描述的就是最高工資和最低工資之間的差距。然後把所有工資加起來,除以個12個月,就是每個月工資的均值。這是簡單的描述一下,如果是分管工資的財務人員,需要對整個公司的工資總結處理,那麼光看全距和均值肯定就不夠了。
這時就需要看一下工資的分布情況,按工資多少對所有的個人做個排隊,將人數化為四等分,然後看到第一個等分點那個人的工資是多少,第二個是多少,以此類推。然後看一下每個25%人數所在的工資範圍,這就是四分位法處理一下數據,在圖形上表達出來就是箱形圖。為了描述的統一方便把每個等分點叫個名字上等分點,下等分點等等。四分位法描述比光用均值和中位數等等參數更能細緻的描述數據,但是對於存在異常值的數據造成的影響無能為力,於是才引出方差這種更可靠,更精確的參數。
每個數據集方差的值:每個數據與均值的差進行平方,之後所有平方值求和。這樣將每個值距離均值的大小都量化處理,加起來之後如果值越大說明數據和均值距離越大,數據在圖像上分的更開,就是所謂的更為離散。 之後的標準差,標準分等參數都是在方差的基礎上稍作處理,達到更細緻,更直觀表達數據體現出來的離散性的結果。實際練習項目:使用PYTHON分析股票走勢
代碼如下:
雅虎和谷歌的財經數據都因為介面不穩定而搜索不到數據,有點掃興,但是還是把代碼熟悉了一下,包括怎樣導入pandas包和matplotlib包,利用擴展包進行處理繪圖。因為這也是《使用Python進行數據分析》這本書的主要內容,之後的學習肯定會專門練習,所以沒有從網站獲取到數據也沒有太過糾結。
概率知識
概率就是用數值表示事件發生的可能性,是對未來的一種預測。 《深入淺出統計學》中主要用概率計算、離散概率分布運用、排列組合和幾種經典的數據分布。本質上仍然是對數據進行加工,提煉出數據具有的價值。 數據分析計算事件概率,最基本的計算是: 概率 = 事件發生的數目/所有的數據數目 對簡單的數據需要尋找合適的一個或多個準確的指標確認概率,而在今後將要實際解決問題時計算概率需要從可靠的來源獲取數據信息,比如政府網站,權威的官方公布的數值。 離散概率分布運用提出了期望的概念,先計算每一種事件量化後的值與該事件對應的概率的乘積,所有乘積之和就是期望。書中是使用老虎機計算,十分貼近生活。 排列組合這一主題仍然是前面主題的延伸,第一章介紹了概率的計算方式,而排列組合最大的作用就是求出事件發生數目和所有事件數。也就是說排列組合就是規範簡化實際情況下計對概率的計算。其中有很多的概念和公式,本想貼上來,但是覺得太過複雜反而讓人生厭, 把握住排列組合的根本目的然後再去學習會更加的條理清晰,就沒有複製這些公式和定義了。 數據分布主要介紹了經典的分布,如幾何分布、二次分布和泊松分布,大多數數據分布都表現出與這些分布較高的符合性。因此掌握這些分布可以應對以後工作中大部分問題。當然這些知識也是與之前知識緊密聯繫的,通過前面介紹的方差期望來參數化描述各個分布,求出未來事件發生的概率。 猴子老師的LIVE中介紹了幾種理論,如:賭徒謬論:不能理性的理解獨立事件的概念,固執認為下一把會翻盤;
大數定律:統計數據足夠大事件出現的頻率就越接近於其期望,這也是大數據用於預測的基本原理;
還有相對於大數定律的小數定律:數據量不夠大時往往不相關的數據也會表現為相關;還有墨菲定律等概念十分有趣。
學習本章之後我最大的收穫就是標題:概率時間與眾生引灌的一朵金花,就是說我們每個人乃至於每個生命每時每刻都在進行著變動,而每個變動都可以被量化。感謝科技的發展,這些變動正在被大量的記載下來,已經記錄下來的數據進行統計學的處理展現出其規律,再進行模型的嵌套和修正,可以計算出數據的期望和方差等等參數,在今後更長的時間內每個個體會進行更多的變動。變動的結果無限接近其均值,這就實現了預測。所以賭場也好,娃娃機也好只要有足夠多的人來玩,開放的時間足夠長,結果就越接近於期望。商家所需要的不過是根據期望做出合適的定價,盈利是肯定的。這就是所謂的金花呀!
推薦閱讀:
※Stephen Wolfram:宇宙的本質是計算 這和量子力學衝突嗎?
※有哪些事件發生的概率遠比看起來要大?
※如何用正確分析「前n次不逃課的情況下,第n次課逃課更容易被點名」?
※一道關於疾病檢驗的概率的問題?
※Haldane 作圖函數的推倒 (並沒有錯
TAG:概率 |