上帝視角——眾生皆概率

上帝視角?(Gods Perspective)

關於上帝視角找到一篇文章的節選:

We live in a time of shaking all over the world in both the natural and the spiritual realms. But we, as people of God, do not need to fear. In the midst of the shakings, God wants His people to have perspective, peace and purpose. The first of these—perspective, or vision—is a message God has continued to put on my heart. God made it real to me through a dream.

In the dream, I was a child in the middle of a large crowd. Noise and confusion were all around me, and because I was so small, I could not see what was happening. But then the Father lifted me up on His shoulders. He lifted me to a higher vantage point, from which I could see what was occurring all around me. I could see from my Fathers perspective.

This is the perspective God wants us to have. He wants to transform us into a people with vision—a people with prophetic insight for the days we live in, prophetic understanding of what He is doing around us and prophetic wisdom to know how to lead others to the unshakable foundation of Christ.

? Seeing From Gods Perspective

透過上帝視角,我們可以以平常心來看待生活,也可以以更大的視角思考問題。在我看來概率就是上帝視角中的一個維度。我們先來了解一個著名投資家查理·芒格(Charlie Thomas Munger),他是沃倫·巴菲特的黃金搭檔,他說:

如果你沒有把這個基本的但有些不那麼自然的基礎數學概率方法變成你生活的一部分,那麼在漫長的人生中,你們將會像一個踢屁股比賽中的獨腿人。這等於將巨大的優勢拱手送給了他人。


下面給出華爾街見聞和雪球網上有關他的語錄:

芒格的35條箴言 - 華爾街見聞?

wallstreetcn.com圖標畫地為牢: 90歲查理·芒格的90條語錄,值得讀90遍 作者: 楊寶忠1,大部分人都太浮躁、擔心得太多。成功需要非常平靜耐心,但是機會來臨的時候也要足夠進取。2,根據股票的波動...?

xueqiu.com

查理·芒格的23句名人名言?

baijiahao.baidu.com圖標

# 1. 統計學?

在聊概率之前,我們先了解一下統計學:今天,統計學已經是人工智慧的基礎知識,同樣是投資領域的核心技能,所以統計學是我們進入下一個時代的入口。

下面是MBAlib上關於統計學的詞條:

? 統計學是應用數學的一個分支,主要通過利用概率論建立數學模型,收集所觀察系統的數據,進行量化的分析、總結,並進而進行推斷和預測,為相關決策提供依據和參考。它被廣泛的應用在各門學科之上,從物理和社會科學到人文科學,甚至被用來工商業及政府的情報決策之上。

統計學主要又分為描述統計學和推斷統計學。給定一組數據,統計學可以摘要並且描述這份數據,這個用法稱作為描述統計學。另外,觀察者以數據的形態建立出一個用以解釋其隨機性和不確定性的數學模型,以之來推論研究中的步驟及母體,這種用法被稱做推論統計學。這兩種用法都可以被稱作為應用統計學。另外也有一個叫做數理統計學的學科專門用來討論這門科目背後的理論基礎。

對大量信息進行歸納是處理數據的基本任務,通常我們將多個數據集合起來的對象成為數據集。描述統計學就是將一系列複雜的數據減少為幾個能夠起到描述作用的數字,用有代表性的數字來代表數據集,這樣就可以了解數據集的整體情況。描述統計學的關鍵點在於找到關鍵的數字來描述數據集的整體情況。

下面來看描述數據集常用的四個指標:

  • 平均值(集中趨勢:均值、中位數、眾數
  • 四分位數((Quartile)也稱四分位點,是指在統計學中把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值。
  • 標準差(差異性:如何使用標準差定量分析數據的分布
  • 標準分(歸一化:使用標準分將分布轉化為標準正態分布


1.1平均值

假設在一個北京的中檔酒吧的吧台前,有四個人,年收入分別是10w,11w,12w,13w,這樣平均收入就是11.5萬。平均數是否可以代表數據集的整體情況?

當馬雲進入後,平均收入變為2億9.2萬。

如果說吧台前的四個人年平均收入是2億,這在數學上是正確的,但同時具有相當大的誤解性 。這就是平均值的缺點:對異常值不敏感。這也是為什麼我們不應該用平均收入來衡量中國各個行業的平均收入。因為在收入分配的頂端(公司高管,對沖基金的經理以及娛樂明星)會將平均收入拉高,所以當存在異常值的時候,用平均數來描述不準確。很多新聞就是抓住平均值的缺點來愚弄大眾,以達到宣傳營銷的目的。那如何描述數據集的情況?

1.2四分位數

先來介紹中位數

中位數可以描述出數據的整體水平

下面求上/下四分位數;註:上界和下界就是數據的最大值和最小值

這樣三個數據:中位數、上四分位數、下四分位數將整個數據集分為四部分,每一部分佔比25%。

所以四分位數有五個數值:Min/Q1/Q2/Q3/Max。

實例:分析就餐人員距離

假設你是一家餐館的老闆,想知道就餐者是從多遠的地方前來就餐,這樣可以了解就餐用戶的特點,挖掘潛在需求。上面數據的單位是公里。上界22,該就餐者是老客戶。直接肉眼無法讀取其中意義。為了方便人類大腦理解四分位數,於是誕生了箱線圖:

(箱形圖(Box-plot)又稱為盒須圖、盒式圖或箱線圖,是一種用作顯示一組數據分散情況資料的統計圖。因形狀如箱子而得名。在各種領域也經常被使用,常見於品質管理。它主要用於反映原始數據分布的特徵,還可以進行多組數據分布特徵的比 較。箱線圖的繪製方法是:先找出一組數據的最大值、最小值、中位數和兩個四分位數;然後, 連接兩個四分位數畫出箱子;再將最大值和最小值與箱子相連接,中位數在箱子中間。)

我們看到中位數距離下四分位數較近,表明大多數數據集中在盒子的下端,代表大多數顧客在2.5~6公里這個範圍內,下面來看兩個案例,了解其如何應用。

四分位數應用一:不同類別數據的比較

圖表一:關於數據分析師的報告

第一個箱線圖:六大城市薪酬分布總體集中,紅星代表中位數,相差較小 。其中深圳薪酬分布的中位數大約15k,全國第一,其次是北京,大約12.5k,之後是上海和杭州。所以深圳是一個創造奇蹟的城市,所以如果要成為一名數據分析師,深圳是一個不錯的選擇。

第二個箱線圖:比較發現隨著工作年限的上升,薪資上漲非常明顯,尤其是3-5年這一段提升非常大。從現有數據看,數據分析師似乎是一個長青的方向。10年內不會因為年齡的增長導致收入下降。使用Python來繪製箱線圖非常方便。


補充知識:

Python數據可視化:箱線圖 - CSDN博客?

blog.csdn.net圖標Python-matplotlib統計圖之箱線圖漫談?

www.jianshu.com圖標R語言學習 - 箱線圖(小提琴圖、抖動圖、區域散點圖)?

www.plob.org圖標可汗學院公開課:統計學_全85集_網易公開課?

open.163.com圖標

四分位數應用二:識別出可能的異常值

  • 處理異常值的三種方法:
  1. 異常值可能是一個被錯誤標記的數據。(分析數據之前進行修正
  2. 異常值可能是一個被錯誤包含在數據集中的值(直接刪除異常值)
  3. 異常值可能是一個反常的數據值,被正確記錄到數據集中,保留該數據。

下面來看四分位數是如何自動識別異常值:(Tukeys test方法

四分位數是如何自動識別異常值:(Tukey's test方法)

通過計算最小估計值和最大估計值,超過這兩個估計值範圍的數值可能是異常值。可以根據不同數據分析目的,對k進行取值,當k=1.5時,表示計算出的是中度異常範圍;當k=3時,表示計算出的是極度異常範圍

其中紅色是中度異常範圍,藍色是極度異常範圍。超過這個範圍的數值就可能是異常值,這樣就可以從大量數據中自動識別異常值。

下面分析案例:

假設我們記錄一個房間的溫度值,首先計算出上四分位數和下四分位數。

在該實例中,k取1.5,經計算溫度的範圍是67.75~73.75,超過這個範圍的是異常值,因此300就是異常值。第二步進一步檢驗這個值是否是異常值。根據實際情況,直接刪掉該數據。

1.3標準差

假設你是一名教練,需要得分高且發揮穩定的球員:

我們需要某種方法,可以利用球員所得分數的分散性看出球員的穩定程度,首先來了解什麼是數據的波動大小:

波動大小=離散程度=變異性

很多書上會用離散程度或者變異性來表示數據集之間偏離平均值的程度,波動大小可以代替離散程度這個專業名詞。

如果你像巴菲特一樣在做價值投資,面對兩支股票歷年股價的曲線圖,就可以直觀的看出股價波動較大的股票。

如何衡量數據集的波動大小?

標準差(Standard Deviation) ,中文環境中又常稱均方差,是離均差平方的算術平均數的平方根,用σ表示。標準差是方差的算術平方根。標準差能反映一個數據集的離散程度。平均數相同的兩組數據,標準差未必相同。一個較大的標準差,代表大部分數值和其平均值之間差異較大;一個較小的標準差,代表這些數值較接近平均值。

例如,兩組數的集合 {0,5,9,14} 和 {5,6,8,9} 其平均值都是 7 ,但第二個集合具有較小的標準差。

標準差應用於投資上,可作為量度回報穩定性的指標。標準差數值越大,代表回報遠離過去平均數值,回報較不穩定故風險越高。相反,標準差數值越小,代表回報較為穩定,風險亦較小。

我們用標準差表示數據相對平均值的波動大小。(在平均值相同的情況下比較標準差)

為何要進行平方運算?因為有時候數量變化與平均值是反向偏離的(一個負數),平方後可消除負號,這樣求和時不會出現正負抵消。這樣才能表示出每次變化偏離平均值的情況。第二步將方差開方得到標準差。(將偏離平均值的幅度還原到原來的量級)

所以標準差描述了數據集在整體變化過程中偏離平均值的幅度(波動大小)。

標準差案例一:(NBA球員得分穩定性)

假設現在三個球員的平均得分是10分,教練想知道誰的發揮穩定:

通過比較得到球員一的波動性最小。

標準差的單位與相應計算數據的單位相同。

標準差的大小的選取取決於運用的具體場景。(如果是生產的零件,標準差要小;如果是大公司的工資,標準差要大)

標準差應用案例二:(股票波動大小)

投資者做出投資決策時,不僅要考慮預期回報,還要分析比較投資風險。標準差越大,說明股票未來凈值變動大程度也較大,風險也越高。根據上圖可以看出,B公司風險要大於A公司。在金融學上,有一個名字叫做夏普比率(諾貝爾經濟學獎得主夏普提出),綜合考量了回報和風險的量化指標。

下面來看這個指標的計算公式:

夏普比率(Sharpe Ratio),又被稱為夏普指數 --- 基金績效評價標準化指標

? 現代投資理論的研究表明,風險的大小在決定組合的表現上具有基礎性的作用。風險調整後的收益率就是一個可以同時對收益與風險加以考慮的綜合指標,以期能夠排除風險因素對績效評估的不利影響。夏普比率就是一個可以同時對收益與風險加以綜合考慮的三大經典指標之一。

投資中有一個常規的特點,即投資標的的預期報酬越高,投資人所能忍受的波動風險越高;反之,預期報酬越低,波動風險也越低。所以理性的投資人選擇投資標的與投資組合的主要目的為:在固定所能承受的風險下,追求最大的報酬;或在固定的預期報酬下,追求最低的風險。

1990年度諾貝爾經濟學獎得主威廉·夏普(William Sharpe)以投資學最重要的理論基礎CAPM(Capital Asset Pricing Model,資本資產定價模式)為出發,發展出名聞遐邇的夏普比率(Sharpe Ratio)又被稱為夏普指數,用以衡量金融資產的績效表現。

威廉·夏普理論的核心思想是:理性的投資者將選擇並持有有效的投資組合,即那些在給定的風險水平下使期望回報最大化的投資組合,或那些在給定期望回報率的水平上使風險最小化的投資組合。解釋起來非常簡單,他認為投資者在建立有風險的投資組合時,至少應該要求投資回報達到無風險投資的回報,或者更多。

無風險回報:銀行存款、國庫券這些比較穩健的投資回報。夏普比率越高,投資相對而言回報越高,風險越低。

從上表中我們看出美國的股市是最好的,股市的風險非常大。0.47表明波動性幾乎是回報的兩倍,即風險是回報的兩倍。而中國和德國,風險是回報的5倍左右。

夏普比率和最大回撤到底怎麼計算??

www.zhihu.com圖標

1.4標準分

在黃渤主演的電影《瘋狂的賽車中》:

如果黃渤的汽車速度是180km/h,那這場比賽中黃渤排名第幾?這裡的第幾就是某一個數值在數據集中的相對排名。相對排名要看數據集中其他數據的水平。(比如考試成績,大部分都是80分以上,那80多分就是靠後了;如果只有少數人得分80分以上,那這個成績就不錯。相對排名一般用標準分來表示。

下面來看標準分是如何計算以及如何在生活中應用:

如果我們要計算出X2在這批數據集中的相對位置即標準分,用X2減去平均值然後除以標準差就得到標準分。標準分又稱為z-分數或者標準化值

z分數(z-score),也叫標準分數(standard score)是一個數與平均數的差再除以標準差的過程。在統計學中,標準分數是一個觀測或數據點的值高於被觀測值或測量值的平均值的標準偏差的符號數。

z分數可以回答這樣一個問題:"一個給定分數距離平均數多少個標準差?"在平均數之上的分數會得到一個正的標準分數,在平均數之下的分數會得到一個負的標準分數。 z分數是一種可以看出某分數在分布中相對位置的方法。

來自百度百科(baike.baidu.com/item/Z%

下面來看標準分的意義:

標準分就是該數值距離平均值多少個標準差,也就可以知道這個數值與平均值的相對接近程度。如果某個數值的標準分等於零,表示這個數值等於平均值本身。如果標準分大於零表示這個數值是大於平均值的。

例如在正態分布中,有95.5%的數值在兩個標準差範圍之內。

重點:標準分表示【某個數值】距離平均值多少個標準差

下面來看案例:質量管理:

這個標準差,通常用每百萬次採樣數的缺陷率來衡量。 1個標準差,就是每百萬件抽樣中,有69萬個不合格,相當於一本書每頁有170個錯別字。 3個標準差就是每百萬件抽樣中,有6.7萬個不合格,相當於一本書每頁有1.5個錯字。 6個標準差就是每百萬件抽樣中,有3.4個不合格,相當於整個小型圖書館的所有藏書中,只有1個錯別字。

如何使用標準分提高質量管理?1982年摩托羅拉遇到質量危機,提出6西格瑪質量管理理念,並與1984年到1986年期間開始實施這個質量管理。這裡的西格瑪就是之前所講的標準差。6西格瑪就是距離平均值6個標準差,也就是標準分等於6。1988年,摩托羅拉贏得了美國國家質量獎。1987~1997年摩托羅拉累計節省成本140億美元。1995年通用電氣也開始實施6西格瑪質量管理,推行期間總資產從250億美元增長到4500億美元,市值規模從美國的第十發展到全球第一位。

六西格瑪 - MBA智庫百科?

wiki.mbalib.com圖標

描述統計學在生活中隨處可見:豆瓣每年年末會推出當年的電影榜單,根據關注電影的人數來排序,選出排名前十的電影;知乎也會推出相應的年度數據榜單。支付寶也同理。

總結:今日所學:

平均值mean:注意平均數陷阱;

四分位數Quartile:用五個數值(min,Q1,Q2,Q3,max)來描述整體分布情況(箱線圖)

標準差std:衡量數據的波動大小(離散程度);

標準分:距離平均值多少個標準差;

統計學和經濟學一樣能夠給我們看問題提供一種新的視角,讓我們里這個真實世界更近一點。舉例來說,統計學可以給我們的生活一些小竅門,比如說幫助我們快速找到一個商場的入口,幫助我們判斷一個學校里學生的成績等。機器學習中有一個概念是正態分布,就是說數據的分布像一個鐘的形狀,兩邊低中間高,大部分數據都在平均值附近(商場附近的停車場就是呈現正態分布,也就是說正對商場入口的地方越多,越往兩側停車場越少,下次找不到商場入口就可以通過找汽車最多的地方來找到入口。)

查理·芒格是一個完全憑藉智慧取得成功的人。在《窮查理寶典》中他說:首先必須掌握基礎的數學知識,如果不能把數學變成生活的一部分,就是把巨大的優勢拱手送給別人。要學會應用複利原理、排列組合、概率方法和決策樹理論。

相關紀錄片《統計的樂趣》:

紀錄片《統計的樂趣》

【BBC】the joy of stats(統計的樂趣)_嗶哩嗶哩 (゜-゜)つロ 乾杯~-bilibili?

www.bilibili.com圖標

推薦閱讀:

《赤裸裸的統計學》第2~3章(提高認知;了解生活投資中的應用)

《深入淺出統計學》第2~3章(零基礎)

《商務與經濟統計》第2~3章(有基礎,升職加薪成為數據分析師)

練習:在草稿紙上繪製前面房間溫度案例里的箱線圖,掌握以下內容: 1)什麼是四分位數? 2)如何繪製箱線圖? 3)箱線圖有什麼用?

  1. 四分位數((Quartile)也稱四分位點,是指在統計學中把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值。
  2. 箱線圖的繪製方法是:先找出一組數據的最大值、最小值、中位數和兩個四分位數;然後, 連接兩個四分位數畫出箱子;再將最大值和最小值與箱子相連接,中位數在箱子中間。
  3. 箱線圖的作用:可以從整體上描述數據集的分布狀態,箱子的中間一條線,是數據的中位數,代表了樣本數據的平均水平。箱子的上下限,分別是數據的上四分位數和下四分位數。這意味著箱子包含了50%的數據。因此,箱子的寬度在一定程度上反映了數據的波動程度

箱線圖實戰:自己對爬取的數據分析平均值、四分位數、標準差、標準分並繪製箱線圖。(下一篇文章)

下一篇:編程里一切皆對象,生活中一切皆概率


推薦閱讀:

小概率的事情為什麼會發生
投資經常虧損?那是因為你不懂得概率思維
從心理學分析,一場60分鐘考試在第幾分鐘作弊成功率最高?
2個按鈕,100萬元還是1個億?
正態分布推導過程

TAG:概率論 | 概率 | 自然科學 |