星座對星探有用嗎?
看到一篇關於明星星座的分析,忽生一念,遂有此文。
老闆找人才,當然都希望能找到千里馬,像軟銀孫正義一樣的眼光,從茫茫人海中看出馬雲。如果一家經紀公司,能夠利用科學化的方式來優化他們選角的過程,讓每一位選出來的對象,都能選到像周杰倫或蔡依林一樣的優質潛力股,那麼相信這個科學的方法,一定會成為新一代的市場顯學,而我所好奇的問題是,是否真的存在這樣的一個方法,能夠達到我們希望的目標呢?
古代帝王拜將封侯,往往都會參酌許多術士之流的建議,不論是東方或西方,各式各樣的預測工具,在各類人事時地物的選擇預測上,都能發揮一定的準確性,因此我們希望通過古人的智慧,來替我們解決新時代的問題。然而,相對於東方的百家學說,諸如子平八子、紫微斗數或果老星宗等等,西方的占星術在一些客觀的條件上,似乎都更容易上手,也方便套用於實務領域中的應用,因此便希望能通過占星術的方式來尋找一些相關的啟發。
占星學源自美索不達米亞,後來隨著戰爭與文化交流逐漸傳到了世界各地,並且與世界各地的相關理論相互激蕩後,而有了各式各樣不同的分枝。到了近代,由於科學的進步,使得原本的天動說受到了挑戰,以及天王星、海王星、冥王星等行星被發現,因此部分的傳統占星學也遭到新的挑戰,並且激蕩出了新的現代占星學。
占星學與傳統中國的一些預測學派雷同,都認為存活於宇宙當中的人群們的生活種種,都與宇宙的天體運行是息息相關的,因此也試圖通過各種天體的運行軌跡,來對人的生、老、病、死與一生際遇進行預測分析。而這些理論中,有些考慮的是以太陽為準的曆法(如四柱八字),有些考慮的是以月亮為準的曆法(如紫微斗數),我們先不在此贅述各種不同學派分枝的差異,但是先掌握一個基本概念,那就是這個預測,將會是依照天體的狀況作為參數來進行。
依照先前占星理論的描述,我們大概可以將整個研究的方程式用一個簡單的概念來表達,即:
明星 特質 = 日海相位+ 金海相位+ 金冥相位+ 金火相位+ 日金相位+ 金木相位+ 金天相位 的 綜合影響
由於占星學自遠古時期代代相傳下,我們無法確認是否一個人能成為明星的特質,真的只受上方所提之相位影響,且我們也極度懷疑是否還有其他的重要行星相位也會造成影響,但卻因為代代相傳而早已失傳,又或者是古代所傳下來的這些說法,根本就只是一種無根據的臆測。
因此,我們將主要的九大行星皆納入研究的對象中,包含:太陽、月亮、水星、金星、火星、木星、土星、天王星、海王星、冥王星,且針對六種主要相位角來進行觀察,可將之列為函數如下:
Y = f f ( (X 0 , X 1, …,X n ) )
共有 (10x9)/2 = 45 種組合 x 6 種可能相位 = 270 個變數 X i 待估
由於方程式中有 270 項變數待估,因此必須至少要有 270 筆以上的資料才能滿足模型的統計要求,我們將利用網路上收集的 270 筆明星資料,並且再另外產生相對應的非明星的資料,來做為我們的研究資料。其中的明星資料,主要是依據中國福布斯排行榜曾入圍者的名單作為主要依據。而非明星資料的部分,則是根據被選入的明星生日,以隨機的方式,產生與明星出生時間相距一年內的出生者來替代。舉例而言,若有一位明星之生日為1978/03/08,則將以隨機方式,自 1977/03/08 至 1979/03/08 之時間範圍內,隨機選取一天做為非明星的資料。
由於如果完全的隨機產生,將可能發生跨世代行星的影響而造成統計上的偏頗,因此才改成隨機選取鄰近出生時間的做法。而根據一般觀察,你我腦海中眾所皆知的明星,佔全國人口絕對百萬分之一不到,因此我們產生的非明星資料筆數若未超過萬筆時,可以合理的假設其通通都不是明星。就算真的不小心產生了幾筆是明星的資料,也將由於數量微乎其微,極少數的相位量根本不會在統計過程中產生顯著影響,因此可先忽略不計。
經轉軸後之因素分析的結果共有 245 個因素,每一個因素則皆可由 270 個變數X所組成,為了有效觀察每一因素受哪些變數X的影響較大,因此需對Factor1~Factor245 逐欄進行檢視,我們僅取負荷量絕對數值大於或等於 0.3 之相位,負荷量小於 0.3 者均予刪除,全部 245 個因素整理後,可發現部分的 Factor,會同時擁有兩項以上的相位變數,其中部分能同時被歸到同一 Factor 的相位變數 X,是屬於土星與外行星或外行星與外行星之間的相位。然而,由於我們所抓取的明星資料大約僅散落於 12 年之間,根據表 1 的行星運轉周期我們知道,土星與外行星或外行星與外行星的運轉周期較長,因此此部分相位可暫時忽略不看(或者說,由於明星每個時代都有,不可能受長周期性相位影響,因此暫不考慮此類相位)。另外,由於研究中的生日並沒有出生時辰,因此與月亮相位有關的部分,我們無從得知其正確性,因此不予觀察。
故經整理後,發現可歸類為同一相位類型的 Factor,僅以下五種組合: 金冥相位與金海相位、 木冥相位與木海相位、 火冥相位與火海相位、 水冥相位與水海相位、 日冥相位 與 日海相位。
經過對這全部 245 個 Factor 進行觀察,發現絕大多數的 Factor 都剛好只有一個對應的變數去解釋,只有少數幾個 Factor 才會出現一個因素同時能有兩個以上的相位變數去共同解釋的狀況。而在這些狀況之下,由於變數間具有高度相關性,因此在原模型中產生了共線性問題,使得當某一變數影響力顯著時,另一變數的
影響力變無法出現,故造成了原本所觀察到的一種特殊現象: 明明是重要變數,但是卻有時顯著,有時不顯著。
這結果也暗示了另一個現象,雖然變數大多是獨立的,但仍有少部分變數疑似高度相關。在數學上,當兩個高相關性的變數同時進入一模型時,若其中一者已對模型的 sum of squares 做出多數貢獻後,則另一者產生的貢獻將是小的。如果以剛才所發現的金冥與金海兩種相位為例來說,也就是當金冥已經對預測結果產生貢獻後,則金海所能額外解釋的部分將會大大降低。然而,這能表示金冥與金海兩種相位產生的影響力高度相關嗎?
正確來說,兩變數在發生的概率上是明顯示獨立的,金冥相位跟金海相位依照行星運轉周期觀察,便可知道是無關的兩件事。而對於結果的影響力上,或許由於同受金星的影響,因此其影響力可能是雷同的,當其中一者已經展現出其影響力道時,除非是利用另一顆行星來影響,不然影響力道其實已經大致底定了。雖然在占星書上會強調金冥與金海是兩種不同的能量,但對於做為預測是否能成為明星的變數來說,其實是可以相互替代的。
我們先將原本的變數 X1-X270 通過因素分析,轉換為 F1-F245 個因素的表示方式,再通過Logistic回歸所產生的 C-Table來觀察所得的結果,可知整體歸類正確率已可達八成以上,而由於我們的目標是希望使得敏感度與特異性皆最大化,當敏感度提高時,特異性便會降低,因此若考慮兩者較為平衡的折衷點,應該是在 0.16 處。
然而,由於特異性表示將非明星的人預測為非明星的機率,因此此值若越大,也表示對於成本的控制能力較佳,也就是較不會栽培錯人。因此我們繼續往下尋找,發現唯一的折衷點,大約是 0.26 之處,此時的特異性約 89.7,敏感度大約 31,也就是在稍微控制成本支出的前提下,去進行潛在明星選擇,因此選定 0.26 作為判斷點。
接著,我們可利用建出的模型,通過SAS的PROC SCORE指令,去對新的樣本進行預測動作。這裡,使用另外的 1200 筆記錄(同樣也必須先經過將 X1-X270通過因素分析轉換為 F1-F245),並且根據先前 C-Table 的觀察取 0.26 作為判斷點計算,整體歸類正確率約可達 76.6%((60+860)/1200=76.6%),
這表示當我們從中挑出 600 位被預測為明星候選人的對象來培養時,當中只有 100位能真正成為明日之星,約只有 16.6%(100/(100+500)=16.6%)。
而根據模型預測結果,如果我們僅從中挑出預測為可能是明星的對象來培養,那麼我們的投資回報將是 30%(60/(60+140)=30%),這幾乎是原先的兩倍準確率。
由於我們的非明星部分資料乃以隨機方式產生,因此僅針對成為明星的因素做觀察,故觀察的對象為:F37、F65、F75、F77、F148、F215 六項,這六項分別為 319(金冥合)、046(日土刑)、326(金土沖)、156(月土梅)、417(火天合)、068(日海半),其中 156(月土梅)一項由於其為月亮相位受時辰影響,因此我們暫不予討論(其勝算比區間顯然也是當中最弱的),而其它的五個顯著相位為例來看:
- 金冥相位
金冥相位的人會將自己的情感投射到他人身上,因為能感受到他人的動機,因此也極容易讓他人發現自己的價值,因此在人際關係中,會展現出一種自然而然的吸引力,因此容易展現出一種發自骨子中的性感魅力。
- 日土相位
日土相位的人其人生充滿磨難,會不斷的受到各種約束,而使得自己面對各種挫折,但如果能從教訓中不斷學習成長,這將成為一股日後成功的重要動力,也會因此而邁向截然不同的成功人生境界。
- 金土相位
金土相位的人有種無法表達情感的悲哀,不易隨便相信情愛,也因此更把焦點全放在實際的物質上,並且讓自己專註於事業的發展之中。而充分利用美夢與責任感去成就事業的結果,也會為他們帶來現實的成功。
- 火天相位
火天相位的人有十足的衝勁與革新的念頭,永遠追求新鮮的事務並因而感到興奮,其源源不絕的動力將可使腦中各種創意得以付諸實現,也因此能夠引領潮流並為社會創造出新風潮。
- 日海相位
日海相位的人是難以捉摸的,這些人擁有如戲子般演什麼像什麼的能力,加上其熱情又博愛的精神,往往能將人引領到自己所想前往的目標,且能令人愛到無法自拔,無人能夠抵擋這樣的一位角色。
通過以上的相位分析說明不難看出,如果想成為明星,可能必須具備有五種特質。首要當然是上相,你必須有一定程度的顏值,這是基本必要的。其次則是努力,沒有人能一帆風順就飛黃騰達,而困境則是幫助人成長的一大助力。再來是專註,通過去夢想一個美好的願景,並且逐夢踏實的逐步完成自己的理想。此外,你還必須有十足的幹勁與天馬行空創意,好讓你有足夠的精力去將種種不同的想法展現出來。而最後,你也必須如同一位戲子,演什麼像什麼,並且讓看你演出的觀眾跟你一起走入所創造出的情境之中,若以上特質全有了,自然離明星不遠了。當然,如果一個人沒有以上的任何一種明星特質,也未必不能成為明星,真正能成為明星的原因可能也還受其他因素影響,就如同本研究的結果般,尚有三成的未知理由也是可以決定你是否有明星命的。
在占星學上,太陽象徵自我,水星象徵溝通,金星象徵美麗,火星象徵動力,木星象徵幸運,土星象徵考驗,天王星象徵創新,海王星象徵藝術,而冥王星象徵堅持。當這幾種行星力量相互激蕩而成為相位後,對於預測能否成為明星這件事,理應產生一定的貢獻。然而本研究中,起先並未默認任何行星相位是有影響力的,而是經由非人為干預的數據運算,去得到了影響結果,並驗證解釋了各種占星學上的說法與矛盾。
在一般的星座討論中,對於金星的討論與金冥相位的討論是更加深入的,從已知數據的初步觀察,的確可發現不同的相位間存在著不同的顯著影響效果,且相位的好壞也的確與星體的組合有關,這部分的討論已經過於深入,就不繼續深入討論了。
好了,你認為我一個無可救藥的唯物主義會相信星座?拿衣服……
下面介紹的統計學知識才是重點。
假設我們有兩個解釋變數X 與 M 以及一個反應變數Y。在因果關係的研究中,媒介(mediation)分析或稱之為效果解構(effect decomposition)其目的在於把 X 當作預測變數,並將它對於 Y 的效果(effect)分解成未受到媒介量 M 影響的效果,稱之為直接效果,及受到媒介量 M 所影響的效果,稱之為間接效果。
媒介分析在心理學上的應用已超過 80 年,目前在社會學、醫學及經濟學等領域被廣泛運用。
在診斷是否有間接效果的研究中,最廣為人知的是 Baron and Kenny 發表的因果階段回歸研究。儘管它如此知名,但 Baron and Kenny 用於診斷是否有間接效果的系列檢驗方法,在統計推論上是很沒有效率的。在廣泛的模擬研究中,它的檢驗力是所有方法中最低的,樣本數需超過21100個,其診斷間接效果之系列檢驗方法的檢驗力才能達到 0.8。在效果生成中,如何從複雜的概率系統產生直接效果和全部效果是不容易知道的。從 Baron and Kenny 架構的結構方程式模型所定義出的直接和全部效果,在研究上是晦澀或者神秘的。常會發生沒有證據指出全部效果的存在,但在檢定沒有間接效果的假設時,其結果是拒絕的(這指出有間接效果的證據)。
我們知道統計學中有"混淆(Confounding)"的現象。在因果論中我們從統計學的"相關(Association)"可能判定 X 為 Y 的因(Cause),因此認為 X 與 Y 有因果關係。可能有很多的因造成 Y 的果。但有些因不是我們可以控制或改變的(如環境或外力),但有些因是我們可以影響的。比如說某種癌症的因可能有很多,但我們可以避免食物或生活習慣產生的因,但如家族遺傳的因是無法改變的。當 X 為 Y 的一個因時,它對 Y 的影響是單方向的(X->Y),而(Y->X)是不會發生的。研究因果關係時採用統計方法有時會被質疑的。原因是統計學探討兩個變數(如 X 與 Y)而判定其關係存在時,那表示 X 與 Y 有統計相關(Cov(X,Y)≠0),而統計相關表示 X->Y 與 Y->X 同時存在。
最有效研究因果關係的方法是把要被分析的人或物隨機分成兩組,一組經過 X=1(treatment),另一組經過 X=0(No treatment),再比較其結果是否有統計上的差異(假設檢驗)來判定 X 是否為 Y 的因。
如果因果推論能經由這種經過實驗設計再做統計分析。那統計推論就不會被質疑了。然而許多的因果問題是處理統計資料,它是現成的,是無法預先安排實驗的。現代的統計因果關係研究大都是藉助不同的回歸模型來做綜合研究的。
我們考慮下面的回歸模型:
y = β 0 + β 1 x + β 2 m + ε
這樣的模型下,Baron 與 Kenny 認定當一個變數變動一個單位(如 x=?? 0 +1 與 x=?? 0時)反應變數(Y)的變化值(即 Y(?? 0 +1)-Y(?? 0 ))不受到其它變數的值(M=m)的影響,這個 Y 的變化值就是直接效果。因此以上面模型而言,他們的結果是β 1 為 X 對 Y 的直接效果,而β 2 則含有一部分比例為 X 通過 M 而對Y 的間接效果。如果這個推論是對的,那β 2 應該被解釋為 M 對 Y 的直接效果,而β 1 有一部分是 M 對 Y 通過 X 的間接效果。這就矛盾了,因為β 1一方面判定為 X 對 Y 未通過 M 的直接效果,另一方面又被解釋為一部分是 M 對 Y 的間接效果。一個回歸係數一方面代表為 X 的直接效果,而另一方面又代表含有 M 的間接效果。這是一個矛盾的效果解構。在討論完傳統效果解構的矛盾之後。我們設計一個統計模型來分析為何會產生錯誤的因果分析。我們考慮一種情況,X 與 Y 皆受到變數 M 的影響,但 X與 Y 未有直接的因果關係。在這種情況下,X 不該為 Y 的因,但我們用統計方法分析 X 是否為 Y 的因。下面為 M 分別影響 Y 與 X 的回歸模型:
y=β 0y +β 1y m+ε y
x=β 0x +β 1x m+ε x
其中ε y 和ε x 為兩個從 N(0,σ y 2 )與 N(0,σ x 2 )產生之相互獨立誤差變數。我們從上面兩個模型製造 Y 與 X 的樣本資料,然後考慮下面不真實(not true)的回歸模型:
y=β 0 +β 1 x+ε
我們利用兩個模型得到的Y與 X的樣本資料來檢驗上面不真實模型的係數β 1 。也就是考慮假設 Ho: β 1 = 0 v.s H 1 : β 1 ≠ 0。如果 Ho 被拒絕,則統計給我們的結論為:X 變數為 Y 的因,也就是 X 與 Y 存在因果關係。
我們可以模擬分析顯著水準為α=0.05 時的檢驗 power 值,可以發現:
1. 大致而言,我們發現統計結果說明 X 為 Y 的因。因為檢驗力都大於 0。
2. 當 Y 與 M 及 X 與 M 的相關程度( σ ym ,σ xm )愈大時,X 為 Y 的因的程度大致是愈高的。
3. 當樣本數(n)愈大時,我們也發現檢驗力愈大。也就是愈會判定 X 為Y 的因。
4. 由這個模擬分析我確定統計分析非實驗設計的資料,是可能因混淆現象而產生由統計理論造成分析的錯誤判斷。
我們考慮反應變數 Y 為果(Effect)。這個"果"可能有許多原因促成的。但在因果關係或研究中考慮一個特殊的預測變數 X,而研究的主題環繞在X造成多少對Y的果,我們稱之為"X為因Y之果",因為我們僅考慮 X 這個因。假設 X 僅有兩個值 X=t(treatment)與X=c(control),則 X 為因 Y 之果為 Y(t)-Y(c),即當 X=t 時產生 Y 的值Y(t)減去當 X=c 時產生 Y 的值 Y(c)。這樣子定義因之果(causal effect)在統計上是無疑義的。這樣子的 X 為因 Y 之果進化成效果解構(Effect decomposition)。考慮回歸函數來表示其因果關係。比如說,Y 與 X 的線性回歸為 y=β 0a +β 1a x+ε a ,則"X 為因 Y之果為"Y(X+1)-Y(X)= β 1a 。他們認定β 1a 為 X 對 Y 所造成全部的果。然後進一步考慮回歸模型:
m = β 0b + β 1b x + ε b 、 y = β 0c + β 1c x + β 2c m + ε c在Y、X、M皆為常態分配時,可以證明下面等式:
β 1a = β 1c + β 1b β 2c
這個等式提供了 Baron 與 Kenny 定義 X 的直接效果與間接效果的基礎。
其定義如下:
直接效果: D Bk =β 1c
間接效果: ID Bk =β 1b β 2c
總效果: T Bk =β 1a
因為β 1a 為直接與間接效果的和 ,這個等式也提供他們論證 β 1a 為 X 對 Y 造成全部的果的基礎 。
就結構方程模型的參數之效果回歸:
在Baron 與 Kenny 的效果解構中,把 β 1a 當作 X 對 Y 的 "X 為因 Y 之果",僅是名稱叫做總效果。這是不對的因為它沒有 M 的信息。另外,"因果關係"的研究幾乎都環繞在間接效果上。但實際上 X 對 Y 的總效果(即是 X 為因 Y 之果為) T new ,才是該被研究的。
我們設定不同的 σ xm 來模擬 T new 的最小平方法估計量的均方誤差,列出在不同參數值之均方誤差的值。
- 因果效果的估計之均方誤差 ( σ zy =1.4、 σ zm =0.2 )
- 因果效果的估計之均方誤差 ( σ ym =1.4、 σ zy =1.4 )
從上面兩個表中的結果,我們可以總結下面的論點:
1. 當固定σ yx 時,當σ ym 的值變大時,MSE 反而變小。
2. X 與 M 的關係越強(σ xm 大)時,估計 X 為因 Y 之果越難,因此其 MSE越大。
3. 大致而言,當樣本數越大時,估計越準確,因此 MSE 也越小。
因為點估計有其缺點,它無法有信心的說明X為因Y之果的值。因此對 X 為因 Y 之果做更深入的統計推論有其必要。因為在常態分配之下,我們可以用 mle 來估計分配參數,再用參數的 mle 來估 X 為因 Y 之果,這就是 X 為因 Y 之果的 mle。它就擁有 mle 的大樣本理論性質。我們把這個理論敘述如下。
其中v(θ)是θ的 Crammer-Raos lower bound。
我們令 T ?????? = β 1a +β 1b β 2c 是 X 為因 Y 之果。
所以,在前述星座分析中,如果我們加入星座之外的因素解釋,考慮回歸模型 BP = β 0 + β 1 x +ε,其中 X 為某個解釋變數,我們便能很容易地發現不同群人表現的間接效果是不同的。
一句話,任何和星座相關的研究,要麼是偽科學,要麼不夠科學。
你覺得我是來普及數學的嗎?還是拿衣服……
以上只是看完一部糟糕小電影帶來的副作用。
推薦閱讀:
TAG:無趣 |