數據可視化之我在人大單身四年的原因

一、起因

這個寒假在家被長輩問的最多的問題就是「怎麼還沒找女朋友啊?」,我一般就從「找了找不到啊」,「作業太多沒時間找」,「班上(學校)女生少啊」中隨機選一個回答。被問多了之後,並沒有感到煩,反倒是激起了我對這個問題認真的思考和探索,於是便有了此文來對此做一個初步的分析和回答。當然,考慮到我還要繼續在人大讀三年,這篇文章還為我將來寫《數據可視化之我在人大單身七年的原因》打下堅實的基礎。

二、方法論:為何選擇數據可視化?

(略)

三、 不患貧而患不均

大一第一個學期的時候,有高中同學寄明信片給我,主要內容如下:

講真,我當時填志願的時候真的是只知道人大經濟學科好,並不知道人大女生多這個情況。其實我也沒怎麼覺得在一所女生比男生多的學校讀書有什麼特別的感受,只是非常不理解那些在理工科學校讀書的高中好友為什麼在路上、課堂偶遇了個女生就要發條朋友圈嗷嗷叫上半天?也不知道為什麼他們來我校參觀的時候會如同老鼠掉進米缸那般激動得手舞足蹈,高中男女比例2:1的時候也沒見他們這樣啊,後來我去了他們學校之後才大概知道極端的環境可能的確會改變一個人吧。

人大女生多是事實大家都知道,而且都是美貌與智慧並重,但憑女生多這一點就認定一定能找到女朋友就錯了。不信我們看看人大女生分布的熱力圖:

原圖見此

這是利用我在人大四年生活目測的數據在百度地圖上畫出來的,紅色越深,代表女生分布密度越高。乍一看,感覺一片紅紅火火,形勢喜人。但是你知道我住哪裡嗎!!????

大家肯定注意到了圖的左上部分那個位於深紅區域中心的白色方塊了吧,那是知行區唯一的男生宿舍。放心(* ̄︶ ̄),我當然不可能住那裡。

你有沒有看到到西1門?沒看到?沒關係仔細找找。找不到?好吧, 我提示一下,它就在地圖最左邊偏下的地方,在人大校園的最最最最西南角,自古女生人跡罕至。

美國著名革命家馬丁·路德·金說過:

One hundred years later, the PinYuan1er lives on a lonely island of poverty in the midst of a vast ocean of material prosperity.One hundred years later, the PinYuan1er is still languished in the corners of RUC society......

一百年後的今天,品園一樓的人民仍生活在物質充裕的海洋中一個窮困的孤島上,100年後的今天,品園一樓的人民仍然蜷縮在人大社會的角落裡……

以後大家就請大家不要再說人大這麼多女生你還找不到女朋友這種話了,謝謝理解。

我覺得這是個值得深入研究的問題,我想起了我導指派給我的尚在構思中(也就是還一字沒寫)的畢業論文題目《全球經濟失衡與美元流動》,作為一個本科學國際經濟與貿易、碩博讀世界經濟專業的學生來說,我感覺這個問題太大了,不妨先從細節切入,比如說可以先寫《人大男女比例失調與女生分布——基於我的胡說八道》

四、我到底有多宅?

有人肯定會說,你們寢室沒有女生這特么不是廢話嗎,但你又不是沒有腳,不會去有女生的地方?

不會

其實我大三之前還算是一個認真的學生,按時起床上課寫作業複習考試。自從保了研,我就過上了腐朽墮落的退休生活,典型表現為一覺睡到七八九十點。這樣很不好(但是真的很舒服),師弟師妹不要學我,然後又沒什麼課了,於是就一直躺待在寢室了。

口說無憑,我決定用去年12月份數據來說話,我的手機上的計步軟體會記錄我每個時間段的行走步數,一張典型的全天宅寢室的步數分布圖如下:

可以看到,基本就早中晚三個時間點出去吃了一下飯(可以晚起,但是早飯不能不吃,餓得慌)。

實習時典型的步數分布如下:

步數分布的特點是早晚步數多(上下班需要走路),而其餘時間步數很少。

而在外浪的步數分布圖是這樣的:

再結合我的回憶,課表等等,我繪製了我去年十二月每天各項活動所花時間的餅圖,如下:

原圖見此

可以看出,除了周三周五這兩天需要實習外,我在寢室的時間基本都在20小時左右。

噫吁嚱,注孤身

五、明修棧道,暗度陳倉?

我狗兒子說過,有的宅男在寢室見過的女生不比他人少,雖然我不太懂這句話的原因,但我猜他是指在用微信撩妹吧,於是我就分析了一下我的微信好友和聊天情況,我把認識的303個微信好友進行了分類,結果如下:

原圖見此

註:

  • 球的大小映射人數,此類別的人數越多,球就越大。
  • 為了防止大家看錯,我特意用下劃線把一些字分開了。

看到這幅圖,發現幾個我沒有意識到的問題:

  • 師兄師姐的人數顯著多於師弟師妹,這大概是因為我平常習慣性抱大腿的結果吧
  • 大環境對個人還是有影響的,我在初高中時的男性和女性好友之比為2:1,到了大學,這個比例被掰到1:1
  • 我幾乎不認識幾個本院其他專業的女生

可以看出,我的好友列表非常正常,即便這樣,我爸媽還是逼問我有沒有背著他們找女朋友,在這種情況下,我只好使出絕招了:公布我所有的聊天記錄

狗兒子聽到這個消息急忙趕來制止我

狗兒子:你趕緊把聊天記錄里我的床照刪掉。

我:好,你先把刀放下。狗兒子你是指哪張?這一張?

我:咦,照片怎麼過不了掃黃打黑辦的審核?

狗兒子:哦,通不過審核啊,那就沒事了。

鑒於出現了這種情況,我決定換種思路,大家分析聊天記錄都是集中於文字,用自然語言處理(Natural Language Process)的方法,余以為沒必要那麼麻煩,微信聊天中最重要,最能體現情感的聊天材料是什麼?不就是紅包嗎?試想,一句多喝熱水和一個520的紅包孰輕孰重?線上尬聊和線下吃喝(由轉賬紅包反映)哪個更能增進感情?

於是我統計了2017年我的紅包收發情況(不包括群發)

紅包金額排第一二的自然是我的金主媽媽和金主爸爸,其次是室友張,室友孫和我狗兒子,這反映了我們平時經常在一起吃喝**。總而言之, 前八名裡面除了我老媽和某位親戚外,就沒有異性。

經鑒定,是真宅。

六、內憂外患

我人的姑娘內慧外秀是全北京城都知道的(引得我都好想把橫亘在我和姑娘之間的那個「人」去掉),自然少不了外面高校的覬覦,品知人大尚存的時候,經常能看到海淀區的那一片理工科高校男生來此發交友貼。而當我搜集了每個高校的一屆本科生人數和男女比例之後,更是憂心忡忡,大家看圖:

哦,不好意思傳錯了,是這張:

原圖見此

:在南丁格爾圖中,男女人數之比映射為扇形的半徑之比

情況不言而喻,一目了然

最幸福的應該是北郵的男生了,周圍有三所女生遠多於男生的高校。

大家都知道,現在寫論文,沒個計量模型都不好意思發出去,我也免不了俗,決定弄個模型來量化一下這種外患。

每一個優美的模型都會有幾個簡單而明了的假設,為了讓我的模型看起來像模型,我也要有幾個假設,如下:

  • Assumption 1:所有學生都有談戀愛的意願。分析就業市場時我們對勞動力的定義中有一點就是沒有勞動意願的人沒有工作是不能稱失業的,同理,沒有談戀愛意願的人理論上來說也不應該納入分析,為了分析簡便,我們做此假定。
  • Assumption 2:所有的學生都首先偏好本校的異性,且視外校異性是同質的,不會對某個學校的異性有更大的偏好。
  • Assumption 3:無外部力量介入戀愛市場,如父母干預等。

我覺得比起很多經濟學模型中的假設來說,這三條假定非常的reasonable。

我決定採用一個類似於重力模型(Gravity Model)的模型來研究這個問題。

學校 i 的質量 mi 定義為:

mi =malei -femalei

學校 i 和學校 j 之間的距離 rij 定義為:

rij =兩校之間公交所花時間

距離為什麼要用時間而不是物理距離來衡量?我們這種單身狗就不用操異地戀的心了。

最後,外患程度 dij 就等於:

d ij =mi*mj / rij

為什麼是這個形式呢?我們比照著萬有引力模型來理解,引力是與兩者質量之積成正比,與距離成反比。在這裡,分子不可能為兩校總人數之積,因為對於絕大部分男生(女生)來說,男生(女生)是不會產生吸引力的。同時根據假定2,一個學校的男生(女生),只有當超過本校女生(男生)數量時,才會對外校女生(男生)產生吸引力。

為了減輕我畫圖時的代碼量,我只選取人大,北大,北理,北航,清華,中財,政法七所學校進行計算,結果如下:

原圖見此

:紅色代表女生有盈餘,深藍色代表男生有盈餘,圓圈大小和盈餘人數成正比,綠色線代表互相吸引,橙色代表排斥,線的粗細映射吸引力或排斥力的大小。

這幅圖裡最引人注目的就是北航了,貴校男生真多,是所有「女性學校」最大的「外患」,同時差不多是所有「男性學校」最大的「排斥」對象,這是要上天的節奏啊。

還記得有次北航的大師兄邀我去他們學校,碰到下課,成千的男生從教學樓魚貫而出,我已經很久沒見過這種宏大的場面了。

對於人大而言,外患程度的大小是北航>北理>清華>北大。

感覺壓力好大。

七、學習到底忙不忙?

我回答怎麼還沒找女朋友的一個借口是人大學業重,這可不是亂說,是有歷史典故的:

當然,時代一直在變,而且具體到學科、個人,學業的繁重也是不一樣的,還是得具體分析。於是我找出了我七個學期所修的學分和成績:

有同學馬上指出問題來:你這個圖怎麼GPA的那根軸沒有標刻度啊?

我覺得你這個問題提得很好,來來來,你站起來我們出去練練討論討論。

站一旁的狗兒子也出來幫我說話:「這位同學你難道不知道問人成績就如同問男生的長……」,打住打住,我這是在寫學術論文,狗兒子你別開車。

可以看出,第二三四個學期的學習任務還是不少的,成績也都在平均線左右,這個時候用學業重來作為搪塞的理由還是說得過去的,但是第六七個學期,學分只修了一點點,成績又那麼低,可見學習壓力和談戀愛沒什麼關係。

想起來這個寒假我媽在我臨行前的囑託:「你這個學期沒什麼課,就去談個戀愛」

八、一個致命的邏輯Bug

無論我上面的論證再怎麼精密完美,也始終掩蓋不了這麼一個BUG的存在:我的室友張早在大一就脫單了。

同處一個學校、一個專業、一個班級、一個宿舍、一個性別,為什麼他就早早脫離了單身狗的行列?不解決這個問題,我這篇文章就沒法在邏輯上自洽,每天晚上躺在床上,我都會獃獃凝望著他的光背,陷入深思。

直到根據我的觀察,畫出了這個圖:

雖然我們同在一個屋檐下睡覺,但人與人之間還是有本質差別的。

室友張除了成績這種無足輕重的東西,在其他方面都成碾壓之勢,首先說顏值,用面若中秋之月,色如春曉之花,鬢若刀裁,眉如墨畫,面如桃瓣,目若秋波來形容他是毫不為過。但是這個圖描述的是現在這個時間點的情況,以前並不是這樣的(說起來都是淚啊)。

我看了室友張從小到大的照片,然後畫出來如下的發育曲線:

原圖見此

:數字指年齡,球的大小代表顏值高低

又有人在問:「你這個圖怎麼橫坐標和縱坐標都沒有刻度的?」

你再問這個問題信不信我打死你?

從身高的維度來看,室友張的發育程度大概比我快兩年,體重則大概是五年到三年。

我們重點關注顏值,畢竟這是個看臉的年代。

在一歲到九歲這個猥瑣發育的階段,我和室友張的顏值沒有太大的變化,緊接著,我開始爆發了,在紅藍雙龍buff加身的情況下大殺特殺,女生明確表白的唯一經歷就發生在這個階段,而此時的室友張卻在出肉裝,體重蹭蹭蹭地往上飆,顏值唰唰唰地往下掉。然而萬物都是此消彼長的,自從室友張有了女朋友以後,開始注意控制體重了,開始注意打扮了,而我則在青春痘和高中時期把臉吃圓的雙重暴擊下一蹶不振成了今天的樣子。

在用心程度方面,借用網路用語是長得比你好看的人比你還努力,這就讓人絕望了。在我離起床還有兩三個小時的時候,室友張就已經起床,把自己外表收拾得乾乾淨淨去女朋友的學校了,我在打遊戲的時候,室友張在和女朋友煲電話粥,我們出去吃喝玩樂的時候室友張卻在陪女朋友看病面試等等,談戀愛這種事情也應該是需要很多努力才能做好的吧(單身狗的猜想)。

在戀愛知識方面,室友張更是我的啟蒙導師。雖然他剛談戀愛的時候蠢得一逼,還是女朋友先表的白(這點讓我們詬病至今啊),但是他進步神速,一日千里啊。在我懵懵懂懂追女生的時候給我惡補知識,各種心理學生理學的知識講得是深入淺出,娓娓道來,老母豬戴胸罩一套又一套,還給我出餿謀劃策,gg之後更是和我長談人生,引導我走出泥潭,遁入寂靜,皈依佛門,至今感激涕零,無以言表(黑人問號.png,怎麼感覺不對勁啊)。

我唯一勝過他的一點就是學習成績了,但是學習這東西對談戀愛來說並沒有多大關係啊,談戀愛難道討論拉格朗日定理、斯勒茨基分解?至今為止我只和室友、保研面試老師、實習面試老師討論過這幾個問題,還都是男的。

由此觀之,個人因素很重要。

九、單身非我意,願成比目鳥?

(略)

十、總結

(略)還是寫個總結吧。

沒女朋友,肯定要找啊,不找沒女朋友的。

脫單這方面,脫單是不可能脫單的,這輩子都不可能脫單的。

撩妹又不會撩,就是室友這種東西,才能維持的了生活這樣子。

進寢室感覺像回家一樣,裡面個個都是人才,說話超級好聽的,我超級喜歡裡面。

十一、最後的話

看似正兒八經地分析了這麼多,多半是玩笑話,能博君一笑就可以了,更多的是寫在即將畢業之際的回憶吧。感謝人大四年前選擇了我,在這裡認出了我失散了18年的狗兒子,有一起吃喝的室友,還有一大堆才華與美貌並重的同齡人,全身都散發著智慧光芒的老師,大多數的你們可能只是像流星一樣在我的生活中閃亮出現,卻讓我的生活變得絢麗多彩,謝謝大家。


推薦閱讀:

數據分析師必備技能—MySQL(1)
4 種最搶手的數據分析職業,你會選擇?
你沒有自己想像的那樣努力
數據分析的三板斧

TAG:ECharts | 數據可視化 | 數據可視化設計 | 數據分析 |