大數據告訴你「錢多事少離家近」的工作在哪?

文/若木、團支書

「錢多事少離家近,位高權重責任輕,睡覺睡到自然醒,數錢數到手抽筋」, 這樣的工作真的存在嗎?快隨本文數據俠,一起搜羅吧~

本文轉自公眾號城市數據團(ID:metrodatateam)

前幾天學姐來找我:「我想換一個工作。你用數據幫我看看什麼行業好?」

我說:「好呀。學姐你對工作有什麼要求呢?」

學姐說:「錢多事少離家近。」

雖然我不相信有這樣好的工作,但看看總沒有壞處嘛。於是我打開電腦,開始對行業一項一項進行篩選。

第一項,錢多。這個容易。根據《上海統計年鑒2017》,各行業平均年收入如下圖所示:

根據上圖,可將20個行業大項分為四類:

1、收入超高(20萬以上):金融業;

2、收入較高(10-20萬):水電氣生產供應業、採礦業、信息服務業、衛生和社會工作產業、公共管理業、科研服務業;

3、收入中等(5-10萬):交運倉儲業、文化體育娛樂業、商務服務業、批發零售業、公共設施管理業、房地產業、製造業;

4、收入較低(5萬以下):建築業、住宿餐飲業、農林牧漁業、教育業。

顯然,在「錢多」的標準下,金融、水電氣生產供應、採礦、信息服務等都是不錯的選擇。

第二項,事少。數據論證有點麻煩,姑且跳過吧。

第三項,離家近。由於學姐不肯透露她住在哪裡,我只好假設學姐住在上海各地的概率與上海人口總體分布概率相同。然後,我以人口密度最高處(市中心)為原點,繪製出各個行業企業的密度衰減曲線。

上圖中,離市中心距離為0處的企業密度越高,說明該行業在市中心的密集度越高。假如學姐從事了該行業的工作,那麼工作地點離學姐家近的概率也越高。(學姐明確表示:一些行業她沒有進入渠道(如水電氣生產和供應),另一些行業她沒有能力從事(如農業、衛生),因此,圖中只保留了像學姐這樣的大多數普通人有一定選擇空間的10個行業大類;其中,信息服務業和科研服務業進行了合併。)

根據上圖,從行業密集(離家近概率)的角度,我們再次將行業分為四類:

1、行業聚集度極高(離家近概率很大):金融業、住宿餐飲業;

2、行業聚集度較高(離家近概率較大):商務服務業、房地產業、文化體育娛樂業;

3、行業聚集度一般(離家近概率一般):批發零售業、信息服務業、交運倉儲業;

4、行業聚集度較低(離家近概率較低):製造業、建築業。

我指著圖說:「學姐,同時符合錢多和離家兩個要求的只有金融了。次優的選擇是信息科技服務業,錢多,但離市中心不算近;商務服務、文化娛樂的距離比較適中,但收入就不算太高了。」

學姐皺眉思考了片刻:「金融雖然很好,但據說加班很厲害。我可不想把美好的青春年華都奉獻給工作。你再幫我看看哪些行業不加班吧。」

我嘆了口氣,看來「事少」的研究是逃不掉了。

怎麼衡量「事少」呢?從常識來看,事少的行業應該符合以下表現中的至少一個:上班晚、下班早、工作時間短。而為了找到大家都在什麼時候上下班,我不得不搬出了前幾天 延華智能 提供的建築用電量數據。

(圖片說明:這是一張「城市呼吸」圖。圖中白金色線條代表道路和來往人流,柱子代表建築,紅色柱子為我們的樣本建築。用電量越大的時刻,紅色越深。每一天隨著時間的變化,人來人往,燈亮燈滅。)

我們的建築樣本全部位於上海市黃浦區。用電數據為2017年全年、每隔15分鐘記錄一次的用電量。其中,我們用於研究的是辦公建築(寫字樓),樣本數量約100個。(由於樣本數量、抽樣規則和推算方法的不完善,我們的結論與實際情況將存在一定偏差。不過,依然不失為一次有趣的嘗試。)

從時間上看,寫字樓用電具有明顯的周期性規律:

可以看到,寫字樓的三個周期規律為:

1、季節周期:用電量與氣溫高度相關。4-6月和9-11月的用電量相對穩定,在最熱的7-8月和最冷的12-1月,用電量有顯著增加。

2、節假日周期:以年為周期,春節、國慶等法定節日用電量減少;以星期為周期,周末用電量為工作日的1/2-2/3。

3、天周期:每天的零點到6點用電量處於低谷,從7點開始用電量飆升,於10點達到最高峰,其後緩慢下降,下午5點開始劇烈下降。

根據上述規律,我們制定如下研究思路:

1、基於寫字樓用電量設計工作狀態指標;

2、通過地址匹配找到入駐各幢寫字樓的企業,並進一步計算行業結構;

3、用回歸模型對各行業的工作狀態進行模擬。

由於時間序列上的用電量絕對值不僅僅由工作用電決定,還受到基礎用電、氣溫等多重因素的影響(本文最後的彩蛋有更為具體的解釋),為了減少這些干擾,我們將用電量處理為相對值,並由此引申出上班時間、下班時間、工作時長的概念:

上圖中:

1、相對用電量 = (當前時間分段用電量-當日分段用電量最小值) / (當日分段用電量最大值-當日分段用電量最小值)

2、上班時間為相對用電量第一次達到最高峰值70%的時刻,下班時間為相對用電量最後一次達到最高峰值70%的時刻,工作時長為下班時間與上班時間之差。

3、每幢寫字樓的上下班時間和工作時長各不相同。總體水平為8:30上班,6:00下班,工作時長9.5小時(含午休)。

接下來,我們要找到每幢寫字樓里都有哪些企業。我們以 啟信寶 提供的企業經營地址,與寫字樓地址進行了匹配,從而獲得了寫字樓中企業的規模和行業信息。

現在,我們可以展開回歸分析了。以行業結構(某行業占該寫字樓中所有企業的比例)為自變數,以工作時長、上班時間、下班時間為因變數,標準化處理後進行三次回歸分析,模型的平均誤差在5%左右,R2介於0.7-0.8。

根據回歸係數的大小,我們對各行業的工作狀況進行了推算:

(圖片說明:回歸係數反映的是各行業對 工作時長/上下班時間 的貢獻大小和方向。本圖是根據係數大小的推算結果,不能等同於 工作時長/上下班時間 的排名。)

根據上圖,從「事少」的角度,我們再次將行業分類:

1、早起早歸型:批發零售業、信息技術服務業、交運倉儲業

2、晚起晚歸型:建築業

3、起早貪黑型:商務服務業、住宿餐飲業、房地產業

4、正常型:金融業、製造業、文化體育娛樂業

至此,我們可以從「錢多事少離家近」三個角度給出十大行業的綜合排名了:

1、金融:收入超高-離家近概率很大-工作狀態普通;

2、信息科技服務業:收入較高-離家近概率一般-早起早歸;

3、文化體育娛樂業:收入中等-離家近概率較大-工作狀態普通;

4、商務服務業:收入中等-離家近概率較大-起早貪黑;

5、房地產業:收入中等-離家近概率較大-起早貪黑;

6、交運倉儲業:收入中等-離家近概率一般-早起早歸;

7、批發零售業:收入中等-離家近概率一般-早起早歸;

8、製造業:收入中等-離家近概率較低-工作狀態普通

9、住宿餐飲業:收入較低-離家近概率很大-起早貪黑。

10、建築業:收入較低-離家近概率較低-晚起晚歸。

看著這個榜單,我恍然大悟:「居然真的有錢多事少離家近的工作呀!……唉,學姐你去哪?」

「買兩本CFA教程。」

彩蛋:一年之中,何時加班最瘋狂?

學姐走後,我覺得這個小研究做得還不過癮。不妨順便用這組數據再看一看,大家都在什麼時候加班多,什麼時候休假多?

個人的加班或休假行為很難在用電數據層面體現。但群體的加班或休假將使得用電發生相應變化:

1、大量員工休假→在崗員工數量減少→工作用電量減少

2、大量員工加班→夜間用電比例增加→工作用電量增加

由此可以推知,工作用電量是衡量員工工作狀態的重要指標。然而,工作用電只是建築用電的一部分。因此,需要從建築用電量中剝離出工作用電量,再判斷其數值是否處於合理區間。

一般來說,辦公建築用電可以粗略分為三個部分:基礎用電、空調用電和工作用電。

  • 基礎用電。辦公樓正常運轉的基礎消耗,如通風用電、電梯用電、走廊燈光用電等。
  • 假設每日基礎耗電量是一個常數,以β表示。

  • 空調暖氣用電。溫度偏離適宜溫度越遠,空調需求量越大。
  • 空調暖氣用電量與氣溫(t)有顯著相關性,空調積溫指數(T)是一種常見的測算方法,T=max(thigh-27,0)+max(10-tavg,0)。該部分用電量與空調積溫指數呈線性相關,假設其形式為α1T。(參考文獻:chenqin《上海用電量一年降了30多億度,其實原因很簡單》。)

  • 理想狀態下的工作用電。假設一年中員工數量沒有大規模變動,則工作日的正常工作時間內(8-18點)、正常工作強度下為一個常數,表示為α2。
  • 設定一個虛擬變數W,工作日W=1,節假日W=0,則每日的常規工作耗電量為α2W。

由此可以構建回歸方程:e = β + α1T + α2W + ε

上式中,e表示每日總用電量,β表示基礎用電,α1T表示空調用電,α2W表示理想狀態下的工作用電;ε表示回歸模型的殘差,也就是預測用電量與實際用電量的差值,(α2W+ ε)近似代表實際的工作用電量。

若實際用電量小於預測用電量(ε<0),很可能意味著在崗員工數量較少、大量員工處於休假狀態;若實際用電量大於預測用電量(ε>0),則有著員工數量增加、工作時間延長、工作強度增大等多種可能,需要進一步驗證。

接下來,我們採用線性回歸,求出β、 α1、α2三個參數的值(模型的平均誤差為9.5%,R2為84.4%)。將參數值代入到方程中,將可以分別模擬得到每日的各項用電量及總用電量,並從而得到預測用電量與實際用電量的殘差ε。如下圖所示:

上圖中,黑色實線表示實際用電總量,深藍色區域表示預測基礎用電量、天藍色區域表示預測空調用電量,淺藍色區域表示理想工作用電量,綠色區域表示超額工作用電量(實際值高於預測值,ε>0),橙色區域表示不足工作用電量(實際值低於預測值,ε<0)。

圖中橙色和綠色區域為選擇性展示,實質為A與B的交集。A:實際用電量與預測用電量的差值大於平均誤差水平的日期。B:使用隨機森林模型進行每天每小時用電量預測,其中全天用電量偏低(橙)/或夜間用電量比例偏高(綠)的日期;該部分方法本文中不再展開。

由圖可知,用電超額的時段(綠色),也就是大家最可能在瘋狂加班的時段,可以分為兩類:

1、第一類零星分布在3月、5月、6月、9月的許多周末。

2.、第二類集中分布在6月中下旬、8月到9月中旬。

而用電不足的時段(橙色),則可以分為三類:

1、第一類為春節前兩周、春節後一周,此類用電不足主要是因為員工數量不足;這反映出春節前提前休假、春節後推後上班,是較為普遍的做法。

2、第二類用電不足時段分布在清明節-勞動節、以及國慶節後;這兩個時段是一年中不需要開空調、氣候最為適宜的時節,也是旅遊度假的最好時機。

3、第三類則零散分布在某些工作日的周四、周五,原因嘛,大家都懂的……

本文的行業榜單和加班/休假時間分布,與你的認知是否相符呢?歡迎給本文留言交流。

註: 本文僅為作者觀點,不代表DT財經立場。

題圖 | 視覺中國

期待更多數據俠乾貨分享、話題討論、福利發放?在公眾號DT數據俠(ID:DTdatahero)後台回復「數據社群」,可申請加入DT數據社群。

數據俠門派

本文數據俠來自城市數據團,他們關注生活在城市中的個人,致力於用市民的生活軌跡,數字化地描繪城市生活、揭示城市問題。


推薦閱讀:

大數據分析挖掘培訓課程,數據分析挖掘應該從哪裡開始學習
大數據發展的三重門
R語言如何多行注釋
kylin 同步問題的patch被採納
「小區開放」政策真的能改善中國特大城市通勤效率嗎?

TAG:大數據 | 大數據分析 | 數據挖掘 |