標籤:

怎樣緩解機場「交通難」?這有一套大數據「治癒法」

文/黃依米 & 吳今回

無論乘飛機,還是趕高鐵,公共交通如今依然是多數人的選擇。但是常常遇到的排隊、擁堵等問題,卻讓出行的體驗大受影響。如何才能在出行中獲得更好的體驗?在12月27日的數據俠線上實驗室,DT君邀請到2017年上海開放數據創新應用大賽(SODA)「種子獎」團隊QuickPath成員、鄧韓貝公司(dunnhumby)數據科學家黃依米、諮詢經理吳今回,以機場交通為例,為我們帶來了一套優化機場交通體驗的大數據方案。

機場交通難,如何靠大數據來解決?

很多人在選擇公共交通方式前往機場乘坐航班的時候,可能都會有這樣的經歷,比如打車難,地鐵擁擠,攜帶大件行李不方便,機場大巴站點遠,時間路線不合適等等。

這些問題不僅成為航旅乘客的痛點,也成為影響一座城市形象的短板。

如何來解決機場交通難問題呢?在2017年SODA(上海開放數據創新應用大賽)大賽中,我們(QuickPath團隊)給出了一套解決方案:利用大數據來優化機場公共交通體驗。

我們的想法是通過分析上海兩大機場(浦東機場,虹橋機場)的航旅數據、交通卡數據、計程車等交通大數據,並結合天氣、空氣質量指數、城市道路交通指數等數據建立需求預測模型。利用這個預測模型可以幫助有關部門優化機場公共交通資源的配置和規劃,並為旅客提供個性化公共交通出行方案。解決機場「交通難」的問題,提升機場作為上海形象窗口的旅客體驗。

通過該模型,能夠預測什麼時間、什麼地方有更多的乘客需要搭乘公共交通去機場。從而可以幫助有關部門調整優化機場公共交通資源的配置與規劃。

幫助計程車公司和司機更好的掌握機場用車需求,優化調度,提升效率增加效益。還可以幫出發和到達的旅客,根據自身情況和實時交通狀況更好地規劃自己的行程。

建立模型所需要的數據以及技術架構

接下來,我們具體說說預測模型。

先是數據的來源。我們的模型用到了以下數據:

1. 航旅數據: 利用機場起降航班數量,上座率可以算出機場公共交通的需求數量。通過出發/到達機場篩選與上海兩大機場相關記錄,並通過起降時間與其他數據整合連接。

2. 一卡通乘客刷卡數據:機場軌道交通需求的歷史數據,通過線路/站點信息篩選和上海兩大機場相關記錄,並通過日期時間與其他數據整合連接。

3. 強生出租汽車行車數據:機場計程車需求與供給的歷史數據,通過GPS位置數據篩選與上海兩大機場相關記錄,並通過日期時間與其他數據整合連接。

4. 城市道路交通指數:該數據會影響乘客公共交通方式的選擇,通過區域、日期時間與其他數據整合連接。

5. 上海實時雨量,上海氣象數據和上海市空氣質量數據:這三種數據會影響機場流量和乘客公共交通方式的選擇,通過站點位置、日期時間與其他數據整合連接。

再來看我們的整體技術架構:

1. 整合機場地鐵、計程車等公共交通數據,進行深入分析,識別其時間、起始地/目的地區域分布特徵,使用Tableau建立可視化工具,並在此基礎上提出機場巴士路線圖和時間表設計。

2.整合機場航班起降數量、入座率、地鐵、計程車數據以及天氣、空氣質量、城市道路交通指數等外部數據,使用機器學習、時間序列分析等方法建立需求預測模型,預測不同時間和內外部條件下旅客對於機場公共交通的需求總量和對不同公共交通方式的需求分布情況,並以API方式建立「模型即服務」,接入客戶數據平台或第三方平台。

在前面的基礎上,建立相應前端軟體或小程序,為旅客機場公共交通出行提供個性化推薦服務。

如何進行數據清洗及建模

在建模之前,數據的清洗和整合是非常重要的一個環節。

對於航旅數據,我們會利用航班票務數據篩選出發地或目的地機場為上海兩大機場的記錄,計算不同時間航班數量與每個航班的上座人數。

而地鐵數據,則是利用交通卡數據篩選所有交通類型為地鐵的數據,按卡號、日期、時間對所有記錄排序,關聯前後兩條進站與出站記錄,形成一條完整的行程數據;篩選所有進站或出站信息為兩大機場站點的數據。

關於計程車數據,我們是將所有數據文件拼接,按車輛ID、數據接收時間對所有記錄進行排序,根據空車/重車狀態的變化判斷上客、下客節點,並將上下客信息關聯,形成包含上下客時間、地點的完整行程記錄;通過上下客地點經緯度信息計算與兩大機場經緯度之間的距離,篩選上客或下客地點在兩大機場1公里範圍內的行程記錄,以及在機場3公里、5公里範圍內的所有空車記錄。

在數據的整合方面,我們是按小時對以上數據進行合計,並與空氣質量、雨量等外部數據關聯,行成需求模型的輸入數據表。

到了建模環節,我們則是用時間序列分析,預測機場每小時旅客人數。在理想情況下需要2年以上航旅數據才可以捕捉趨勢和季節性。

此外,我們還使用了廣義線性模型來建立需求預測模型,輸入旅客數量、交通方式、節日周末假日等因素,出發地、目的地、行程時長、費用等行程細節, 天氣、雨量、空氣質量、交通路況等外部因素,可以預測選擇不同交通方式需求數量。

這個模型當然還有可以優化改進的地方,比如可以通過線性/非線性優化技術, 還可以加入蓄車場容車量,計程車等候面積等,機場實際限制條件優化模型預測結果。

可視化方案以及模型原型的測試結果

有了模型,當然也少不了可視化。

我們利用Tableau建立了不同日期和時間從兩大機場出發或前往兩大機場的計程車線路圖、地鐵各站點的客流量圖,幫助了解相關需求的分布特徵。

此外,還建立了面向計程車公司的機場計程車需求預測「模型即服務」前端面板演示圖。並且,也使用wireframe工具,建立了面向旅行者的機場交通信息與推薦服務的APP/小程序前端交互頁面演示圖。

下面來看看我們的模型原型的一些測試結果:

左邊的2張圖是計程車數據的可視化結果。左上的圖展示了不同星期每小時從浦東機場出發的計程車的終點分布,顏色深淺度代表行程用時長短。

左下圖展示了不同星期每小時前往浦東機場的計程車的上車地點的分布,顏色深淺度代表行程用時長短,密度代表不同地理位置的用車人數。

假想這個原型應用在計程車公司或者滴滴專車,改進調度後可以更好的幫助司機找到什麼時間、什麼地點更容易地接去往機場的單,也更方便旅客快速找到車。

而右邊2張圖則是地鐵數據可視化結果。不同顏色代表不同線路,點的大小代表該站點客流量的大小。右上圖是從浦東機場出發的旅客下地鐵的站點分布圖。右下圖是前往浦東機場的旅客的乘車站點的分布圖。

以上圖從浦東機場出發的地鐵流量圖為例,通過點的顏色區分線路,點的大小代表客流大小,數字標籤代表從浦東機場到達該站的平均時長;從上圖中可以看出2號線沿線站點為機場地鐵線路的主力站點,此外1號線的莘庄方向、彭浦方向,9號線松江大學城方向等也具有較多客流。

上圖則是從浦東機場出發的計程車目的地分布圖。

其中,點的顏色深淺度代表行程用時長短;松江、嘉定、寶山吳淞、川沙等地遠離市區,並且具有較多的計程車需求聚集;對比地鐵客流圖,前往松江、嘉定、吳淞等地地鐵耗時均較長,而川沙站地鐵客流很大。

基於之前對於公共交通需求在時間和空間上的分析,建議設置前往寶山、嘉定、松江等方向的機場巴士,提供旅客相對低價快速的出行方式;增加前往川沙的短途大巴,緩解2號線擁擠;同時可考慮增加前往市中心2號線沿線(世紀大道、人民廣場、中山公園等)的大巴,以及直通兩大機場的巴士。

除了對需求特徵做了可視化。我們還建立了「模型即服務」的前端面板演示。如下圖:

可以設想一下,通過此面板可以幫助計程車公司更好掌握機場計程車需求與潛在供給情況,提高調度與運營效率。比如,發現候車時間長、供給存在缺口時,及時調度附近空車前往機場;發現供給過剩、排隊時間長時,及時疏散排隊車輛。

另外,我們還設計了一個面向旅客的APP服務軟體演示圖:

此前端交互頁面演示展示了將「模型即服務」接入航旅服務或機場服務軟體,提供機場公共交通信息與個性化推薦的擴展服務設想。

模型的局限性及應用前景

需要指出的是,本模型還有一些局限性。比如地鐵數據僅包含公共交通卡數據,未包含使用單次地鐵票乘車的旅客;計程車數據僅包含強生計程車公司數據,未包含其他計程車公司或快車、專車數據;未能取得目前已有機場巴士相關運營數據等等。

需要指出的是,這些數據上的局限使得我們開發的可視化工具存在未能完全反應公共交通需求全貌的風險。

如果能夠解決這些問題,我們覺得,這樣的模型當然是有其特定的社會價值。比如能夠緩解機場交通難問題,消除航旅乘客痛點,提升上海城市形象,鼓勵使用公共交通,倡導綠色出行等。

另外,這樣的作品也具有潛在的商業價值。能夠提升機場公共交通運營效率,縮短計程車空車等待時間,提高收益,節能減排,節省旅客行程時間,並且提升出行體驗與效率。

希望在今後能夠整合更多、更完整的數據,對這個模型加以完善。

註: 以上內容根據黃依米、吳今回在數據俠線上實驗室的演講實錄整理,文字有所調整。圖片來自其現場PPT,已經本人審閱。本文僅為作者觀點,不代表DT財經立場。

DT君送福利:

本文所有圖片均來自作者PPT,可在後台回復「機場公交」獲取完整版。

編輯 | 胡世龍

題圖 | 視覺中國

期待更多數據俠乾貨分享、話題討論、福利發放?在公眾號DT數據俠(ID:DTdatahero)後台回復「數據社群」,可申請加入DT數據社群。

數據俠門派

本文數據俠黃依米、吳今回,分別為鄧韓貝信息技術諮詢(上海)有限公司數據科學家、鄧韓貝公司諮詢經理,兩人均為2017年度上海開放數據創新應用大賽(SODA)「種子獎」團隊QuickPath成員。該團隊其他參與成員還包括金馳君、莫綺雯、傅星宇、Surojit

Dhar、Kush Chopra、鄧瑋君、范軼倫、華振等。

(數據俠黃依米)

(數據俠吳今回)

加入數據俠

「數據俠計劃」是由第一財經旗下DT財經發起的數據社群,包含數據俠專欄、數據俠實驗室系列活動和數據俠聯盟,旨在聚集大數據領域精英,共同挖掘數據價值。了解數據俠計劃詳情請回復「數據俠計劃」,投稿、合作請聯繫datahero@dtcj.com。

推薦閱讀:

道路的門牌號編排有什麼規律嗎?
同等條件下,怎樣的道路規劃能最大程度減輕交通堵塞?
為啥人行道綠燈時還有車子在拐彎?
城市道路中的轉盤(環島)對交通導流有多大作用?
為什麼城市的洒水車用的都是《蘭花草》的音樂?重複播放,聽著不累嗎?

TAG:大数据 | 交通 |