浙江預測擁堵準確率超90%,如何實現的?

浙江交通用大數據預測未來哪堵車

浙江省交通運輸廳正在開展一項新的試點:將高速歷史數據、實時數據與路網狀況結合,基於阿里雲大數據計算能力,預測出未來1小時內的路況。結果顯示,預測準確率穩定在91%以上。

做交通大數據的都知道,傳統的未來路況預測都是基於歷史數據,準確率不高。浙江是怎麼做到91%的,難點在哪裡?


前期接觸過這個項目,根據自己的了解分享如下:

先來一張浙江省高速公路運行評價分析系統的截圖,有個直觀的認識。

(圖片來自浙江交通運輸廳分享的一個資料,如侵權請告知,馬上刪除)

題主問的預測擁堵,應該就在這個系統中。

根據公開的材料和阿里雲閔萬里的論文(演算法主要基於這個論文:Real-time road traffic prediction with spatio-temporal correlations),預測的過程是這樣紙的:

1、 要想預知未來,首先需要了解實時的交通情況。

實時路況的檢測其實一直是個難題。主要是兩點:1、實時性不夠 2、投入成本高 3、周期長

浙江是通過手機信令來測算樣本車輛的速度,從而拿到路況信息。這個原理很簡單,兩個基站的距離是已知的,手機在兩個基站切換的時間運營商可以提供,距離/時間=速度。(簡化,以便於說明)

最終的結果是這樣的:

2、 歷史數據分析

要從資料庫中把用上述方法紀錄的各個路段的歷史數據求個平均值

3、昨天+今天=明天

此前,很多預測都是基於歷史平均數據。比如百度地圖的這項功能:

百度地圖-實時路況

對於實際應用,意義不大。

浙江引入了對相關路段實時速度的分析。比如,要預測中關村南大街的車速,不僅要看這個路段的歷史車速、實時車速,還要看首都體育館南路、西直門外大街、學院南路甚至三里河路的實時車速,當然每個路段的影響係數不同(這裡城市路網數據很重要)。

其實,這個事情之前微軟也做過,是聯合巴西一所大學,準確率為80%。微軟也公開表示希望在加入更多數據源後,將這一成績提升到90%。

Using Technology to Combat Traffic: ITE Projects

區別上1、微軟是和高校合作,交通數據估計有限 2、浙江的這個是基於阿里雲,巴西的這個是基於Azure 。3、微軟的演算法不清楚,阿里雲閔萬里的論文中介紹的演算法有很大創新

至於雲平台是否會帶來差異,我並不清楚。閔說,浙江省內近1300公里的高速路段,阿里雲的ODPS可以在20分鐘完成歷史數據分析,10秒鐘完成實時數據分析。

就醬紫


轉一個技術解讀貼過來,這個項目的負責人閔萬里博士在阿里技術分享論壇上發的,希望能為大家解疑。


未來路況預測的理論及技術發展簡介

「互聯網+交通, 物聯網,大數據,雲計算,數據科學, 智慧交通, 排堵保暢」,時下最火的辭彙都投射在同一個項目中:浙江高速未來路況預測。

最近阿里雲與浙江省交通廳合作,在阿里雲公有雲上實現了未來高速路況實時預測系統, 提前預測未來5, 10,…., 60 分鐘每個路段上的通行速度。自2015年9月底上線以來, 預測準確率保持在91%以上。項目公布後反響強烈,有不少人詢問背後的技術細節。

這是一個典型的從DS(Data Science) 到 DT(Data Technology) 再到DA (Data Application)的案例。從大家熟知的「實時路況」到 「未來路況」, 區區兩字的差別看似微小,實則有多重技術挑戰,最終得益於阿里雲的計算能力及大數據應用演算法能力。此文試圖用淺顯易懂的語言科普這個項目背後的理論技術及其歷經十年的打磨過程。

1:項目的初衷

在阿里巴巴西溪園區工作的同學19:00下班前想知道 19:20 時刻文一西路/崇義路口是否擁堵?如果還是擁堵的話,就再加班晚點走吧。

交通91.8 電台播報中河高架此刻擁堵,而正堵在中河高架上的司機無奈嘀咕道「不要你說我也知道現在堵,告訴我要堵到什麼時候啊,美女主播!」

類似的場景還有很多,而大家熟知的「實時路況」無法解決這些問題。 基於當前時刻的全網路況規划出行,隱含了一個很大的假定:路況將會固化在當前的狀態不隨時間演變。

成語「刻舟求劍」每天都在被許多駕車的朋友演繹,就是因為缺少了未來路況的信息!

有些同學會指出說路況預測功能在有些產品中都已經實現了,為什麼還要炒冷飯?現有的路況預測「基於歷史路況統計預測,僅供參考」。可是實際路況並不是嚴格按照歷史經驗規律的,各種突發事件,天氣條件,及道路管制等措施都會使得今天的路況偏離歷史經驗規律。事實上數據已經表明尤其節假日的時候歷史經驗值不可靠。所以,這個項目的目標就是為用戶打造一個「與時俱進」的未來路況預測。


2:在線預測的整體流程

1)實時路況採集:許多城市都有實時路況發布系統,數據源通常來自地感線圈,探頭及浮動車。 但在城外的高速路上探頭設備相對稀疏,這次項目中浙江省交通運輸廳採用了手機信令的數據源,通過在手機基站之間的切換行為推斷車流速度。

2)交通狀態實時監測:由於人們出行具有周期性(上下班高峰,周末/工作日),每個路段的路況通常會在幾個不同狀態之間周期性輪替。從實時路況數據可以檢測各個路段當前處在什麼交通狀態, 針對不同的交通狀態啟用相對應的預測模型。

3)未來路況在線預測:基於最近60分鐘內的全網路況記錄, 模型實時預測未來60分鐘內各個路段的通行速度, 並且隨著全網實時路況的變化同步刷新。

在以上三個流程中:

1) 「實時路況採集」的最大挑戰是手機信令數據的空間解析度不足以及數據噪音大(很多非駕駛人員的手機數據)及流計算壓力大。自2000年以來多個智能交通研究組克難攻堅突破了這個難題並且付諸使用。

2) 「交通狀態實時檢測」則是智能交通領域比較早突破並使用的技術。

3) 「未來路況在線預測」所用的模型則是本文介紹的重點。它集成了概率論,時間序列,拓撲學及分散式計算等多個學科, 前後經歷了10年的時間鑄造而成。

3:預測模型的理論基礎——數據流形 (Data Manifold)

在路網上的車流就如同在自來水管道里的水, 都是網路流問題, 即:在一個相對固定的網路結構上的動態流。 統計學上比較相似的概念有 longitudinal data, spatial-temporal process, 區別在於網路幾何結構決定了不同路段之間有相對固定的流向關係(有向圖)。在每個路段上的觀測值則是一個時間序列( 時間關聯性 ), 而由於流向的關係決定了不同路段上的觀測值之間有內在關聯性( 空間關聯性 )。為了區別longitudinal data, 筆者提出了 「數據流形」 (data manifold) 的概念。要解析data manifold, 需要分解為兩個邏輯上從外至內的串聯問題 a) 與 b):

a)解析空間關聯性

顧名思義, 解析manifold最重要的是局域空間的切向量(tangent vector)。即對任何給定的路段,需要判斷與其有顯著關聯的路網局域範圍。以圖1 為例,在路段 i的觀測量是時間序列 X{i,t},根據拓撲關係可以寫出以下方程:

圖1:有向網路流的拓撲關係示意圖。

這裡以第5個路段為中心構建的方程組為例,每個方程對應的就是一組切向量空間 (例如, 基於第一個方程選擇的切向量空間就是有4,3,6(按公式中的順序)號路段張成)。「≈」 而非嚴格的 「=」 則是因為有誤差波動及行程時間滯後的影響。解析data manifold 的空間關聯性就是要判斷方程組中哪個方程更加「靠譜」。而如何衡量「靠譜」程度則需要從X{i,t} 時間序列特性著手,需要用到多維時間序列的最簡約結構模型的判定方法, 參見筆者的論文【1】

b)解析時間關聯性

上文所列舉的方程組裡每個係數,(α,β,γ)以及對應的 X{i,t} 時間序列的時間下標如何判定? 要解答這兩個問題, 需要從時間關聯性著手, 即指定路段上前後時間周期內觀測值時間序列X{i,t}之間的關聯性。 以圖2為例, 有幾個代表性的特徵:

周期性:整體曲線的走勢在三周里明顯相似(早晚高峰擁堵,周末相對暢行)。百度地圖的路況預測「基於歷史路況統計預測」其實就是利用這種周期性,但是沒有考慮到下面的兩個重要特性。

差異性:在共同趨勢的基礎上,明顯有一些尖峰參差不齊對應各種交通事件。

方差變異性:車速曲線的波動幅度(方差)在一天中不同時間段有變化,這個現象在金融時間序列中非常普遍(conditional heteroscedasticity)。Robert Engle 教授(2003年諾貝爾經濟學獎獲得者)於 1982年提出「自回歸條件異方差模型」(ARCH) 來描述方差變異的現象,參見論文【2】。

圖2:單個路段連續三周(3種顏色)的通行速度, 從周日至周六按照每5分鐘統計。

隨後許多學者發現ARCH效應導致經典的ARIMA時間序列建模過程失效, 一些重要統計量的大樣本分布性質也不清楚。筆者與導師在論文【1】中解決了這個問題,這個工作的核心理論則是筆者與導師在論文【3】中提出的「弱相依過程的樣本統計量的漸進性分布特性」。【3】從經典概率論中的鞅差(Martingale Difference) 理論框架建立了相依過程的大樣本不變原則(Invariance Principle), 顛覆了統治近50年的強混合理論(Strong Mixing)【4】,論文【3】也是隨機過程期刊在2005~2010年間被引用次數前十名的論文之一。

4:預測模型的技術演變

2005的兩篇論文【1】及【3】完成後筆者一直尋找應用場景。最開始應用在手機塔台網路的動態頻率帶寬分配上,幫助電信運營商優化不同地區的頻率帶寬分配從而提升通話質量, 降低通話斷線的比例。這個應用場景對實時更新的速度要求不高, 因為頻率帶寬的分配方案是一個周期性非常強的緩變過程。但在2008年開始應用於道路路況預測試點的時候, 對實時性要求陡增。囿於機器性能的限制, 只能在很小的範圍(新加坡的CBD 約506個路段)試測, 當時在不同等級的地面道路上預測準確率超過了85%,這是業界第一個能準確預測未來路況的實戰系統。當時的科技媒體包括CNN, Yahoo都專題報道, 彷彿交通擁堵的頑症立馬可解了。基於這個工作發表的論文【5】是交通研究期刊2010~2015年期間被引用次數最多的十篇論文之一,也有許多團隊開始實現並改進這個論文的演算法並且報導了十分樂觀的結果。

可是迄今為止, 還沒有看到此類系統大規模的應用。根本原因還是在於實時在線預測模型部署在超大規模的網路上對計算性能要求非常高。

2013年筆者發表論文【6】再次改進了預測模型,降低了計算的複雜度。2014年底,為「快的打車」建立智能推單模型上線後顯著提升了訂單滿足率。這個項目切實證明了阿里雲架構的計算能力,堅定了筆者的信心。阿里雲交通雲團隊把在線預測模型進行了針對阿里雲架構的改進,徹底突破了實時計算的壓力。系統上線運行後成功經受住了國慶高峰期的考驗。

堅實的理論奠定好的模型,保證能「算得准」,而阿里雲強大的計算能力保證 「算得快」,兩者合力鑄就了這次項目成功。

5:未來展望

從應用的角度看, 「互聯網+「 給各行各業注入了新鮮的思維, 數據深度挖掘及應用需求隨處可見。以交通行業為例:信號燈控制方案優化, 停車位預測, 人流集聚,專車動態匹配及定價等等。而「雲計算+大數據」的搭配在各個垂直行業面臨絕佳的機遇。

從學術研究的角度看, Data Manifold 還有很多有趣的命題值得關注。 例如在Manifold上的隨機採樣試驗設計(類似經典試驗設計理論里的 Latin Hype Cube), 在Manifold 隨機場條件下的路徑規劃(類似Dijkstra), Data Manifold上的充分統計量。

參考文獻

【1】 Wanli Min and Ruey Tsay, 「On Canonical Correlation Analysis of multivariate time series」, Statistica Sinica 15 (2005), 303-323

【2】Robert F. Engle ,」Autoregressive Conditional Heteroscedasticity with Estimates of the Variance of United Kingdom Inflation」,Econometrica 50 (4): 987–1008. 1982.

【3】 Wei Biao Wu and Wanli Min, 「On linear processes with dependent innovations」, Stochastic Processes and their Applications, Volume 115, Issue 6, June 2005, Pages 939–958

【4】M. Rosenblatt. 「A central limit theorem and a strong mixing condition」, Proc. Natl. Acad. Sci. USA 42 (1956) 43-47.

【5】 W Min and L Wynter, 「Real-time road traffic prediction with spatio-temporal correlations」,Transportation Research Part C: Emerging Technologies 19 (4), 606-616,2011

【6】S Chen, W Min and R Chen「 Model identification for time series with dependent innovations」,Statistica S


謝邀!

記得早上上班被堵在路上,91.8的播音員說:感覺整個城市的路網都打了死結。預測再准也是然並卵。

回答作者說的難點,難點在於別的地方不是浙江!浙江有阿里,有政府的大力支持。

可能關注阿里的人會留意到一個事情,阿里今年跟很多地方政府簽署了合作協議,基本上都是圍繞各種信息化展開的。要走出去,首先肯定得有樣板工程吧!浙江自然就是這個樣本,阿里在這方面肯定投入不少人力和財力(本觀點無數據支撐,僅供參考。)此外,浙江省在信息化這塊也得到政府的大力支持,比較有說服力的就是不久前的雲棲大會上,浙江省和杭州市的政府都到場站台,這在別的城市應該是少有的吧!

當然,作者的問題或許會傾向於技術方向。就是靠什麼技術手段達到了這麼高的準確率。我想說的是,有了阿里的站台和政府的支持,技術只是實現的一個路徑。

其實,別看浙江的預測這麼准,杭州市的交通是全球最擁堵的城市之一,之前在市區上班,文一路教工路哪塊經常全天候都是賭得一塌糊塗,早上上班高峰期也經常是到處都亮紅燈。在城站和杭州東站打車更是讓全國人民記憶深刻。

OK打了那麼多字,對大數據感興趣的歡迎關注我們微信:idacker 其實,交通大數據理想很豐滿,現實很骨感,路就那麼寬,杭州那麼多有車一族,能不堵么?話說杭州的公共自行車真心不錯。


城市兩大難,一個霧霾、一個路堵,雲計算都在幫助改善,都是利用大數據~


我知道用了手機信號來獲取行車速度


關鍵詞 :

歷史數據、路網狀況、

雲計算、大數據

預測、準確率91%

大家不要被忽悠了,放在阿里雲上就是雲計算?數據量大就是大數據?這都是兩年前的招式了,不是這麼個情況好么

首先說實際情況:

「交通數據是大數據」這個是業內一直在宣傳的。交通行業當前實際情況 : IC卡,車輛位置數據、手機信令數據(還有一類因為不好落地),這三部分是大數據級別,這三類大數據量、低價值數據經過分析計算可以得到 車流OD、人流OD、路況三類結果數據。這三類數據可以用於 城市公共交通的分析決策、城市交通分析決策、以及城市交通預警;

項目難點

1、數據集成和匯聚:交通行業數據類多量大,尤其是實時數據,很難用數據集成工具保證效果;

2、數據指標定義:解決數據標準不統一造成問題;

3、數據計算模型:基於實時數據、生產數據、基礎數據來得到某個指標,需要定義計算模型;

4、數據計算架構:計算的整體架構需要良好的設計,可以保持靈活性、復用性。

簡單說一下效果

預測是可行的,也肯定是不準的。達到91%可以說已經是國內很高的了。但這個準確的標準,不太好衡量。

交通預測的變數很多。工作日還是周末、前後天氣、季節、事件、等等太多變數,看了一下介紹,不太專業,估計其中有所保留,但其實也沒多少秘密。


手機信號是個好主意,但是怎麼從運營商拿數據的呢?


做一次這種分析多少錢阿


謝邀。

這是阿里在自己的根據地應用大數據的實際應用,但是值得深思——

某貓已經能根據大數據分析你的消費行為來為你發送貨物(如有雷同,實屬巧合)~~

比如商家賣一個皮包,有真貨、瑕疵、高仿、山寨幾種

A女月消費幾萬,經常買各種大牌奢侈品、化妝品,從來不坐滴滴打車,從來不團購低端的餐廳吃飯,菜鳥物流收貨地址在城郊別墅,大數據判斷你是白富美——發真貨;

B女喜愛網購,消費水平可觀,幾乎從不給店家差評,幾乎從來不退貨,經常團購請人吃飯,菜鳥物流收貨地址在高檔小區,大數據判斷你是傻白甜——發瑕疵品;

C女狂熱網購,但購買的都是低端商品,所有的優惠券都搶,所有的補貼小便宜都占,收穫地址是全是小公司的寫字樓,家庭地址周邊沒有同品牌的實體店,支付寶好友也都是類似的消費習慣,大數據判斷你是虛榮的小白領——發假貨;

D女上網買盜版考研資料,團購學校門口的牛肉拉麵,周末去影院看郭敬明的小時代,收貨地址是圖書館門口,大數據不用判斷也知道你是腦殘學生狗——發山寨。

於是,不久的將來,基於交通大數據的實際應用,老婆會判斷你是真的在加班還是偷偷去約會小三。

以上。


其實每個路段的數值根據統計學大數定理,除去特定的節日活動什麼的,基本就是一個定值, 常規工作日,休息日的車流量和周圍的住宅商業環境有關.用電腦編個車流模型很容易就能模擬了.


這是我們行業的秘密,我一直在猶豫要不要說破,但是說破了會砸了自己的飯碗。

能預測準確的首要原因是數據來源的極大豐富,現在的技術水平為實時處理海量數據提供了可能。

有了海量數據和處理能力,檢測和預測不是特別有技術含量的事情,我感覺只要演算法考慮到了足夠多的影響因素,簡單演算法和複雜演算法的準確率差距不是那麼大。

另外看準確率這個評價指標,不得不說,數據會說謊,這一個指標不能證明其准。這也是中外各國行業內的一個公認的遊戲。有人提到了大數定律,很多所謂的預測準確率都是在用這個,不然還有兩個重要指標一併列出來,就是誤報率和漏報率,分別表示沒堵你說堵,和堵了說不堵。很多時候都沒有這兩個指標。


是因為擁堵率90%,所以每天都說會擁堵就是90%準確率了嗎?


因為杭州的堵很有規律,一年365天天天都堵。。。

所以預測可以做的很准。。。

(逃~


杭州那麼賭,不需要啥大數據什麼的,我預測一下哪裡什麼時間會堵也能準確到80%,因為說哪兒堵他基本肯定會堵的啊


90%的預測根本就一般水準,單看歷史數據就可以達到的吧。


在牛市預測股票漲的成功率也是很高的。


切,北京能做到100%。

每天都是堵堵堵堵堵堵堵堵堵堵堵堵。


交通上有一些模型是計算通行量的,問題在於這些模型多數是基於在理想狀態下的。

而道路擁堵是多種因素造成的,其中之一,也是佔了較大比重的原因就是道路設計的合理性。不合理的道路設計會造成那段道路永遠擁堵。然後你告訴我你是用大數據分析出來的??

其實以很多人開車經驗來看,這些所謂的預測其實幾乎等於每天翻版的通行狀況而已。說句不好聽的,何來預測,本來每天都堵在那。你能給我預測下某條路哪天不會堵么?


吹牛吹成這樣,居然那麼多人相信。擁堵狀態,檢測的樣本準確性都達不到90%,預測的比檢測的還准,你們信?有本事,你實時發布出來給大家驗證,反正阿里實現分分鐘的事


說實話,如果你在一個城市生活30年,經常出去走走,深入一下普通城市生活,你的預測比他們准信嗎?誰還不知道自己城市最常去的幾個地方几點開始堵車?


推薦閱讀:

北風網培訓大數據,費用 12800,怎麼樣?
未來研究所是什麼?
分析處理幾十萬條以上的數據excel會很慢,也會出現數據不準的情況,請問處理這類數據大家一般都用什麼軟體?
大數據究竟是什麼?一篇文章讓你認識並讀懂大數據
關於微軟的Power BI介紹?

TAG:雲計算 | 城市規劃 | 堵車 | 大數據 | 交通經濟學 |