你的城市顏值能得幾分?AI告訴你標準答案!

文/數據俠 劉嘯

每個人都生活在一定的空間,城市的各項公共服務設施也需要佔據一定的空間。通過對這些空間數據的挖掘和分析,我們能夠比以往更科學、更清晰地觀察我們所在的城市。9月27日,深圳市位和科技有限責任公司區域經理劉嘯,在數據俠實驗室的線上活動中分享了位和科技在空間數據挖掘和分析方面的實踐,本文是其演講實錄。

機器學習應用到空間數據挖掘

我們公司主要做的是空間數據挖掘,在國內外,類似的公司目前並不是很多。後面要提到的很多案例,圖表顏色看起來花花綠綠的,其實都是基於我們自己的產品和研究做出來的。

下面這張圖算是我們的代表性產品之一,這張圖的左上角區域是它的地圖區域,左下角區域的折線圖反映的是一些數值、特徵值,右側則是測試參數的設置、提交運算的區域。

雖然我們用了很多機器學習演算法或者空間挖掘的一些演算法,但是你會發現,操作起來還是非常簡單的。

有人會問我們的數據來源是哪裡?

我們和地圖公司有密切合作,百度或者高德地圖有的POI興趣點,我們也都有。除此之外,我們還獲得了一些人口遷徙、房地產、企業等各類數據。

在進入具體的案例分析前,需要指出的是,這些案例都是基於城市各維度做的一些分析,而在這其中,機器學習扮演著重要的作用。結合具體的一個個案例,讓大家對空間數據挖掘有一個更清晰的認識,這也是我今天要分享的主題。

案例一:通過機器學習給城市「畫像」

先看下面這張圖:

在這張圖中,我們通過各種POI興趣點的數據,用可視化來描繪城市用地情況。圖中的各個分類其實我們都提前選好了參數,再利用機器學習自動分類。然後再選好用哪些維度來給城市「畫像」。

從圖中可以看到哪些區域是休閑娛樂休閑功能比較集中的地方、哪些是居住比較集中的地方、哪些是混合型的地方,以及能看出哪裡是工廠、工業集聚區。通過這樣分類,我們可以快速了解這些用地的分布情況。

接著再看第二張圖。

這張圖是基於上一張圖的數據,我們做了更進一步的聚類,你會發現城市裡邊的用地情況顯得更加清晰一些。

我雖然沒有去過南昌,但是通過這張圖我可以很容易分辨出來哪裡是老城區,哪裡是新城區,哪裡是邊緣的工業用地區,哪裡可能是新開發的居住區等等。

案例二:發現北上廣深地鐵站周圍的畫風

可能前面兩張圖因為涉及到具體的業務應用場景,對於非土地研究行業的人來說可能相對較難理解。但下面這個例子會更好理解一些。

我們同樣用機器學習的演算法,通過POI興趣點數據來識別一下北上廣深四個城市的地鐵站周邊500米的情況。

可以看到,北上廣深四個城市的差異還是非常明顯的。

比如說北京,一眼望去,綠色的圓點較多,這代表的是其周圍公共服務設施比較集中。這些公共服務設施包括政府機關辦公地點、圖書館、文化場館等等。

再看上海,藍色的圓點比較多,這指的是地鐵站周圍各種居住小區較多。

而廣州,紅色和紫色的圓點更多,這指的是地鐵站周邊娛樂休閑類場所更多。從這些地鐵站出來,更容易找到吃喝玩樂的地方。

深圳,則算是比較均衡的,不同顏色的分布並沒有一個明顯的特徵。

案例三:從公共交通擴張看一座城市的「生長」

前面介紹的都是城市中的土地利用情況分析,接下來講一講交通等城市公共服務設施的情況。

這裡以武漢市為例,下圖可以看到2014年到2017年它的軌道站點數量增長非常快。

再來看公交站點的情況:從2014年的接近3000個到2016年3500多個,一直到2017年有將近5000個了。

然後我們把軌道交通的站點和公共交通的站點,聚合到城市用地上,這可以看做是公共交通的便捷度評價指標,可以看出這幾年武漢市的公共交通便捷度確實發生了很大變化。

緊接著,我們再通過機器學習方法,研究武漢市的公共服務設施的分布變化。見下面兩張圖:

從這兩張圖我們可以看到,從2014年到2017年,隨著公共交通便捷度的不增增加,武漢市的土地利用的混合程度也發生了大量變化。原來可能沒有那麼多POI興趣點,但現在人的活躍地點增加了。

上圖還能發現,隨著公共交通的發展,武漢市的單一類型的用地是逐漸減少的。

通過這個研究,我們得出來的結論是,隨著城市公共交通便捷度的增加,城市內部的活力也在逐漸增加。

案例四:通過OD數據和手機信令觀察城市內部聯繫

下面再來舉兩個機器學習在研究城市通勤方面的具體例子。

首先來看我們隊深圳計程車OD(從起點到終點)路徑的分析圖:

我們拿到了深圳市的計程車運行軌跡數據,然後利用機械學習幫我們分辨出深圳市計程車的OD數據模式,機器自動幫我們分出來非常顯著的兩個類型:左邊呢,是早高峰的時候,你可以看到車流從北到南的比較多,右邊這張綠的的圖則是晚高峰的時候,從南到北的比較多。

通過這個分析,我們不僅了解到深圳居民乘計程車的模式,還能發現深圳市的南北向交通可能是有不足,而深圳市的公共交通現在是東西向的較多。

為什麼會有這樣的結論?因為計程車往往是人們公共交通出行的一種補充,只有在公共交通可能不太方便的時候,人們才會選擇計程車多一點。

再來看看上海居民的通勤情況。這裡我們是基於手機信令數據做了各區域間聯繫強度的分析,其中的色塊代表著不同的分區:

大家可能對手機信令不太了解,這其實是反映人們出行或者活動的軌跡。我們一般使用手機的時候,運營商每隔一段時間,會對你的手機進行一次定位,然後運營商會判斷你處在哪個基站的服務範圍。

如果你前一個時刻在A基站服務範圍內,然後後一個時刻又到了另外一個基站服務範圍,說明你在移動,我們就可以判斷你是從A點移動到了B點,所以能夠反映人的出行規律。

然後我們用這樣的數據做了上海市的分區,這些不同的色塊代表的我們通過這些數據算出來的聯繫強度。

從上圖中,我們發現了一個非常有意思的現象:在上海市範圍內,奉賢、金山、松江等遠郊地區,你會發現它的分區和它的行政邊界是比較吻合的,這就說明這些郊區的居民一般都不太會來中心城區活動,而是在自己的行政區範圍內活動。

而你看那些越靠近中心城區的地區,分區的劃分跟它的行政邊界的關係就會越不一致。比如說寶山區,可以看到這裡的居民在楊浦區很活躍,是不是說明有很多在楊浦區工作的人居住在寶山呢?

此外,當我們按照人的出行規律進行分區之後,還可以把區和區之間的聯繫強度用可視化的方式展現出來:

上面的案例,主要是介紹了我們目前在利用機器學習進行空間數據挖掘方面的一些具體嘗試,我們希望能夠提供一個一站式的空間數據挖掘平台,既有數據,又有空間數據處理的工具,服務更多的數據人。

註:以上內容根據劉嘯在數據俠實驗室的演講實錄整理,圖片均來自嘉賓PPT,已經本人審閱。本文僅為作者觀點,不代表DT財經立場。在公眾號DT數據俠(ID:dtdatahero)後台回復「城市畫像」獲取完整PPT。

添加DT君個人微信(dtcaijing002),並備註「數據社群」,可申請加入DT數據社群。

數據俠門派

本文數據俠劉嘯,深圳市位和科技有限責任公司區域經理。

加入數據俠

「數據俠計劃」是由第一財經旗下DT財經發起的數據社群,包含數據俠專欄、數據俠實驗室系列活動和數據俠聯盟,旨在聚集大數據領域精英,共同挖掘數據價值。了解數據俠計劃詳情請關注DT數據俠回復「數據俠計劃」,投稿、合作請聯繫datahero@dtcj.com。

推薦閱讀:

世界摩天城市100強,中國數量居然佔了這麼多!
美國哪些城市比較適合留學生融入當地生活?
你是如何選擇定居城市的,需要考慮哪些因素?
城市 | 紐約,紐約
為什麼有的城市的軌道交通叫做 metro,而有的城市叫做 subway,這兩種用法是如何區別的?

TAG:AI初创 | 大数据 | 城市 |