我用微博簽到數據,給長三角城市重新排了個名

文/數據俠 徐凱恆

這位數據俠,用宏觀數據結合微博簽到數據進行聚類分析的方式,重新劃分了長三角的城市等級。

本文轉自公眾號數讀城事(ID:CityDAst)

好久沒有做新數據應用的文章了,雖說是新的網路數據,微博簽到數據應該也不算是什麼新的數據了,早有各路大神用的飛起了,我在這裡也就拙劣的試一下手。

總的來說,技術路線就是通過微博簽到數據中 「簽到次數」與「簽到圖片數量」的總量表徵城市的網路活力,通過網路活力、人均GDP、人口密度等值進行聚類分析,從而得出城市群內城市等級梯度的劃分。

今天的主題是城市群,具體來說是長三角城市群,除了利用新浪微博的簽到數據外,主要參考的文件為2016年發改委印發的《長江三角洲城市群發展規劃》。

長江三角洲城市群(以下簡稱長三角城市群)是我國經濟最具活力、開放程度最高、創新能力最強、吸納外來人口最多的區域之一,是「一帶一路」與長江經濟帶的重要交匯地帶,在國家現代化建設大局和全方位開放格局中具有舉足輕重的戰略地位。

長三角城市群在上海市、江蘇省、浙江省、安徽省範圍內,由以上海為核心、聯繫緊密的多個城市組成,主要分布於國家「兩橫三縱」城市化格局的優化開發和重點開發區域。

範圍包括:上海市,江蘇省的南京、無錫、常州、蘇州、南通、鹽城、揚州、鎮江、泰州,浙江省的杭州、寧波、嘉興、湖州、紹興、金華、舟山、台州,安徽省的合肥、蕪湖、馬鞍山、銅陵、安慶、滁州、池州、宣城等26市,國土面積21.17萬平方公里,2014年地區生產總值12.67萬億元,總人口1.5億人,分別約佔全國的2.2%、18.5%、11.0%。

(圖片說明:長三角城市群範圍;圖片來源:《長江三角洲城市群發展規劃》)

微博簽到數據的可視化

獲取了江蘇省、上海市、安徽省和浙江省的微博簽到數據,數據包括簽到點名稱,地址、類型、簽到次數、簽到照片數量等,幾十萬條吧大概,反正就是有點卡想換電腦那種。

(圖片說明:微博簽到數據示例)

將微博簽到數據空間化落在地理空間上,選擇適合的符號系統,呈現出來的效果類似於夜間燈光數據集,或許這張圖也可以叫做「微博簽到點亮長三角」。

在圖裡我們可以看到,數據最為集中的區域主要是長江沿線以及環杭州灣一帶,也可以大概看出長三角城市群內核心區域的大概範圍。

(圖片說明:微博簽到點亮長三角)

通過對微博簽到數據進行核密度分析,以及每個簽到點的簽到次數和簽到照片數量進行計算得到每個簽到點的網路活力:

網路活力=簽到次數+1.5*簽到照片數量

每個點的網路活力作為核密度分析的權重值,計算半徑為1000米。(簽到同時拍照比單純的簽到具有更高的活力,因此乘以了1.5,這裡還有待商榷)

特別注意到的是,上海——蘇錫常都市圈的關係尤為緊密,上海——蘇州——無錫——常州呈現出綿延連片的趨勢,特別是縣級市、小城鎮在其中擔當了相當重要的作用,崑山、常熟、張家港、江陰等地也顯示出了較強的網路密度。

(圖片說明:上海、蘇州、無錫、常州微博簽到密度)

通過匯總將每個城市的網路活力的數值進行求和運算,得到每個城市的網路活力總量。總的來看,結果還是和經驗認知相符的。

(圖片說明:長三角城市群各城市網路活力總量)

長三角城市群經濟基礎條件

由於時間限制,我僅選取了人口、人口密度、GDP和人均GDP這幾個指標進行分析,資料來源於上海、浙江、安徽和江蘇的2016統計年鑒,人口選擇常住人口,這裡僅進行最簡化的經濟基礎條件的分析。

從各城市的人口總量來看,呈現出沿海、沿江分布的特點,由於各市行政區劃面積存在較大差異,需要比較人口密度的指標。

(圖片說明:長三角城市群各城市常住人口數量)

人口密度分布情況來看,沿海沿江的特點更為明顯,上海作為城市群內的中心城市,人口密度當之無愧位於第一,沿長江經濟帶的城市,特別是長江以南的蘇州無錫等城市人口密度也相對較高。

(圖片說明:長三角城市群各城市人口密度)

生產總值與人均生產總值情況來看,長三角城市群邊緣城市的經濟體量與核心城市存在較大差異。

(圖片說明:長三角城市群各城市地區生產總值)

(圖片說明:長三角城市群各城市人均生產總值)

案例

對於城市群內的城市等級劃分,我選取了K均值聚類演算法

K均值聚類演算法是先隨機選取K個對象作為初始的聚類中心。然後計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對象就代表一個聚類。一旦全部對象都被分配了,每個聚類的聚類中心會根據聚類中現有的對象被重新計算。這個過程將不斷重複直到滿足某個終止條件。終止條件可以是沒有(或最小數目)對象被重新分配給不同的聚類,沒有(或最小數目)聚類中心再發生變化,誤差平方和局部最小。(以上內容來源於百度百科)

下圖展示了對n個樣本點進行K-means聚類的效果,這裡k取2

用於聚類分析的變數,也就是要選取的指標,我簡單選擇了人口、人口密度、生產總值、人均生產總值、網路活力(簽到次數+1.5*簽到照片數量)。

通過計算,將26個城市分成了4個等級。

(圖片說明:城市等級分布)

這次的微博數據的小小實驗就到這裡。

想瀏覽更多數據俠文章?快關注DT數據俠吧~各路大牛帶你玩轉大數據!

數據俠門派

本文數據俠徐凱恆,現就職於發展改革委城市和小城鎮改革發展中心綜合交通院,主要從事交通-產業-空間三要素協調規劃,除了長得帥,媳婦也特別漂亮。

數讀城事(CityDAst)這個公眾號就是他和媳婦兩個人在學生時代的時候一點點運營起來的,主要是想分享經驗與結交朋友,雖然規模不大,但是做得很用心。

加入數據俠

「數據俠計劃」由第一財經數據新媒體DT財經發起的數據人社群平台,旗下有數據俠專欄、數據大咖及愛好者社群、線上線下「數據俠實驗室」系列活動等項目。

+ 投稿:chengyixiang@dtcj.com

+ 合作:zhaonan@dtcj.com

+ 入群請加DT君微信:dtcaijing002

推薦閱讀:

創造互聯網奇蹟的微博,還會遭遇哪些局部戰爭?
如何評價微博博主 你的書架?
土木三班陳同學只是一場營銷么?
對於鞠婧禕多次被跑男事件刷上微博熱搜網民卻天真的一次又一次的去相信並開啟了噴子模式這件事要怎麼看?

TAG:微博 | 数据可视化 | 长三角 |