我們編了概念,叫「城市影像研究」

第一次寫知乎的專欄,還是自己厚著臉皮開的。

想來寫什麼比較好呢?考慮到很多人問我們幾個人到底想做什麼,於是在開篇就介紹一下關於這個問題我那算不上答案的思考吧。我們想做基於「城市影像研究」的東西,有產品、有諮詢、有技術服務輸出。我們在嘗試,有側重,但離不開這個概念。

我們是一個來自於MIT和Harvard的小團隊。大家的專業背景各不相同,又各有側重。有計算機人工智慧領域、地理信息系統、城市規劃(現在叫城鄉規劃)、以及建築學等多重不同背景的人在一起。這種「跨界」的融合,不僅在團隊的組成上,關注到個人層面,這種融合亦非常明顯:搞設計的在寫前端,搞GIS的在train CNN,做城市設計的在data mining。儘管我們每個人都有自身的能力邊界,但沒有囿於所謂的「學科邊界」。

從Startup的角度考慮,我們團隊自身的強處在於LBS數據和人工智慧圖像分析的兩大領域,而當兩者結合在一起時,方為我們最獨特的優勢。自2013年我與博磊初次合作開始,我們就模模糊糊的在這個另闢的道路中摸索起來。期間經歷了C-IMAGE, 城市街景風貌研究,以及StreeTalk的城市感知研究,包括一直到現在思考全新產品的研發,一路上我們始終在堅持做自己認為有意義、有價值的工作。有生之年干一些牛X的事情,是我們當前不變的追求。

這個時代普遍在強調「跨界合作」的重要性,而所謂的跨界其實分兩種:其一為將不同專業領領域的專家撮合在一起組成團隊,其二為團隊成員自身具有多方面的知識技能,各有側重互補。前者的合作模式較為傳統,而後者則是依託這個信息時代的便利方才促成的合作形式。正因如此,團隊之間合作溝通也才會更為順暢,idea也更容易從各類角度迸發。說句題外話,我並不care「領域」這個概念,過去人們之所以強調專業領域,本質上是局限於壽命、時間的短暫,而如今我們的人均壽命提高了不少,甚至現在的八零後估計連退休都要遲個5-10年吧?外加信息知識的爆炸,讓每個人生命的濃度得到了極大的提升可能性。身邊的很多朋友表達了對於碼農的羨慕,其實coding這種東西應該算是最開放的知識技能了,琳琅滿目的open course充斥在我們周圍,可以豐盈每一個想要改變的人。所以,「領域」的作用可能並不是讓自己更好的專註於某件事,而很可能是影響和縮窄自己的格局的假想枷鎖。

城市影像大數據就是我們團隊今日今時在思考、求索的重點。這或許也是基於我之前的一大堆關於大數據的雜七雜八的工作加以總結得出的一個小總結吧。

提起「大數據」,在我看來主要可以分為三大類型。

1) 分布類信息

該類數據主要指獨立的個體信息數據,即指在特定時空內某一客觀特徵基於大量樣本採集之後呈現的空間分布,且研究對象可人可物。分布信息是開展城市研究的基礎,為後兩種信息的發展奠定了基礎,並提供對照。分布類型數據是大數據之於城市研究的基礎。簽到信息、手機信令、公交卡數據、計程車軌跡數據、TD數據。

比如這VIIRS,包括橡樹嶺實驗室出名的landscan都是不錯的點陣圖數據源。顯然這也屬於分布類數據,可在一定程度上顯現各類空間地域的尺度規模等。

又比如POI的信息,以前可以用某寶來購買,之後又有童鞋直接po抓取工具包。總之,這類數據均為非常直接的分布類數據。

亦或者較為複雜一些的房價數據,比如之前曾經抓取過的安居客的房源信息數據。可以包含各類樓盤的價位、年代、以及相關的物業信息等等。

2) 遷移類信息

而當分布信息加入時間維度後,即轉而變為遷移信息。儘管稱作「遷移」,但該信息並不特指人。理論上,凡是分布信息均可增設時間維度,地產價格的演變等也屬於該範疇。遷移信息的作用通常是反映城市空間聯繫度。該類研究在目前來看最具有市場價值與普及使用價值。遙感信息、地產信息、軌跡分布、簽到信息、各類地圖poi信息等。

遷移類信息的case就很多了。比如學界經常提及的時空行為數據研究,而在城市監理方面比較突出的有基於LBS的城市實時監控,再有甚者就是用過時空行為所限定出來的用戶畫像,因為抽取的用戶畫像具有極高的商業價值。之前的一些工作在這幾個方面均有涉及,比如利用微博的聯繫度觀察城市空間的地區的結構、又比如通過LBS數據去限定特定人群的行為特性等。

比如上面的兩張早在「遠古時期」鄙人利用微博簽到數據獲得的城市流動網路數據。無論是左邊的南京江北新區還是右側的長沙市,這類關聯網路對於城市空間聯繫緊密程度具有一定程度的指導作用。

又比如這圖。這張我放過很多次,不過幾乎沒有解釋過它具體是啥,今天就多說兩句吧。此圖是我2013年7月在紐約大都會交通運輸署用Processing繪製的。圖中的數據是紐約公共交通每天800萬刷卡記錄(AFC MetroCard)累積一年的數據(總量大約在24億)。不過此圖我應該是隨機抽樣了一把再計算的,原始數據量估計Procssing是吃不消的(具體抽樣多少我還真忘記了,人老了看來)。底下的橫坐標代表不同的車站,而上面的連線則代表著不同的車站間乘客的進出數量。不同顏色的線呢,則表示不同的交通卡種類(單次卡、月卡、周卡、學生卡、老人卡等)。不難發現左邊那個半圓比較濃密,右邊有個小半圓。這是因為左邊那個半圓下面覆蓋的區域是地鐵站點,而右邊那個則是公交車,可見兩者之間的換乘情況遠不及地鐵內解決交通來的方便。而曼哈頓比較有意思的一點在於,本島大部分的地鐵線路基本是南北向連接,而比較窄的東西方向連接基本靠地面公交,多數情況下大量的連接都是首先從某個 street 往南或者往北去往另一個street,然後出站後再走一兩條 avenue 到達目的地,不過事實上在曼哈頓橫跨幾條大道其實是需要一定體力的。其實上圖也可以放大看,順帶提一句,紐約的這類數據其實都是開放的。

【城室科技】Boston Taxi (波士頓出租流動)—在線播放—優酷網,視頻高清在線觀看 http://v.youku.com/v_show/id_XMjUyNDQyNjU3Mg==.html#paction

又比如「上古時期」和博磊參加的一個波士頓計程車流動數據可視化的競賽中,我們採用了再當時還非常先進的D3完成的可視化作品。

3) 評價類信息

接下來才是真正的重點。在分布信息中,將客觀信息替換為主觀評價類信息,該信息則轉變為大評價信息。它與大分布信息的區別在於以人為本的出發點,反映了個人對於城市空間的認知與感受。考慮到不同的個體對於城市客體會產生主觀的價值判斷,因此這類信息的複雜度最高,但同時挖掘潛力也最大。點評打分信息、語義評價信息、城市視覺意象信息分析。

上面這張圖可能是我開始搞城市影像研究這等孽緣的開端。2013年當我還年少無知的時候抱著一堆抓取的Panoramio數據期望可以靠他們完成畢業論文的時候,卻遭到趙錦華老師的「無情打擊」(其實後來還是非常感謝他的激勵)。他當時跟我說你這些數據都是圖片,最好必須要知道圖片的內容才能更有價值。於是我卯足幹勁去倒騰才發現當時的自己要想干成圖像識別簡直是痴人說夢。直到後來經歷了3次輾轉介紹,我才認識了今天的合伙人博磊童鞋。於是在那時候開始我倆採購了一台組裝機作為兩人的工作站,我負責挖數據,他負責處理識別並輸出給我用以後面的地理位置分析。長這麼大第一次和碼農一起通過寫代碼的方式合作,還是一個挺不錯的經歷。當時還是天真無知的我隨口問了句,「這個識別的能力叫啥?" "叫深度學習",「我去,這名氣也忒土了吧。。。」我心想,然後很快就不記得這貨了。直到2015年我開始慢慢又從博磊那裡求指導的自己開始訓練模型跑神經網路開始,我才慢慢了解CNN這些個玩意兒。再後來,當初只憑個人興趣喜好學習的這一領域搖身成為了最為火爆的行業,也換了個口號:人工智慧。(儘管這並非真正的人工智慧,我們離人工智慧還早呢,這個話題下回另說)

關於這個新城市意象的內容,具體可以看這兩篇Paper:

Liu, L., Zhou, B., Zhao, J., & Ryan, B. D. (2016). C-IMAGE: city cognitive mapping through geo-tagged photos. GeoJournal, 81(6), 817-861.

ZHOU B, LIU L, OLIVA A et al. Recognizing City Identity via Attribute Analysis of Geo-tagged Images[G]//Computer Vision–ECCV 2014. Springer, 2014: 519–534.

還有一篇不成文的我自己放在了網上,哪位好心編輯樂於認領可煩勞告知一聲:)

新城市意象 - 城室 | CITORY

當然評價類信息也不都需要人工智慧,除了語義分析和圖像分析,還有一種最簡單的基於打分的評價類信息,比如用大眾點評的評價後POI來做研究。上面這張圖的我的文章還沒正式po,就放著看看罷了,有機會再聊。

OK,扯這麼多,其實我最想說的是,這三類信息的價值是不一樣的,我們來比一比。

話說,能看到這裡的都是好童鞋啊~~~所以下面要說的點才是我最在意的point,儘管很簡單。

還記得左邊三個小圖案分別是什麼類型么?從上到下依次是分布類信息、遷移類信息、以及評價類信息。

從獲取難度來講,分布與評價信息的獲取門檻均不高,起碼有不少開放數據。而遷移類數據因為涉及到用戶隱私以及巨頭的獨佔問題,導致除非與BAT,或者運營商的合作,否則連練手接觸的機會都不會很多。

從實用角度來看呢,分布類信息幾乎沒有很多價值,因為它就描述了一個靜態的分布。而遷移類信息在今天是當紅辣子雞。用遷移分析流、再從流轉換到勢能、到聯繫緊密度,再到空間聚類。。。一些列的方法論大軍正撲面而來。但其實評價類信息的價值也非常高,只以為四個字「以人為本」。另外多說一句,並不是說搞圖像研究、街景識別都是評價類信息研究,比如之前的用街景尋找街邊攤的case,其實是一個分布信息研究,但之後做的名為StreeTalk的城市感知地圖,則是評價類信息研究,因為每一個打分其實都試圖反映人與空間的感知關係。

重點是,評價類信息往往捉摸不定,而且分析困難,因為這類信息大量的都是文字與圖像信息,屬於最難理解與被定量化研究的部分。但所幸這一波人工智慧浪潮的核心技術CNN這種高位特徵抽取效果非常好的網路可以很有效的理解人的部分高階腦活動(視覺、語言)。換言之,評價類信息高高在上的門檻正在被逐步瓦解!

所以我的判斷是,在遷移類信息發展到一定成熟階段之後,也該是評價類信息出風頭的時候了:)這也是為何我們選擇城市影響大數據作為我們核心工作內容的深層原因。(終於給我兜回來點題了。。。)

最後借朋友拍的一張圖,自己給自己喝碗雞湯。不知不覺都快早上8點了。。。睡覺去也。。。


推薦閱讀:

TAG:人工智能 | 城市设计 | 大数据 |