Geocoding系列:(一)中國地理編碼為何遭遇「不可描述」的困境?

編者註:Geocoding是基於空間定位技術的一種編碼方法,它提供了一種把描述成地址的地理位置信息轉換成可以被用於GIS(地理信息系統)的地理坐標的方式。

最近為了Geocoding焦頭爛額,所以打算就Geocoding這個專題分幾次詳細說說。

(一)Geocoding的歷史沿革以及中國Geocoding的困境

Geocoding的歷史沿革

最早的Geocoding系統可以追溯到60年代,那時候只能從標準郵政地址和建築物名稱轉換為地理區域的數字編號。

而現代Geocoding可以處理道路交叉口,各層級的行政區劃,郵政編碼,地標甚至由自然語言描述的位置信息。輸出也不光是一個點,還可以是多邊形、3D模型,甚至還有了室內3D Geocoding。

這些變化的產生與技術的進步是分不開的。

早期時候由於缺乏數字化的地理信息,只能依據純文本信息得出精度很低的非地理信息。後來有了數字化的地理信息之後才有了真正意義上的地理編碼。之後又出現了基於向量的地理數據,由此產生了新一代的基於差值的Geocoding近似演算法,使得Geocoding的精度大大提升。近來還出現了預編碼的的國家地址庫以及高精度的數字化地址單元和輪廓數據,使得Geocoding返回的信息愈發精確。

而Geocoding使用場景的增多,也催生了各種新問題的產生。如Geocoding輸出應該採用何種形式?中心點應該如何決定?是面積的中心還是根據人口加權平均?對於不同地理層級和類型的處理是否應該採取相同的策略?越來越多不同地理系統的產生,也使得Geocoding難以有一個統一的策略處理所有情況。

Geocoding的基本組成

最基本的部件自然是輸入、輸出和處理演算法。其中處理演算法可以細分為地址標準化和匹配地址庫。

標準化是指將輸入轉換為與標準地址庫相同的格式以便於匹配演算法可以選取出最優解。其核心是決定輸入的每個部分都對應於何種地址元素。最簡單的標準化處理就是依序查表。而複雜的標準化還可以通過各種複雜的機器學習手段處理各種輸入錯誤和順序錯亂的問題。

匹配演算法即是從地址庫中選出與輸入最契合的一項。最簡單的就是嚴格匹配每種屬性。當然這樣會出現很多無法匹配的情況,這時候就需要放寬匹配條件,並需要一些演算法來打分決定哪個是最優匹配。

而根據地址庫的不同,輸出步驟也不盡相同。如果是預編譯的地址庫(即所有地址都已經標好了坐標或其他需要返回的地址信息)則直接返回即可。而如果地址庫是基於線段的(如TIGER)則還需要插值演算法估計出坐標。

中國Geocoding現狀

中國作為一個發展中國家,最大的問題是數據的缺失。中國大部分地區的城市規劃和地址管理都很混亂,道路名稱五花八門多有重複,樓棟號碼分配也很隨意。導致地址的查詢和定位都很困難。國外通常在城市規劃時就把地址管理考慮在其中,如紐約道路名稱本身就帶指向性,南北走向為道(Avenue),東西走向為街(Street),道路名稱幾乎都是數字非常明確如第五大道。對於門牌號和郵政編碼的重視也已成為其文化的一部分。如唐寧街10號、貝克街211號其門牌號本身就膾炙人口。下圖是一些地區的常用地址模型。

而中國缺乏一個統一的地址模型,不同機構收集的地址格式都各不相同。與歐美最大的差異可能就是人們說一個地址時通常說的是地點名稱,而門牌號碼等信息只不過是輔助定位,有時候甚至不說。群眾填寫地址的時候也沒有統一標準,有的時候寫行政區劃有的時候不寫,有的時候寫詳細門牌有的時候不寫。還有小區名、商圈名等等可寫可不寫的元素。而由於中文的複雜性,不同的人描述同一個目標也經常用不同的方式,同樣層級的地址信息也可能有很多種命名方式。就連看似最簡單的門牌號碼,也有1號門、2號院、甲3號、4b號、a棟、b座、c區等各種各樣的形式。而且由於中國地址的混亂導致人們經常習慣於添加一些描述性信息以解釋具體地址。如什麼地方附近、對面、以南多少米,更增加了處理難度。

幾個典型的例子

  1. 北京市朝陽外國語學校 <- 名稱中包含行政區劃北京市大興區青雲店 <- 名字很像POI的鎮

  2. 北京市昌平區北七家鎮政府斜對面博發賓館對面山西麵食館 <- 一層套一層的描述性信息

  3. 北京市大興區黃村鎮雙高花園小區(高米店北里)南門老年活動中心一層北京創興房地產經紀有限公司(雙高路) <- 無法劃重點,你這麼能咋不上天呢

  4. 諸如此類比比皆是,而且上述地址居然無一例外全無門牌號碼。這還是堂堂首都北京的地址,放眼全國簡直無法可想。

不僅如此,中文本身其複雜度也遠遠超過英文等字母語言,由於中文本身沒有分隔符,所以第一要務還需分詞。中文自然語言處理一直是一個難題,Geocoding第一步就是標準化,而標準化的第一步就是Tokenization,正可謂當頭一棒。再加上中文地址模式之混亂,干擾冗餘信息之繁雜,想要正確的辨識出每個地址的組成部分,並剔除無關信息更是難上加難。對此如何應對現在已有不少相關研究,在以後的專題中會詳細介紹。

下期預告,美國幾種主流Geocoding解決方案介紹(臨)<-

Reference

[1] From Text to Geographic Coordinates: The current States of Geocoding. Daniel W. Goldberg, John P. Wilson, and Craig A. Knoblock.

[2] Using an Optimized Chinese Address Matching Method to Develop a Geocoding Service: A Case Study of Shenzhen, China. Qin Tian, Fu Ren, Tao Hu, Jiangtao Liu, Ruichang Li and Qingyun Du.

[3] A New Method of Chinese Address Extraction Based on Address Tree Model KANG Mengjun, DU Qingyun, WANG Mingjun.

文∣cottonty

原文鏈接:Geocoding系列:(一)Geocoding的歷史沿革以及中國Geocoding的困境


推薦閱讀:

中國第一高瀑 落差240米,位於大鄣山卧龍谷
現代地理學開山之父---亞歷山大·馮·洪堡(Alexander von Humboldt)的傳奇一生【中英字幕】【KBP字幕組】
隋唐攻下彈丸之國竟用了100年,高句麗有多難打?
寧夏最窮市還有希望么?地球知識局

TAG:地理 | 地图 | 数据分析 |