Geocoding系列:(二)關於路的一百種錯誤假設

上次我們提到了Geocoding的歷史沿革以及中國Geocoding的困境,今天我們把視角具體到「道路」這一小部分上來,深入體味一下Geocoding的無奈之處。

如果不用全文匹配來Geocoding,大概就要想辦法區分出地址名稱的各個組成部分。雖然可以用如CRF之類的統計模型進行標註,但標註結果往往有很多錯誤還需要一些後處理糾正,這就未免要對地址的各個組成部分作出各種假設。比如道路的結尾一定帶有 「路」, 「街」, 「道」, 「弄」 之類有特點的詞。有了這個想法之後,我就去把庫里所有道路的最後一個字統計了一下,想著就算有其他的字,應該也不會很多,說不定還是誤標,正好可以糾正一下錯誤。

然而,有夢是好事,可惜不現實。

這個統計浩浩蕩蕩出了350多個尾字。

首先映入眼帘的就是各種數字。點進去一看原來都是各種高速公路省道國道,好像很正常。嗯?這是啥——「農開路1」,還有「農開路2」,「農開路3」,「農開路4」,這怎麼看都是不小心把門牌號混到路里了吧!興沖沖的把這些「農開路」加到勘誤列表裡。不過還是順手百度了一番。

驚?!真的是不同的幾條路?這要怎麼區分這些數字是路還是門牌號呢……

繼續往下看,還發現了「東西南北」這種尾字。點進去看看發現都是各種「路東路西路南路北」。呃,難道不應該是「東路西路南路北路」?不會是從路東300米的路東提取出來的提取錯了吧。隨便找一個搜一下。

看來中國不同地域的語言習慣真是頗有不同,是我大驚小怪了。

接下來發現了「市」結尾的。

蘇州市平江區西中市

沒毛病,這些是當年的街市啊,所以以「市」結尾的可不光有城市,還要可能是大馬路!

繼續往下看,這回看到了個了不得的,「高家酒館」!你打死我也不信這是個路啊哈哈哈看我給他加入勘誤列表!

.......江蘇省南京市鼓樓區高家酒館

對不起,我選擇死亡。

好吧我們繼續,「商業大院」?

河南省開封市鼓樓區商業大院

可達鴨眉頭一皺發現事情並不簡單……

果然其實以院結尾的還有不少,如, 湖北省武漢市武昌區讀書院。

這些過去可能是大戶人家的庭院,後來開放給了老百姓之後院子里的路就變成公共道路了。

還有很多當年的村鎮窯場,後來併入城市之後直接用當地地名作道路名的,如北京市丰台區白盆窯。

還有很多以附近著名建築或景觀命名的。比如「大鐘寺」,「天地壇」,「五嶽廟門」,「鼓樓後」等等。

福建省南平市建甌市鼓樓後。

此外,還有一些奇怪的名字,是根據殖民時期外國人起的路名而來的譯名。比如, 澳門亞馬...喇...土腰??,不過現在已經被叫做關閘馬路了。

這麼一圈看下來,如果你問我有什麼感受——請看我絕望的眼神 ?_?

中國地址實在有太多規律之外的東西,中國各地的習慣風俗差異大,命名習慣大有不同,再加上各種文化歷史原因,讓很多本來不是路的地方變成了路,而地名卻可能一直沿用下來。如果這些地名後面可以加個「路」、「街」之類的字樣,標註就是一件很幸福的事了。很多路名連人看見都得去查一查這到底是一個路還是一個地點還是一個方位描述?不同語境下指代還可能不同,你讓機器怎麼識別呢?

看來這CRF神教怕不是要亡了,還是弄個詞典來吧 ??

最後來看下庫里所有路名後綴前20名排行榜吧,有些路名真的是讓人驚喜又意外呢~

文∣cottonty

對我們感興趣?GeoHey最近在招募對大數據感興趣的專業人才,實習和正職都想兼得,詳細請戳GeoHey-招賢納士


推薦閱讀:

且共東風從容──蒸汽船擴散的長期影響
交通政策雜談:如何給公路收費
中國十大最美公路

TAG:地理 | 地图 | 交通 |