空間數據挖掘與普通數據挖掘的區別?


你這個問題有點大,要是真正能說明白除非是論文級別的文章,在此我思路還沒成型只說大致的思想吧。

目前我理解你說的普通數據挖掘術語叫DMKD,而空間數據挖掘是SDMKD,首先SDMKD的目的是提取隱含的空間特徵,規則,概要關係及摘要數據特徵等,我們GIS的研究方向主要是關於地球空間信息科學的空間關聯規則等知識的挖掘,SDMKD的具體研究方向又分很多,比如空間聚類,空間關聯,空間特徵,空間分類等。

SDMKD是DMKD的學科分支,DMKD研究的對象一般是常規資料庫(商業資料庫),一般是指事務相關係的數據,粒度為交易事務。而SDMKD研究對象是空間關係的資料庫或數據倉庫,存儲的是空間對象,規則,屬性等,主要數據模型為點,線,面。

SDMKD的實現手段和方法,這個多了去了,不可能詳細介紹,應用到的技術主要有,概率學,空間統計學,規則歸納,聚類分析,空間分析,模糊集,雲理論,可視化,遺傳演算法等等吧。

如果想進一步研究和學習空間挖掘建議首先找好方向挖掘那一部分知識,然後再找實現方法,初級的先找找相關資料和論文。


最簡單的區別是,空間數據挖掘有經緯度或延伸信息,(如興趣點信息POI),一般我習慣叫GPS數據挖掘。這種數據挖掘難度會低一點,因為一個人或者一部車的移動模式是具有很強的規律性和時間模式的(計程車除外),有興趣的可以看GIS-spatial的文章和GIS-KDD的文章。


作為困擾了自己大半年的問題,隨便說一點

首先,空間數據挖掘以空間為主體,現行空間表達基本上含經緯度,不可分的的兩個double型變數。於是就有個很好的東西叫geohash先把這兩個東西搞成一個東西。然後呢,好了,點我們處理完了,然後是線和面(對不起這一部分我沒想清楚呢請別打我)。因為沒想清楚所以我所有的數據都是手工做的(Postgis),雖然數據量大但是沒辦法。

如果我們開發APP大家更關心的是POI,但是我一直覺得POI的point的定義是相對的,所以……又陷入混沌

不過,如果你不需要考慮POI也是面的問題,這樣問題就簡單多了。唯一要關注的就是怎麼讓geohash的誤差變的小一點。

至於其他,和普通數據挖掘沒什麼區別了。

——————————————分割線————————————————————

佔個坑,等我想明白了繼續更,希望那時候我已經畢業了。


佔個坑等更。。。一句話說的話就是spatial is special :)


現在常見的是將空間數據轉換成well known text, 把空間數據存儲在裡面。Well-known text


推薦閱讀:

如何製作網站數據分析漏斗圖?
如何進行網站分析?
數據分析/商業智能對數學的要求很高嗎?普通二本計算機專業可以發展嗎?
Google trends、Alexa 和 Compete 哪個分析數據最權威?
SimilarWeb 的流量依據是來源於哪裡?準確度如何?

TAG:數據挖掘 | 網站分析 | GIS地理信息系統 | 地理信息 | 空間分析 |