機器學習在地理學、地理信息、遙感、環境等學科中有何用途嗎?

最近再猶豫要不要深入學習機器學習,我的dream研究領域是地理信息,不知是否有人知道如何將機器學習和數據挖掘、甚至神經網路和深度學習等應用到地理信息科學中?


當然有用。我是做遙感的,遙感領域最基本的技術:圖像分類實際上就是機器學習的一種主要應用。很多研究遙感演算法的人所做最主要的事情就是開發新的方法來更快更準確且更有效的進行圖像分類。

GIS方面我了解的不多,但是因為我平時也需要用而且身邊也有不少同事和朋友是做GIS的,我個人的感覺是GIS對機器學習的需求更大,也更多樣。因為GIS的本質就是從空間數據中提取有用的信息,而空間數據本身種類繁多數據量巨大(比如現在各種社交網路上帶有空間信息的數據),所以需要各種機器學習方法來最有效的達到這個目的。

4/20/16 更新

剛好3SNews最近發了這篇文章(遙感未來——從機器學習中掘金),轉發如下

遙感未來——從機器學習中掘金 (作者:唐思佳)

未來:看機器學習如何撬動遙感影像市場

Facebook,此前幾乎沒人會把這個名字和地圖聯繫起來。他們讓我們意識到,人類在描繪世界的道路上正步入一個全新的領域,在這個領域中,地圖將與機器學習演算法聯姻。

從工程測繪到衛星遙感,從街景車到眾包地圖,我們描繪世界的方式在不斷變革,這是生活在這個星球的人們一直以來探尋的,認識自己賴以生存的世界的手段。

日前,一家公司發布了史上最精細人口密度地圖,這家公司的名字是Facebook——此前幾乎沒人會把這個名字和地圖聯繫起來。他們讓我們意識到,人類在描繪世界的道路上正步入一個全新的領域,在這個領域中,地圖將與機器學習演算法聯姻。

數據——精準分析的源泉

去年,聯合國發布了於2030年在世界範圍內根除貧困的發展議程目標。然而數據的匱乏卻使之難以量化與這個目標的實際距離,世界發展狀況的真實數據對它來說變得至關重要。


實上,直到今天,各國政府在經濟普查中依然沿用著上個世紀的「土辦法」,即地面地毯式數據統計,這樣的方法效率低、迭代周期長。在這個數據驅動的世界,是
否有一種手段能夠繪製出人類的發展現狀和軌跡?來自斯坦福大學的科研團隊提出了一個更好的辦法,那就是綜合利用深度學習和衛星影像進行貧困統計建模。


器學習專家斯特凡諾·俄曼(Stefano Ermon),聯合地球科學專家大衛·羅貝爾(David Lobell
),加上斯坦福大學工程系的幾個學生,組成了這支研究團隊,他們試圖將谷歌地球的衛星圖像數據轉換成貧困統計模型。「我們希望終結極端貧困,但我們需要一
個量化的方法告訴我們貧困是否在改善。」俄曼表示,對於南非、南亞等極度貧困地區,放映當地貧困狀況的真實數據往往是稀缺的。「我們拿到的關於南非的最近
的數據竟然是20年前的,所以我們正對90年代早期南非發展狀況進行分析」俄曼說,「我們對於數據的需求真的太迫切了。」

左圖:基於10km*10km的細粒地圖網格數據的貧困概率預測;中圖:基於區域級別的貧困概率預測;右圖:2005年的真實普查結果對比

利用英偉達生產的GPU,這個團隊訓練了一個神經網路,通過衛星採集到的公路、農田以及住房等影響,能夠準確預測當地的貧困程度。這項技術獲得了英偉達2016全球最具影響力技術大獎提名的殊榮。

衛星影像和機器學習模型結合


力應用以及夜間照明是現代社會評估經濟實力的一項重要指標。夜間的人造光源匱乏,被認為是地區相對貧困的一個信號。在這個前提下,使用機器學習演算法將這些
衛星數據與利用傳統方式收集的貧困數據結合,能夠產生一些有趣的關聯模型,基於衛星影像更高效地識別貧困區域成為了可能。

傳統的深度學習解決方案需要一系列用於訓練的數據集。但受限於有限的數據量,斯坦福大學的這家研究團隊想出了遷移學習方法來完成計算模型。具體實現過程如下。

首先,利用谷歌地球和谷歌靜態圖像,同時獲取同一區域的晝夜間情況。傳統的貧困圖像模型使用夜間的燈光密度作為經濟活躍度的指標。而通過同時使用晝間、夜間的衛星圖像,這個機器學習模型就可以從未標記的數據集(例如公路、農田以及水體等)中分辨出有用的標示貧困的晝間特性。

「通常情況下,我們提供基於區域晝間、夜間衛星圖像的深度學習系統,並利用該系統對貧困區域做出預測,」俄曼說,「這個系統會通過比對兩組衛星圖像進行深度學習,並解決這個問題。」

左圖:每一行顯示了神經網路中的5組最大活躍度圖像(分別為城區,農田以及網格狀區域,公路,水體和平原,以及森林);右圖:經過過濾器篩選出的左圖的對應影像點

目前,團隊已經擁有了自己的數據分析平台,能夠自動通過簡易數據生成貧困地圖——「我們需要的只是圖像而已」俄曼表示。這種計算模型開啟了機器學習與衛星圖像結合的新時代,即在空間和時間的維度上獲得史無前例的對於世界的更好理解。

斯坦福大學研究人員使用機器學習演算法比較非洲夜間照明(電力與經濟活力之間存在正向相關性)和晝間公路、城區、水體、農田的衛星圖像

未來:遙感影像應用的全新模式

Facebook
已經向世人證明了機器學習在拓展遙感領域應用上發揮的重要作用。訓練計算機基於訓練樣本劃分不同區域,在圖像處理領域是一項由來已久的技術。然而由於其計
算成本的昂貴,直到今天也沒能在全球範圍內形成規模。機器學習和深度學習正在使這種技術在全球普及化成為可能,將衛星遙感的應用推向前所未有的新高度。

學者們相信,這種基於機器學習的模式終將取代傳統的費時費力的數據普查工作。這是一次不可想像的飛躍,完全可以替代老舊的調查方式,高效、可擴展,而且準確得讓人吃驚,更漂亮的是,它能隨著時間和增長的數據自主進化。

目前,源數據不足是阻礙研究進行的一個重要因素。當下,對於貧困地區,衛星只能做到點覆蓋。而系統需要更詳細、更多頻次的數據作為分析的原材料,才能更精確地通過機器學習預測貧困地區的興衰。好在這個問題很快就能得到解決,或者基本上解決。

斯坦福的學者們還在想辦法擴展到更多的領域,例如利用手機的活動狀況作為基本數據進行更為細緻準確的調查。隨著行動電話在貧困地區的爆發性增長,這些數據將會成為非常精準的數據源。

羅貝爾說,只有嘗試,我們才能獲得答案。機器學習之美,在於機器善於在千萬個選項中找到最優解,這是人類無法企及的。


因為和我的研究方向相符,第一次在知乎認真回答問題。

首先簡短回答: 有用!!!!而且用處很大!!!!

作為一個研究機器學習、深度學習的GIS背景的遙感研究生,我目前致力於機器學習、深度學習在遙感圖像預處理演算法以及圖像分類和目標識別上的應用。

@Tony Chen 對機器學習在遙感和地理信息科學的前景展望總結的很好,現在我就機器學習在傳統地學、 定量遙感、 遙感圖像分類與目標識別這三塊的研究案例再逐一回答一下。

↓ ↓機器學習在地學和定量遙感↓ ↓ ↓

首先說說我通過閱讀文獻了解的機器學習在地學領域的應用情況。地學泛指地理學和地質學,地學有別於物理和數學,是一門半定量半定性的學科,而機器學習作為應用統計學的延伸,非常適合在地學的應用。

  • 地理學領域典型案例

比較典型的一個案例是地理學牛人朱阿興(目前應該供職於南師大地理科學學院)在2002年左右在美國威斯康星大學任教時做的一個全美土壤調查(土壤製圖)的項目,他利用機器學習演算法制定的土壤分類系統獲取的土壤類型數據質量優於美國當時人工採樣方法獲得的數據,他的這套方法體系被有關部門(美國農業部)採納為國家標準,他本人也受邀到國會演講(p.s. 這是他上課和我們吹牛逼說的,哈哈)。下面說說朱阿興是如何將機器學習的方法早在2000年前後就應用到土壤調查中的。

大家都知道,機器學習分為監督學習和無監督學習,對於監督學習,需要大量的訓練樣本來尋找數據中的統計規律,來實現對數據的分類、預測等任務。而地學數據的採集比如土壤類型數據的採集是很費時燒錢的,採集足量的訓練數據不現實,那怎麼辦?通常訓練數據過少會通過樣本擴增 (Data Augmentation) 的手段去增加樣本,但是朱和他的團隊通過尋找少量且具有地統計學意義的樣本去訓練機器學習演算法(採樣策略),這就是朱的聰明之處,他一直強調計算機領域的技術作為地學研究的工具使用,我們擅長的是專業知識和空間數據的採集和分析,不能用自己的短處和計算機領域人才的長處比。

困擾著朱阿興的另一個問題是訓練數據特徵的選擇(Feature Selection)。大家都知道,機器學習中一個關鍵問題就是特徵選擇,特徵可以理解為統計學中的變數。我們設想一下,土壤類型的分布和哪些變數有關呢?我們可以順口說出幾個,比如高程、經度、維度、氣候類型、植物功能類型(Plant Functional Type) 等等...但是這些變數是影響土壤類型分布最重要的變數嗎?顯然不是。那怎麼辦?尋找土壤學的專家,聽聽他們的建議!這是朱阿興又一個聰明之處

這裡列出幾篇朱的相關文獻,供大家深入了解阿興的這個課題,一起探討。p.s. 朱阿興使用的機器學習演算法包括非常簡單的監督學習KNN演算法(懶惰學習,lazzy learning)、經典的人工神經網路方法、歸納學習(inductive learning)以及地學中常用的模糊邏輯方法。

朱的土壤製圖相關文獻選列(按時間順序):

Zhu A, Band L E. A Knowledge-Based Approach to Data Integration for Soil Mapping[J]. Canadian Journal of Remote Sensing, 1994, 20(4):408-418.

Zhu A X. Measuring uncertainty in class assignment for natural resource maps under fuzzy logic[J]. Photogrammetric Engineering Remote Sensing, 1997, 63(10):1195-1202.

Zhu A X. Mapping soil landscape as spatial continua: the neural network approach.[J]. Water Resources Research, 2000, 36(3):663-677.

Zhu, A. X, Hudson, B, Burt, J, et al. Soil mapping using GIS, expert knowledge, and fuzzy logic.[J]. Soil Science Society of America Journal, 2001, 65(5):1463--1472.

Zhu A. Knowledge discovery from soil maps using inductive learning[J]. International Journal of Geographical Information Science, 2003, 17(8):771-795.

  • 地質學領域案例

泥石流(debris flow)災害是山區常見的地質災害類型。泥石流的形成過程分為初始化(terrain failure)、流動、沉積三個階段。泥石流形成過程的模擬是泥石流研究的一個重要課題。泥石流的模擬可以基於物理模型的方法和數據驅動(統計)的方法,而機器學習可以很好的引入,因為機器學習本質上就是應用統計學的延伸。下面列舉幾篇基於數據驅動的滑坡、泥石流敏感性分析( susceptibility )的文獻,這個領域相對比較新,大有可為啊。這方面文獻不要看CSCD的,都在選一套指標瞎扯淡(碰巧有一篇朱阿興在2014年的文獻,很佩服這傢伙!哈哈):

Lancaster S T, Nolin A W, Copeland E A, et al. Periglacial debris-flow initiation and susceptibility and glacier recession from imagery, airborne LiDAR, and ground-based mapping[J]. Geosphere, 2012, 8(8):417-430. (這是一篇冰緣泥石流的文章,老外的文章側重野外調查和論證)

Zhu A X, Wang R, Qiao J, et al. An expert knowledge-based approach to landslide susceptibility mapping using GIS and fuzzy logic[J]. Geomorphology, 2014, 214(214):128–138.(阿興的文章,一套方法讓他玩了20年,一旦做出一些有價值的東西,學術生涯從此順風順水啊,哈哈)

Shi M, Chen J, Song Y, et al. Assessing debris flow susceptibility in Heshigten Banner, Inner Mongolia, China, using principal component analysis and an improved fuzzy C -means algorithm[J]. Bulletin of Engineering Geology and the Environment, 2016, 75(3):909-922.(中國人寫的,喜歡搞方法的改進,中國人聰明嘛,但是感覺文章沒有啥價值)

  • 定量遙感領域典型案例

定量遙感或稱遙感量化遙感研究,主要指從對地觀測電磁波信號中定量提取地表參數的技術和方法研究,區別於僅依靠經驗判讀的定性識別地物的方法。(摘自搜狗百科)

之所以把定量遙感放在地學裡面去講,主要是因為定量遙感(特別是陸面遙感,不排除大氣遙感、海洋遙感)就是用半定性、半定量的手段去反演(咳咳咳...定量遙感領域的人喜歡用反演這個詞,聽著怪嚇人,實際上就是信息提取的意思)地表的關鍵參數的方法。

以我們研究所領先的雪冰遙感為例來說說機器學習在定量遙感中能做什麼。前面已經提到,定量遙感(陸面)就是用來提取關鍵地表參數,對於雪冰遙感來說,重要的地表參數包括雪水當量、雪深、雪的波譜反射特性等等。我的一個同學碩士論文就是做基於機器學習的雪深反演,在去年年底的開題答辯上被評委專家誇獎了一番呢!下面是兩篇機器學習在雪冰遙感的文章,這方面文章好像比較新呢,也是大有可為啊:

Buckingham D, Skalka C, Bongard J. Inductive machine learning for improved estimation of catchment-scale snow water equivalent[J]. Journal of Hydrology, 2015, 524:311-325.

Oroza C A, Zheng Z, Glaser S D, et al. Optimizing embedded sensor network design for catchment‐scale snow‐depth estimation using LiDAR and machine learning[J]. Water Resources Research, 2016.

另外附上我們研究所雪冰遙感的專家車濤老師的一篇翻譯論著:

雪冰遙感 (英)里斯|譯者:車濤//高峰

↑ ↑機器學習在地學和定量遙感↑ ↑ ↑

前面介紹的機器學習在地學和定量遙感領域的研究是我通過課程學習、文獻查找和學術交流了解到的,如有紕漏還請指正。下面介紹的遙感圖像領域的研究是我從事的,也更有話語權的,敬請期待.........

↓ ↓機器學習在遙感圖像領域↓ ↓ ↓ ↓

↑ ↑機器學習在遙感圖像領域↑ ↑ ↑ ↑


謝老婆邀。

先說結論。太有用了,非常有用。

個人做災害後建築物損毀評估,在這方面,遙感數據和gis的時效性,大範圍等等優勢,喊了很多年了。然而真正落到實處又是另一碼事。

國內,基本上08年汶川地震以後,各種大災的應急機制才建立起來,尤其是基於gis和遙感的災害後響應。

然而,14年8月的雲南地震時,包括我在內的近二十人,每天都對著遙感影像,人工標繪震區損毀情況。俗稱(shi量化)。一批人標好之後,另一批人,挨個房子去做評估,分類損毀等級。

15年,江蘇龍捲風,還是這樣。

國際上,2010年海地地震,世界銀行等幾個組織帶頭的遙感方法損毀評估中,也是以目視解譯為主,機器演算法都是扯淡。

這方面機器學習演算法還是有很多,基於變化檢測的,分類的,面向對象的,基於陰影差異的,基於SAR的後向散射的,都各有各的局限。但是都走不出實驗室,走不出圖書館。

我也在做一件事,通過多年積累的損毀數據,和神經網路,構建更自動更精確的,評估模型。快成了吧。目前與真人對照在80%左右正確率。應該能水一篇,

希望有一天能做到,一幅遙感圖進去,一張標繪好各地損失的damage map出來。這樣能水好幾篇。

再說我了解的遙感領域的其他深度學習需求。

就最基礎的,圖地利用分類,國家每年幾十億的需求,對更高效,更自動化的演算法是需求非常大的。

學過遙感的都知道,水體指數,NDWI,對水體提取是非常有用的,但是,當面對更高標準的需求是,單單NDWI就不夠了。閾值如何選擇?自動,手動?含沙量大了怎麼辦?提取精度能不能再提高?這些都可以考慮應用深度學習解決。我嘗試做過,並且認為還不錯。湊一湊應該能水一篇。

比水更複雜的地物類型怎麼自動分類?水完上一個再水這個。

建築物的提取問題,現在很容易做到建築區的提取,單個目標如何提取?聽說過也見過,深度學習方法的嘗試。

大氣領域,pm25的反演精度與地面站還有很大差距。能否利用遙感手段滿足環境執法的更高需求。

針對分類問題中,機器學習方法還需要人工去構造、提取、篩選圖像特徵,進行學習。深度學習則可以將特徵學出來,無腦出結果。這就跟中醫很像了,誰也不知道為什麼,但就是能把某些奇怪的病治好了。


除了上面回答說的遙感圖像解譯(自動分類),我所知道的一個應用的方向就是數字土壤製圖, @Dorbod Wolf 提到的朱阿興就是數字土壤製圖方面的一個大家,其實數字土壤製圖本質上是地理空間推測方法對土壤屬性的空間預測。有幸聽過朱老師的課,他在總結地理空間推測時,將其分為兩個方面:利用變數的自相關進行推測和利用變數間的相關性進行推測,前者就是在GIS中所熟知的空間插值和地統計,而後者就是對地理要素進行建模預測目標屬性,這一過程正越來越多的依靠機器學習。因為可獲取的地理要輸數據來源和形式越來越多,這為越來越多的目標屬性可被推測成為可能,而地理要素與目標屬性之間多為複雜、非線性的關係,機器學習模型在這方面可以發揮很大的作為。


地理信息專業中類似機器學習的專業課叫空間分析,空間計量。建議先看一下,主要關注地信專業用了哪些工具,這些工具用來解決什麼問題。然後,找兩個案例看看,畢竟書上講的要麼偏學術,要麼過時了。

說實在的,地信有什麼好dream的,工作不好找,四不像。如果專業不是地理相關,學點別的。


入門GISer,最近自學了機器學習,其實覺得還是很有用的。

(最近在做空間分析方面的內容,所以舉例也用這一方面的內容)

舉例:

機器學習中分為監督分類和無監督分類,其中無監督分類裡面又有聚類、密度估計等等內容。

最近做的環境污染監測數據分析裡面為了研究其時間和空間上的分異特徵,大部分的論文均採用聚類分析,使用聚類分析得到不同時間下的簇類以及簇的分布狀況、簇中心值等等,通過聚類分析就可以層層分析出它們的分異特徵。

聚類裡面又分為了很多的內容,有硬聚類、模糊聚類等等,其中在機器學習中涉及到最簡單的就是KNN,K近鄰方法來進行分類。

舉這個例子的原因就是為了說明機器學習對於GIS這一方向是肯定有用的,同時還同意最高票關於遙感的內容,我記得之前老師在上遙感的課程的時候就提到過,可以使用機器學習的方法來分析遙感圖像。


在遙感方面必然是有用的。我就是研究遙感高光譜圖像處理的,主要的方向包括分類,解混,和壓縮等等。IEEE TGRS這個期刊都是遙感和機器學習以及計算機視覺結合起來的文章


樓里有人說地理信息科學專業學計算機語言就是為了軟體二次開發是什麼鬼?

我要說的是,應用機器學習來進行數據挖掘確實是現在在做的一個方向,特別是現在應用服務類互聯網產品,LBS app這麼多的情況下,數據量已經很大了。而相比於其他數據,帶有地理位置的數據可以通過數據挖掘來做地理畫像,這也應該是各個地理類LBS相關公司都在爭取實現的方向,也就是說可以在人口畫像的基礎上再進行地理畫像。地理信息不應該僅僅只是更好的可視化,也應該有充分的學習與挖掘,來掌握地理信息的價值。


這個問題問得不好

事實上在這一波機器學習熱之前,遙感和GIS領域裡這門技術已經延續了三四十年之久。


佔個坑,遙感數據源和地理空間信息能做的事情很多,醒了填坑


機器學習怎麼都能用的上啊,地理信息領域我不清楚,但是肯定有具體的模式吧,不管是哪種模式,用普通的迭代法總能跑點兒結果出來,再用機器學習演算法總能再跑出來點兒結果吧,這不就有比較了嗎( ̄▽ ̄)


基礎演算法都是相同的,無論是深度學習應用較多的計算機視覺、圖像處理,還是遙感、GIS等領域,作為基礎演算法的機器學習、深度學習等方法無處不在。

最近的工作是將機器學習理論應用到高光譜遙感領域,做的是高光譜數據面向土地利用類型分類的波段選擇(降維),使用的是機器學習裡面一種參數結構化稀疏表達方法——Group Lasso。熟悉lasso的應該都知道它利用了L1範數實現稀疏學習,而Group Lasso利用L1/L2混合實現分組的稀疏,詳細可見我們的期刊論文: Group Lasso-Based Band Selection for Hyperspectral Image Classification。

例如下圖所示的一幅高光譜圖像,它每個像素在光譜維上形成一條高度冗餘的光譜曲線。

在GIS應用中做土地利用分類時,對於高光譜數據來說,通常由於光譜維度太大以至於難以高效應用複雜的分類演算法,因此做降維是十分有必要的。普通的PCA、LDA等特徵降維方法得到的低維特徵,難以形成可解釋性的特徵數據,而特徵選擇方法可以使得選擇的特徵就是原始的波段數據,可解釋性強。如圖是我們的機器學習演算法在Indian Pines數據集上做的波段選擇結果,演算法在做波段選擇的同時實現了土地利用分類,具體的可以參考論文。

可以看到,由於Indian Pines數據集主要是植被為主,選擇的波段集中在可見光(400-750nm)窗口,如果用密度峰值聚類等方法,選擇的波段會集中在上圖幾個波峰處附近。


機器學習應用範圍很廣,本科生,創訓做的相關內容。所謂機器學習,在我看來還是人去學習,機器的任務是去做計算。它的特點在於演算法相對比較複雜,參數比較多。如果想把它用在遙感,gis 中達到很好的效果,解決很多難題,那要求對演算法很熟悉,理解的很透徹。否則應用機器學習就變成了一個高級的賭博機。有些人用機器學習解決一些簡單問題開心的不得了,實際並沒有做出什麼實質性進步。若用機器學習,請先學好基礎,然後再談應用。


地理信息系統里有個東西叫目視解譯。

要是能用機器學習把它解決了我們會輕鬆很多。


建議先看看數字圖像處理,岡薩雷斯的信號與系統,之後就可以入手遙感圖像處理了

監督分類和非監督分類都會用到機器學習上面的玩意,祝你好運


用途太大,哭


這些應用領域還是很廣的,比如做社交地理數據的時空分析, 分析GPS軌跡學習交通中的規律以及現象。很多時候使用的都是機器學習,數據挖掘的方法。學學沒有壞處。除了純地理信息,攝影測量遙感中應用也很廣,尤其是關於計算機視覺領域。


機器學習的應用已經深入生活的各個方面了,只是很多情況下,我們並沒有意識到原來我們用的是機器學習的東西啊,舉個例子吧,你要比較兩個東西的相似度,你是不是提取這兩個東西的特徵,然後計算特徵值的歐氏距離,歐式距離越小,相似度越大,所以用這個方法可以對物體進行分類,這是不是就是機器學習里的的KNN演算法啊,所以很多時候用到了機器學習理論,只是我們沒意識到。

回歸到你的問題,比如環境科學裡面,對環境的預測,各種時間序列,回歸計算也是機器學習的內容的。在地圖中識別出地點,地形匹配,導航等等都會涉及到機器學習的知識的。使用機器學習能更好的提高你的效率,更好的解決問題,所以機器學習對你學的東西肯定是有用的,至於你怎麼去用,往哪方面去用,這就是你需要探索和深入的了……


有的,比如語義GIS,GIS新媒體,虛擬地理環境等


推薦閱讀:

九寨溝地震後會恢復原貌么?
有哪些像earth.nullschool.net這樣有趣的地理學或地球科學相關網站?
對於跨考人文地理學(規劃方向),有什麼好的擇校和個人發展建議?
未來十年是地理學的黃金時代嘛?
當今地理學有哪些非熱門的但很有趣的研究方向?

TAG:機器學習 | 地理學 | 地理信息 | 環境科學 | 遙感 |