霧霾可以通過數據挖掘來進行分析以及預測嗎?

比如可以細分成分,分析每種成分長時間的變化特點,並且結合地理數據和氣象信息深入分析,可以建模並進行數據挖掘。
比如現在霧霾數據是可以區分pm2.5,pm10,SOx,NOx的,這樣的話產生源可以看成一個黑盒,可以先分析每一細類(如果可以再細分會更好)的規律,或許能有一些成效吧。

不知道相關部門願不願公布詳細數據吧。


謝邀。日益嚴重的霧霾問題正在引起越來越多人的注意,尋求新的解決方案刻不容緩。正如先前答主所提到的,微軟亞洲研究院主管研究員鄭宇及其團隊正在利用城市計算解決各類問題,比如霧霾、噪音、交通擁堵和能耗等等。尤其是在空氣質量分析、監測這一領域裡,已經和國內部分政府機構簽約,目前預測範圍覆蓋了全國300多個城市。

霧霾可以通過數據挖掘來進行分析以及預測嗎?答案當然是可以。

————這裡是正式回答的分割線————

據鄭宇介紹,城市計算包括城市感知及數據捕獲、數據管理、城市數據分析、服務提供四個環節。與自然語言分析和圖像處理等「單數據單任務」系統相比,城市計算是一個「多數據多任務」的系統。城市計算中的任務涵蓋改進城市規劃、緩解交通擁堵、保護自然環境、減少能源消耗等等。

「城市計算最後主要能幫助我們解決3個問題,即理解問題的現狀、預測未來和考究歷史。以空氣質量為例,我們可以根據有限的空氣監測站點給出的數據,算出城市每個角落的空氣質量分布,了解清楚現狀;也可以通過數據預測未來。當然也可以通過這些數據,分析歷史:霧霾產生的原因是什麼?」

目前,微軟在利用城市計算預測空氣質量上,已推出Urban Air系統,通過大數據來監測和預報細粒度空氣質量,該服務覆蓋了中國的300多個城市,並被中國環境保護部採用。同時,微軟也已經和部分其他中國政府機構簽約,為不同的城市和地區提供所需的服務。該技術可以對京津冀、長三角、珠三角、成渝城市群以及單獨的城市進行未來48小時的空氣質量預測。那具體是如何做到的?

首先霧霾的大數據主要包括當前空氣質量數據、氣象條件、未來天氣預報3類數據。在北京共有35個空氣質量監測點,外加上美國大使館的一個監測點,共36個。

鄭宇介紹,要預測一個地方的空氣質量,並不是指單純地只看這個地方本地的數據,而且要考慮到周邊地區的空氣及其他因素,比如空氣質量站點數據、交通流數據、氣象數據、廠礦數據、人口流動數據、路網結構等。

與傳統模擬空氣質量不同,大數據預測空氣質量依靠的是基於多源數據融合的機器學習方法,也就是說,空氣質量的預測不僅僅看空氣質量數據,還要看與之相關的氣象數據、交通流量數據、廠礦數據、城市路網結構等不同領域的數據,不同領域的數據互相疊加,相互補強,從而預測空氣質量狀況。

「預測的準確率,我們現在已經做到北京未來6個小時的準確率達到了75%,在深圳和廣州做到了80%。未來48個小時的預測準確率達到50%。大家不要小看50%的準確率,它其實已經非常高了。相比之下,天氣預報24小時的準確率只有40%。」鄭宇說。

預測未來空氣質量情況,給在城市生活的居民出行帶來重要的提示信息,除了與環保部的合作外,微軟的空氣質量監測系統Urban Air還為在2015年於福州舉辦的第一屆全國青運會的空氣質量保障工作中提供了技術支持。另外一個科技巨頭IBM也推出了類似的服務。IBM與北京市環保局共同創辦了「聯合環境創新中心」,使得政府官員可以在最惡劣的情況下更好地制定減排計劃。IBM還與張家口市簽訂了協議,在冬奧會之前作出一些前期規劃和應對方案。

————這裡是回答結束的分割線————

以上回答摘選自微軟研究院AI頭條,媒體|鄭宇:用大數據預測霧霾是如何做到的?。

感謝大家的閱讀。

本賬號為微軟亞洲研究院的官方知乎賬號。本賬號立足於計算機領域,特別是人工智慧相關的前沿研究,旨在為人工智慧的相關研究提供範例,從專業的角度促進公眾對人工智慧的理解,並為研究人員提供討論和參與的開放平台,從而共建計算機領域的未來。

微軟亞洲研究院的每一位專家都是我們的智囊團,你在這個賬號可以閱讀到來自計算機科學領域各個不同方向的專家們的見解。請大家不要吝惜手裡的「邀請」,讓我們在分享中共同進步。

也歡迎大家關注我們的微博和微信 (ID:MSRAsia) 賬號,了解更多我們的研究。


數據挖掘是個方法,理論上來說,答案肯定是可以的,問題在於,什麼導致了霧霾,這個困擾了專家好幾年的問題,才剛剛有了第一版答案,如果你信服,那麼你可以進行下一步了,數據的收集整理,相信演算法很簡單就能實現了


工業界方面,IBM已經在做了。
去年IBM跟北京市政府開展合作,開發智能預測系統,利用多源大數據,可提前72小時精確預測空氣污染。
具體見報道:
IBM的「綠色地平線」:應對北京霧霾的人工智慧系統
應對霧霾 IBM計劃擴大與中國城市合作
IBM欲三招解決北京霧霾

學術界方面,MSRA的鄭宇,在大數據與城市計算領域有很多成果,其中有很多與空氣污染相關的paper,大家感興趣可以搜一下。

說點相關的:
題主的想法,是根據霧霾的生成機制,一步步進行因素拆分和量化,尋找所需數據,構建因果量化模型。這是統計學和計量經濟學的解決思路。優點是可解釋性好,對現實調控措施的指導意義較好。缺點是,對於霧霾這種高度複雜的問題,人很難構建出真正的因果關係網,從而很難找到一個囊括所有因子、高度擬合的、靈敏度和容錯性都很優的模型。

大數據的思路是,只要我有足夠多的數據,就能讓機器去找到一個合適的模型去擬合目標因變數。Google Flu Trends能提前一周預測美國流感發病率,用的就是這種思路:搜索日誌是典型的多維海量大數據。理論上來講,只要數據維度足夠多,記錄數足夠大,就總能找到某N個變數的某種邏輯組合,與目標因變數高度相關。從而把一個科學問題轉變為工程問題(是的,我認為Google Flu Trends主要是解決一個工程問題,而非科學問題,儘管它發了Nature)。這種路子,優點是見效快,能落地;缺點是可解釋性不好(這也就是Viktor Mayer-Sch?nberger一直鼓吹的大數據時代只需關注相關性,因果性不重要)。
IBM搞的這套東西,利用了空氣檢測站、氣象衛星、人口統計、土地與交通、宏觀經濟、在線社交媒體等數據。在數據維度足夠豐富、數據量足夠大的前提下,總能找到N個因素的組合去預測霧霾。


有數據。。。。
這話說得好簡單啊。請問如何獲得題主你所說的那些數據呢,單單一個污染源強數據就沒有辦法準確獲得吧?以一個普通北方城市為例,空氣中霾粉塵的來源,就可能包括有,風力揚塵,施工揚塵,工業源排放,汽車尾氣,燃煤粉塵,餐飲業油煙等等,除了工業源相對穩定可預測之外,哪一個是能有準確數據的?農村那麼多散居的家家戶戶,取暖燃料成分誰能統計出來?今天暖和少燒點,明天天冷多燒點,怎麼統計?怎麼確定其變化特點?退一萬步講,就算污染源的規律能夠全部確定,氣象數據怎麼來?別的不說,世界上哪個國家有能力預報未來24小時某地的風力精確變化情況?
不要總是覺得相關部門不願意公布數據,他們也沒有準確的數據啊,如果那麼簡單就能預測氣象情況的話,世界各國至少早就能確定颱風路徑了吧,事實上呢?還不是只能看著颱風轉來轉去不停地更改報告。


北京PM2.5濃度回歸分析訓練賽

一個小練習,你看,可以。


NASA9月19日宣布,將舉辦氣溶膠感測器設計大賽(https://www.nasa.gov/feature/breathing-easy-with-the-earth-and-space-air-prize-competition)。文章摘要如下:

可呼吸的空氣是維持人類在地球和空間生存所必需的。氣溶膠是空氣中的微小顆粒,會導致哮喘和呼吸道不適等各種健康問題。為確保在地球上生活的人以及在航天器上工作的人員的健康,需要氣溶膠感測器來監測空氣質量,並在越過閾值、必須採取行動時發出警報。

NASA(美國國家航空航天局)與羅伯特·伍德·約翰遜基金會(RWJF)合作,將贊助一場稱之為「地球與空間空氣大獎」比賽。比賽要求團隊或個人設計和開發專門的感測器技術,用以改善空間和地球空氣質量的解決方案。該項目是一項技術創新挑戰,旨在促進開發出強大、耐用、廉價、高效、輕便、易於使用的氣溶膠感測器,使用於太空中和地球上任何人類可能暴露於空氣的地方。

NASA生物醫學研究和環境科學部的Paul
Mudgett博士指出,「微粒監測是NASA為實現長期目標在技術路線圖上的一個缺口。目前的氣溶膠儀器技術過於龐雜,靈敏度、使用壽命和失重條件下工作能力都達不到要求。通過與RWJF的合作,我們有極好的機會來填補這一差距。」

「地球與空間空氣大獎」是一場兩階段的比賽。第一階段的註冊時間2017年12月13日截止,要求參賽者在2018年1月31日之前提交感測器設計。比賽將在2018年3月底前宣布三名決賽入圍者,每人將獲得50,000美元建立原型。入圍者將於2018年9月30日之前前往俄亥俄州克利夫蘭的格倫研究中心進行測試和最終評估。比賽結果將於2018年10月中旬公布,獲勝者將獲10萬美元大獎。

註:氣溶膠是大氣中的懸浮顆粒,分天然和人造兩種來源。例如,松樹釋放的一種稱為α蒎烯的化學物質,可凝結並懸浮於空中形成霧狀顆粒。汽車發動機或其他工業過程中的燃料燃燒、自然或人為的森林火災,甚至烹飪都可產生或形成各種類型的氣溶膠。來源:https://www.sciencedaily.com/releases/2016/04/160401145037.htm。


UCI數據集已經有一些可以用來做的數據
本身是一個多變數時間序列問題?本人用Lstm寫了一個很na?ve的並且有過擬合嫌疑的demo
有空貼代碼


哪裡能得到需要的數據這才是關鍵


其實霧霾的預測和氣象的預測類似。要不奧運會怎麼預測天氣情況的。只是這裡面的數據獲取,真實數據獲取,那是非常浩大的,就如樓上所說。
其實霧霾是一種污染現象,而不是本質。而污染又和生產力發展水平和生產關係一致的。污染和經濟息息相關,關係到政府的收入和政績。牽一髮而動全身,目前來說,最根本的是發展生產力,提高生產力水平,一切迎刃而解。


推薦閱讀:

在東中國海,颱風經過黑潮主流時二者變化?
為什麼基本雷達反射率上有顏色但不下雨?
天象真的存在嗎,應該怎麼理解歷史上一些重要事件?
經過颱風風眼是一種怎樣的體驗?會看到垂直的雲壁嗎?
這種雲是怎麼形成的?叫什麼?

TAG:數據挖掘 | 數據分析 | 氣象 | 環境污染 | 霧霾 |