星系的形態學分類現在還是依賴於人工嗎?應用機器學習技術的難點在哪裡?
星系的形態學分類還依賴於人工嗎(類似於Galaxy Zoo這樣的項目)?
應用機器學習,比如監督式學習的難點在哪裡?
The problem with supervised learning is that a lot of times we don"t get good enough ROC curves. TPR and FPR vary a lot with different input features. Now many people (including computational astrophysicists, of course) are applying deep learning on this kind of problems. Image Classification Done Simply using Keras and TensorFlow Here"s one using CNN.
btw. Four years ago Kaggle teamed up with Galaxy Zoo and produced the Galaxy Challenge where participants were asked to write algorithms that behave like the crowd when classifying SDSS galaxies.
Here"s the winning solution (also deep learning): My solution for the Galaxy Zoo challenge
Sorry idk how to phrase this entirely in Chinese so I went with English...
1. Galaxy Zoo引申出來的Zooniverse是一個很有效率的crowdsourcing平台,有接近100個項目涵蓋各個領域。這個平台使研究人員可以非常容易的建一個project,只有你有數據,設計一個workflow是很簡單的,基本都是網頁操作。因此很多科研項目,包括天文(Galaxy Zoo,Planet Hunter,Muon Hunter,Gravity Spy)都嘗試利用crowdsourcing來免費取得人工分類結果。這個網站已經採集了8千萬多的分類輸入數據,用戶非常活躍,很快(大約幾周)就能得到百萬量級的分類數據。
宣傳一下,任何人都可以在這個網站註冊,然後可以參與任何活躍項目,幫助科研。
2. 在大型的巡天數據中有很多星系(比如LSST有200億個),估計不太可能全部人工分類,還是要用機器學習。
應用機器學習,比如監督式學習的難點在哪裡?
這個問題就是關鍵:監督學習需要label,這個label哪裡來?這就是crowdsourcing最關鍵的價值。目前很多跟視覺有關的任務,還是人眼比較可靠。你只用簡單解釋一下目的,給一些示例,人類的performance還是比較可靠的。每一張圖片也會有多個人分類,可以通過分析每個圖片分類結果的分布來得到答案以及答案的置信度。也可以分析每個用戶的分類結果來了解用戶的可靠度。
得到了label之後,才可以訓練監督學習模型。
3. 其實是有付費人工分類服務的(Amazon Mechanical Turk),據說非常非常快。任何人都可以用mturk賺錢哦(https://www.thepennyhoarder.com/make-money/side-gigs/amazon-mechanical-turk/),只是感覺很快會瘋掉,還不如去Zooniverse為科研做貢獻。
我的合作者之一的巴黎天文台的Marc Huertas-Company早在2011年和2015年就發表了兩篇利用machine learning和deep learning的方法對SDSS和CANDELS的星系進行形態學分類的文章。和galaxy zoo對比驗證後的結果還是蠻不錯的,我自己也在用他的morphology probability去區分橢圓星系和漩渦星系。Marc他們前段時間還拿到了google公司對deep learning在天文學上應用的資助,可以說做的還是很不錯的~
附上兩篇文章的鏈接:
http://arxiv.org/abs/1010.3018
http://arxiv.org/abs/1509.05429
推薦閱讀:
※如何理解太陽為什麼不是短時間燃燒完?
※在宇宙里飛行有沒有可能回到昨天?
※古時候的人怎麼知道一年(地球的公轉周期)是 365 天的?
※網路小說《我當上帝那些事兒》是不是瞎寫的?
※如果某一天你被傳送到某個發達的外星文明,並且不知道自己在那個位置,應該如何向外星文明指出地球的位置呢?