機器學習是否轉變了傳統科研的思路?人們不再需要定義清楚問題,而是依靠機器學習猜測問題?

本題已加入圓桌 ? 數據挖掘應用,更多「數據挖掘」相關的話題歡迎關注討論


對於用機器學習來解決凝聚態物理或者量子化學問題而言,我認為定義問題才是最重要的。這裡定義問題不僅僅是說「尋找基態」,而是你如何設計這個結構,用什麼表示?

現在兩種主流的思路一個是從分子的結構來構建分子的表示,比如用庫倫矩陣等等。這種思路的好處在於直接。輸入分子結構,直接得到能量。但是其中的物理都放到了黑盒中,比如你同一個分子再加一個電子,你的模型就不對了。

還有一種思路就是我之前博士期間的工作。因為密度泛函理論的成功,人們發現密度是分子系統一個非常好的表示。密度泛函理論中只有動能項和XC項是需要近似的(pure DFT),如果能用機器學習來學習泛函(密度到能量的映射),那麼已有的物理理論可以接著用,有助於我們得到更好更快更準的演算法。但是代價就是泛函的機器學習模型不僅要准,functional derivative也要准,因為我們需要進行self-consistent calculation來解出基態密度。這裡有很多的問題需要解決。比如要將基態的搜索限制在manifold上

Understanding machine‐learned density functionals

為了能夠將計算scale up, 還需要定義合適的基於密度的基函數

Pure density functional for strong correlation and the thermodynamic limit from machine learning

或者乾脆跳過self-consistent calculation,直接用另一個機器學習模型來學習外勢到密度的映射

[1609.02815] By-passing the Kohn-Sham equations with machine learning

可是在做了所有這些工作後再回頭想想,我們真的應該用密度作為系統的表示嗎? 這種表示可能只是方便的人而已,可能對於機器而言會有更好的表示方法。我們以之前物理學家發展的理論為基礎,這些積累結合上機器學習會不會反而成為一種包袱呢?誰知道呢。


從我自己的角度來答。

猜測問題還比較困難,現階段機器學習方法在 分類預測這兩塊做的相對好一些,在推理這個層面上做的還不夠好。

我自己在研究中,也會用很多機器學習的方法,但是只是把他們作為工具,更重要的還是去想要問的科學問題。在確定了問題之後,有一些環節,使用機器學習的方法可以取得比較好的效果。

不過確實有一些任務可以更大程度上依賴機器學習。

比如說想要做 從fMRI信號中做精神分裂症的早期診斷和分類,這種任務的話,傳統是人工選定一些可能的feature,做下統計上的分析。現在在有很多數據的情況下,可以適當考慮下用一些神經網路來做特徵提取,分類和預測的工作,應該會取得比較好的效果。

補充一下:

自己在第一段中表述的 『預測』二字更接近與,通過機器學習去逼近一個函數,之後可以從過去的信息來推測未來的狀態。

而在舉例中,精神分裂的 預測工作,其實本質上更接近於分類(哪些病人未來會發病。。這種)


我認為機器學習比互聯網更大的顛覆。

實際上搞過偽化生的都知道那是搭積木。通過不斷的試錯取得微小的進展。俗稱人肉機器學習。結合機器學習與自動化一定可以徹底改變傳統的以手工實驗為導向的科研方法


問題本身(例如輸入是什麼,輸出是什麼)還是要定義清楚的,只是不需要人工定義解決問題的規則。


目標函數怎麼寫


問題還是要定義清楚的,只不過是定義什麼問題的問題


沒有問題要解決,那就把想要製造問題的人當成問題。

不覺得是解決此類問題的最快捷的形式之一么?

機器學習萬不可在玄學的領地越走越深啊。


正相反,機器學習需要一個非常準確嚴謹的loss function來表達你想要達到的目標與當前結果的差距。在訓練的時候,要用這個方程來告訴程序,目標值與實際值差了多少,你對這個結果有多滿意,懲罰有多高。


重要的科研成果有2種實現途徑:

實力的挖井,直到穿三泉,打出水。指哪打哪。

還有一些是誤打誤撞,也拿諾獎。打哪指哪。

機器學習有更大的腦洞,可以用暴力搜索更廣的空間,將某些遙遠的聯繫發掘出來。

以後的科研成果也許要機器的協助,好挖的礦已經挖完,剩下的要更多算力。


問題一定要定義清楚,沒有問題描述如何展開具體的科研工作。只是機器學習是通過以數據為研究對象,從數據本身出發來尋找最優的解決方案,而不是傳統的研究思路-從具體的問題本身出發。


不定義清楚問題,那就不明確目標,沒有目標,你優化個鳥?

而且機器學習也不是猜測問題啊!!!

你不是理工科出身的么?


你搞錯了,機器學習也是基於人類的編碼,至少需要人類去確認我們需要什麼結果【輸出】,然後機器通過對已有的數據的學習和分析去解決問題。用阿法狗舉例,那就是至少人類要讓阿法狗知道怎麼才算是勝利。所以如果人類連問題都不清楚,機器大概更不清楚能給什麼結果。

至於說機器學習對於科研的影響,會不會取代人類進行科研活動。需要看什麼領域,在互聯網和計算機領域這個也許可以,或者說能信息化的領域都有希望。但是不管是針對某項技術的科研活動【應用】,還是針對某個理論的科研活動【純理論】都是需要考慮投入的,並且不同的方法之間也有投入比較,比如LHC發現希格斯波色子,機器學習的案例資料都不多,人類也是憑藉及其有限幾次的實驗得出結果的,根本不可能像阿法狗和N個人對戰,學習以前各種九段棋手的棋譜之類的,如果用機器學習來發現希格斯波色子,可能需要大量進行實驗,然後分析,政府沒這麼大投入。


我不是什麼科學家,但是我認為機器人和人的區別就在於機器人被人為限制了方向,而且很多計算錯誤在設定初期就被人為的躲避了。可是在什麼都有可能發生的世界錯誤的方向可能導致計算崩塌也可能出現意想不到的結果。比如豆腐就是煉丹不成的產物,偉哥最開始是為了治療心臟病而研發的結果是怎樣我也就不必再描述了。機器計算的時候不大可能出現這樣的狀況因為計算初始階段就被人為設定了方向。我想這就是人和機器的區別。


優化目標總的給出吧,很多問題都要先定義清楚才能用模型。


推薦閱讀:

如果人類的壽命大大延長,這對科學發展是好是壞?
2018 年,你的研究領域有哪些新趨勢,又會面臨哪些新挑戰?
經濟學最前沿的研究有哪些?
什麼是理想的科研經費分配方式?如何評價現有的制度?
腸道微生物組增加宿主壽命的原理是什麼?人類能否通過某種益生菌來延緩衰老?

TAG:數據挖掘 | 科研 | 機器學習 | 科學 |