心智 | 科學探索也能被機器取代嗎?


弗朗西斯·培根 洞悉了這樣一個事實:科學發現的過程本質上是演算法。


「志在學習真理的人,在研讀科學家的著作時,當如入敵陣,發起全面的詰攻。為了不當刻薄者,也不當老好人,審視書本時,他應時刻保持自省。」

——海什木(Ibn al-Haytham)(公元 965 - 1040 年)

01

科學正陷入數據危機之中。2016年,生物醫學領域發布了一百二十多萬篇新論文,經過同行審議的生物醫學論文總數也超過2600萬。但平均而言,一個科學家每年能讀完的只有大概250篇。科研論文的質量已經在下降了。最近有很多研究表明,其中大部分生物醫學論文的結論都無法復現(譯者註:一般而言成功的科學實驗是可以重複的,不同的實驗者在前提一致,操作步驟一致的情況下,能夠得到相同的結果)。

數據太多,質量太低——這兩個問題源於人腦有限的處理能力。科學家構建假說所依賴的知識越來越片面和局限,他們不是提出越來越多錯誤的問題,就是在問許多已經被解決的問題。人們的創造行為日益變成過去經驗的隨機組合,以致於只有具備特定經驗的科學家,才能注意到別人忽視的事件。雖然一直以來,運氣都在科學發現中佔有一席之地,但目前它所佔的比例實在太高了。

對科學探索而言,有一種方式能夠克服當前的危機:將計算機與人工智慧結合。比之人腦,計算機的存儲能力和計算能力都更強。科學的自動化將極大加速科學發展的速度,甚至會帶來一場新的科學革命。但這背後隱藏著一個更大的問題:科學發現真的能被自動化嗎?

我相信這是可能的,17世紀英國哲學家和科學先驅——弗朗西斯·培根,早就在他的作品裡回答了這個問題。

Science Fiction Jimmy Ernst ( 1948 )

早在培根之前的幾個世紀,以海什木(Ibn al-Haytham)為代表的穆斯林思想家們,就論述過這種強調經驗主義和實驗方法的科學觀。然而是培根將其正式確定,並使之成為一種學說的。

在他的《新工具》(Novum Organum)中,他提出了科學發現的模式,即所謂培根方法(Baconian method)。他反對在構建科學理論時使用三段論,這種方法在他看來並不可靠。反之,他提出對現象要系統、周密地觀察,並以歸納法進行客觀分析,以產生可推廣的結論。在他看來,只有排除不完全的前提假設,才能發現真理。

培根方法將構建科學基礎和完善科學理論的過程分別勾勒,以去除觀察和概念構建過程中的邏輯偏見。他的想法是,讓觀察者大量搜集關於自然現象的信息,並將其歸為一個統一架構,以便歸納分析。在《新工具》中,他寫到:「經驗主義者像螞蟻,不斷囤積(知識),不斷使用。而理性主義者像蜘蛛,不斷編織(理論)。但最好是做蜜蜂,取二者之間,歸納整理現有材料並拿來使用。」

因為費時費力,培根方法現今很少被使用,它的技術應用也不太明朗。然而在當時,這種想法極富革命性。因為在此之前,科學研究是形而上學,屬於出身貴族的少數學者的特權。但培根拒絕了古希臘思想的權威,他描繪了科學發現的步驟,他的藍圖使得任何背景的人都有可能成為科學家。

培根的洞察也揭示了一個潛在事實:科學發現的過程本質上是演算法——重複執行有限步驟,直到發現有價值的結論。培根明確使用了「機械化(machine)」 這個詞來描述他的想法。他的科學發現演算法有三個組成部分:

a.所有搜集到的觀察要統一在一個知識體(corpus of knowledge)里;

b.新的觀察可以產生新的假說;

c.所有假說需要通過精心設計的實驗驗證。

see-see-rider Jimmy Ernst(1946)

02

如果科學本質是演算法,那麼它一定有被自動化的可能。這個「幻夢」困擾了計算機專家數十年,主要是因為科學發現涉及三個層面:感官觀察現象,心智構建假說,機械化地實驗。而科學自動化需要嵌入每個層面,並使得三者互相對接而不產生摩擦。目前還沒有演算法能結合這三個方面。

不過,實驗層面最近進展顯著。比如,製藥業通常使用自動化高吞吐量平台進行藥物設計。加州的初創企業 Transcriptic 和 Emerald Cloud Lab 建立的系統,能自動完成生物醫學專家要做的大多數體力活。科學家上傳實驗方案,實驗方案隨即被轉化為代碼,輸入機器人平台,以進行一系列生物學實驗操作。這些解決方案尤其適用於那些需要進行密集實驗的學科,比如分子生物學和化學工程。類似方法同樣可應用在其他重數據的領域,甚至能拓展到理論研究中。

另一方面,自動構造假說則相對落後,但 Don Swanson 在上世紀八十年代的工作取得了一些突破。他證明了某些不相關的科學思想間有潛在的關聯,通過用簡單的邏輯演繹,他能將來自不同領域且互不交叉的文章聯繫起來。比如,無需經過任何實驗,或者必須精通哪個領域,他就能預判瘦身魚油和雷諾氏綜合征(Reynaud』s Syndrome)之間存在某種聯繫。

最近的一些研究,比如 Andrey Rzhetsky 在芝加哥大學的工作和 Albert-László Barabási 在東北大學(Northeastern U)的工作,他們在數學模型和圖論的基礎上,將已有知識資料庫映射為一個網路,節點代表概念,聯接代表概念間的關係。這樣,未知的聯接節點可能代表新的假說。

night subway Jimmy Ernst(1948)

科學自動化里的最大難題在於,如何大規模搜集可靠的科學觀察。目前在觀測層面上,還沒有一個統一的資料庫儲存著人類的所有科學知識。儘管自然語言處理技術已經大大發展,不僅能夠挖掘科研論文之間的關係,還能獲取它們的背景資料。但幾家主要科學出版商對挖掘他們的出版物文本有嚴格限制。更大的問題是,論文不但總會被科學家自身的偏見(或概念誤用)所影響,也包含了大量複合概念與方法論,難以被提取和量化。

雖然困難重重,但最近計算科學和網路資料庫的發展,讓培根方法有史以來第一次變得實用。即使科學發現不能完全自動化,一旦還原論的使用達到極限,培根方法也會變得重要起來。

在這個數據量愈發龐大的時代,人類心智無法重建極其複雜的自然現象。現代的培根方法結合了還原論和數據挖掘技術,並通過基於歸納的計算模型來分析信息,使得我們對自然界的理解能夠得到提升。這種方法能自動地產生一些很有前景的假說並進行驗證,以此來加速我們的知識迭代。

它也提供了一個科學探索應有的模樣:追尋真理,不畏權威,崇尚自由。

作者:Ahmed Alkhateeb

哈佛大學醫學院的一名癌症分子生物學家,致力於開發能夠改進醫藥學科研究效率的分析平台。

文章首圖/尾圖:Edward Hopper

文章來源:aeon

翻譯: 華夏

文字編輯:於翮 子川

版式設計:童畫 姜如月

插圖編輯:付安琪

校對:付安琪 武權

歡迎打賞譯者~

wxp://f2f0-0V5cSASSAq0Y-h9KQZ9GBiACqLABP46 (二維碼自動識別)


推薦閱讀:

【d+放榜】一年一度獨立雜誌榜單 | 讓我們回歸到最初的閱讀與思考

TAG:科學 | 藝術 | 獨立雜誌 |