人工智慧時代的科學研究
# 人工智慧時代的科學研究
最近幾年,以深度學習為代表的人工智慧技術迎來了一次革命。目前,人工智慧最為熱門的方向在圖像識別、自動駕駛、語音識別等領域。和這些領域層出不窮的明星初創公司相比,人工智慧技術在科研領域的應用則相對少有人關注。然而,在這一領域,其實是有不少非常有趣的研究成果,本文將嘗試進行一些總結。
## 科研領域人工智慧技術的應用前景
科研可以說是人類探索未知的最前沿戰場,然而,和很多人所想像的不同的是,科研領域的生產力發展水平其實是相當低的。這一方面是由於科研領域眾多,研究方向分散,沒法大規模合作;另一方面是作為科研主體的研究生們價格十分低廉,採用手工作坊模式比較具有性價比。
但是科研發展到今天,尋找更有效率的工具既是美好的期望也是刻不容緩的現實需求。這是因為在大家的不懈灌水之下,現在科研論文的產出速度已經非常快了。即使是一個非常小眾的領域,一個人閱讀文獻的速度也很難跟上新文獻的產出速度。當然,我們可以通過個人經驗篩選出其中有價值的那些,但是這就像手工作坊依賴老師傅一樣,這樣抽象的經驗是否合理,能否傳承是一個大問題。
那麼,科學研究的哪些流程可以做的更好一點呢?這裡我們可以列舉一些:
1. 檢索。我們通常的搜索方式是在各個搜索引擎的搜索框里輸出文字,獲得返回的網頁、圖片等信息。但是對於科研來說,除了文字之外,我們還希望能夠檢索公式、專有名詞、圖片等等。這些檢索內容在通常的搜索引擎中很難獲得有效的結果。
2. 引文網路。對於一篇文獻來說,它引用的文獻和引用它的文獻都是很重要的參考信息。雖然很多出版商的網站提供了獲取文獻引文的選項,但是文獻通常是以PDF的形式傳播,我們希望能直接從離線存儲的PDF文件中還原出它的引文信息。此外,如果能夠從一片文獻出發,描繪出相關的引文網路,我們就能夠找到該領域的重要文獻,非常有利於我們快速的掌握一個領域的核心信息。
3. 知識記錄。一篇文獻的細節往往是非常之多的,一般情況下,我們只能通過在PDF文件或者引文管理軟體中標註來記錄重要的信息,可是,這樣的記錄方式顯然是不夠有效的,不僅很難講零散記錄的信息集中整理,時間一長也很容易遺忘當初標記的初衷。
## 問題的根源
為什們會有這些問題呢?究其根本,這是因為現在的科研出版體系還停留在紙質時代,然而我們的工作方式早已邁入了互聯網時代。令人悲觀的是,這些問題雖然引起了一些人的關注,但是可能很難在短期內解決。因為工作效率的低下耗費的只是研究生們的青春,而這個行業並不缺源源不斷湧入的勤勞的學生。而且,科研是一個壟斷行業,幾大國際出版商把持了絕對的話語權,如果他們沒有變革的動力,行業本身並不會發生根本的變化。
但是對於學生們來說,時間是寶貴的財富。工作效率是贏得時間的根本手段,因此我們非常有必要關注一些能提高效率的工具。這裡,我將列舉一些最新的工具,他們也許能在你的日常工作中派上用場。需要注意的是,這裡的很多工具具有實驗性質,他們的功能可能還相當不完善,因此需要你自己使用之後來判斷它的價值。
## 科研工具的搜索引擎——LabWorm
[LabWorm](LabWorm | Home)是一個用來搜索科研工具的搜索引擎,這裡有著各種五花八門的科研相關工具。
## 檢索工具
### 更具深度的文獻搜索引擎
[AMiner](AMiner)是由清華大學的團隊開發的文獻檢索引擎,相比傳統的文獻檢索引擎,它提供了更多更具深度的內容,比如,按照h-index排序檢索結果,給出作者的常見合作者,文章或者領域的歷年引用趨勢等等,同時它還提供一定的社交功能,可以對作者投票或者評論。可以說AMiner代表了文獻搜索引擎的未來。但是它主要側重計算機領域的文獻,其它領域的文獻信息不是非常完善。
### 用公式來搜索維基百科
[Koala](Koala)能夠讓你通過輸入Latex表達式形式的公式來檢索維基百科,它會自動分析相近形式的公式,給出相關維基百科條目的鏈接。
### 用公式來搜索網頁
[uniquation]((uni)quation),如果你希望用公式來搜索所有網頁結果,可以試試這個,同樣需要以Latex形式輸入公式,也會給出相近形式的公式。如果你對Latex表達式的寫法不熟悉,可以搜索一些在線的Latex公式轉換器。
### 用圖片來搜索論文
[Viziometrics](VizioMetrics)是一個完全基於圖片的搜索引擎。其實論實用性,它估計比不上谷歌圖片搜索。它是直接提取論文中的圖片和圖片標題來生成相關搜索項,是一個非常有意思的工具,雖然打開速度很慢。
## 引文相關工具
### 自動提取PDF中的文獻信息
[cermine](Content ExtRactor and MINEr)是一個開源項目,它提供一個在線工具,能夠將你上傳的PDF格式的文獻中的關鍵信息提取出來,這些信息包括作者、單位、摘要、參考文獻等等。
### 引用文獻的逆向格式化
[CitationFinder](Citation Finder)是一個相當神奇的實用工具。我們知道,文獻管理軟體可以將資料庫導出成各種專有格式,這些格式可以轉換成txt。可是,反過來把TXT還原成文獻管理軟體能夠識別的格式卻是一個難題。這個網站可以將大段TXT格式的參考文獻列錶轉換成常用的文獻管理軟體能夠識別的格式,正確率相當高。
### 公式自動識別
[InftyReader](InftyReader Group)是一個OCR軟體,它的強大之處在於它能夠將pdf文件中的公式轉換成Word或者Latex格式,準確率是目前最高的。
### 引文網路分析
理論上來說,引文網路分析是科學研究中的重要內容,但是實際上卻很少有人去做這樣的事情。原因是多方面的,一是:引文網路本身涉及的方面非常多,比如作者之間的引用關係,期刊權重的排序等等;二是,一旦涉及到較深的層次,引文的數量將會非常龐大,導致獲取、分析和展示文獻信息都將變得非常緩慢;三是,如何將複雜的網路清晰的展現出來,並從中發掘有用的信息也是一個難題。所以,雖然現在已經有一些工具能夠實現引文網路的分析,但是學習成本相當高,普及率很低。目前,常用的引文分析軟體包括:CiteSpace、SCI2和HistCite,有興趣的人自行嘗試。需要注意的是,官方的HistCite版本有一些Bug,如果需要可以用[這裡](文獻引文分析利器 HistCite 詳細使用教程(精簡易用免安裝版本 HistCite Pro 首發頁面))的版本。
## 科研知識管理
### 用思維導圖管理文獻
如果將數量繁多的文獻中有用的信息組織起來是一個難題,將文獻以思維導圖的形式組織起來是一個可供嘗試的方向。[Docear](Docear)就是為這一目的而生的軟體。它的功能比較完善,但是使用起來有些複雜。
### 與PDF閱讀器集成的文獻管理軟體
與思維導圖這一本身並不太普及的形式相比,直接在PDF文件上標註信息則實用的多,然而,如何將標註的信息組織起來呢?Mac和iOS上有一款國人開發的軟體[MarginNote](https://marginnote.com/?lang=zh-hans)就是為這一目的量身打造,它不僅可以將PDF文件中的信息用思維導圖組織起來,還可以生成記憶卡片,用作背誦之用,因而廣受醫學、法律專業的學生歡迎。遺憾的是,這一軟體並沒有Windows版本。
Windows用戶可以使用文獻管理軟體[Citavi](https://www.softhead-citavi.com/),在提供常用的文獻管理,Word引文插入功能之外,它還提供了一個Adobe PDF 閱讀器的插件,可以直接在PDF文件上標註,這些標註的信息可以單獨組織管理,也可以導出到思維導圖軟體。這個軟體的另外一個亮點是,在Word中不僅可以插入文獻庫中的文獻,也可以檢索插入標註的文獻中的信息。
除了文獻管理軟體之外,還有一類更專業的文件標註工具,學名叫質性分析軟體,在心理學、社會學等學科比較常用。這類軟體能夠標註的文件類型更為廣泛,以常用的atlas.ti軟體為類,它除了可以標記PDF、Word之外,還可以標記音頻、視頻,標註的信息以節點方式組織,可以注釋、組合、鏈接。這類軟體適合分析含有大量文本、音視頻數據,需要提取抽象信息的項目。
## 幻想未來
科學研究有著理論上的巨大價值,但是對於身在其中的從業者,個中甘苦,唯有己知。本文介紹了很多具有實驗性質的工具,它們中到底哪些能夠真的普及,尚未可知。趁著人工智慧的東風,不妨讓我們暢想一下科學研究的未來,想像一下,人工智慧在科學研究中有哪些應用前景。
1. 自動提取PDF格式文獻的核心信息,識別其中的各個區域,生成結構化文件。這涉及到版面識別,文本OCR等方面。現在已經有一些相對成熟的工作。
2. 內容感知檢索。將PDF文件中的公式、專有名字、圖片加入針對性的檢索選項,可以一鍵搜索相關內容。
3. 學術專用的網路爬蟲。針對作者、單位,通過網路爬蟲搜索到課題組主頁、作者職稱、單位排名等信息。
4. 試劑、儀器識別。針對文獻中提到的試劑、儀器信息,自動給出相應的購買鏈接和參考價格。
5. 合作式的標註和社交化評論。不同地點的作者可以共同標記同一篇文獻,並且可以相互查閱。同時可以建立一個問答平台,作者和讀者可以直接交流。讀者可以點贊,也可以質疑。
6. 引文網路生成和文獻推薦。自動生成文獻的引用和被引網路,同時根據文獻的關鍵詞和相關文獻,自動推薦相關論文。
7. 知識鏈接。對於文獻中提到的知識,可以自動鏈接教科書中對應的內容。
8. 語義分析。自動分析文獻中語句含義,歸納提取關鍵信息,生成邏輯關係圖。
9. 語言翻譯。將英文自動翻譯成其他語言。
10. 鏈接企業。根據文獻信息,鏈接到關注或者從事相關技術的公司。
。。。。
可以想像的地方還有很多,但是要想完全實現上面的設想,恐怕需要一個堪比BAT規模的企業。
但是再完善的工具也只是工具,最核心的仍然是人類自身的創造力。
推薦閱讀:
※分形分析軟體
※科學研究有哪些原則?
※如何用ps測量圖像上的斑點數?
※Zotero,一款愛不釋手的文獻管理軟體
※現代科研人員的日常