文獻閱讀：摘要再凝練，也不比全文更有價值

07-16

科學論文數目火箭式的上升增長，不斷地擴展著知識的海洋。而這每年超過100萬論文的發表，也使得與最新文獻保持同步成為了一項不可能完成的任務。正因為如此，計算機成為了眾多科研者搜索論文及其原始數據的常用工具。

現在研究者們通過有史以來最大規模的論文數據挖掘，確定了進行文獻搜索的最佳方式，可幫助改善內容搜索，無論要找的是藥物標靶還是基因。

一直以來，在論文數據挖掘過程就存在一個爭議：讀文獻時，摘要與全文究竟孰輕孰重？雖說摘要是整篇文章精華的提煉，但這是否是否意味著讀文章時只關注摘要即可，而無需通讀全文？那麼對全文的關注到底是否值得？

不少研究者表示：誠然，論文全文能為研究者提供更多更詳盡的結果。但不可否認的是，全文中大量信息對科研者而言是冗餘的，加之文獻全文獲取有時也挺費勁的，因而閱讀文獻，知其摘要便已足矣。

對此，論文全文表示不服。為了給這個爭議畫上一個句號，丹麥技術大學的生物信息學家S?ren Brunak及其同事針對從1823年到2016年發表的1500萬科研論文創建了兩個資料庫：全文資料庫和摘要資料庫，其中文章全文來自於出版商Elsevier和Springer以及PubMed Center的開放獲取部分，而摘要則來自於美國國立衛生研究院(National Institutes of Health)提供，而後直接對比了兩個資料庫的信息挖掘情況。

而結果發現，對論文全文的挖掘結果總是要好於摘要。舉個栗子，相比於摘要，研究者們從全文文章中確定了更多基因與各種疾病之間的聯繫，潛在地為未來的研究目標創造一個寶貴的思想寶庫。

賓夕法尼亞大學生物數據科學家Daniel Himmelstein指出，這篇論文「令人信服地展示了，若想獲得更多更好的信息挖掘應該仔細閱讀全文。」而哥本哈根大學的生物信息學家以及論文合作者Lars Juhl Jensen也指出，現階段研究者搜索閱讀最多還僅僅是文章的摘要而已，而這主要是因為相比於論文全文，摘要通常總是更容易被獲得，且對摘要內容的使用存在較少的限制，重要的是，摘要簡單的格式更容易被計算機識別。

Himmelstein認為鑒於這些優勢，進行論文數據挖掘的研究人員可能不會很快就轉變單一閱讀論文摘要的習慣。此外，還存在的另一障礙就是出版商對論文全文內容限制，因而，分享下載用於數據挖掘的資料庫對研究者而言是不被允許的，這也是為什麼一些研究論文很難被其他人複製的原因所在。

Brunak承認，雖然與出版商談判文章閱讀許可權的過程是非常困難的且花費他們幾個月的時間。但在這項研究中最耗時、最具挑戰性的一步，就是將出版商提供的論文全文的普通PDF文件格式轉換成機器可讀的文本格式。

Jensen說到：「這也是為什麼以前沒有人進行如此大規模的論文全文挖掘的一個重要原因。」「我們可能在將論文的pdf論文格式的轉換上花費了更多的計算資源，甚至遠超於對論文的實際挖掘。」Jensen表示，如果研究人員不熟悉這一步驟，他們很可能會對轉換文件時產生的錯誤感到「不愉快」。

Jensen提到，有一個解決方案就是出版商要確保論文能夠很容易地進行挖掘。他希望看到出版商共同努力尋找一種可以全面使用的「一致的格式」，而不僅僅是每個雜誌都有自己的特有格式。同時他還指出，學術文章資料庫PubMed Central共享數據的XML文件格式可能是一個很好的範本。