如何閱讀文獻和文檔

10-10

如何閱讀文獻和文檔

來自專欄 Bioinformatics2 人贊了文章

引言

開篇先說一些「廢話」，寫這篇博客主要目的是想解決一個問題：怎麼閱讀文獻和文檔。很久之前看過一本書，《如何閱讀一本書》，在這本書中作者大致把閱讀分成了四個層次：

圖一《如何閱讀一本書》

第一個層次是基礎閱讀，也就是我們常說的只要弄清楚某句話的意思就可以了（英語水平一般的我，在閱讀專業單詞滿天飛的英文資料時，有些句子還處於這個階段）
第二個層次是檢視閱讀，通常是指我們需要在短時間內了解某本書的大致框架，從而能夠總結出「這本書在說什麼」
第三個層次是分析閱讀，我願意把這一層次的閱讀叫做「盡情作」式的閱讀，你需要仔細琢磨書中的各個概念以及各個概念之間的聯繫與區別，而且你需要有你自己的觀點，並總結出作者的觀點，和作者一樣去思考問題，這一層次的閱讀適合於那些非常有價值的書
第四個層次是主題閱讀，這一層次需要非常高的閱讀技巧，因為你要讀的不是一本書，而是幾十上百本與某一特點主題相關的書

文獻和文檔從某種意義上說就是一本書，閱讀層次和上面提到的四種是一致的，要提升閱讀能力，也就必須鍛煉自己在以上四個層次的閱讀能力。

在寫這篇博客的時候，我收集了中文和英文資料總共10多篇與「如何閱讀文獻」相關的文章，下面我將根據我閱讀的內容以及我自己的思考來回答怎麼閱讀文獻和文檔這個話題。

合適的閱讀材料

閱讀文獻、文檔，最重要的是什麼？在我腦海里，第一個冒出來的就是我所需要閱讀的材料。不論我們是看一本書、看一篇文獻或者是看某項產品的說明書（文檔），你都需要選擇適合你閱讀的資料。

為什麼是適合你的資料？這就像問你喜歡看什麼電影、你喜歡聽什麼類型的音樂一樣，你喜歡看什麼書，你喜歡看什麼類型的文獻、文檔？

如果從一開始，你所選擇的書、文獻、文檔壓根就不是你想讀的，或者版面、風格非常粗製濫造，那麼你去閱讀的動力就會大大降低，從而極大的影響你的閱讀效率。所以，在開始閱讀任何材料之前，請先選擇一份合適的閱讀材料。

排版和美觀的重要性

最簡單的例子，我以前喜歡用筆寫一些筆記，可是我字又寫的不好看，排版也不好，最後的結果是什麼？這些筆記早已不知道到哪裡去了。

圖二好的排版示例（來源網路）

我現在的做法是什麼？以後我會怎麼做？我在一個月之前是會把閱讀筆記和對一些問題的思考用印象筆記記錄下來，以後呢？我會用Markdown作筆記，然後託管到Github上面，截止到現在也差不多有10多篇博客，10多篇文獻閱讀筆記了。我之所以用Markdown記筆記並且託管到Github上的原因有以下幾個：

排版、目錄結構、圖表清晰
訪問方便
付出過辛勤汗水，會讓人更想重新閱讀、複習
便於遷移和分享（無論是公開到博客、實驗室內部交流還是私貨）
可重複利用性（通過整理某些小知識點或者技巧，在以後的項目或者寫作中可以復用）

同樣的，對於別人寫的文獻、筆記、文檔，如果排版、目錄結構、圖表清晰度等不符合我的閱讀習慣，我會選擇搜索更好的閱讀材料。

進一步說，如果你拿到一篇文獻、文檔，你看了標題、摘要或者是整篇文章的排版和圖表，你發現你產生了情緒——無聊、厭惡。請你馬上丟掉它，換一個好的閱讀材料吧，現在互聯網時代很發達，對某一主題進行描述或者介紹的文獻或者資料肯定不會獨一份，你可以選擇其中最佳的一篇或者幾篇來讀。

你為什麼要讀它？

如果要選擇一份合適的閱讀材料，在拿到一篇文章或者一個文檔時，你就需要回答的一個問題：

你讀它的最主要的目的是什麼？

你是基於什麼目的看這個文獻或者文檔的？如果這個問題不弄清楚，那麼你在閱讀的時候就會像一隻無頭蒼蠅一樣，是無法產生深刻的認識和理解的，特別是面對一些邏輯不清晰的文章，你會很容易迷失，抓不住重點。激進一點地說，一篇文章對你有價值的，正是那些你進行過仔細思考的內容，經過時間的流逝，最後，你能夠記住或者回憶得起來的也就是這些重點內容了（比如主要創新點、可以借鑒的思路、方法）。

Feedly以及Pubmed

選擇合適的閱讀材料，一個重要的方向就是跟蹤自己研究領域內最新的論文和相關期刊，之前有些同學可能喜歡用郵件去訂閱，但是久而久之，郵箱是不是快被裝滿了，你也沒什麼動力一個一個去點擊閱讀了？

我強烈推薦一個RSS訂閱器，Feedly，並配合Pubmed以及其他資料庫、或期刊的RSS訂閱功能來進行你的文獻追蹤和收集，如果你不知道什麼是Feedly，可以點擊這裡進行閱讀和試用。

圖三 Feedly 訂閱的Bioinformatics雜誌

互聯網上有非常多支持RSS訂閱的期刊、網站（如博客、新聞）等，你可以建立你自己的RSS訂閱資源，並對其進行分類管理。

圖四管理Feedly訂閱源

如果是醫學相關學生，你可以試用Pubmed資料庫搜索某個關鍵詞，然後對這個關鍵詞生成RSS源，從而可以實時跟蹤某些含有該關鍵詞的最新論文。

圖五使用Pubmed訂閱關鍵詞

如果你想訂閱某個期刊的所有在Pubmed中收錄的文章？同樣也可以，只需要輸入Nather[Journal]這樣的關鍵字，然後生成RSS就可以了，如果你想下載我訂閱的RSS，可以點擊這裡,

主要包括以下期刊和博客：

Nature、Science、Cell、Lancet、New England Journal of Medicine、PNAS、Nature Gentics、Cancer Cell、Nature Reviews Cancer、Nature Reviews Genetics、Nature Medicine、Nature Methods、Nature Protocols、Nature Communication、Genome Research、Nucleic Acids Research、Bioinformatics、Genome Biology、Blood、Leukemia、Plos Genetics、PLOS Computational Biology、BMC Bioinformatics、Algorithms for Molecular Biology、Molecular Systems Biology、Plos Biology、
RNA-seq Blog、安正超的博客、謝易輝的博客、李劍峰的博客

圖六使用Pubmed訂閱Nature雜誌

你可以動手，試試將Nature Biotechnology 加入你的RSS訂閱源。

合理的閱讀順序

閱讀文獻和閱讀文檔有著顯著地差別，前者傾向於對某一個或一系列科學問題進行的探索和回答，讀者需要按照作者的思路進行閱讀和理解；而文檔則更加側重於工具、軟體的使用，讀者更多的是要動手模仿以及嘗試。

文獻類

首先我們一般將文獻分為泛讀類和精讀類：

泛讀傾向於快速了解某一領域的最新進展以及發展歷程或者是快速了解一些你之前並未了解過的知識，從而豐富你的知識面、對某一領域有更加系統的認識
精讀的文章，一般說明該文章具備較高的參考和學習價值，或是與你的研究方法類似或符合你的研究思路，那麼你就需要儘力弄清楚作者的行文思路、主要觀點、主要方法、主要結果

另外，進一步細分，我們還會把文獻分為科學研究論文和綜述類：

科學研究論文一般是為了解決科學問題而進行了實驗或者數據分析，會涉及許多實驗材料、實驗方法以及實驗的結果和最後的科學結論
綜述類論文一般是對某一研究領域定期進行的一種梳理，為研究人員了解領域進展、把握未來的實驗方向有重要參考，也是我們在寫論文時的一個重要參考之一

圖七科學研究輪文（EBioMedicine）

泛讀一篇科學研究論文一般可以按照下面的順序進行閱讀：

摘要
結果（圖表及其描述文字）

精讀一篇科學研究論文一般可以按照下面的順序進行閱讀：

摘要
引言
結果（圖表及其描述文字必看，如果遇到感興趣的內容可以同時看看相應方法部分）
討論
參考文獻（注意收集相關文獻，有時候某一篇文獻沒有看明白，可以多看兩篇介紹類似內容的文章，不同的作者可能會有不同的角度去描述某一問題，從而幫助我們更加深刻的理解某一概念）

圖八綜述類論文（Nat Rev Genet）

綜述類論文不論是泛讀還是精讀，最最重要的就是先看各個標題，並快速總結出綜述中提到的各個主題的主要結論、然後重點關注討論部分。精讀綜述論文則還需要根據參考文獻，進行進一步的擴展閱讀。

閱讀的順序和重心一定是和你的閱讀目的息息相關的，如果只是想通過閱讀文獻了解某一科學問題的答案，那你就要側重於看文獻的結果部分；如果你想開展課題實驗設計，那你可能就要多關注方法學和實驗設計部分；如果你是完全學習某一新的領域知識，那就需要通篇瀏覽一遍，並把你有疑問的地方標出，然後進行進一步的文獻查找來回答你的這些疑問。

文檔類

圖九技術文檔（ANNOVAR）

閱讀文檔是生物信息以及與編程相關人員必須具備的技能，幾乎所有用於數據分析的工具以及編程框架都會有各自的文檔。

我們應該以什麼樣的順序來閱讀呢？

版本信息，技術文檔是有明確版本號的，它伴隨著軟體工具的整個生命周期，並且一一對應，如果你看的文檔版本和你使用的軟體版本不一致，那麼你將會遭遇很多莫名其妙的錯誤
相關教程，原作者和其他人一般會對某一工具的使用有基本的介紹和教程，在閱讀文檔之前，強烈建議先通讀和練習這些教程對某一工具或編程框架有一個系統的了解。另外，如果在閱讀文檔或者教程過程中你有很多看不懂的地方（比如某個API的用法、某個專有名詞概念），那就說明你需要盡量的去了解你正在學習和使用的這個工具主要有什麼功能、主要模塊有哪些，模塊與模塊之間是怎麼交互的？為什麼要設計這個API、為什麼要創造這個概念？，然後通過看懂其他的概念、用法來讓你對不懂的概念和用法有一個定位，並且從不同角度去切入理解這一概念或者用法
關鍵字搜索文檔，一般我們閱讀文檔都是有很強的目的性的，通過搜索某些關鍵字，你可以快速了解或者回憶起某一概念和具體的用法
文檔提到的新特性，一般某個工具是會不斷更新的，常常會有新功能和舊功能的捨棄，所以在閱讀文檔時要重點看一下

優雅的記錄筆記

我整理了幾個記錄筆記時的Markdown模板，最終的目的只有一個，就是讓內容結構更加清晰。以下模板僅供參考。

文獻閱讀模板（仔細閱讀）

下面是閱讀文獻 (仔細閱讀)時保存的Markdown文件的模板，主要內容應該由以下幾個部分構成：

文獻標題
PMID
發表日期
關鍵詞
概況
好詞好句
筆記

筆記中的非文字內容如圖片，可以單獨建立一個個人倉庫按照筆記名稱進行分類保持，參考，這將有利於將來你對所有筆記進行移植和整理。

---title: JCB | TCGA Pan-Cancer analysis projectauthor: Jianfeng Lidate: 2017-09-05slug: jcb-tcga-pan-cancer-projectcategories: - Journal Clubtags: - Cancer---## 文獻標題<div align=center><img src=https://github.com/Miachol/Writing-material/raw/master/log/images/2017-09-05-JCB-TCGA/TCGA.png><br/><b>The Cancer Genome Atlas Pan-Cancer analysis project</b></div>## PMID24071849## 發表日期2013-10## 關鍵詞- [TCGA](https://tcga-data.nci.nih.gov/docs/publications/tcga/)- Cancer Project- Pan-Cancer analysis project## 概括### TCGA:TCGA是一個由美國國立衛生研究院（NIH）發起的一個大型腫瘤研究項目（2005年啟動）- > 30中癌症亞型- > 1萬個腫瘤樣本- 基因組、轉錄組、DNA甲基化、蛋白質組### TCGA Pan-Cancer analysis project:Pan-Cancer analysis project是TCGA項目的一部分，於2012年啟動，旨在利用TCGA資料庫中不同類型的腫瘤中產生的大量數據（DNA、RNA、表觀、蛋白水平），進行整合分析，尋找潛在非腫瘤特異的的腫瘤標誌與靶點，並通過增加樣本量以期識別出更多腫瘤特異的分子異常。## 好詞好句### 單詞- daunting 令人畏懼的- metastatic 轉移性的- pharmacological 藥理學的### 句子- A prime example is provided by the NOTCH gene family, which is inactivated insome squamous cell cancers of the lung, head and neck, skin, and cervix but activated by mutation in leukemias.## 筆記### 單一腫瘤研究與多腫瘤研究高質量的單一類型腫瘤大樣本數據可以發現新的驅動基因突變、分子標誌，並通過這些標誌物將某一腫瘤進一步細分。近年來，隨著各類新興技術的開發和應用（表觀修飾、單細胞、三代測序等等），將會有越來越多可以被應用於癌症分子分型和靶向治療的分子標記物被發現。某些腫瘤類型特異的一些低頻分子異常(mini-driver)將需要更多的樣本進行識別。通過多腫瘤研究，可以發現不同腫瘤共同存在的致病異常（突變、CNV、染色體結構變異），有助於開發具有普適性的治療藥物。有時同一基因的異常在不同腫瘤中呈現了完全不一樣的效果（既可以是癌基因又可以死抑癌基因）。### Figures&Tables<div align=center><img src=https://github.com/Miachol/Writing-material/raw/master/log/images/2017-09-05-JCB-TCGA/fig1.png><br/><b>Fig 1</b></div>

該模板可以直接從這裡下載。

文獻閱讀模板（泛讀）

下面是閱讀文獻 (泛讀)時保存的Markdown文件的模板，主要內容應該由以下幾個部分構成（僅供參考）：

文章標題
主要論點和論據
文章標題
主要論點和論據 ...

---title: JCB | 2017-09-08泛讀整理author: Jianfeng Lidate: 2017-09-08slug: jcb-extensive-readingcategories: - Journal Clubtags: - extensive-reading---## 泛讀主題一（腫瘤分子演化相關進展）### Title of article 1Key Point:- A- B- C### Title of article 2Key Point:- A- B- C## 泛讀主題二（單細胞分析方法學相關進展）### Title of article 1Key Point:- A e.g Homepage- B e.g algorithm and model- C e.g Samples### Title of article 2Key Point:- A- B- C

該模板可以直接從這裡下載。

技術筆記

如果是技術類筆記，你可以隨意發揮標題，但是請至少應包括以下欄位的內容，便於快速搜索：

---title: Notes | Git handbookauthor: Jianfeng Lidate: 2017-09-05slug: note-git-handbookcategories: - Notestags: - git---## 關鍵詞- [git](https://en.wikipedia.org/wiki/Git)- handbook

定期的回顧和思考

多數人在很早之前應該聽過艾賓浩斯遺忘曲線，之前大多數時候我是應用在記單詞上，事實上，它是人類大腦對新事物遺忘規律，對我們學習任何新事物也都是具備指導作用的：

從上面表格我們可以看出，人在學習一個新事物時，初期遺忘速度是很快的，但是越往後，我們忘掉的內容就越少，同樣對於我們看過的文獻和文檔是一樣的道理，只有通過不斷的總結和回顧，你所閱讀的文獻和文檔內容才會被你真正吸收，從而真正幫助你更好的開展科學研究、解決實際問題。

圖十克服遺忘曲線（來源網路）

我建議每周可以把之前一周記錄下來的閱讀筆記以及進行過思考的內容做一個系統、完整的記錄，然後並在每一周結束時進行一個梳理和回顧，當積累到一定數量之後，再將筆記和思考記錄進行歸類並重新認識。

總結

我不是一個閱讀能力很強的人，也嘗試過各種各樣的方法，最後我得出一個結論：不論閱讀什麼材料，思考、實踐、總結是進行優質閱讀的必備條件，就像我現在寫的這篇博客，就是希望我能夠通過閱讀他人寫的一些相關資料，總結出一些閱讀時的關鍵點，為我閱讀文獻、文檔提供一個參考指南。