單細胞測序掃盲:是什麼?為什麼?怎麼做?
一、什麼是單細胞測序?
如果簡單地說,單細胞測序就是獲取單個細胞遺傳信息的測序技術,似乎沒有多大的幫助。為了理解這個問題,咱們不妨先來了解一下測序技術到底可以做些什麼。
目前,測序可以回答以下6類問題:
1. DNA的序列:ATCG怎麼排列,以及各序列的丰度;
2. DNA的表觀遺傳修飾:比如甲基化、羥甲基化,以及組蛋白的各種修飾;
3. RNA的序列:AUCG怎麼排列,以及各序列的丰度;
4. RNA的表觀遺傳修飾:比如近年很火的m6A修飾;
5. 染色質的結構:3C、4C、5C等各種C;
6. 其他魔性應用:比如DNA損傷位置、蛋白-蛋白相互作用等。
單細胞測序,就是想辦法在單細胞層面去回答以上6類問題。
二、為什麼要使用單細胞測序?
如果把這個問題換個姿勢來問,那就變成,為什麼非用單細胞測序不可?
世界上沒有兩片相同的葉子。對於多細胞生物來說,細胞與細胞之間是有差異的。當然了,這個差異可大可小。
比如說,受精卵從一個細胞開始分裂,並逐漸形成囊胚,最終發育成個體的時候,細胞與細胞之間的差異會越來越大:有的分化成神經元,有的分化成骨骼肌,各自表達著不同的遺傳信息,承擔著不同的生理功能。
又比如在腫瘤組織中,腫塊中心的細胞,腫塊周圍的細胞,淋巴轉移灶的細胞,以及遠端轉移的細胞,其基因組和轉錄組等遺傳信息,是存在差異的。而這種差異,在臨床上,可以決定該腫瘤對某種療法是否有效。
這就是所謂的遺傳信息的異質性。
傳統的研究方法,是在多細胞水平進行的。因此,最終得到的信號值,其實是多個細胞的平均,丟失了異質性的信息。為了讓大家能夠更加直觀地理解這個問題,我們不妨來看下面這張圖:
為了檢測某個蛋白質的表達量,我們可以用Western blot和流式細胞術來實現。但是,用Western blot的話,我們並沒有辦法區分上述的情況:目的蛋白只在10%的細胞中強表達,還是在50%的細胞里中等表達,還是在所有細胞中弱表達呢?因為最終電泳跑出來,就是一條差不多強度的帶。但如果用流式細胞術這種在單細胞水平對熒光強度加以測定的技術,就能區分上述的情況了。
同樣道理,單細胞測序能夠檢出混雜樣品測序所無法得到的異質性信息。而這將帶領整個遺傳學領域進入新的次元。
三、如何實現單細胞測序?
目前主要有兩種策略來實現單細胞測序。
第一種,也就是目前大多數人所想像的那樣,將單個細胞分離出來,並獨立構建測序文庫,最終進行測序的路線。我們可以通過流式細胞術(含微流體晶元),或者激光捕獲顯微切割(LCM)來實現。流式細胞術估計大家比較熟悉,就不多講了,它主要運用於細胞樣品。對於組織切片樣品來說,主要是通過LCM來獲取單細胞,原理可以見下面的示意圖。
不過,將單細胞挨個分離出來再分別建庫測序,通量非常低,這主要受成本的限制。隨著待測單細胞的個數的增長,測序的成本也會幾乎呈線性提升。通常做十幾二十來個細胞,就要燒掉很多錢了。然而,這數十個細胞,就足夠說明問題了嗎?
為了克服這個困難,近年來多採取第二種策略:基於標籤(barcode)的單細胞識別。它的主要思想是,給每個細胞加上獨一無二的DNA序列,這樣在測序的時候,就把攜帶相同barcode的序列視為來自同一個細胞了。這種策略,可以通過一次建庫,測得數百上千個單細胞的信息。
不過,針對具體的測序類型,給細胞加barcode的方案是有不小的區別的。對於RNA(轉錄組mRNA)來說,會比較容易理解一些。由於mRNA測序前需要做逆轉錄,那麼我們只需要在poly T引物的5』端加入barcode即可。具體可見下面的示意圖(來自文獻doi:10.1038/nprot.2016.154):
首先將單細胞懸液樣品和帶有barcode的水凝膠珠子,通過微流體晶元,包裹在一個油滴之中。在油滴中進行逆轉錄之後,每一個單細胞的cDNA文庫,就帶上了獨一無二的barcode了(藍色部分)。最後,我們再將所有的單細胞cDNA文庫混在一起測序,再通過程序識別barcode,區分單細胞。
如果測序對象是DNA,比如全基因組,就需要用別的方式來加barcode。目前主要是通過一種經過改造的高效轉座酶(transposase)Tn5來實現。
基因轉座是指轉座子DNA從一個染色體座位「跳躍」到另外一個座位的過程。在這個過程中,有轉座酶的參與。單細胞的DNA測序就利用了這個特性,將barcode DNA預先和轉座酶Tn5組裝好,再通過上述的微流體技術,將細胞和轉座複合物包裹在一個油滴之中。隨後,轉座酶會把barcode插入到基因組DNA之中。這個過程在文獻中也被成為tagmentation。
不過,基於Tn5的barcode複雜度(即能有多少獨一無二的barcode)還是比較有限的。為了保證tagmentation的效率,上圖中紅色的barcode區域不可以過長。同時,為了避免測序錯誤帶來的誤識別(如偶爾測錯了一個鹼基,但卻被當成另外一個barcode),barcode的複雜度也不是4的n次方那麼高,需要引入校正機制。具體就不展開講了。總地來說,僅靠Tn5來做單細胞,一次往往僅能識別數十到數百個單細胞。
為了提高複雜度,即一次能夠捕獲的單細胞數目,目前的解決方案是走組合索引(combinatorial indexing)路線。(見下圖,來自文獻doi:10.1038/nmeth.4154)
它的主要思路是,通過兩步反應,加兩次標籤。首先,將單細胞懸液放在多孔板中,並用轉座酶Tn5給細胞加第一個barcode,這裡每個孔中的barcode是不同的。然後,再將樣品混合起來,通過流式細胞術,將少量的細胞分選到含有建庫PCR引物的多孔板中。而這些引物是帶有第二輪barcode的。因此,經過Tn5的轉座,和PCR加標籤,絕大部分的細胞就能帶上獨一無二的barcode了。
讀到這裡,肯定有人發現這個方案存在的問題。舉個例子,萬一在流式分選時,在第一個孔里分了兩個或以上橙色細胞,然後又通過PCR被加上了紅色的標籤,那這兩個單細胞就無法被區分開來了。
確實如此,combinatorial indexing大概會有10%的撞車率(collision rate),即約有10%的機會把兩個單細胞被誤認為是同一個。這個數值的高低,取決於第一步tagmentation的複雜度(複雜度越高,撞車率越低),以及在分選時,分到每一個孔里的細胞數量(數量越低,撞車率越低)。但是,combinatorial indexing卻能一次識別數千個單細胞,將通量提升數十至上百倍。魚與熊掌,就看實驗者的取捨了。
推薦閱讀:
※把兩隻獨自隔離長大的小白鼠放到一起,是否會自覺交配?人類呢?
※癌症的入侵方程式:為什麼癌症在有些人身上更容易轉移?
※轉基因技術是不是像拼圖一樣,可以隨意定製被轉基因物種的特徵?如果不行,為什麼?
※請問孕檢結果人類巨細胞病毒IgG陽性,人類巨細胞病毒IgM陰性嚴重嗎?該怎麼辦?
※RH陰性血型是由一對等位基因控制的嗎?該血型稀少的主要原因是什麼?