立場新聞 Stand News

諾貝爾獎前奏:「度日如年」的次世代定序

2017/10/2 — 22:20

Thomas Wensing / flickr

Thomas Wensing / flickr

DNA 是生命的密碼,這個秘密全都記錄了在一連串 A 、 T 、 C 、 G 四個鹼基中。這些由 A 、 T 、 C 、 G 組成的密碼指揮著蛋白質的生成,從而影響生物的運作。只要破解到 DNA 的 A 、 T 、 C 、 G 鹼基的次序,就等同破解到生命的秘密。

破解鹼基次序的過程叫做定序 (sequencing) 。其實定序也不是甚麼新奇事,科學家早在 1960 年代已經發明了定序的技術。現在最常用的 DNA 定序方法是桑格定序 (Sanger sequencing) ,發明者桑格 (Frederick Sanger) 是歷史上唯一一位獲得兩次諾貝爾化學獎的科學家(除了發明了 DNA 定序法,他的另一個獲獎研究是完整地定出胰島素的胺基酸序列,幫助我們認識蛋白質的結構組成)。

桑格定序的做法是用特別的手段去複製出需要被定序的 DNA 。DNA 是由脫氧核糖核苷酸 (deoxyribonucleotide) 組成的,但在這個反應中使用的原材料除了脫氧核糖核苷酸,更有雙脫氧核糖核苷酸。雙脫氧核苷酸 (dideoxynucleotide) 一旦它被加入到 DNA 鏈上,這個 DNA 鏈就不能再繼續增加長度。而且這個雙脫氧核苷酸更加入了特別的螢光部分,令它可以在雷射的作用下發出螢光。

廣告

DNA 有雙螺旋結構,由兩股 A 與 T 相對應,C 與 G 相對應的去氧核苷酸鏈構成,舉一個例子,假如我們目標 DNA 的次序是 …ACGTGATA… ,與它互補的一段 DNA 就是 …TGCACTAT… ,我們稱之為範本 (template)。在桑格定序的過程中, DNA 範本會被進行複製,這樣理論上就可以合成出我們的目標 …ACGTGATA… 。

現在假設 A’ 、 T’ 、 C’ 、 G’ 分別是 A 、 T 、 C 、 G 的雙脫氧核苷酸版本,只要它們一加到 DNA 鏈上,這個 DNA 鏈會停止增加長度。

廣告

如果第一個裝進去的是 A’ ,那這段 DNA 就完結了。

如果第一個裝進去的是 A ,那 DNA 複製可以繼續,如果第二個裝下去的 C’ ,那這段 DNA 又完結了。我們得出的 DNA 段就是 AC’ 。

如此類推,我們可能得出的 DNA 鏈分別是:

…A’
…AC’
…ACG’
…ACGT’
…ACGTG’
…ACGTGA’
…ACGTGAT’
…ACGATATA’
…ACGATATA…

這幾段 DNA 鏈有不同的重量,只要用毛細管電泳 (capillary electrophoresis) 分離,然後用雷射找出最末端雙脫氧核苷酸發出那一種色的螢光,就可以得到這段 DNA 排列的次序。大家可以參考下圖。

桑格定序的原理/來源:Lieberman M, Peet A. (2018). Marks basic medical biochemistry: a clinical approach. Philadelphia: Wolters Kluwer.

桑格定序的原理/來源:Lieberman M, Peet A. (2018). Marks basic medical biochemistry: a clinical approach. Philadelphia: Wolters Kluwer.

桑格定序是一個非常聰明的定序方法,問題是它到了今天很多時候都力不從心了。桑格的方法每次可以定序約 1,000 bp ,即一千個鹼基,這大約是一條基因的大小。如果遇到較大的基因,也可以分開幾次去定序,只是可能要花多一點時間。但現今的生物科技人員希望的是為大量的基因,甚至是生物的整個基因組定序。以人類為例,人類的基因組共有 30 億對鹼基。 幸好,一項革命性的科技成功扭轉了這個局面。這項技術有一個很壯麗的名稱,叫做「次世代定序」 (Next Generation Sequencing, NGS) 。

不同公司已經推出過很多不同原理的次世代定序方法,但它們的大原則基本上是一樣的,就是:

  1. 先把一大段要定序的 DNA 隨機的打散
  2. 把打散了的 DNA 片段分開,然後各自大規模複製
  3. 同一時間為大量打散的 DNA 片段定序
  4. 透過強大的電腦,利用隨機打散的 DNA 次序重新組回原來的 DNA 次序

這個原理就好像,如果同學被老師罰抄一本書,當然要好多時間。但如果有方法可以把這本書分成很多部分,一大班人同時抄書中不同的部分,最後把各自抄完的部分跟次序併合回成為原本的抄本,那樣就省時省力了。在過往,最後的一個步驟在技術上是沒有可能的。如此大量 DNA 的資料亂七八糟,就如亂碼一樣,試問怎麼可能可以併回成原狀呢?幸好現在有非常強大的電腦,可以用複雜的統計學方法完成這個任務。

要知道次世代定序有多利害,讓史丹福跟大家分享一些驚人的數字。 2003 年人類基因體完整定序圖譜完成,共用了 13 年的時間和 27 億美元的費用,定序了一組基因體序列共30億個鹼基,也就是基因體的一半。到了今天,使用最新的次世代定序方法,完成一個人的基因體定序僅需 26 小時和 1,500 美元!那簡直是一個天與地的距離!

史丹福在標題中使用的「度日如年」是一個「食字」,意思就是科學家過去用十幾年才完成到的任務,在今天使用次世代定序,可以在幾日內完成!

歷史上第一個次世代定序的系統是由 Jonathan Rothberg 創立的454生物科學公司在2005年所創作的。後來, 454 生物科學公司於2007年被羅氏集團 (Roche) 所收購,所以這個次世代定序方法現在被稱為羅氏 454。我們先看看這個系統的運作方法:

1. 先把一大段要定序的DNA隨機的打散

2. 把打散了的 DNA 片段分開,然後各自大規模複製:

先為打散的 DNA 短鏈加上接頭(adapter,一節幫 DNA 短鏈與瓊脂凝膠珠子連接的 DNA),然後用一種特別的技術「乳液 PCR (emulsion PCR) 」把它們大量複製。做法是把 DNA 短鏈與一種特製的瓊脂凝膠珠子混合。這些特製的珠子有很多寡核苷酸 (oligonucleotide) ,與接頭互補。然後再用礦油與水調成一個微乳液 (microemulsion),把各個連上 DNA 短鏈的珠子分開。這時,每個微乳液就是一個反應器, PCR 反應在這些微乳液裡進行,最後每個珠子上都有過百萬段複製出來的 DNA 短鏈。 接著把微乳液打散,把珠子轉移到微孔板,板上有大量的微孔,每個微孔有一顆珠子,珠子上有數百萬條同一個序列的 DNA 短鏈。

「乳液 PCR」的運作原理 /來源:Casey G, Conti D, Haile R, Duggan D. Next generation sequencing and a new era of medicine. Gut 2012: 62(6), 920-932.

「乳液 PCR」的運作原理 /來源:Casey G, Conti D, Haile R, Duggan D. Next generation sequencing and a new era of medicine. Gut 2012: 62(6), 920-932.

3. 同一時間為大量打散的 DNA 片段定序

做好準備工作後,羅氏 454 使用的定序方法是焦磷酸定序 (pyrosequencing) 。這項技術是由技術是由 Mostafa Ronaghi 和 Pål Nyrén 於 1996 年在斯德哥爾摩的皇家工學院發展出來的。做法是把四種脫氧核糖核苷酸輪流加入,每次只加入一種。當脫氧核糖核苷酸加入去 DNA 鏈時,會釋放出焦磷酸 (PPi) 。焦磷酸與 APS 反應,會生成 ATP 。如果大家讀過生物學,都一定會對 ATP 很熟悉,它是一種可以儲存能量的分子。它釋放的能量可以與螢光素氧化為氧化螢光素。系統透過偵測光信號的強度,就可以得知有多少脫氧核糖核苷酸被加進 DNA 鏈中。加入得越多,反應釋出的光信號就越多。之後系統會用酵素把多出的脫氧核糖核苷酸輪降解,再加入另一種脫氧核糖核苷酸輪,直到每個微孔上珠子的 DNA 都被完整地定序。

4. 透過強大的電腦,利用隨機打散的 DNA 次序重新組回原來的 DNA 次序

454 是一個劃時代的新定序方法,但之後由兩位英國劍橋大學科學家 David Klenerman 及 Shankar Balasubramanian 成立的 Solexa 公司很快就發表了另一個次世代定序系統,而且非常成功,它的光芒可以說是完全把 454 完全掩蓋了。這兩位科學家原先是打算用螢光標記的脫氧核糖核苷酸去觀察 DNA 聚合酶 (DNA polymerase) 去觀察這種酵素在複製 DNA 時的移動模式,誰不知他們討論時卻忽發奇想到想到用這個原理來製造出新的 DNA 定序方法,於是他們就設立了 Solexa 公司去繼續落實他們的想法。

Solexa 公司於 2007 年被 Illumina 公司買下,目前 Illumina 堪稱 DNA 定序的全球龍頭,全世界約九成的次世代定序工作都是由 Illumina 的機器所完成的。

Solexa(即現時的 Illumina)系統用的概念與 545 系統類似,但細節上卻是完全兩回事。讓我們一起看一看 Solexa 系統的運作原理。

1. 先把一大段要定序的DNA隨機的打散

2. 把打散了的 DNA 片段分開,然後各自大規模複製:

Solexa 系統用了一個與乳液 PCR 完全不同的方法,它先為打散的 DNA 短鏈加上接頭,然後把它們與特製的晶片連接,晶片表面帶有大量與接頭序列互補的寡核苷酸。
之後 DNA 短鏈彎下來,讓另一接頭與旁邊的寡核苷酸連接,形成一個類似橋的結構。再加入脫氧核糖核苷酸,讓「橋」可以複製成兩段。然後又讓兩段「橋」重新弄直。讓這個過程不斷重複,最後在晶片上做出一大堆不同的DNA短鏈群,每一群都是由相同的 DNA 短鏈複製出來的。這個方法被稱為「橋式 PCR (Bridge PCR) 」。

「橋式 PCR」的運作原理 / 來源:ATDBio

「橋式 PCR」的運作原理 / 來源:ATDBio

3. 同一時間為大量打散的 DNA 片段定序

Solexa 系統用的方法叫做合成性定序 (Sequencing by synthesis) ,方法是類似最基本的的桑格定序。它由 Solexa 公司的始創人,之前提及過的 David Klenerman 及 Shankar Balasubramanian 所發明。

它使用了一種特別的脫氧核糖核苷酸。這種新研發的特殊脫氧核糖核苷酸比桑格定序使用的雙脫氧核苷酸又進步多了。它都帶有螢光的部分,每一種脫氧核糖核苷酸有不同的顏色,它本來可以令 DNA 短鏈不再增長,但在經過特殊的化學反應之後,又可以令 DNA 短鏈重新再繼續增加長度。

當一個脫氧核糖核苷酸被加進 DNA 短鏈,反應就會停止, DNA 短鏈不能再繼續增加長度,系統會記錄脫氧核糖核苷酸的顏色,這樣系統就可以知道被加進的是那一種脫氧 核糖核苷酸。然後在經過特殊的化學反應之後,另一脫氧核糖核苷酸可以再被加進 DNA 短鏈中,這個過程不斷重複,直到晶片上的每一群 DNA 短鏈都被完整地定序。

Solexa系統使用的定序法 /來源:ATDBio

Solexa系統使用的定序法 /來源:ATDBio

4. 透過強大的電腦,利用隨機打散的 DNA 次序重新組回原來的 DNA 次序

其實除了 454 及 Solexa 系統之外,不同的次世代定序系統如也都陸續被推出,如 SOLiD 系統、 Ion Torrent 系統,但由於篇幅所限,史丹福就只介紹兩個最有代表性的系統。

次世代定序的出現對科研工作帶來了革命性的改變,以癌症研究為例,科學家現場可以輕易地把各種癌症的全基因體序列定出,所以現在找尋致癌基因要比以前容易得多了。除了科研外,次世代定序對臨床醫學也帶來了翻天覆地的變化,令到「個人化醫學」 (personalized medicine) 不再是幻想。甚麼是「個人化醫學」呢?簡單些來說就是為每個病人都制定出獨一無二,最適合他們的療法。以急性髓性白血病 (Acute myeloid leukemia, AML) 為例,在過去醫生會用大致上相同的療法去治療這個疾病,但現在我們已經知道至少四十多組基因是與這個疾病有關的(未來應該會繼續増多),如果我們可以知道每個病人這四十多組基因的狀態,我們理論上就可以更準確地預測病情,用一些可以針對特定基因的藥。但如果用傳統的桑格定序,要定出四十多組基因的序列,以一般醫院的資源來就簡直是痴人說夢。直到次世代定序的出現,醫生的這個願望即刻變得近在咫尺。事實上,現在已經有不少醫院引進了或準備引進這個科技,相信這將會是病人之福。

1980 年,桑格因發明了 DNA 定序法而獲得了諾貝爾化學獎。到了今天這個「次世代」,不知道桑格的繼承者們又會否得到這個榮耀呢?

資料來源:

  1. Goodwin S, Mcpherson JD, Mccombie WR. Coming of age: ten years of next-generation sequencing technologies. Nature Reviews Genetics, 2016:17(6), 333-351. 
  2. Voelkerding KV, Dames SA, Durtschi JD. Next-Generation Sequencing: From Basic Research to Diagnostics. Clinical Chemistry, 2009:55(4), 641-658. 
  3. Illumina, Sequencing and array-based solutions for genetic research

原文刊於作者博客

發表意見