對癌癥更加理解!最大規模癌癥基因組研究公布

2020-02-14 15:35:37

來源:Nature自然科研

一項大型國際合作項目對38個癌癥組織的2600多個腫瘤標本進行了全方位研究,對癌癥的遺傳基礎提出了大量新見解。

自2001年首次完成人類基因組測序以來,對腫瘤進行全面基因組表征就成了癌癥研究人員的主要目標。自那時起,測序技術和分析工具不斷進步,推動了該領域的快速發展。《自然》2月6日發表的6篇論文中1-6,全基因組泛癌分析(Pan-Cancer Analysis of Whole Genomes,PCAWG)聯盟呈現了迄今最全面也最龐大的癌癥基因組薈萃分析。之前的分析主要聚焦癌癥基因組中的蛋白質編碼區域,而PCAWG分析的是整個基因組。每篇文章都側重于癌癥遺傳學一個重要方面,綜合起來看,這6篇文章對于全面掌握癌癥的遺傳復雜性具有重要意義。

在詳細介紹每項研究之前,必須要指出的是,PCAWG背后依賴的是大量的數據和復雜的組織框架。整個項目依托四大洲的科學家組成的跨學科團隊,一共涉及744個學術機構。為了在開展分布式研究的同時保護患者數據,科學家必須克服技術上、法律上和倫理上的重重阻礙。研究人員一共分為16個工作組,每個組專注于癌癥基因組學的一個方面,例如,有的組評估突變重復率,有的組推斷腫瘤的演化。

聯盟一共對38種不同腫瘤進行了整合分析,對2658個全癌基因組進行了測序(圖1),同時還對來自同一個體的相應非癌細胞樣本進行了測序。此外,研究人員還分析了1188個腫瘤轉錄組——即腫瘤中RNA轉錄本的序列和豐富度。

圖1

圖1 | 全球性抗癌研究。全基因組泛癌分析(PCAWG)聯盟由來自四大洲(藍色)的癌癥研究人員組成。聯盟對38種腫瘤的2658個全癌基因組進行了測序和分析。這項工作涉及的大量數據需要動用復雜的云計算。聯盟發表的6篇論文1-6分別側重不同方面。(自然發表的作品對于發表地圖中涉及的管轄權爭議持中立態度。)

這些合作涉及廣泛的質量控制,協調數據處理,以及對檢測突變的不同計算流程進行大規模、系統性的實驗驗證。多個計算算法和流程必須同步使用和對比。這就需要幾百TB的數據,這些數據分布在多個數據中心,可能需要百萬小時的處理時間——而云計算極大緩解了這些問題。顯然,PCAWG聯盟的合作作為一個極佳的范例,證明了云計算在促進國際合作,推進數據密集型領域發展方面的關鍵作用。

第一篇論文1對PCAWG數據集的廣度和深度進行了概述。聯盟報告稱,平均而言,每個癌癥基因組攜帶4-5個驅動突變,這為癌細胞提供了選擇優勢。在被分析的腫瘤中,只有5%的腫瘤找不到任何驅動突變。相比之下,許多腫瘤都存在染色體重排(17.8%的腫瘤)和染色體碎裂(22.3%的腫瘤),這兩個基因組災難的典型表現會導致基因組發生重大的結構性變化。

其他5篇論文則從數據集的不同角度切入。在第2篇論文中,Rheinbay等人2鑒定了非編碼DNA中的驅動基因。這項工作非常具有挑戰性,因為檢測非編碼區中的突變比編碼區中的突變要難得多,更不要說評估其重復率了。盡管如此,作者還是通過仔細建模、排除偽影,系統地鑒定出了非編碼驅動突變。

作者的結果對之前報道的非編碼驅動突變提出了質疑,如長鏈非編碼RNA NEAT1和MALAT1。此外,作者也揭示了新的驅動突變,比如在關鍵腫瘤抑制基因TP53非編碼區反復出現的一個突變。他們還發現端粒酶基因TERT的非編碼區中存在頻繁發生的突變,這些突變會導致端粒酶異常高表達(從而促進腫瘤細胞不受控地分裂)。這一發現印證了之前的一項泛癌研究的結果:進展期(轉移性)腫瘤中的端粒酶突變率較高(12%)7。盡管這項研究并未直接排除其他非編碼驅動突變的存在,但至少可以說明這類突變并不常見。

在第3和第4篇論文中,Alexandrov等人3和Li等人4主要關注被稱為“特征”(signature)的基因組異常。不同的過程,如DNA修復機制存在缺陷或暴露于環境誘變劑,都會導致這種特征性的DNA變異。想要進一步提煉已知的突變特征,挖掘新的特征,就需要非常大的基因組數據集。值得稱道的是,Alexandrov等人和Li等人共鑒定出97個特征。在這些新發現的特征中,不僅包含常規的單核苷酸特征,還包括與多核苷酸變異以及DNA小片段插入或缺失相關的特征。

不僅如此,Li和同事還是最早發現涉及結構變異(structural variant,SV)的可復制特征的研究團隊之一,這里的結構變異是指大塊基因組的重排。由于結構變異的多樣性和復雜性,識別這類特征比識別突變特征要難得多。

通過對突變進行分組,研究人員一共鑒定出16個結構變異特征,揭示了缺失和相互倒位這兩個結構變異之間的推斷性機制聯系等其他關系(最后一個特征涉及DNA片段方向的反轉)。研究人員還對這16個特征在癌癥中的作用提出了新見解。分析顯示,特定DNA修復基因中的突變與一些癌癥特征有關。比如,聯盟發現,基因CDK12的突變與DNA串聯重復有關;DNA修復酶MBD4的截短變異體會與涉及CpG位點這一DNA序列的突變特征同時出現。總而言之,這些新發現的特征為我們理解癌癥發展機制以及誘變暴露在此過程中的作用奠定了基礎。

1976年8,科學家首次提出,癌癥的發展遵循一種演化的過程。自那以后,研究人員從隨機突變和自然選擇的角度來描述癌癥演化的特征。如果癌細胞攜帶的突變具有高適應性,這類細胞就會迅速繁殖,成為細胞群中數量最多的細胞克隆。這種現象稱為克隆清除(clonal sweep),會在腫瘤生長期間的反復發生。隨著時間推移對同一個腫瘤的多個區域進行測序,是研究癌癥演化的最有效方式;但研究人員也可以通過單次活檢對演化過程進行重建——Gerstung等人5在第5篇論文中便采取了這一方法。

作者在這里引入了“分子時間”的概念,對克隆和亞克隆突變進行分類。他們推斷,僅存在于一部分腫瘤細胞中的亞克隆突變,應該是在癌癥演化的后期才出現的。對于所有腫瘤細胞中都存在的克隆突變,作者根據突變發生在克隆的拷貝數增益(一個基因或染色體區域的拷貝數增加)之前或之后,將克隆突變分為早期或晚期。研究人員將多種腫瘤的演化數據匯總,從而確定了一些常見的突變軌跡,比如APC-KRAS-TP539就是大腸癌中典型的突變發生順序9。

Gerstung等人的研究發現,某種癌癥中最常見的驅動突變,其出現時間往往也最早。同樣,如果拷貝數增益在某種癌癥中反復發生,其發生時間也較早。舉例來說,在透明細胞腎癌中,5號染色體局部的拷貝數增益很常見,且多在腎癌發展早期就出現了。相反,全基因組復制在這類腎癌中的發生時間較晚。最后,研究人員發現,至少在40%的腫瘤中,突變特征會隨時間變化。這些變化意味著,隨著疾病進展,環境暴露的作用逐漸減弱,而DNA修復缺陷的出現頻率和嚴重程度逐漸增加。總而言之,該小組的研究結果表明,驅動突變可以發生在癌癥確診的好幾年前,這對疾病早發現以及生物標志物的開發都具有重要意義。

在最后一篇論文中,PCAWG轉錄組核心小組和他們的同事6分析了1188個腫瘤的轉錄組及全基因組測序數據,建立了DNA變異與RNA變異的功能聯系。小組發現數百個單核苷酸DNA突變與附近基因的表達之間存在關聯。然而,更大的拷貝數變異才是促使癌細胞中基因表達變化的主要因素。此外,突變還與轉錄本的結構變化有關,例如在非編碼區(內含子)內形成新的蛋白質編碼區(外顯子)。

研究人員還描述了“橋式融合”(bridged fusion)的發生頻率。橋式融合是指兩個基因由于第三個DNA片段的插入而產生融合的現象。最終,在分析的1188個樣本中,雖然87個在DNA水平上沒有驅動變異,但每個樣本中都發現了RNA水平的改變。總之,從這些結果可以看出,將RNA和DNA測序結果進行整合分析,對癌癥研究具有重要作用10。

這6篇論文和其他期刊共同發表的相關論文(請參閱go.nature.com/3boajsm),可以看作是癌癥和云基因組學領域的里程碑。通過分析推斷,聯盟成功將十年里以觀察為主的癌癥測序研究向前推進了一大步。值得注意的是,盡管與描述性研究相比,推理性分析能夠增進我們對癌癥的了解,但其結果的不確定性也更高。

PCAWG數據集的公開性和高質量,將會帶來新一輪的生物學見解,推動方法學的發展。將其與其他功能性基因組數據集相整合,如探測基因組的3D架構,勢必也會拓展我們對遺傳學異常的原因及后果的認知。

當前研究最大的局限性在于,缺乏有關患者治療及結局的臨床數據。這些數據能幫助研究人員發現可預測臨床結果的遺傳學變化。幸運的是,一個名為國際癌癥基因組聯盟-加速基因組腫瘤學研究(ICGC-ARGO)的項目正在進行中,該項目將為10萬多名癌癥患者構建這樣的資源庫。

PCAWG匯集了千萬科學家的力量,共同完成了這個使命。這些合作的長期影響不僅來自今天發表的研究結果,還將來自全球研究人員的通力協作,來自各成員之間的知識交流。

關鍵詞: 癌癥