結直腸癌全基因組關聯分析研究進展及展望

結直腸癌是最常見的消化系統惡性腫瘤,和肺癌、乳腺癌一起,列為當前全球的三大惡性腫瘤。2018年全球新發結直腸癌病例共1 800 977例,佔惡性腫瘤發病總數的10。2%,發病率在總人群中僅次於肺癌和乳腺癌,位列第三;死亡病例共861 663例,佔惡性腫瘤死亡總數的9。2%,死亡率在總人群中僅次於肺癌,位列第二。在我國,隨著人口老齡化及生活方式的改變,結直腸癌的發病率逐漸升高。據2018年國家癌症中心資料,2014年我國新發結直腸癌病例約為37萬,佔惡性腫瘤發病總數的9。74%,人口標化發病率為17。52/10萬。其中男性結直腸癌發病例數是21。4萬例,女性是15。6萬例,人口標化發病率分別為20。72/10萬和14。40/10萬,發病率在男性中位於肺癌、胃癌、肝癌之後,在女性人群中位於乳腺癌、肺癌之後。結直腸癌死亡病例約為18萬例,其中男性和女性結直腸癌人口標化死亡率分別為9。58/10萬和6。33/10萬,分別位居惡性腫瘤死亡率的第五位和第四位。結直腸癌嚴重影響人類健康,因此非常必要進一步研究其發病機制,為結直腸癌防治提供更好的方法。

結直腸癌的發生、發展是一個多步驟、多因素參與的過程,是遺傳和環境因素共同作用的結果,其中遺傳因素在結直腸癌中發揮了重要的作用。2%~5%的結直腸癌患者攜帶已知的遺傳缺陷,如Lynch綜合徵、家族性腺瘤樣息肉病、黑斑息肉綜合徵、幼年息肉綜合徵等,攜帶者罹患結直腸癌的風險極高。基於雙生子的大規模流行病學研究表明,大約35%的結直腸癌與遺傳因素相關。基於家系的關聯研究發現了許多結直腸癌患者帶有的易感基因遺傳突變,但這些人群中罕見的、高外顯率的基因遺傳突變(如MMR基因的常見突變MLH1/MLH2)只能解釋一小部分結直腸癌的發生、發展。基於“常見疾病,常見變異”假設,大部分結直腸癌患者的遺傳易感性是由人群中多個常見的、低外顯率的基因遺傳突變共同作用所導致的。全基因組關聯分析研究(genome-wide association study,GWAS)是在全基因組層面上開展的多中心、大樣本、多階段驗證的遺傳變異,即單核糖核酸多型位點(single nucleotide polymorphisms,SNP)與疾病的關聯性研究,使我們有可能在全基因組範圍內發現與疾病相關的基因遺傳變異。自2007年第一篇關於結直腸癌GWAS文章發表至今,全球有關結直腸癌的GWAS研究已有數十項,發現了許多新的遺傳易感位點,極大地推動了結直腸癌的遺傳機制研究。為了進一步研究結直腸癌的遺傳易感性,本文將對結直腸癌GWAS研究進展進行綜述。

1

結直腸癌GWAS研究的現狀

從2007年起,許多研究者對結直腸癌進行了GWAS研究,在結直腸癌的遺傳機制方面取得了一些進展,發現了許多與結直腸癌相關的遺傳變異位點和區域(表1)。

結直腸癌全基因組關聯分析研究進展及展望

1.1    結直腸癌GWAS研究發現的易感區域

1.1.1   染色體8q24區域 

8q24區域是最早被發現與結直腸癌遺傳易感性相關的區域,其標籤位點有rs10505477、rs6983267、rs7014346和rs7837328,這些SNP的比值比(odds ratio,OR)位於1。1~1。3之間。後續研究證明,8q24區域的遺傳變異不僅影響結直腸癌的遺傳易感性,還與前列腺癌、乳腺癌等多種惡性腫瘤的遺傳易感性相關,表明該區域的遺傳變異可能影響多種腫瘤的遺傳易感性。8q24區域內無蛋白編碼基因,其兩端連線有MYC基因和FAM84B基因。研究發現,8q24區域的遺傳變異可能影響癌基因MYC的表達,進而影響腫瘤的發生發展。

1.1.2    染色體18q21區域 

18q21區域內的主要遺傳位點有rs4939827、rs12953717和rs4464148,這3個SNP的OR值在1。1~1。2之間,且這3個SNP均位於SMAD7基因內含子內,相互間存在較高的連鎖不平衡(linkage disequilibrium,LD)。眾多研究表明TGF-β/SMAD訊號通路與細胞增殖、分化和遷移有關,在結直腸癌的發生發展中起一定作用。

1.1.3    與TGFβ訊號通路相關的位點 

研究發現,TGFβ訊號通路與細胞增殖、分化、遷移密切相關,該訊號通路的基因突變在結直腸癌的發生發展中發揮了重要的作用。除了前述18q21區域位點外,前期的結直腸癌GWAS研究中還發現了4個SNP標記的LD區域。這些區域包含了TGFβ訊號通路中的相關基因,分別為GREM1(15q31/rs4779584)、骨形成蛋白BMP2(20p12/rs961253)、BMP4(14p22/rs4444235)、CDH1(16q22 /rs9929218和rs1862748)以及RPHN2基因(19q13。1/rs10411210和rs7259371)。這些位點單個效應都不大,OR值處於0。87~1。12之間,但可能是多個低效應的位點共同作用影響結直腸癌的遺傳易感性。

1.1.4    其他位於基因或鄰近基因的位點 

染色體6q25。3區域(SLC22A3基因)的遺傳變異位點rs7758229與結直腸癌遺傳易感性顯著相關。SLC22A3是有機陽離子轉運基因家族的一員,該家族在轉運陽離子藥物、毒物和內源性發揮重要作用,從而影響結直腸癌的發生。該位點OR值為1。28,該位點聯合8q24區域的位點rs6983267以及18q21區域位點rs4939827,在飲酒人群中結直腸癌發病風險增加了2倍。

染色體8q23。3區域(EIF3H基因)的遺傳變異位點rs16892766與結直腸癌遺傳易感性顯著相關,OR值為1。25。研究發現,EIF3H調節細胞生長和發育,其表達增加可以提高結直腸癌的生長和侵襲能力,可能機制為rs16892766所在區域能與EIF3H的啟動子相互作用,從而影響EIF3H的表達 。

染色體11q23區域(C11orf93基因)的遺傳變異位點rs3802842和rs11213809與結直腸癌遺傳易感性顯著相關,OR值為1。11。C11orf93基因也稱為COLCA2(colorectal cancer associated 2)。目前有研究認為,11q23區域SNP所在部位可能是基因增強子或轉錄因子的結合區域 。

染色體20q13。3區域(LAMA5基因)的遺傳變異位點rs4925386與結直腸癌遺傳易感性顯著相關,OR值為0。93。LAMA5基因在許多細胞的黏附、分化、轉移中發揮著重要的作用。研究認為LAMA5基因可能透過影響腫瘤細胞與腫瘤微環境的相互作用,從而影響腫瘤細胞的侵襲轉移 。

染色體3q26。2區域(MYNN基因)的遺傳變異位點rs10936599與結直腸癌遺傳易感性顯著相關,OR值為0。93。MYNN基因編碼的蛋白屬於BTB/POZ 和鋅指結構域蛋白家族,有研究證實該基因可透過影響端粒長度,促進多種腫瘤發生 。

染色體11q13。4區域(3基因)的遺傳變異位點rs3824999與結直腸癌遺傳易感性顯著相關,OR值為1。08 。該位點位於POLD3基因的內含子區域,POLD3基因編碼DNA聚合酶亞基,影響細胞DNA修復功能,與腫瘤的發生發展密切相關 。

染色體10q25區域(VTI1A基因)的遺傳變異位點rs12241008與結直腸癌遺傳易感性顯著相關,OR值為1。19。該位點位於VTI1A基因的內含子區域,VTI1A基因編碼的蛋白在細胞內小體轉運作用中起作用。有研究發現,融合基因VTI1A-TCF7L2可以促進結直腸癌細胞生長和轉移 。

染色體3q14。1區域(LRIG1基因)的遺傳變異位點rs812485與結直腸癌遺傳易感性顯著相關,OR值為1。09。該位點位於LRIG1基因的內含子區域。研究發現LRIG1基因編碼的蛋白是結腸隱窩幹細胞啟用後的標誌,但與腫瘤的關係尚不明確。

染色體12q24。22區域(NOS1基因)的遺傳變異位點rs73208120與結直腸癌遺傳易感性顯著相關,OR值為1。16。該位點位於NOS1基因的內含子區域。該基因編碼的蛋白涉及炎症、感染、抗腫瘤等功能,但與結直腸癌的關係尚不明 。

染色體20q13。13區域(PREX1基因)的遺傳變異位點rs6066825與結直腸癌遺傳易感性顯著相關,OR值為1。07。該位點位於PREX1基因的內含子區域,該基因編碼參與細胞遷移和侵襲的訊號蛋白,與結直腸癌的關係尚不明確。

1.1.5    其他區域 

目前GWAS研究發現的與結直腸癌遺傳易感性相關的其他區域有10p14、1q41、12q13。1、15q13。3、6p21、Xp22。2、1p33、8p12、10q26。12、12p13。32、20p12。3、5q31。1、5q23。3、17q12、10q24。2、3p22。1和12q24。12,這些區域的SNP位點都位於目前未知生物學功能的基因間隔區域,尚待大量研究探索其具體的生物學功能。

1.2    不同種族人群的結直腸癌GWAS研究

1.2.1    歐美人群 

結直腸癌GWAS研究始於歐美人群。結直腸癌遺傳性研究(colorectal cancer genetics,COGENT)自2007年開展以來,在英國、加拿大人群中,透過多中心、大樣本、多步驟的重複驗證,發現了11個結直腸癌遺傳易感位點:rs6983267、rs10505477、rs7014346、rs719725、rs4939827、rs4779584、rs16892766、rs10795668、rs3802842、rs1957636、rs4813802。這11個位點的效應均不高,OR值為1。10~1。30。後續的Meta分析和進一步的病例分析新發現了8個位點:rs10411210、rs4444235、rs961253、rs9929218、rs10936599、rs1169552、rs4925386、rs6691170。這些新發現的位點OR值大約為1。10。

1.2.2    亞洲人群

2011年CUI等 和2013年JIA等 在亞洲人群中開展了GWAS研究,發現了5個新的位點:rs7758229、rs647161、rs2423279、rs10774214和rs1665650,這些位點OR值為1。1~1。3。8q24位點在亞洲人群中得到驗證,但同時發現了新的位點,提示歐美人群和亞洲人群的差異對結直腸癌遺傳易感性的影響有所不同。

1.3.3    其他人群 

2013年DUNLOP等 在西班牙人群中開展的GWAS研究,發現了2個新位點:rs12080929和rs11987193,這2個位點的OR值分別為0。73、0。69,提示該位點在西班牙人群的結直腸癌發生中起保護作用。

2

結直腸癌GWAS研究的優勢和侷限性

2.1    結直腸癌GWAS研究的優點

在GWAS研究之前,為了研究結直腸癌這類複雜疾病的遺傳易感性與SNP的關聯,研究者主要採用候選基因策略。該策略主要基於疾病發展過程中已知的具有生物學功能的基因或者生物學通路,選擇該通路中的基因或者其調控區域內的SNP開展關聯研究,從而找出與結直腸癌易感性相關的SNP。但顯而易見,該研究策略不能全面系統地研究基因組內全部或者大部分SNP,遺漏了基因組內大部分的遺傳資訊。隨著DNA測序技術的進步,人類基因組計劃(human genome project,HGP)和人類基因組單體型圖(HapMap)計劃的完成,為研究人類全基因組的SNP提供了理論基礎和資訊資料,GWAS研究亦快速發展。GWAS研究摒棄了候選基因方法中的預先假設,不再著眼於已知的生物學通路基因,而是從人類全基因組範圍內篩選出與複雜疾病遺傳易感性關聯的變異。此外,GWAS研究一般基於極大的樣本量,採用嚴格的統計水準,且一般要求進行多步驟、多中心驗證,因此研究結果的可靠性大大提高。

2.2     結直腸癌GWAS研究的侷限性

2.2.1    GWAS研究基於嚴格的統計水準,可能損失潛在易感位點 

GWAS研究本身因其嚴格的統計水準,一般只選擇少量的峰值位點(如1。0×10)進行後期驗證,這雖然降低了假陽性,但是可能損失其他潛在的遺傳位點,目前認為也可以採用較寬鬆的檢驗水準,如FERNANDEZ-ROZADILLA等在研究中採用了1。0×10至1。0×10檢驗水準,進而發現了新的遺傳易感位點。也有研究者透過Meta分析擴大研究樣本,發現了結直腸癌新的遺傳易感位點。

2.2.2   GWAS研究目前主要關注SNPs,忽略了其他的遺傳變異 

目前結直腸癌GWAS主要研究SNP位點資訊與遺傳易感性的關聯性,對其他型別的變異研究很少,如複製數變異(copy number variations,CNVs)、基因缺失、串聯重複序列等其他結構的變異。THEAN等 研究發現染色體14q11區域的罕見CNV(編碼CHD8)(=1。92,=2。7×10)、染色體3q13。12常見CNV(編碼CD47) (=1。54,=2。9×10) 以及染色體12p12。3常見CNV(編碼RERG/ARHGDIB)(=1。69,=2。8×10) 與結直腸癌的遺傳易感性顯著相關,且其OR值明顯大於前述SNP位點,提示CNVs對結直腸癌遺傳易感性的影響值得進一步研究。

2.2.3    GWAS對低頻率的SNP發現不足 

目前GWAS研究中一般以界值0。01~0。05剔除較低的次要等位基因頻率(minor allele frequency,MAF)值的SNP位點,因此低頻變異的SNP位點可能未被檢測出,從而失去研究的敏感性。對此可以採用加大樣本量和Meta分析合併多個研究資料的辦法,提高統計效能,也有利於發現某些新的低頻SNP位點。另外,特定區域的深度測序和全基因組測序研究亦可能為發現罕見SNP和其他變異提供研究策略。

2.2.4    目前GWAS研究著重發現新的位點,忽略了生物學功能研究 

目前結直腸癌GWAS研究發現的SNP位點,大多位於基因的非編碼區或基因和基因之間的結構區域,只有少部分位點位於基因編碼區。對於這些SNP的生物學功能,需要進行大量的生物學實驗研究,如最早發現的8q24區域的rs6983267位點,最開始被認為處在基因荒漠區域(距離最近的基因區域有330 kb),但是後續的研究發現該位點可以遠端調控癌基因MYC的表達。然而,目前大部分結直腸癌GWAS研究發現的SNP位點生物學功能不明確,需要進一步探索和研究。

2.2.5    GWAS研究的SNP資料庫不全,有賴於深度測序研究 

目前GWAS晶片的SNP資料通常來自HapMap計劃資料庫,不代表人類基因組全部的SNP資料。所以目前的GWAS研究所發現的位點僅代表目前晶片設計中納入的已知SNP資料,根據經典遺傳學,位於同一段染色體的多個SNPs,傾向於整體遺傳,具有高度連鎖不平衡。對於已經發現的與遺傳易感性相關的染色體區域進行深度測序研究和精確定位,可能會發現更多的新位點以及一些罕見的變異 。

2.2.6    目前結直腸癌GWAS研究大都著眼於SNP位點和結直腸癌發生發展的關係,忽略了環境因素和基因的互動作用 

結直腸癌GWAS研究發現了許多SNP位點,但這些位點的效應值均不高,僅能解釋極小部分的疾病易感性,提示存在其他因素影響結直腸癌的發生。CUI等研究發現,飲酒與rs7758229、 rs6983267和rs4939827 3個位點在亞洲人群中的累計效應值明顯升高,OR值為2,故環境-遺傳的互動作用在結直腸癌發生中起重要作用。

3

結直腸癌GWAS研究應用和展望

3.1    結直腸癌風險預測

目前結直腸癌GWAS研究主要透過對病例對照基因研究篩選未知的易感位點,希望透過研究所發現的位點進一步解釋結直腸癌遺傳易感性和發生機制。近年來有研究者嘗試透過所發現的位點建立結直腸癌風險預測的數學模型。已有研究者在乳腺癌研究中聯合以往風險模型,加入GWAS研究所發現的SNP位點,建立新的風險預測模型,發現新模型對人群乳腺癌風險的預測更準確,可以更好地篩選人群中的高危個體。在結直腸癌方面,HOSONO等在日本人群中,利用既往研究發現的23個SNP位點,找出了6個與日本人群結直腸癌顯著相關的位點,並利用這6個位點結合既往風險模型,建立了新的風險模型,結果取得了更好的預測效能。未來可能需要開展更多的研究發現更多、更有效應的位點,以此建立風險模型,才能真正將GWAS研究成果應用到公共衛生健康和腫瘤預防中。

3.2     結直腸癌患者生存分析

結直腸癌患者的生存期可能與其所攜帶的SNP位點有關聯,因此有研究者嘗試在結直腸癌中建立SNP與生存期的關聯性,以此指導臨床治療。SONG等在結直腸癌研究發現5個SNP位點:rs10936599(3q26。2 MYNN)、rs704017(10q22。3 ZMIZ1-AS1)、rs11196172(10q25。2 TCF7L2)、rs3802842(11q23。1 COLCA1-2)以及rs9929218 (16q22。1 CDH1),且這些位點與患者的無進展生存期及總生存期顯著相關。PANDER等在晚期結直腸癌患者中開展的小規模隨機臨床試驗研究表明,卡培他濱+奧沙利鉑聯合貝伐單抗方案(Capox-B方案)治療攜帶rs885036 GG基因型患者的療效優於卡培他濱+奧沙利鉑方案。結直腸癌GWAS生存分析的研究有助於進一步理解SNP位點在結直腸癌整個發生發展中的作用,有可能影響結直腸癌患者不同治療方案的個體化選擇。

3.3     結直腸癌GWAS研究的展望

儘管結直腸癌GWAS研究發現了一系列與結直腸癌易感性相關的SNP位點,但是這些位點在解釋結直腸癌遺傳易感性方面效能有限,提示我們需要開展更多的研究發現新的更具效力的位點。此外,大部分遺傳變異位點的生物學功能尚不明確,需進一步研究探索其訊號通路和調節機制。相信隨著DNA測序技術進一步發展,檢測成本進一步下降,更大規模的人群研究將成為可能。未來結直腸癌GWAS研究可能發現更多的易感基因和遺傳變異位點,為探索結直腸癌的發生、發展機制提供更多的資訊和基礎,在結直腸癌的群體預防和個體治療方面發揮更大作用。

作者:屈曉飛 王夢筠 蔡三軍 魏慶義

作者單位:復旦大學附屬腫瘤醫院腫瘤研究所

腫瘤免疫細胞治療資訊

TAG: 直腸癌位點GWAS基因SNP