GWAS基礎(chǔ)概念
GWAS
全基因組關(guān)聯(lián)分析(Genome-wide association study,GWAS)是指對(duì)多個(gè)個(gè)體在全基因組范圍的遺傳變異(標(biāo)記)多態(tài)性(SNP)進(jìn)行檢測(cè),獲得基因型,進(jìn)而將基因型與可觀測(cè)的性狀,即表型,進(jìn)行群體水平的統(tǒng)計(jì)學(xué)分析,根據(jù)統(tǒng)計(jì)量或顯著性p值篩選出最有可能影響該性狀的遺傳變異(標(biāo)記),挖掘與性狀變異相關(guān)的基因。
即研究基因與表型的關(guān)聯(lián),找出哪些SNP與目標(biāo)性狀相關(guān)。
GWAS常用分析方法:
邏輯回歸(表型數(shù)據(jù)為二元,如病了和沒(méi)?。?/p>
線性回歸(表型數(shù)據(jù)為連續(xù)性變量,如高度)
表型數(shù)據(jù)正態(tài)分析(如果不是正態(tài)分布,需轉(zhuǎn)換處理為正態(tài)分布;大自然的分布一般都是正態(tài)分布,很多統(tǒng)計(jì)方法都是根據(jù)正態(tài)分布作出的分析,如果數(shù)據(jù)不符合正態(tài)分布,用正態(tài)分布的公式/方法來(lái)分析就會(huì)出大問(wèn)題)
LD衰退
連鎖不平衡(Linkage disequilibrium,LD)是指分屬兩個(gè)或以上基因座位的等位基因同時(shí)出現(xiàn)在一條染色體上的幾率,高于隨機(jī)出現(xiàn)的頻率。
在滿足哈迪溫伯格的情況下,A與B基因同時(shí)出現(xiàn)在一條染色體的概率應(yīng)為P(A)xP(B),即兩者沒(méi)有關(guān)聯(lián)、各自隨機(jī)出現(xiàn);但如果A和B偏向于抱團(tuán)遺傳,不再完全隨機(jī)、兩者之間具有相關(guān)性,則為連鎖不平衡。
一般用D值來(lái)度量不同基因座之間的相關(guān)性。
D=P(AB)-P(A)xP(B)
D不等于0則兩基因之間存在連鎖不平衡。
D的絕對(duì)值大小反應(yīng)了連鎖程度大小。
D值經(jīng)過(guò)標(biāo)準(zhǔn)化為r2(r的平方),也稱LD系數(shù),取值范圍在0~1。
D是根據(jù)每個(gè)基因的頻率計(jì)算得出,不能用于基因?qū)χ獾谋容^。
為了能夠在不同基因?qū)χg比較基因連鎖程度的大小,提出了D':
D'=D/Dmax
當(dāng)D’=0,r2=0時(shí),處于完全連鎖平衡狀態(tài)(完全不相關(guān));
當(dāng)D’=1,r2=1時(shí),處于完全連鎖不平衡狀態(tài)(完全相關(guān))。
一般而言,兩個(gè)位點(diǎn)在基因組上離得越近,相關(guān)性就越強(qiáng),LD系數(shù)就越大;反之,LD系數(shù)越小。
這個(gè)規(guī)律通常用LD衰減圖來(lái)呈現(xiàn)。LD衰減圖是利用曲線圖來(lái)呈現(xiàn)基因組上分子標(biāo)記間的平均LD系數(shù)隨著標(biāo)記間距離增加而降低的過(guò)程。
通常馴化程度越高,選擇強(qiáng)度越大的群體,LD衰減速度越慢。
馴化選擇會(huì)導(dǎo)致群體遺傳多樣性下降,位點(diǎn)間的相關(guān)性加強(qiáng)。
群體結(jié)構(gòu)與親緣關(guān)系
群體結(jié)構(gòu):群體水平大尺度遺傳差異,亞群水平等位基因頻率差異,不同祖先來(lái)源,個(gè)體間親緣關(guān)系,家系等不同的群體結(jié)構(gòu)。
基因不能完全表現(xiàn)于表型,且某些個(gè)體之間存在親緣關(guān)系,因此需將群體結(jié)構(gòu)與親緣關(guān)系矩陣一并考慮,才能使SNP與表型的關(guān)系更準(zhǔn)確。
群體結(jié)構(gòu)對(duì)GWAS的影響:會(huì)導(dǎo)致標(biāo)記間的非連鎖關(guān)聯(lián),進(jìn)而導(dǎo)致關(guān)聯(lián)分析結(jié)果出現(xiàn)假陽(yáng)性。
群體結(jié)構(gòu)分析
主成分分析(Principal Component Analysis, PCA)
通過(guò)正交交換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,PCA分析展示比較能區(qū)分群體的2-3個(gè)主成分。
基本思想:設(shè)法將原來(lái)眾多的具有一定相關(guān)性的變量(標(biāo)記)重新組合成一組較少個(gè)數(shù)的互不相關(guān)的綜合變量(主成分)。
系統(tǒng)進(jìn)化樹(shù)
表示生物的進(jìn)化歷程和親緣關(guān)系,基于不同算法可以構(gòu)建NJ樹(shù)(MEGA)、ML樹(shù)(RAxML)、貝葉斯樹(shù)(ExaBayes)等。
structure
反映遺傳變異在物種或群體的分布,推斷群體數(shù)目,判斷某個(gè)體屬于哪個(gè)群體,基于不同算法的分析軟件有STRUCTURE、ADMIXTURE、fastSTRUCTURE、TeraStructue等。
原理:將大群體分成n個(gè)服從哈迪溫伯格平衡的亞群,將材料歸入各亞群,計(jì)算其基因組變異源于每個(gè)亞群的可能性。
可能性用Q值表示,Q值越大則材料來(lái)源自這個(gè)亞群的可能性越大。
不同數(shù)量亞群的劃分對(duì)于不同的CV值(coefficient of variation,變異系數(shù)),最小CV值對(duì)應(yīng)的為最佳亞群數(shù)。
遺傳關(guān)系矩陣
包括血緣,共同祖先及其他共同特征的關(guān)系,可以根據(jù)系譜關(guān)系、標(biāo)記基因型(AA、Aa、aa)、標(biāo)記歐氏距離(ED值)等方法推斷,MLM可以作為協(xié)方差控制假陽(yáng)性。