五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

如何得到PAM打分矩陣——PAM打分矩陣原理與Dayhoff模型【生物信息學(xué)】

2023-07-15 17:21 作者:游子桀  | 我要投稿

如何的到PAM打分矩陣?PAM打分矩陣原理與Dayhoff模型


B站輸不了公式,請移步知乎?。?!

B站輸不了公式,請移步知乎?。?!

B站輸不了公式,請移步知乎?。?!

知乎文章鏈接:https://zhuanlan.zhihu.com/p/643775292

B站的版本缺少一些必要的公式

知乎:不學(xué)無術(shù)瀏覽者

B站:游子桀

2023年7月15日17:12:24發(fā)布于知乎

2023年7月15日17:16:08發(fā)表于B站

引言 Introduction

如果兩個蛋白質(zhì)或DNA的序列相似性較高,這一方面說明這兩個蛋白質(zhì)或DNA的同源的可能性較高,一方面說明二者擁有相同/相似功能的可能性較高。

雙序列比對正是用于比較兩蛋白質(zhì)相似性的工具

雙序列比對中又包含許多方法:

1.全局雙序列比對算法

2.局部雙序列比對算法

3.BLAST等

雖然名稱不同,但三者的思路存在相似之處,總而言之可以簡要分為

1.比對(Alignment)

2.打分(Scoring)

所謂比對,就是將兩條蛋白質(zhì)/DNA序列按序排開,依次比較互相的氨基酸殘基/核苷酸的過程。

同時,比對過程中,不一定每一個氨基酸殘疾/核苷酸都能找到相同的氨基酸殘基/核苷酸與之匹配,同時,性質(zhì)相似氨基酸的氨基酸之間的匹配又比性質(zhì)有較大差異氨基酸之間的匹配對蛋白質(zhì)性質(zhì)的影響要小。這就需要對氨基酸之間的匹配進(jìn)行打分,相同氨基酸殘基的匹配自然能拿到最高分,不同氨基酸之間,性質(zhì)相似的氨基酸拿到的分?jǐn)?shù)又要比性質(zhì)相差較大的氨基酸拿到的分?jǐn)?shù)要高。同時,我們可以使用這個分?jǐn)?shù),衡量兩蛋白質(zhì)的相似性。

Margaret Dayhoff 提供了一個打分方法——PAM打分矩陣,而得出這個矩陣的模型,也被稱作Dayhoff模型。

接下來,我們將介紹如何基于Dayhoff模型的到PAM打分矩陣。

Dayhoff模型 Dayhoff Model

第一步:可接受點(diǎn)突變(PAM)

如前所述,同一位置上性質(zhì)相似的氨基酸之間的改變,比起在這個位置上發(fā)生性質(zhì)截然不同的氨基酸的改變,引起整個蛋白質(zhì)的功能的改變,概率上會更小,程度上通常也更小。而一個蛋白質(zhì)如果能在自然界中保持存在,就需要讓能產(chǎn)生這個蛋白質(zhì)的種群能夠存續(xù)。也就是說,如果蛋白質(zhì)某個位點(diǎn)的氨基酸的改變使這個蛋白質(zhì)功能發(fā)生較大改變,使這個蛋白質(zhì)原本應(yīng)該在生物體內(nèi)發(fā)揮的功能不能實(shí)現(xiàn),導(dǎo)致發(fā)生這個改變的生物不能存貨,從而不能將發(fā)生改變保留在種群中,那么這個蛋白質(zhì)也就不能繼續(xù)保留到今天。相反的,氨基酸不發(fā)生改變或氨基酸變?yōu)樾再|(zhì)相似的氨基酸,引起的蛋白質(zhì)的功能的改變較小,發(fā)生改變后的蛋白質(zhì)仍然能發(fā)揮該蛋白質(zhì)原本應(yīng)該發(fā)揮的功能,發(fā)生改變的生物能夠通過繁衍下一代將該改變保留在種群中,從而使得發(fā)生改變的蛋白質(zhì)留存到今天。

而又因為氨基酸變?yōu)樾再|(zhì)相似的改變(保守型替換)引起的蛋白質(zhì)的改變較?。ㄒ簿褪乔昂蟮牡鞍踪|(zhì)相似性高),蛋白質(zhì)保留下來的概率更高。因此,我們可以通過觀察目前自然界存在的同源蛋白質(zhì)上,氨基酸A改變?yōu)榱硪环N氨基酸B的頻率,來反向推斷氨基酸A與氨基酸B之間的相似性。

Dayhoff基于這點(diǎn)假設(shè):提出了可接受點(diǎn)突變(Accepted Point Mutation,PAM)這一定義。PAM要符合以下兩點(diǎn)要求:

一、基因發(fā)生突變,從而使得DNA編碼的氨基酸發(fā)生改變。

二、該突變被整個種群所接受,成為種群該蛋白質(zhì)的主要形式。(這個定義或許令人費(fèi)解,意思其實(shí)就是這個突變不會因自然選擇而被淘汰,換句話說,就是被“接受”了)

氨基酸突變的統(tǒng)計

Dayhoff及其同事首先考研究了71組進(jìn)化高度相關(guān)的蛋白質(zhì)中的1572種變化。統(tǒng)計了其中氨基酸的突變數(shù)據(jù)。

具體如何統(tǒng)計的?

如下:

結(jié)合我們之前所說的,在蛋白質(zhì)的某位點(diǎn)的氨基酸發(fā)生突變后,新的蛋白質(zhì)從中產(chǎn)生,為了得到正確的符合實(shí)際的氨基酸突變頻率,我們需要從同源蛋白質(zhì)中氨基酸不同的區(qū)域?qū)Π被嵬蛔冞M(jìn)行統(tǒng)計,Dayhoff所選用的蛋白質(zhì)同一顆樹內(nèi)的蛋白質(zhì)氨基酸一致性有85

以圖1為例,對同源序列ACGH與DBGH進(jìn)行比對,這兩條的祖先序列是XYGH,其中X是A或D,Y是C或G,因為我們不能判斷在X(Y)位點(diǎn)究竟是A(C)還是D(G)發(fā)生了突變,也就是說祖先序列可以是ACGH,ABGH,DCGH,DBGH中的任意一條,但是沒有關(guān)系,因為無論哪條是祖先序列,他們所包含的氨基酸突變信息是一致,在這個例子中,氨基酸突變信息是,B與C互相突變,A與D互相突變。

但是還有一個問題,在這幅圖中,左邊的祖先序列有ACGH,ABGH,DCGH,DBGH四種可能性,右邊的祖先序列有ADIJ,ABIJ,CDIJ,CBIJ四種可能性,如何比對這兩個祖先序列的氨基酸突變呢?在這里,我們只對之前未發(fā)生突變位點(diǎn)進(jìn)行比對。,在本例子中,就是ABGH與ABIJ的比較,得到I-G互相突變,H-J互相突變的數(shù)據(jù)。值得一提的是,存在ACGH或者DBGH就是最久遠(yuǎn)祖先序列的可能性,但同時我們又不能確定他就是,所以,這里選擇保守的計數(shù)策略,也就是只記錄在之前未發(fā)生突變位點(diǎn)的比對。

最終得到的數(shù)據(jù)如圖2所示,其中紅色標(biāo)注的項目表示該類氨基酸突變較少,綠色標(biāo)注項目表示該類氨基酸突變較多。

PS:圖2使用的數(shù)據(jù)是Dayhoff在1978年的論文中提出的,目前有了更多的數(shù)據(jù),發(fā)現(xiàn)了Dayhoff當(dāng)年沒有發(fā)現(xiàn)的氨基酸突變情況。

氨基酸的相對突變率

Dayhoff與其同事還計算了不同氨基酸的相對突變率。

具體方法如圖三:

有兩條序列ADA與ADB進(jìn)行比對,其中A出現(xiàn)三次,突變一次,那么在這里A的突變率就是1/3,而B得相對突變率為1,D為0. 對于實(shí)驗中涉及到得所有的蛋白質(zhì),計算原理也是一樣的,突變率=(突變的該氨基酸)/(所有該氨基酸)=(突變的氨基酸)/(該氨基酸在肽鏈中出現(xiàn)的概率*肽鏈長度),

其中: 是突變的該氨基酸的數(shù)目, 是所有該氨基酸的數(shù)目。

我們將突變率Mutablity記為 .

因此,我們得到了某氨基酸的突變率。

接下來我們考慮另一個問題,在已經(jīng)存在一些突變的情況下,出現(xiàn)某氨基酸的突變的條件概率是?

根據(jù)貝葉斯公式:

其中 是氨基酸j在肽鏈中出現(xiàn)的頻率;R是一個校正因子,其作用只是為了放大相對突變率,使人們可以通過相對突變率( 后記為 )直觀的看出不同氨基酸突變概率的大小關(guān)系

所以,為了計算氨基酸的相對突變率,還需要知道氨基酸在肽鏈中出現(xiàn)的頻率,這個相當(dāng)容易統(tǒng)計,這里不做贅述。(統(tǒng)計結(jié)果如圖4)

編輯切換為居中

以此方法進(jìn)行統(tǒng)計,Dayhoff得到了20種氨基酸的相對突變率(圖五,其中丙氨酸的相對突變率通過改變調(diào)節(jié)因子,被人為設(shè)定為100)。

編輯切換為居中

進(jìn)化距離為1PAM的突變概率矩陣

“進(jìn)化距離為1PAM”是什么意思呢?

意思就是一條序列1%的氨基酸的氨基酸發(fā)生突變,這一過程發(fā)生1次。

后面將要提到的PAM1矩陣,意思就是一條序列1%的氨基酸的氨基酸發(fā)生突變,這一過程發(fā)生1次后,氨基酸的變化情況。

PAM250矩陣則是一條序列1%的氨基酸的氨基酸發(fā)生突變,這一過程發(fā)生250次后,氨基酸的變化情況。

那么PAM1矩陣是如何得出的呢?

計算方法如下: 如果一條序列長度為L的蛋白質(zhì)有1%的氨基酸發(fā)生突變,這1%發(fā)生突變的氨基酸中有 是也是一個校正因子,他和我們先前提到的校正因子R互為倒數(shù))屬于氨基酸j,氨基酸j中又有 突變?yōu)榘被醝。

所以在突變的序列中,氨基酸j突變?yōu)榘被醝的概率 為:

但這些都是氨基酸j突變?yōu)槠渌被醝的概率,在突變過程中,一條肽鏈仍然有99%的氨基酸殘基保持不變,所以需要計算氨基酸保持不變的概率 ,計算方法是:

計算,得出所有數(shù)據(jù),作圖,得到PAM1矩陣(圖6):

但是如你所見,PAM1矩陣中的數(shù)據(jù)存在大于1(作為概率來說,這是不合理的),這是因為這是經(jīng)過調(diào)整的PAM1矩陣,矩陣中每個數(shù)字均乘以了一個放大因子(在這里是100),要得到原始的PAM1矩陣,必須去掉放大因子(也就是除以100)。

PAM1矩陣

PAM250以及其他PAM矩陣的計算

如前所述,PAM250矩陣則是一條序列1%的氨基酸的氨基酸發(fā)生突變,這一過程發(fā)生250次后,氨基酸的變化情況。

下面,我們舉例說明如何得到PAM250矩陣。

對于一條蛋白質(zhì)序列,我們知道其氨基酸組成,設(shè)其組成矩陣 (ProteinMatrix)為

其中, 表示氨基酸i在肽鏈中出現(xiàn)的頻率,當(dāng)1%的氨基酸的氨基酸發(fā)生突變,這一過程發(fā)生第一次時,其氨基酸變化情況實(shí)際上符合PAM1矩陣描述的變化,

所以,經(jīng)過一次1%的氨基酸發(fā)生改變的蛋白質(zhì)的氨基酸組成矩陣

得到的蛋白質(zhì)繼續(xù)進(jìn)行1%的氨基酸發(fā)生突變這一過程,得到 :

以此類推,進(jìn)行250次此過程的蛋白質(zhì) :

同時PAM250意思也是蛋白進(jìn)行250次此情況的變化,所以:

PAM250矩陣,就是PAM1矩陣自乘250次。

其他PAMn矩陣,也是PAM1矩陣自稱n次。

PAM250矩陣

從突變概率矩陣到相關(guān)優(yōu)勢值矩陣

首先考慮一個問題,一個蛋白質(zhì)通過可接受點(diǎn)突變形成的同源蛋白質(zhì),與一群氨基酸(氨基酸的比例符合圖4所說的氨基酸在肽鏈中出現(xiàn)的概率)隨機(jī)組合形成的蛋白質(zhì),這兩種蛋白質(zhì)之間,氨基酸序列,可能存一致性,這是由于氨基酸的隨機(jī)排列,為了減小隨機(jī)性對蛋白質(zhì)相似性判斷與打分的影響,Dayhoff引入了相關(guān)優(yōu)勢值矩陣,這是將概率矩陣轉(zhuǎn)化為打分矩陣的重要一步。

在本文中所說的優(yōu)勢值,定義相當(dāng)簡單,優(yōu)勢值 :

優(yōu)勢值描述了在同源序列中氨基酸j變?yōu)榘被醝的指向性,R越偏離1,表明氨基酸j變?yōu)榘被醝的傾向性的強(qiáng)度,R=1,則表明氨基酸j變?yōu)榘被醝接近與隨機(jī)。

如此,可以從PAM矩陣得到一個相關(guān)優(yōu)勢值矩陣(暫無圖)

對數(shù)優(yōu)勢值打分矩陣

得到相關(guān)優(yōu)勢值矩陣后,所剩的就是將其轉(zhuǎn)化為打分矩陣,方法也很簡單:

即對優(yōu)勢值矩陣的每一個元素取對數(shù)

這里對取了對數(shù)的優(yōu)勢值再乘以10只是為了使最后分?jǐn)?shù)的絕對值大致在1-10的范圍,目的是為了便于使用。

圖8是PAM250矩陣的對數(shù)優(yōu)勢值打分矩陣.

PAM250矩陣的對數(shù)優(yōu)勢值打分矩陣

引用

[1]: Dayhoff, M.O. (ed.) 1966. Atlas of Protein Sequence and Structure. National Biomedical Research Foundation, Silver Spring, MD.

[2]: Dayhoff, M. O. (ed.) 1978. Atlas of Protein Sequence and Structure. National Biomedical Research Foundation, Silver Spring, MD.

[3] Jonathan P. 1991. Bioinformatics and Functional Genomics,3rd Edition,66-76,Wiley-Blackwell,ISBN:9780470085851.


如何得到PAM打分矩陣——PAM打分矩陣原理與Dayhoff模型【生物信息學(xué)】的評論 (共 條)

分享到微博請遵守國家法律
宝山区| 宁陵县| 志丹县| 壤塘县| 胶南市| 米易县| 庆元县| 婺源县| 东兰县| 张家港市| 河西区| 木兰县| 大冶市| 溆浦县| 巫溪县| 堆龙德庆县| 英德市| 民权县| 浮梁县| 磐石市| 武强县| 九台市| 东乌| 文昌市| 宁武县| 左贡县| 丰顺县| 吉林省| 日照市| 平山县| 贵州省| 翁源县| 龙井市| 久治县| 广昌县| 杂多县| 民和| 当涂县| 怀来县| 商丘市| 德江县|