Foldseek——蛋白結(jié)構(gòu)相似性搜尋
Nature biotechnology 上發(fā)表題為
“Fast and accurate protein structure search with Foldseek”
的文章,構(gòu)建了一個(gè)與blast搜索序列同源性類似的、可以快速搜索相似蛋白結(jié)構(gòu)的搜索工具Foldseek。
伴隨著AlphaFold等工具的產(chǎn)生和逐步完善,蛋白質(zhì)結(jié)構(gòu)的數(shù)據(jù)庫也逐漸完善,但是搜索這些數(shù)據(jù)庫仍存在瓶頸。對(duì)蛋白結(jié)構(gòu)進(jìn)行相似性的比對(duì),F(xiàn)oldseek相較于Dali、TM-align 和 CE等工具,速度有了顯著的提升,打破了基于結(jié)構(gòu)的分析的最后一塊壁壘。
最廣泛使用的蛋白質(zhì)注釋和分析方法是基于序列相似性搜索,例如:interproscan, eggNoG, 及blastp等。盡管基于序列同源性的蛋白功能注釋已經(jīng)非常完善,但許多蛋白質(zhì)仍然無法被注釋,且從序列檢測(cè)蛋白的進(jìn)化關(guān)系仍然具有挑戰(zhàn)性,而各種蛋白數(shù)據(jù)庫的完善或可以彌補(bǔ)序列注釋的缺陷。
隨著蛋白結(jié)構(gòu)預(yù)測(cè)工具的日趨完善,兼具序列和結(jié)構(gòu)的分析將逐步取代基于序列的分析。該文章提供了一個(gè)蛋白結(jié)構(gòu)相似性搜索的網(wǎng)頁版工具,網(wǎng)址為:?https://search.foldseek.com?,包括 AlphaFoldDB(版本 4:Proteomes 和 Swiss-Prot)、AlphaFoldDB(版本 4)和以 50% 序列同一性聚類的CATH?25?、ESM Atlas-HQ 和蛋白質(zhì)數(shù)據(jù)庫 (PDB)。此外,該工具也可以本地運(yùn)行,其開源網(wǎng)址為:?https://github.com/steineggerlab/foldseek 。利用該網(wǎng)頁可以通過AlphaFold預(yù)測(cè)的蛋白結(jié)構(gòu)(pdb文件)查找結(jié)構(gòu)相似的蛋白,從而對(duì)蛋白的進(jìn)化關(guān)系和功能進(jìn)行注釋。

參考文獻(xiàn):
van Kempen, M., Kim, S.S., Tumescheit, C.?et al.?Fast and accurate protein structure search with Foldseek.?Nat Biotechnol?(2023). https://doi.org/10.1038/s41587-023-01773-0