小果教你用TransDecoder輕松預測蛋白開放閱讀框序列
爾云間? 一個專門做科研的團隊

小果之前主要是在處理數(shù)據(jù)挖掘,從公共數(shù)據(jù)庫里找現(xiàn)成的表達矩陣。但小果今天接到個話,要處理基因序列,就是有一個轉(zhuǎn)錄本的fasta序列文件,需要預測一下它的蛋白序列,找一下開放閱讀框,這個操作其實不算復雜,有個軟件就行了,就是TransDecoder。

先說一下,這是linux系統(tǒng)下的軟件,所以我們的操作要在linux系統(tǒng)下進行,首先是要安裝軟件,這個軟件其實還是挺友好的,因為他只要下載下來就行,不需要單獨安裝。可以在linux系統(tǒng)下直接使用下面這個命令。
wget?https://codeload.github.com/TransDecoder/TransDecoder/tar.gz/2.0.1
也可以先下載下來然后再傳輸?shù)絣inux系統(tǒng)里。
簡單說一下fasta文件,就是一行標題,然后下面一行或幾行序列

TransDecoder.LongOrfs -t target_transcripts.fasta
默認情況下,TransDecoder.LongOrfs將識別至少100個氨基酸長的ORF??梢酝ㄟ^’-m’參數(shù)降低此值,但可以知道,使用更短的最小長度標準,誤報ORF預測的比率會急劇增加
TransDecoder.Predict -t target_transcripts.fasta
最終的文件可以在當前目錄找到,也就是后綴為.pep, .cds, .gff3和.bed的文件
一般來說,可以使用TransDecoder對無參轉(zhuǎn)錄組的拼接結(jié)果序列預測其CDS,所以我們可以先將拼接序列用BLAST比對nr以及swissprot蛋白數(shù)據(jù)庫,然后提取其比對上的同源序列的位置來識別CDS,最后再通過TransDecoder的第一步和第三步來預測那些未比對上的序列的CDS。這個小伙伴們了解一下就好。
軟件會創(chuàng)建一個工作目錄(例如transcripts.transdecoder_dir /)保存結(jié)果,其中包含:
longest_orfs.pep: 滿足最小長度標準的所有ORF,無論編碼潛力如何。
longest_orfs.gff3: 目標轉(zhuǎn)錄本中所有ORF的位置
longest_orfs.cds: 所有檢測到的ORF的核苷酸編碼序列
longest_orfs.cds.top_500_longest: top 500最長的ORF,用于訓練編碼序列的馬爾可夫模型
以上是TransDecoder.LongOrfs的結(jié)果,下面是TransDecoder.Predict的預測結(jié)果。
hexamer.scores: 每個k-mer的對數(shù)似然分數(shù)(編碼/隨機)
longest_orfs.cds.scores: 6個閱讀框中每個ORF的對數(shù)似然和分數(shù)
longest_orfs.cds.scores.selected: 根據(jù)評分標準選擇的ORF的加入(如頂部所述)
transcripts.fasta.transdecoder.pep: 最終候選ORF的肽序列;刪除較長ORF中的所有較短候選項
transcripts.fasta.transdecoder.cds: 最終候選ORF編碼區(qū)的核苷酸序列
transcripts.fasta.transdecoder.gff3: 最終選定ORF的目標轉(zhuǎn)錄本中的位置
transcripts.fasta.transdecoder.bed: 描述ORF位置的bed格式文件
命令是比較簡單的,小伙伴們可以試一下喲,好了,今天的內(nèi)容就是這些了,小伙伴們有什么問題歡迎來討論分享啊。
