五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

和小果學習如何一鍵轉換gtf和gff3文件

2022-12-30 11:39 作者:小云愛生信  | 我要投稿

爾云間? 一個專門做科研的團隊

原創(chuàng)?小果?生信果

接觸過基因組和轉錄組的小伙伴肯定對這兩個格式不陌生吧,這是基因組的注釋文件,但比較煩人的是有些時候需要gtf格式,有時候需要gff3格式,所以需要一個方法,可以在這兩種格式之間相互轉換。


先來了解一下這兩種格式


Gff3全稱General Feature Format Version 3

存儲序列結構信息的一種數(shù)據(jù)格式。序列結構就是一個scaffold或者染色體上面每個位置都是什么序列元件。


GFF每一行代表一個序列元件(以#為開頭的注釋行除外),一行9列9個屬性,必須tab分割,屬性為空用“.”代替。


關于gtf文件

當前所廣泛使用的GTF格式為第二版(GTF2),它主要是用來描述基因的注釋。GTF格式有兩個硬標準:


根據(jù)所使用的軟件的不同,feature types是必須注明的。


第9列必須以gene_id以及transcript_id開頭。GTF文件的第9列同GFF文件不同,雖然同樣是標簽與值配對的情況,但標簽與值之間以空格分開,且每個特征之后都要有分號;(包括最后一個特征)


轉換的話需要在linux下進行,Cufflinks里面的工具gffread


#gff2gtf
gffread my.gff3 -T -o my.gtf
#gtf2gff
gffread merged.gtf -o- > merged.gff3

上面這兩步是對gff3和gtf格式的文件進行相互轉換。

gffread genome.gff3 -g genome.fa -x? cds.fa
gffread genome.gff3 -g genome.fa -y? protein.fa
gffread genome.gff3 -g genome.fa -w? transcripts.fa

這幾步就是可以根據(jù)基因組序列文件和基因組注釋文件得到cds文件,蛋白序列和轉錄本序列。


最后提醒一下大家,在linux系統(tǒng)下運行軟件,要么前面加上路徑,要么把軟件寫進環(huán)境變量,否則是運行不了的喲。


好了,這就是今天的主要內(nèi)容了,其實挺簡單的,小伙伴們有什么問題就和小果討論吧。

推薦閱讀



shengxinguoer

生信果


生信硬核知識解答

和小果一起學生信


和小果學習如何一鍵轉換gtf和gff3文件的評論 (共 條)

分享到微博請遵守國家法律
乌拉特中旗| 阿拉尔市| 临夏市| 洪湖市| 南川市| 邵阳市| 福建省| 健康| 枣阳市| 遂昌县| 黎平县| 武冈市| 建德市| 偏关县| 福海县| 博客| 会同县| 英吉沙县| 夹江县| 达日县| 涞水县| 咸丰县| 江城| 万全县| 新宁县| 景泰县| 大同市| 陆良县| 清原| 定西市| 北安市| 介休市| 深水埗区| 秦皇岛市| 莱芜市| 万载县| 建阳市| 新干县| 肇州县| 石楼县| 恭城|