五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Dfam-轉(zhuǎn)座元件TEs數(shù)據(jù)庫

2022-05-05 11:38 作者:笨笨熊愛吃肉  | 我要投稿

昨天安裝RepeatMasker(http://www.repeatmasker.org/RepeatMasker/)這個(gè)軟件時(shí),官網(wǎng)上提到了兩個(gè)數(shù)據(jù)庫,一個(gè)是Dfam,一個(gè)是RepBase,這兩數(shù)據(jù)庫都與RepeatMasker一起使用,通過全基因組搜索來識別與數(shù)據(jù)庫中存在同源的序列進(jìn)行基因組的重復(fù)序列注釋。第一次見這兩個(gè)數(shù)據(jù)庫,只好去學(xué)習(xí)一下,順便學(xué)習(xí)了轉(zhuǎn)座元件(TEs)的概念,見公眾號文章。

先學(xué)習(xí)一下Dfam

Dfam (http://www.dfam.org/)是一個(gè)較RepBase更“年輕”的真核生物TE-centric數(shù)據(jù)庫,這個(gè)數(shù)據(jù)庫更正式地定義了轉(zhuǎn)座元件,并且將共有序列一樣的轉(zhuǎn)座元件形成一個(gè)“集合”,利用隱馬爾可夫模型(hidden Markov models)來進(jìn)行多序列比對(multiple sequence alignments)Dfam還促進(jìn)了TE個(gè)體的注釋與運(yùn)用于已知TE家族相關(guān)但已累積突變并遠(yuǎn)離共有序列的實(shí)例。

官網(wǎng):http://www.dfam.org/

目前最新版本為Dfam 3.6 (April 2022), 1068個(gè)物種的732,993種基因家族序列。

點(diǎn)擊相應(yīng)的鏈接后,可以看到詳細(xì)信息見下表:

回到主頁面,點(diǎn)擊DOWNLOAD:

最下面的userman.txt文件可以相信的讀一下,就對目錄內(nèi)容有個(gè)大致的了解了。

目錄1中有hg38目錄,結(jié)合目錄名字,考慮到人類參考基因組的相對完善性,對應(yīng)的文件應(yīng)該是用來對人的序列進(jìn)行注釋用的。

我點(diǎn)擊進(jìn)入/families/目錄,先閱讀README.txt文件,里面介紹了數(shù)據(jù)庫文件的一些信息, 可以看到,有兩種數(shù)據(jù)庫類型可供下載,其中:

Dfam.* 包括 curated (DF) uncurated (DR) families.

Dfam_curatedonly.* 只包括 curated (DF) families.

此外,還有一些文件:

*.embl格式: 包含 EMBL-formatted consensus sequences and metdata,即EMBL格式的一致性序列及元數(shù)據(jù);

*.hmm格式: includes profile Hidden Markov Models (pHMMs) and metadata for use with the hmmer suite of tools.即適用于hmmer的工具;

*.h5格式: 全名為HDF5 格式,為FamDB 文件,包含both consensus sequences and pHMMs, metadata, taxonomy structure and nomenclature, indexes, and other features.


關(guān)于 EMBL and HMM 文件更詳細(xì)的信息,查看上一目錄下的userman.txt文件。


因?yàn)槲乙?/span>RepeatMasker,那么看一下和這些文件的關(guān)系吧:

(1)RepeatMasker ships with a copy of Dfam (curated families only). This can be replaced with a newer version of Dfam, or with the full set of curated and uncurated families.

(2)RepeatMasker 4.1.0 and earlier read Dfam in the EMBL or HMM format, depending on the search engine being used.

(3)RepeatMasker 4.1.1 and later read Dfam in the FamDB format.

看明白咋回事了吧,一定要查一下自己安裝的版本,我的是RepeatMasker version 4.1.2-p1,下載FamDB格式(h5格式)的文件,也就是1和2,但第一條寫到只用到curated families only,也就是第2個(gè)文件順便把第1個(gè)也下載了。

第2個(gè)文件Dfam_curatedonly.h5.gz都是curated的(也就是不包含重頭測序物種的),然后對文件進(jìn)行解壓縮和改名,只有改了名字,RepeatMasker才能識別到:

Dfam_curatedonly.h5.gz

mv Dfam_curatedonly.h5 Dfam.h5

我最終將Dfam.h5移動到了RepeatMasker/Libraries下,替換了原先存在的Dfam.h5文件。


本文使用 文章同步助手 同步


Dfam-轉(zhuǎn)座元件TEs數(shù)據(jù)庫的評論 (共 條)

分享到微博請遵守國家法律
汾阳市| 富平县| 收藏| 淮安市| 南安市| 顺昌县| 鸡泽县| 龙江县| 逊克县| 讷河市| 乌苏市| 怀来县| 偏关县| 襄垣县| 芮城县| 台前县| 原阳县| 翁源县| 东乡县| 无锡市| 微博| 班戈县| 龙门县| 当涂县| 松原市| 和硕县| 元阳县| 湖口县| 盐山县| 平安县| 蒙山县| 鄂尔多斯市| 汨罗市| 佳木斯市| 竹北市| 老河口市| 岳普湖县| 宜昌市| 邯郸市| 茌平县| 普兰县|