第二章:文件格式介绍01:GTF与GFF文件
一、简单介绍
- GFF和GTF是两种最常用的数据库注释格式。
- 在信息分析中建库时除了需要fasta文件一般还会需要GFF和GTF文件。
- GFF全称为general feature format,这种格式主要是用来注释基因组。
- GTF全称为gene transfer format,主要是用来对基因进行注释。
二、区别与联系
- GTF是在GFF的基础上发展而来。
- 二者有很多类似的地方,都是
\t
分隔的9列文件,内容也比较接近。 - GFF能够包含的信息更多更全,可以包含染色体,基因,转录本的信息。
- 而GTF主要用来描述基因和转录本的信息。
- 相互转化:如使用Cufflinks软件的 的gffread。
三、GTF格式介绍
以某物种的GTF文件为例(gtf文件是以tab键分割的9列组成,以下为每一列的对应信息):
1 | chr1 ensembl gene 339070 350389 . - . gene_id "ENSBTAG00000006648"; gene_version "6"; gene_source "ensembl"; gene_biotype "protein_coding"; |
以下为每一列信息:
- seq_id:序列的编号,一般为chr或者scanfold编号,每条染色体拥有一个唯一的ID。
- source: 注释的来源,代表基因结构的来源,可以是数据库的名称,比如来自
RefSeq
数据库,也可以是软件的名称,比如用GeneScan
软件预测得到,当然,也可以为空,用.
点号填充。 - type: 代表区间对应的特征类型, 在GTF中,常见的类型如下:
- Gene
- cDNA
- mRNA
- 5UTR
- 3UTR
- exon
- CDS
- start_codon
- stop_codon
4.start:该基因或转录本在参考序列上的起始位置。
5.end: 该基因或转录本在参考序列上的终止位置。
6.score: 得分,软件提供了统计值,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值,“.”表示为空。
7.strand: 代表正负链的信息,+
表示正链,-
表示负链,?
表示不清楚正负链的信息,当正负链信息没有意义时,可以用.
填充。
8.phase: 仅对注释类型为“CDS”有效,表示起始编码的位置,有效值为0、1、2
- 对于编码蛋白质的CDS来说,本列指定下一个密码子开始的位置。每3个核苷酸翻译一个氨基酸,从0开始,CDS的起始位置,除以3,余数就是这个值,表示到达下一个密码子需要跳过的碱基个数。
- 该编码区第一个密码子的位置,取值0,1,2。
- 0表示该编码框的第一个密码子第一个碱基位于其5’末端;
- 1表示该编码框的第一个密码子的第一个碱基位于该编码区外;
- 2表示该编码框的第一个密码子的第一、二个碱基位于该编码区外;
- 如果Feature为CDS时,必须指明具体值;
9.attributes:一个包含众多属性的列表,格式为“标签=值”(tag=value)。
- 标签与值之间以空格分开,且每个特征之后都要有分号(包括最后一个特征);其内容必须包括gene_id和transcript_id。
- 以多个键值对组成的注释信息描述,键与值之间用“=”,不同的键值用“;”。
四、数据
ftp://ftp.ensembl.org/pub/release-93/gtf/homo_sapiens/Homo_sapiens.GRCh38.93.gtf.gz