gff3文件格式

GFF3 (General Feature Format Version 3) 是一种纯文本文件格式,用来描述基因组上特征(Features)的位置和属性。简单说,它就是一张基因组的“地图”,告诉你哪里有基因、哪里有外显子、以及它们之间的关系。


一、 文件结构:三大部分

一个标准的 GFF3 文件由三部分组成,顺序不能乱:

1. 文件头 (Header)

文件的第一行必须是版本声明(不然会报错,我就遇到了一次,从客户链接下载的 gff3 文件没有表头,导致报错,手动添加这一行就好了)。

1
##gff-version 3
  • 作用:告诉解析软件(如 gff3ToGenePred)“请按照 GFF3 的规则来读我”。
  • 你的坑:如果没有这一行,很多严格的软件会直接报错忽略第一行数据,导致它找不到你明明写在最前面的 gene记录。

2. 注释与序列信息 (Optional)

通常以 ##开头,用来描述参考序列。

1
##sequence-region Contig1 1 1000000
  • 作用:声明某条染色体或 Contig 的长度范围。虽然不是强制的,但写了更规范。

3. 数据行 (Data Rows) —— 核心内容

每一行代表基因组上的一个特征(如一个基因、一个外显子)。

它由 9 个用 Tab (制表符) 分隔的列 组成。


二、 核心:9 列详解 (The 9 Columns)

这是 GFF3 的“骨架”。无论是什么特征,都严格遵守这 9 列的顺序。

列号 名称 内容示例 含义解释
1 Seqid Contig1 序列ID。对应参考基因组的哪条序列(染色体/ scaffold)。
2 Source EVM 来源。是哪个软件或数据库预测出的这个特征(如 EVM, BLAST)。
3 Type gene/ mRNA 类型。特征的分类,必须是 SO (Sequence Ontology) 术语。
4 Start 187400 起始位置。1-based 坐标(从 1 开始数),包含该位置。
5 End 197430 结束位置。包含该位置。
6 Score .0.95 得分。表示该特征的可信度,未知通常用 .
7 Strand +- 链方向+正链,-负链。
8 Phase .0/1/2 阅读框仅对 CDS 有效。0 表示第一个碱基是密码子起点。
9 Attributes ID=...;Parent=... 属性。这是 GFF3 的灵魂,用键值对描述细节。

⚠️ 注意:列与列之间必须是 Tab键,不能是空格,否则软件读不懂。


三、 灵魂:第 9 列 (Attributes)

这一列用 ;分隔不同的属性,格式是 key=value

1. ID (身份证号)

  • 作用:给每个特征一个唯一的名字。
  • 示例ID=MberContig1G0001
  • 重要性:软件靠这个 ID 来区分不同的行。
  • 要求:文件内唯一。
  • Ensembl 特例:为了区分基因(Gene)、转录本(Transcript)和蛋白(Protein),Ensembl 会在 ID 前加上 gene:transcript:protein:作为前缀(估计也是为了特例)。

2. Parent (父子关系)

  • 作用:建立特征之间的层级关系。这是 GFF3 最强大的地方。
  • 逻辑
    • mRNA的 Parent 是 gene(因为 mRNA 属于基因)。
    • exon/ CDS的 Parent 是 mRNA(因为外显子属于转录本)。

四、 层级结构示例 (Hierarchical Structure)

GFF3 不是扁平的列表,而是树状结构。结合你刚才的文件内容,标准结构应该是这样的:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
##gff-version 3
##sequence-region Contig1 1 1000000

# 1. 基因 (根节点)
Contig1 EVM gene 187400 197430 . - . ID=MberContig1G0001;Name=GeneA

# 2. 转录本 (子节点,Parent 指向上面的 ID)
Contig1 EVM mRNA 187400 197430 . - . ID=MberContig1T0001;Parent=MberContig1G0001

# 3. 外显子 (叶子节点,Parent 指向 mRNA 的 ID)
Contig1 EVM exon 195765 197430 . - . ID=exon1;Parent=MberContig1T0001

# 4. CDS (编码区)
Contig1 EVM CDS 195765 197430 . - 0 ID=cds1;Parent=MberContig1T0001
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2019-2026 Vincere Zhou
  • 访问人数: | 浏览次数:

请我喝杯茶吧~

支付宝
微信