参考基因组下载及illumina芯片注释文件下载方法

从 Ensembl 和 NCBI 下载参考基因组,以及下载 illumina 芯片的注释文件的教程。

Ensembl 基因组下载方法

首先进入到 Ensembl 官网,如果是植物则进入 plants.ensembl

这里我们以猪的 11.1 版本为例,看看如何下载其参考基因组文件,进入官网后,点击下图中的 view full list of all species

1

在下一个页面中,在下图的窗口中输入 pig (拉丁文应该也可以),得到以下结果。这里第三个就是我们想要的,点进去。

1

进入下面的页面,左上角标注的部分已经告诉你这是猪的 11.1 版本的参考基因组,点击右下红框处下载 FASTA 文件和其它基因组注释文件。

一般 Ensembl 显示的都是最新的参考基因组版本,如果你要查找一些旧版本的参考基因组,图中左下方的红框就是其它可用的参考基因组,比如这里就是 10.2 版本的参考基因组。

1

假设你点了下载 FASTA 的链接,在下一个页面中你会看到一堆的 FASTA 压缩文件,一般我们就是下载红框中的文件,其后缀就是 dna.toplevel.fa.gz

在这个文件夹的上面的一堆文件实际是每条染色体的文件,这个文件是所有染色体汇总的文件。

1

但是你往下拉的话,你还能看到后缀为 dna_rm.toplevel.fa.gzdna_sm.toplevel.fa.gz ,这几个文件有什么区别呢?

这三者的区别主要在于对重复序列的处理不同,如下:

  • ’dna’ - unmasked genomic DNA sequences.
  • ‘dna_rm’ - masked genomic DNA 。通过RepeatMasker软件检测弥散的重复序列和低复杂度的区域,并将重复序列使用N替代。
  • ‘dna_sm’ - soft-masked genomic DNA 。指Soft-masked的DNA序列,其中的重复序列和低复杂度的区域会用其相应碱基的小写字母来表示

NCBI 基因组下载方法

首先进入到 NCBI 官网,在坐标的复选框中选择 Assembly ,然后右边框中输入物种名称,还是以猪为例,输入 pig (拉丁文更好)。

1

在上面的搜索结果中,找到相应的参考基因组版本,比如我们这里第一个就是 11.1 版本的参考基因组,点进去。

1

然后点击右侧的 FTP directory for RefSeq assembly,进入FTP下载界面。

1

还是在这个页面,往下拉,你可以得到 NCBI 中 RefSeq 中的序列名称与染色体的对应关系,因此下面在FTP下载界面下载的文件中染色体名称用的都是 RefSeq 中的序列名称,需要用到这个对应关系改回正常的染色体。

1

在FTP下载界面,其中 genomic.fna.gz 就是相应的 FASTA 文件, genomic.gff.gz 就是相应的 GFF3 文件。

1

利用 Filezilla 下载参考基因组

进入 Filezilla 官网,下载软件 Filezilla 。

打开Filezilla,在主机添加 ftp地址, ncbi 和 ensembl 的 ftp 地址如下。其它均不用填写。

1
2
3
4
5
6
#例如ncbi的ftp地址为:
ftp://ftp.ncbi.nlm.nih.gov/
#ensembl的ftp地址为:
ftp://ftp.ensembl.org/pub/
#ensembl植物地址
ftp://ftp.ensemblgenomes.org/pub/

然后你就可以像windows系统的资源管理器一样,用这种文件夹的方式查找文件。找到了需要的文件后,直接拖拽到本地就会自动下载。

但是我发现有些时候 Filezilla 下载的文件是不完整的,所以用这种方式下载后最好还是通过 md5 校验一下下载的文件有无问题。

查找 illumina 芯片的注释文件

进入illumina官网 (貌似现在进不去了),一步步查找。

进入某个芯片的主页后,点击 View Manifest (Array Content) Files 。我估计这个 Manifest 就是注释文件的意思。

在下一个页面,选择相应的注释文件下载。

1

  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2019-2024 Vincere Zhou
  • 访问人数: | 浏览次数:

请我喝杯茶吧~

支付宝
微信