科普-使用shapeit和impute填充

2023-12-02

字数统计: 991 | 阅读时长≈ 3 分钟

简单科普一下填充原理和使用 shapeit 与 impute 软件的填充流程。

填充原理简介

在了解基因型填充之前，我们需要先了解基因型缺失。基因型缺失是指个体在某个位置的基因型未知的情况。在实际情况中，我们一般面临着两种情况的基因型缺失，第一种情况该位点在检测技术覆盖的区域中，但是由于检测技术的局限和错误导致部分样本未检出，第二种情况是该位点本身就不在检测技术覆盖的区域中。

而基因型填充技术是利用已有的基因型信息来推断缺失的基因型的一种技术，目前已经是全基因组关联分析，全基因组选择等方法中必不可少的环节。通过使用基因型填充技术，我们可以从低密度标记填充得到高密度标记，例如从芯片数据填充得到测序数据。

基因型填充前需要先进行定相（单倍型构建），定相即将二倍体生物所有位点的两个等位基因正确分配到父本和母本的染色体上，从而得到个体的单倍型。基于原理的不同，定相通常可以分为使用家系信息定相和使用群体信息（位点间的连锁信息）定相。我们将定相后得到的单倍型与参考面板（定相过的无缺失的基因型数据）进行比对，从而推断出缺失基因型，举例如下图。

基因型填充软件可以分为两类：一是计算密集型工具，例如 IMPUTE, MACH, fastPHASE/BIMBAM，这些软件在填充缺失位点时会考虑全部观测到的位点；二是计算更加高效的工具，例如 PLINK，TUNA, WHAP, BEAGLE。

下面我们介绍如何使用 shapeit4 和 impute5 的组合进行基因型填充，其中 shapeit4 是一个定相软件，而 impute5 是填充软件，通过同时使用两个软件可以实现高效准确的基因型填充。

准备数据说明

这里我们考虑一种最普遍的情况，即从低密度标记填充到高密度标记。因此我们需要两套基因型数据，高密度标记的基因型用于构建参考面板，低密度标记的基因型数据便是我们需要填充的基因型数据。

填充流程介绍

使用 shapeit4 和 impute5 的基本流程如下。

第一步，我们需要构建参考面板（如果已有则跳过），首先需要对输入的基因型文件质控，然后使用 shapeit4 进行定相，便得到了需要的参考面板。

第二步，我们使用参考面板对候选群进行填充，首先我们使用 shapeit4 对候选群进行定相，再对定相后的基因型文件使用 impute5 软件和参考面板数据进行填充。

这里需要注意的是，shapeit4 和 impute5 均只能处理染色体水平的基因型数据，因此我们需要将输入的基因型文件按照染色体拆分开，处理完之后再合并所有染色体的结果。

软件优势说明

shapeit4 和 impute5 使用 PBWT算法（Positional Burrow Wheeler Transform ）可以准确高效地进行定相和填充。
支持读取和输出 BCF 文件格式，读写速度更快

参考文献

Li Y, Willer C, Sanna S, et al. Genotype imputation[J]. Annual review of genomics and human genetics, 2009, 10: 387.
Olivier Delaneau, Jean-Francois Zagury, Matthew R Robinson, Jonathan Marchini, Emmanouil Dermitzakis. Accurate, scalable and integrative haplotype estimation. Nat. Comm. 2019.
Rubinacci S, Delaneau O, Marchini J. Genotype imputation using the positional burrows wheeler transform[J]. PLoS genetics, 2020, 16(11): e1009049.
Ding R, Savegnago R, Liu J, et al. The SWine IMputation (SWIM) haplotype reference panel enables nucleotide resolution genetic mapping in pigs[J]. Communications Biology, 2023, 6(1): 577.

版权声明： 本博客所有文章除特别声明外，著作权归作者所有。转载请注明出处！