文献阅读-基因型填充

关于基因型填充的文献总结。

亲属个体间的基因型填充

在下图中,所有个体均存在分型的位点标为红色,前两个世代的个体存在分型的位点标为黑色 (见图 A)。根据前两个世代的基因型数据,可以对前两个世代的基因型进行定相,然后再第三世代的个体基因型进行定相(见图 B)。最后,第三世代所有个体缺失的基因型可以通过比对它们自身的单倍型与家系中其它个体的单倍型 (二者同源相同,IBD)来推断缺失位点的基因型(见图 C)。

1

从 图A 到图B根据系谱信息定向的原理解释如下,亲子对在每个位点都共享一个碱基,并且共享的碱基是 IBD 的,因此亲本和子代在一条染色体上共享一个相同的单倍型(假设没有重组事件)。

下图就是根据 IBD 来定相的一个例子,这两个个体在这 4 个位点共享一个 IBD 的单倍型块(比如亲子对)。对于某个位点,只要其中一个个体的基因型为纯合子,那么 IBD 的单倍型在这个位点的分型就是这个纯合子的碱基。因此,只有当两个个体在某个位点均为杂合子时(或者存在缺失),这个位点的定相才是未知的。

如果同时处理超过 2 个亲属个体,例如对于 trios 只有当三者均为杂合子(或者存在缺失)时才无法定相。采用更大的家系会包含更多的信息。

1

因此只根据系谱信息无法实现所有个体全部位点的定相,之后还需要使用群体信息定相。并且而且如果存在分型错误,那么根据系谱信息定相的比例和准确率都会下降。

群体信息的基因型填充

无关个体之间仍存在类似于亲属个体 IBD 片段的共同单倍型片段,只不过它们共享的单倍型片段长度要短得多(因为它们得共同祖先更远),因此也很难完全确定它们之间共享的单倍型片段。

无关个体的基因型填充原理见下图,这里目标样本 (study samples) 具有相对较多的位点(可能是100k 到 1000 k),我们将目标样本与参考单倍型库(比目标样本具有更多的位点)进行比对(下图 A),二者共同的单倍型见图 B ,然后目标样本中的缺失位点可以通过复制匹配上的参考单倍型的基因型来进行填充(下图C)。

当将目标样本的单倍型与参考单倍型库进行比对存在歧义,即不知道复制哪一个参考单倍型时,填充脚本一般会提供这个缺失位点的基因型概率(比如单倍型库中观测到的 A/A 比例为 60%,A/C 比例为 40%)。

大部分的单倍型构建软件均会在估计单倍型过程中自动”填充“缺失的基因型。基因型填充软件可以分为两列:一是计算密集型工具,例如 IMPUTE, MACH, fastPHASE/BIMBAM,这些软件在填充缺失位点时会考虑全部观测到的位点;二是计算更加高效的工具,例如 PLINK,TUNA, WHAP, BEAGLE ,这些软件填充缺失位点时只会考虑少量的相邻位点的基因型。

1

群体信息定相算法

总共有三种算法:Clark's algorithmEM algorithmCoalescent-based methods and hidden Markov models,目前用的最多是最后一种。

运用 HMM 算法的软件包括,PHASE, fastPHASE, MACH, IMPUTE2 。其中,PHASE 古老,计算慢,但是在所有有的群体信息定相软件中最准确,有时视为金标准 (SHAPE-IT是其更快的版本)。fastPHASE 相比于 PHASE 提升了速度,准确性略有下降。

相比于 fastPHASE , BEAGLE 速度上快了一个数量级,但是 BEAGLE 对于中大型样本(大于 1000)群体更加准确,不适合小样本(100)。当某个染色体区域的位点数目小于 100 时,BEAGLE 同时不适合。

MACH 和 IMPUTE2 使用了新的统计方法,其可以计算更大的群体,而且准确性比 fastPHASE 更高。

Browning (2011) 比较了 BEAGLE 和 MACH, IMPUTE2 的定相表型,其中MACH在小样本中准确性最高BEAGLE在大样本中准确性最高,并且 BEAGLE计算时间最短三种软件均可以通过提高计算时间来增加填充准确性。在 MACH 和 IMPUTE2 中,可以通过增加 HMM states 的数目来增加模型复杂度,从而更好地利用数据中的信息,得到更准确的结果。在 BEAGLE 中,可以通过合并多次运行结果来提高准确性(这里使用 beagle 3.3.1 版本,跑 15 次,然后每一个杂合子的定向使用 15次结果中的最多的那个,也就是说之前的 beagle 版本都是每次运行结果不一样的)。

基因型填充的准确性

Scott et al. (93) 填充了超过 2百万的位点,提取超过 500 个位点与实验室的实际分型进行比较,总的不一致率只有 1.5%。

第二,通过对 90个样本的超过 660k 的位点的填充基因型和实际分型基因型进行比对,总的不一致率小于 0.9% ,所有位点的平均 达到了 0.93

基因型填充的作用

基因型填充的一个作用就是更好地挖掘与性状相关的位点和基因,通过基因型填充,我们可以查看一个关联位点其临近的位点是否也与性状关联,甚至我们可以找到潜在的因果位点

除此之外,基因型填充还可以提高 GWAS 分析的 POWER 。举个例子,Willer et al. 和 Kathiresan et al 发现 rs6511720 这个位点 (在 LDLR 基因中) 与 LDL cholesterol levels 这个性状显著关联,但是由于这个位点不在芯片中,而初始分析只使用了芯片位点,因此初始分析中遗漏了这个选择信号(芯片中的位点与 rs6511720 不存在紧密连锁,最大的配对 r2 只有 0.21)。

1

另外一个例子如下

1

但是,准确估计填充对于提高关联分析 POWER 的作用非常困难,这里有两种思路,第一种是使用模拟数据,第二种是合并使用基因组数据和基因表达数据。这里第二种方式更加吸引仍,因为我们比较容易确定位点和转录水平的正向关联。这两种思路均建议基因型填充可以提到挖掘基因研究的 power ,特别是对于等位基因频率小于 10% -20% 的位点。

基因组关联分析的元分析

基因型填充作用最好的说明可能就是其可以用于对不同检测平台产生的数据的 GWAS 分析结果的元分析(具体怎么做我不清楚)。

填充的注意事项

  1. 自填充严格质控

  2. 有参填充需要确保参考群体和填充群体相同位点的两个碱基的标签相同(应该说的是 vcf 文件中的 ref 和 alt)。

  3. 有参填充需要严格挑选参考群体。比较不同参考群时,可以在填充群中的基因型随机缺失部分位点,然后查看使用不同参考群的填充准确性。

  4. 填充完成后,不是所有标记都能准确填充,我们需要确定挑选哪些位点用于下一步的分析。

    最简单的方法就是看填充位点的一致率(比如挑选大于 90%),但是这里作者并不推荐这种方式,因为位点的一致率还受到 maf 的影响,因此无法直接比较(举个例子,对于 maf 小于 0.05 的位点,那么我们只要将所有样本的分型均分配为最可能的基因型,则一致率就会达到 90% 以上)。

    这里我们推荐的方法是使用位点的填充基因型和真实基因型的相关系数,通常我们会使用相关系数的平方,即

    最通常的方法是查看填充位点偏离哈温平衡的程度(because imputed allele counts for poorly imputed markers show less variability than expected based on allele frequency,这句话没有太看懂) 。

  5. 最后一步就是分析填充的基因型,一般来说填充的基因型是服从一个概率分布的,举个例子,某个样本在某个位点可能有 90% 的概率是 A/A ,有 10% 的概率是 A/C ,也就是说,这个位点的A的剂量期望值为 1.9 。

    对于 GWAS 分析,这里作者建议不用使用具体的填充基因型(比如上面的 AA),而是可以使用碱基的剂量(即上面的 1.9)来进行关联分析。

未来的挑战

  1. 希望有更具特色的参考面板(reference panels),可以包含除 SNP 之外的其它变异,比如 CNV 。

  2. 希望有更好的填充算法。

  3. 最重要的,希望有更大的参考面板,如下图,参考群体越大,基因型填充的准确性越高,因为参考群体的样本和目标样本之间共享的单倍型区块长度会越长,而且也越容易在参考面板中无歧义地识别共同的单倍型区块。

    1

填充和重测序数据

填充计数可以使得从低密度重测序数据得到高质量的分型数据,从而降低测序成本(略微降低数据质量),比如千人基因组计划。

参考文献

  1. Li Y, Willer C, Sanna S, et al. Genotype imputation[J]. Annual review of genomics and human genetics, 2009, 10: 387.

  2. Browning S R, Browning B L. Haplotype phasing: existing methods and new developments[J]. Nature Reviews Genetics, 2011, 12(10): 703-714.

  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2019-2024 Vincere Zhou
  • 访问人数: | 浏览次数:

请我喝杯茶吧~

支付宝
微信