如何使用多等位遗传标记进行GWAS分析

参考一篇文献中的做法,可以利用多等位标记进行GWAS分析。

多等位标记和一般的二等位标记的处理不同的地方主要就是质控填充这一块,还有就是如何将多等位标记转为二等位标记。

质控

使用 vcftools 进行质控,举例如下,质控标准为:

  • 等位碱基数目为 2 或 3
  • 位点缺失率 0.1
  • 位点 maf 0.05

这里 --recode-INFO-all 是保留所有的 INFO 信息;--recode -c 是打印到屏幕上,然后使用 bgzip -c 进行压缩。

1
vcftools --gzvcf ../vcf.finalINDEL.vcf.gz --min-alleles 2 --max-alleles 3 --max-missing 0.9 --maf 0.05 --recode-INFO-all --recode -c |bgzip -c > qc2.vcf.gz &

测试 vcftools 质控哈温平衡 (--hwe 0.000001) ,发现所有的多等位碱基均被剔除了,因此对于含有多等位碱基的基因型数据不建议质控哈温平衡。

填充

使用 shapeit4 填充,发现填充结果中所有的多等位碱基均被剔除,因此说明 shapeit4 只能填充二等位碱基的标记。

改为使用 beagle 5.2 填充,多等位碱基的标记可以正常填充,填充前后位点数目一致,检查前 10000 个位点发现填充基因前后基因型一致,说明填充没有问题。

拆分多等位位点

使用 bcftools norm 拆分多等位位点(一个多等位标记拆分位多行,每一个 alt 基因占据一行), 具体命令如下,查看拆分结果,发现其结果就是将其它 alt 变异的基因型改为 0(同 ref 碱基) 。

1
bcftools norm --multiallelics -both val_all_phased_auto.vcf.gz -Oz -o val_all_phased_norm.vcf.gz &

拆分后的 VCF 就满足了二等位的条件,可以正常进行 GWAS 分析。

参考文献

1.Blaj I, Tetens J, Bennewitz J, et al. Structural variants and tandem repeats in the founder individuals of four F2 pig crosses and implications to F2 GWAS results[J]. BMC genomics, 2022, 23(1): 1-14.

  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2019-2024 Vincere Zhou
  • 访问人数: | 浏览次数:

请我喝杯茶吧~

支付宝
微信