基因组选择模型介绍上

基因组选择方法,大体上可以分为两类,第一类方法是通过参考群数据获得标记效应从而间接
获得基因组估计育种值;第二类方法是通过使用基因组数据构建新的关系矩阵加
入到混合模型方程组中直接获得基因组估计育种值,如 GBLUP方法。

本篇主要介绍第一类方法。

单标记选择

我们先看单个标记的模型,再扩展到全基因组的基因组选择。

假设存在一个标记与某个 QTL 处于完全连锁状态,那么我们可以将这个标记当作固定效应加入到模型中,即

我们也可以往模型中添加一个剩余多基因效应 (additional polygenic genetic value) 。

我们下面看一些例子,首先假设我们有一个 4 等位基因 (A,B,C,D)的标,三个个体的基因型分别为 BC, AA, BD。那么我们可以估计每个等位基因的效应,建立矩阵如下

假设三个基因型个体的表型为 (12,35,6) ,则可以构建一个模型如下

这个模型是一个固定模型,可以通过最小二乘法进行求解。

如果我们考虑剩余多基因效应,则模型为

其中 ,此时模型为混合线性模型,可以用 BLUP 方法求解。

我们可以轻松扩展到 2 个标记的模型,即

然后到 个标记的模型

如果所有标记只有 2 个等位基因,例如 SNP ,假设两个 SNP 的碱基分别为 A/B, E/F ,按照上面的表示方式,我们需要将三个个体的标记效应表示为

但是由于标记只有 2 个碱基,此时这种表达方式存在冗余,一个标记可以只估计一个效应,我们得到

或者 (可以任意挑选某个碱基进行计数)

此时我们面临下面几个问题

  • 我们应该放多少个标记到模型中?
  • 基因组中总共有多少个 QTL ?
  • 我们已经发现并通过验证的 QTL 有多少个?

根据之前的研究结果,我们发现只用发现的 QTL,我们会遗漏很多的遗传变异。例如在 GWAS 分析中,当样本数为 1000 ,位点数为 50k ,经过 Bonferroni 校正后,找到的解释遗传方差比例超过 1% 的 QTL 只有 4% ,换句话说,如果群体中存在 100 个 QTL ,GWAS 只能找到 4 个显著的 QTL。

另外,我们发现的 QTL 效应一般都是夸大的,即其真实效应小于估计效应 (Beavis effect)。因为估计效应等于真实效应加上估计噪音,为了选择估计效应很大的 QTL ,我们就很容易选中实际是估计噪音很大的 QTL 。如果真实情况是只有少数几个QTL的效应很大,那么此时 Beavis effect 是可以忽略的,但是实际情况往往不是这样。当位点数目很多,就会出现某些位点的估计噪音很大,使得这些位点的估计效应比真实效应大得多,这个问题在 GWAS 分析中很严重。

全基因组选择

贝叶斯估计,或标记效应的最佳估计

我们已知标记辅助选择会导致选择出现偏差,那么如果我们不对 QTL 区域进行选择,我们就可以避免这个偏差。因此此时的估计育种值就是整个基因组所有区域的效应之和,即我们认为基因组的所有区域可能都有效应,这种思想就是全基因组选择。那么我们如何估计整个基因组所有区域的效应呢?

最简单的方法就是扩展单标记选择扩展为多标记选择,估计每一个标记的效应。但是由于此时我们采用覆盖全基因组的标记,问题在于标记数目太多了(标记数目很可能大于样本数目),此时用最小二乘法估计标记效应是很糟糕的。

另外,即便我们有非常多的样本,我们还没有用上一个先验信息,即大部分的 SNP 效应都不大。那么我们如何进行改善呢?

我们可以利用 Best Prediction 的理论(最小化估计值和真实值的举例), Best Prediction 也可以视为一个贝叶斯估计值,我们需要知道标记效应的先验分布 ,给定标记效应的表型数据的似然值 ,此时估计的标记效应值为

第二个等号推导如下

Best Prediction 方法相比于最小二乘方法具有更大的优势,是一个最优解,因为它用了所有可用的信息 (Gianola and Fernando 1986) 。先验分布 可以使得估计值向我们的先验值(通常为0)进行回归,这个过程称为 shrinkage

贝叶斯回归方法中,一般普遍假设残差的分布为正态分布,即 ,似然函数 。但是不同的人对于标记效应的先验分布 的假设不一样,从而得到不同的贝叶斯方法,如 (Bayes A, B, C, R, S… Bayesian Lasso……) 。因此,贝叶斯回归的效果很大程度上受到标记效应的先验分布的影响,我们需要找到一个合适的先验分布,不然估计的标记效应就可能 too much shrunken (所有标记的效应估计值都非常小),又或者 too little shrunken ,以至于标记效应的估计值中包含了太多的错误甚至是完全错误的。

加性方差和标记方差

假设个体育种值的加性方差为 。如果一个标记的效应为 ,即每增加一个参考碱基的效应为 ,因此我们有 个个体在这个标记的效应为 个个体在这个标记的效应为 个个体在这个标记的效应为 (假设哈温平衡)。根据方差公式 ,我们得到下表

因此,单个标记解释的方差为 。由于 时最大,因此 MAF 越大的标记解释的遗传方差一般也越大,因此这解释了可以忽略MAF比较低的标记的原因。

假设我们只有两个标记并且知道它们的效应大小,因此一个个体的育种值可以表示为 ,那么 $\operatorname{Var}(u)=\operatorname{Var}\left(z_{1}\right) a_{1}^{2}+\operatorname{Var}\left(z_{2}\right) a_{2}^{2}+2 \operatorname{Cov}\left(z_{1}, z_{2}\right) a_{1} a_{2} $ 。假设哈维平衡,易得 这一项证明为 ,其中 为衡量连锁不平衡的相关系数(这里 应该就是两列基因型的相关系数),另外这里的 项表示两个位点的效应必须方向一致,这样 才是一个正数。因此我们一般不考虑协方差这一项,即假设连锁平衡

假设连锁平衡,或者说假设位点间彼此不相关,此时 ,也就是说每一个标记的方差是可以累加的。我们将这个结论一般化,得到加性方差用标记方差表达的公式:

但是在很多情况下,我们不知道标记效应大小。但是我们可能对标记效应有一些先验知识,比如我们一般认为其均值为0,有一个先验的方差。在这种情况下,我们可以将 替换为其先验的期望值,即 ,因此我们有

如果我们假设所有的标记具有相同的先验方差 ,那么 ,因此我们得到

SNP-BLUP

如果假设标记效应的先验分布为正态分布,即 (即假设标记之间彼此独立),此时我们假设绝大部分标记的效应均很小,这种方法我们称为 SNP-BLUP 方法 (等价于频率学派中的岭回归方法,ridge regression ,即在最小二乘中添加 的惩罚项 ) 。此时绝大部分标记的效应在 0 附近,只有少量标记的效应可能比较大。

在假设标记效应的先验分布为正态分布的前提下,下面的三个方法实际内容相同:

  • SNP-BLUP
  • GBLUP
  • ridge regression

也就是说估计SNP效应的方法中的岭回归和SNP-BLUP,和构建基因组关系矩阵 (G阵) 来估计育种值的 GBLUP 方法,这三者其实是等价的。

SNP-BLUP 的估计值就是 BLUP 值,其混合模型方程组如下

其中 。通常我们假设 ,因此可以进一步简化为

其中 。这里的系数矩阵的行数或列数是固定效应数目+位点数目,与样本数目无关。第二,这里的系数矩阵是稠密的,因为 是稠密的( 矩阵是由012编码或-101编码组成的)。

这里我们需要已知 ,我们有两种策略来得到这两个方差组分,最常用的方法是根据加性方差和先验的标记方差的关系,利用下面的公式得到

这里的 是加性方差估计值,可以通过对系谱表型用REML方法估计得到; 是等位基因频率(注意,这里的等位基因频率必须是估计加性方差的群体的基因频率,比如系谱中的基础群体)。但是,我们直接用当前数据的基因频率 ,因此这里存在一些误差(虽然经常可以忽略)。至于残差方差 ,我们可以从之前的研究得到(应该是对系谱表型用REML方法估计得到的残差方差)。

第二种方法我们可以直接从标记数据中来估计方差组分,典型方法是 GREML 。

贝叶斯回归方法简介

Bayes A 方法的先验分布为 Scaled-t density,见下式。相比于正态分布的先验分布, 这种方法的先验分布有两条”肥尾巴“,即认为效应很大的标记出现概率更大。

Bayes B 方法在 Bayes A 方法的基础上进一步认为基因组上并没有很多 QTLs ,因此很多标记由于并不和 QTL 连锁,因此其效应为 0。即设定比例为 的位点的效应为0 ,其他位点的效应服从 Scaled-t density , 即此时

Bayes C(Pi) 方法认为比例为 的位点的效应为0 ,其他位点的效应服从正态分布,即

Bayes Lasso 方法的先验分布为 Double-Exponential 分布,即 (等价于频率学派中的Lasso方法,即在最小二乘中添加 的惩罚项 ) 。

不同方法的先验分布总结如下:

  1. Normal distribution: Random regression BLUP (RR-BLUP), SNP-BLUP, GBLUP
  2. Normal distribution with unknown variances: BayesC, GREML, GGibbs
  3. Student (t) distribution : BayesA
  4. Mixture of Student ( ) distribution and spike at 0 : BayesB
  5. Mixture of Normal distribution and spike at 0 : BayesCPi
  6. Double exponential: Bayesian Lasso
  7. Mixture of a large and small normal distribution: Stochastic Search Variable Selection (SSVS)

贝叶斯回归方法的缺点是计算缓慢。根据大量实验,假设标记效应的先验分布为正态分布是一个好的假设。

参考文献

  1. http://nce.ads.uga.edu/wiki/lib/exe/fetch.php?media=gsip.pdf
  2. http://nce.ads.uga.edu/wiki/lib/exe/fetch.php?media=andres_part2.pdf
  3. de Los Campos G, Hickey J M, Pong-Wong R, et al. Whole-genome regression and prediction methods applied to plant and animal breeding[J]. Genetics, 2013, 193(2): 327-345.
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2019-2022 Vincere Zhou
  • 访问人数: | 浏览次数:

请我喝杯茶吧~

支付宝
微信