基因组选择模型介绍上

2022-04-09

理论学习 / 线性模型

字数统计: 2.9k | 阅读时长≈ 10 分钟

基因组选择方法，大体上可以分为两类，第一类方法是通过参考群数据获得标记效应从而间接
获得基因组估计育种值；第二类方法是通过使用基因组数据构建新的关系矩阵加
入到混合模型方程组中直接获得基因组估计育种值，如 GBLUP方法。

本篇主要介绍第一类方法。

单标记选择

我们先看单个标记的模型，再扩展到全基因组的基因组选择。

假设存在一个标记与某个 QTL 处于完全连锁状态，那么我们可以将这个标记当作固定效应加入到模型中，即

我们也可以往模型中添加一个剩余多基因效应 (additional polygenic genetic value) 。

我们下面看一些例子，首先假设我们有一个 4 等位基因 (A,B,C,D)的标，三个个体的基因型分别为 BC, AA, BD。那么我们可以估计每个等位基因的效应，建立矩阵如下

假设三个基因型个体的表型为 (12,35,6) ，则可以构建一个模型如下

这个模型是一个固定模型，可以通过最小二乘法进行求解。

如果我们考虑剩余多基因效应，则模型为

其中，此时模型为混合线性模型，可以用 BLUP 方法求解。

我们可以轻松扩展到 2 个标记的模型，即

然后到个标记的模型

如果所有标记只有 2 个等位基因，例如 SNP ，假设两个 SNP 的碱基分别为 A/B, E/F ，按照上面的表示方式，我们需要将三个个体的标记效应表示为

但是由于标记只有 2 个碱基，此时这种表达方式存在冗余，一个标记可以只估计一个效应，我们得到

或者（可以任意挑选某个碱基进行计数）

此时我们面临下面几个问题

我们应该放多少个标记到模型中？
基因组中总共有多少个 QTL ？
我们已经发现并通过验证的 QTL 有多少个？

根据之前的研究结果，我们发现只用发现的 QTL，我们会遗漏很多的遗传变异。例如在 GWAS 分析中，当样本数为 1000 ，位点数为 50k ，经过 Bonferroni 校正后，找到的解释遗传方差比例超过 1% 的 QTL 只有 4% ，换句话说，如果群体中存在 100 个 QTL ，GWAS 只能找到 4 个显著的 QTL。

另外，我们发现的 QTL 效应一般都是夸大的，即其真实效应小于估计效应 (Beavis effect)。因为估计效应等于真实效应加上估计噪音，为了选择估计效应很大的 QTL ，我们就很容易选中实际是估计噪音很大的 QTL 。如果真实情况是只有少数几个QTL的效应很大，那么此时 Beavis effect 是可以忽略的，但是实际情况往往不是这样。当位点数目很多，就会出现某些位点的估计噪音很大，使得这些位点的估计效应比真实效应大得多，这个问题在 GWAS 分析中很严重。

全基因组选择

贝叶斯估计，或标记效应的最佳估计

我们已知标记辅助选择会导致选择出现偏差，那么如果我们不对 QTL 区域进行选择，我们就可以避免这个偏差。因此此时的估计育种值就是整个基因组所有区域的效应之和，即我们认为基因组的所有区域可能都有效应，这种思想就是全基因组选择。那么我们如何估计整个基因组所有区域的效应呢？

最简单的方法就是扩展单标记选择扩展为多标记选择，估计每一个标记的效应。但是由于此时我们采用覆盖全基因组的标记，问题在于标记数目太多了（标记数目很可能大于样本数目），此时用最小二乘法估计标记效应是很糟糕的。

另外，即便我们有非常多的样本，我们还没有用上一个先验信息，即大部分的 SNP 效应都不大。那么我们如何进行改善呢？

我们可以利用 Best Prediction 的理论（最小化估计值和真实值的举例）， Best Prediction 也可以视为一个贝叶斯估计值，我们需要知道标记效应的先验分布，给定标记效应的表型数据的似然值，此时估计的标记效应值为

第二个等号推导如下

Best Prediction 方法相比于最小二乘方法具有更大的优势，是一个最优解，因为它用了所有可用的信息 (Gianola and Fernando 1986) 。先验分布可以使得估计值向我们的先验值（通常为0）进行回归，这个过程称为 shrinkage 。

贝叶斯回归方法中，一般普遍假设残差的分布为正态分布，即，似然函数。但是不同的人对于标记效应的先验分布的假设不一样，从而得到不同的贝叶斯方法，如 (Bayes A, B, C, R, S… Bayesian Lasso……) 。因此，贝叶斯回归的效果很大程度上受到标记效应的先验分布的影响，我们需要找到一个合适的先验分布，不然估计的标记效应就可能 too much shrunken (所有标记的效应估计值都非常小)，又或者 too little shrunken ，以至于标记效应的估计值中包含了太多的错误甚至是完全错误的。

加性方差和标记方差

假设个体育种值的加性方差为。如果一个标记的效应为，即每增加一个参考碱基的效应为，因此我们有个个体在这个标记的效应为，个个体在这个标记的效应为，个个体在这个标记的效应为（假设哈温平衡）。根据方差公式，我们得到下表

因此，单个标记解释的方差为。由于在时最大，因此 MAF 越大的标记解释的遗传方差一般也越大，因此这解释了可以忽略MAF比较低的标记的原因。

假设我们只有两个标记并且知道它们的效应大小，因此一个个体的育种值可以表示为，那么 $\operatorname{Var}(u)=\operatorname{Var}\left(z_{1}\right) a_{1}^{2}+\operatorname{Var}\left(z_{2}\right) a_{2}^{2}+2 \operatorname{Cov}\left(z_{1}, z_{2}\right) a_{1} a_{2} $ 。假设哈维平衡，易得，。这一项证明为，其中为衡量连锁不平衡的相关系数（这里应该就是两列基因型的相关系数），另外这里的项表示两个位点的效应必须方向一致，这样才是一个正数。因此我们一般不考虑协方差这一项，即假设连锁平衡。

假设连锁平衡，或者说假设位点间彼此不相关，此时，也就是说每一个标记的方差是可以累加的。我们将这个结论一般化，得到加性方差用标记方差表达的公式：

但是在很多情况下，我们不知道标记效应大小。但是我们可能对标记效应有一些先验知识，比如我们一般认为其均值为0，有一个先验的方差。在这种情况下，我们可以将替换为其先验的期望值，即，因此我们有

如果我们假设所有的标记具有相同的先验方差，那么，因此我们得到

SNP-BLUP

如果假设标记效应的先验分布为正态分布，即， (即假设标记之间彼此独立)，此时我们假设绝大部分标记的效应均很小，这种方法我们称为 SNP-BLUP 方法 (等价于频率学派中的岭回归方法，ridge regression ，即在最小二乘中添加的惩罚项 ) 。此时绝大部分标记的效应在 0 附近，只有少量标记的效应可能比较大。

在假设标记效应的先验分布为正态分布的前提下，下面的三个方法实际内容相同：

SNP-BLUP
GBLUP
ridge regression

也就是说估计SNP效应的方法中的岭回归和SNP-BLUP，和构建基因组关系矩阵 (G阵) 来估计育种值的 GBLUP 方法，这三者其实是等价的。

SNP-BLUP 的估计值就是 BLUP 值，其混合模型方程组如下

其中。通常我们假设，因此可以进一步简化为

其中。这里的系数矩阵的行数或列数是固定效应数目+位点数目，与样本数目无关。第二，这里的系数矩阵是稠密的，因为是稠密的（矩阵是由012编码或-101编码组成的）。

这里我们需要已知和，我们有两种策略来得到这两个方差组分，最常用的方法是根据加性方差和先验的标记方差的关系，利用下面的公式得到

这里的是加性方差估计值，可以通过对系谱表型用REML方法估计得到；是等位基因频率（注意，这里的等位基因频率必须是估计加性方差的群体的基因频率，比如系谱中的基础群体）。但是，我们直接用当前数据的基因频率，因此这里存在一些误差（虽然经常可以忽略）。至于残差方差，我们可以从之前的研究得到（应该是对系谱表型用REML方法估计得到的残差方差）。

第二种方法我们可以直接从标记数据中来估计方差组分，典型方法是 GREML 。

贝叶斯回归方法简介

Bayes A 方法的先验分布为 Scaled-t density，见下式。相比于正态分布的先验分布，这种方法的先验分布有两条”肥尾巴“，即认为效应很大的标记出现概率更大。

Bayes B 方法在 Bayes A 方法的基础上进一步认为基因组上并没有很多 QTLs ，因此很多标记由于并不和 QTL 连锁，因此其效应为 0。即设定比例为的位点的效应为0 ，其他位点的效应服从 Scaled-t density ，即此时。

Bayes C(Pi) 方法认为比例为的位点的效应为0 ，其他位点的效应服从正态分布，即。

Bayes Lasso 方法的先验分布为 Double-Exponential 分布，即 (等价于频率学派中的Lasso方法，即在最小二乘中添加的惩罚项 ) 。

不同方法的先验分布总结如下：

Normal distribution: Random regression BLUP (RR-BLUP), SNP-BLUP, GBLUP

Normal distribution with unknown variances: BayesC, GREML, GGibbs

Student (t) distribution : BayesA

Mixture of Student ( ) distribution and spike at 0 : BayesB

Mixture of Normal distribution and spike at 0 : BayesCPi

Double exponential: Bayesian Lasso

Mixture of a large and small normal distribution: Stochastic Search Variable Selection (SSVS)

贝叶斯回归方法的缺点是计算缓慢。根据大量实验，假设标记效应的先验分布为正态分布是一个好的假设。

参考文献

http://nce.ads.uga.edu/wiki/lib/exe/fetch.php?media=gsip.pdf
http://nce.ads.uga.edu/wiki/lib/exe/fetch.php?media=andres_part2.pdf
de Los Campos G, Hickey J M, Pong-Wong R, et al. Whole-genome regression and prediction methods applied to plant and animal breeding[J]. Genetics, 2013, 193(2): 327-345.

版权声明： 本博客所有文章除特别声明外，著作权归作者所有。转载请注明出处！