基因组选择模型介绍下

2022-04-09

理论学习 / 线性模型

字数统计: 4.4k | 阅读时长≈ 15 分钟

本篇介绍第二类基因组选择方法，通过使用基因组数据构建新的关系矩阵加入到混合模型方程组中直接获得基因组估计育种值，如 GBLUP方法和 ssGBLUP 方法。

基因组关系矩阵

先看三个定义

共亲系数，是两个个体的任一基因座，各随机抽取一个基因同源相同 (identical by descent, IBD，指两个基因相同并且来自于同一祖先)的概率。如果是一个个体，那么是可放回抽样。
近交系数，某个个体同一基因座的两个基因同源相同的概率
分子亲缘相关，或者说加性遗传相关，指两个个体的基因组中同源相同基因的比例，加性遗传相关的另一重含义是其为两个个体育种值的相关，即。

注意下面说到的亲缘系数均指，而不是 Wright 在 1922 年定义的那个亲缘系数（其中是其分子）。

IBS 和 IBD

两个个体的 IBS (identity by states, 指两个基因相同) 概率，或者分子共亲系数 (“molecular” coancestries) 表示为两个个体各自随机抽取一个基因相同的概率。分子亲缘关系 (molecular relationships) 定义为，这里和类似，为两个个体的基因组中相同的比例。

和具有下面的关系。我们考虑从个体和个体中各随机抽取一个基因，它们由于 IBD 相同的额概率为，它们不是 IBD 相同的概率为但是由于偶然相同的概率为。因此，，重排一下，我们得到：

易得，或，因此相比于 IBD ，IBS 是向上有偏的。

左右乘2，我们得到和的关系：

或者

根据这个公式，我们可以从 IBS 关系中得到 IBD 关系，这个等价于 VanRaden 的阵 (?)。

单个 QTL 的个体间亲缘关系

假设我们研究的物种只有一个二等位基因的基因，你获得了想要的个体的基因型之后，那么此时个体和的协方差是什么呢？让我们把育种值表达为加性值 () 减去群体均值 ( ) 后的差值：

这里为 012 编码，即参考碱基的数目。如果这个 QTL 具有先验分布，其先验方差为，假设哈温平衡下的加性方差为。根据方差和协方差的计算公式，我们有

如果我们定义，换句话说我们采用中心化的编码方式，那么此时两个个体之间的协方差等于。

对个体间的协方差除以加性方差，我们得到了根据这个 QTL 得到的加性亲缘关系，这里称为。和的两个例子如下表所示 (这两个表感觉有问题，我计算的都对不上，第一个表 AA 和 AA 我计算应该是 2 ) ：

我们看到这里有负的亲缘关系，原因是由于我们对育种值的计算过程中强行使得其为和群体均值的差值，因此这是正常的。

这里的近交系数就是，这里可能出现负值，说明这个个体的杂合子比例低于预期。

基因组关系矩阵

我们可以计算 IBS，再将其调整为 IBD 。我们先看 VanRaden 的第一种基因组关系矩阵，这里我们就是从上面的单个 QTL 推导为多个标记。为了使得育种值的均值为 0 ，我们对中心化的基因型编码，如下：

在理论上，为了参考系谱基础群体的育种值，这里我们应该也用基础群体的等位基因频率。但是这一点基本无法实现，因此我们通常还是用已有基因型数据的基因频率。育种值计算公式为

即，个体育种值就是所有标记效应的和。我们假设标记效应的先验分布的协方差矩阵为

其中

通常我们假设不同标记的方差相同，即。那么，个体育种值的协方差矩阵为

但是这里还不是亲缘关系矩阵，亲缘关系矩阵是标准化的协方差矩阵，因此这里我们还要除以加性方差，即育种值的方差。如果我们假设哈温平衡和连锁平衡，我们已知存在下式

因此，我们得到亲缘关系矩阵为

阵的对角线元素衡量一个个体的纯合子位点数目（纯合子位点数目越多，对角线元素越大），其非对角线元素衡量两个共同的碱基的数目。注意，阵可以理解是对 IBS 矩阵做了修改，从而变成了对于 IBD 关系的一个近似，这种近似比从系谱得到的近似更好，因此这就是为什么基因组预测由于系谱预测。

GEBV 和 SNP 效应

估计SNP效应时，我们有模型如下

这里是一个对角矩阵，表示每个 SNP 的相对方差，这个模型等价于

因此，我们有

估计SNP效应得到的 GEBV 为

我们也可以从 GBLUP 的 GEBV 值中得到 SNP 效应（Stranden and Garrick, 2009）

我们检查一下

G阵中使用的基因频率

在构建阵的过程中，使用的基因频率有些困惑的地方。(Strandén and Christensen 2011) 证明了，中，构建矩阵中使用不同的基因频率是无关的，只会使得所有元素偏移了一个常数，即阵均值偏移了一个常数。为了和系谱构建的阵的元素范围 (scale) 相同，我们应该使用基础群体的基因频率。

但是，分母中使用的基因频率更加重要。因为方程中使用的加性方差和基因频率应该是同一个群体的，因此采用当前群体的基因频率表示我们参考的是当前群体的加性方差。如果系谱的基础群体和当前的基因型数据群体相差了很多世代，那么加性方差会降低。

G阵的性质

GBLUP 的估计育种值的均值为 0 ，这是因为是中心化的矩阵 (缺证明？)。
阵的均值为 0 。证明如下，首先我们有 (缺证明)。假设连锁平衡，那么的和为0 （因为连锁平衡，两个位点的基因型乘积之和为0，因此的非对角线元素全为 0，但是对角线元素不是 0 啊，感觉有问题）。
如果没有近交，那么阵的对角线元素均值为 1 。 假设哈温平衡，存在 (缺证明)。的对角线元素是某个位点对于碱基 “a” 和 “A” 的效应的协方差的平方，假设有个个体，位点的两个碱基的基因频率分布为和，即 (没看懂)

因此，阵的对角线元素均值为

如果存在近交，那么就不满足哈温平衡，此时假设近交系数为，那么基因型的分布为 (Falconer and Mackay, 1996) 。那么此时我们有

此时，阵的对角线元素均值为

注意，这里是群体内的近交系数，可以是负数，表示过多的纯合子。
阵的非对角线元素均值几乎是 0 。也就是说，如果满足哈温平衡和连锁平衡，如果样本数为，那么（不懂）

添加权重的G阵

在贝叶斯回归方法中，我们认为不同的标记可能有不同的方差。我们可以利用下式实现

实际上，我们有另外一种简单的应用（在 BLUPF90 或 AsReml 中），我们可以通过分解加性方差，然后使用一个权重的矩阵，如（笔误，这里的应该是），其中

注意如果，此时就是常规的基因组矩阵。

标记的权重可以通过几种方式来得到，比如从贝叶斯回归中得到。

G阵是实际的亲缘关系的估计值

使用系谱构建亲缘关系矩阵时，我们假设有无穷多个不相关的基因。在每一个位点，两个全同胞可以共享2个，1个或0个碱基。但是考虑所有的位点，那么两个全同胞就正好是共享一半的基因组。但是真实情况并非如此，由于染色体数目有限，并且同一条染色体上的位点会连锁地传递给下一代，因此两个半同胞之间地差异可能比较大，如下图

举个例子，这里 son 1 和 son3 比 son2 和 son4 更像。因此，在对 son 3 的预测中，son1 应该比 son2 和 son4 给更多的权重。基于上面这个图，这4个半同胞的亲缘关系可能如下

我们称这里的亲缘关系是实际的亲缘关系 (realized relationships) ，与系谱中的期望的亲缘关系相对应 (expected relationships) ，这里我们用矩阵表示，我们有

以两个半同胞为例，其实际的亲缘关系范围是 [0, 0.5] ，其期望值为 0.25 。

阵就是实际的亲缘关系的估计值（证明略），我们有

由于，因此。因此当，说明的期望为 0，因此可以在 0 的上下震荡，因此可能是负数。

G 阵和 A 阵兼容问题

构建阵时需要使用基础群体的基因频率，但是我们一般用的是当前群体的基因频率，这会导致两个问题。

首先就是系谱和标记的遗传基础不一致了，在构建 G 阵时通过使用 “中心化” 的基因型编码，这会使得当前群体的育种值均值。而在使用系谱的常规评估中，我们仅仅是使得基础群体的育种值均值。

举个例子，为了比较基于系谱的 EBV 和基于基因组的 EBV，它们可能在范围 (scale) 上不一样，也就是说二者的 EBV 可能是相差一个常数，即绝对值有差异，但是相对大小和排名可能是一样的。

第二个问题就是加性方差改变了，基于系谱的加性方差是基础群体的育种值方差，而基于标记的加性方差则是等位基因频率为的群体的方差，即当前群体的育种值方差。但是，由于漂变和选择，标记倾向于固定，因此采用当前群体的会比基础群体更小。

但是，只有当我们想要合并系谱信息和基因组信息时，这些问题才有意义。在下一步，我们采用下面的写法，表示系谱中的基础群体，表示基因型个体，表示没有基因型的个体。

校正 G 阵

根据之前的描述，使用当前群体的基因频率，对阵分子的影响相当于增加了一个常数，对分母的影响相当于乘以了一个常数，因此我们可以用下式校正阵。

这里和的取值有不同的说法，这里只说一种。Christensen et al. (2012) 建议根据两个式子来得到和，如下，

也就是说，阵和阵的对角线元素均值相同，所有元素均值相同（或者说非对角线元素均值相同）。

G 阵的奇异性问题

阵可能是一个奇异矩阵，有两个原因可能导致这一点。首先如果存在两个基因型完全相同的个体，那么矩阵就会有相同的两行，导致矩阵不满秩，同时阵也不满秩。第二点，如果构建矩阵时采用的当前群体的基因频率，那么矩阵就会是一个不满秩的矩阵，因为最后一行可以从其他行得到（Strandén and Christensen 2011）。

为了得到一个非奇异的阵，从而可以在MME中使用，我们有两种处理方式。第一种是往对角线添加一个很小的数，见下式，这里是一个很小的数，通常是 0.01 或 0.05 。

第二种方式如下，是添加阵，这里的是 0.05 。这种做法就是 BLUPF90 的做法。这种方式同时是作为剩余多基因效应，也就是这里的是基因组不能解释的育种值比例，有些文章说添加剩余多基因效应之后交叉验证结果更好。

GBLUP

单性状模型

在 GBLUP 中，我们其实就是用基因组构建的阵替换了系谱构建的阵，模型如下

这里。

如果假设随机向量均满足多变量正态分布，那么此时 Best Predictions 就是混合模型方程组的解：

如果，那么可以进一步简化得到

这里。

多性状模型

这里就是多个性状的加性方差组分矩阵，通常，这里就是多个性状的残差方差组分矩阵。

Single Step GBLUP

在实际的生产过程中，只有一小部分的个体有基因型。因此，最佳的方法是合并系谱和基因组关系矩阵，生成一个新的关系矩阵，由于 MME 中，这就是 ssGBLUP 的思想。

H 阵推导

Legarra et al. (2009) 说明如果所有模型中的所有个体均有基因型，那么基因组评估会很简单。此时，我们可以将阵视为先验的关系矩阵 (prior relationship) ，将阵视为一个观测到的亲缘关系 (observed relationship) 。然而，现实中往往只有一部分个体有基因型，即阵只包含一小部分个体，其相应的先验关系矩阵就是阵。基于这个思想，我们可以基于无基因型的个体育种值 () 和有基因型的个体育种值 () ，将有基因型个体的信息扩展到没有基因型的个体：