近交系数及A逆的计算

在利用混合模型方程组估计育种值时,需要得到个体间的加性遗传相关矩阵 的逆矩阵 ,虽然我们可以先构建 阵再求逆,但是这在观测值数目很多时计算是非常困难甚至是不可实现的,因而 Henderson 又提出了一种通过系谱直接构建 的方法。

近交系数

近交系数的一般公式

近交系数是个体任一基因座的两个等位基因同源相同 (identical by descent, IBD) 的概率。

举例如下图,X 是半同胞 S, D 间交配所生的近交个体,我们要考虑其近交系数

显然,S, D 仅仅因为共同祖先 A 而相关。因此,我们只需要考虑 A 的基因通过 S,D 传递给 X 的问题。假设 A 不是近交个体,令 表示 A 的任一基因座上的两个等位基因,则 同源相同的概率为 0。根据通径分析,则 X 的基因型为 的概率是 ;同样地,X 的基因型为 的概率是 。因此 X 为 的概率是 ,此时这就是 X 的近交系数。 假设 A 是近交个体,其近交系数为 ,即 同源相同的概率为 。那么即使 X 的基因型 为 (区分父母的基因),也有一定概率是同源相同的。 X 的基因型 为 的概率也是 ,因此出现任意一种基因型的概率为 ,此时因为 同源相同而新增的近交系数概率为 ,将这两部分加在一起得到 X 的近交系数为

如果个体更加复杂,个体的两个亲本之间可能有更多通径,易得个体近交系数的一般公式为:

其中,N 为亲本相关通径链中的个体数,包括亲本、共同祖先以及通径链中的其他所有个体。 分别表示一个通径中个体的父亲和母亲到它们的共同祖先 A 的世代数。在上面的例子中,

这种根据通径计算近交系数的方式比较麻烦,下面介绍另一种方法。

共亲系数

共亲系数 (coefficient of kinship),有时也称为共祖系数 (coefficient of coancestry) ,定义为二者交配所生后代的近交系数,是两个个体所产生的配子中,各随机抽取一个所携带的基因同源相同的概率。

假设我们要考虑的两个个体为 P 和 Q,个体 P 的任一基因座的两个基因是 a 和 b ,个体 Q 的同一基因座的两个等位基因是 c 和 d ,而 P(a=b) 表示两个基因同源相同的概率,于是 P 和 Q 的共亲系数为

假设 P 的两个亲本为 S 和 T,Q 的两个亲本为 V 和 W,容易证明,两个个体的共亲系数等于这两个个体各自父母的共亲系数的平均,也等于一个个体与另外一个个体亲本的共亲系数的平均,即:

从逻辑上简单证明如下,首先我们看第一个式子,我们知道 P 的基因均来自于 S 和 T,从 P 的任一基因座随机提取一个基因,等同于从 S 和 T 同一基因座的四个基因中随机提取一个基因,个体 Q 同理。因此从P 和 Q 这两个个体所产生的配子中,各随机抽取一个所携带的基因同源相同的概率 ,等同于从 S 和 T 的四个基因抽取一个基因,及从V 和 W 的四个基因抽取一个基因,这两个基因同源相同的概率,易得其等于上式。同理可得第二个式子。

这里有一个特殊情况,即个体与其自身的共亲系数。根据定义,它应等于个体任意一个随机基因与该个体的另一个随机抽取的基因同源相同的概率。一个基因与其自身同源相同的概率为1,而与该位点上另一个基因同源相同的概率为 F ,即近交系数。两个概率的平均值为个体与其自身的共亲系数,即:

据此,又有:

根据共亲系数,我们可以很容易地计算一个小群体内各个个体的近交系数。我们将个体按照出生前后排列起来(可以将各个体的父母标在各个体上方),按照以下公式依次计算共亲系数:

我们可以得到下面的共亲系数矩阵

最后根据公式 ,得到所有个体的近交系数。

加性遗传相关

个体 和 个体 之间的加性遗传相关是指在它们的基因组中具有同源相同 (identical by descent, IBD) 基因 (相同的且来自同一祖先的基因)的比例,或者说从个体 的基因组中随机抽取的一个基因在个体 的基因组中也存在的概率。

采用上面的例子,假设我们要考虑的两个个体为 P 和 Q,个体 P 的任一基因座的两个基因是 a 和 b ,个体 Q 的同一基因座的两个等位基因是 c 和 d,那么这两个个体的加性遗传相关为

因此,加性遗传相关等于共亲系数的两倍。根据上面共亲系数的公式,我们有

加性遗传相关恰好是 Wright(1922) 所定义的亲缘系数 (coefficient of relationship) 计算公式中的分子,故又称其为分子亲缘相关 (numerator relationship)。

任意两个个体 的加性遗传相关的计算通式为:

其中, 分别表示连接个体 和个体 的一个通径中由 到它们的共同祖先 A 的世代数; 为 A 的近交系数; 表示当连接个体 和 个体 的通径不止一个时,要对所有的通径求和。

加性遗传相关也可以理解为个体 的育种值 (加性遗传值) 之间的相关 (故而称之为加性遗传相关),于是有

如果 X 和 Y 在同一群体,则 ,于是有

对于一个有 个个体的群体,它们之间的育种值的协方差矩阵为

其中, 为 n 个个体的育种值向量; 为个个体间的加性遗传相关矩阵。

亲缘系数

近交系数的大小,是对双亲间的亲缘程度的间接度量,双亲间的亲缘程度也可用二者间的亲缘系数直接度量。据 Wright (1921) ,亲缘系数是指两个个体间加性基因效应间的相关(不懂?)。设只考虑一个基因座,假设我们要考虑的两个个体为 P 和 Q,个体 P 的任一基因座的两个基因是 a 和 b ,个体 Q 的同一基因座的两个等位基因是 c 和 d,则相对于群体均值的加性基因效应分别为:

由此, 的协方差为

若令基础群的加性基因效应方差为 ,有:(这几个公式不知道怎么来的)

因而:

同时,我们有

所以

我尽可能地查找了资料和文献,还是没搞懂这个亲缘系数是怎么来的,最原始的文献是 Wright 1922 年的文章,我看也是直接给的公式。

基于 gsip.pdf 中,Legarra 是直接使用加性遗传相关,而不是Wright 定义的亲缘系数,原文如下:

Wright (1922) introduced the notion of relationships as correlation between genetic effects of two individuals. For practical reasons, it is more convenient to use what is often called “numerator relationship” (Quaas 1976) or simply “relationship” or “additive relationship”. This equals the standardized covariance (not the correlation) between the additive genetic values of two individuals. The pedigree relationship is not equal to the correlation if there is inbreeding. There are several terms used to talk about relationships, and here we will present the classical definitions according to pedigree

A 阵的计算方法

本章节内容来自于张勤老师的《动物遗传育种中的计算方法》。

阵是由个体间的加性遗传相关组成的矩阵。

动物模型下 A 阵的计算

在动物模型下, 阵是所有动物个体之间的加性遗传相关矩阵, 阵的每一元素可用以下的递推公式来计算:

其中, 为个体 的父亲和母亲。

在利用以上公式计算 阵时,要先将系谱中的所有个体按个体号、父号和母号列成一个三列表,在列表时应注意:

  1. 在个体一列中应包括所有在父和母列中出现过的个体
  2. 在个体一列中应保证后代绝不会出现在其父母之前,一般可按出生日期排序,先出生的在前。
  3. 为便于编写程序,个体应用自然数从 1 开始连续编号。

下面举例说明,设有 7 个个体,列如下表。

对于其中双亲未知的个体,我们假设它们都是非近交个体,且彼此无亲缘关系,这些个体就构成了所谓的基础群 (base population) ,这些个体所对应的 阵中的子矩阵为一单位阵,对于本例而言,我们有

从这些元素出发可计算出 中所有的其他元素,如

完整的 阵为(计算过程是只算上三角矩阵,然后第一列,第二列,第三列的顺序,也就是说计算顺序为 的顺序 )

A逆的计算方法

L 矩阵

Henderson(1975a, 1976) 提出了一种可以从系谱直接构造 的简洁方法,正是由于这一方法的提出,才使得BLUP法,尤其是动物模型 BLUP 法在家畜育种中的真正广泛使用成为可能。

由于 阵为正定对称矩阵,根据科列斯基分解 (Cholesky decomposition),它总可以分解为

其中 是一个下三角矩阵,其中基础群体构成的 的子矩阵也是一个单位矩阵。简单证明以下,首先我们知道 阵基础群体的 的子矩阵也是一个单位矩阵,我们将 阵和 阵分块如下

,得到 阵的左上角的子矩阵有计算公式如下

逐元素计算得到 (证明其对角线元素均为 1,非对角线元素均为0,这一步证明略 ) ,得证。

假设个体 的父母均已知,分别为 p 和 q,p < q ,假设总个体数目为 n ,假设个体 。根据 ,我们有

同理,我们有

根据加性遗传相关的计算公式 ,将上式带入,我们有

,我们得到

整理一下,我们得到

根据加性遗传相关的另一个计算公式 ,同理可得下面的公式

我们有 ,带入得到

整理一下,得到下面这两个式子

假设个体 知道一个亲本 p ,同理可得

假设个体 两个亲本均未知 ,同理可得

进一步分解

又可以进一步分解为

其中, 是一个对角矩阵,其对角线元素 () 等于 矩阵的对角线元素 () ,即 阵为下三角矩阵,其对角线元素全为1。

因此,我们有 ,其对角线元素计算公式如下

同时, 可写为

其中, 矩阵元素计算方式如下,其中 为 近交系数。

根据 矩阵元素,我们可以按列计算 阵元素,计算公式如下(系谱按照出生日期顺序排序)

如果按行来计算 阵元素,其第 行元素等于个体 从其直系祖先中得到的基因比例(个体与其亲本是 0.5 ,与其祖父母是 0.25 ,每隔一代乘以 0.5),比如 。如果两个个体没有直系的亲缘关系,那么 。因此, 阵第 行元素可以拆分与个体 的亲本的元素的 1/2 的累积之和,即

这里 为个体 的所有后代, 为个体 的所有祖先(包括个体 本身),第二个等号就是只提取 中为个体 祖先的个体,因为不是个体 祖先 ,那么 ,加不加一样 。

T^-1 矩阵

Henderson 证明, 中的对角线元素全为1,在其第 行上,第 个个体的每一已知亲本所对应的元素为 -0.5 ,其余元素均为0。对于上面的例子,我们有

证明如下,我们先考虑下面这个分块矩阵,其中 是一个 的下三角矩阵, 是一个 的向量, 是一个 的向量。

那么其逆矩阵为(假设可逆,即对角线元素均不为0)

因为存在

我们知道 矩阵中某个体的非对角线元素等于其父母同位置非对角线元素的一半,即

根据矩阵乘法公式,我们知道一个矩阵 右乘一个对角矩阵 的结果为 的每一列乘以 ,举例如下

因此易得 矩阵同样满足 矩阵的这个性质,即某个体的非对角线元素等于其父母同位置非对角线元素的一半,我们有( 为基础群体数目,

其中 中的元素除了第 的亲本为 0.5 之外,其余均为 0 (这就要求系谱需要排序,亲本需要排在个体前面)。

根据上面的求逆公式,我们可知 矩阵是一个下三角矩阵,其对角线元素均为 1 ;非对角线元素中除了亲本是 -0.5 之外其余元素均是 0 。

得证。

D^-2 矩阵

仍是对角矩阵,设 为其对角线上的第 个元素,根据上面 矩阵对角元素的公式,易得

其中, 为近交系数。如果这些近交系数已知,则易得 ,进而求得

如果我们已经求出了 阵,则这些近交系数可以很容易地从 阵的对角线元素求得。

当群体为非近交群体(所有个体的近交系数均为0),可得

另一种构建A逆的方法

Quass (1976) 提出了求 的另一种简便方法,现介绍如下。这里的内容我其实没有仔细看,感觉挺繁琐的,不如先构建 阵来得到近交系数的做法的逻辑简洁。

,可得 ,所以只要求出 ,就可得到 。将 带入上式得到

,可得 。注意在求 时要用到 的非对角线元素。将这个式子带入上式,我们得到

同时我们有

综上所述,可按下列步骤计算

  1. 按计算 阵时的要求将系谱中的所有个体列表;

  2. 中的所有元素置为 0

  3. 设置两个维数为 的零向量 用于存放 ,并临时存放 (), 用于存放

  4. 对于 ,计算

  • ,其中 用上式计算,即:

  • 对于 ,计算

  • 将下列数值加到 中:

    的双亲 已知(这里的箭头指把 右边的位置的元素加上左边的数值):

    的一个亲本 已知:

    的双亲均未知:

参考文献

  1. Henderson, 1976, A Simple Method for Computing the Inverse of a Numerator Relationship Matrix Used in Prediction of Breeding Values.
  2. Wright, 1922, COEFFICIENTS OF INBREEDING AND RELATIONSHIP .
  3. 张沅,《家畜育种学》
  4. 张沅,张勤,《畜禽育种中的线性模型》
  5. 张勤,《动物遗传育种中的计算方法》
  6. Luo Z. Computing inbreeding coefficients in large populations[J]. Genetics Selection Evolution, 1992, 24(4): 305-313.
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2019-2022 Vincere Zhou
  • 访问人数: | 浏览次数:

请我喝杯茶吧~

支付宝
微信