方差组分估计方法四之EM-REML

这是方差组分估计方法的第四篇博客,介绍 EM-REML 算法。

混合线性模型的一般式子

我们将混合线性模型写为

其中 的联合分布为

其中 。这里我们假定这三个矩阵均为正定矩阵。

这里的 是与随机效应 相关的方差组分的向量,而标量参数 是与残差和全部方差组分的缩放系数。因此我们需要估计的方差参数为

因为 的分布为

其中 是一个正定矩阵。

这里的标量参数 均是用于缩放的参数,我们发现如果我们同时包含这两个参数,那么这两个参数的值便均无法确定,因为此时 。实际上我们至少会将其中一个参数设定为 1 。

按照育种模型的一般思路,这里我将 均设为 1, 此时 ,我们需要估计的参数为

假设我们有 个随机效应,即 ,因此此时随机效应的协方差矩阵可以写为

此时的方差组分 也可以进行相应的分块,例如 ,因此我们有

但是对于残差,我们通常还是认为所有数据来自与一个数据集,即残差是均质的,其协方差矩阵不用分块。

推导 C 逆矩阵

假设 矩阵满秩,则混合线性模型的系数矩阵 可逆。

我们将原始的系数矩阵分块为

根据舒尔补公式,系数矩阵逆矩阵可以写为

在之前的推导中,我们已经得到

根据附录1,我们有 ,因此其它分块子矩阵推导如下

因此我们得到

推导 P 矩阵

之前我们得到了两个 P 矩阵的式子,如下( 为满足 的一个矩阵)

这里我们推导第三个式子

其中 为系数矩阵。

证明过程

根据下面的附录1,我们有

我们可以将其写为

其中

我们也可以用 来表示

我们同样可以用 来表示 矩阵的元素

因此系数矩阵逆矩阵可以表示为

因此,我们有

因此

证明完毕

EM-REML

在之前的DF-REML 推导中,我们得到 REML 的一个似然函数的式子如下:

对于某个参数 进行求导,如下:

我们定义 ,并且使用下面的求导公式

因此我们得到

因此我们得到 REML score 式子:

下面我们要考虑 REML score 对于 的具体式子。

对于一个与 相关的方差组分 推导如下

其中

如果模型中只有一个随机组分,则有:

对于残差的方差组分 则有

因此我们得到对于 的 REML score 式子为:

我们定义 是一个 的矩阵( 为所有固定因子和所有随机因子的水平数目, 是第 个随机因子的水平数目 ),并且满足 ,因此 中只有对应 中的位置存在一个单位矩阵,其它元素全是 0 (因为矩阵向量乘积可以理解为矩阵的列的线性组合,因此 每一列只有一个对应 的列号的元素为1,其它为0 )。

我们将系数矩阵 写为

其中

我们对上面式子进一步推导,得到

其中 可以写为:

这里 就是 中对应着随机效应的部分,由于我们可以有多个随机效应 ,因此 可以进一步分块为(其中 为随机效应数目):

其中 就是对应着第 个随机效应 的部分。

同样的道理,我们可以将 矩阵分块为:

因此我们得到

因为 中只有对应 中的位置存在一个单位矩阵,其它元素全是 0 ,因此我们得到

因此, 可以进一步推导得到

对第二个式子推导前,我们先用 得到随机效应 的式子,根据BLUP方法,我们有

同时我们有

因此,我们得到

我们同时得到

因此,对右手项推导得到

因此,我们得到对于 的 REML score 式子可以写为:

如果模型中只有一个随机效应,则有

对于残差的方差组分 ,我们将 代入 得到

我们对其进行推导得到:

对于第二个式子,首先我们推导 ,如下

因此,我们得到

因此我们得到关于 的 REML score 式子如下

单性状模型的迭代公式

对于单性状模型(假设所有随机因子之间均不存在相关),我们将 设为 0, 推导一下,我们得到:

整理一下,我们得到(其中 的水平数目,或者说是 的列数)

一个收敛更快的迭代公式为

联合使用之前推导得到的残差计算公式(其中 是表型数目, 的秩,只适合单性状模型),我们便得到了完整的 EM-REML 估计公式

这里我们还有残差的另外两种推导公式,如下

设为0,我们得到

因此可以得到第一个式子,我们对其中 推导如下

对于 ,我们对其推导得到

因此,我们得到

因此我们得到

代入上式,我们得到

因此可以得到第二个式子。

多性状模型的迭代公式

随机效应

对于多性状模型,假设只有一个随机因子(其实多个因子同理,只是这样不用写 矩阵的下标了,符号更加清晰),按照性状排序, 则有

其中 就是相应的方差组分的矩阵形式,如下所示,即反过来 ,其中 为性状数目。

对于随机因子 ,假设对于每个性状的随机因子水平数目均为 ,则 也可以表示为一个 的矩阵 ,其中每一列代表一个性状的所有水平,如下

反过来则有

对于 ,我们有公式

因为 相应 位置的元素 就是 ,所有易得 ,其中

因此,我们推导得到。

最后一个式子中,我们设

代入 得到

我们需要对这个式子进一步简化,我们知道 是一个对称矩阵,因此 也是一个对称矩阵, 我们将 中的元素表示为 ( ) 。

首先我们考虑 这一项,当 时,矩阵 只有 位置元素为1,其它位置元素均为 0 。因此 只有第 列元素为 的第 列元素,其它元素为 0 。因此,我们得到

时, 矩阵 只有 位置为 1,其它位置元素为 0 。因此 其第 列为 的第 列, 其第 列为 的第 列,其它位置元素为 0 。因此我们得到

即我们得到

我们现在考虑第三项,如下

其中我们设

时,矩阵 只有第 列元素为 的第 列元素 ,其它位置元素为 0 。因此,我们得到

时, 矩阵 其第 列为 的第 列, 其第 列为 的第 列,其它位置元素为 0 。因此,我们得到 (因为 对称)

综上,我们有

我们现在考虑第二项,我们将 按照性状分块为 的子矩阵,如下

处于简化的目的,我们这里考虑 的情况(这个不影响推导出来的结果),根据矩阵乘法,当 时,我们有

因此,我们得到

利用迹函数的性质,我们得到

时, 我们有

因此

因此我们得到

我们对需要求和的第一项交换 ,并且我们知道 , ,因此我们继续推导得到

综上,我们将 改为一般的 ,我们得到

现在我们定义 是一个 的矩阵,其元素为 ,根据矩阵乘法性质(假设 均为 的矩阵,则 ),我们发现

我们定义 的元素,即

因此,我们得到

将上面的式子代入 ,进一步简化得到

将之设为0, 对 求解得到 EM 推导公式

使用矩阵格式,我们得到

左右均乘以 ,得到

因此,我们得到 EM 推导公式

因为 可以进一步分块为:

因此 。因此上面的 EM 推导公式可以写为

这个式子和单性状模型的推导公式正好具有相同的格式。

残差

按照性状排序, 此时我们有下式成立,其中 为表型行数, 为需要估计的协方差组分的矩阵。

形式如下(这里我们使用 ,与上面的随机效应格式相同 )。

对于随机因子 ,同上, 也可以表示为一个 的矩阵 ,其中每一列代表一个性状的所有残差,如下

反过来则有

对于 ,我们有公式

易得 ,其中

因此,我们推导得到

最后一个式子中,我们设

代入 得到

我们需要对这个式子进一步简化,我们知道 是一个对称矩阵,因此 也是一个对称矩阵, 我们将 中的元素表示为 ( ) 。

首先我们考虑第一项 ,同上,我们可以得到

我们现在考虑第三项,如下

其中我们设

时,矩阵 只有第 列元素为 的第 列元素 ,其它位置元素为 0 。因此,我们得到

时, 矩阵 其第 列为 的第 列, 其第 列为 的第 列,其它位置元素为 0 。因此,我们得到 (因为 对称)

综上,我们有

对于第二项,首先我们对 进行推导如下

因此,第二项推导得到

对于第二项的第一项进行推导(其余项同理可得),假设 ,则 可以分解为

类似与随机效应,我们可以得到(推导过程略)

因此,我们得到(同上,我们有

现在我们定义 是一个 的矩阵,其元素为 ,根据矩阵乘法性质(假设 均为 的矩阵,则 ),我们发现

我们定义 的元素,即

因此,我们得到

将上面的式子代入 ,进一步简化得到

将之设为0, 对 求解得到 EM 推导公式

使用矩阵格式,我们得到

左右均乘以 ,得到

因此,我们得到

因为 可以进一步分块为:

因此 。因此上面的 EM 推导公式可以写为

如果我们设 , , ,则我们有

的 EM 推导公式可以写为

附录1: V逆相关推导

根据舒尔补公式 , 我们可以得到

两边左乘 得到

因此我们得到

转置一下,得到

附录2:P 矩阵对方差组分的导数

我们有

证明如下:

参考文献

  1. Knight E. Improved iterative schemes for REML estimation of variance parameters in linear mixed models[D]. , 2008.
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2019-2024 Vincere Zhou
  • 访问人数: | 浏览次数:

请我喝杯茶吧~

支付宝
微信