不满秩的线性回归模型的参数估计

上一篇矩阵微分与正规方程组推导,我推导了线性回归模型中的正规方程组,以及当矩阵 满秩时的最小二乘估计值,现在我们考虑当 不满秩时的情况。

本章节内容主要来自于 《linear models in statistics》第二版的第十二章 Analysis-of-Variance Models

含有均值列的线性模型系数矩阵一定不满秩

一般我们设计的模型中均包含均值列,即全为1的列,而对于任何一个固定效应,每个个体只在一个水平为1,其余水平为0,因此将任何一个固定效应的所有水平的列加在一起,就等于均值列,因此设计矩阵的列之间存在线性相关,设计矩阵一定不满秩,最小二乘解不唯一,不是所有固定效应的水平均可估计。

所以如果模型中包含均值列,那么是一定不满秩,而不是可能不满秩。

不满秩的模型

首先我们看单变量的模型的例子,假设是平衡数据(各个水平的观测值相同)。

单变量模型

假设研究人员开发了两种用于增加汽油日程的化学添加剂,假设不添加任何添加剂的情况下,一加仑的汽油平均可以跑 英里。那么假设我们添加化学物质 1,我们期望一加仑汽油的里程数增加 英里;而添加化学物质 2,一加仑汽油的里程数增加 英里。

因此,这个模型可以表示为

其中 是添加化学物质 1 的日程数, 是添加化学物质 2 的日程数。我们想要估计参数 ,并且做假设检验,例如

假设我们做了6次实验,其中每个化学物质做了3次,用矩阵形式表示为

或者

其中 是一个 的矩阵,秩为2 ,因为第一列等于第二列和第三列的和。此时我们无法得到估计值 ,因为 不存在。

这里我们考虑这些参数的含义。参数 表示不添加任何化学物质的均值, 表示两个化学物质的增加量。举个例子,假设 , ,那么模型为

然而,我们从数据中能得到的是 ,我们无法得到 ,因为很多模型都可以得到这两个式子,比如

又比如,

我们有无穷的参数组合可以实现这一点。也就是说,我们无法得到唯一的 ,此时我们称这个模型为 过度参数化的 (overparameterized) 。在平衡数据中,你增加数据量无助于这一点,因为不会改变 的秩。

我们很多种方法可以解决这一点,来获得唯一的估计值,但是这些方法各有利弊。第一种,重新定义一个模型,减少参数的数目,使得参数估计值唯一;第二种,模型不变,但是对参数增加约束条件,使得参数估计值唯一;第三种,模型不变,估计某个唯一的参数的线性组合。下面我们来简单地介绍这三种方法。

第一种方法:为了减少参数数量,考虑到下面两个式子成立

这里,16 和 18 是添加两种化学物质之后的均值,我们可以将其标记为 ,我们可以将模型修改为

此时我们要估计的参数就是 ,观测值的矩阵表示式为

这可以写作

其中矩阵 是一个满秩矩阵,因此我们可以得到唯一的参数估计值为

这种解决方法也称为 再参数化 (reparameterization)

第二种方法:我们需要添加一个约束条件,我们定义加了约束条件的参数为 ,约束条件为 。此时定义的 有一个特殊含义, 表示采用处理后的新的均值,而 表示对这个均值的偏差。采用这个限制条件,上面的例子可以唯一的表示为

这种约束条件通常称为 附加条件 (side conditions) ,我们可以将上面的模型用 表示为

,观测值向量可以表示为

或者

这里 是一个满秩矩阵,因此可以得到唯一的一个参数估计值。但是需要注意,添加的约束条件相当于对参数做了一个新的定义。

第三种方法:我们从之前的结果可以看到,一些参数的线性组合的值是唯一的。比如 对于所有可能的参数的值均成立,因为我们可以估计这种唯一的线性组合的值。

双变量模型

和单变量相比无新增内容,略

估计参数

在这一章节中,我们考虑不满秩的模型 的参数 的估计。这里我们采用再参数化或者添加约束条件,这里也不假设正态分布。

估计

我们将其一般化,考虑固定模型

根据最小二乘,存在正规方程组

这里 是一个 且秩为 的矩阵,即不满秩,因此 无逆矩阵,正规方程组无唯一解。但是,我们可以证明 有解(无穷多解)。

根据广义逆的性质,对于线性方程组 ,当且仅当对于任意一个 均成立时,方程组才相容。因此我们只需要证明 ,这里 是任意一个广义逆,根据广义逆性质我们知道 ,因此该式子成立,正规方程组相容。

既然正规方程组相容,那么它的一个解可以用广义逆表示为

这里 的任意一个广义逆。此时 的期望值为

因为 ,因此 的一个有偏估计值。并且 会随着 的选择而发生改变,也就是说,每一个选中的 均不相同。

我们可以进一步证明,此时所有的 的线性组合均不是 的无偏估计值。假设我们存在一个 的矩阵 使得 ,那么

该式对所有可能的 均成立,因此我们有 。但是我们知道 ,而 ,因此 不可能等于 ,因此我们证明没有一个 的线性组合是 的无偏估计值 ,得证。

估计 的函数

上面我们证明了我们无法估计 ,那么我们能不能估计任何一个 的线性组合呢?也就是说,估计 $ \boldsymbol{\lambda^{\prime} \boldsymbol{\beta}}$ 。

如果存在一个观测值 的线性组合的期望等于 $ \boldsymbol{\lambda^{\prime} \boldsymbol{\beta}}$ ,我们就称这个参数的线性组合 $ \boldsymbol{\lambda^{\prime} \boldsymbol{\beta}}$ 是可估计的 (estimable) ,也就是说,存在一个向量 ,使得下式成立

在下面的定理中,我们用三种方法来确定是否一个线性函数 $ \boldsymbol{\lambda^{\prime} \boldsymbol{\beta}}$ 是可以估计的。

定理:在模型 中,其中 是一个 的秩为 $k < p \leq n $ 的矩阵。那么当且仅当下面任何一个等式条件成立时,线性函数 可估计。

(1) 的行的线性组合,也就是说存在一个向量 使得下式成立

(2) 的行的线性组合,或者 的列的线性组合,也就是说,存在一个向量 使得

(3) 或者 满足下式

其中 的任何一个(对称的)广义逆。

证明:对于 (1) ,我们同时证明 “if” 和 “only if” ;对于 (2) 和 (3) ,这里只证明了 “if” 部分。

(1) 如果存在一个向量 使得 ,那么我没有

反过来,如果 可估计,那么存在一个向量 使得 ,因此 对于所有可能的 均成立,因此 $\mathbf{a}^{\prime} \mathbf{X}=\boldsymbol{\lambda}^{\prime} $

(2) 如果 ,通过定义 ,我们得到

(3) 如果 ,那么 就是上面 的一个解。

根据这个定理第一条等式,我们知道对于 均可估计,其中 是矩阵 的第 行。因此 的每一行 (元素) 均是可估计的,我们可以说 本身是可以估计的。同样地,根据第二条等式,我们得到 的每一行 (元素) 均是可估计的,因此 也是可估计的。反过来说,所有的可估计函数都可以从 中得到。

如果系数向量 之间线性无关,那么这些线性函数 称为线性无关的。下面的定理给出了线性无关的可估计函数的数目。

定理:在不满秩的模型 中,线性无关的可估计函数的数目等于 的秩。

缺证明,见 Graybill (1976, pp. 485 – 486)

估计值

$ \boldsymbol{\lambda^{\prime} \boldsymbol{\beta}}$ 的估计值

根据上面的定理第一条和第二条,我们有 的估计值 ,其中 满足 第三个估计值就是 ,其中 的任意一个解。在下面的定理,我们讨论 的一些性质,我们不会讨论 的性质,因为这个式子不能保证有最小方差(个人理解 中的 是不唯一的,因此 不一定满足最小方差)。

定理:如果 $ \boldsymbol{\lambda^{\prime} \boldsymbol{\beta}}$ 是不满秩模型的一个可估计函数,设 是正规方程组 的任意一个解, 的任意一个解。那么两个估计值 有下面的性质:

  1. 对于任意一个
  2. 的值不会随着 的选择而改变。

证明:

(1) 我们有

根据上面的定理的第三条等式,我们有 ,因此

同样地,我们有

(2) 对于正规方程组 乘以 得到

因为 ,带入得到

(3) 为了证明 的选择无关,设 满足 ,那么

因为 ,因此我们有

同样的,我们可以证明 的值不会随着 的选择而改变,设 是正规方程组 的两个解,那么

根据上面定理,我们知道存在一个向量 ,使得 。 因此

因此

估计值 的方差有以下定理。

定理 是不满秩模型 的一个可估计函数, 的一个解, 的一个解,那么 的方差有以下性质:

(1)
(2)
( 3) 值唯一,也就是说与 的选择无关,因此

证明

(1)

(2)

根据定理 ,因此

(3) 为了 证明 无关,设 满足 。这两个等式分别乘以 ,得到

这两个式子的左手项互为转置且为标量,因此二者相等,因此右手项也相等,得到

为了证明 的选择无关,设 的两个广义逆,根据广义逆的性质,无论 取何值, 均保持不变(缺证明)。因此我们得到

两边均乘以 使得 ,我们得到

得证。

两个可估计函数的估计值存在以下定理。

定理:如果 是不满秩模型的两个可估计函数, ,这两个可估计函数的估计值的协方差为

其中 。缺证明。

定理:如果 是不满秩模型的一个可估计函数, , 那么估计值 BLUE 值。

证明:假设 可以表示为 ,我们表示 (为什么这是一个一般的式子?),其中 的一个解。为了确保无偏性,我们必须保证

该式必须对所有 均成立,因此我们得到

我们进一步得到

因此为了最小化 ,我们只能使得 ,此时满足 。因此 的 BLUE 值就是

这个证明感觉不够好,不够清晰。

的估计值

SSE 计算公式为

这里 的任意一个解。SSE 的另外两个表达式为

我们定义 作为 的估计值,计算公式为

这里 矩阵的行数,

的两个性质表示为以下定理。

定理:在不满秩模型中定义的 ,我们有以下性质:

(1)

(2) 不会随着 的选择而改变

证明:

(1) 根据公式,我们有 ,根据二次型的期望计算公式 $E\left(\mathbf{y}^{\prime} \mathbf{A} \mathbf{y}\right)=\operatorname{tr}(\mathbf{A} \mathbf{\Sigma})+\boldsymbol{\mu}^{\prime} \mathbf{A} \boldsymbol{\mu} $ ,我们得到

这里

这里少了一步证明,就是 的证明,首先根据广义逆的性质,我们有 ,因此 。而 同时是一个幂等矩阵,因此

(2) 因为 可估计,因此 对于不同的 具有不变性,因此 具有不变性。从另一个公式来说, 中的 也具有不变性,同样可证明 SSE 具有不变性,因此 具有不变性。

假设正态分布的模型

对于不满秩的模型 ,我们现在假设

新增了正态分布假设后,我们现在可以计算得到最大似然估计值。

定理:如果 ,其中 是一个 的秩为 的矩阵,那么 的最大似然估计值为

证明:不满秩模型和满秩模型一样,其似然函数和对数似然函数为

求偏导,使之为0,得到(缺证明)

这里 $\hat{\boldsymbol{\beta}} $ 是任意一个解,即

同样的,这里 与最小二乘估计值一样,但是 有偏的

下面的定理给出最大似然估计值的一些性质。

定理:上面的最大似然估计值有以下性质

(1) is
(2) is .
(3) and are independent.

缺证明,证明过程与满秩模型应该差不多。注意到 的均值和协方差矩阵等都受到 选择的影响,而 则对于 的选择具有不变性。

定理:对于正态分布假设下的不满秩模型,如果 是一个可估计函数,那么 在所有的无偏估计值中具有最小的方差(注意,没有线性两个字)。

如果没有正态假设,那么 仅仅是 BLUE , 也就是线性无偏估计值中方差最小的。但是满足正态假设后, BUE ,是所有无偏估计值中方差最小的 。

不满秩模型中最小二乘估计值的几何含义

不满秩模型类似与满秩模型,但是有一些重要的差别。

我们还是有三个空间,参数空间,数据空间和预测空间。 的矩阵 可以拆分为

矩阵 的每一列均是数据空间中的向量,但是由于 ,因此这些列向量之间不是线性独立的,但是预测空间还是由这些列的所有可能的线性组合组成。此时,参数空间的维度是 ,但是预测空间的维度是 。因此,矩阵乘积 ,这里 是参数空间的任意一个向量,是一个从参数空间到预测空间的多对一的映射(根据矩阵 列向量之间的线性相关的关系,易知存在多个不同的 可以得到相同的乘积)。

根据模型设定 ,其中 , 根据最小二乘的思想,我们想从预测空间找到一个 的估计值 ,使得其与 的距离最近。这里我们同样需要需要满足 与预测空间正交,因此同样有 ,得到正规方程组

然后我们再根据这个 ,推导 的估计值。由于这里是多对一的映射,因此可以得到 不唯一,求解正规方程组,得到 ,也就是说我们有无穷多个解。但是注意 是唯一的

再参数化

我们现在来正式地了解一下再参数化的例子。在再参数化中,我们将一个不满秩的模型 ,其中 是一个 的秩为 的矩阵,转化为一个满秩的模型 ,其中 是一个 的秩为 $k $ 的矩阵,并且 是由 线性独立的 的可估计函数组成的向量。因此我们可以写作

这里 ,由于 是一个 的秩为 的矩阵(秩为 ,是因为根据要求, 的行彼此独立),因此 是一个非奇异矩阵,我们可以对 乘以 来得到 的表达式

我们可以证明 满秩,我们有 ,但是 的秩最大值为 ,因此 的秩为 。因此, 是一个满秩的模型,可以得到唯一的解

在再参数化的满秩模型中, 的无偏估计值为

因为 ,因此 也是相同的,也就是预测值是相同的。

然后两次计算的 SSE 也是相同的

附加条件

通过添加附加条件 (side conditions) 使得参数估计值唯一,此时得到的参数估计值与某个特定的广义逆参数估计值相同

我们知道 可以理解为 个可估计函数组成的向量,如果一个附加条件(的左手项)是一个可估计函数,那么这个附加条件(的左手项)可以表示为 的行的线性组合,因此无法有助于改善 的秩亏缺的状态,因此正规方程组 还是没有唯一解 。因此,附加条件必须是一个不可估计函数

是一个 的秩为 的矩阵,因此 缺少的秩为 。为了得到唯一估计值 ,我们需要添加附件条件使得 满秩。因此,我们定义附加条件 ,其中 是一个 的秩为 的矩阵,并且 是由不可估计函数组成的向量。

定理:在满足上面的条件下,同时满足 的参数估计值 唯一的

证明:这里我们有两个方程组

我们可以将其合并为一个

因为矩阵 的行之间线性无关,并且不是 的行的线性函数,因此矩阵 是一个 的秩为 的矩阵,也就是满秩矩阵。因此 是一个 的秩为 的矩阵,最小二乘的正规方程组

具有唯一解,为

添加附加条件的方式不适合满秩的模型,如果模型满秩,此时 是一个 的非奇异矩阵,也就是说 的线性无关的行,因此 的所有行是 的一组基,因此任意一个 矩阵的行一定是 的所有行的线性组合,也就是说,你找不到一个 矩阵,使得 是由不可估计函数组成的向量。

这里得到 仍然满足原始的正规方程组 ,因为

我有几个问题,这里 矩阵的秩 在实际数据中是一个不确定的数,也就是说我们需要添加的附加条件的数目 也不定;第二,我们怎么找到这个 矩阵,使得 是由不可估计函数组成的向量呢?我感觉这个方法不好实现,就是在实际处理中,用了附件条件也不一定能得到唯一解,可能还是要求广义逆的解。再说了,最终得到的所谓的唯一的 ,实际上还是之前的不满秩矩阵的一个解,我感觉没有必要非要这么折腾一下,可以直接求广义逆的解。

从现实的角度来看,好像一般是几种方式联合使用,比如添加附加条件 + 广义逆求解,再参数化 + 广义逆求解等。

  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2019-2022 Vincere Zhou
  • 访问人数: | 浏览次数:

请我喝杯茶吧~

支付宝
微信