不满秩的线性回归模型的参数估计

2022-06-03

字数统计: 4.8k | 阅读时长≈ 16 分钟

上一篇矩阵微分与正规方程组推导，我推导了线性回归模型中的正规方程组，以及当矩阵满秩时的最小二乘估计值，现在我们考虑当不满秩时的情况。

本章节内容主要来自于《linear models in statistics》第二版的第十二章 Analysis-of-Variance Models 。

含有均值列的线性模型系数矩阵一定不满秩

一般我们设计的模型中均包含均值列，即全为1的列，而对于任何一个固定效应，每个个体只在一个水平为1，其余水平为0，因此将任何一个固定效应的所有水平的列加在一起，就等于均值列，因此设计矩阵的列之间存在线性相关，设计矩阵一定不满秩，最小二乘解不唯一，不是所有固定效应的水平均可估计。

所以如果模型中包含均值列，那么是一定不满秩，而不是可能不满秩。

不满秩的模型

首先我们看单变量的模型的例子，假设是平衡数据（各个水平的观测值相同）。

单变量模型

假设研究人员开发了两种用于增加汽油日程的化学添加剂，假设不添加任何添加剂的情况下，一加仑的汽油平均可以跑英里。那么假设我们添加化学物质 1，我们期望一加仑汽油的里程数增加英里；而添加化学物质 2，一加仑汽油的里程数增加英里。

因此，这个模型可以表示为

其中是添加化学物质 1 的日程数，是添加化学物质 2 的日程数。我们想要估计参数和，并且做假设检验，例如。

假设我们做了6次实验，其中每个化学物质做了3次，用矩阵形式表示为

或者

其中是一个的矩阵，秩为2 ，因为第一列等于第二列和第三列的和。此时我们无法得到估计值，因为不存在。

这里我们考虑这些参数的含义。参数表示不添加任何化学物质的均值，和表示两个化学物质的增加量。举个例子，假设 , ，那么模型为

然而，我们从数据中能得到的是和，我们无法得到和，因为很多模型都可以得到这两个式子，比如

又比如，

我们有无穷的参数组合可以实现这一点。也就是说，我们无法得到唯一的和，此时我们称这个模型为 过度参数化的 (overparameterized) 。在平衡数据中，你增加数据量无助于这一点，因为不会改变的秩。

我们很多种方法可以解决这一点，来获得唯一的估计值，但是这些方法各有利弊。第一种，重新定义一个模型，减少参数的数目，使得参数估计值唯一；第二种，模型不变，但是对参数增加约束条件，使得参数估计值唯一；第三种，模型不变，估计某个唯一的参数的线性组合。下面我们来简单地介绍这三种方法。

第一种方法：为了减少参数数量，考虑到下面两个式子成立

这里，16 和 18 是添加两种化学物质之后的均值，我们可以将其标记为和，我们可以将模型修改为

此时我们要估计的参数就是和，观测值的矩阵表示式为

这可以写作

其中矩阵是一个满秩矩阵，因此我们可以得到唯一的参数估计值为

这种解决方法也称为 再参数化 (reparameterization)

第二种方法：我们需要添加一个约束条件，我们定义加了约束条件的参数为和，约束条件为。此时定义的有一个特殊含义，表示采用处理后的新的均值，而和表示对这个均值的偏差。采用这个限制条件，上面的例子可以唯一的表示为

这种约束条件通常称为 附加条件 (side conditions) ，我们可以将上面的模型用表示为

和，观测值向量可以表示为

或者

这里是一个满秩矩阵，因此可以得到唯一的一个参数估计值。但是需要注意，添加的约束条件相当于对参数做了一个新的定义。

第三种方法：我们从之前的结果可以看到，一些参数的线性组合的值是唯一的。比如和对于所有可能的参数的值均成立，因为我们可以估计这种唯一的线性组合的值。

双变量模型

和单变量相比无新增内容，略

估计参数

在这一章节中，我们考虑不满秩的模型的参数的估计。这里我们采用再参数化或者添加约束条件，这里也不假设正态分布。

估计

我们将其一般化，考虑固定模型

根据最小二乘，存在正规方程组

这里是一个且秩为的矩阵，即不满秩，因此无逆矩阵，正规方程组无唯一解。但是，我们可以证明有解（无穷多解）。

根据广义逆的性质，对于线性方程组，当且仅当对于任意一个，均成立时，方程组才相容。因此我们只需要证明，这里是任意一个广义逆，根据广义逆性质我们知道，因此该式子成立，正规方程组相容。

既然正规方程组相容，那么它的一个解可以用广义逆表示为

这里是的任意一个广义逆。此时的期望值为

因为，因此是的一个有偏估计值。并且会随着的选择而发生改变，也就是说，每一个选中的的均不相同。

我们可以进一步证明，此时所有的的线性组合均不是的无偏估计值。假设我们存在一个的矩阵使得，那么

该式对所有可能的均成立，因此我们有。但是我们知道，而，因此不可能等于，因此我们证明没有一个的线性组合是的无偏估计值，得证。

估计的函数

上面我们证明了我们无法估计，那么我们能不能估计任何一个的线性组合呢？也就是说，估计 $ \boldsymbol{\lambda^{\prime} \boldsymbol{\beta}}$ 。

如果存在一个观测值的线性组合的期望等于 $ \boldsymbol{\lambda^{\prime} \boldsymbol{\beta}}$ ，我们就称这个参数的线性组合 $ \boldsymbol{\lambda^{\prime} \boldsymbol{\beta}}$ 是可估计的 (estimable) ，也就是说，存在一个向量，使得下式成立

在下面的定理中，我们用三种方法来确定是否一个线性函数 $ \boldsymbol{\lambda^{\prime} \boldsymbol{\beta}}$ 是可以估计的。

定理：在模型中，其中，是一个的秩为 $k < p \leq n $ 的矩阵。那么当且仅当下面任何一个等式条件成立时，线性函数可估计。

(1) 是的行的线性组合，也就是说存在一个向量使得下式成立

(2) 是的行的线性组合，或者是的列的线性组合，也就是说，存在一个向量使得

(3) 或者满足下式

其中是的任何一个（对称的）广义逆。

证明：对于 (1) ，我们同时证明 “if” 和 “only if” ；对于 (2) 和 (3) ，这里只证明了 “if” 部分。

(1) 如果存在一个向量使得，那么我没有

反过来，如果可估计，那么存在一个向量使得，因此对于所有可能的均成立，因此 $\mathbf{a}^{\prime} \mathbf{X}=\boldsymbol{\lambda}^{\prime} $

(2) 如果，通过定义，我们得到

(3) 如果，那么就是上面的一个解。

根据这个定理第一条等式，我们知道对于，均可估计，其中是矩阵的第行。因此的每一行 (元素) 均是可估计的，我们可以说本身是可以估计的。同样地，根据第二条等式，我们得到的每一行 (元素) 均是可估计的，因此也是可估计的。反过来说，所有的可估计函数都可以从或中得到。

如果系数向量之间线性无关，那么这些线性函数称为线性无关的。下面的定理给出了线性无关的可估计函数的数目。

定理：在不满秩的模型中，线性无关的可估计函数的数目等于的秩。

缺证明，见 Graybill (1976, pp. 485 – 486)

估计值

$ \boldsymbol{\lambda^{\prime} \boldsymbol{\beta}}$ 的估计值

根据上面的定理第一条和第二条，我们有的估计值和，其中和满足和。第三个估计值就是，其中是的任意一个解。在下面的定理，我们讨论和的一些性质，我们不会讨论的性质，因为这个式子不能保证有最小方差（个人理解中的是不唯一的，因此不一定满足最小方差）。

定理：如果 $ \boldsymbol{\lambda^{\prime} \boldsymbol{\beta}}$ 是不满秩模型的一个可估计函数，设是正规方程组的任意一个解，是的任意一个解。那么两个估计值和有下面的性质：

对于任意一个或，
和的值不会随着或的选择而改变。

证明：

(1) 我们有

根据上面的定理的第三条等式，我们有，因此

同样地，我们有

(2) 对于正规方程组乘以得到

因为，带入得到

(3) 为了证明与的选择无关，设和满足，那么

因为，因此我们有。

同样的，我们可以证明的值不会随着的选择而改变，设和是正规方程组的两个解，那么

根据上面定理，我们知道存在一个向量，使得。因此

因此。

估计值或的方差有以下定理。

定理：是不满秩模型的一个可估计函数，，是的一个解，是的一个解，那么或的方差有以下性质：

(1)
(2)
( 3) 和值唯一，也就是说与或的选择无关，因此。

证明：

(1)

(2)

根据定理，因此

(3) 为了证明与无关，设和满足和。这两个等式分别乘以和，得到

这两个式子的左手项互为转置且为标量，因此二者相等，因此右手项也相等，得到

为了证明与的选择无关，设和是的两个广义逆，根据广义逆的性质，无论取何值，均保持不变（缺证明）。因此我们得到

两边均乘以使得，我们得到

得证。

两个可估计函数的估计值存在以下定理。

定理：如果和是不满秩模型的两个可估计函数，，这两个可估计函数的估计值的协方差为

其中和。缺证明。

定理：如果是不满秩模型的一个可估计函数，，那么估计值和是 BLUE 值。

证明：假设可以表示为，我们表示 (为什么这是一个一般的式子?)，其中是的一个解。为了确保无偏性，我们必须保证

该式必须对所有均成立，因此我们得到

我们进一步得到

因此为了最小化，我们只能使得，此时满足。因此的 BLUE 值就是。

这个证明感觉不够好，不够清晰。

的估计值

SSE 计算公式为

这里是的任意一个解。SSE 的另外两个表达式为

我们定义作为的估计值，计算公式为

这里是矩阵的行数，

的两个性质表示为以下定理。

定理：在不满秩模型中定义的，，我们有以下性质：

(1)

(2) 不会随着或的选择而改变

证明：

(1) 根据公式，我们有，根据二次型的期望计算公式 $E\left(\mathbf{y}^{\prime} \mathbf{A} \mathbf{y}\right)=\operatorname{tr}(\mathbf{A} \mathbf{\Sigma})+\boldsymbol{\mu}^{\prime} \mathbf{A} \boldsymbol{\mu} $ ，我们得到

这里。

这里少了一步证明，就是的证明，首先根据广义逆的性质，我们有，因此。而同时是一个幂等矩阵，因此。

(2) 因为可估计，因此对于不同的具有不变性，因此具有不变性。从另一个公式来说，中的也具有不变性，同样可证明 SSE 具有不变性，因此具有不变性。

假设正态分布的模型

对于不满秩的模型，我们现在假设

新增了正态分布假设后，我们现在可以计算得到最大似然估计值。

定理：如果，其中是一个的秩为的矩阵，那么和的最大似然估计值为

证明：不满秩模型和满秩模型一样，其似然函数和对数似然函数为

求偏导，使之为0，得到（缺证明）

这里 $\hat{\boldsymbol{\beta}} $ 是任意一个解，即

同样的，这里与最小二乘估计值一样，但是是有偏的。

下面的定理给出最大似然估计值的一些性质。

定理：上面的最大似然估计值有以下性质

(1) is
(2) is .
(3) and are independent.

缺证明，证明过程与满秩模型应该差不多。注意到的均值和协方差矩阵等都受到选择的影响，而则对于或的选择具有不变性。

定理：对于正态分布假设下的不满秩模型，如果是一个可估计函数，那么在所有的无偏估计值中具有最小的方差（注意，没有线性两个字）。

如果没有正态假设，那么仅仅是 BLUE , 也就是线性无偏估计值中方差最小的。但是满足正态假设后，是 BUE ，是所有无偏估计值中方差最小的。

不满秩模型中最小二乘估计值的几何含义

不满秩模型类似与满秩模型，但是有一些重要的差别。

我们还是有三个空间，参数空间，数据空间和预测空间。的矩阵可以拆分为

矩阵的每一列均是数据空间中的向量，但是由于，因此这些列向量之间不是线性独立的，但是预测空间还是由这些列的所有可能的线性组合组成。此时，参数空间的维度是，但是预测空间的维度是。因此，矩阵乘积，这里是参数空间的任意一个向量，是一个从参数空间到预测空间的多对一的映射（根据矩阵列向量之间的线性相关的关系，易知存在多个不同的可以得到相同的乘积）。

根据模型设定，其中 , 根据最小二乘的思想，我们想从预测空间找到一个的估计值，使得其与的距离最近。这里我们同样需要需要满足与预测空间正交，因此同样有，得到正规方程组。

然后我们再根据这个，推导的估计值。由于这里是多对一的映射，因此可以得到的不唯一，求解正规方程组，得到，也就是说我们有无穷多个解。但是注意是唯一的。

再参数化

我们现在来正式地了解一下再参数化的例子。在再参数化中，我们将一个不满秩的模型，其中是一个的秩为的矩阵，转化为一个满秩的模型，其中是一个的秩为 $k $ 的矩阵，并且是由个线性独立的 的可估计函数组成的向量。因此我们可以写作

这里，由于是一个的秩为的矩阵（秩为，是因为根据要求，的行彼此独立），因此是一个非奇异矩阵，我们可以对乘以来得到的表达式

我们可以证明满秩，我们有，但是的秩最大值为，因此的秩为。因此，是一个满秩的模型，可以得到唯一的解。

在再参数化的满秩模型中，的无偏估计值为

因为，因此和也是相同的，也就是预测值是相同的。

然后两次计算的 SSE 也是相同的

附加条件

通过添加附加条件 (side conditions) 使得参数估计值唯一，此时得到的参数估计值与某个特定的广义逆参数估计值相同。

我们知道可以理解为个可估计函数组成的向量，如果一个附加条件（的左手项）是一个可估计函数，那么这个附加条件（的左手项）可以表示为的行的线性组合，因此无法有助于改善的秩亏缺的状态，因此正规方程组还是没有唯一解。因此，附加条件必须是一个不可估计函数。

是一个的秩为的矩阵，因此缺少的秩为。为了得到唯一估计值，我们需要添加附件条件使得满秩。因此，我们定义附加条件或，其中是一个的秩为的矩阵，并且是由不可估计函数组成的向量。

定理：在满足上面的条件下，同时满足和的参数估计值是唯一的。

证明：这里我们有两个方程组

我们可以将其合并为一个

因为矩阵的行之间线性无关，并且不是的行的线性函数，因此矩阵是一个的秩为的矩阵，也就是满秩矩阵。因此是一个的秩为的矩阵，最小二乘的正规方程组

具有唯一解，为

添加附加条件的方式不适合满秩的模型，如果模型满秩，此时是一个的非奇异矩阵，也就是说有的线性无关的行，因此的所有行是的一组基，因此任意一个矩阵的行一定是的所有行的线性组合，也就是说，你找不到一个矩阵，使得是由不可估计函数组成的向量。

这里得到仍然满足原始的正规方程组，因为

我有几个问题，这里矩阵的秩在实际数据中是一个不确定的数，也就是说我们需要添加的附加条件的数目也不定；第二，我们怎么找到这个矩阵，使得是由不可估计函数组成的向量呢？我感觉这个方法不好实现，就是在实际处理中，用了附件条件也不一定能得到唯一解，可能还是要求广义逆的解。再说了，最终得到的所谓的唯一的，实际上还是之前的不满秩矩阵的一个解，我感觉没有必要非要这么折腾一下，可以直接求广义逆的解。

从现实的角度来看，好像一般是几种方式联合使用，比如添加附加条件 + 广义逆求解，再参数化 + 广义逆求解等。

版权声明： 本博客所有文章除特别声明外，著作权归作者所有。转载请注明出处！