不满秩的线性回归模型的参数估计

上一篇矩阵微分与正规方程组推导,我推导了线性回归模型中的正规方程组,以及当矩阵 \(\mathbf{X}\) 满秩时的最小二乘估计值,现在我们考虑当 \(\mathbf{X}\) 不满秩时的情况。

本章节内容主要来自于 《linear models in statistics》第二版的第十二章 Analysis-of-Variance Models

含有均值列的线性模型系数矩阵一定不满秩

一般我们设计的模型中均包含均值列,即全为1的列,而对于任何一个固定效应,每个个体只在一个水平为1,其余水平为0,因此将任何一个固定效应的所有水平的列加在一起,就等于均值列,因此设计矩阵的列之间存在线性相关,设计矩阵一定不满秩,最小二乘解不唯一,不是所有固定效应的水平均可估计。

所以如果模型中包含均值列,那么是一定不满秩,而不是可能不满秩。

不满秩的模型

首先我们看单变量的模型的例子,假设是平衡数据(各个水平的观测值相同)。

单变量模型

假设研究人员开发了两种用于增加汽油日程的化学添加剂,假设不添加任何添加剂的情况下,一加仑的汽油平均可以跑 \(\mu\) 英里。那么假设我们添加化学物质 1,我们期望一加仑汽油的里程数增加 \(\tau_{1}\) 英里;而添加化学物质 2,一加仑汽油的里程数增加 \(\tau_{1}\) 英里。

因此,这个模型可以表示为 \[ y_{1}=\mu+\tau_{1}+\varepsilon_{1}, \quad y_{2}=\mu+\tau_{2}+\varepsilon_{2} \] 其中 \(y_1\) 是添加化学物质 1 的日程数, \(y_2\) 是添加化学物质 2 的日程数。我们想要估计参数 \(\mu, \tau_{1}\)\(\tau_{2}\) ,并且做假设检验,例如 \(H_{0}: \tau_{1}=\tau_{2}\)

假设我们做了6次实验,其中每个化学物质做了3次,用矩阵形式表示为 \[ \left(\begin{array}{l} y_{11} \\ y_{12} \\ y_{13} \\ y_{21} \\ y_{22} \\ y_{23} \end{array}\right)=\left(\begin{array}{lll} 1 & 1 & 0 \\ 1 & 1 & 0 \\ 1 & 1 & 0 \\ 1 & 0 & 1 \\ 1 & 0 & 1 \\ 1 & 0 & 1 \end{array}\right)\left(\begin{array}{l} \mu \\ \tau_{1} \\ \tau_{2} \end{array}\right)+\left(\begin{array}{l} \varepsilon_{11} \\ \varepsilon_{12} \\ \varepsilon_{13} \\ \varepsilon_{21} \\ \varepsilon_{22} \\ \varepsilon_{23} \end{array}\right) \] 或者 \[ \mathbf{y}=\mathbf{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon} \] 其中 \(\mathbf{X}\) 是一个 \(6 \times 3\) 的矩阵,秩为2 ,因为第一列等于第二列和第三列的和。此时我们无法得到估计值 \(\hat{\boldsymbol{\beta}}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{y}\) ,因为 \(\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}\) 不存在。

这里我们考虑这些参数的含义。参数 \(\mu\) 表示不添加任何化学物质的均值,\(\tau_{1}\)\(\tau_{2}\) 表示两个化学物质的增加量。举个例子,假设 \(\mu=15, \tau_{1}=1\), \(\tau_{2}=3\) ,那么模型为 \[ \begin{array}{ll} y_{1 j}=15+1+\varepsilon_{1 j}=16+\varepsilon_{1 j}, & j=1,2,3, \\ y_{2 j}=15+3+\varepsilon_{2 j}=18+\varepsilon_{2 j}, & j=1,2,3 . \end{array} \] 然而,我们从数据中能得到的是 \(y_{1 j}=16+\varepsilon_{1 j}\)\(y_{2 j}=18+\varepsilon_{2 j}\) ,我们无法得到 \(\mu=15, \tau_{1}=1\)\(\tau_{2}=3\) ,因为很多模型都可以得到这两个式子,比如 \[ \begin{array}{ll} y_{1 j}=10+6+\varepsilon_{1 j}, & j=1,2,3, \\ y_{2 j}=10+8+\varepsilon_{2 j}, & j=1,2,3, \end{array} \] 又比如, \[ \begin{array}{ll} y_{1 j}=25-9+\varepsilon_{1 j}, & j=1,2,3 \\ y_{2 j}=25-7+\varepsilon_{2 j}, & j=1,2,3 \end{array} \] 我们有无穷的参数组合可以实现这一点。也就是说,我们无法得到唯一的 \(\mu, \tau_{1}\)\(\tau_{2}\) ,此时我们称这个模型为 过度参数化的 (overparameterized) 。在平衡数据中,你增加数据量无助于这一点,因为不会改变 \(\mathbf{X}\) 的秩。

我们很多种方法可以解决这一点,来获得唯一的估计值,但是这些方法各有利弊。第一种,重新定义一个模型,减少参数的数目,使得参数估计值唯一;第二种,模型不变,但是对参数增加约束条件,使得参数估计值唯一;第三种,模型不变,估计某个唯一的参数的线性组合。下面我们来简单地介绍这三种方法。

第一种方法:为了减少参数数量,考虑到下面两个式子成立 \[ y_{1 j}=16+\varepsilon_{1 j} \quad \text { and } \quad y_{2 j}=18+\varepsilon_{2 j} \] 这里,16 和 18 是添加两种化学物质之后的均值,我们可以将其标记为 \(\mu_{1}\)\(\mu_{2}\) ,我们可以将模型修改为 \[ y_{1 j}=\mu_{1}+\varepsilon_{1 j} \quad \text { and } \quad y_{2 j}=\mu_{2}+\varepsilon_{2 j} . \] 此时我们要估计的参数就是 \(\mu_{1}\)\(\mu_{2}\) ,观测值的矩阵表示式为 \[ \left(\begin{array}{l} y_{11} \\ y_{12} \\ y_{13} \\ y_{21} \\ y_{22} \\ y_{23} \end{array}\right)=\left(\begin{array}{ll} 1 & 0 \\ 1 & 0 \\ 1 & 0 \\ 0 & 1 \\ 0 & 1 \\ 0 & 1 \end{array}\right)\left(\begin{array}{l} \mu_{1} \\ \mu_{2} \end{array}\right)+\left(\begin{array}{l} \varepsilon_{11} \\ \varepsilon_{12} \\ \varepsilon_{13} \\ \varepsilon_{21} \\ \varepsilon_{22} \\ \varepsilon_{23} \end{array}\right), \] 这可以写作 \[ \mathbf{y}=\mathbf{W} \boldsymbol{\mu}+\boldsymbol{\varepsilon} \] 其中矩阵 \(\mathbf{W}\) 是一个满秩矩阵,因此我们可以得到唯一的参数估计值为 \[ \hat{\boldsymbol{\mu}}=\left(\begin{array}{l} \hat{\mu}_{1} \\ \hat{\mu}_{2} \end{array}\right)=\left(\mathbf{W}^{\prime} \mathbf{W}\right)^{-1} \mathbf{W}^{\prime} \mathbf{y} \] 这种解决方法也称为 再参数化 (reparameterization)

第二种方法:我们需要添加一个约束条件,我们定义加了约束条件的参数为 \(\mu^{*}, \tau_{1}^{*}\)\(\tau_{2}^{*}\),约束条件为 \(\tau_{1}^{*}+\tau_{2}^{*}=0\) 。此时定义的 \(\mu^{*}\) 有一个特殊含义, 表示采用处理后的新的均值,而 \(\tau_{1}^{*}\)\(\tau_{2}^{*}\) 表示对这个均值的偏差。采用这个限制条件,上面的例子可以唯一的表示为 \[ y_{1 j}=17-1+\varepsilon_{1 j}, \quad y_{2 j}=17+1+\varepsilon_{2 j} . \] 这种约束条件通常称为 附加条件 (side conditions) ,我们可以将上面的模型用 \(\tau_{2}^{*}=-\tau_{1}^{*}\) 表示为

\(y_{1 j}=\mu^{*}+\tau_{1}^{*}+\varepsilon_{1 j}\)\(y_{2 j}=\mu^{*}-\tau_{1}^{*}+\varepsilon_{i j}\) ,观测值向量可以表示为 \[ \left(\begin{array}{l} y_{11} \\ y_{12} \\ y_{13} \\ y_{21} \\ y_{22} \\ y_{23} \end{array}\right)=\left(\begin{array}{rr} 1 & 1 \\ 1 & 1 \\ 1 & 1 \\ 1 & -1 \\ 1 & -1 \\ 1 & -1 \end{array}\right)\left(\begin{array}{c} \mu^{*} \\ \tau_{1}^{*} \end{array}\right)+\left(\begin{array}{l} \varepsilon_{11} \\ \varepsilon_{12} \\ \varepsilon_{13} \\ \varepsilon_{21} \\ \varepsilon_{22} \\ \varepsilon_{23} \end{array}\right) \] 或者 \[ \mathbf{y}=\mathbf{X}^{*} \boldsymbol{\mu}^{*}+\boldsymbol{\varepsilon} \] 这里 \(\mathbf{X}^{*}\) 是一个满秩矩阵,因此可以得到唯一的一个参数估计值。但是需要注意,添加的约束条件相当于对参数做了一个新的定义。

第三种方法:我们从之前的结果可以看到,一些参数的线性组合的值是唯一的。比如 \(\tau_{1}-\tau_{2}=-2, \quad \mu+\tau_{1}=16\)\(\mu+\tau_{2}=18\) 对于所有可能的参数的值均成立,因为我们可以估计这种唯一的线性组合的值。

双变量模型

和单变量相比无新增内容,略

估计参数

在这一章节中,我们考虑不满秩的模型 \(\mathbf{y}=\mathbf{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon}\) 的参数 \(\boldsymbol{\beta}\) 的估计。这里我们采用再参数化或者添加约束条件,这里也不假设正态分布。

估计 \(\boldsymbol{\beta}\)

我们将其一般化,考虑固定模型 \[ \mathbf{y}=\mathbf{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon}, \] 根据最小二乘,存在正规方程组 \[ \mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}}=\mathbf{X}^{\prime} \mathbf{y} \] 这里 \(\mathbf{X}\) 是一个 \(n \times p\) 且秩为 \(k < p \leq n\) 的矩阵,即不满秩,因此 \(\mathbf{X}^{\prime} \mathbf{X}\) 无逆矩阵,正规方程组无唯一解。但是,我们可以证明 \(\mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}}=\mathbf{X}^{\prime} \mathbf{y}\) 有解(无穷多解)。

根据广义逆的性质,对于线性方程组 \(\mathbf{Ax =c }\) ,当且仅当对于任意一个 \(\mathbf{A}^{-}\)\(\mathbf{A A}^{-} \mathbf{c}=\mathbf{c}\) 均成立时,方程组才相容。因此我们只需要证明 \(\mathbf{X}^{\prime} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \mathbf{X}^{\prime} \mathbf{y}=\mathbf{X}^{\prime} \mathbf{y}\) ,这里 \(\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-}\) 是任意一个广义逆,根据广义逆性质我们知道 \(\mathbf{X}^{\prime} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \mathbf{X}^{\prime}=\mathbf{X}^{\prime}\) ,因此该式子成立,正规方程组相容。

既然正规方程组相容,那么它的一个解可以用广义逆表示为 \[ \hat{\boldsymbol{\beta}}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \mathbf{X}^{\prime} \mathbf{y} \] 这里 \(\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-}\)\(\mathbf{X}^{\prime} \mathbf{X}\) 的任意一个广义逆。此时 \(\hat{\boldsymbol{\beta}}\) 的期望值为 \[ \begin{aligned} E(\hat{\boldsymbol{\beta}}) &=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \mathbf{X}^{\prime} E(\mathbf{y}) \\ &=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \mathbf{X}^{\prime} \mathbf{X} \boldsymbol{\beta} . \end{aligned} \] 因为 \(\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \mathbf{X}^{\prime} \mathbf{X} \neq \mathbf{I}\) ,因此 \(\hat{\boldsymbol{\beta}}\)\(\boldsymbol{\beta}\) 的一个有偏估计值。并且 \(\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \mathbf{X}^{\prime} \mathbf{X} \boldsymbol{\beta}\) 会随着 \(\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-}\) 的选择而发生改变,也就是说,每一个选中的 \(\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-}\)\(E(\hat{\boldsymbol{\beta}})\) 均不相同。

我们可以进一步证明,此时所有的 \(\mathbf{y}\) 的线性组合均不是 \(\boldsymbol{\beta}\) 的无偏估计值。假设我们存在一个 \(p \times n\) 的矩阵 \(\mathbf{A}\) 使得 \(E(\mathbf{A y})=\boldsymbol{\beta}\) ,那么 \[ \boldsymbol{\beta}=E(\mathbf{A y})=E[\mathbf{A}(\mathbf{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon})]=E(\mathbf{A} \mathbf{X} \boldsymbol{\beta})+\mathbf{A} E(\boldsymbol{\varepsilon})=\mathbf{A} \mathbf{X} \boldsymbol{\beta} \] 该式对所有可能的 \(\boldsymbol{\beta}\) 均成立,因此我们有 \(\mathbf{A X}=\mathbf{I}_{p}\) 。但是我们知道 \(\operatorname{rank}( \mathbf{A} \mathbf{X}) \leq \operatorname{rank}(\mathbf{X}) = k < p\) ,而 \(\operatorname{rank}( \mathbf{I}_{p} ) = p\) ,因此 \(\mathbf{A X}\) 不可能等于 \(\mathbf{I}_{p}\) ,因此我们证明没有一个 \(\mathbf{y}\) 的线性组合是 \(\boldsymbol{\beta}\) 的无偏估计值 ,得证。

估计 \(\boldsymbol{\beta}\) 的函数

上面我们证明了我们无法估计 \(\boldsymbol{\beta}\) ,那么我们能不能估计任何一个 \(\boldsymbol{\beta}\) 的线性组合呢?也就是说,估计 $ $ 。

如果存在一个观测值 \(\mathbf{y}\) 的线性组合的期望等于 $ $ ,我们就称这个参数的线性组合 $ $ 是可估计的 (estimable) ,也就是说,存在一个向量 \(\mathbf{a}\) ,使得下式成立 \[ E\left(\mathbf{a}^{\prime} \mathbf{y}\right)=\boldsymbol{\lambda}^{\prime} \boldsymbol{\beta} \] 在下面的定理中,我们用三种方法来确定是否一个线性函数 $ $ 是可以估计的。

定理:在模型 \(\mathbf{y}=\mathbf{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon}\) 中,其中 \(E(\mathbf{y})=\mathbf{X} \boldsymbol{\beta}\)\(\mathbf{X}\) 是一个 \(n \times p\) 的秩为 $k < p n $ 的矩阵。那么当且仅当下面任何一个等式条件成立时,线性函数 \(\boldsymbol{\lambda}^{\prime} \boldsymbol{\beta}\) 可估计。

  1. \(\boldsymbol{\lambda}^{\prime}\)\(\mathbf{X}\) 的行的线性组合,也就是说存在一个向量 \(\mathbf{a}\) 使得下式成立 \[ \mathbf{X}^{\prime} \mathbf{a} =\boldsymbol{\lambda} \Rightarrow \mathbf{a}^{\prime} \mathbf{X}=\boldsymbol{\lambda}^{\prime} \]
  2. \(\boldsymbol{\lambda}^{\prime}\)\(\mathbf{X}^{\prime} \mathbf{X}\) 的行的线性组合,或者 \(\boldsymbol{\lambda}\)\(\mathbf{X}^{\prime} \mathbf{X}\) 的列的线性组合,也就是说,存在一个向量 \(\mathbf{r}\) 使得 \[ \mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{X}=\boldsymbol{\lambda}^{\prime} \quad \text { or } \quad \mathbf{X}^{\prime} \mathbf{X} \mathbf{r}=\boldsymbol{\lambda} \]
  3. \(\boldsymbol{\lambda}\) 或者 \(\boldsymbol{\lambda}^{\prime}\) 满足下式 \[ \mathbf{X}^{\prime} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \boldsymbol{\lambda}=\boldsymbol{\lambda} \quad \text { or } \quad \boldsymbol{\lambda}^{\prime}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \mathbf{X}^{\prime} \mathbf{X}=\boldsymbol{\lambda}^{\prime} \] 其中 \(\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-}\)\(\mathbf{X}^{\prime} \mathbf{X}\) 的任何一个(对称的)广义逆。

证明:对于 (1) ,我们同时证明 “if” 和 “only if” ;对于 (2) 和 (3) ,这里只证明了 “if” 部分。

  1. 如果存在一个向量 \(\mathbf{a}\) 使得 \(\boldsymbol{\lambda}^{\prime}=\mathbf{a}^{\prime} \mathbf{X}\) ,那么我没有 \[ E\left(\mathbf{a}^{\prime} \mathbf{y}\right)=\mathbf{a}^{\prime} E(\mathbf{y})=\mathbf{a}^{\prime} \mathbf{X} \boldsymbol{\beta}=\boldsymbol{\lambda}^{\prime} \boldsymbol{\beta} \] 反过来,如果 \(\boldsymbol{\lambda}^{\prime} \boldsymbol{\beta}\) 可估计,那么存在一个向量 \(\mathbf{a}\) 使得 \(E\left(\mathbf{a}^{\prime} \mathbf{y}\right)=\boldsymbol{\lambda}^{\prime} \boldsymbol{\beta}\) ,因此 \(\mathbf{a}^{\prime} \mathbf{X} \boldsymbol{\beta}=\boldsymbol{\lambda}^{\prime} \boldsymbol{\beta}\) 对于所有可能的 \(\boldsymbol{\beta}\) 均成立,因此 $^{} =^{} $

  2. 如果 \(\mathbf{X}^{\prime} \mathbf{X} \mathbf{r}=\boldsymbol{\lambda}\) ,通过定义 \(\mathbf{a}=\mathbf{X r}\) ,我们得到 \[ \begin{aligned} E\left(\mathbf{a}^{\prime} \mathbf{y}\right) &=E\left(\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{y}\right)=\mathbf{r}^{\prime} \mathbf{X}^{\prime} E(\mathbf{y}) \\ &=\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{X} \boldsymbol{\beta}=\boldsymbol{\lambda}^{\prime} \boldsymbol{\beta} \end{aligned} \]

  3. 如果 \(\mathbf{X}^{\prime} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \boldsymbol{\lambda}=\boldsymbol{\lambda}\) ,那么 \(\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \boldsymbol{\lambda}\) 就是上面 \(\mathbf{X}^{\prime} \mathbf{X r}=\boldsymbol{\lambda}\) 的一个解。

根据这个定理第一条等式,我们知道对于 \(i=1,2, \ldots, n\)\(\mathbf{x}_{i}^{\prime} \boldsymbol{\beta}\) 均可估计,其中 \(\mathbf{x}_{i}^{\prime}\) 是矩阵 \(\mathbf{X}\) 的第 \(i\) 行。因此 \(\mathbf{X} \boldsymbol{\beta}\) 的每一行 (元素) 均是可估计的,我们可以说 \(\mathbf{X} \boldsymbol{\beta}\) 本身是可以估计的。同样地,根据第二条等式,我们得到 \(\mathbf{X}^{\prime} \mathbf{X} \boldsymbol{\beta}\) 的每一行 (元素) 均是可估计的,因此 \(\mathbf{X}^{\prime} \mathbf{X} \boldsymbol{\beta}\) 也是可估计的。反过来说,所有的可估计函数都可以从 \(\mathbf{X} \boldsymbol{\beta}\)\(\mathbf{X}^{\prime} \mathbf{X} \boldsymbol{\beta}\) 中得到。

如果系数向量 \(\boldsymbol{\lambda}_{1}, \boldsymbol{\lambda}_{2}, \ldots, \boldsymbol{\lambda}_{m}\) 之间线性无关,那么这些线性函数 \(\boldsymbol{\lambda}_{1}^{\prime} \boldsymbol{\beta}, \boldsymbol{\lambda}_{2}^{\prime} \boldsymbol{\beta}, \ldots, \boldsymbol{\lambda}_{m}^{\prime} \boldsymbol{\beta}\) 称为线性无关的。下面的定理给出了线性无关的可估计函数的数目。

定理:在不满秩的模型 \(\mathbf{y}=\mathbf{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon}\) 中,线性无关的可估计函数的数目等于 \(\mathbf{X}\) 的秩。

缺证明,见 Graybill (1976, pp. 485 – 486)

估计值

$ $ 的估计值

根据上面的定理第一条和第二条,我们有 \(\lambda^{\prime} \boldsymbol{\beta}\) 的估计值 \(\mathbf{a}^{\prime} \mathbf{y}\)\(\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{y}\) ,其中 \(\mathbf{a}^{\prime}\)\(\mathbf{r}^{\prime}\) 满足 \(\boldsymbol{\lambda}^{\prime}=\mathbf{a}^{\prime} \mathbf{X}\)\(\boldsymbol{\lambda}^{\prime}=\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{X}\)\(\lambda^{\prime} \boldsymbol{\beta}\) 第三个估计值就是 \(\boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}}\) ,其中\(\hat{\boldsymbol{\beta}}\)\(\mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}}=\mathbf{X}^{\prime} \mathbf{y}\) 的任意一个解。在下面的定理,我们讨论 \(\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{y}\)\(\boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}}\) 的一些性质,我们不会讨论 \(\mathbf{a}^{\prime} \mathbf{y}\) 的性质,因为这个式子不能保证有最小方差(个人理解 \(\mathbf{a}^{\prime} \mathbf{y}\) 中的 \(\mathbf{a}^{\prime}\) 是不唯一的,因此 \(\mathbf{a}^{\prime} \mathbf{y}\) 不一定满足最小方差)。

定理:如果 $ $ 是不满秩模型的一个可估计函数,设 \(\hat{\boldsymbol{\beta}}\) 是正规方程组 \(\mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}}=\mathbf{X}^{\prime} \mathbf{y}\) 的任意一个解,\(\mathbf{r}\)\(\mathbf{X}^{\prime} \mathbf{X} \mathbf{r}=\boldsymbol{\lambda}\) 的任意一个解。那么两个估计值 \(\boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}}\)\(\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{y}\) 有下面的性质:

  1. \(E\left(\boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}}\right)=E\left(\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{y}\right)=\boldsymbol{\lambda}^{\prime} \boldsymbol{\beta}\)
  2. 对于任意一个 \(\hat{\boldsymbol{\beta}}\)\(\mathbf{r}\)\(\boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}} = \mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{y}\)
  3. \(\boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}}\)\(\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{y}\) 的值不会随着 \(\hat{\boldsymbol{\beta}}\)\(\mathbf{r}\) 的选择而改变。

证明:

  1. 我们有 \[ E\left(\boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}}\right)=\boldsymbol{\lambda}^{\prime} E(\hat{\boldsymbol{\beta}})=\boldsymbol{\lambda}^{\prime}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \mathbf{X}^{\prime} \mathbf{X} \boldsymbol{\beta} \] 根据上面的定理的第三条等式,我们有 \(\boldsymbol{\lambda}^{\prime}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \mathbf{X}^{\prime} \mathbf{X}=\boldsymbol{\lambda}^{\prime}\) ,因此 \[ E\left(\boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}}\right)=\boldsymbol{\lambda}^{\prime} \boldsymbol{\beta} \] 同样地,我们有 \[ E\left(\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{y}\right)=\mathbf{r}^{\prime} \mathbf{X}^{\prime} E(\mathbf{y})=\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{X} \boldsymbol{\beta}=\boldsymbol{\lambda}^{\prime} \boldsymbol{\beta} \]
  2. 对于正规方程组 \(\mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}}=\mathbf{X}^{\prime} \mathbf{y}\) 乘以 \(\mathbf{r}^{\prime}\) 得到 \[ \mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}}=\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{y} \] 因为 \(\boldsymbol{\lambda}^{\prime}=\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{X}\) ,带入得到 \[ \boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}}=\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{y} \]
  3. 为了证明 \(\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{y}\)\(\mathbf{r}\) 的选择无关,设 \(\mathbf{r}_{1}\)\(\mathbf{r}_{2}\) 满足 \(\mathbf{X}^{\prime} \mathbf{X} \mathbf{r}_{1}=\mathbf{X}^{\prime} \mathbf{X} \mathbf{r}_{2}=\boldsymbol{\lambda}\) ,那么 \[ \mathbf{r}_{1}^{\prime} \mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}}=\mathbf{r}_{1}^{\prime} \mathbf{X}^{\prime} \mathbf{y} \quad \text { and } \quad \mathbf{r}_{2}^{\prime} \mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}}=\mathbf{r}_{2}^{\prime} \mathbf{X}^{\prime} \mathbf{y} \] 因为 \(\mathbf{r}_{1}^{\prime} \mathbf{X}^{\prime} \mathbf{X}=\mathbf{r}_{2}^{\prime} \mathbf{X}^{\prime} \mathbf{X}\) ,因此我们有 \(\mathbf{r}_{1}^{\prime} \mathbf{X}^{\prime} \mathbf{y}=\mathbf{r}_{2}^{\prime} \mathbf{X}^{\prime} \mathbf{y}\)

同样的,我们可以证明 \(\boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}}\) 的值不会随着 \(\hat{\boldsymbol{\beta}}\) 的选择而改变,设 \(\hat{\boldsymbol{\beta}_{1}}\)\(\hat{\boldsymbol{\beta}_{2}}\) 是正规方程组 \(\mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}}=\mathbf{X}^{\prime} \mathbf{y}\) 的两个解,那么

根据上面定理,我们知道存在一个向量 \(\mathbf{r}\) ,使得 \(\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{X}=\boldsymbol{\lambda}^{\prime}\) 。 因此 \[ \boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}_{1}} = \mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}_{1}} = \mathbf{r}^{\prime}\mathbf{X}^{\prime} \mathbf{y} \\ \boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}_{2}} = \mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}_{2}} = \mathbf{r}^{\prime}\mathbf{X}^{\prime} \mathbf{y} \] 因此 \(\boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}_{1}} = \boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}_{2}}\)

估计值 \(\boldsymbol{\lambda}^{\prime} \boldsymbol{\hat{\beta}}\)\(\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{y}\) 的方差有以下定理。

定理\(\boldsymbol{\lambda}^{\prime} \boldsymbol{\beta}\) 是不满秩模型 \(\mathbf{y}=\mathbf{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon}\) 的一个可估计函数,\(\operatorname{cov}(\mathbf{y})=\sigma^{2} \mathbf{I}\)\(\mathbf{r}\)\(\mathbf{X}^{\prime} \mathbf{X r}=\boldsymbol{\lambda}\) 的一个解, \(\hat{\boldsymbol{\beta}}\)\(\mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}}=\mathbf{X}^{\prime} \mathbf{y}\) 的一个解,那么 \(\boldsymbol{\lambda}^{\prime} \boldsymbol{\hat{\beta}}\)\(\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{y}\) 的方差有以下性质:

  1. \(\operatorname{var}\left(\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{y}\right)=\sigma^{2} \mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{X} \mathbf{r}=\sigma^{2} \mathbf{r}^{\prime} \boldsymbol{\lambda} = \sigma^{2} \boldsymbol{\lambda}^{\prime}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \boldsymbol{\lambda}\)
  2. \(\operatorname{var}\left(\boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}}\right)=\sigma^{2} \boldsymbol{\lambda}^{\prime}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \boldsymbol{\lambda}\) ( 3) \(\operatorname{var}\left(\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{y}\right)\)\(\operatorname{var}\left(\boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}}\right)\) 值唯一,也就是说与 \(\mathbf{r}\)\(\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-}\)的选择无关,因此 \(\operatorname{var}\left(\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{y}\right) = \operatorname{var}\left(\boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}}\right)\)

证明

  1. \[ \begin{aligned} \operatorname{var}\left(\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{y}\right) &=\mathbf{r}^{\prime} \mathbf{X}^{\prime} \operatorname{cov}(\mathbf{y}) \mathbf{X r} \\ &=\mathbf{r}^{\prime} \mathbf{X}^{\prime}\left(\sigma^{2} \mathbf{I}\right) \mathbf{X} \mathbf{r}\\ &=\sigma^{2} \mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{X} \mathbf{r} \\ &=\sigma^{2} \mathbf{r}^{\prime} \boldsymbol{\lambda} \end{aligned} \]
  2. \[ \begin{aligned} \operatorname{var}\left(\boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}}\right) &=\boldsymbol{\lambda}^{\prime} \operatorname{cov}(\hat{\boldsymbol{\beta}}) \boldsymbol{\lambda} \\ &=\boldsymbol{\lambda}^{\prime} \operatorname{cov}(\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-}\mathbf{X}^{\prime} \mathbf{y}) \boldsymbol{\lambda} \\ &=\boldsymbol{\lambda}^{\prime} \left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-}\mathbf{X}^{\prime} \operatorname{cov}(\mathbf{y}) \mathbf{X} \left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \boldsymbol{\lambda} \\ &=\boldsymbol{\lambda}^{\prime} \left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-}\mathbf{X}^{\prime} (\sigma^2 \mathbf{I}) \mathbf{X} \left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \boldsymbol{\lambda} \\ &=\sigma^{2} \boldsymbol{\lambda}^{\prime}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \mathbf{X}^{\prime} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \boldsymbol{\lambda} \end{aligned} \] 根据定理 \(\boldsymbol{\lambda}^{\prime}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \mathbf{X}^{\prime} \mathbf{X}=\boldsymbol{\lambda}^{\prime}\),因此 \[ \operatorname{var}\left(\boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}}\right)=\sigma^{2} \boldsymbol{\lambda}^{\prime}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \boldsymbol{\lambda} \]
  3. 为了 证明 \(\mathbf{r}^{\prime} \boldsymbol{\lambda}\)\(\mathbf{r}\) 无关,设 \(\mathbf{r}_{1}\)\(\mathbf{r}_{2}\) 满足 \(\mathbf{X}^{\prime} \mathbf{X r}_{1}=\boldsymbol{\lambda}\)\(\mathbf{X}^{\prime} \mathbf{X} \mathbf{r}_{2}=\boldsymbol{\lambda}\) 。这两个等式分别乘以 \(\mathbf{r}_{2}^{\prime}\)\(\mathbf{r}_{1}^{\prime}\) ,得到 \[ \mathbf{r}_{2}^{\prime} \mathbf{X}^{\prime} \mathbf{X r}_{1}=\mathbf{r}_{2}^{\prime} \boldsymbol{\lambda} \quad \text { and } \quad \mathbf{r}_{1}^{\prime} \mathbf{X}^{\prime} \mathbf{X r}_{2}=\mathbf{r}_{1}^{\prime} \boldsymbol{\lambda} . \] 这两个式子的左手项互为转置且为标量,因此二者相等,因此右手项也相等,得到 \[ \mathbf{r}_{2}^{\prime} \boldsymbol{\lambda}=\mathbf{r}_{1}^{\prime} \boldsymbol{\lambda} \] 为了证明 \(\boldsymbol{\lambda}^{\prime}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \boldsymbol{\lambda}\)\(\mathbf{X}^{\prime} \mathbf{X}^{-}\) 的选择无关,设 \(\mathbf{G}_{1}\)\(\mathbf{G}_{2}\)\(\mathbf{X}^{\prime} \mathbf{X}\) 的两个广义逆,根据广义逆的性质,无论 \((\mathbf{A}^{\prime} \mathbf{A})^{-}\) 取何值, \(\mathbf{A}\left(\mathbf{A}^{\prime} \mathbf{A}\right)^{-} \mathbf{A}^{\prime}\) 均保持不变(缺证明)。因此我们得到 \[ \mathbf{X G}_{1} \mathbf{X}^{\prime}=\mathbf{X} \mathbf{G}_{2} \mathbf{X}^{\prime} \] 两边均乘以 \(\mathbf{a}\) 使得 \(\mathbf{a}^{\prime} \mathbf{X}=\boldsymbol{\lambda}^{\prime}\) ,我们得到 \[ \begin{aligned} \mathbf{a}^{\prime} \mathbf{X G}_{1} \mathbf{X}^{\prime} \mathbf{a} &=\mathbf{a}^{\prime} \mathbf{X G}_{2} \mathbf{X}^{\prime} \mathbf{a}, \\ \boldsymbol{\lambda}^{\prime} \mathbf{G}_{1} \boldsymbol{\lambda} &=\boldsymbol{\lambda}^{\prime} \mathbf{G}_{2} \boldsymbol{\lambda} . \end{aligned} \] 得证。

两个可估计函数的估计值存在以下定理。

定理:如果 \(\boldsymbol{\lambda}_{1}^{\prime} \boldsymbol{\beta}\)\(\boldsymbol{\lambda}_{2}^{\prime} \boldsymbol{\beta}\) 是不满秩模型的两个可估计函数,\(\operatorname{cov}(\mathbf{y})=\sigma^{2} \mathbf{I}\) ,这两个可估计函数的估计值的协方差为 \[ \operatorname{cov}\left(\boldsymbol{\lambda}_{1}^{\prime} \hat{\boldsymbol{\beta}}, \boldsymbol{\lambda}_{2}^{\prime} \hat{\boldsymbol{\beta}}\right)=\sigma^{2} \mathbf{r}_{1}^{\prime} \boldsymbol{\lambda}_{2}=\sigma^{2} \boldsymbol{\lambda}_{1}^{\prime} \mathbf{r}_{2}=\sigma^{2} \boldsymbol{\lambda}_{1}^{\prime}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \boldsymbol{\lambda}_{2}, \] 其中 \(\mathbf{X}^{\prime} \mathbf{X} \mathbf{r}_{1}=\boldsymbol{\lambda}_{1}\)\(\mathbf{X}^{\prime} \mathbf{X} \mathbf{r}_{2}=\boldsymbol{\lambda}_{2}\) 。缺证明。

定理:如果 \(\boldsymbol{\lambda}^{\prime} \boldsymbol{\beta}\) 是不满秩模型的一个可估计函数,\(\operatorname{cov}(\mathbf{y})=\sigma^{2} \mathbf{I}\) , 那么估计值 \(\boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}}\)\(\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{y}\)BLUE 值。

证明:假设 \(\boldsymbol{\lambda}^{\prime} \boldsymbol{\beta}\) 可以表示为 \(\mathbf{a}^{\prime} \mathbf{y}\) ,我们表示 \(\mathbf{a}^{\prime}=\mathbf{r}^{\prime} \mathbf{X}^{\prime}+\mathbf{c}^{\prime}\) (为什么这是一个一般的式子?),其中 \(\mathbf{r}\)\(\mathbf{X}^{\prime} \mathbf{X r}=\boldsymbol{\lambda}\) 的一个解。为了确保无偏性,我们必须保证 \[ \boldsymbol{\lambda}^{\prime} \boldsymbol{\beta}=E\left(\mathbf{a}^{\prime} \mathbf{y}\right)=\mathbf{a}^{\prime} \mathbf{X} \boldsymbol{\beta}=\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{X} \boldsymbol{\beta}+\mathbf{c}^{\prime} \mathbf{X} \boldsymbol{\beta}=\left(\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{X}+\mathbf{c}^{\prime} \mathbf{X}\right) \boldsymbol{\beta}=\left(\boldsymbol{\lambda}^{\prime}+\mathbf{c}^{\prime} \mathbf{X}\right) \boldsymbol{\beta} \] 该式必须对所有 \(\boldsymbol{\beta}\) 均成立,因此我们得到 \[ \mathbf{c}^{\prime} \mathbf{X}=\mathbf{0}^{\prime} \] 我们进一步得到 \[ \begin{aligned} \operatorname{var}\left(\mathbf{a}^{\prime} \mathbf{y}\right) &=\mathbf{a}^{\prime} \operatorname{cov}(\mathbf{y}) \mathbf{a}=\mathbf{a}^{\prime} \sigma^{2} \mathbf{I} \mathbf{a}=\sigma^{2} \mathbf{a}^{\prime} \mathbf{a} \\ &=\sigma^{2}\left(\mathbf{r}^{\prime} \mathbf{X}^{\prime}+\mathbf{c}^{\prime}\right)(\mathbf{X} \mathbf{r}+\mathbf{c}) \\ &=\sigma^{2}\left(\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{X} \mathbf{r}+\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{c}+\mathbf{c}^{\prime} \mathbf{X} \mathbf{r}+\mathbf{c}^{\prime} \mathbf{c}\right) \\ &=\sigma^{2}\left(\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{X} \mathbf{r}+\mathbf{c}^{\prime} \mathbf{c}\right) . \end{aligned} \] 因此为了最小化 \(\operatorname{var}\left(\mathbf{a}^{\prime} \mathbf{y}\right)\) ,我们只能使得 \(\mathbf{c}=\mathbf{0}\) ,此时满足 \(\mathbf{c}^{\prime} \mathbf{X}=\mathbf{0}^{\prime}\) 。因此 \(\boldsymbol{\lambda}^{\prime} \boldsymbol{\beta}\) 的 BLUE 值就是 \(\mathbf{a}^{\prime} \mathbf{y}=\mathbf{r}^{\prime} \mathbf{X}^{\prime} \mathbf{y}\)

这个证明感觉不够好,不够清晰。

\(\sigma^{2}\) 的估计值

SSE 计算公式为 \[ \operatorname{SSE}=(\mathbf{y}-\mathbf{X} \hat{\boldsymbol{\beta}})^{\prime}(\mathbf{y}-\mathbf{X} \hat{\boldsymbol{\beta}}) \] 这里 \(\hat{\boldsymbol{\beta}}\)\(\mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}}=\mathbf{X}^{\prime} \mathbf{y}\) 的任意一个解。SSE 的另外两个表达式为 \[ \begin{gathered} \mathrm{SSE}=\mathbf{y}^{\prime} \mathbf{y}-\hat{\boldsymbol{\beta}}^{\prime} \mathbf{X}^{\prime} \mathbf{y} \\ \mathrm{SSE}=\mathbf{y}^{\prime}\left[\mathbf{I}-\mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \mathbf{X}^{\prime}\right] \mathbf{y} \end{gathered} \] 我们定义 \(s^2\) 作为 \(\sigma^{2}\) 的估计值,计算公式为 \[ s^{2}=\frac{\mathrm{SSE}}{n-k} \] 这里 \(n\)\(\mathbf{X}\) 矩阵的行数,\(k=\operatorname{rank}(\mathbf{X})\)

\(s^2\) 的两个性质表示为以下定理。

定理:在不满秩模型中定义的 \(s^2\)\(\operatorname{cov}(\mathbf{y})=\sigma^{2} \mathbf{I}\) ,我们有以下性质:

  1. \(E\left(s^{2}\right)=\sigma^{2}\)

  2. \(s^2\) 不会随着 \(\hat{\boldsymbol{\beta}}\)\(\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-}\) 的选择而改变

证明:

  1. 根据公式,我们有 \(E(\mathrm{SSE})=E\left\{\mathbf{y}^{\prime}\left[\mathbf{I}-\mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \mathbf{X}^{\prime}\right] \mathbf{y}\right\}\) ,根据二次型的期望计算公式 $E(^{} )=( )+^{} $ ,我们得到 $$ \begin{aligned} E()&={(^{2} )}+^{} {}[-({} )^{-} ^{}] \ &={(^{2} )}+^{} ^{} -^{} ^{} (^{} )^{-} ^{} \ &={(^{2} )} \

&={2}\left{()-[{} (^{} )^{-}]} \ &=(n-k) ^{2}

\end{aligned} $$ 这里 \(k=\operatorname{rank}\left(\mathbf{X}^{\prime} \mathbf{X}\right)=\operatorname{rank}(\mathbf{X})\)

这里少了一步证明,就是 \(\operatorname{tr}\left[\mathbf{X}^{\prime} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-}\right] = k\) 的证明,首先根据广义逆的性质,我们有 \(\operatorname{rank}\left(\mathbf{A}^{-} \mathbf{A}\right)=\operatorname{rank}\left(\mathbf{A} \mathbf{A}^{-}\right)=\operatorname{rank}(\mathbf{A})=r\) ,因此 \(\operatorname{rank}\left[\mathbf{X}^{\prime} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-}\right] = k\) 。而 \(\mathbf{X}^{\prime} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-}\) 同时是一个幂等矩阵,因此 \(\operatorname{tr}\left[\mathbf{X}^{\prime} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-}\right] =\operatorname{rank}\left[\mathbf{X}^{\prime} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-}\right] = k\)

  1. 因为 \(\mathbf{X} \boldsymbol{\beta}\) 可估计,因此 \(X \hat{\boldsymbol{\beta}}\) 对于不同的 \(\hat{\boldsymbol{\beta}}\) 具有不变性,因此 \(\mathrm{SSE}=(\mathbf{y}-\mathbf{X} \hat{\boldsymbol{\beta}})^{\prime}(\mathbf{y}-\mathbf{X} \hat{\boldsymbol{\beta}})\) 具有不变性。从另一个公式来说,\(\mathrm{SSE}=\mathbf{y}^{\prime}\left[\mathbf{I}-\mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \mathbf{X}^{\prime}\right] \mathbf{y}\) 中的 \(\mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \mathbf{X}^{\prime}\) 也具有不变性,同样可证明 SSE 具有不变性,因此 \(s^2\) 具有不变性。

假设正态分布的模型

对于不满秩的模型 \(\mathbf{y}=\mathbf{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon}\) ,我们现在假设 \[ \mathbf{y} \text { is } N_{n}\left(\mathbf{X} \boldsymbol{\beta}, \sigma^{2} \mathbf{I}\right) \quad \text { or } \quad \boldsymbol{\varepsilon} \text { is } N_{n}\left(\mathbf{0}, \sigma^{2} \mathbf{I}\right) \] 新增了正态分布假设后,我们现在可以计算得到最大似然估计值。

定理:如果 \(\mathbf{y} \sim N_{n}\left(\mathbf{X} \boldsymbol{\beta}, \sigma^{2} \mathbf{I}\right)\) ,其中 \(\mathbf{X}\) 是一个 \(n \times p\) 的秩为 \(k < p \leq n\) 的矩阵,那么 \(\boldsymbol{\beta}\)\(\sigma^{2}\) 的最大似然估计值为 \[ \begin{gathered} \hat{\boldsymbol{\beta}}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \mathbf{X}^{\prime} \mathbf{y}, \\ \hat{\sigma}^{2}=\frac{1}{n}(\mathbf{y}-\mathbf{X} \hat{\boldsymbol{\beta}})^{\prime}(\mathbf{y}-\mathbf{X} \hat{\boldsymbol{\beta}}) . \end{gathered} \] 证明:不满秩模型和满秩模型一样,其似然函数和对数似然函数为 \[ \begin{gathered} L\left(\boldsymbol{\beta}, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{n / 2}} e^{-(\mathbf{y}-\mathbf{X} \boldsymbol{\beta})^{\prime}(\mathbf{y}-\mathbf{X} \boldsymbol{\beta}) / 2 \sigma^{2}}, \\ \ln L\left(\boldsymbol{\beta}, \sigma^{2}\right)=-\frac{n}{2} \ln (2 \pi)-\frac{n}{2} \ln \sigma^{2}-\frac{1}{2 \sigma^{2}}(\mathbf{y}-\mathbf{X} \boldsymbol{\beta})^{\prime}(\mathbf{y}-\mathbf{X} \boldsymbol{\beta}) . \end{gathered} \] 求偏导,使之为0,得到(缺证明) \[ \begin{gathered} \mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}}=\mathbf{X}^{\prime} \mathbf{y}, \\ \hat{\sigma}^{2}=\frac{1}{n}(\mathbf{y}-\mathbf{X} \hat{\boldsymbol{\beta}})^{\prime}(\mathbf{y}-\mathbf{X} \hat{\boldsymbol{\beta}}), \end{gathered} \] 这里 $ $ 是任意一个解,即 \[ \hat{\boldsymbol{\beta}}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \mathbf{X}^{\prime} \mathbf{y} \] 同样的,这里 \(\hat{\boldsymbol{\beta}}\) 与最小二乘估计值一样,但是 \(\hat{\sigma}^{2}\)有偏的

下面的定理给出最大似然估计值的一些性质。

定理:上面的最大似然估计值有以下性质

  1. \(\hat{\boldsymbol{\beta}}\) is \(N_{p}\left[\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \mathbf{X}^{\prime} \mathbf{X} \boldsymbol{\beta}, \sigma^{2}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \mathbf{X}^{\prime} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-}\right] .\)
  2. \((n-k) s^{2} / \sigma^{2}\) is \(\chi^{2}(n-k)\).
  3. \(\hat{\boldsymbol{\beta}}\) and \(s^{2}\) are independent.

缺证明,证明过程与满秩模型应该差不多。注意到 \(\hat{\boldsymbol{\beta}}\) 的均值和协方差矩阵等都受到 \(\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-}\) 选择的影响,而 \(s^{2}\) 则对于 \(\hat{\boldsymbol{\beta}}\)\(\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-}\) 的选择具有不变性。

定理:对于正态分布假设下的不满秩模型,如果 \(\boldsymbol{\lambda}^{\prime} \boldsymbol{\beta}\) 是一个可估计函数,那么 \(\boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}}\) 在所有的无偏估计值中具有最小的方差(注意,没有线性两个字)。

如果没有正态假设,那么 \(\boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}}\) 仅仅是 BLUE , 也就是线性无偏估计值中方差最小的。但是满足正态假设后, \(\boldsymbol{\lambda}^{\prime} \hat{\boldsymbol{\beta}}\)BUE ,是所有无偏估计值中方差最小的 。

不满秩模型中最小二乘估计值的几何含义

不满秩模型类似与满秩模型,但是有一些重要的差别。

我们还是有三个空间,参数空间,数据空间和预测空间。\(n \times p\) 的矩阵 \(\mathbf{X}\) 可以拆分为 \[ \mathbf{X}=\left(\mathbf{x}_{1}, \mathbf{x}_{2}, \ldots, \mathbf{x}_{p}\right) \] 矩阵 \(\mathbf{X}\) 的每一列均是数据空间中的向量,但是由于 \(\operatorname{rank}(\mathbf{X})=k<p\) ,因此这些列向量之间不是线性独立的,但是预测空间还是由这些列的所有可能的线性组合组成。此时,参数空间的维度是 \(p\) ,但是预测空间的维度是 \(k < p\) 。因此,矩阵乘积 \(\mathbf{X u}\) ,这里 \(\mathbf{u}\) 是参数空间的任意一个向量,是一个从参数空间到预测空间的多对一的映射(根据矩阵 \(\mathbf{X}\) 列向量之间的线性相关的关系,易知存在多个不同的 \(\mathbf{u}\) 可以得到相同的乘积)。

根据模型设定 \(\mathbf{y}=\mathbf{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon}\) ,其中 \(E(\mathbf{y})=\mathbf{X} \boldsymbol{\beta}\) , 根据最小二乘的思想,我们想从预测空间找到一个 \(E(\mathbf{y})\) 的估计值 \(\hat{\mathbf{y}}\) ,使得其与 \(\mathbf{y}\) 的距离最近。这里我们同样需要需要满足 \(\hat{\boldsymbol{\varepsilon}}=\mathbf{y}-\hat{\mathbf{y}}\) 与预测空间正交,因此同样有 \(\mathbf{X}^{\prime} \hat{\boldsymbol{\varepsilon}}=\mathbf{0}\) ,得到正规方程组 \(\mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}}=\mathbf{X}^{\prime} \mathbf{y}\)

然后我们再根据这个 \(\hat{\mathbf{y}}\) ,推导 \(\boldsymbol{\beta}\) 的估计值。由于这里是多对一的映射,因此可以得到 \(\hat{\mathbf{y}}\)\(\hat{\boldsymbol{\beta}}\) 不唯一,求解正规方程组,得到 \(\hat{\boldsymbol{\beta}}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-} \mathbf{X}^{\prime} \mathbf{y}\) ,也就是说我们有无穷多个解。但是注意 \(\hat{\mathbf{y}}=\mathbf{X} \hat{\boldsymbol{\beta}}\) 是唯一的

再参数化

我们现在来正式地了解一下再参数化的例子。在再参数化中,我们将一个不满秩的模型 \(\mathbf{y}=\mathbf{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon}\) ,其中 \(\mathbf{X}\) 是一个 \(n \times p\) 的秩为 \(k < p \leq n\) 的矩阵,转化为一个满秩的模型 \(\mathbf{y}=\mathbf{Z} \boldsymbol{\gamma}+\boldsymbol{\varepsilon}\) ,其中 \(\mathbf{Z}\) 是一个 \(n \times k\) 的秩为 $k $ 的矩阵,并且 \(\boldsymbol{\gamma}=\mathbf{U} \boldsymbol{\beta}\) 是由 \(k\)线性独立的 \(\boldsymbol{\beta}\) 的可估计函数组成的向量。因此我们可以写作 \[ \mathbf{Z} \boldsymbol{\gamma}=\mathbf{Z} \boldsymbol{U} \boldsymbol{\beta}=\mathbf{X} \boldsymbol{\beta} \] 这里 \(\mathbf{X}=\mathbf{Z U}\) ,由于 \(\mathbf{U}\) 是一个 \(k \times p\) 的秩为 \(k\) 的矩阵(秩为 \(k\) ,是因为根据要求, \(\mathbf{U}\) 的行彼此独立),因此 \(\mathbf{U} \mathbf{U}^{\prime}\) 是一个非奇异矩阵,我们可以对 \(\mathbf{Z U}=\mathbf{X}\) 乘以 \(\mathbf{U}^{\prime}\) 来得到 \(\mathbf{Z}\) 的表达式 \[ \begin{aligned} \mathbf{Z} \mathbf{U} \mathbf{U}^{\prime} &=\mathbf{X} \mathbf{U}^{\prime} \\ \mathbf{Z} &=\mathbf{X} \mathbf{U}^{\prime}\left(\mathbf{U} \mathbf{U}^{\prime}\right)^{-1} . \end{aligned} \] 我们可以证明 \(\mathbf{Z}\) 满秩,我们有 \(\operatorname{rank}(\mathbf{Z}) \geq \operatorname{rank}(\mathbf{Z} \mathbf{U})=\operatorname{rank}(\mathbf{X})=k\) ,但是 \(\mathbf{Z}\) 的秩最大值为 \(k\) ,因此 \(\mathbf{Z}\) 的秩为 \(k\) 。因此,\(\mathbf{y}=\mathbf{Z} \boldsymbol{\gamma}+\boldsymbol{\varepsilon}\) 是一个满秩的模型,可以得到唯一的解 \(\hat{\gamma}=\left(\mathbf{Z}^{\prime} \mathbf{Z}\right)^{-1} \mathbf{Z}^{\prime} \mathbf{y}\)

在再参数化的满秩模型中,\(\sigma^{2}\) 的无偏估计值为 \[ s^{2}=\frac{1}{n-k}(\mathbf{y}-\mathbf{Z} \hat{\gamma})^{\prime}(\mathbf{y}-\mathbf{Z} \hat{\gamma}) \] 因为 \(\mathbf{Z} \boldsymbol{\gamma}=\mathbf{X} \boldsymbol{\beta}\) ,因此 \(\mathbf{Z} \hat{\gamma}\)\(\mathbf{X} \hat{\boldsymbol{\beta}}\) 也是相同的,也就是预测值是相同的。 \[ \mathbf{Z} \hat{\boldsymbol{\gamma}}=\mathbf{X} \hat{\boldsymbol{\beta}} \] 然后两次计算的 SSE 也是相同的 \[ (\mathbf{y}-\mathbf{X} \hat{\boldsymbol{\beta}})^{\prime}(\mathbf{y}-\mathbf{X} \hat{\boldsymbol{\beta}})=(\mathbf{y}-\mathbf{Z} \hat{\boldsymbol{\gamma}})^{\prime}(\mathbf{y}-\mathbf{Z} \hat{\boldsymbol{\gamma}}) \]

附加条件

通过添加附加条件 (side conditions) 使得参数估计值唯一,此时得到的参数估计值与某个特定的广义逆参数估计值相同

我们知道 \(\mathbf{X}^{\prime} \mathbf{X} \boldsymbol{\beta}\) 可以理解为 \(p\) 个可估计函数组成的向量,如果一个附加条件(的左手项)是一个可估计函数,那么这个附加条件(的左手项)可以表示为 \(\mathbf{X}^{\prime} \mathbf{X} \boldsymbol{\beta}\) 的行的线性组合,因此无法有助于改善 \(\mathbf{X}\) 的秩亏缺的状态,因此正规方程组 \(\mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}}=\mathbf{X}^{\prime} \mathbf{y}\) 还是没有唯一解 。因此,附加条件必须是一个不可估计函数

\(\mathbf{X}\) 是一个 \(n \times p\) 的秩为 \(k < p \leq n\) 的矩阵,因此 \(\mathbf{X}\) 缺少的秩为 \(p-k\) 。为了得到唯一估计值 \(\hat{\boldsymbol{\beta}}\) ,我们需要添加附件条件使得 \(\mathbf{X}\) 满秩。因此,我们定义附加条件 \(\mathbf{T} \boldsymbol{\beta}=\mathbf{0}\)\(\mathbf{T} \hat{\boldsymbol{\beta}}=\mathbf{0}\) ,其中 \(\mathbf{T}\) 是一个 \((p-k) \times p\) 的秩为 \(p-k\) 的矩阵,并且 \(\mathbf{T} \boldsymbol{\beta}\) 是由不可估计函数组成的向量。

定理:在满足上面的条件下,同时满足 \(\mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}}=\mathbf{X}^{\prime} \mathbf{y}\)\(\mathbf{T} \hat{\boldsymbol{\beta}}=\mathbf{0}\) 的参数估计值 \(\hat{\boldsymbol{\beta}}\)唯一的

证明:这里我们有两个方程组 \[ \begin{aligned} &\mathbf{y}=\mathbf{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon} \\ &\mathbf{0}=\mathbf{T} \boldsymbol{\beta}+\mathbf{0} \end{aligned} \] 我们可以将其合并为一个 \[ \left(\begin{array}{l} \mathbf{y} \\ \mathbf{0} \end{array}\right)=\left(\begin{array}{c} \mathbf{X} \\ \mathbf{T} \end{array}\right) \boldsymbol{\beta}+\left(\begin{array}{l} \boldsymbol{\varepsilon} \\ \mathbf{0} \end{array}\right) \] 因为矩阵 \(\mathbf{T}\) 的行之间线性无关,并且不是 \(\mathbf{X}\) 的行的线性函数,因此矩阵 \(\left(\begin{array}{l}\mathbf{X} \\ \mathbf{T}\end{array}\right)\) 是一个 \((n+p-k) \times p\) 的秩为 \(p\) 的矩阵,也就是满秩矩阵。因此 \(\left(\begin{array}{l}\mathbf{X} \\ \mathbf{T}\end{array}\right)^{\prime}\left(\begin{array}{l}\mathbf{X} \\ \mathbf{T}\end{array}\right)\) 是一个 \(p \times p\) 的秩为 \(p\) 的矩阵,最小二乘的正规方程组 \[ \left(\begin{array}{l} \mathbf{X} \\ \mathbf{T} \end{array}\right)^{\prime}\left(\begin{array}{c} \mathbf{X} \\ \mathbf{T} \end{array}\right) \hat{\boldsymbol{\beta}}=\left(\begin{array}{c} \mathbf{X} \\ \mathbf{T} \end{array}\right)^{\prime}\left(\begin{array}{l} \mathbf{y} \\ \mathbf{0} \end{array}\right) \] 具有唯一解,为 \[ \begin{aligned} \hat{\boldsymbol{\beta}} &=\left[\left(\begin{array}{l} \mathbf{X} \\ \mathbf{T} \end{array}\right)^{\prime}\left(\begin{array}{l} \mathbf{X} \\ \mathbf{T} \end{array}\right)\right]^{-1}\left(\begin{array}{l} \mathbf{X} \\ \mathbf{T} \end{array}\right)^{\prime}\left(\begin{array}{l} \mathbf{y} \\ \mathbf{0} \end{array}\right) \\ &=\left[\left(\mathbf{X}^{\prime}, \mathbf{T}^{\prime}\right)\left(\begin{array}{l} \mathbf{X} \\ \mathbf{T} \end{array}\right)\right]^{-1}\left(\mathbf{X}^{\prime}, \mathbf{T}^{\prime}\right)\left(\begin{array}{l} \mathbf{y} \\ \mathbf{0} \end{array}\right) \\ &=\left(\mathbf{X}^{\prime} \mathbf{X}+\mathbf{T}^{\prime} \mathbf{T}\right)^{-1}\left(\mathbf{X}^{\prime} \mathbf{y}+\mathbf{T}^{\prime} \mathbf{0}\right) \\ &=\left(\mathbf{X}^{\prime} \mathbf{X}+\mathbf{T}^{\prime} \mathbf{T}\right)^{-1} \mathbf{X}^{\prime} \mathbf{y} . \end{aligned} \] 添加附加条件的方式不适合满秩的模型,如果模型满秩,此时 \(\mathbf{X}^{\prime} \mathbf{X}\) 是一个 \(p \times p\) 的非奇异矩阵,也就是说 \(\mathbf{X}^{\prime} \mathbf{X}\)\(p\) 的线性无关的行,因此 \(\mathbf{X}^{\prime} \mathbf{X}\) 的所有行是 \(\mathbb{R}^{p}\) 的一组基,因此任意一个 \(\mathbf{T}\) 矩阵的行一定是 \(\mathbf{X}^{\prime} \mathbf{X}\) 的所有行的线性组合,也就是说,你找不到一个 \(\mathbf{T}\) 矩阵,使得 \(\mathbf{T} \boldsymbol{\beta}\) 是由不可估计函数组成的向量。

这里得到 \(\hat{\boldsymbol{\beta}}\) 仍然满足原始的正规方程组 \(\mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}}=\mathbf{X}^{\prime} \mathbf{y}\) ,因为 \[ \begin{aligned} \mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}}+\mathbf{T}^{\prime} \mathbf{T} \hat{\boldsymbol{\beta}}&=\mathbf{X}^{\prime} \mathbf{y} \quad \because \mathbf{T} \hat{\boldsymbol{\beta}}=\mathbf{0} \\ \mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}}&=\mathbf{X}^{\prime} \mathbf{y} \\ \end{aligned} \] 我有几个问题,这里 \(\mathbf{X}\) 矩阵的秩 \(k\) 在实际数据中是一个不确定的数,也就是说我们需要添加的附加条件的数目 \(p-k\) 也不定;第二,我们怎么找到这个 \(\mathbf{T}\) 矩阵,使得 \(\mathbf{T} \boldsymbol{\beta}\) 是由不可估计函数组成的向量呢?我感觉这个方法不好实现,就是在实际处理中,用了附件条件也不一定能得到唯一解,可能还是要求广义逆的解。再说了,最终得到的所谓的唯一的 \(\hat{\boldsymbol{\beta}}\) ,实际上还是之前的不满秩矩阵的一个解,我感觉没有必要非要这么折腾一下,可以直接求广义逆的解。

从现实的角度来看,好像一般是几种方式联合使用,比如添加附加条件 + 广义逆求解,再参数化 + 广义逆求解等。

  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2019-2026 Vincere Zhou
  • 访问人数: | 浏览次数:

请我喝杯茶吧~

支付宝
微信