矩阵微分与正规方程组推导

在看吴恩达老师CS229课程时,看吴老师推导线性回归的正规方程组\(X^{T} X \theta=X^{T} y\))时,感觉不是很系统,而且引入了一个新的概念,矩阵求导。这部分内容之前上育种课的时候就感觉云里雾里,这次花了些时间,把这一部分内容搞懂了。

问题描述

线性回归可以用向量的形式描述为下式(向量表示为加粗的小写字母,默认为竖向量;矩阵表示为加粗的大写字母,下同) \[ \boldsymbol{y=X\beta+e} \] 根据最小二乘法,代价函数定义为 (假设样本数为 \(m\),参数数目为 \(n+1\), 使用向量外积转为向量乘法形式): \[ J(\boldsymbol{\beta}) =\frac{1}{2} \sum_{i=1}^{m}\left(h_{\beta}\left(x^{(i)}\right)-y^{(i)}\right)^{2} = \frac{1}{2}\boldsymbol{(X \beta-y)^{T}(X \beta-y)} \\ \] 我们需要寻找使得代价函数(平方误差和或均方误差)最小的一组常数 \(\boldsymbol{\beta}\) ,这是一个优化问题(求一个函数的极值:极大值或极小值)。

在高中就学过,一个函数的极值往往是其导数为0的位置,因此我们需要求使得代价函数的导数为0(梯度为 \(\boldsymbol{0}\) 向量)的 \(\boldsymbol{\beta}\) 值,而这就牵涉到了矩阵微分或矩阵求导。(实际上,一阶导数为0的点仅仅是一个驻点或称平稳点,一阶导数为0仅仅是全局极小点的必要不充分条件。但是最小二乘的代价函数是一个凸函数,因此一阶导为0的点就是全局极小点,这些概念具体可见张贤达老师的《矩阵分析与应用》1。)

所以,这里需要先了解矩阵微分的一些概念和知识,这一部分内容同样见于张贤达老师的书2,知乎上也有人进行了一些梳理3

矩阵微分

梯度矩阵定义

首先,我们将线性代数中的函数依据其输入输出划分为下面这些类型,输入可以为向量或矩阵,输出可以分为标量、向量和矩阵(函数定义就是一个映射关系,线性代数里的函数仅仅是将输入输出换成了向量和矩阵,比如矩阵乘法 \(f(\boldsymbol{x}) = \boldsymbol{Ax}\) 就是一个映射/函数)。

1

这里只考虑输入为一个向量的标量函数\(R^m \rightarrow R\) )。

矩阵微分有两种定义方式,一种称为 Jacobian 矩阵,一种称为梯度矩阵,二者的内容均为偏导数,仅仅是结果的布局不同,互为转置矩阵。这里只说梯度矩阵,更详细的内容见张贤达老师的书。

实值标量函数 \(f(x)\) 的梯度向量 \(\nabla_{\boldsymbol{x}} f(\boldsymbol{x})\)\(m \times 1\) 列向量, 定义为 (输入为一个向量,输出为一个标量) \[ \nabla_{\boldsymbol{x}} f(\boldsymbol{x}) \stackrel{\text { def }}{=}\left[\frac{\partial f(\boldsymbol{x})}{\partial x_{1}}, \cdots, \frac{\partial f(\boldsymbol{x})}{\partial x_{m}}\right]^{\mathrm{T}}=\frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}} \]

梯度矩阵性质

梯度矩阵计算

那么我们如何计算一个梯度函数的梯度向量或梯度矩阵呢?你可以直接通过定义拆分成元素级别来计算,

例如求实值函数 \(f(x)=\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}\) 的梯度矩阵。由于 \(\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}=\sum_{k=1}^{n} \sum_{l=1}^{n} a_{k l} x_{k} x_{l}\), 故可求出梯度向量 \(\frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}}{\partial \boldsymbol{x}}\) 的第 \(i\) 个分量为: \[ \left[\frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}}{\partial \boldsymbol{x}}\right]_{i}=\frac{\partial}{\partial x_{i}} \sum_{k=1}^{n} \sum_{l=1}^{n} a_{k l} x_{k} x_{l}=\sum_{k=1}^{n} x_{k} a_{k i}+\sum_{l=1}^{n} x_{l} a_{i l} = \boldsymbol{(A^{T}x})_{i} + \boldsymbol{(Ax})_{i} \] 立即得梯度向量 \(\nabla_{\boldsymbol{X}} f(\boldsymbol{x})=\left(\boldsymbol{A^T}+\boldsymbol{A}\right) \boldsymbol{x}_{\text {。 }}\)

但是这样做很麻烦,而已有的函数可能不好拆解成元素级别的式子,也不符合线性代数一向简洁的特点。

我们可以通过一个矩阵微分的性质来求解梯度矩阵,下面就简单介绍一下4。在介绍矩阵微分之前,需要掌握一些矩阵的迹的性质

矩阵的迹

定义 $ n n$ 矩阵 \(\boldsymbol{A}\) 的对角元素之和称为 \(\boldsymbol{A}\) 的迹 (trace), 记作 \(\operatorname{tr}(\boldsymbol{A})\), 即有 \[ \operatorname{tr}(\boldsymbol{A})=a_{11}+\cdots+a_{n n}=\sum_{i=1}^{n} a_{i i} \] 非正方矩阵无迹的定义

下面是矩阵的迹满足的一些性质。

  1. \(\boldsymbol{A}\)\(\boldsymbol{B}\) 均为 \(n \times n\) 矩阵, 则 \(\operatorname{tr}(\boldsymbol{A} \pm \boldsymbol{B})=\operatorname{tr}(\boldsymbol{A}) \pm \operatorname{tr}(\boldsymbol{B})\)
  2. \(\boldsymbol{A}\)\(\boldsymbol{B}\) 均为 \(n \times n\) 矩阵, 并且 \(c_{1}\)\(c_{2}\) 为常数, 则 \(\operatorname{tr}\left(c_{1} \boldsymbol{A} \pm c_{2} \boldsymbol{B}\right)=c_{1} \operatorname{tr}(\boldsymbol{A}) \pm\) \(c_{2} \operatorname{tr}(\boldsymbol{B})\) 。特别地, 若 \(\boldsymbol{B}=\boldsymbol{O}\), 则 \(\operatorname{tr}(c \boldsymbol{A})=c \operatorname{tr}(\boldsymbol{A})\)
  3. 矩阵 \(\boldsymbol{A}\) 的转置、复数共轭和复共轭转置的迹分别为 \(\operatorname{tr}\left(\boldsymbol{A}^{\mathrm{T}}\right)=\operatorname{tr}(\boldsymbol{A}), \operatorname{tr}\left(\boldsymbol{A}^{*}\right)=\) \([\operatorname{tr}(\boldsymbol{A})]^{*}\)\(\operatorname{tr}\left(\boldsymbol{A}^{\mathrm{H}}\right)=[\operatorname{tr}(\boldsymbol{A})]^{*}{ }^{\circ}\)
  4. \(\boldsymbol{A} \in \mathbb{C}^{m \times n}, \boldsymbol{B} \in \mathbb{C}^{n \times m}\), 则 \(\operatorname{tr}(\boldsymbol{A B})=\operatorname{tr}(\boldsymbol{B} \boldsymbol{A})\)

证明,运用矩阵乘法,存在下式 \[ \begin{aligned} \operatorname{tr}(A B) &=\sum_{i=1}^{M} A B_{i i} \\ &=\sum_{i=1}^{m} \sum_{j=1}^{n} A_{i j} B_{j i} \end{aligned} \]

\[ \begin{aligned} \operatorname{tr}(B A) &=\sum_{i=1}^{n} B A_{j j} \\ &=\sum_{j=1}^{n} \sum_{i=1}^{m} B_{ji} A_{i j} \end{aligned} \]

观察一下,得知二者相等,得证 \(tr(AB) = tr(BA)\)

  1. \(\boldsymbol{A}\) 是一个 \(m \times n\) 矩阵, 则 \(\operatorname{tr}\left(\boldsymbol{A}^{\mathrm{H}} \boldsymbol{A}\right)=0 \Longleftrightarrow \boldsymbol{A}=\boldsymbol{O}_{m \times n}(\) 零矩阵 \()\)

证明 \[ \begin{aligned} & \operatorname{tr}\left(A^{T} A\right) \\ =& \sum_{i=1}^{n} (A^{T} A)_{i i} \\ =& \sum_{i=1}^{n}\sum_{j=1}^{m} A_{i j}^{T} A_{j i} \\ =& \sum_{i=1}^{n} \sum_{j=1}^{m} A_{j i}^{2} \end{aligned} \] 因此,\(\operatorname{tr}\left(\boldsymbol{A}^{\mathrm{H}} \boldsymbol{A}\right)=0 \Longleftrightarrow \boldsymbol{A}=\boldsymbol{O}_{m \times n}\) (6) \(\boldsymbol{x}^{\mathrm{H}} \boldsymbol{A} \boldsymbol{x}=\operatorname{tr}\left(\boldsymbol{A} \boldsymbol{x} \boldsymbol{x}^{\mathrm{H}}\right)\)\(\boldsymbol{y}^{\mathrm{H}} \boldsymbol{x}=\operatorname{tr}\left(\boldsymbol{x} \boldsymbol{y}^{\mathrm{H}}\right)\)

证明:这里只证明前半部分,后半部分我直接脑补出来了。 \[ x_{n \times 1}=\left(x_{i}\right), \quad A_{n \times n}=\left[a_{i j}\right]\\ \]\[ B=x x^{T}=\left[\begin{array}{ccc} x_{1}^{2} & x_{1} x_{2} & \cdots & x_{1} x_{n} \\ \vdots & \cdots & \cdots & \vdots \\ x_{n} x_{1} & x_{n} x_{2} & \cdots & x_{n} x_{n} \end{array}\right] \]

\[ \begin{aligned} tr(Axx^{T}) &=\operatorname{tr}(A B)\\ &=\sum_{i=1}^{n}(A B)_{i i}\\ &=\sum_{i=1}^{n} \sum_{j=1}^{n} A_{i j} B_{j i}\\ &=\sum_{i=1}^{n} \sum_{j=1}^{n} a_{i j} x_{j} x_{i}\\ &=x^{T} A x \end{aligned} \]

  1. 迹等于特征值之和, 即 \(\operatorname{tr}(\boldsymbol{A})=\lambda_{1}+\cdots+\lambda_{n}\)
  2. 分块矩阵的迹满足 \[ \operatorname{tr}\left[\begin{array}{ll} \boldsymbol{A} & \boldsymbol{B} \\ \boldsymbol{C} & \boldsymbol{D} \end{array}\right]=\operatorname{tr}(\boldsymbol{A})+\operatorname{tr}(\boldsymbol{D}) \] 式中, \(\boldsymbol{A} \in \mathbb{C}^{m \times m}, \boldsymbol{B} \in \mathbb{C}^{m \times n}, \boldsymbol{C} \in \mathbb{C}^{n \times m}, \boldsymbol{D} \in \mathbb{C}^{n \times n}\)
  3. 对于任何正整数 \(k\), 有 \[ \operatorname{tr}\left(\boldsymbol{A}^{k}\right)=\sum_{i=1}^{n} \lambda_{i}^{k} \] 灵活运用迹的等式 \(\operatorname{tr}(\boldsymbol{U} \boldsymbol{V})=\operatorname{tr}(\boldsymbol{V} \boldsymbol{U})\), 可以得到一些常用的重要结果。例如, 矩阵 \(\boldsymbol{A}^{\mathrm{H}} \boldsymbol{A}\)\(\boldsymbol{A A}^{\mathrm{H}}\) 的迹相等, 且有 \[ \operatorname{tr}\left(\boldsymbol{A}^{\mathrm{H}} \boldsymbol{A}\right)=\operatorname{tr}\left(\boldsymbol{A} \boldsymbol{A}^{\mathrm{H}}\right)=\sum_{i=1}^{n} \sum_{j=1}^{n} a_{i j} a_{i j}^{*}=\sum_{i=1}^{n} \sum_{j=1}^{n}\left|a_{i j}\right|^{2} \] 又如, 在迹的等式 \(\operatorname{tr}(\boldsymbol{U} \boldsymbol{V})=\operatorname{tr}(\boldsymbol{V} \boldsymbol{U})\) 中, 若分别令 \(\boldsymbol{U}=\boldsymbol{A}, \boldsymbol{V}=\boldsymbol{B} \boldsymbol{C}\)\(U=A \boldsymbol{B}\), \(\boldsymbol{V}=\boldsymbol{C}\), 则有 \[ \operatorname{tr}(\boldsymbol{A B C})=\operatorname{tr}(\boldsymbol{B C A})=\operatorname{tr}(\boldsymbol{C A B}) \] 类似地, 若分别令 \(U=A, V=B C D ; U=A B, V=C D\)\(U=A B C, V=D\), 又有 \[ \operatorname{tr}(\boldsymbol{A B C D})=\operatorname{tr}(\boldsymbol{B C D A})=\operatorname{tr}(\boldsymbol{C D A B})=\operatorname{tr}(\boldsymbol{D} \boldsymbol{A B C}) \] 利用上式还易知, 若矩阵 \(\boldsymbol{A}\)\(\boldsymbol{B}\) 均为 \(m \times m\) 矩阵, 且 \(B\) 非奇异, 则 \[ \operatorname{tr}\left(\boldsymbol{B} \boldsymbol{A B}^{-1}\right)=\operatorname{tr}\left(\boldsymbol{B}^{-1} \boldsymbol{A} \boldsymbol{B}\right)=\operatorname{tr}\left(\boldsymbol{A B B}^{-1}\right)=\operatorname{tr}(\boldsymbol{A}) \]

一阶矩阵微分

一阶实矩阵微分

矩阵微分用符号 \(\mathrm{d} \boldsymbol{X}\) 表示, 定义为 \(\mathrm{d} \boldsymbol{X}=\left[\mathrm{d} X_{i j}\right]_{i=1, j=1}^{m, n}\) 。 例 考虑标量函数 \(\operatorname{tr}(\boldsymbol{U})\) 的微分, 得 \[ \mathrm{d}(\operatorname{tr} \boldsymbol{U})=\mathrm{d}\left(\sum_{i=1}^{n} u_{i i}\right)=\sum_{i=1}^{n} \mathrm{~d} u_{i i}=\operatorname{tr}(\mathrm{d} \boldsymbol{U}) \] 即有 \(\mathrm{d}(\operatorname{tr} \boldsymbol{U})=\operatorname{tr}(\mathrm{d} \boldsymbol{U})\) 。 例 考虑矩阵乘积 \(U V\) 的微分矩阵, 有 \[ \begin{aligned} [\mathrm{d}(\boldsymbol{U} \boldsymbol{V})]_{i j} &=\mathrm{d}\left([\boldsymbol{U} \boldsymbol{V}]_{i j}\right)=\mathrm{d}\left(\sum_{k} u_{i k} v_{k j}\right)=\sum_{k} \mathrm{~d}\left(u_{i k} v_{k j}\right) \\ &=\sum_{k}\left[\left(\mathrm{~d} u_{i k}\right) v_{k j}+u_{i k} \mathrm{~d} v_{k j}\right]=\sum_{k}\left(\mathrm{~d} u_{i k}\right) v_{k j}+\sum_{k} u_{i k} \mathrm{~d} v_{k j} \\ &=[(\mathrm{d} \boldsymbol{U}) \boldsymbol{V}]_{i j}+[\boldsymbol{U} \mathrm{d} \boldsymbol{V}]_{i j} \end{aligned} \] 从而得 \(\mathrm{d}(\boldsymbol{U} \boldsymbol{V})=(\mathrm{d} \boldsymbol{U}) \boldsymbol{V}+\boldsymbol{U} \mathrm{d} \boldsymbol{V}\) 。 以上举例表明, 实矩阵微分具有以下两个基本性质: 转置 矩阵转置的微分等于矩阵微分的转置, 即有 \(\mathrm{d}\left(\boldsymbol{X}^{\mathrm{T}}\right)=(\mathrm{d} \boldsymbol{X})^{\mathrm{T}}\)线性 \(\mathrm{d}(\alpha \boldsymbol{X}+\beta \boldsymbol{Y})=\alpha \mathrm{d} \boldsymbol{X}+\beta \mathrm{d} \boldsymbol{Y}\) 。 下面汇总了矩阵微分的常用计算公式 。 (1) 常数矩阵的微分矩阵为零矩阵, 即 \(\mathrm{d} \boldsymbol{A}=\boldsymbol{O}\) 。 (2) 常数 \(\alpha\) 与矩阵 \(\boldsymbol{X}\) 的乘积的微分矩阵 \(\mathrm{d}(\alpha \boldsymbol{X})=\alpha \mathrm{d} \boldsymbol{X}\) 。 (3) 矩阵转置的微分矩阵等于原矩阵的微分矩阵的转置, 即 \(\mathrm{d}\left(\boldsymbol{X}^{\mathrm{T}}\right)=(\mathrm{d} \boldsymbol{X})^{\mathrm{T}}\) 。 (4) 两个矩阵函数的和 (差) 的微分矩阵为 \(\mathrm{d}(\boldsymbol{U} \pm \boldsymbol{V})=\mathrm{d} \boldsymbol{U} \pm \mathrm{d} \boldsymbol{V}\) 。 (5) 常数矩阵与矩阵乘积的微分矩阵为 \(\mathrm{d}(\boldsymbol{A X} \boldsymbol{B})=\boldsymbol{A}(\mathrm{d} \boldsymbol{X}) \boldsymbol{B}\) 。 (6) 矩阵函数 \(\boldsymbol{U}=\boldsymbol{F}(\boldsymbol{X}), \boldsymbol{V}=\boldsymbol{G}(\boldsymbol{X}), \boldsymbol{W}=\boldsymbol{H}(\boldsymbol{X})\) 乘积的微分矩阵为 \[ \begin{aligned} \mathrm{d}(\boldsymbol{U} \boldsymbol{V}) &=(\mathrm{d} \boldsymbol{U}) \boldsymbol{V}+\boldsymbol{U}(\mathrm{d} \boldsymbol{V}) \\ \mathrm{d}(\boldsymbol{U} \boldsymbol{V} \boldsymbol{W}) &=(\mathrm{d} \boldsymbol{U}) \boldsymbol{V} \boldsymbol{W}+\boldsymbol{U}(\mathrm{d} \boldsymbol{V}) \boldsymbol{W}+\boldsymbol{U} \boldsymbol{V}(\mathrm{d} \boldsymbol{W}) \end{aligned} \] (7) 矩阵 \(\boldsymbol{X}\) 的迹的矩阵微分 \(\mathrm{d}(\operatorname{tr}(\boldsymbol{X}))\) 等于矩阵微分 \(\mathrm{d} \boldsymbol{X}\) 的迹 \(\operatorname{tr}(\mathrm{d} \boldsymbol{X})\), 即 \[ \mathrm{d}(\operatorname{tr}(\boldsymbol{X}))=\operatorname{tr}(\mathrm{d} \boldsymbol{X}) \] 特别地, 矩阵函数 \(\boldsymbol{F}(\boldsymbol{X})\) 的迹的矩阵微分为 \(\mathrm{d}(\operatorname{tr}(\boldsymbol{F}(\boldsymbol{X})))=\operatorname{tr}(\mathrm{d}(\boldsymbol{F}(\boldsymbol{X})))\)

标量函数的梯度矩阵辨识

在多变量函数的微积分中, 称多变量函数 \(f\left(x_{1}, \cdots, x_{m}\right)\) 在点 \(\left(x_{1}, \cdots, x_{m}\right)\) 可微分, 若 \(f\left(x_{1}, \cdots, x_{m}\right)\) 的全改变量可以写作 \[ \begin{aligned} \Delta f\left(x_{1}, \cdots, x_{m}\right) &=f\left(x_{1}+\Delta x_{1}, \cdots, x_{m}+\Delta x_{m}\right)-f\left(x_{1}, \cdots, x_{m}\right) \\ &=A_{1} \Delta x_{1}+\cdots+A_{m} \Delta x_{m}+O\left(\Delta x_{1}, \cdots, \Delta x_{m}\right) \end{aligned} \] 式中, \(A_{1}, \cdots, A_{m}\) 分别与 \(\Delta x_{1}, \cdots, \Delta x_{m}\) 无关, 而 \(O\left(\Delta x_{1}, \cdots, \Delta x_{m}\right)\) 表示偏改变量 \(\Delta x_{1}\), \(\cdots, \Delta x_{m}\) 的二阶及高阶项。这时,函数 \(f\left(x_{1}, \cdots, x_{m}\right)\) 的偏导数 \(\frac{\partial f}{\partial x_{1}}, \cdots, \frac{\partial f}{\partial x_{m}}\) 一定存在,

并且 \[ \frac{\partial f}{\partial x_{1}}=A_{1}, \quad \cdots \quad, \quad \frac{\partial f}{\partial x_{m}}=A_{m} \] 全改变量 \(\Delta f\left(x_{1}, \cdots, x_{m}\right)\) 的线性主部 \[ A_{1} \Delta x_{1}+\cdots+A_{m} \Delta x_{m}=\frac{\partial f}{\partial x_{1}} \mathrm{~d} x_{1}+\cdots+\frac{\partial f}{\partial x_{m}} \mathrm{~d} x_{m} \] 称为多变量函数 \(f\left(x_{1}, \cdots, x_{m}\right)\) 的全微分, 记为 \[ \mathrm{d} f\left(x_{1}, \cdots, x_{m}\right)=\frac{\partial f}{\partial x_{1}} \mathrm{~d} x_{1}+\cdots+\frac{\partial f}{\partial x_{m}} \mathrm{~d} x_{m} \] 多变量函数 \(f\left(x_{1}, \cdots, x_{m}\right)\) 在点 \(\left(x_{1}, \cdots, x_{m}\right)\) 可微分的充分条件是: 偏导数 \(\frac{\partial f}{\partial x_{1}}, \cdots\), \(\frac{\partial f}{\partial x_{m}}\) 均存在, 并且连续。 一阶实矩阵微分为、 矩阵的辨识提供了一种有效的方法。

标量函数 \(f(\boldsymbol{x})\) 的梯度矩阵辩识

考虑标量函数 \(f(x)\), 其变元向量 \(\boldsymbol{x}=\left[x_{1}, \cdots, x_{m}\right]^{\mathrm{T}} \in \mathbb{R}^{m}\) 。将变元向量的元素 \(x_{1}, \cdots, x_{m}\) 视为 \(m\) 个变量, 利用式 (3.2.14), 可以直接引出以向量为变元的标量函数 \(f(\boldsymbol{x})\) 的全微分表达式 \[ \begin{aligned} \mathrm{d} f(\boldsymbol{x}) &=\frac{\partial f(\boldsymbol{x})}{\partial x_{1}} \mathrm{~d} x_{1}+\cdots+\frac{\partial f(\boldsymbol{x})}{\partial x_{m}} \mathrm{~d} x_{m} \\ &=\left[\frac{\partial f(\boldsymbol{x})}{\partial x_{1}}, \cdots, \frac{\partial f(\boldsymbol{x})}{\partial x_{m}}\right]\left[\begin{array}{c} \mathrm{d} x_{1} \\ \vdots \\ \mathrm{d} x_{m} \end{array}\right] \end{aligned} \]

或简记为 \[ \mathrm{d} f(\boldsymbol{x})=\frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}^{\mathrm{T}}} \mathrm{d} \boldsymbol{x}=(\mathrm{d} \boldsymbol{x})^{\mathrm{T}} \frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}} \] 式中 \[ \begin{gathered} \frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}^{\mathrm{T}}}=\left[\frac{\partial f(\boldsymbol{x})}{\partial x_{1}}, \cdots, \frac{\partial f(\boldsymbol{x})}{\partial x_{m}}\right] \\ \mathrm{d} \boldsymbol{x}=\left[\mathrm{d} x_{1}, \cdots, \mathrm{d} x_{m}\right]^{\mathrm{T}} \end{gathered} \] 式 (3.2.16) 称为微分法则的向量形式, 它启示了一个重要的应用: 若令 \(\boldsymbol{A}=\frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x^T}}\), 则一阶微分可以写作迹函数形式 (第二个等号应用标量的迹等于本身) \[ \mathrm{d} f(\boldsymbol{x})=\frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}^{\mathrm{T}}} \mathrm{d} \boldsymbol{x}=\operatorname{tr}(\boldsymbol{A} \mathrm{d} \boldsymbol{x}) \] 这表明, 标量函数 \(f(x)\) 的梯度矩阵与微分矩阵之间存在等价关系 \[ \mathrm{d} f(\boldsymbol{x})=\operatorname{tr}(\boldsymbol{A} \mathrm{d} \boldsymbol{x}) \Longleftrightarrow \nabla_{\boldsymbol{x}} f(\boldsymbol{x})=\frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}}=\boldsymbol{A^T} \] 换言之, 若函数 \(f(\boldsymbol{x})\) 的微分可以写作 \(\mathrm{d} f(\boldsymbol{x})=\operatorname{tr}(\boldsymbol{A} \mathrm{d} \boldsymbol{x})\), 则矩阵 \(\boldsymbol{A}\) 就是函数 \(f(\boldsymbol{x})\) 关于 其变元向量 \(\boldsymbol{x}\) 的 梯度矩阵的转置。

因此,我们得到了一个计算梯度矩阵的有效方法:

  1. 求实值函数 \(f(\boldsymbol{X})\) 相对于变元矩阵 \(\boldsymbol{X}\) 的矩阵微分 \(\mathrm{d} f(\boldsymbol{X})\), 并将其表示成规范形式 \(\mathrm{d} f(\boldsymbol{X})=\operatorname{tr}(\boldsymbol{A} \mathrm{d} \boldsymbol{X})\);
  2. 实值函数 \(f(\boldsymbol{X})\) 相对于 \(m \times n\) 变元矩阵 \(\boldsymbol{X}\) 的梯度矩阵等于 \(\boldsymbol{A^T}\)

此时,考察二次型函数 \(f(x)=x^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}\), 其中, \(\boldsymbol{A}\) 是一个正方的常数矩阵。首先将标量函数写成迹函数形式, 然后利用矩阵乘积的微分易得 \[ \begin{aligned} \mathrm{d} f(\boldsymbol{x}) &=\mathrm{d}\left(\operatorname{tr}\left(\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}\right)\right)=\operatorname{tr}\left[(\mathrm{d} \boldsymbol{x})^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}+\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \mathrm{d} \boldsymbol{x}\right] \\ &=\operatorname{tr}\left(\mathrm{d} \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}\right)+\operatorname{tr}\left(\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \mathrm{d} \boldsymbol{x}\right)\\ &=\operatorname{tr}\left([\mathrm{d} \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}]^{\mathrm{T}}\right)+\operatorname{tr}\left(\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \mathrm{d} \boldsymbol{x}\right)\\ &=\operatorname{tr}\left(\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A}^{\mathrm{T}} \mathrm{d} \boldsymbol{x}\right)+\operatorname{tr}\left(\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \mathrm{d} \boldsymbol{x}\right) \\ &=\operatorname{tr}\left(\boldsymbol{x}^{\mathrm{T}}\left(\boldsymbol{A}+\boldsymbol{A}^{\mathrm{T}}\right) \mathrm{d} \boldsymbol{x}\right) \end{aligned} \]

直接得二次型函数 \(f(\boldsymbol{x})=\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}\) 关于变元向量 \(\boldsymbol{x}\) 的梯度向量为 \[ \nabla_{\boldsymbol{x}}\left(\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}\right)=\frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}}{\partial \boldsymbol{x}}=\left[\boldsymbol{x}^{\mathrm{T}}\left(\boldsymbol{A}+\boldsymbol{A}^{\mathrm{T}}\right)\right]^{\mathrm{T}}=\left(\boldsymbol{A}^{\mathrm{T}}+\boldsymbol{A}\right) \boldsymbol{x} \] 显然, 若 \(\boldsymbol{A}\) 为对称矩阵, 则 \(\nabla_{\boldsymbol{x}}\left(\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}\right)=\frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}}{\partial \boldsymbol{x}}=2 \boldsymbol{A} \boldsymbol{x}\)

矩阵的标量函数:迹

根据的性质,我们可以得到:

  1. 标量函数 \(f(\boldsymbol{X})\) 总可以写成迹函数的形式, 因为 \(f(\boldsymbol{X})=\operatorname{tr}(f(\boldsymbol{X}))\);
  2. 无论 \(\mathrm{d} \boldsymbol{X}\) 出现在迹函数内的任何位置, 总可以通过迹函数的性质 \(\operatorname{tr}[\boldsymbol{A}(\mathrm{d} \boldsymbol{X}) \boldsymbol{B}]=\) \(\operatorname{tr}(\boldsymbol{B} \boldsymbol{A} \mathrm{d} \boldsymbol{X})\), 将 \(\mathrm{d} \boldsymbol{X}\) 写到迹函数变量的最右端, 从而得到迹函数微分矩阵的规范形式。
  3. 对于 \((\mathrm{d} \boldsymbol{X})^{\mathrm{T}}\), 总可以通过迹函数的性质 \(\operatorname{tr}\left[\boldsymbol{A}(\mathrm{d} \boldsymbol{X})^{\mathrm{T}} \boldsymbol{B}\right]=\boldsymbol{\operatorname{tr}(B^{T}dXA^T)}=\operatorname{tr}\left(\boldsymbol{A}^{\mathrm{T}} \boldsymbol{B}^{\mathrm{T}} \mathrm{d} \boldsymbol{X}\right)\) , 写成迹函数微分矩阵的规范形式。

推导正规方程组

回到我们的问题,这里我们将最小二乘法的损失函数展开,得到 \[ J(\boldsymbol{\beta})=\boldsymbol{(X \beta-y)^{\mathrm{T}}(X \beta-y)}=\boldsymbol{(\beta^{\mathrm{T}} X^{\mathrm{T}} -y^{\mathrm{T}})(X \beta-y)}=\boldsymbol{\beta}^{\mathrm{T}} \boldsymbol{X}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{\beta}-\boldsymbol{\beta}^{\mathrm{T}} \boldsymbol{X}^{\mathrm{T}} \boldsymbol{y}-\boldsymbol{y}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{\beta}+\boldsymbol{y}^{\mathrm{T}} \boldsymbol{y} \] 注意到,\(\boldsymbol{\beta}^{\mathrm{T}} \boldsymbol{X}^{\mathrm{T}} \boldsymbol{y} \text{ 与 } \boldsymbol{y}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{\beta}\) 二者互为转置,并且二者均为标量,因此二者相等。损失函数写为 \[ J(\boldsymbol{\beta})=\boldsymbol{(X \beta-y)^{\mathrm{T}}(X \beta-y)}=\boldsymbol{\beta}^{\mathrm{T}} \boldsymbol{X}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{\beta}-2\boldsymbol{y}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{\beta}+\boldsymbol{y}^{\mathrm{T}} \boldsymbol{y} \]

\(J(\boldsymbol{\beta})\) 相对于 \(\boldsymbol{\beta}\) 的导数, 并令其结果等于零

求梯度向量的过程需要用到上面提到的矩阵微分的性质。 \[ \mathrm{d} f(\boldsymbol{\beta})=\operatorname{tr}(\boldsymbol{X} \mathrm{d} \boldsymbol{\beta}) \Longleftrightarrow \nabla_{\boldsymbol{\beta}} f(\boldsymbol{\beta})=\boldsymbol{X}^{\mathrm{T}} \]

证明过程如下(这里我们先求解两个子式的微分,注意到这两个子式也是标量,最后一个子式 \(\boldsymbol{y^T y}\) 不是关于 \(\boldsymbol{\beta}\) 的式子,因此其微分矩阵为 \(\boldsymbol{0}\) 矩阵) \[ \begin{aligned} &d\left(\boldsymbol{\beta^{T} X^{T} X \beta}\right)\\ &=d\left(\operatorname{tr}\left(\boldsymbol{\beta^{T} X^{T} X \beta}\right)\right)\\ &=\operatorname{tr}\left(d\left(\boldsymbol{\beta^{T} X^{T} X \beta}\right)\right)\\ &=\operatorname{tr}\left(d\boldsymbol{\left(\beta^{T}\right) X^{T} X \beta}+\boldsymbol{\beta^{T} X^{T} X d(\beta)}\right)\\ &=\operatorname{tr}\left(\boldsymbol{d\left(\beta^{T}\right) X^{T} X \beta}\right)+\operatorname{tr}\left(\boldsymbol{\beta^{T} X^{T} X d(\beta)}\right)\\ &=\operatorname{tr}\left(\boldsymbol{\beta^{T} X^{T} X d(\beta)}\right)+\operatorname{tr}\left(\boldsymbol{\beta^{T} X^{T} X d(\beta)}\right)\\ &=\operatorname{tr}\left(2\boldsymbol{ \beta^{T} X^{T} X d(\beta)}\right) \end{aligned} \]

\[ \begin{aligned} & d\left(\boldsymbol{y^{T} X \beta}\right) \\ =& d\left(t r\left(\boldsymbol{y^{T} X \beta}\right)\right) \\ =& \operatorname{tr}\left(d\left(\boldsymbol{y^{T} X \beta}\right)\right) \\ =& \operatorname{tr}\left(\boldsymbol{y^{T} X d(\beta)}\right) \end{aligned} \]

\[ \begin{aligned} \boldsymbol{d \beta} &=d\left(\boldsymbol{\beta^{T} X^{T} X \beta-2 y^{T} X \beta+y^{T} y}\right) \\ &=d\left(\boldsymbol{\beta^{T} X^{T} X \beta}\right)-2 d \left(\boldsymbol{y^{T} X \beta}\right) \\ &=\operatorname{tr}\left(2 \boldsymbol{\beta^{T} X^{T} X d(\beta)}\right)-2 tr\left(\boldsymbol{y^{T} X d(\beta)}\right) \\ &=\operatorname{tr}\left(\left(\boldsymbol{2 \beta^{T} X^{T} X-2 y^{T} X}\right) d(\boldsymbol{\beta})\right) \end{aligned} \]

\[ \begin{aligned} \boldsymbol{\nabla_{\beta} \beta} &=\boldsymbol{\left(2 \beta^{T} X^{T} X-2 y^{T} X\right)^{T}} \\ &=2\boldsymbol{\left(X^{T} X \beta-X^{T} y\right)} \end{aligned} \]

也就是说, 解 \(\boldsymbol{\beta}\) 必然满足 \[ \boldsymbol{X}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{\beta}=\boldsymbol{X}^{\mathrm{T}} \boldsymbol{y} \] 这就是线性回归的正规方程组

如果 \(\boldsymbol{X^{\mathrm{T}} X}\) 非奇异, 该方程有唯一的解 \[ \boldsymbol{\beta}_{\mathrm{LS}}=\left(\boldsymbol{X}^{\mathrm{T}} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\mathrm{T}} \boldsymbol{y} \]

最小二乘估计值的性质

这一部分内容来自于《linear models in statistics》5

如果 \(E(\mathbf{y})=\mathbf{X} \boldsymbol{\beta}\) ,那么最小二乘估计值 \(\hat{\boldsymbol{\beta}}\)\(\boldsymbol{\beta}\) 的无偏估计值。

证明: \[ \begin{aligned} E(\hat{\boldsymbol{\beta}}) &=E\left[\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{y}\right] \\ &=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} E(\mathbf{y}) \\ &=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{X} \boldsymbol{\beta} \\ &=\boldsymbol{\beta} . \end{aligned} \] 如果 \(\operatorname{cov}(\mathbf{y})=\sigma^{2} \mathbf{I}\) ,那么最小二乘估计值 \(\hat{\boldsymbol{\beta}}\) 的协方差矩阵为 \(\sigma^{2}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}\)

证明: \[ \begin{aligned} \operatorname{cov}(\hat{\boldsymbol{\beta}}) &=\operatorname{cov}\left[\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{y}\right] \\ &=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \operatorname{cov}(\mathbf{y})\left[\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}\right]^{\prime} \\ &=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}\left(\sigma^{2} \mathbf{I}\right) \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \\ &=\sigma^{2}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \\ &=\sigma^{2}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \end{aligned} \] 定理(Gauss – Markov Theorem),如果同时满足 \(E(\mathbf{y})=\mathbf{X} \boldsymbol{\beta}\)\(\operatorname{cov}(\mathbf{y})=\sigma^{2} \mathbf{I}\) ,那么最小二乘估计值 \(\hat{\boldsymbol{\beta}_{j}}\) , \(j=0,1, \ldots, k\) 在所有的线性无偏估计值中具有最小的方差

证明:

注意这里的“线性”指的是 \(\hat{\boldsymbol{\beta}_{j}}\) 是关于 \(\mathbf{y}\) 的线性变换。假设我们有一个 \(\boldsymbol{\beta}\) 的无偏线性估计值为 \(\boldsymbol{Ay}\) ,我们想要找到一个矩阵 \(\boldsymbol{A}\) 使得 \(\boldsymbol{Ay}\) 的方差最小。

因为 \(\boldsymbol{Ay}\) 无偏,我们有 \(E(\mathbf{A y})=\boldsymbol{\beta}\) 。根据假设 \(E(\mathbf{y})=\mathbf{X} \boldsymbol{\beta}\) ,我们可以将其写为 \[ E(\mathbf{A y})=\mathbf{A} E(\mathbf{y})=\mathbf{A} \mathbf{X} \boldsymbol{\beta}=\boldsymbol{\beta} \] 该式需要对所有可能的 \(\boldsymbol{\beta}\) 均成立(这句话我理解了半天, \(\boldsymbol{\beta}\) 是由未知参数组成的向量,既然是未知的参数,那就是说每个参数可能是任意实数,因此 \(\boldsymbol{\beta}\) 可以是欧几里得空间中任意一个点),那么存在 \[ \mathbf{A} \mathbf{X}=\mathbf{I} \]

\(\boldsymbol{Ay}\) 的协方差矩阵为 \[ \operatorname{cov}(\mathbf{A y})=\mathbf{A}\left(\sigma^{2} \mathbf{I}\right) \mathbf{A}^{\prime}=\sigma^{2} \mathbf{A} \mathbf{A}^{\prime} \] \(\hat{\boldsymbol{\beta}}_{j}\) 的方差为协方差矩阵的对角线元素,因此我们需要挑一个矩阵 \(\mathbf{A}\), 使得 $ ^{}$ 矩阵的对角线元素最小。为了让其与最小二乘估计值有关系,我们将其写作 \[ \begin{aligned} \mathbf{A} \mathbf{A}^{\prime} &= \left[\mathbf{A}-\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}\right]\left[\mathbf{A}-\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}\right]^{\prime} \\ &= \left[(\mathbf{A}-\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} )+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}\right]\left[(\mathbf{A}^{\prime}- \mathbf{X} \left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}) + \mathbf{X} \left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}\right] \\ &=\left[\mathbf{A}-\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}\right]\left[\mathbf{A}-\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}\right]^{\prime} + \left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} & \because \mathbf{A} \mathbf{X}=\mathbf{I} \\ \end{aligned} \]

因为 \(\left[\mathbf{A}-\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}\right]\left[\mathbf{A}-\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}\right]^{\prime}\) 是一个半正定矩阵(\(\mathbf{AA'}\) 是一个半正定矩阵 ),根据半正定矩阵的性质,其对角线元素大于等于 0 。因此,只有当我们设 \(\mathbf{A}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}\) (此时仍满足 \(\mathbf{A X}=\mathbf{I}\) )时,上式的对角线元素才均为 0 ,此时 \(\boldsymbol{\beta}\) 的最小方差估计值为 \[ \mathbf{A y}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{y} \] 该式正好就是最小二乘估计值。

Gauss – Markov 定理有时也表述为,如果满足 \(E(\mathbf{y})=\mathbf{X} \boldsymbol{\beta}\)\(\operatorname{cov}(\mathbf{y})=\sigma^{2} \mathbf{I}\) ,那么最小二乘估计值 \(\hat{\boldsymbol{\beta}_{j}}\) , \(j=0,1, \ldots, k\) 称为最佳线性无偏估计值 (best linear unbiased estimators, BLUE)。这里最佳指最小方差,线性指 \(\hat{\boldsymbol{\beta}_{j}}\)\(\mathbf{y}\) 的线性函数。

Gauss – Markov 定理的最显著特点是其对任意分布均成立,这里并不要求满足正态分布。但是如果满足上面的两个假设,那么此时最小二乘估计值可能有偏,或者其真实方差大于估计方差。

Gauss – Markov 定理可以轻松推广到 \(\hat{\boldsymbol{\beta}_{j}}\) 的线性组合。

推论:如果满足 \(E(\mathbf{y})=\mathbf{X} \boldsymbol{\beta}\)\(\operatorname{cov}(\mathbf{y})=\sigma^{2} \mathbf{I}\) ,那么 \(\mathbf{a}^{\prime} \boldsymbol{\beta}\) 的最小线性无偏估计值就是 \(\mathbf{a}^{\prime} \hat{\boldsymbol{\beta}}\),其中 \(\hat{\boldsymbol{\beta}}\) 是最小二乘估计值。

最小二乘估计值的最后一个性质是,特征的范围 (scale of x) 不会影响预测结果,存在以下定理。

定理:如果 \(\mathbf{x}=\left(1, x_{1}, \ldots, x_{k}\right)^{\prime}\)\(\mathbf{z}=\left(1, c_{1} x_{1}, \ldots, c_{k} x_{k}\right)^{\prime}\) ,那么 \(\hat{y} = \hat{\boldsymbol{\beta}}^{\prime} \mathbf{x}=\hat{\boldsymbol{\beta}}_{z}^{\prime} \mathbf{z}\) ,其中 \(\hat{\boldsymbol{\beta}}_{z}^{\prime}\)\(y\) 关于 \(\mathbf{z}\) 的最小二乘估计参数。

我们可以将 \(\mathbf{z}\) 重写为 \(\mathbf{z}=\mathbf{D} \mathbf{x}\) ,其中 \(\mathbf{D}=\operatorname{diag}\left(1, c_{1}, c_{2}, \ldots, c_{k}\right)\) 。那么存在 \(\mathbf{Z}=\mathbf{X D}\) ,我们将其带入到 \(\hat{\boldsymbol{\beta}}_{z}=\left(\mathbf{Z}^{\prime} \mathbf{Z}\right)^{-1} \mathbf{Z}^{\prime} \mathbf{y}\) ,得到 \[ \begin{aligned} \hat{\boldsymbol{\beta}}_{z} &=\left(\mathbf{Z}^{\prime} \mathbf{Z}\right)^{-1} \mathbf{Z}^{\prime} \mathbf{y}\\ &=\left[(\mathbf{X D})^{\prime}(\mathbf{X D})\right]^{-1}(\mathbf{X D})^{\prime} \mathbf{y} \\ &=\left[\mathbf{D}(\mathbf{X}^{\prime}\mathbf{X})\mathbf{D})\right]^{-1} \mathbf{D}\mathbf{X}^{\prime} \mathbf{y} \\ &=\mathbf{D}^{-1}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} (\mathbf{D}^{-1} \mathbf{D}) \mathbf{X}^{\prime} \mathbf{y} \\ &=\mathbf{D}^{-1}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{y} \\ &=\mathbf{D}^{-1} \hat{\boldsymbol{\beta}} \end{aligned} \] 其中 \(\hat{\boldsymbol{\beta}}\)\(y\) 关于 \(\mathbf{x}\) 的最小二乘估计参数。那么 \[ \hat{\boldsymbol{\beta}}_{z}^{\prime} \mathbf{z}=\left(\mathbf{D}^{-1} \hat{\boldsymbol{\beta}}\right)^{\prime} \mathbf{D} \mathbf{x}=\hat{\boldsymbol{\beta}}^{\prime} \mathbf{x} \] 得证。

接下来,我们可以将这个定理推广到任何关于 \(\mathbf{x}\) 变量的满秩线性变换中。

推论:当新变量是关于 \(\mathbf{x}\) 变量的满秩线性变换时,预测值 \(\hat{y}\) 不变

证明:我们可以将 \(\mathbf{x}\) 变量的满秩线性变换表示为 \[ \mathbf{Z}=\mathbf{X K}=\left(\mathbf{j}, \mathbf{X}_{1}\right)\left(\begin{array}{cc} 1 & \mathbf{0}^{\prime} \\ \mathbf{0} & \mathbf{K}_{1} \end{array}\right)=\left(\mathbf{j}+\mathbf{X}_{1} \mathbf{0}, \mathbf{j} \mathbf{0}^{\prime}+\mathbf{X}_{1} \mathbf{K}_{1}\right)=\left(\mathbf{j}, \mathbf{X}_{1} \mathbf{K}_{1}\right) \] 其中 \(\mathbf{K}_{1}\) 是一个非奇异矩阵(\(\mathbf{X}_{1} \mathbf{K}_{1}\) 的每一列新特征均是 \(\mathbf{X}_{1}\) 的列的线性组合),并且 \[ \mathbf{X}_{1}=\left(\begin{array}{cccc} x_{11} & x_{12} & \ldots & x_{1 k} \\ x_{21} & x_{22} & \ldots & x_{2 k} \\ \vdots & \vdots & & \vdots \\ x_{n 1} & x_{n 2} & \ldots & x_{n k} \end{array}\right) \] 这里我们将 \(\mathbf{X}\)\(\mathbf{K}\) 拆分开,这样 \(\mathbf{X}_{1}\) 只包含 \(x\) 变量。此时 \(\hat{\boldsymbol{\beta}}_{z}\) 变成 \[ \begin{aligned} \hat{\boldsymbol{\beta}}_{z}&=\left(\mathbf{Z}^{\prime} \mathbf{Z}\right)^{-1} \mathbf{Z}^{\prime} \mathbf{y} \\ &= ((\mathbf{X K})'\mathbf{X K})^{-1} (\mathbf{X K})' \mathbf{y}\\ &= (\mathbf{K}' \mathbf{X}' \mathbf{X K})^{-1} \mathbf{K}' \mathbf{X}' \mathbf{y}\\ &= \mathbf{K}^{-1} (\mathbf{X}' \mathbf{X})^{-1} \mathbf{K}^{-T} \mathbf{K}' \mathbf{X}' \mathbf{y}\\ &= \mathbf{K}^{-1} (\mathbf{X}' \mathbf{X})^{-1} \mathbf{X}' \mathbf{y}\\ &=\mathbf{K}^{-1} \hat{\boldsymbol{\beta}_{x}}\\ \end{aligned} \] 因此,我们有 \[ \hat{y}=\hat{\boldsymbol{\beta}}_{z}^{\prime} \mathbf{z}=\hat{\boldsymbol{\beta}}_{\mathbf{x}}^{\prime}\mathbf{x} \] 其中 \(\mathbf{z}=\mathbf{K}^{\prime} \mathbf{x}\) (这里有一点绕,主要在于 \(\mathbf{x}\)\(\mathbf{X}\) 的一行组成的列向量,不是 \(\mathbf{X}\) 的一列,违背了一般的向量符号表示方法,也就是这里 \(\mathbf{x}\) 是表示某一个观测值的特征组成的列向量。根据 \(\mathbf{Z}=\mathbf{X K}\) ,有 \(\mathbf{Z}'=\mathbf{K' X'}\) ,因此 \(\mathbf{z}=\mathbf{K}^{\prime} \mathbf{x}\) )。

得证。

除了预测值 \(\hat{y}\) ,样本方差 \(s^{2}\) 同样不受特征的范围 (scale of x) 的影响。


  1. 张贤达《矩阵分析与应用(第二版)》↩︎

  2. 张贤达《矩阵分析与应用(第二版)》↩︎

  3. https://zhuanlan.zhihu.com/p/305171795↩︎

  4. 张贤达《矩阵分析与应用(第二版)》↩︎

  5. 《linear models in statistics》↩︎

  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2019-2026 Vincere Zhou
  • 访问人数: | 浏览次数:

请我喝杯茶吧~

支付宝
微信