矩阵微分与正规方程组推导

2021-11-08

字数统计: 3.1k | 阅读时长≈ 10 分钟

在看吴恩达老师CS229课程时，看吴老师推导线性回归的正规方程组（）时，感觉不是很系统，而且引入了一个新的概念，矩阵求导。这部分内容之前上育种课的时候就感觉云里雾里，这次花了些时间，把这一部分内容搞懂了。

问题描述

线性回归可以用向量的形式描述为下式（向量表示为加粗的小写字母，默认为竖向量；矩阵表示为加粗的大写字母，下同）

根据最小二乘法，代价函数定义为（假设样本数为，参数数目为 , 使用向量外积转为向量乘法形式）:

我们需要寻找使得代价函数（平方误差和或均方误差）最小的一组常数，这是一个优化问题（求一个函数的极值：极大值或极小值）。

在高中就学过，一个函数的极值往往是其导数为0的位置，因此我们需要求使得代价函数的导数为0（梯度为向量）的值，而这就牵涉到了矩阵微分或矩阵求导。（实际上，一阶导数为0的点仅仅是一个驻点或称平稳点，一阶导数为0仅仅是全局极小点的必要不充分条件。但是最小二乘的代价函数是一个凸函数，因此一阶导为0的点就是全局极小点，这些概念具体可见张贤达老师的《矩阵分析与应用》^[1]。）

所以，这里需要先了解矩阵微分的一些概念和知识，这一部分内容同样见于张贤达老师的书^[1]，知乎上也有人进行了一些梳理^[2]。

矩阵微分

梯度矩阵定义

首先，我们将线性代数中的函数依据其输入输出划分为下面这些类型，输入可以为向量或矩阵，输出可以分为标量、向量和矩阵（函数定义就是一个映射关系，线性代数里的函数仅仅是将输入输出换成了向量和矩阵，比如矩阵乘法就是一个映射/函数）。

这里只考虑输入为一个向量的标量函数（）。

矩阵微分有两种定义方式，一种称为 Jacobian 矩阵，一种称为梯度矩阵，二者的内容均为偏导数，仅仅是结果的布局不同，互为转置矩阵。这里只说梯度矩阵，更详细的内容见张贤达老师的书。

实值标量函数的梯度向量为列向量, 定义为 (输入为一个向量，输出为一个标量)

梯度矩阵性质

梯度矩阵计算

那么我们如何计算一个梯度函数的梯度向量或梯度矩阵呢？你可以直接通过定义拆分成元素级别来计算，

例如求实值函数的梯度矩阵。由于 , 故可求出梯度向量的第个分量为：

立即得梯度向量

但是这样做很麻烦，而已有的函数可能不好拆解成元素级别的式子，也不符合线性代数一向简洁的特点。

我们可以通过一个矩阵微分的性质来求解梯度矩阵，下面就简单介绍一下^[1]。在介绍矩阵微分之前，需要掌握一些矩阵的迹的性质

矩阵的迹

定义 $ n \times n$ 矩阵的对角元素之和称为的迹 (trace), 记作 , 即有

非正方矩阵无迹的定义。

下面是矩阵的迹满足的一些性质。

(1) 若和均为矩阵, 则。
(2) 若和均为矩阵, 并且和为常数, 则。特别地, 若 , 则。
(3) 矩阵的转置、复数共轭和复共轭转置的迹分别为和
(4) 若 , 则。

证明，运用矩阵乘法，存在下式

观察一下，得知二者相等，得证。

(5) 若是一个矩阵, 则零矩阵。

证明

因此，
(6) 和。

证明：这里只证明前半部分，后半部分我直接脑补出来了。

设

(7) 迹等于特征值之和, 即。
(8) 分块矩阵的迹满足

式中, 。
(9) 对于任何正整数 , 有

灵活运用迹的等式 , 可以得到一些常用的重要结果。例如, 矩阵和的迹相等, 且有

又如, 在迹的等式中, 若分别令和 , , 则有

类似地, 若分别令及 , 又有

利用上式还易知, 若矩阵与均为矩阵, 且非奇异, 则

一阶矩阵微分

一阶实矩阵微分

矩阵微分用符号表示, 定义为。
例考虑标量函数的微分, 得

即有。
例考虑矩阵乘积的微分矩阵, 有

从而得。
以上举例表明, 实矩阵微分具有以下两个基本性质:
转置矩阵转置的微分等于矩阵微分的转置, 即有。
线性。
下面汇总了矩阵微分的常用计算公式。
(1) 常数矩阵的微分矩阵为零矩阵, 即。
(2) 常数与矩阵的乘积的微分矩阵。
(3) 矩阵转置的微分矩阵等于原矩阵的微分矩阵的转置, 即。
(4) 两个矩阵函数的和 (差) 的微分矩阵为。
(5) 常数矩阵与矩阵乘积的微分矩阵为。
(6) 矩阵函数乘积的微分矩阵为

(7) 矩阵的迹的矩阵微分等于矩阵微分的迹 , 即

特别地, 矩阵函数的迹的矩阵微分为。

标量函数的梯度矩阵辨识

在多变量函数的微积分中, 称多变量函数在点可微分, 若的全改变量可以写作

式中, 分别与无关, 而表示偏改变量 , 的二阶及高阶项。这时，函数的偏导数一定存在,

并且

全改变量的线性主部

称为多变量函数的全微分, 记为

多变量函数在点可微分的充分条件是: 偏导数 , 均存在, 并且连续。
一阶实矩阵微分为、矩阵的辨识提供了一种有效的方法。

标量函数的梯度矩阵辩识

考虑标量函数 , 其变元向量。将变元向量的元素视为个变量, 利用式 (3.2.14), 可以直接引出以向量为变元的标量函数的全微分表达式

或简记为

式中

式 (3.2.16) 称为微分法则的向量形式, 它启示了一个重要的应用: 若令 , 则一阶微分可以写作迹函数形式 (第二个等号应用标量的迹等于本身)

这表明, 标量函数的梯度矩阵与微分矩阵之间存在等价关系

换言之, 若函数的微分可以写作 , 则矩阵就是函数关于其变元向量的梯度矩阵的转置。

因此，我们得到了一个计算梯度矩阵的有效方法:

(1) 求实值函数相对于变元矩阵的矩阵微分 , 并将其表示成规范形式 ;
(2) 实值函数相对于变元矩阵的梯度矩阵等于。

此时，考察二次型函数 , 其中, 是一个正方的常数矩阵。首先将标量函数写成迹函数形式, 然后利用矩阵乘积的微分易得

直接得二次型函数关于变元向量的梯度向量为

显然, 若为对称矩阵, 则。

矩阵的标量函数：迹

根据迹的性质，我们可以得到：

(1) 标量函数总可以写成迹函数的形式, 因为 ;
(2) 无论出现在迹函数内的任何位置, 总可以通过迹函数的性质 , 将写到迹函数变量的最右端, 从而得到迹函数微分矩阵的规范形式。
(3) 对于 , 总可以通过迹函数的性质 , 写成迹函数微分矩阵的规范形式。

推导正规方程组

回到我们的问题，这里我们将最小二乘法的损失函数展开，得到

注意到，二者互为转置，并且二者均为标量，因此二者相等。损失函数写为

求相对于的导数, 并令其结果等于零

求梯度向量的过程需要用到上面提到的矩阵微分的性质。

证明过程如下（这里我们先求解两个子式的微分，注意到这两个子式也是标量，最后一个子式不是关于的式子，因此其微分矩阵为矩阵）

也就是说, 解必然满足

这就是线性回归的正规方程组。

如果非奇异, 该方程有唯一的解

最小二乘估计值的性质

这一部分内容来自于《linear models in statistics》^[3]

如果，那么最小二乘估计值是的无偏估计值。

证明：

如果，那么最小二乘估计值的协方差矩阵为。

证明：

定理：(Gauss – Markov Theorem)，如果同时满足，，那么最小二乘估计值 , 在所有的线性无偏估计值中具有最小的方差。

证明：

注意这里的“线性”指的是是关于的线性变换。假设我们有一个的无偏线性估计值为，我们想要找到一个矩阵使得的方差最小。

因为无偏，我们有。根据假设，我们可以将其写为

该式需要对所有可能的均成立（这句话我理解了半天，是由未知参数组成的向量，既然是未知的参数，那就是说每个参数可能是任意实数，因此可以是欧几里得空间中任意一个点），那么存在

的协方差矩阵为

的方差为协方差矩阵的对角线元素，因此我们需要挑一个矩阵 , 使得 $ \mathbf{A} \mathbf{A}^{\prime}$ 矩阵的对角线元素最小。为了让其与最小二乘估计值有关系，我们将其写作

因为是一个半正定矩阵（是一个半正定矩阵），根据半正定矩阵的性质，其对角线元素大于等于 0 。因此，只有当我们设（此时仍满足）时，上式的对角线元素才均为 0 ，此时的最小方差估计值为

该式正好就是最小二乘估计值。

Gauss – Markov 定理有时也表述为，如果满足，，那么最小二乘估计值 , 称为最佳线性无偏估计值 (best linear unbiased estimators, BLUE)。这里最佳指最小方差，线性指是的线性函数。

Gauss – Markov 定理的最显著特点是其对任意分布均成立，这里并不要求满足正态分布。但是如果满足上面的两个假设，那么此时最小二乘估计值可能有偏，或者其真实方差大于估计方差。

Gauss – Markov 定理可以轻松推广到的线性组合。

推论：如果满足，，那么的最小线性无偏估计值就是，其中是最小二乘估计值。

最小二乘估计值的最后一个性质是，特征的范围 (scale of x) 不会影响预测结果，存在以下定理。

定理：如果，，那么，其中是关于的最小二乘估计参数。

我们可以将重写为，其中。那么存在，我们将其带入到，得到

其中为关于的最小二乘估计参数。那么

得证。

接下来，我们可以将这个定理推广到任何关于变量的满秩线性变换中。

推论：当新变量是关于变量的满秩线性变换时，预测值不变

证明：我们可以将变量的满秩线性变换表示为

其中是一个非奇异矩阵（的每一列新特征均是的列的线性组合），并且

这里我们将和拆分开，这样只包含变量。此时变成

因此，我们有

其中（这里有一点绕，主要在于是的一行组成的列向量，不是的一列，违背了一般的向量符号表示方法，也就是这里是表示某一个观测值的特征组成的列向量。根据，有，因此）。

得证。

除了预测值，样本方差同样不受特征的范围 (scale of x) 的影响。

1.张贤达《矩阵分析与应用（第二版）》 ↩
2.https://zhuanlan.zhihu.com/p/305171795 ↩
3.《linear models in statistics》 ↩

版权声明： 本博客所有文章除特别声明外，著作权归作者所有。转载请注明出处！