矩阵微分与正规方程组推导

在看吴恩达老师CS229课程时,看吴老师推导线性回归的正规方程组)时,感觉不是很系统,而且引入了一个新的概念,矩阵求导。这部分内容之前上育种课的时候就感觉云里雾里,这次花了些时间,把这一部分内容搞懂了。

问题描述

线性回归可以用向量的形式描述为下式(向量表示为加粗的小写字母,默认为竖向量;矩阵表示为加粗的大写字母,下同)

根据最小二乘法,代价函数定义为 (假设样本数为 ,参数数目为 , 使用向量外积转为向量乘法形式):

我们需要寻找使得代价函数(平方误差和或均方误差)最小的一组常数 ,这是一个优化问题(求一个函数的极值:极大值或极小值)。

在高中就学过,一个函数的极值往往是其导数为0的位置,因此我们需要求使得代价函数的导数为0(梯度为 向量)的 值,而这就牵涉到了矩阵微分或矩阵求导。(实际上,一阶导数为0的点仅仅是一个驻点或称平稳点,一阶导数为0仅仅是全局极小点的必要不充分条件。但是最小二乘的代价函数是一个凸函数,因此一阶导为0的点就是全局极小点,这些概念具体可见张贤达老师的《矩阵分析与应用》[1]。)

所以,这里需要先了解矩阵微分的一些概念和知识,这一部分内容同样见于张贤达老师的书[1],知乎上也有人进行了一些梳理[2]

矩阵微分

梯度矩阵定义

首先,我们将线性代数中的函数依据其输入输出划分为下面这些类型,输入可以为向量或矩阵,输出可以分为标量、向量和矩阵(函数定义就是一个映射关系,线性代数里的函数仅仅是将输入输出换成了向量和矩阵,比如矩阵乘法 就是一个映射/函数)。

1

这里只考虑输入为一个向量的标量函数 )。

矩阵微分有两种定义方式,一种称为 Jacobian 矩阵,一种称为梯度矩阵,二者的内容均为偏导数,仅仅是结果的布局不同,互为转置矩阵。这里只说梯度矩阵,更详细的内容见张贤达老师的书。

实值标量函数 的梯度向量 列向量, 定义为 (输入为一个向量,输出为一个标量)

梯度矩阵性质

梯度矩阵计算

那么我们如何计算一个梯度函数的梯度向量或梯度矩阵呢?你可以直接通过定义拆分成元素级别来计算,

例如求实值函数 的梯度矩阵。由于 , 故可求出梯度向量 的第 个分量为:

立即得梯度向量

但是这样做很麻烦,而已有的函数可能不好拆解成元素级别的式子,也不符合线性代数一向简洁的特点。

我们可以通过一个矩阵微分的性质来求解梯度矩阵,下面就简单介绍一下[1]。在介绍矩阵微分之前,需要掌握一些矩阵的迹的性质

矩阵的迹

定义 $ n \times n$ 矩阵 的对角元素之和称为 的迹 (trace), 记作 , 即有

非正方矩阵无迹的定义

下面是矩阵的迹满足的一些性质。

(1) 若 均为 矩阵, 则
(2) 若 均为 矩阵, 并且 为常数, 则 。特别地, 若 , 则
(3) 矩阵 的转置、复数共轭和复共轭转置的迹分别为
(4) 若 , 则

证明,运用矩阵乘法,存在下式

观察一下,得知二者相等,得证

(5) 若 是一个 矩阵, 则 零矩阵

证明

因此,
(6)

证明:这里只证明前半部分,后半部分我直接脑补出来了。

(7) 迹等于特征值之和, 即
(8) 分块矩阵的迹满足

式中,
(9) 对于任何正整数 , 有

灵活运用迹的等式 , 可以得到一些常用的重要结果。例如, 矩阵 的迹相等, 且有

又如, 在迹的等式 中, 若分别令 , , 则有

类似地, 若分别令 , 又有

利用上式还易知, 若矩阵 均为 矩阵, 且 非奇异, 则

一阶矩阵微分

一阶实矩阵微分

矩阵微分用符号 表示, 定义为
例 考虑标量函数 的微分, 得

即有
例 考虑矩阵乘积 的微分矩阵, 有

从而得
以上举例表明, 实矩阵微分具有以下两个基本性质:
转置 矩阵转置的微分等于矩阵微分的转置, 即有
线性
下面汇总了矩阵微分的常用计算公式 。
(1) 常数矩阵的微分矩阵为零矩阵, 即
(2) 常数 与矩阵 的乘积的微分矩阵
(3) 矩阵转置的微分矩阵等于原矩阵的微分矩阵的转置, 即
(4) 两个矩阵函数的和 (差) 的微分矩阵为
(5) 常数矩阵与矩阵乘积的微分矩阵为
(6) 矩阵函数 乘积的微分矩阵为

(7) 矩阵 的迹的矩阵微分 等于矩阵微分 的迹 , 即

特别地, 矩阵函数 的迹的矩阵微分为

标量函数的梯度矩阵辨识

在多变量函数的微积分中, 称多变量函数 在点 可微分, 若 的全改变量可以写作

式中, 分别与 无关, 而 表示偏改变量 , 的二阶及高阶项。这时,函数 的偏导数 一定存在,

并且

全改变量 的线性主部

称为多变量函数 的全微分, 记为

多变量函数 在点 可微分的充分条件是: 偏导数 , 均存在, 并且连续。
一阶实矩阵微分为、 矩阵的辨识提供了一种有效的方法。

标量函数 的梯度矩阵辩识

考虑标量函数 , 其变元向量 。将变元向量的元素 视为 个变量, 利用式 (3.2.14), 可以直接引出以向量为变元的标量函数 的全微分表达式

或简记为

式中

式 (3.2.16) 称为微分法则的向量形式, 它启示了一个重要的应用: 若令 , 则一阶微分可以写作迹函数形式 (第二个等号应用标量的迹等于本身)

这表明, 标量函数 的梯度矩阵与微分矩阵之间存在等价关系

换言之, 若函数 的微分可以写作 , 则矩阵 就是函数 关于 其变元向量 的 梯度矩阵的转置。

因此,我们得到了一个计算梯度矩阵的有效方法:

(1) 求实值函数 相对于变元矩阵 的矩阵微分 , 并将其表示成规范形式 ;
(2) 实值函数 相对于 变元矩阵 的梯度矩阵等于

此时,考察二次型函数 , 其中, 是一个正方的常数矩阵。首先将标量函数写成迹函数形式, 然后利用矩阵乘积的微分易得

直接得二次型函数 关于变元向量 的梯度向量为

显然, 若 为对称矩阵, 则

矩阵的标量函数:迹

根据的性质,我们可以得到:

(1) 标量函数 总可以写成迹函数的形式, 因为 ;
(2) 无论 出现在迹函数内的任何位置, 总可以通过迹函数的性质 , 将 写到迹函数变量的最右端, 从而得到迹函数微分矩阵的规范形式。
(3) 对于 , 总可以通过迹函数的性质 , 写成迹函数微分矩阵的规范形式。

推导正规方程组

回到我们的问题,这里我们将最小二乘法的损失函数展开,得到

注意到, 二者互为转置,并且二者均为标量,因此二者相等。损失函数写为

相对于 的导数, 并令其结果等于零

求梯度向量的过程需要用到上面提到的矩阵微分的性质。

证明过程如下(这里我们先求解两个子式的微分,注意到这两个子式也是标量,最后一个子式 不是关于 的式子,因此其微分矩阵为 矩阵)

也就是说, 解 必然满足

这就是线性回归的正规方程组

如果 非奇异, 该方程有唯一的解

最小二乘估计值的性质

这一部分内容来自于《linear models in statistics》[3]

如果 ,那么最小二乘估计值 的无偏估计值。

证明:

如果 ,那么最小二乘估计值 的协方差矩阵为

证明:

定理(Gauss – Markov Theorem),如果同时满足 ,那么最小二乘估计值 , 在所有的线性无偏估计值中具有最小的方差

证明:

注意这里的“线性”指的是 是关于 的线性变换。假设我们有一个 的无偏线性估计值为 ,我们想要找到一个矩阵 使得 的方差最小。

因为 无偏,我们有 。根据假设 ,我们可以将其写为

该式需要对所有可能的 均成立(这句话我理解了半天, 是由未知参数组成的向量,既然是未知的参数,那就是说每个参数可能是任意实数,因此 可以是欧几里得空间中任意一个点),那么存在

的协方差矩阵为

的方差为协方差矩阵的对角线元素,因此我们需要挑一个矩阵 , 使得 $ \mathbf{A} \mathbf{A}^{\prime}$ 矩阵的对角线元素最小。为了让其与最小二乘估计值有关系,我们将其写作

因为 是一个半正定矩阵( 是一个半正定矩阵 ),根据半正定矩阵的性质,其对角线元素大于等于 0 。因此,只有当我们设 (此时仍满足 )时,上式的对角线元素才均为 0 ,此时 的最小方差估计值为

该式正好就是最小二乘估计值。

Gauss – Markov 定理有时也表述为,如果满足 ,那么最小二乘估计值 , 称为最佳线性无偏估计值 (best linear unbiased estimators, BLUE)。这里最佳指最小方差,线性指 的线性函数。

Gauss – Markov 定理的最显著特点是其对任意分布均成立,这里并不要求满足正态分布。但是如果满足上面的两个假设,那么此时最小二乘估计值可能有偏,或者其真实方差大于估计方差。

Gauss – Markov 定理可以轻松推广到 的线性组合。

推论:如果满足 ,那么 的最小线性无偏估计值就是 ,其中 是最小二乘估计值。

最小二乘估计值的最后一个性质是,特征的范围 (scale of x) 不会影响预测结果,存在以下定理。

定理:如果 ,那么 ,其中 关于 的最小二乘估计参数。

我们可以将 重写为 ,其中 。那么存在 ,我们将其带入到 ,得到

其中 关于 的最小二乘估计参数。那么

得证。

接下来,我们可以将这个定理推广到任何关于 变量的满秩线性变换中。

推论:当新变量是关于 变量的满秩线性变换时,预测值 不变

证明:我们可以将 变量的满秩线性变换表示为

其中 是一个非奇异矩阵( 的每一列新特征均是 的列的线性组合),并且

这里我们将 拆分开,这样 只包含 变量。此时 变成

因此,我们有

其中 (这里有一点绕,主要在于 的一行组成的列向量,不是 的一列,违背了一般的向量符号表示方法,也就是这里 是表示某一个观测值的特征组成的列向量。根据 ,有 ,因此 )。

得证。

除了预测值 ,样本方差 同样不受特征的范围 (scale of x) 的影响。


  1. 1.张贤达《矩阵分析与应用(第二版)》
  2. 2.https://zhuanlan.zhihu.com/p/305171795
  3. 3.《linear models in statistics》
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2019-2022 Vincere Zhou
  • 访问人数: | 浏览次数:

请我喝杯茶吧~

支付宝
微信