最小二乘的几何含义

我不知道有多少人认为自己对最小二乘法的思想理解不够清晰,其实如果从几何的角度,可以轻松掌握最小二乘的内涵。

为什么是最小二乘/最小平方?

在学习线性回归的过程中,往往一给出模型式子 $y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\cdots+\beta_{k} x_{k}+\varepsilon $ ,后面就要讲到用最小二乘来估计参数 。但是在讲到最小二乘法的时候,要么就是把最小二乘法视为“显然”的“公理”,不加解释;要么从直观上来说,我们要找一条直线与这些点的距离要足够近,也就是是残差 最小,但是由于残差有正有负,因此我们采用残差的平方,需要使得所有残差的平方和最小,然后我当时就产生了一个疑问,那为什么不用残差的绝对值呢?

后来听了吴恩达老师的课,我认识到当代价函数采用平方和的时候,对其求导很简单,因此此时求解比较容易。如果你采用残差的绝对值的形式,绝对值不是处处可导,求解比较麻烦。然后我就产生了一种想法,就是因为绝对值求解不易,所以最小二乘是为了求解方便的一种退而求其次的方法。

最近,从《linear models in statistic》和 《linear algebra with applications》这两本书中,我发现从几何角度去看,最小二乘法其实是一种很自然的估计参数的方法。

最小二乘的参数估计值

根据我之前的博客 矩阵微分与正规方程组推导 ,对于多元线性回归模型 而言,最小二乘估计值满足正规方程组

其中 为一个 的矩阵,这里 是样本数目, 为特征数目,并且

如果 矩阵的秩为 ,那么该方程组存在唯一解

下面我们均假设 矩阵的秩为 ,即其为一个列满秩矩阵。

最小二乘的几何性质

我们现在完全从最小二乘的几何性质出发去推导这些参数估计值。这部分内容来源于 《linear models in statistic》。

参数空间、数据空间和预测空间

最小二乘的几何方法首先要从两个高维空间中说起,一个 维的空间,一个 维的空间。未知参数向量 可以视为 维的空间中的一个点,其坐标轴分别为 个回归系数 ,因此我们可以称这个空间为参数空间 (parameter space) 。相似地,数据向量 可以视为在 维向量空间中的一个点,其坐标轴分别为 个观测值,我们称这个空间为数据空间 (data space) 。

多元线性回归的 矩阵可以写为下面的形式

矩阵的每一列都是 维向量,因此每一列都是数据空间中的一个点。因为我们假设 矩阵的秩为 ,因此其列向量是线性无关的, 矩阵的列向量的线性组合组成了数据空间的一个子空间(易证其符合可加性和齐次性),可以写成

其中 是任意一个 的向量,因此 是参数空间中的一个向量。

我们称 矩阵的列向量的线性组合组成的子空间为预测空间 (prediction space), 矩阵的列组成了预测空间的一组基。

三个向量空间的可视化见下图

多元线性回归模型的几何解释

多元线性回归认为 。我 们的问题是 均不知道,我们可以其以几何形式表示为下图

如果我们忽略残差项 ,此时 一般是一个超定方程组(独立的方程的数目超过了未知数的数目),超定方程组是无解的,也就是说我们一般无法找到一个 ,使得 正好等于

那么,我们估计 的一个合理的几何思想是从预测空间中找到一个点 距离最近。而两个向量之间的距离我们用范数来定义为

如果我们定义残差向量 ,此时也就是需要找到一个 ,使得 最小。最小化 等价于最小化 ,而 就是残差平方和,因此此时的几何思想就是最小二乘的思想。

进一步,我们可以发现与 距离最近的点, 的一个条件是 必须与预测空间(的所有向量)正交,也就是说, 在预测空间 投影(可以通过勾股定理来证明)。更进一步,由于预测空间被 的列张成,因此我们有

该式对任意 均成立,因此我们有

由于 列满秩,因此存在唯一解

这里我们采用了纯粹的几何思想,我们同样得到了正规方程组和最小二乘估计值。

投影矩阵

因为 是任意一个 $n \times 1 $ 的 向量在 的矩阵 的列空间上的投影,其投影 的计算公式为

其中, ,我们称为投影矩阵。因此根据最小二乘法,我们得到了将任意一个向量投影到一个矩阵的列空间的一般公式。

奇异时,此时我们有 。而且根据广义逆的性质,我们知道无论 取何值,投影矩阵 均保持不变,因此投影 也保持不变。但是 有无穷多个解。

  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2019-2024 Vincere Zhou
  • 访问人数: | 浏览次数:

请我喝杯茶吧~

支付宝
微信