最小二乘的几何含义

2022-05-13

字数统计: 1.4k | 阅读时长≈ 4 分钟

我不知道有多少人认为自己对最小二乘法的思想理解不够清晰，其实如果从几何的角度，可以轻松掌握最小二乘的内涵。

为什么是最小二乘/最小平方？

在学习线性回归的过程中，往往一给出模型式子 $y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\cdots+\beta_{k} x_{k}+\varepsilon $ ，后面就要讲到用最小二乘来估计参数。但是在讲到最小二乘法的时候，要么就是把最小二乘法视为“显然”的“公理”，不加解释；要么从直观上来说，我们要找一条直线与这些点的距离要足够近，也就是是残差最小，但是由于残差有正有负，因此我们采用残差的平方，需要使得所有残差的平方和最小，然后我当时就产生了一个疑问，那为什么不用残差的绝对值呢？

后来听了吴恩达老师的课，我认识到当代价函数采用平方和的时候，对其求导很简单，因此此时求解比较容易。如果你采用残差的绝对值的形式，绝对值不是处处可导，求解比较麻烦。然后我就产生了一种想法，就是因为绝对值求解不易，所以最小二乘是为了求解方便的一种退而求其次的方法。

最近，从《linear models in statistic》和《linear algebra with applications》这两本书中，我发现从几何角度去看，最小二乘法其实是一种很自然的估计参数的方法。

最小二乘的参数估计值

根据我之前的博客矩阵微分与正规方程组推导，对于多元线性回归模型而言，最小二乘估计值满足正规方程组

其中为一个的矩阵，这里是样本数目，为特征数目，并且。

如果矩阵的秩为，那么该方程组存在唯一解

下面我们均假设矩阵的秩为，即其为一个列满秩矩阵。

最小二乘的几何性质

我们现在完全从最小二乘的几何性质出发去推导这些参数估计值。这部分内容来源于《linear models in statistic》。

参数空间、数据空间和预测空间

最小二乘的几何方法首先要从两个高维空间中说起，一个维的空间，一个维的空间。未知参数向量可以视为维的空间中的一个点，其坐标轴分别为个回归系数，因此我们可以称这个空间为参数空间 (parameter space) 。相似地，数据向量可以视为在维向量空间中的一个点，其坐标轴分别为个观测值，我们称这个空间为数据空间 (data space) 。