Bias Variance Trade-Off

2021-06-09

理论学习 / 线性模型

字数统计: 717 | 阅读时长≈ 2 分钟

模型创建的思想，很大程度上取决于 Bias-Variance Trade-off 。

资料

An Introduction to Statistical Learning，下文简称 ISL

https://zhuanlan.zhihu.com/p/38853908

http://scott.fortmann-roe.com/docs/BiasVariance.html

Split Test Error

对于一个特定的 x₀ 值，它的 test MSE 期望值可以拆分为三部分：方差(the variance) , 偏差（bias）平方，和随机残差。 \[ E\left(y_{0}-\hat{f}\left(x_{0}\right)\right)^{2}=\operatorname{Var}\left(\hat{f}\left(x_{0}\right)\right)+\left[\operatorname{Bias}\left(\hat{f}\left(x_{0}\right)\right)\right]^{2}+\operatorname{Var}(\epsilon) \] test MSE 期望值的意思是，如果我们不停地从很多的训练集中拟合模型，然后每次都计算 x0 的 test MSE 的均值。

上面的公式中，随机残差项是不可减少的，为了最小化 expected test error ，我们需要同时做到 low variance 和 low bias 。

Variance

方差指的是如果用了一个不一样的 training set ，拟合出来的模型的变化幅度。因为使用的 training set 不同，拟合出来的模型参数肯定不同，但是理想情况下差距不会很大。

Bias

Bias是用所有可能的训练数据集训练出的所有模型的输出的平均值与真实模型的输出值之间的差异。

就是说，如果我们不停地拟合模型，所有拟合模型的均值和真实模型的差异。公式如下： \[ \operatorname{bias}(\boldsymbol{x})=\bar{f}(\boldsymbol{x})-y \] 举个例子，如果我们用 1000 个 training set 拟合 1000 次线性模型。对这1000次模型的参数求均值，得到一个最终的模型，然后预测 test data 中 x 的预测值，减去真值，这个差值就可以视为 bias。

这1000次拟合的模型参数的方差，就是方差 variance 。

用图形来解释

假设红色的靶心区域是学习算法完美的正确预测值，蓝色点为训练数据集所训练出的模型对样本的预测值，当我们从靶心逐渐往外移动时，预测效果逐渐变差。

bias 就是预测值均值与靶心的举例，variance 就是预测值的离散程度。

上图的个人解释：左上图是理想情况，右上图是过拟合（模型过于复杂，比如采用KNN算法），左下图是欠拟合（比如采用线性模型预测非线性关系），右下图是完全失败的模型（都很差）。

Variance-Bias Trade-off

模型越复杂，bias 会越来越小，variance 会越来越大。但是模型过于复杂，可能发生过拟合现象（bias 很小，但是 variance，拟合出来的模型对于其他数据的预测效果很差）。

然后总的 test error 会随着模型复杂度呈现一个 U 字型的变化。这就说明选择一个合适复杂度的模型很重要。

打赏

版权声明： 本博客所有文章除特别声明外，著作权归作者所有。转载请注明出处！