为什么样本方差分母为n-1

在学习吴恩达老师的机器学习课上,碰到了一个旧知识点:在统计上,样本方差的分母应该是 n-1 ,这样才是对总体方差的无偏估计。在网上查了很多资料,根据自己的理解总结了一下,水平有限,如有不当之处敬请指正。

问题

首先我们要理清楚问题是什么,假设我们拿到了一组数据,样本数为 n,我们认为这些数据服从独立同分布的正态分布,我们想知道它们服从的正态分布的均值和方差是多少,或者说想估计它们服从的正态分布的均值和方差。

最大似然估计

这种从已有数据推断参数的事情,第一时间我想的就是最大似然估计。首先,一维正态分布的概率密度函数长这样: \[ f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) \] 由于不同的样本服从独立同分布,因此所有样本的联合概率密度函数如下: \[ \begin{aligned} f(\textbf{x}|μ,\sigma^{2}) &=\prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) \\ &=\left(\frac{1}{\sqrt{2 \pi}\sigma}\right)^{n} \exp \left(-\sum_{i=1}^{n}\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) \end{aligned} \] 因此,我们要求出现这组数据或更极端数据出现的似然值最大,也就是求使上式的联合概率密度函数最大的一组参数。我们对联合概率密度函数采用对数函数,可以简化运算: \[ \ln f\left(\mathbf{x} \mid \mu, \sigma^{2}\right)=-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}-\frac{n}{2} \ln \sigma^{2}-\frac{n}{2} \ln (2 \pi) \] 为了方便查看,这里我们将 σ2 替换为 v 。 \[ \ln f\left(\mathbf{x} \mid \mu, v\right)=-\frac{1}{2 v} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}-\frac{n}{2} \ln v-\frac{n}{2} \ln (2 \pi) \]

这里要求该式的极值,想到了对该式求偏导,计算两个偏导等于 0 时的参数值。首先对参数 μ 求偏导。 \[ \begin{aligned} \frac{\partial f}{\partial \mu} &=-\frac{1}{2 v} \cdot 2 \sum_{i=1}^{n}\left(x_{i}-\mu\right)(-1) \\ &=\frac{1}{v}\left(\sum_{i=1}^{n} X_{i}-n \mu\right) \end{aligned} \] 求该式为 0 ,得到参数 μ 的最大似然值如下,就是样本均值(下标 ML 表示最大似然估计值,下图) \[ \mu_{ML}=\frac{1}{n} \sum_{i=1}^{n} X_{i} \] 再对参数 v (即σ2) 求偏导 \[ \frac{\partial f}{\partial v}=\frac{1}{2} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2} v^{-2}-\frac{n}{2} v^{-1} \] 求该式为 0 ,得到参数 v (即σ2) 的最大似然值如下。 \[ \sigma^{2}_{ML} =\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2} \] 易证,最大似然估计的两个参数值均为无偏估计,证明如下: \[ \begin{aligned} E(\mu_{ML}) &=E\left(\frac{1}{n} \sum_{i=1}^{n} x_{i}\right) \\ &=\frac{1}{n} \sum_{i=1}^{n} E\left(x_{i}\right) \\ &=\frac{1}{n} n \mu \\ &=\mu \\ E\left(\sigma^{2}_{ML}\right) &=E\left(\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-u\right)^{2}\right) \\ &=\frac{1}{n} \sum_{i=1}^{n} E\left(x_{i}-u\right)^{2} \\ &=\frac{1}{n} n \sigma^{2} \\ &=\sigma^{2} \end{aligned} \] 因此,最大似然估计的方差是无偏的,没有问题。但是注意,这里得到的方差估计值的公式中含有总体均值 μ。看我们的问题,我们并不知道总体均值,我们上面得到了总体均值的最大似然估计值就是样本均值,我们能不能直接将总体均值替换为样本均值呢?就是下式: \[ \hat{\sigma^{2}} =\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{X}\right)^{2} \]

这里我们可以证明这样做得到的估计量会低于极大似然估计值,是一个有偏估计量。

证明分母为n的样本方差会低于极大似然估计值

我们这里构建一个函数 f(a) \[ f(a) =\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-a\right)^{2} \]

求导得到 \[ \begin{aligned} f'(a) &=\frac{2}{n} \sum_{i=1}^{n}\left(x_{i}-a\right)(-1) \\ &=\frac{2}{n}\left(n a-\sum_{i=1}^{n} x_{i}\right) \end{aligned} \] 当导数为 0 时,a 等于 \[ a=\frac{1}{n} \sum_{i=1}^{n} x_{i}=\bar{X} \] 易知,当 a 等于样本均值时,该式最小。因此,下式成立 \[ \frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2} \leq \frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2} \] 证明分母为n的样本方差会低估总体方差估计值。

第二种证明方法

\[ \begin{aligned} \sigma^{2}_{ML} &=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-u\right)^{2} \\ &=\frac{1}{n} \sum_{i=1}^{n}\left(\left(x_{i}-\bar{x}\right)+(\bar{x}-u)\right)^{2} \\ &=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}+\frac{2}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)(\bar{x}-u)+(\bar{x}-u)^{2} \\ &=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}+\frac{2}{n}(\bar{x}-u)\left(\sum_{i=1}^{n} x_{i}-n \bar{x}\right)+(\bar{x}-u)^{2} \\ &=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}+(\bar{x}-u)^{2} \\ & \geqslant \frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \end{aligned} \]

样本方差推导

具体小多少,可以通过求期望计算一下1 \[ \begin{aligned} E\left(\frac{1}{n} \sum_{i=1}^{n} \left(X_{i}-\bar{X}\right)^{2} \right) &=\frac{1}{n} \sum_{i=1}^{n} E\left(\left(X_{i}-\bar{X}\right)^{2}\right)=\frac{1}{n} E\left(\sum_{i=1}^{n}\left(X_{i}-\mu+\mu-\bar{X}\right)^{2}\right) \\ &=\frac{1}{n} E\left(\sum_{i=1}^{n}\left(\left(X_{i}-\mu\right)^{2}-2\left(X_{i}-\mu\right)(\bar{X}-\mu)+(\bar{X}-\mu)^{2}\right)\right) \\ &=\frac{1}{n} E\left(\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-2 \sum_{i=1}^{n}\left(X_{i}-\mu\right)(\bar{X}-\mu)+n(\bar{X}-\mu)^{2}\right) \\ &=\frac{1}{n} E\left(\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-2 n(\bar{X}-\mu)(\bar{X}-\mu)+n(\bar{X}-\mu)^{2}\right) \\ &=\frac{1}{n} E\left(\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-n(\bar{X}-\mu)^{2}\right) \\ &=\frac{1}{n}\left(\sum_{i=1}^{n} E\left(\left(X_{i}-\mu\right)^{2}\right)-n E\left((\bar{X}-\mu)^{2}\right)\right) \\ &=\frac{1}{n}(n \operatorname{Var}(X)-n \operatorname{Var}(\bar{X})) \\ &=\operatorname{Var}(X)-\operatorname{Var}(\bar{X}) \end{aligned} \] 其中, \(\operatorname{Var}(\bar{X})\) 证明如下。首先方差存在下面的性质

If \(X_{1}, \ldots, X_{n}\) are independent and \(a_{1}, \ldots, a_{n}\) are constants, then

\[ \mathbb{V}\left(\sum_{i=1}^{n} a_{i} X_{i}\right)=\sum_{i=1}^{n} a_{i}^{2} \mathbb{V}\left(X_{i}\right) \]

所以,我们得到 \[ \begin{aligned} & \operatorname{Var}(\bar{X}) \\ =& \operatorname{var}\left(\frac{1}{n} \sum_{i=1}^{n} x_{i}\right) \\ =& \frac{1}{n^{2}} \sum_{i=1}^{n} \operatorname{var}\left(x_{i}\right) \\ =& \frac{1}{n^{2}} n \operatorname{var}(x) \\ =& \frac{\sigma^{2}}{n} \end{aligned} \] 所以,

\[ \begin{aligned} E\left(\frac{1}{n} \sum_{i=1}^{n} \left(X_{i}-\bar{X}\right)^{2} \right)&=\operatorname{Var}(X)-\operatorname{Var}(\bar{X})=\sigma^{2}-\frac{\sigma^{2}}{n}=\frac{n-1}{n} \sigma^{2} \end{aligned} \]

因此,为了避免使用有偏差的估计值,略加转换,我们得到下式: \[ S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2} \]

第二种证明方法

我感觉像上面一样,直接从 \(\mathrm{E}(\sigma^{2}_{ML})\) 去推公式,结果更直观一点。首先我们需要拆分一下 \(\sigma^{2}_{ML}\)

\[ \sigma^{2}_{ML} =\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}+(\bar{x}-u)^{2} \\ \]

同时对左右两侧求期望,得到: \[ \begin{aligned} \mathrm{E}(\sigma^{2}_{ML})&=\mathrm{E}\left(\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}+(\bar{x}-u)^{2}\right) \\ &=\mathrm{E}\left(\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\right) + \mathrm{E}\left((\bar{x}-u)^{2}\right) \\ &=\mathrm{E}\left(\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\right) + \operatorname{Var}(\bar{X}) \\ &=\mathrm{E}\left(\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\right) + \frac{\sigma^{2}}{n} \\ \end{aligned} \] 左侧 \(\sigma^{2}_{ML}\) 期望为总体方差 \(\sigma^2\)\(\because \mathrm{E}(\sigma^{2}_{ML}) = \sigma^{2}\) ) ,因此 \[ \begin{aligned} \sigma^{2} &=\mathrm{E}\left(\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\right) + \frac{\sigma^{2}}{n} \\ \end{aligned} \] 所以 \[ E\left(\frac{1}{n} \sum_{i=1}^{n} \left(X_{i}-\bar{X}\right)^{2} \right)=\sigma^{2}-\frac{\sigma^{2}}{n}=\frac{n-1}{n} \sigma^{2} \]


  1. https://www.zhihu.com/question/20099757↩︎

  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2019-2026 Vincere Zhou
  • 访问人数: | 浏览次数:

请我喝杯茶吧~

支付宝
微信