为什么最大似然估计使用概率密度

在看极大似然估计的公式时,一个问题一直盘旋在我的心中,为什么对于连续变量采用概率密度函数呢?

极大似然估计概述

直接把维基百科的话复制过来如下[1]

是离散分布, 即是在参数为 时观测到这一采样的概率。**若其是连续分布, 则为 联合分布的概率密度函数在观测值处的取值。**一旦我们获得 , 我们就能求得一个关于 的估计。最大似然估计会寻找关于 的最可能的值 (即, 在所
注意

  • 这裡的似然函数是指 不变时, 关于 的一个函数。
  • 最大似然估计不一定存在,也不一定唯一。

问题

我同时查看了很多知乎上的回答,基本上所有人提到 连续变量时,则似然函数采用联合概率密度值。就仅仅是这么一笔带过,没有人给我任何解释为什么这里用概率密度。但是,所有人在解释极大似然的含义时,均称极大似然函数在参数为 时这些样本点出现的概率或可能性。那么我的问题来了,极大似然为什么用概率密度函数表示这些点出现的概率?

学过概率论都知道,第一,概率密度不是概率,概率密度函数的积分才是概率,你怎么指着概率密度说是概率呢?;第二,连续变量在某一点的概率为0,所以你说连续变量出现在某一个点的概率高低根本毫无意义啊。

我知道似然函数定义就是这样,但我觉得如果有人只告诉我定义就是这样,这不能让我信服。

我一开始有一个误解,我为了说通似然函数采用概率密度这件事,我将其理解成 P值的概念,即出现比这个残差相同或更极端情况的概率。比如正态分布,画出图像如下(图片来自网络,侵删)。我们可以看到出现这个残差或更极端情况的概率,与该残差的概率密度函数的值的大小成正比。于是似然函数中直接使用概率密度貌似就可以理解了。但是我慢慢发现,这个理解不对。

1

新的理解

后面我查看Fisher在1922年发表的论文[2],这好像也是第一次提论最大似然的地方。水平有限,看不太懂,但我还是找到了 Fisher 对于最大似然的阐述:

1

我不是很理解第二个公式是怎么得到的,但从第一个公式我们可以清楚地看到,对于连续变量 极大似然需要最大化的是在该点的相邻区域的出现概率

这里仍然用一元正态分布的图来直观理解一下,需要计算的相邻区域的概率即为下图阴影区域,根据微积分,其计算公式为 ,因此 ,因此, ,所以似然函数可以直接使用(联合)概率密度函数的值。

1


  1. 1.https://zh.wikipedia.org/wiki/%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%E8%AE%A1
  2. 2.https://royalsocietypublishing.org/doi/10.1098/rsta.1922.0009
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2019-2024 Vincere Zhou
  • 访问人数: | 浏览次数:

请我喝杯茶吧~

支付宝
微信