在看极大似然估计的公式时,一个问题一直盘旋在我的心中,为什么对于连续变量采用概率密度函数呢?
极大似然估计概述
直接把维基百科的话复制过来如下[1]:
若 是离散分布,
即是在参数为
时观测到这一采样的概率。**若其是连续分布,
则为
联合分布的概率密度函数在观测值处的取值。**一旦我们获得
, 我们就能求得一个关于
的估计。最大似然估计会寻找关于
的最可能的值 (即, 在所
注意
- 这裡的似然函数是指
不变时, 关于
的一个函数。
- 最大似然估计不一定存在,也不一定唯一。
问题
我同时查看了很多知乎上的回答,基本上所有人提到 为连续变量时,则似然函数采用联合概率密度值。就仅仅是这么一笔带过,没有人给我任何解释为什么这里用概率密度。但是,所有人在解释极大似然的含义时,均称极大似然函数在参数为
时这些样本点出现的概率或可能性。那么我的问题来了,极大似然为什么用概率密度函数表示这些点出现的概率?
学过概率论都知道,第一,概率密度不是概率,概率密度函数的积分才是概率,你怎么指着概率密度说是概率呢?;第二,连续变量在某一点的概率为0,所以你说连续变量出现在某一个点的概率高低根本毫无意义啊。
我知道似然函数定义就是这样,但我觉得如果有人只告诉我定义就是这样,这不能让我信服。
我一开始有一个误解,我为了说通似然函数采用概率密度这件事,我将其理解成 P值的概念,即出现比这个残差相同或更极端情况的概率。比如正态分布,画出图像如下(图片来自网络,侵删)。我们可以看到出现这个残差或更极端情况的概率,与该残差的概率密度函数的值的大小成正比。于是似然函数中直接使用概率密度貌似就可以理解了。但是我慢慢发现,这个理解不对。
新的理解
后面我查看Fisher在1922年发表的论文[2],这好像也是第一次提论最大似然的地方。水平有限,看不太懂,但我还是找到了 Fisher 对于最大似然的阐述:
我不是很理解第二个公式是怎么得到的,但从第一个公式我们可以清楚地看到,对于连续变量 ,极大似然需要最大化的是在该点的相邻区域的出现概率。
这里仍然用一元正态分布的图来直观理解一下,需要计算的相邻区域的概率即为下图阴影区域,根据微积分,其计算公式为 ,因此
,因此,
,所以似然函数可以直接使用(联合)概率密度函数的值。