Unbiased variance estimator Naïve Bayes (朴素贝叶斯无偏估计)

Mathematical notation

: 极大似然法得到的均值

: 极大似然法得到的高斯方差

: 真实均值

: 真实高斯方差

假设有N个独立同分布(i.i.d.)的samples, $𝐷 = x^{1}, … ,x^{N}$

对上式两边同时取$ln$

此处取对数有两个好处:

  • 对数是定义域上的单调函数,便于求极值
  • 避免overflow,因为过小的值做连乘可能会导致溢出,取对数操作之后,将乘法转换为加法,可以避免这个问题

由于$ln p(D|\mu, \sigma)$是concave function,所以可以用求导的方法取极值。

但是现在的$\mu$和$\sigma$和真实值存在偏差。

Why MLE for the variance of a Gaussian is biased?

我们在计算中得到的方差,并不是真正的高斯分布的方差。那么,对高斯分布的方差的极大似然估计为什么存在偏差呢?为了消除偏差,为什么要除以N-1,而不是N-2, N-3呢?

首先,我们证明为什么存在偏差。

Get unbiased variance estimator

那么怎样才能消除偏差,做到无偏估计呢?

将上述两式带入$E(\sigma_{MLE}^{2})$, 得

所以,由上式可得,真正的高斯分布的方差为

全文完 : )

Reference

[1]. CS 6375, Machine Learning Course notes. Dr. Nicholas Ruozzi