本文最后更新于：2024年2月23日中午

学习笔记 Beta分布与狄利克雷分布

在调研Evidential Deep Learning（EDL）的时候了解到EDL是基于Dirichlet分布的，由于这方面数学知识不够，所以额外调查了关于Beta分布、Dirichlet分布的知识，汇总为本学习笔记。

总的来说，Beta分布和Dirichlet分布都是一种“分布的分布”（a distribution on probability distribution）。

Beta分布

棒球的例子

在棒球运动中，运动员的击球率常常作为一个评价标准，击球率的定义是：击中的球数除以击球的总数。现在有一个新运动员小明，我们希望对小明的击球率做一个估计，但是小明在比赛中只打了一个球，并且击中了，直接计算击球率就是100%。显然，这是不合理的，但是应该怎么进行估计呢？

对于这个问题，我们可以使用beta分布来进行建模。根据统计，0.266是正常水平的击球率，大部分选手的击球率在0.215到0.360之间。下图是对Beta分布的两个参数分别取81和219的概率密度函数（PDF），其均值为0.27，分布主要落在[0.2,0.35]，符合棒球运动中的统计规律。

估计小明的击球率的方法就是 $\text{Beta}(\alpha+\text{hits},\beta+\text{misses})$ ，即令 $\alpha$ 加上击中次数、 $\beta$ 加上未击中次数，结果能得到下面这个图：

这里可以看到，小明击球率很可能在0.27左右，显然是一个比100%更合理的数字。但是很遗憾的是，和棒球运动整体统计的曲线没什么变化，因为击中一次实在是太少了，但是随着小明继续击球，我们会得到新的曲线：

此时，直接估计的击球率是 $\frac{100}{100+200}=0.333$ ，但是根据beta分布的均值则是 $\frac{\alpha}{\alpha+\beta}=\frac{181}{181+419}=0.302$ （如何求均值后面再说，这里只说结论）。这里的不一样是因为，我们设置的初始的 $\alpha=81,\beta=219$ 的参数表示我们给予了“小明在击球前已经成功81次、失败219次”的先验信息。

整体来看，小明的击球应该服从一个参数为 $\theta$ 的二项分布，而这里的beta分布是一个能够帮助我们建模 $\theta$ 的分布，所以beta分布是一种“分布的分布”。当你不知道一个东西的具体概率是多少时，beta分布能给出所有概率出现的可能性的大小。

公式推导

Beta的PDF

根据二项分布，小明总共击 $n$ 个球，击中 $x$ 个的概率是 $p(x)=\pmatrix{n \\ x} \theta^x(1-\theta)^{n-x}$ ，这里 $\theta$ 就是击球的概率，我们以其为变量，将刚才的式子表示为 $\theta$ 的参数：

\begin{align} f(\theta) &\propto \theta^a(1-\theta)^b \\ &= k \cdot \theta^a(1-\theta)^b \end{align}

其中， $a,b$ 是常数，表示成功（击中）和失败（未击中）的次数， $\theta$ 是 $[0,1]$ 范围内的概率。为了 $f(\theta)$ 是概率，需要乘一个 $k$ 来标准化，这个 $k$ 就是：

k=\frac{1}{\int^1_0 \theta^a(1-\theta)^b d\theta}

即除以 $\theta^a(1-\theta)^b$ 曲线下的面积。

令 $\alpha=a+1,\beta=b+1$ ，则Beta分布的PDF为

f(\theta;\alpha,\beta)=\frac{\theta^{\alpha-1}(1-\theta)^{\beta-1}} {\int^1_0 \theta^{\alpha-1}(1-\theta)^{\beta-1} d\theta} =\frac{\theta^{\alpha-1}(1-\theta)^{\beta-1}} {\text{B}(\alpha,\beta)}

回到第一个式子，我们可以发现其实 $\pmatrix{n \\ x}=C^x_n=\frac{n!}{x!(n-x)!}$ ，所以 $B(\alpha,\beta)=\frac{(\alpha-1)!(\beta-1)!}{(\alpha+\beta-2)!}$ ，而 $\Gamma$ (gamma)函数是阶乘的推广，所以Beta的PDF还可以表示为：

f(\theta;\alpha,\beta)=\frac{\Gamma(\alpha+\beta)} {\Gamma(\alpha)\Gamma(\beta)} \theta^{\alpha-1}(1-\theta)^{\beta-1}

其中， $\Gamma$ 函数函数为：

\Gamma(z)=\int^\infty_0 t^{z-1}e^{-t}dt=(z-1)!

Beta的统计性质

期望
$\begin{align} E(X) &= \int_0^1 x f(x;\alpha,\beta) dx \\ &= \int_0^1 x \frac{x^{\alpha-1}(1-x)^{\beta-1}}{\text{B}(\alpha,\beta)} dx \\ &= \frac{1}{\text{B}(\alpha,\beta)} \int_0^1 x^{\textcolor{red}{\alpha}}(1-x)^{\beta-1} dx \\ &= \frac{\text{B}(\alpha+1,\beta)}{\text{B}(\alpha,\beta)} \\ &= \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} \cdot \frac{\Gamma(\alpha+1)\Gamma(\beta)}{\Gamma(\alpha+\beta+1)} \\ &= \frac{\alpha}{\alpha+\beta} \\ \end{align}$
最后一步根据阶乘的思路化简即可
二阶矩
$\begin{align} E(X^2) &= \int_0^1 \textcolor{red}{x^2} f(x;\alpha,\beta) dx \\ &= \int_0^1 x^2 \frac{x^{\alpha-1}(1-x)^{\beta-1}}{\text{B}(\alpha,\beta)} dx \\ &= \frac{1}{\text{B}(\alpha,\beta)} \int_0^1 x^{\textcolor{red}{\alpha+1}}(1-x)^{\beta-1} dx \\ &= \frac{\text{B}(\alpha+2,\beta)}{\text{B}(\alpha,\beta)} \\ &= \frac{\alpha (\alpha+1)}{(\alpha+\beta)(\alpha+\beta+1)} \\ \end{align}$
方差
$\begin{align} D(X) &= E(X^2)-E^2(X) \\ &= \frac{\alpha \beta}{(\alpha+\beta)^2(\alpha+\beta+1)} \end{align}$