在机器学习中,常见的概率分布有:均匀分布,伯努利分布,二项式分布,分类分布,多项式分布,Beta分布,狄利克雷分布,Gamma分布,指数分布,高斯分布,正态分布,卡方分布,学生-t分布,Wishart 分布等。本文介绍概率分布及其特点,以及它们之间的关系。
各种概率分布之间的关系
-
conjugate
(共轭)表示两者之间为 conjugate distributions(共轭分布)关系.在 贝叶斯概率论 中,如果 后验分布 $p(\theta\mid x)$ 和先验分布 $p(\theta)$在同一 概率分布族 中,那么先验和后验分布称为共轭分布,先验分布被称为 似然函数 的 共轭先验。
-
Multi-Class
表示随机变量的数量大于2。 -
N Times
表示我们还考虑先验概率P(X)。
概率分布及其特点
$1$. 均匀分布(连续) Python Code
- $\displaystyle\text{U}(x\mid a,b)=\frac{1}{b-a}$.
- 均匀分布在[a,b]上具有相同的概率值,最简单的概率分布。
$2$. 伯努利分布(离散) Python Code
- $\text{Bern}(x\mid\mu)=\mu^x(1-\mu)^{1-x}$.
- ⼆元变量$x \in {0,1}$ 的分布,例如,抛硬币的结果。
- 参数 $\mu \in [0,1]$ 控制了 $x=1$ 的概率。
- 伯努利分布是⼆项分布对于单⼀观测的特殊情况。它对于 $\mu$ 的共轭先验是Beta分布。
$3$. 二项式分布(离散) Python Code
- $\displaystyle\text{Bin}(m\mid N,\mu)= \binom{N}{m}\mu^m(1-\mu)^{N-m}$, 其中,$\displaystyle\binom{N}{m} = \frac{N!}{(N-m)!m!}$.
- ⼆项分布给出了来⾃伯努利分布的 $N$ 个样本中观察到 $m$ 次 $x = 1$ 的概率。
- ⼆项分布中 $N = 1$ 这⼀特殊情形被称为伯努利分布。
- 对于⼤的 $N$ 值,⼆项分布近似于⾼斯分布。
- $\mu$ 的共轭先验是Beta分布。
$4$. 分类分布/多伯努利分布(离散) Python Code
- $\mathrm{Cat}(x\mid\boldsymbol{\mu})=\prod_{k=1}^{C}\mu_c^{\mathbb{I}(x=k)},x\in{1,…,K}$ 0-1编码.
- 多伯努利也称为分类分布,是一种维度大于2的伯努利分布。
$5$. 多项式分布(离散) Python Code
- 多项式分布是⼆项分布对于多元变量的推⼴, 给出了⼀个具有 $K$ 个状态的离散变量在总计 $N$ 次观测中处于状态 $k$ 的次数 $m_k$ 的分布。
- $\displaystyle\mathrm{Mult}(m_1,m_2,\dots,m_K \mid \boldsymbol{\mu},N)= \binom{N}{m_1m_2\dots m_K}\prod_{k=1}^{K} \mu_k^{m_k}$.
- 其中,$\displaystyle\binom{N}{m_1m_2\dots m_K} = \frac{N!}{m_1!m_2!\dots m_K!}$,指 $N$ 个相同的物体中的 $m_k$ 个放到箱⼦ $k$ 中的⽅案总数。
- 参数 ${\mu_k}$ 的共轭先验是狄利克雷分布。
$6$. Beta分布(连续) Python Code
- $\displaystyle\mathrm{Beta}(\mu\mid a,b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}$.
- 其中 $a$ 和 $b$ 可以分别表⽰为$x=1$和$x=0$的观测的有效先验数量。
- 对于$a = b = 1$的情形, 它就简化成了均匀分布。
- Beta分布是伯努利分布的共轭先验。
$7$. 狄利克雷分布(连续) Python Code
- $\displaystyle\mathrm{Dir}(\boldsymbol{\mu\mid \alpha}) = \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_K)} \prod_{k=1}^{K} \mu_k^{\alpha_k-1}$.
- 狄利克雷分布是 $K$ 个随机变量的多变量分布,是Beta分布的推⼴。
- 这种情况下,参数 $\alpha_k$ 是 $K$ 维⼆元观测向量 $x$ 对应值的有效观测数量。
- $K=2$ 时变成Beta分布。
- 狄利克雷分布是多项式分布的共轭先验。
$8$. Gamma分布(连续) Python Code
- $\displaystyle\text{Gam}(\lambda\mid a,b)=\frac{1}{\Gamma(a)}b^a\lambda^{a-1}\exp{-b\lambda}$
- $\displaystyle \frac{\text{Gam}(a,1)}{\text{Gam}(a,1) + \text{Gam}(b,1)}$ 转化为 $\text{Beta}(a,b)$.
- 指数分布和卡方分布是Gamma分布的特例。
$9$. 指数分布(连续) Python Code
- $\displaystyle \text{Exp}(x\mid\lambda )=\lambda e^{-\lambda x},x\geq 0$
- 指数分布是 Gamma分布当a为1时的特殊情况。
$10$. 高斯分布(连续) Python Code
- 一元高斯分布
\(\displaystyle \mathcal{N}(x\mid\mu,\sigma^2)=\frac{1}{(2\pi\sigma)^{1/2}}\exp \left\{-\frac{1}{2\sigma^2}(x-\mu)^2\right\}\) - 多元高斯分布($D$维)
\(\displaystyle\mathcal{N}(\boldsymbol{x} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma})=\frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{\mid \boldsymbol{\Sigma}\mid ^{\frac{1}{2}}} \exp \left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right\}\) - 一元⾼斯分布的均值$\mu$的共轭先验是⾼斯分布,精度$\sigma^{-1}$的共轭先验是Gamma分布.
- 多元⾼斯分布的均值 $\boldsymbol{\mu}$ 的共轭先验仍然是⾼斯分布,精度 $\boldsymbol{\Lambda}$ 的共轭先验是⼀个Wishart分布,$(\boldsymbol{\mu},\boldsymbol{\Lambda})$ 的共轭先验是⾼斯-Wishart分布 \(p(\mu,\Lambda\mid \mu_0,\beta,W,\nu) = \mathcal{N}(\mu\mid \mu_0,(\beta\Lambda)^{-1})\mathcal{W}(\Lambda\mid W,\nu)\)
$11$. 正态分布(连续) Python Code
- $\displaystyle \mathcal{N}(x)=\frac{1}{(2\pi)^{1/2}}\exp \left(-\frac{x^2}{2}\right)$
- 正态分布是标准化的高斯分布,平均值为0,标准差为1。
$12$. 卡方分布(连续) Python Code
- $\displaystyle \chi^2(x\mid k)=\frac{x^{\frac{k}{2}-1}}{2^{\frac{k}{2}}\Gamma({\frac{k}{2}})} \exp\left(-\frac{x}{2}\right)$.
- 具有k个自由度的卡方分布是k个独立标准正态随机变量的平方和的分布。
- 卡方分布是Beta分布的特例。
$13$. 学生-t分布(连续) Python Code
- 在⼀元变量的形式下,学⽣t分布可以通过下列⽅式获得:拿出⼀元⾼斯分布的精度的共轭先验,然后把精度变量积分出来。因此这个分布可以看成⽆限多个有着相同 $\mu$,但 $\sigma^2$ 不同的⾼斯分布的混合。
\(\displaystyle \text{St}(x\mid\mu,\lambda,\nu) = \frac{\Gamma(\frac{\nu}{2}+\frac{1}{2})}{\Gamma(\frac{\nu}{2})}\left(\frac{\lambda}{\pi\nu}\right)^{\frac{1}{2}}\left[ 1+ \frac{\lambda(x-\mu)^2}{\nu}\right]^{-\frac{\nu}{2}-\frac{1}{2}}\) - 在D维变量的形式下,学⽣t分布是将多元⾼斯的精度矩阵关于共轭 Wishart 先验积分的结果,形式为
\(\text{St}(\boldsymbol{x}\mid\boldsymbol{\mu},\boldsymbol{\Lambda},\nu) = \frac{\Gamma(\frac{\nu}{2}+\frac{1}{2})}{\Gamma(\frac{\nu}{2})}\frac{\mid\boldsymbol{\Lambda}\mid^{\frac{1}{2}}}{(\pi\nu)^{\frac{D}{2}}}\left[ 1+ \frac{(\boldsymbol{x}-\boldsymbol{\mu})^T\boldsymbol{\Lambda}(\boldsymbol{x}-\boldsymbol{\mu})}{\nu}\right]^{-\frac{\nu}{2}-\frac{D}{2}}\) - 与高斯分布一样,t分布是对称的钟形分布,但通常有着⽐⾼斯分布更长的“尾巴”,这意味着它更容易产生远低于平均值的值。
- 学⽣t分布提供了对⾼斯分布泛化的⼀种形式,这种分布的最⼤似然参数值对离群点⽐较鲁棒。
- $\nu > 0$ 被称为分布的⾃由度数量。
- 对于 $\nu = 1$ 的情况,t分布变为了柯西分布(Cauchy distribution)。
- 在极限 $\nu \rightarrow\infty $的情况下,t分布 $\text{St}(x\mid\mu,\lambda,\nu)$ 变成了⾼斯分布 $\mathcal{N}(x\mid\mu,\lambda-1)$。
$14$. Wishart 分布(连续)
- $\mathcal{W}(\Lambda\mid W, \nu) = B(W, \nu)\mid \Lambda\mid ^{(\nu-D-1)/2}\exp\left(-\frac{1}{2}\text{Tr}(W^{-1}\Lambda)\right)$
- 其中,归一化系数为 $B(W,\nu) = \mid W\mid ^{-\nu/2}\left(2^{\nu D/2}\pi^{D(D-1)/4}\prod\limits_{i=1}^D\Gamma\left(\frac{\nu+1-i}{2}\right)\right)^{-1}$