概率论与信息论


3.3 概率分布

3.3.1 离散型变量和概率分布律函数

离散型变量的概率分布可以用概率分布律函数(probability mass function,PMF)来描述。

3.3.2 连续型变量和概率密度函数

连续性随机变量的分布可以用概率密度函数(probability desity function,PDF)来描述。

给出一个连续型随机变量的PDF的例子,考虑实数区间上的均匀分布。我们可以通过函数来实现,其中a和b是区间的端点满足a>b。符号“;”表示“以什么为参数”;我们把x作为函数的自变量,a和b作为定义函数的参数。

3.4 边缘概率

有时候,我们知道了一组变量的联合概率分布,想要了解其中一个自己的概率分布。这种定义在子集上的概率分布被称为边缘概率分布(marginal probability distribution)。

例如,假设有离散型随机变量x和y,并且我们知道。我们可以依据下面的求和法则(sum rule)来计算:

对于连续型变量,我们需要用积分代替去和:

3.5 条件概率

很多情况下,我们感兴趣的是某个事件,在给定其他事件发生时,出现的概率。这种这种概率我们叫做条件概率。我们将给定发生的条件概率即为。这个条件概率可以通过下面的公式计算:

3.6 条件概率的链式法则

任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式:

这个规则被称为概率的链式法则(chain rule)或者乘法法则(product rule)。它可以直接从公式3.5条件概率定义中得到。

3.7 独立性和条件独立性

相互独立的(independent):

条件独立的(conditionally independ):

3.13 信息论

信息量应该满足基本的一下几条:

为了满足 以上三个性质,我们定义一个事件自信息(self-information)为

我们用log表示自然对数,底数为e。因此我们定义的单位是奈特(nats)。一奈特是以的概率观测到一个事件时获得的信息量。

自信息只处理单个的输出。我们可以用香农熵(Shannon entropy)来对整个概率分布中的不确定性总量进行量化:

也记做。换言之,一个分布的香农熵是指遵循这个分布事件所产生的期望信息总量。

如果我们对于同一个随机变量x有两个单独的概率分布,我们可以使用KL散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异:

在离散变量的情况下,KL散度衡量的是,当我们使用一种被设计成能够使得代理分布Q产生的消息的长度最小的编码时,发送包含有管理分布P产生的符号消息时,所需的额外信息量(如果我们使用底数为2的对数时信息量用比特衡量,但在机器学习中,我们通常用奈特和自然对数。)

KL散度具有非负性,但是它不是对称的。

一个和KL散度密切联系的量是交叉熵(cross-entropy),它和KL散度很像但是缺少左边一项:

针对Q最小化互信息等价于最小化KL散度,因为Q并不参与被省略的那一项。