生成模型必备数学基础——概率论基础复习

1、前言

本篇复习一些机器学习和深度学习常用的概率论的基础知识，因为我发现有挺多人对这些东西都不了解，或者说忘了，所以，本篇文章，意在唤醒你那已经交还给老师的概率论基础记忆，以为下一篇文章做基础

视频：[数学基础——生成模型必备知识-哔哩哔哩]

2、基础

2.1、随机事件

概念：在试验中可能发生也可能不发生的事件，随机事件通常用字母A，B，C等表示

例如，在抛掷一颗骰子的试验中，用A表示“点数为奇数”这一事件，则A就是一个随机事件。

P(A)表示事件A发生的概率

事件独立：若事件A的发生与事件B的发生与否无关（反过来也是一样）则A，B相互独立

有公式
生成模型必备数学基础——概率论基础复习
其中表示事件A，B同时发生的概率

条件概率：：表示事件A发生的情况下，B发生的概率

有公式
生成模型必备数学基础——概率论基础复习

乘法公式：
生成模型必备数学基础——概率论基础复习

全概率公式：将一个复杂的概率事件问题，转化为在不同原因下发生的简单事件概率的求和

设一个完备事件组生成模型必备数学基础——概率论基础复习

也就是说，事件B的发生，是由事件A引起的，所以，我们穷举所有能够影响B事件的A，一件件列举出来，计算概率，然后求和。

举个例子

比如，对于事件B——股票价格上涨，引起的原因利率。则记生成模型必备数学基础——概率论基础复习分别为利率下降和利率不变。

人们根据经验估计，利率下降的可能性为0.6，利率不变的可能性为0.4。在利率下降的情况下，股票上涨概率为0.8；在利率不变的情况下，股票上涨的概率为0.4。

总结题目给出的概率
生成模型必备数学基础——概率论基础复习
那么股票上涨的概率就可以表示为

贝叶斯公式：

设一个完备事件组生成模型必备数学基础——概率论基础复习

也就是当事件B发生，那么这件事是由生成模型必备数学基础——概率论基础复习引起的可能性有多大

2.2、随机变量

随机变量（random variable）表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关，都可以数量化，即都能用数量化的方式表达。

简单来说，随机变量，其实不是变量，而是一个函数。其能够把随机事件量化。

以抛硬币为例，硬币正反面的概率为生成模型必备数学基础——概率论基础复习，应用到随机变量的话，就会把正反面这种概念给量化，比如正面为1，反面为0。

现在，设我们的随机变量为生成模型必备数学基础——概率论基础复习

那么就有生成模型必备数学基础——概率论基础复习，

试验结果的的正、反，我们称为样本点，暂时用生成模型必备数学基础——概率论基础复习表示；其所在空间称为样本空间，记为S。于是，我们就可以有这张图

可以看到，随机变量X，其实就是将样本点生成模型必备数学基础——概率论基础复习映射到具体的值，如

设定一个集合
生成模型必备数学基础——概率论基础复习
即找到所有满足的，这些的集合记为A，该A是样本空间S的子集。

为了简单起见，我们设定
生成模型必备数学基础——概率论基础复习

2.3、离散随机变量和连续随机变量

离散随机变量：即随机变量的取值只有有限个或可数无穷个

比如上面提到的硬币，随机变量X的取值只有0跟1。

离散型随机变量通常依据概率质量函数分类，主要分为：伯努利随机变量、二项随机变量、几何随机变量和泊松随机变量。

连续随机变量：连续型随机变量即在一定区间内变量取值有无限个，或数值无法一一列举出来

比如某地区男性健康成人的身高、体重值，一批传染性肝炎患者的血清转氨酶测定值等

有几个重要的连续随机变量常常出现在概率论中，如：均匀随机变量、指数随机变量、伽马随机变量和正态随机变量。

对随机变量X=a的概率，表示为生成模型必备数学基础——概率论基础复习

后续如果我写成了，请不要奇怪，这代表里面的X取了某个值，比如上面的a，我只是懒得写出来

2.4、多维随机变量

设随机变量X，Y

离散时：
生成模型必备数学基础——概率论基础复习

连续时：
生成模型必备数学基础——概率论基础复习

2.5、概率分布

概率分布：指用于表述随机变量取值的概率规律

离散随机变量常用分布：伯努利分布

即随机变量X只有两种可能的取值

X	0	1

生成模型必备数学基础——概率论基础复习

该式子表示，在实验中，随机变量取到k的可能性是多少。比如抛硬币，1为正面，那k=1，就表示硬币为正的概率是多少

连续性随机变量常用分布：正态分布（高斯分布）

一维：

概率密度函数：
生成模型必备数学基础——概率论基础复习
其中分别代表期望跟方差。

图像

Ps：图像来自百度百科

y轴最高点对应的横坐标时均值点。

当随机变量X服从标准正态分布时，我们写作生成模型必备数学基础——概率论基础复习，也就是均值为0，方差为1。

多维：

概率密度函数
生成模型必备数学基础——概率论基础复习
其中，表示协方差矩阵

图像

Ps：图像来自百度图像

2.6、随机变量的数字特征

数学期望（均值）：用于衡量随机变量取值水平

设随机变量X的概率分布为
生成模型必备数学基础——概率论基础复习
则数学期望为

在一些情况下，会直接写成这样

因为在实际的运算中，推导的时候就很麻烦了，又何必去区分随机变量跟具体的取值呢？

而随机变量函数的数学期望公式如下
生成模型必备数学基础——概率论基础复习
其中，是关于随机变量X的函数，比如$g(X)=\log X $

性质1：常数的期望是其本身

性质2：若C是常数，则生成模型必备数学基础——概率论基础复习

性质3：生成模型必备数学基础——概率论基础复习

性质4：如果X，Y相互独立，则生成模型必备数学基础——概率论基础复习

这些性质很重要，请务必记住

一般地，人们可能会把期望写成这样
生成模型必备数学基础——概率论基础复习
意思是，我们所求数学期望的随机变量X，服从的概率分布为

有一些会写成这样
生成模型必备数学基础——概率论基础复习
表示对中括号里面，求随机变量X，Y的期望。由于中括号里面只有随机变量X，所以关于Y求期望，就相当于对常数求期望。我们来看

所以得出结论，如果期望空号里面没有Y这个随机变量，对Y求期望就相当于对常数求期望

方差：用于衡量随机变量的取值稳定性
生成模型必备数学基础——概率论基础复习
性质1：常数的方差为0

性质2：设C为常数，X为随机变量，则生成模型必备数学基础——概率论基础复习

性质3：设X，Y是两个随机变量，则
生成模型必备数学基础——概率论基础复习
当X，Y独立，有

重点记住性质1和性质2

协方差：反应随机变量之间的依赖关系

假设有随机变量，X，Y，其协方差表示为
生成模型必备数学基础——概率论基础复习

2.7、极大似然估计

简单来说，就是根据样本数据，来估计出分布中可能性最大的参数。

做法就是，求出能够让似然函数最大化的参数

具体步骤如下：

（1）写出似然函数；

（2）对似然函数取对数，并整理；

（3）关于参数求导数；

（4）解似然方程得到参数的值。

似然函数：离散的时候，就等于，而连续的时候，则是其密度函数。

其中，里面的生成模型必备数学基础——概率论基础复习表示所要求的概率分布的参数（为了表达的简便，后续我会直接省略掉）

极大似然估计有一个假设：样本之间独立同分布。

举个例子

现在，我们作一个抛硬币的实验

X	0	1

正面记作1，反面记作0。假设我们并不知道正反面的概率，分别记为生成模型必备数学基础——概率论基础复习，

我们通过做了十次实验，得到实验数据【0，1，1，1，0，0，1，1，0，1】，我记这十次实验分别是生成模型必备数学基础——概率论基础复习，整体用表示，也就是说

对这种随机变量取二值的问题，很显然就是伯努利分布。

①写出似然函数，并由于样本之间独立同分布，故而根据前面提到的运算法则，有
生成模型必备数学基础——概率论基础复习
②取对数，并整理（）

由伯努利分布可知，其概率为

所以，式（3）得

③要求对数似然最大，就对求导

④令导数得0，并求解方程组

将其整理，得

所以，我们求出了正面的概率为0.6，反面概率为0.4。我们知道，一般硬币正反的概率五五开，我们之所以求出这样的概率，是因为我们的实验样本少，当我们使用的样本足够多的时候，估计出来的参数就越准确。

2.8、信息熵

概念：描述信息源各可能事件发生的不确定性

公式如下
生成模型必备数学基础——概率论基础复习
信息熵引进案例

信息量：

当一件概率很小的事情发生了，我们往往会认为此事的信息量巨大。比如，你听说你那单身了20年的宅男舍友，竟然脱单了！其中猫腻，令人遐想。

而当一件概率很大的事情发生了，我们认为信息量比较少。比如你那当了20年的渣男舍友，突然换了一个女朋友。我们不会震惊，毕竟它是渣男。

所以，信息量的大小，与概率成反比。所以我们可以表达成这样（h(x)表示信息量）
生成模型必备数学基础——概率论基础复习
可是单单这样表达还不行，假如我们有两份不相关的事件（x，y）的时候

对于事件相互独立，在概率上，我们有：。那么同理可得：

很显然，根据式（4），①和②应该相等才对，但是此时却不相等。所以，为了保证一致性，我们把信息量表示成这样
生成模型必备数学基础——概率论基础复习
表达成这样后，我们再来算一次

这样，就保证了恒等了。