数据挖掘模型学习(1)贝叶斯模型

文中核心内容源于对刘顺祥先生所著《从零开始学python数据分析与挖掘》学习的总结和笔者本人对相关内容查询补充。

一.学习准备1:条件概率公式与全概率公式

首先是条件概率公式:

P(B|A)=\frac{P\left ( AB \right )}{P\left ( A \right )}

该公式适用于计算事件A已经发生的情况下事件B发生的概率,P(AB)表示事件A与事件B同时发生的概率,其满足概率乘法公式:

P\left ( AB \right )=P\left ( A \right )P\left ( B|A \right )=P\left ( B \right )P\left ( A|B \right )

对于事件A,我们假设存在并行的具有n种可能的完备事件组:

B_1,B_2...B_n

结合条件概率公式和概率乘法公式,我们可以得到事件A的全概率公式:

P(A)=\sum_{i=1}^{n}P\left ( AB_{i} \right )=\sum_{i=1}^{n}P\left ( B_{i} \right )P\left ( A|B_{i} \right )

二.学习准备2:变量的分类

统计上,主要变量分为四种,如下表所示:

分类

名称特点

定量变量

连续变量

在一定区间内可以任意取值

定量变量

离散变量

自然数或整数单位计算,其数值是间断的,相邻两个数值之间不再有其他数值

定性变量

有序分类变量

描述数据的等级或顺序,可以进而比较优劣,变量值可以是数值或字符

定性变量

无序分类变量

取值之间没有顺序差别,仅做分类

两个补充说明

注 1 :无序分类变量可分为二分类变量和多分类变量。二分类变量指将全部数据分成两个类别。多分类变量指两个以上类别。

注 2 :有序分类变量和无需分类变量的区别是:前者对于“比较”操作是有意义的,而后者对于“比较”操作是没有意义的

三.贝叶斯模型核心思想

首先是贝叶斯概率公式:

P\left (C _{i} |X\right )=\frac{P\left ( C_{i} \right )P\left ( X|C_{i} \right )}{\sum_{i=1}^{k}P(C_i)P\left ( X|C_i \right )}

Ci表示研究对象的一种可能,而对于研究对象具体归为哪一类,就是计算Ci的最大可能结果。

因此,贝叶斯模型的核心思想是计算研究对象在每个类别中的最大概率。因为贝叶斯概率公式中的分母在研究对象确定后就变成了一个固定值,其实我们真正需要考虑的是比较计算出来的每个类别的分子大小。即计算:

\sum_{i=1}^{k}P(C_i)P\left ( X|C_i \right )

因为训练集数据的存在,所以实际上分子中的P(Ci)是已知的,它是以各自在训练集数据中频率作为先验概率。而其中的P(X|Ci),我们可以将联合概率转变为条件概率乘积:

P\left ( X|C_i \right )=P\left ( x_1,x_2...x_p|C_i \right )=P\left ( x_1|C_i \right )P\left ( x_2|C_i \right )...P\left ( x_p|C_i \right )

四.第1种贝叶斯模型:高斯贝叶斯模型

使用范围:数据集中自变量X均为连续变量

实际上,使用高斯贝叶斯模型的前提还应该包括自变量满足高斯正态分布的前提。作者在以后整理正态分布的相关部分时会提供高斯正态分布的证明。同时,作者将在数据不符合高斯正态分布的情况下,贝叶斯模型是否准确还没有验证过,这里不做分析。

我们的分析基于自变量满足上述两个前提的假设。

由第三部分内容,我们可知,问题的关键在于对P(X|Ci)的计算:

\sum_{i=1}^{k}P(C_i)P\left ( X|C_i \right )

那是:

P\left ( X|C_i \right )=P\left ( x_1,x_2...x_p|C_i \right )=P\left ( x_1|C_i \right )P\left ( x_2|C_i \right )...P\left ( x_p|C_i \right )

的计算,这里给出高斯贝叶斯模型条件下条件概率的计算公式:

P\left ( x_j|C_i \right )=\frac{1}{\sqrt{2\pi }\sigma _{ij}}exp\left ( -\frac{\left ( x_j-\mu _{ji} \right )^{2}}{2\sigma _{ji}^2} \right )

\mu _{ji},\sigma _{ji}分别是xj属于Ci类别的均值以及训练集中xj属于Ci类别的标准差。

五.第2种贝叶斯模型:多项式贝叶斯模型

使用范围:数据集中自变量X均为离散变量

仅给出条件概率计算公式:

P\left ( x_j=x_{jk}|C_i \right )=\frac{N_{ik}+\alpha }{N_{i}+n\alpha}

xjk表示自变量的具体取值,Nik表示因变量为Ci时自变量取xjk的样本个数,Ni表示数据集中类别Ci的样本个数,n表示因变量类别个数。

\alpha是平滑系数,通常取做1。

六.第3种贝叶斯模型:伯努利贝叶斯模型

使用范围:数据集中自变量X均为二分类变量:

仅给出条件概率计算公式:

P\left ( x_j|C_i \right )=px_j+(1-p)(1-x_j)

p表示类别为Ci时自变量取1的概率。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
扎眼的阳光的头像扎眼的阳光普通用户
上一篇 2022年4月2日 下午2:22
下一篇 2022年4月2日 下午2:43

相关推荐