贝叶斯公式回顾

$P%28H%7Cx%29%20%3D%20%5Cfrac%7BP%28x%7CH%29P%28H%29%7D%7BP%28x%29%7D$

这里可以认为是分类任务中的某一类，所以可以表示在条件下样本被判断为类的概率，也称为后验概率。

贝叶斯公式示例

当你周一去一家商店，你发现所有的灯都是 off 的，你会做什么推断？
先验概率即，通过统计数据，这家店开着的概率是 95%
条件概率：
, 当店铺开张的时候，灯灭的概率为 0.01
当店铺关闭的时候，灯灭的概率为 0.85
求后验概率

先验概率和后验概率可以理解为：
与相比，一个是预先知道的，所以是先验的，另一个是需要在的条件下计算，所以是后验

$P%28open%7Coff%29%20%3D%20%5Cfrac%7BP%28off%7Copen%29P%28open%29%7D%7BP%28off%29%7D$

P%28off%29%3DP%28off%2Copen%29%20%2B%20P%28off%2Cclosed%29%20%3D%20P%28off%7Copen%29P%28open%29%2BP%28off%7Cclosed%29P%28closed%29

$P%28open%7Coff%29%20%3D%20%5Cfrac%7BP%28off%7Copen%29P%28open%29%7D%7BP%28off%7Copen%29P%28open%29%2BP%28off%7Cclosed%29P%28closed%29%7D$

$P%28open%7Coff%29%20%3D%20%5Cfrac%7B0.01%20%2A%200.95%7D%7B0.01%20%2A%200.95%20%2B%200.85%20%2A%20%281-0.95%29%7D%3D0.183$

当已知或可以估计时，贝叶斯公式允许我们计算

朴素贝叶斯分类器

我们已经知道：

P%28C%2CX%29%3DP%28C%7CX%29P%28X%29%3DP%28X%7CC%29P%28C%29

分类任务

我们现在的任务是：将样本（instance）进行分类，，我们需要依次求出这个样本对于每一类
的概率，然后选择最大的一个作为最终的预测类别。
代表最终分类的具体类别
表示从几个候选概率中选择最大值作为最终结果
表示给定条件下的分类概率

%5Cbecause $P%28c_j%7CT%29%3D%5Cfrac%7BP%28T%7Cc_j%29P%28c_j%29%7D%7BP%28T%29%7D$
%5Ctherefore $%5Chat%7Bc%7D%3Dargmax_%7Bc_j%5Cin%20C%7D%5Cfrac%7BP%28T%7Cc_j%29P%28c_j%29%7D%7BP%28T%29%7D$

扔掉分母

%5Cbecause 对于所有类别 c_j%5Cin%20C 、 P%28T%29 的值都是一样的，所以我们可以在计算的时候把公式中的删掉， %5Chat%7Bc%7D 在通过 argmax 选择最大概率值的过程中，仍然会选择正确的最大概率值。价值

%5Ctherefore %5Chat%7Bc%7D%3Dargmax_%7Bc_j%5Cin%20C%7DP%28T%7Cc_j%29%7BP%28c_j%29%7D

所以接下来的任务就是为每个类别计算，然后选择最大的概率值，即样本所属类别的概率。

作文

那么让我们进一步探索，什么是？我们说是一个样本（或实例），那么这本书是由什么组成的呢？让我们来复习

import pandas as pd
columns = ['姓名','年龄','身高','是否婚恋','月薪','学历']
data = [['张三',18,181,1,18000,'本科'],
       ['李四',30,172,0,13000,'本科'],
       ['王五',14,198,1,8888,'本科'],
       ['赵六',18,176,0,3000,'本科']]

pd.DataFrame(columns=columns,data=data)

	姓名	年龄	身高	是否婚恋	月薪	学历
0	张三	18	181	1	18000	本科
1	李四	30	172	0	13000	本科
2	王五	14	198	1	8888	本科
3	赵六	18	176	0	3000	本科

对于这个例子来说，每一行数据都是一个 instance，而组成每一个 instance 的，就是 attributes（属性），也就是说当我们选择第一行这个样本，那么，就分别代表
让我们回过头来看看我们上面的公式：
那么，怎么问

为什么朴素贝叶斯是朴素的

这就是为什么朴素贝叶斯被称为朴素的重要部分！！！！
如果不相互独立，那么概率的链式法则应该是这样的：

P%28x_1%2Cx_2%2C...x_n%7Cc_j%29%3DP%28x_1%7Cc_j%29P%28x_2%7Cx_1%2Cc_j%29...P%28x_n%7Cx1%2Cx2...%2Cx_n%2Cc_j%29

在这种情况下，我们很难计算出这么大的一系列公式的计算
但是朴素贝叶斯是“朴素的”，因为它有一个很强的假设，即它们在的条件下是相互独立的；

%5Ctherefore P%28x_1%2Cx_2%2C...x_n%7Cc_j%29%20%5Capprox%20P%28x_1%7Cc_j%29P%28x_2%7Cc_j%29...P%28x_n%7Cc_j%29

如果使用朴素贝叶斯的粗略化简方法，分母的计算就会变得容易很多！
如果你不明白这一点，请参阅条件独立部分：

条件独立：
假设在条件下是相互独立的，那么我们可以得到以下结论：

P%28x_1%2Cx_2%7Cc_j%29%3DP%28x_1%7Cc_j%29P%28x_2%7Cc_j%29

完全独立：假设现在是独立的随机变量，那么我们可以得到以下结论：

P%28x_1%2Cx_2%29%3DP%28x_1%29P%28x_2%29

所以贝叶斯公式会在各个属性之间不完全独立的情况下产生不太好的结果，但是当面对各个 attribute 独立的数据，表现就会很好。
通过上面的化简，我们可以进一步得到我们的类别计算公式：

%5Chat%7Bc%7D%3Dargmax_%7Bc_j%5Cin%20C%7DP%28c_j%29%5Cprod_i%7BP%28x_i%7Cc_j%29%7D

整理一下：

由于上面的推导过程有点微妙，这里是从零开始得到的过程：

%5Chat%7Bc%7D%3Dargmax_%7Bc_j%5Cin%20C%7DP%28c_j%7CT%29

%5Cbecause $P%28c_j%7CT%29%3D%5Cfrac%7BP%28T%7Cc_j%29P%28c_j%29%7D%7BP%28T%29%7D$

%5Ctherefore $%5Chat%7Bc%7D%3Dargmax_%7Bc_j%5Cin%20C%7D%5Cfrac%7BP%28T%7Cc_j%29P%28c_j%29%7D%7BP%28T%29%7D$

%5Cbecause P%28T%29 is equal for all categories

%5Ctherefore %5Chat%7Bc%7D%3Dargmax_%7Bc_j%5Cin%20C%7DP%28T%7Cc_j%29%7BP%28c_j%29%7D

%5Cbecause%20T%3D%5C%7Bx_1%2Cx_2%2C...x_n%5C%7D

%5Ctherefore%20%5Chat%7Bc%7D%3Dargmax_%7Bc_j%5Cin%20C%7DP%28x_1%2Cx_2%2C...x_n%7Cc_j%29%7BP%28c_j%29%7D

%5Cbecause assume x_1%2C...x_n conditional independence

%5Ctherefore P%28x_1%2Cx_2%2C...x_n%7Cc_j%29%20%5Capprox%20P%28x_1%7Cc_j%29P%28x_2%7Cc_j%29...P%28x_n%7Cc_j%29

P%28x_1%2Cx_2%2C...x_n%7Cc_j%29%20%5Capprox%20%5Cprod_i%7BP%28x_i%7Cc_j%29%7D

%5Ctherefore%20%5Chat%7Bc%7D%3Dargmax_%7Bc_j%5Cin%20C%7DP%28c_j%29%5Cprod_i%7BP%28x_i%7Cc_j%29%7D

题

如何得到先验概率 P%28c_j%29 ？

因为分类任务是监督学习的一种，所以对于每条数据都是有 label 的，我们可以通过统计 label 中出现的频次来得到

当我们得到一个数据集时，我们需要知道的概率是多少？

，为所有

具体例子

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-j0Ty9TUX-1647111760800)(attachment:image.png)]

案例分析与介绍

对于这个例子，我们先看类别这是一个二分类问题
、
如果现在有一个人没有头痛，有轻微的肌肉疼痛，体温正常，没有咳嗽；他的样本可以表示为：

T%20%3D%20%5C%7BHeadache%3Dno%2CSore%3Dmild%2CTemp%3Dnormal%2CCough%3Dno%5C%7D

因此，此时我们可以计算出这个样本为的概率，可以表示为：

P%28Diagnosis%3DFlu%20%7C%20Headache%3Dno%2CSore%3Dmild%2CTemp%3Dnormal%2CCough%3Dno%29

查找所有条件概率

求所有条件概率和：

得到分类概率

我们在上面得到了所有必需的条件概率和先验概率：

那么假设现在有一患者以轻度头痛（mild headache），严重酸痛（severe soreness），体温正常（normal temperature），无咳嗽（no cough）就诊。他们更容易得感冒（cold）还是流感（flu）?
我们通过以后的概率来计算 Flu 和 Cold 分别的概率情况：