前言——距离判别不适合的一个例子

研究的指标是英语六级考试成绩（满分710分）。

$\pi_{1}$ （校研究生组）： $N_{1}=2000,\mu_{1}=500$

$\pi_{2}$ （校本科生组）： $N_{2}=8000,\mu_{2}=400$

研究生中 $x\geqslant 500$ 的有1000人，本科生组中 $x\geqslant 500$ 的有2000人。某学生 $x=500$

该例如采用距离判别法则显然不妥，应考虑利用如下的先验概率：

$p_{1}=\frac{2000}{10000}=0.8,p_{2}=\frac{8000}{10000}=0.2$

距离判别方法简单，结论明确，是很实用的方法，但该方法也有缺点：

该判别与各总体出现的机会大小（先验概率）完全无关
判别方法没有考虑错判造成的损失，这是不合理的

$Bayes$ 判别正是为解决这两方面问题而提出的判别方法。

$Bayes$ 的统计思想总是假定对所研究的对象已有一定的认识，常用先验概率分布来描述这种认识。然后我们抽取一个样本，用样本修正已有的认识（先验概率分布），得到后验概率分布。

各种统计推断都通过后验概率分布来进行，将贝叶斯思想用于判别分析就得到贝叶斯判别法。

一、最大后验概率法

1.含义

设有 $k$ 个组 $\pi_{1},\cdots,\pi_{k}$ ，且组 $\pi_{i}$ 的概率密度为 $f_{i}(x)$ ，样品 $x$ 来自组 $\pi_{i}$ 的先验概率为 $p_{i},i=1,2,\cdots,k$ ，满足 $p_{1}+\cdots+p_{k}=1$ 。则 $x$ 属于 $\pi_{i}$ 的后验概率为

$P(\pi_{i}|x)=\frac{p_{i}f_{i}(x)}{\sum_{j=1}^{k}p_{j}f_{j}(x)},i=1,2,\cdots,k$

最大后验概率法是采用如下的判别规则：

${\color{Red} x\epsilon \pi_{l},P(\pi_{l}|x)=max_{1\leqslant i\leqslant k}P(\pi_{i}|x)(5.3.2)}$

2.【例5.3.1】

3.先验概率的赋值方法

利用历史资料及经验进行估计，例如某地区成年人中得癌症的概率为 $p_{1}=0.001$ ，不患癌的概率为 $p_{2}=0.999$
利用训练样本中各类样品所占的比例，即 $p_{i}=\frac{n_{i}}{n},n=n_{1}+n_{2}+\cdots+n_{k}$ ，这时要求训练样本是随机抽样取得的，各类样品被抽到的机会大小就是先验概率
没有任何先验信息时，取等概率 $p_{1}=\cdots=p_{k}=\frac{1}{k}$

4.皆为正态组的情形

设 $\pi_{i}\sim N_{p}(\mu_{i},\Sigma_{i}),\Sigma_{i}>0,i=1,\cdots,k$ ，这时组 $\pi_{i}$ 的概率密度为 $f_{i}(x)=(2\pi)^{-\frac{p}{2}}\left | \Sigma_{i} \right |^{-\frac{1}{2}}exp\left [ -0.5d^2(x,\pi_{i}) \right ],d^2(x,\pi_{i})=(x-\mu_{i})^{'}\Sigma_{i}^{-1}(x-\mu_{i})$

此时，后验概率为：
${\color{Red} P(\pi_{i}|x)=}\frac{p_{i}f_{i}(x)}{\sum_{j=1}^{k}p_{i}f_{i}(x)}=\frac{p_{i}\left | \Sigma _{i} \right |^{-\frac{1}{2}}exp\left \{ -\frac{1}{2}d_{i}^2 \right \}}{\sum_{j=1}^{k}p_{j}\left | \Sigma _{j} \right |^{-\frac{1}{2}}exp\left \{ -\frac{1}{2}d_{j}^2 \right \}}=\frac{exp\left \{ -\frac{1}{2}\left [ d_{i}^2+ln\left | \Sigma _{i}\right |-2lnp_{i} \right ] \right \}}{\sum_{j=1}^{k} exp\left \{ -\frac{1}{2}\left [ d_{j}^2+ln\left | \Sigma _{j}\right | -2lnp_{j} \right ] \right \}}={\color{Red} \frac{exp\left [ -\frac{1}{2}D^2(x,\pi_{i}) \right ]}{\sum_{j=1}^{k}\left [ -\frac{1}{2}D^2(x,\pi_{j}) \right ]}},i=1,2,\cdots,k;D^2(x,\pi_{i})=d^2(x,\pi_{i})+g_{i}+h_{i}$

称 $D^2(x,\pi_{i})$ 为 $x$ 到 $\pi_{i}$ 的广义平方马氏距离，在正态性假定下，上述判别规则也可以等价地表达为：

${\color{Red} x\epsilon \pi_{l},D^2(x,\pi_{l})=min_{1\leqslant i\leqslant k}D^2(x,\pi_{i})}$

（1）先验概率相等，协方差矩阵相等时

当 $p_{1}=p_{2}=\cdots=p_{k},\Sigma_{1}=\cdots=\Sigma_{k}=\Sigma$ 时，

$P(\pi_{i}|x)=\frac{exp\left [ -\frac{1}{2}d_{i}^2 \right ]}{\sum_{j=1}^{k}exp\left [ -\frac{1}{2}d_{j}^2\right ]}$

（2）仅先验概率相等时

当 $p_{1}=\cdots=p_{k}=\frac{1}{k}$ 时，

$P(\pi_{i}|x)=\frac{exp\left \{ -\frac{1}{2}\left [ d_{i}^2 +ln\left | \Sigma_{i} \right |\right ] \right \}}{\sum_{j=1}^{k}exp\left \{ -\frac{1}{2}\left [ d_{j}^2 +ln\left | \Sigma_{j} \right |\right ] \right \}}$

（3）仅协方差矩阵相等时

当 $\Sigma_{1}=\cdots=\Sigma_{k}=\Sigma$ 时，

$P(\pi_{i}|x)=\frac{exp\left \{ -\frac{1}{2} \left [ d_{i}^2-2lnp_{i} \right ]\right \}}{\sum_{j=1}^{k}exp\left \{ -\frac{1}{2} \left [ d_{j}^2-2lnp_{j} \right ]\right \}}=\frac{exp\left \{ I_{i}^{'}x+c_{i}+lnp_{i} \right \}}{\sum_{j=1}^{k}exp\left \{ I_{j}^{'}x+c_{j}+lnp_{j} \right \}},I_{i}=\Sigma^{-1}\mu_{i},c_{i}=-\frac{1}{2}\mu_{i}^{'}\Sigma^{-1}\mu_{i},i=1,2,\cdots,k$

此时，判别规则等价于：

${\color{Red} x\epsilon \pi_{l},I_{l}^{'}x+c_{l}+lnp_{l}=max_{1\leqslant i\leqslant k}(I_{i}^{'}x+c_{i}+lnp_{i})}$

如果我们对 $x$ 来自哪一组的先验信息一无所知，则一般可取 $p_{1}=\cdots=p_{k}=\frac{1}{k}$ ，这时判别规则简化为（距离判别）：

${\color{Red} x\epsilon \pi_{l},I_{l}^{'}x+c_{l}=max_{1\leqslant i\leqslant k}(I_{i}^{'}x+c_{i})}$

实际应用中，以上各式中的 $\mu_{i},\Sigma_{i}$ 一般都是未知的，需要相应的样本估计值代替。

5.【例5.3.2】

二、最小期望误判代价法

1.例子

$\pi_{1}$ ：合格的药； $\pi_{2}$ ：不合格的药。

对于新样品， $P(\pi_{1}|x)=0.6,P(\pi_{2}|x)=0.4$ 。

该问题中，两种误判造成的损失一般是明显不同的，只是根据后验概率的大小进行判别是不太合适的。

2.两组的一般情形

（1）期望误判代价

设组 $\pi_{1}$ 和 $\pi_{2}$ 的概率密度函数分别为 $f_{1}(x),f_{2}(x)$ ，组 $\pi_{1}$ 和 $\pi_{2}$ 的先验概率分别为 $p_{1},p_{2}$ ， $p_{1}+p_{2}=1$ .。又设将来自 $\pi_{i}$ 的 $x$ 判为 $\pi_{l}$ 的代价为 $c(l|i),l,i=1,2$ 。代价矩阵表示为：

对于给定的判别规则，令 $R_{1}$ ={x:判别归属 $\pi_{1}$ } ， $R_{2}$ ={x:判别归属 $\pi_{2}$ }，显然

$R_{1}\cup R_{2}=\Omega ,R_{1}\cap R_{2}=\Phi$
$x\epsilon R_{1}\Leftrightarrow$ 判 $x\epsilon R_{1}$
$x\epsilon R_{2}\Leftrightarrow$ 判 $x\epsilon R_{2}$

将 $\pi_{1}$ 中的样品 $x$ 误判到 $\pi_{2}$ 的条件概率为

$P(2|1)=P(x\epsilon R_{2}|x\epsilon \pi_{1})=\int _{R_{2}}f_{1}(x)dx$

类似地，将 $\pi_{2}$ 中的样品 $x$ 误判到 $\pi_{1}$ 地条件概率为

$P(1|2)=P(x\epsilon R_{1}|x\epsilon \pi_{2})=\int _{R_{1}}f_{2}(x)dx$

期望误判代价（ $expected$ $cost$ $of$ $misclassification$ ，记为 $ECM$ ），可计算为：

最小期望误判代价法采用的是使 $ECM$ 达到最小的判别规则，即为：

（2）误判代价之比

最小 $ECM$ 规则需要三个比值：密度函数比、误判代价比和先验概率比。在这些比值中，误判代价比最富有实际意义，因为在许多应用中，直接确定误判代价有一定困难，但是确定误判代价比却相对容易地多。

【例1】 $\pi_{1}$ ：应该做手术； $\pi_{2}$ ：你应该做手术

【例2】 $\pi_{1}$ ：硕士毕业后应继续攻读博士； $\pi_{2}$ ：硕士毕业后直接找工作

（3）【例5.3.3】

（4）（5.3.13）式的一些特殊情形

$p_{1}=p_{2}=0.5$ ，式子简化如下。

实际应用中，如果先验概率难以给出，则它们通常被取成相等

$c(1|2)=c(2|1)$ 时，式子简化如下。

该式等价于（5.3.2）中k=2式，即为最大后验概率法。实践中，若误判代价比无法确定，则通常取比值为1。记

$c(1|2)=c(2|1)=c\Rightarrow ECM=c\left [ p_{1}P(2|1)+p_{2}P(1|2) \right ]$

总的误判概率=P（误判发生在组 $\pi_{1}$ 中）+P（误判发生在组 $\pi_{2}$ 中）= $p_{1}P(2|1)+p_{2}P(1|2)$

可见，此时的判别规则(5.3.15)将使总的误判概率（ $=\frac{ECM}{c}$ ）达到最小，从而此时的最小期望误判代价判别规则即为最小总误判概率判别规则。

$\frac{p_{1}}{p_{2}}=\frac{c(1|2)}{c(2|1)}$ （通常情况下是： $p_{1}=p_{2}=0.5;c(1|2)=c(2|1)$ ），式子简化如下。

这时，判别新样品 $x_{0}$ 的归属，只需比较在 $x_{0}$ 处的两个概率密度值 $f_{1}(x_{0}),f_{2}(x_{0})$ 的大小。作为特例，此时他自然也使总的误判概率达到最小。（极大似然法）

规则(5.3.17)可看成是 $c(2|1)p_{1}=c(1|2)p_{2}=b$ 时的判别规则(5.3.13)，从而它可使 $ECM=b\left [ P(2|1)+P(1|2) \right ]$ 达到最小，其中 $b$ 是一个不依赖于判别规则的常数，故判别规则(5.3.17)可使两个误判概率之和 $p(1|2)+P(2|1)$ 达到最小，或者说可使平均误判概率 $0.5p(1|2)+0.5P(2|1)$ 达到最小，这个平均误判概率也是当 $p_{1}=p_{2}=0.5$ 时的总误判概率。

（5）【例5.3.4】

3.两个正态组的情形

假定 $\pi_{i}\sim N_{p}(\mu_{i},\Sigma_{i}),\Sigma_{i}>0,i=1,2$ 。

（1）协方差矩阵相等时

当 $\Sigma_{1}=\Sigma_{2}=\Sigma$ 时，(5.3.13)式可具体写成

在 $p_{1}=p_{2},c(1|2)=c(2|1)$ 的条件下上式将退化为(5.2.3)式。

重要结论：在两组皆为正态组且协方差矩阵相等的情形下，距离判别(5.2.3)等价于不考虑先验概率和误判代价（ $p_{1}=p_{2},c(1|2)=c(2|1)$ ）时的贝叶斯判别（作为(5.3.17)的一个特例），此时它是最优的，即能使总的误判概率达到最小。

实践中，因未知参数需要用样本值替代，故实际所使用的判别规则(5.2.5)只是渐进最优的。

（2）协方差矩阵不相等时

$\Sigma _{1}\neq \Sigma _{2}$ 时，(5.3.13)式可写为：

$p_{1}=p_{2},c(1|2)=c(2|1)$ 条件下上式可化简为：

在两组均为正态组的情形下，判别规则(5.3.20)在使两个误判概率之和（或平均误判概率）达到最小的意义上是最优的。此时，它当然也就优于(5.2.10)式的距离判别。若进一步假定 $\left | \Sigma _{1} \right |=\left | \Sigma _{2} \right |$ ，则判别规则(5.3.20)将与(5.2.10)式一致。

基于二次函数的判别规则相比线性判别规则，其判别效果更依赖于多元正态性的假定。

实践中，为了达到较理想的判别效果，需要时可以考虑先将各组的非正态型数据变换成接近正态性的数据，然后再作判别分析。

（3）如何变换到接近正态性

计数 $y\rightarrow \sqrt{y}$

比例 $\hat{p}\rightarrow logit(\hat{p})=\frac{1}{2}log(\frac{\hat{p}}{1-\hat{p}})$

相关系数(费希尔) $r\rightarrow z(r)=\frac{1}{2}log(\frac{1+r}{1-r})$

一元Box-Cox变换： $x^{(\lambda)}=\left\{\begin{matrix} \frac{x^{\lambda}-1}{\lambda},\lambda\neq 0\\ lnx,\lambda=0 \end{matrix}\right.$ 。最大化

$l(\lambda)=-\frac{n}{2}ln\left [ \frac{1}{n}\sum_{j=1}^{n}(x_{j}^{(\lambda)}-\bar{x^{(\lambda)}}) ^2\right ]+(\lambda -1)\sum_{j=1}^{n}lnx_{j}$

得到适当的 $\lambda$ 。

多元Box-Cox变换：

（1）对每一个分量按上述一元方法进行变换：等价于使每个边缘分布接近正态，虽不能保证联合分布是正太的，但实际应用中往往可以达到足够好的效果

（2）令 $x_{j}^{(\lambda)}=(\frac{x_{j1}^{\lambda _{1}}-1}{\lambda_{1}},\cdots,\frac{x_{jp}^{\lambda _{p}}-1}{\lambda_{p}})^{'},j=1,\cdots,n$ ，求 $\lambda=(\lambda_{1},\cdots,\lambda_{p})^{'}$ 使得 $l(\lambda_{1},\cdots,\lambda_{p})=-\frac{n}{2}ln\left | S(\lambda) \right |+(\lambda_{1}-1)\sum_{j=1}^{n}lnx_{j1}+(\lambda_{2}-1)lnx_{j2}+\cdots+(\lambda_{p}-1)\sum_{j=1}^{n}lnx_{jp}$