【应用多元统计分析】CH5 判别分析3——贝叶斯判别

目录


前言——距离判别不适合的一个例子

        研究的指标是英语六级考试成绩(满分710分)。

        \pi_{1}(校研究生组):N_{1}=2000,\mu_{1}=500

        \pi_{2}(校本科生组):N_{2}=8000,\mu_{2}=400

        研究生中x\geqslant 500的有1000人,本科生组中x\geqslant 500的有2000人。某学生x=500

        该例如采用距离判别法则显然不妥,应考虑利用如下的先验概率:

p_{1}=\frac{2000}{10000}=0.8,p_{2}=\frac{8000}{10000}=0.2

        距离判别方法简单,结论明确,是很实用的方法,但该方法也有缺点:

  • 该判别与各总体出现的机会大小(先验概率)完全无关
  • 判别方法没有考虑错判造成的损失,这是不合理的

        Bayes判别正是为解决这两方面问题而提出的判别方法。

        Bayes统计思想总是假定对所研究的对象已有一定的认识,常用先验概率分布来描述这种认识。然后我们抽取一个样本,用样本修正已有的认识(先验概率分布),得到后验概率分布。

        各种统计推断都通过后验概率分布来进行,将贝叶斯思想用于判别分析就得到贝叶斯判别法。

一、最大后验概率法 

1.含义

        设有k个组\pi_{1},\cdots,\pi_{k},且组\pi_{i}的概率密度为f_{i}(x),样品x来自组\pi_{i}的先验概率为p_{i},i=1,2,\cdots,k,满足p_{1}+\cdots+p_{k}=1。则x属于\pi_{i}的后验概率为

P(\pi_{i}|x)=\frac{p_{i}f_{i}(x)}{\sum_{j=1}^{k}p_{j}f_{j}(x)},i=1,2,\cdots,k

        最大后验概率法是采用如下的判别规则:

{\color{Red} x\epsilon \pi_{l},P(\pi_{l}|x)=max_{1\leqslant i\leqslant k}P(\pi_{i}|x)(5.3.2)}

 2.【例5.3.1】

3.先验概率的赋值方法

  • 利用历史资料及经验进行估计,例如某地区成年人中得癌症的概率为p_{1}=0.001,不患癌的概率为p_{2}=0.999
  • 利用训练样本中各类样品所占的比例,即p_{i}=\frac{n_{i}}{n},n=n_{1}+n_{2}+\cdots+n_{k},这时要求训练样本是随机抽样取得的,各类样品被抽到的机会大小就是先验概率
  • 没有任何先验信息时,取等概率p_{1}=\cdots=p_{k}=\frac{1}{k}

4.皆为正态组的情形

        设\pi_{i}\sim N_{p}(\mu_{i},\Sigma_{i}),\Sigma_{i}>0,i=1,\cdots,k,这时组\pi_{i}的概率密度为f_{i}(x)=(2\pi)^{-\frac{p}{2}}\left | \Sigma_{i} \right |^{-\frac{1}{2}}exp\left [ -0.5d^2(x,\pi_{i}) \right ],d^2(x,\pi_{i})=(x-\mu_{i})^{'}\Sigma_{i}^{-1}(x-\mu_{i})

此时,后验概率为:
{\color{Red} P(\pi_{i}|x)=}\frac{p_{i}f_{i}(x)}{\sum_{j=1}^{k}p_{i}f_{i}(x)}=\frac{p_{i}\left | \Sigma _{i} \right |^{-\frac{1}{2}}exp\left \{ -\frac{1}{2}d_{i}^2 \right \}}{\sum_{j=1}^{k}p_{j}\left | \Sigma _{j} \right |^{-\frac{1}{2}}exp\left \{ -\frac{1}{2}d_{j}^2 \right \}}=\frac{exp\left \{ -\frac{1}{2}\left [ d_{i}^2+ln\left | \Sigma _{i}\right |-2lnp_{i} \right ] \right \}}{\sum_{j=1}^{k} exp\left \{ -\frac{1}{2}\left [ d_{j}^2+ln\left | \Sigma _{j}\right | -2lnp_{j} \right ] \right \}}={\color{Red} \frac{exp\left [ -\frac{1}{2}D^2(x,\pi_{i}) \right ]}{\sum_{j=1}^{k}\left [ -\frac{1}{2}D^2(x,\pi_{j}) \right ]}},i=1,2,\cdots,k;D^2(x,\pi_{i})=d^2(x,\pi_{i})+g_{i}+h_{i}

        称D^2(x,\pi_{i})x\pi_{i}的广义平方马氏距离,在正态性假定下,上述判别规则也可以等价地表达为:

{\color{Red} x\epsilon \pi_{l},D^2(x,\pi_{l})=min_{1\leqslant i\leqslant k}D^2(x,\pi_{i})}

(1)先验概率相等,协方差矩阵相等时

        当p_{1}=p_{2}=\cdots=p_{k},\Sigma_{1}=\cdots=\Sigma_{k}=\Sigma时,

P(\pi_{i}|x)=\frac{exp\left [ -\frac{1}{2}d_{i}^2 \right ]}{\sum_{j=1}^{k}exp\left [ -\frac{1}{2}d_{j}^2\right ]}

(2)仅先验概率相等时

        当p_{1}=\cdots=p_{k}=\frac{1}{k}时,

P(\pi_{i}|x)=\frac{exp\left \{ -\frac{1}{2}\left [ d_{i}^2 +ln\left | \Sigma_{i} \right |\right ] \right \}}{\sum_{j=1}^{k}exp\left \{ -\frac{1}{2}\left [ d_{j}^2 +ln\left | \Sigma_{j} \right |\right ] \right \}}

(3)仅协方差矩阵相等时 

        当\Sigma_{1}=\cdots=\Sigma_{k}=\Sigma时,

P(\pi_{i}|x)=\frac{exp\left \{ -\frac{1}{2} \left [ d_{i}^2-2lnp_{i} \right ]\right \}}{\sum_{j=1}^{k}exp\left \{ -\frac{1}{2} \left [ d_{j}^2-2lnp_{j} \right ]\right \}}=\frac{exp\left \{ I_{i}^{'}x+c_{i}+lnp_{i} \right \}}{\sum_{j=1}^{k}exp\left \{ I_{j}^{'}x+c_{j}+lnp_{j} \right \}},I_{i}=\Sigma^{-1}\mu_{i},c_{i}=-\frac{1}{2}\mu_{i}^{'}\Sigma^{-1}\mu_{i},i=1,2,\cdots,k

        此时,判别规则等价于:

{\color{Red} x\epsilon \pi_{l},I_{l}^{'}x+c_{l}+lnp_{l}=max_{1\leqslant i\leqslant k}(I_{i}^{'}x+c_{i}+lnp_{i})}

        如果我们对x来自哪一组的先验信息一无所知,则一般可取p_{1}=\cdots=p_{k}=\frac{1}{k},这时判别规则简化为(距离判别):

{\color{Red} x\epsilon \pi_{l},I_{l}^{'}x+c_{l}=max_{1\leqslant i\leqslant k}(I_{i}^{'}x+c_{i})}

        实际应用中,以上各式中的\mu_{i},\Sigma_{i}一般都是未知的,需要相应的样本估计值代替。

5.【例5.3.2】

二、最小期望误判代价法

1.例子

        \pi_{1}:合格的药;\pi_{2}:不合格的药。

        对于新样品,P(\pi_{1}|x)=0.6,P(\pi_{2}|x)=0.4

        该问题中,两种误判造成的损失一般是明显不同的,只是根据后验概率的大小进行判别是不太合适的。

2.两组的一般情形

(1)期望误判代价

        设组\pi_{1}\pi_{2}的概率密度函数分别为f_{1}(x),f_{2}(x),组 \pi_{1}\pi_{2} 的先验概率分别为p_{1},p_{2}p_{1}+p_{2}=1.。又设将来自\pi_{i}x判为\pi_{l}的代价为c(l|i),l,i=1,2。代价矩阵表示为:

        对于给定的判别规则,令R_{1}={x:判别归属\pi_{1}} ,R_{2}={x:判别归属\pi_{2}},显然

  • R_{1}\cup R_{2}=\Omega ,R_{1}\cap R_{2}=\Phi
  • x\epsilon R_{1}\Leftrightarrowx\epsilon R_{1}
  • x\epsilon R_{2}\Leftrightarrowx\epsilon R_{2}

        将\pi_{1}中的样品x误判到\pi_{2}的条件概率为

P(2|1)=P(x\epsilon R_{2}|x\epsilon \pi_{1})=\int _{R_{2}}f_{1}(x)dx

        类似地,将\pi_{2}中的样品x误判到\pi_{1}地条件概率为

P(1|2)=P(x\epsilon R_{1}|x\epsilon \pi_{2})=\int _{R_{1}}f_{2}(x)dx

        期望误判代价expected cost of misclassification,记为ECM),可计算为:

        最小期望误判代价法采用的是使ECM达到最小的判别规则,即为:

(2)误判代价之比

        最小ECM规则需要三个比值:密度函数比、误判代价比和先验概率比。在这些比值中,误判代价比最富有实际意义,因为在许多应用中,直接确定误判代价有一定困难,但是确定误判代价比却相对容易地多。

【例1】\pi_{1}:应该做手术;\pi_{2}:你应该做手术

【例2】\pi_{1}:硕士毕业后应继续攻读博士;\pi_{2}:硕士毕业后直接找工作

(3)【例5.3.3】

(4)(5.3.13)式的一些特殊情形

  • p_{1}=p_{2}=0.5,式子简化如下。

        实际应用中,如果先验概率难以给出,则它们通常被取成相等

  •  c(1|2)=c(2|1)时,式子简化如下。

         该式等价于(5.3.2)中k=2式,即为最大后验概率法。实践中,若误判代价比无法确定,则通常取比值为1。记

c(1|2)=c(2|1)=c\Rightarrow ECM=c\left [ p_{1}P(2|1)+p_{2}P(1|2) \right ]

总的误判概率=P(误判发生在组\pi_{1}中)+P(误判发生在组\pi_{2}中)=p_{1}P(2|1)+p_{2}P(1|2)

        可见,此时的判别规则(5.3.15)将使总的误判概率(=\frac{ECM}{c})达到最小,从而此时的最小期望误判代价判别规则即为最小总误判概率判别规则。

  • \frac{p_{1}}{p_{2}}=\frac{c(1|2)}{c(2|1)}(通常情况下是:p_{1}=p_{2}=0.5;c(1|2)=c(2|1)),式子简化如下。

        这时,判别新样品x_{0}的归属,只需比较在x_{0}处的两个概率密度值f_{1}(x_{0}),f_{2}(x_{0})的大小。作为特例,此时他自然也使总的误判概率达到最小。 (极大似然法

        规则(5.3.17)可看成是c(2|1)p_{1}=c(1|2)p_{2}=b时的判别规则(5.3.13),从而它可使ECM=b\left [ P(2|1)+P(1|2) \right ]达到最小,其中b是一个不依赖于判别规则的常数,故判别规则(5.3.17)可使两个误判概率之和p(1|2)+P(2|1)达到最小,或者说可使平均误判概率0.5p(1|2)+0.5P(2|1)达到最小,这个平均误判概率也是当p_{1}=p_{2}=0.5时的总误判概率。

(5)【例5.3.4】

3.两个正态组的情形

        假定\pi_{i}\sim N_{p}(\mu_{i},\Sigma_{i}),\Sigma_{i}>0,i=1,2

(1)协方差矩阵相等时

        当\Sigma_{1}=\Sigma_{2}=\Sigma时,(5.3.13)式可具体写成

       在p_{1}=p_{2},c(1|2)=c(2|1)的条件下上式将退化为(5.2.3)式。

       重要结论:在两组皆为正态组且协方差矩阵相等的情形下,距离判别(5.2.3)等价于不考虑先验概率和误判代价(p_{1}=p_{2},c(1|2)=c(2|1))时的贝叶斯判别(作为(5.3.17)的一个特例),此时它是最优的,即能使总的误判概率达到最小。

       实践中,因未知参数需要用样本值替代,故实际所使用的判别规则(5.2.5)只是渐进最优的。

(2)协方差矩阵不相等时

        \Sigma _{1}\neq \Sigma _{2}时,(5.3.13)式可写为:

        p_{1}=p_{2},c(1|2)=c(2|1)条件下上式可化简为:

        在两组均为正态组的情形下,判别规则(5.3.20)在使两个误判概率之和(或平均误判概率)达到最小的意义上是最优的。此时,它当然也就优于(5.2.10)式的距离判别。若进一步假定\left | \Sigma _{1} \right |=\left | \Sigma _{2} \right |,则判别规则(5.3.20)将与(5.2.10)式一致。

        基于二次函数的判别规则相比线性判别规则,其判别效果更依赖于多元正态性的假定。

  •         实践中,为了达到较理想的判别效果,需要时可以考虑先将各组的非正态型数据变换成接近正态性的数据,然后再作判别分析。

(3)如何变换到接近正态性

        计数y\rightarrow \sqrt{y}

        比例\hat{p}\rightarrow logit(\hat{p})=\frac{1}{2}log(\frac{\hat{p}}{1-\hat{p}})

        相关系数(费希尔)r\rightarrow z(r)=\frac{1}{2}log(\frac{1+r}{1-r})

        一元Box-Cox变换x^{(\lambda)}=\left\{\begin{matrix} \frac{x^{\lambda}-1}{\lambda},\lambda\neq 0\\ lnx,\lambda=0 \end{matrix}\right.。最大化

l(\lambda)=-\frac{n}{2}ln\left [ \frac{1}{n}\sum_{j=1}^{n}(x_{j}^{(\lambda)}-\bar{x^{(\lambda)}}) ^2\right ]+(\lambda -1)\sum_{j=1}^{n}lnx_{j}

得到适当的\lambda

        多元Box-Cox变换

        (1)对每一个分量按上述一元方法进行变换:等价于使每个边缘分布接近正态,虽不能保证联合分布是正太的,但实际应用中往往可以达到足够好的效果

        (2)令x_{j}^{(\lambda)}=(\frac{x_{j1}^{\lambda _{1}}-1}{\lambda_{1}},\cdots,\frac{x_{jp}^{\lambda _{p}}-1}{\lambda_{p}})^{'},j=1,\cdots,n,求\lambda=(\lambda_{1},\cdots,\lambda_{p})^{'}使得l(\lambda_{1},\cdots,\lambda_{p})=-\frac{n}{2}ln\left | S(\lambda) \right |+(\lambda_{1}-1)\sum_{j=1}^{n}lnx_{j1}+(\lambda_{2}-1)lnx_{j2}+\cdots+(\lambda_{p}-1)\sum_{j=1}^{n}lnx_{jp}

最大,其中S(\lambda)是由x_{j}^{\lambda}得到的样本协方差矩阵:计算更困难,不一定能够得到比方法一明显好的结果。

4.多组的情形

(1)推导

        已知f_{i}(x),p_{i},c(l|i),R_{l}P(l|i)=P(x\epsilon R_{l}|x\epsilon \pi_{i})=\int _{R_{l}}f_{i}(x)dx

        期望误判代价为:

        使ECM达到最小的判别规则

x\epsilon \pi_{l},\sum_{j=1,j\neq l}^{k}p_{j}f_{j}(x)c(l|j)=min_{1\leqslant i\leqslant k}\sum_{j=1,j\neq i}^{k}p_{j}f_{j}(x)c(i|j)

        假定所有的误判代价都是相同的,不失一般性,可令

c(l|i)=1,l\neq i;l,i=1,\cdots,k

则此时ECM=\sum_{i=1}^{k}p_{i}\sum_{l=1}^{k}P(l|i)=1-\sum_{i=1}^{k}p_{i}P(i|i)称为总的误判概率,故此时得最小期望误判代价也可称为最小总误判概率法,并且上式可简化为:

 x\epsilon \pi_{l},\sum_{j=1,j\neq l}^{k}p_{j}f_{j}(x)=min_{1\leqslant i\leqslant k}\sum_{j=1,j\neq i}^{k}p_{j}f_{j}(x)

        用\sum_{j=1}^{k}p_{j}f_{j}(x)减去上面等式的两边,即有更简洁的形式:

x\epsilon \pi_{l},p_{l}f_{l}(x)=max_{1\leqslant i\leqslant k}p_{i}f_{i}(x)

它与(5.3.2)式是等价的。因此,此时的最小误判概率法等同于最大后验概率法,或者说,最大后验概率法可看成是所有误判代价均相同的最小期望误判代价法

        当p_{1}=\cdots=p_{k}=\frac{1}{k}时,上式可进一步化简为:

x\epsilon \pi_{l},f_{l}(x)=max_{1\leqslant i\leqslant k}f_{i}(x)

该判别规则实际上也是一种极大似然法。

(2)【注】

        令B={误判},A_{i}={样品来自\pi_{i},i=1,\cdots,k},则利用全概率公式得总的误判概率为:

P(B)=\sum_{i=1}^{k}P(A_{i})P(B|A_{i})=\sum_{i=1}^{k}p_{i}\sum_{l=1.l\neq i}^{k}P(l|i)

此外,总的正确判别概率为:

 (3)【例5.3.5】

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
心中带点小风骚的头像心中带点小风骚普通用户
上一篇 2023年6月25日
下一篇 2023年6月25日

相关推荐