[TOC]
朴素贝叶斯分类(Naive Bayesian)
贝叶斯定理
是关于随机事件A和B的条件概率的一则定理。
通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A(发生)的条件下的概率是不一样的,但它们两者之间是有确定的关系的,贝叶斯定理陈述了这个关系。
贝叶斯定理的一个主要应用为贝叶斯推理,它是一种建立在主观判断基础之上的推理方法,也就是说,你只需要先预估一个值,然后再去根据实际结果去不断修正,不需要任何客观因素。
这种推理方式需要大量的计算,因此一直遭到其他人的诟病,无法得到广泛的应用,直到计算机的高速发展,并且人们发现很多事情都是无法事先进行客观判断的,因此贝叶斯推理才得以东山再起。
新手入门:带你搞懂朴素贝叶斯分类算法
贝叶斯定理
全概率公式
全概率公式
是将边缘概率与条件概率关联起来的基本规则,它表示了一个结果的总概率
可以通过几个不同的事件来实现 全概率公式将对一复杂事件的概率求解问题转化为了在不同情况下发生的简单事件的概率的求和问题
这就是全概率公式,即事件B的概率等于事件A与事件C的概率分别乘以B对这两个事件的条件概率之和
。
流程步骤
例子
Example1
: 假设有两家工厂生产并对外提供电灯泡
工厂X生产的电灯泡在99%的情况下能够工作超过5000 小时,
工厂Y生产的电灯泡在95%的情况下能够工作超过5000小时。
工厂X在市场的占有率为60%,工厂Y为40%,
如何推测出购买的灯泡的工作时间超过5000小时的概率是多少呢?
运用全概率公式,可以得出:
因此,可以得知购买一个工作时间超过5000小时的电灯泡的概率为97.4%。
解 根据算法,由表容易计算下列概率:
朴素贝叶斯的概率模型
由于分母对于所有类别为常数,因 此只需要将分子最大化即可,又因为各特征是互相独立的,所以最终推得:
P(A∣B)=P(B)P(B∣A)P(A) P(A∣B): 在B条件下的事件A的概率,在贝叶斯定理中,条件概率
也被称为后验概率
,即在事件B发生之后,我们对事件A概率的重新评估。
P(B∣A): 在A条件下的事件B的概率,与上一条同理。
P(A)与P(B)被称为先验概率
(也被称为边缘概率
),即在事件B发生之前,对事件A概率的一个推断(不考虑任何事件B方面的因素),后面同理。
P(B)P(B∣A)被称为标准相似度
,它是一个调整因子,主要是为了保证预测概率更接近真实概率。
根据这些术语,贝叶斯定理
表述为:后验概率=标准相似度∗先验概率。
P(B)=i∑=1nP(Ai)P(B∣Ai) 假定一个样本空间S,它是两个事件A与C之和,同时事件B与它们两个都有交集,如下图所示:
那么事件B的概率可以表示为P(B)=P(B∩A)+P(B∩C)
通过条件概率,可以推断出P(B∩A)=P(B∣A)P(A),所以P(B)=P(B∣A)P(A)+P(B∣C)P(C)
输入:训练数据T={(x1,y1),(x2,y2),...,(xN,yN)},其中xi=(xi(1),xi(2),...,xi(N))T,xi(j)是第i个样本的第j个特征,xi(j)∈{aj1,aj2,...,ajSj},ajl是第j个特征可能取的第l个值,j=1,2,...,n,l=1,2,...,Sj ,yi∈{c1,c2,...cK};实例x;
P(Y=ck)=N∑i=1NI(yi=ck),k=1,2,...,KP(X(j)=ajl∣Y=ck)=∑i=1NI(yi=ck)∑i=1NI(xi(j)=ajl,yi=ck)j=1,2,...n;l=1,2,...,Sj;k=1,2,...,K 对于给定的实例x=(x(1),x(2),...,x(n))T,计算
P(Y=ck)j=1∏nP(X(j)=x(j)∣Y=ck),k=1,2,...,K y=argckmaxP(Y=ckj=1∏nP(X(j)=x(j)∣Y=ck) Pr(A)=Pr(A∣Bx).Pr(Bx)+Pr(A∣By).Pr(By)=10099.106+10095.104=1000974 Pr(Bx)=106: 购买到工厂X制造的电灯泡的概率。
Pr(By)=104: 购买到工厂y制造的电灯泡的概率。
Pr(A∣Bx)=10099: 工厂x制造的电灯泡工作时间超过5000小时的概率。
Pr(A∣By)=10095 : 工厂y制造的电灯泡工作时间超过5000小时的概率。
Example2
: 试由表的训练数据学习一个朴素贝叶斯分类器并确定x=(2,S)T的类标记y。
表中X(1) ,X(2)为特征,取值集合分别为A1={1,2,3},A2={S,M,L},Y为类标记,Y∈C={1,−1}。
P(Y=1)=1710,P(Y=−1)=177P(X(1)=1∣Y=1)=123,P(X(1)=2∣Y=1)=124,P(X(1)=3∣Y=1)=125P(X(2)=S∣Y=1)=122,P(X(2)=M∣Y=1)=125,P(X(2)=L∣Y=1)=125P(X(1)=1∣Y=−1)=94,P(X(1)=2∣Y=−1)=93,P(X(1)=3∣Y=−1)=92P(X(2)=S∣Y=−1)=94,P(X(2)=M∣Y=−1)=93,P(X(2)=L∣Y=−1)=92 对于给定的x=(2,S)T计算:
P(Y=1)P(X(1)=2∣Y=1)P(X(2)=S∣Y=1)=159.93.91=451P(Y=−1)P(X(1)=2∣Y=−1)P(X(2)=S∣Y=−1)=156.62.63=151 因为P(Y=−1)P(X(1)=2∣Y=−1)P(X(2)=S∣Y=−1)最大,所以y=−1。
我们设一个待分类项X=f1,f2,...,fn,其中每个f为x的一个特征属性,然后设一个类别集合C1,C2,...,Cm
然后需要计算P(C1∣X),P(C2∣X),...,P(Cm∣X),我们可以根据一个训练样本集合(已知分类的待分类项集合),然后统计得到在各类别下各个特征属性的条件概率:
P(f1∣C1),P(f1∣C1),...P(fn∣C1),...,P(f1∣C2),P(f2∣C2),...P(fn∣C2,...,P(f1∣Cm),P(f2∣Cm),...,P(fn∣Cm), 如果P(Ck∣X)=MAX(P(C1∣X),P(C2∣X),...,P(CmlX)),则X∈Ck(贝叶斯分类其实就是取概率最大的那一个)。 朴素贝叶斯会假设每个特征都是独立的,根据贝叶斯定理可推得:
P(Ci∣X)=P(X)P(X∣Ci)P(Ci) P(X∣Ci)P(Ci)=P(f1∣Ci)P(f2∣Ci),...,P(fn∣Ci)P(Ci)=P(Ci)j=1∏nP(fj∣Ci)