导图社区 朴素贝叶斯
朴素贝叶斯分类器(Naive Bayes Classifier 或 NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。
这是一篇关于MYSQL-进阶篇(一)的思维导图,包含存储引擎、索引、SQL优化等内容。希望对你有所帮助!
这是一篇关于MYSQL-基础篇(二)的思维导图,包含约束、 多表查询、窗口函数、事务等。有需要的朋友赶紧收藏吧!
这是一篇关于MYSQL-基础篇(一)的思维导图,MySQL是一个流行的关系型数据库管理系统(RDBMS),使用SQL(结构化查询语言)作为其主要的查询语言。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
朴素贝叶斯
简介
思想:根据先验概率以及条件概率,通过贝叶斯公式得到后验概率
朴素贝叶斯需要思考的几个问题
何为朴素?
定义:训练集的每一个特征都互相独立
条件概率P(D|h)如何计算?
计算思路:由于朴素,因此P(D|h)=P(X1|h)*P(X2|h)*P(X3|h)......注:X1,X2,X3...为数据集D的特征
如何计算不同类型特征的条件概率P(D|h)?
二值特征(伯努利朴素贝叶斯)
当特征值X=1时,P(D|h)=P(X=1|h)
当特征值X=0时,P(D|h)=P(X=0|h)
离散特征(朴素贝叶斯)
P(D|h)=P(X1|h)*P(X2|h)*P(X3|h),且P(X1|h)根据统计得出
连续特征(高斯朴素贝叶斯)
P(D|h)=P(X1|h)*P(X2|h)*P(X3|h),且P(X1|h)根据高斯分布得出
朴素贝叶斯的分类过程
原始数据集如图:
待预测样本X=[{身高:中},{体重:中},{鞋码:中}],请预测样本X属于男性or女性?
步骤一:计算先验概率
P(男)=0.5
P(女)=0.5
步骤二:计算条件概率
P(D|男)=P(身高为中|男)*P(体重为中|男)*P(鞋码为大|男)=0.5*0.5*0.75=0.1875
P(D|女)=P(身高为中|女)*P(体重为中|女)*P(鞋码为大|女)=0.25*0.5*0=0
步骤三:计算各种类别下的先验概率*条件概率
P(男)*P(D|男)=0.5*0.1875=0.0937
P(女)*P(D|女)=0.5*0=0
步骤四:比较各类别下先验概率*条件概率的大小
待预测样本X属于男性的概率=0.0937/全概率
待预测样本X属于女性的概率=0/全概率
由于0.0937>0,所以待预测样本为男性
朴素贝叶斯的优缺点
优点
1.对小规模的数据,准确度较高
2.对缺失数据不太敏感,算法也比较简单
缺点
1.若训练集D中无特征值出现,则会出现0概率
2.实际生活中特征间均具有相关性,无法做到朴素
3.先验概率对准确度影响巨大
朴素贝叶斯的优化
针对零概率事件与多分类效果较差现象
多项式朴素贝叶斯:
平滑系数的优点:解决零概率问题
朴素贝叶斯总结
数据集D存在连续特征
高斯朴素贝叶斯
数据集D全为二值特征
伯努利朴素贝叶斯
数据集D全为离散特征
多项式朴素贝叶斯