导图社区 概率论基于贝叶斯决策理论分类方法笔记思维导图
概率论基于贝叶斯决策理论分类方法笔记思维导图,整理了条件概率、使用条件概率来分类、使用朴素贝叶斯进行文档分类、使用Python进行文本分类等内容,一起学习吧。
网店详情页排版方法分享~包括中心页面组成,优质详情必备,详情页的排版参考方法。感兴趣的小伙伴可以看看哦~
喷绘色彩基础培训方案,内容涵盖色彩基础,喷绘写真。框架清晰,内容丰富,希望对小伙伴有所帮助哦~
酒窖营销计划方案,包括结果目标,过程目标。框架清晰,内容丰富,有需要的小伙伴可以看看哦~ 可供大家参考,借鉴,交流。
社区模板帮助中心,点此进入>>
英语词性
法理
刑法总则
【华政插班生】文学常识-先秦
【华政插班生】文学常识-秦汉
文学常识:魏晋南北朝
【华政插班生】文学常识-隋唐五代
民法分论
日语高考動詞の活用
第14章DNA的生物合成读书笔记
概率论基于贝叶斯决策理论分类方法笔记思维导图
基于贝叶斯决策理论的分类方法
优点
在数据较少的情况下仍然有效
可以处理多类别问题
缺点
对于输入数据的准备方式较为敏感
适用数据类型
标称型
贝叶斯决策理论
假设一个数据集由两类数据组成
假设找到了两类数据的统计参数
p1(x,y)表示数据点(x,y)属于类别1的概率
p2(x,y)表示数据点(x,y)属于类别2的概率
如果p1(x,y) > p2(x,y),则类别为1
如果p1(x,y) < p2(x,y),则类别为2
本例和前两章方法对比
kNN计算量大
决策树不会非常成功
条件概率
贝叶斯准则
使用条件概率来分类
应用贝叶斯准则得到
定义贝叶斯分类准则
如果p(c1|x,y) > p(c2|x,y),则属于类别c1
如果p(c1|x,y) < p(c2|x,y),则属于类别c2
使用朴素贝叶斯进行文档分类
朴素贝叶斯一般过程
收集数据
任何方法
本章RSS
准备数据
数值型
布尔型
分析数据
大量特征时,绘制特征作用不大
直方图效果更好
训练算法
计算不同的独立特征的条件概率
测试算法
计算错误率
使用算法
常见应用是文档分类
可在任意场景使用
样本数
如果每个特征N个样本,那么1000个特征的词汇表需要N**1000个样本
特征独立
样本数减少到N*1000
独立
一个特征出现的可能性和其他单词相邻没有关系
朴素贝叶斯
假设
每个特征同等重要
贝努利模型
多项式模型
使用Python进行文本分类
例
在线社区屏蔽侮辱类词汇
准备数据:从文本中构建词向量
训练算法:从词向量计算概率
已知
一个词是否出现在文档中
文档所属类别
重写贝叶斯准则
w是与词汇表个数相同的数值向量
对每个类计算概率,比较大小
类别i文档数/总文档数=p(ci)
p(w,|ci)=p(w0,w1,...wN|ci)=p(w0|ci)p(w1|ci)...p(wN|ci)
伪代码
测试算法:根据现实情况修改分类器
问题
计算多个概率乘积时,其中一个是0,乘积也是0
解决
所有词出现次数初始化为1
分母初始化为2
下溢出:太多很小的数相乘
取对数
准备数据:文档词袋模型
词集模型
每个词出现与否作为一个特征
词袋模型
每个词出现不止一次,词出现的次数作为特征
示例:使用朴素贝叶斯过滤垃圾邮件
准备数据:切分文本
string.split()
RE
大小写
如果目的是句子查找,有用
本例,需要统一成小写
HTML和URI的对象处理
去除过短的单词
测试算法:使用朴素贝叶斯进行交叉验证
留存交叉验证
随机选择数据集的一部分作为训练集,另一部分作为测试集的过程
示例:使用朴素贝叶斯分类器从个人广告中获取区域倾向
收集数据:导入RSS源
Python的Universal Feed Parser库
去除高频词汇
另一个常用方法是:停用词表
http://www.ranks.nl/resources/stopwords.html
准确估计
多次实验
分析数据:显示地域相关的用词
返回大于某个阈值的所有词