导图社区 机器学习思维导图-07.2-贝叶斯分类器
贝叶斯分类器是各种分类器中分类错误概率最小或者在预先给定代价的情况下平均风险最小的分类器。它的设计方法是一种最基本的统计分类方法。其分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。
在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好)。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。
社区模板帮助中心,点此进入>>
英语词性
法理
刑法总则
【华政插班生】文学常识-先秦
【华政插班生】文学常识-秦汉
文学常识:魏晋南北朝
【华政插班生】文学常识-隋唐五代
【华政插班生】文学常识-两宋
民法分论
日语高考動詞の活用
第七章 贝叶斯分类器
贝叶斯网
“信念网”,它借助有向无环图来刻画属性之间的依赖关系,并使用条件概率表来描述属性的联合概率分布

结构
“同父”结构
“顺序”结构
条件独立性
V型结构
边际独立性
给定x4, x1与x2必不独立
若x4未知,则x1与x2独立
分析有向图变量间的条件独立性
有向分离
找出有向图中所有的V型结构,在V型结构的两个父结点之间加上一条无向边
将所有有向边改为无向边
产生的无向图为道德图
若变量x和y能在图上被z分开,即从道德图中将变量集合z去除后,x和y分属两个连通分支,称x和y被z有向分离,即成立
在图中可以得到所有的条件独立关系
估计出条件概率表
得到最终网络
学习
贝叶斯网学习的首要任务:根据训练数据集来找出最“恰当”的贝叶斯网
评分搜索
Step1:定义一个评分函数来评估贝叶斯网与训练数据的契合程度
Step2:基于评分函数来寻找结构最优的贝叶斯网
基于信息论准则
学习的目标是找到一个能以(综合)最短编码长度描述训练数据的模型
描述模型自身所需的编码位数
使用该模型描述数据所需的编码位数
评分函数越小越好
AIC评分函数:f(q) = 1,即每个参数用一位编码位描述
BIC评分函数:f(q) = 1/2*logm
推断
通过已知变量观测值来推测待查询变量的过程,已知变量观测值为“证据”
精确推断:直接根据贝叶斯网定义的联合概率分布来精确计算后验概率(NP难)
近似推断:通过降低精度要求,在有限时间内求得近似解(网络结点较多时、连接稠密时)
吉布斯采样
吉布斯采样算法
Step1:随机产生一个与证据E = e一致的样本q0作为初始点
Step2:每步从当前样本出发产生下一个样本,即在第t次采样中,算法先假设q^t = q^t-1
Step3:对非证据变量逐个进行采样改变其取值
Step4:假定经过T次采样得到的与q一致的样本共有nq个,则可近似估算出后验概率
EM算法
在训练样本中未观测到的“隐变量”
令 X 表示已观测变量集, Z 表示隐变量集,q表示模型参数,欲对模型参数做极大似然估计,则应最大化对数似然函数
无法直接求解,通过对z计算期望,最大化已观测数据的对数“边际似然”
E步
基于q^t推断变量Z的期望,记为Z^t
M步
基于已观测变量X和Z^t对参数q做极大似然估计,记为q^t+1
两个步骤交替计算
期望(E)步:利用当前估计的参数值来计算对数似然的期望值
最大化(M)步:寻找能使E步产生的似然期望最大化的参数值
新得到的参数值被重新应用于E步……直到收敛到局部最优解
道德化