导图社区 机器学习
机器学习-西瓜书-1、2章思维导图,机器学习是对能通过经验自动改进的计算机算法的研究,是一种让计算机在没有事先明确的编程的情况下做出正确反应的科学。内容涵盖了定义、类型、基本术语、模型评估与选择以及重要的理论和原则等多个方面,为理解和实施机器学习算法提供了全面的指导。制图不易,请多多关注!
社区模板帮助中心,点此进入>>
英语词性
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
法理
刑法总则
【华政插班生】文学常识-先秦
【华政插班生】文学常识-秦汉
文学常识:魏晋南北朝
【华政插班生】文学常识-隋唐五代
【华政插班生】文学常识-两宋
机器学习
根据所处理数据种类不同
任务
聚类
回归
分类
异常检测
降维
监督学习
去银行贷款,银行是否同意
银行能贷多少钱
无监督学习
聚类、密度估计、异常检测
强化学习
一切自己办
第一章
机器学习定义
对能通过经验自动改进的计算机算法的研究
一种让计算机在没有事先明确的编程的情况下做出正确反应的科学
从历史经验中,发现某种模式和规律,利用这些模式和规律进行预测
构造某种算法,使机器通过在数据中学习后可以进行如下工作,分类和识别事物、推理决策,预测未来等;研究如何通过计算的手段,利用经验来改善系统自身的性能。
基本术语
数据集
示例/样本
特征向量
属性/特征
属性值
属性空间/样本空间/输入空间
训练数据
训练样本
训练集
假设
模型
学习器
标记/标签
样例
泛化能力
学得的模型适应新样本的能力
假设空间
科学推理的两大基本手段
归纳
演绎
版本空间
归纳偏好
现实生活中会有多个模型和训练集一致,更偏向于选择哪一种假设呢
奥卡姆剃刀
选最简单的
没有免费的午餐定理
第二章:模型评估与选择
误差
经验误差/训练误差
在训练集上的误差: 实际输出与样本的真实输出之间的差异
泛化误差
在新样本上的误差
拟合效果
过拟合
把训练样本自身的一些特点当成了所 有潜在样本都会具有的一般性质
无法避免,只能缓解
欠拟合
训练样本的一般性质尚未学好
由于无法获得新样本, 该怎么评估泛化误差呢 从数据集出发
留出法
定义:直接将数据集分成两个互斥的集合 D->S+T,S为训练,T为测试
采样方法:分层采样--保留类别比例 正例与反例的比例在训练集和测试集中应该相同
随机划分:如果把每一个样本当成独立个体来看, 那么每一次划分,训练集和测试集中的样本是不一 样的,模型评估的结果也会有所差异,因此,会进 行很多次随机划分,最后结果取平均值。
训练集和测试集的比例:测试集小则评估结果的方差较大, 训练集小则评估结果的偏差较大 保真性:测试集较多时,降低保真性 常用做法:将数据集中2/3--4/5的样本用于训练。
交叉验证/k折交叉验证
定义:将数据集平均分为k份,互斥子集,将k-1 份作为训练集,余下的那一份作为测试集,进行k次 最后将k次的结果取平均值,p次k折交叉验证
留一法:进行k次,那个k正好等于m(样本数量), 优点:在数据集较少时,训练集与数据集只差一个 样本,这样会使评估结果非常准确; 缺点:当数据集较大时,计算开销非常大
自助法
定义:每一次从数据集中随机选择一个样本,放入训练集中,然后再放回,反复进行m次
大约有这些样本始终不被抓到
自助法适用于数据集较小,难以划分训练集和测试集时
调参
大多数模型都有自己的参数,而且是实数、还不止一个,因此,参数的选择也会影响模型的优劣。
现实中,常用的办法就是,先设定一个范围,再设定一个步长,然后从有限的参数中找到最优的。
模型评估选择完成后,我们还得让模型再把所有的数据集再训练一遍,这才是我们想要的。
性能度量
错误率和精度
查准率查全率和F1
分类结果混淆矩阵
查准率
查全率
P-R曲线
按照最可能是正例,进行排序,依次将样本作为正例进行预测,可以得到查准率,查全率
谁包住谁,包住别人的优
BEP度量
平衡点:找查准率等于查全率的点,点越大越好
F1度量
根据查准率、查全率影响大小不一样
如果有多个混淆矩阵呢
宏
宏查准率
宏查全率
宏F1
微
微查准率
微查全率
微F1
ROC和AUC
真正例率
假正例率
ROC曲线
比较
(没有交叉)跟P-R曲线类似,包住别人的比较强
(有交叉)看面积,即AUC,
代价敏感错误率和代价曲线
非均等代价
二分类代价矩阵
比较检验
什么是假设检验
交叉验证t检验
McNemar
Frideman检验和Nemenyi后续检验
偏差和方差