导图社区 数据挖掘
这里为大家整理了数据挖掘课程的重要知识点,图文结合的方式能让大家有一个更清晰的认识。数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。
编辑于2021-04-05 02:33:32这里为大家整理了数据挖掘课程的重要知识点,图文结合的方式能让大家有一个更清晰的认识。数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。
时间序列分析 王燕版 课堂笔记。时间序列分析(是指将原来的销售分解为四部分来看——趋势、周期、时期和不稳定因素,然后综合这些因素,提出销售预测。强调的是通过对一个区域进行一定时间段内的连续遥感观测,提取图像有关特征,并分析其变化过程与发展规模。当然,首先需要根据检测对象的时相变化特点来确定遥感监测的周期,从而选择合适的遥感数据。
社区模板帮助中心,点此进入>>
这里为大家整理了数据挖掘课程的重要知识点,图文结合的方式能让大家有一个更清晰的认识。数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。
时间序列分析 王燕版 课堂笔记。时间序列分析(是指将原来的销售分解为四部分来看——趋势、周期、时期和不稳定因素,然后综合这些因素,提出销售预测。强调的是通过对一个区域进行一定时间段内的连续遥感观测,提取图像有关特征,并分析其变化过程与发展规模。当然,首先需要根据检测对象的时相变化特点来确定遥感监测的周期,从而选择合适的遥感数据。
数据挖掘
分类
分类 1
预备知识
分类
分类定义:分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y.
目标函数
也称为分类模型
描述性建模
预测性建模
解决分类问题的一般方法
分类法
使用一种学习算法确定分类模型,该模型能够很好地拟合输入数据中类标号和属性集之间的联系; 该模型不仅要很好地拟合输入数据,还要能够正确地预测未知样本的类标号 所以训练算法的主要目标就是建立具有很好的泛化能力模型,及建立能够准确预测未知样本类标号的模型
相关概念
混淆矩阵
分类模型的性能根据模型的正确和错误预测的检验记录计数进行评估,这些计数存放的表格就被称为混淆矩阵。
准确率、错误率
定义 局限性 考虑二类问题,类0的数目为9990,类1的数目为10, 如果模型预测所有的东西都是类0,准确度为99.9% 准确率具有误导性,因为模型没有检测到任何一个类
决策树
工作原理
决策树是一种由结点和有向边组成的层次结构,是一种简单单广泛使用的分类计数。树结构中有三种节点, 根结点 内部结点 叶结点
根结点
没有入边,但有零条或多条出边
内部结点
恰有一条入边,二条出边或多条出边
叶结点
亦称为终结点,有一条入边,但没有出边
建立
Hunt算法
设计问题
如何分裂训练计划
如何停止分裂过程
表示属性测试条件的方法
属性
二元属性
标称属性
序数属性
连续属性
选择最佳划分的度量
二元属性划分
标称属性划分
连续属性划分
增益率
结点不纯度的三种测度
定义 计算
Gini指标
Entropy熵
分类误差率
决策树归纳算法
例子
Web机器人检测
决策树归纳的特点
模型评估
模型的过分拟合
基本概念
误差
训练误差 泛化误差 泛化误差倾向于大于训练误差
二维数据过分拟合的例子
原因分类
噪声导致的过分拟合
缺乏代表性样本
多重比较过程
解决 对泛化误差进行估计
再代入估计
结合模型复杂度
奥卡姆剃刀原理 如果两种模型有相似的泛化误差,我们应该更倾向与更简单的模型而不是更复杂的模型。 对于复杂的模型,有更大的可能是由于数据中的误差而被意外地拟合,因此在评估模型时,应该包括模型复杂性
悲观误差评估
最小描述长度原则
习题九
估计统计上界
使用确认集
处理决策树归纳中的过分拟合
先剪枝(提前中止原则)
后剪枝
用新的叶结点替换子树
用子树最常使用的分支代替子树
以web机器人检测为例
评估分类器的性能
保持方法(Holdout)
随机二次抽样
交叉验证
自助法
比较分类器的方法
估计准确度的置信区间
比较二个模型的性能
比较二个分类法的性能
分类 2
基于规则的分类器
引言
分类规则的质量
覆盖率 准确率
工作原理
规则集性质
互斥规则
规则集中不存在二条规则被同一条记录触发,则称规则集互斥
穷举规则
对于属性值的任一组合,规则集中都存在一条规则能够覆盖,则称规则集为穷举
两条性质共同作用,保证每一条记录都能被且仅被一条规则覆盖
规则的排序方案
基于规则的排序方案
基于类的排序方案
建立基于规则的分类器
直接法
顺序覆盖
RIPPER算法
规则增长
建立规则集
Learn-One-Rule函数
规则增长策略
规则评估
规则剪枝
间接方法
规则产生
规则排序
基于规则的分类器的特征
表达能力几乎等价于决策树
通常被用来产生更易于解释的描述性模型
被很多基于规则的分类器(如RIPPER)所采用的基于类的规则定序方法非常适用于处理类分布不平衡的数据集
最近邻分类器
思想 把每个样例看做d维空间上的一个数据点,其中d为属性个数。给定一个测试样例,使用一种邻近性度量,计算该测试样例与训练集中其他数据点的邻近度。 给定样例z的k-最近邻是指和z距离最近的k个数据点。 k值选择的影响
定义
算法
特征
贝叶斯分类器
贝叶斯定理
在分类中的应用
朴素贝叶斯分类器
条件独立性
工作原理
估计分类属性的条件概率
估计连续属性的条件概率
举例
条件概率的m估计
分类器的特征
贝叶斯误差率
贝叶斯信念网络
区别和联系
区别 朴素贝叶斯分类器假设属性条件独立,贝叶斯信念网络则不要求给定类的所有属性都条件独立,而是指定哪些属性条件独立 联系
模型表示
使用BBN进行推理举例
BBN的特点
人工神经网络
感知器
多层人工神经网络
学习ANN模型
ANN学习中的设计问题
人工神经网络的特点
优点和缺点
普适近似 近似任何目标函数
处理冗余特征
对训练数据的噪声非常敏感
ANN权值学习梯度下降常收敛到局部极小值(避免的方法是在权值更新公式中加入一个动量项
训练ANN模型比较耗时,但测试分类很快,精度高
支持向量机
最大边缘超平面
线性支持向量机(可分)
线性支持向量机(不可分)
非线性支持向量机
组合方法
构建组合分类器的方法
组合方法的基本原理
偏倚-方差分解
装袋
提升
随机森林
组合方法的实验方法
不平衡问题
不平衡类会产生哪些问题,基于抽样如何应对
可选度量
接受者操作特征曲线
代价敏感学习
基于抽样的方法
多类问题
关联分析
关联 1(基本概念和算法)
问题定义
二元表示
项集和支持度计数
关联规则
支持度
置信度
关联规则发现
关联规则挖掘任务
频繁项集产生
规则产生
频繁项集的产生
减少候选项集的数目(Apriori算法)
相关原理
先验原理
反单调性
基于支持度的剪枝
Apriori算法的频繁项集产生
候选的产生与剪枝
支持度计数
计算复杂度
减少比较次数
规则产生
置于置性度的剪枝
Apriori算法的规则产生
例子
产生频繁项集的其他方法
频繁项集的紧凑表示
极大频繁项集
闭频繁项集
闭项集
FP增长算法
关联模式的评估
倾斜支持度分布的影响
关联 2
处理分类属性
1、对称与非对称二元属性
处理连续属性
处理概念分层
序列模式
2、序列模式发现
3、修订的先验原理
子图模式
4、频繁子图挖掘
非频繁模式
5、非频繁模式
探索数据
鸢尾花数据集
汇总统计
1、熟悉基本的汇总统计、位置度量和散布度量测度,离群点;
可视化
2、少量属性的可视化技术(茎叶图、直方图、盒状图、饼图、散布图);
3、可视化的时间空间数据(等高线图、曲面图、矢量场图);
OLAP和多维数据分析
4、可视化高维数据(矩阵、平行坐标系、星形坐标和Chernoff脸)
数据
概念
什么是数据挖掘
数据挖掘与知识发现过程
数据挖掘要解决的问题
起源
数据挖掘的任务
任务分类
数据
数据类型
1、数据类型;
2、数据集的一般特性;
数据质量
3、精度、偏倚和准确率
数据预处理
6、维灾难
相似形和相异性的度量
4、不同的距离测度
5、临近性度量(简单匹配系数、Jaccard系数,余弦相似度);
浮动主题
浮动主题
解决
使用默认的类划分
解决
有序规则
按照优先级降序排列(如准确率、覆盖率、总描述长度、规则产生顺序),由最高秩分类。
无序规则
用投票策略
实验
分类
3 决策树
4 最近邻、贝叶斯
5人工神经网络
6 支持向量机
7 集成学习
12 聚类分析
9 关联分析
8 非平衡类处理问题
2 探索数据
1 R基操