导图社区 数据挖掘原理和算法
这是一篇关于数据挖掘原理和算法的思维导图,包含知识发现过程与应用结构:知识发现的基本过程、数据库中的知识发现处理过程模型;关联规则挖掘理论和算法。
社区模板帮助中心,点此进入>>
英语词性
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
法理
刑法总则
【华政插班生】文学常识-先秦
【华政插班生】文学常识-秦汉
文学常识:魏晋南北朝
【华政插班生】文学常识-隋唐五代
民法分论
数据挖掘原理和算法
知识发现过程与应用结构
知识发现的基本过程
KDD的处理过程
问题定义阶段的功能
数据抽取阶段的功能
数据预处理阶段的功能
数据抽取和预处理一般可能占到整个KDD过程的70%
数据挖掘阶段的功能
知识评估阶段的功能
数据清洗与预处理技术要点
数据预处理方法
数据清洗
数据变换
数据归纳
常用的不完整数据的修补办法
使用一个全局值来填充
统计该属性的所有非空值,并用平均值来填充空白缺项
只使用同类对象的属性平均值填充
利用回归或工具预测最可能的值,并用它来填充
噪声数据
是指那些明显不符合逻辑的偏差数据
消除噪声方法
利用分箱方法检验周围相应属性的值来进行局部数据平滑
利用聚类技术检测孤立点数据,对它们修正
利用回归函数探测和修正噪声数据
数据库中的知识发现处理过程模型
阶梯处理过程模型
螺旋处理过程模型
以用户为中心的处理模型
联机KDD模型
支持多数据源多知识模式的KDD处理模型
关联规则挖掘理论和算法
基本概念与解决办法
频繁项目集
通过用户给定的最小支持度,寻找所有频繁项目集
强关联规则
在每个最大频繁项目集中,寻找Confidence(可信度)不小于MinConfidence的关联规则
Apriori算法的性能瓶颈问题
多次扫描事务数据库,需要很大的开销
可能产生庞大的候选集
数据挖掘知识体系
数据挖掘技术产生与发展
新的挑战技术和方法
大容量
高速聚集
类型多样
价值巨大
概念
1.数据、信息和知识看作是广义数据的不同表现形式 2.知识是一种概念、规则、模式和规律等,他不想数据那么具体
数据挖掘研究发展趋势
数据挖掘技术与特定商业逻辑的平滑集成问题
数据挖掘技术与特定数据存储类型的适应性问题
大型数据的选择与规格化问题
数据挖掘系统的构架与交互式挖掘技术
数据挖掘语言与系统可视化问题
数据挖掘理论与算法研究
数据挖掘概念
从商业角度看
KDD与Data Mining的关系
KDD看成数据挖掘的一个特例
数据挖掘是KDD过程的一个步骤
KDD与Data Mining含义相同
数据挖掘理论架构
模式发现架构
规则发现架构
基于概率和统计理论
微观经济学观点
基于数据压缩理论
基于归纳数据库理论
可视化数据挖掘
数据挖掘常用的知识表示模式与方法
广义知识挖掘
广义知识是指描述类别特征的概括性知识
概念性描述方法
概念描述本质上就是对类对象的内涵特征进行概括
特征性描述
描述对象的共同特征
区别性描述
描述不同类对象之间的区别
多维数据分析
多层次概念描述问题
由数据归纳出的概念是有层次的,这些不同层次的概念是对原始数据的不同程度上的抽象
关联知识挖掘
反应一个事件和其他事件之间的依赖。
类知识挖掘
分类
分类的目的是学会一个分类模型(分类器)
决策树
贝叶斯分类
神经网络
遗传算法与进化理论
类比学习
其他
聚类
聚类是吧一组个体按照相似性归成若干类别,他的目的是使得属于同一个类别得个体之间得差别尽可能得小,而不同类别上的个体间差别尽可能得大
基于划分的聚类方法
基于层次的聚类方法
基于密度的聚类方法
基于模型的聚类方法
基于网格的聚类方法
预测型知识挖掘
预测型知识是指由历史的和当前的数据产生的并能预测未来数据趋势的知识
趋势预测模式
周期分析模式
序列模式
特异型知识挖掘
特异型知识是源数据中所蕴含的极端特例或明显区别于其他数据的知识描述,它揭示了事务偏离常规的异常规律。
孤立点分析
序列异常分析
特异规则发现