导图社区 数据挖掘与分析技术思维导图
利用人工智能、机器学习、统计学等方法从海量的数据中提取有用的、事先不为人知的模式或知识的计算过程。
编辑于2021-12-27 22:46:49数据挖掘与分析技术
第一章 数据挖掘概述
课前了解
总括
机器学习
操作流程
数据导入
数据预处理
特征工程
拆分
训练模型
评估模型
预测新数据
人工智能
大数据的特点
大量
多样
高速
价值
1.1数据挖掘导论
定义
利用人工智能、机器学习、统计学等方法从海量的数据中提取有用的、事先不为人知的模式或知识的计算过程
背景
数据量急剧膨胀,产生了新的研究方向:基于数据库的知识发现,以及相应的数据挖掘理论和技术的研究
网络之后的下一个技术热点
大量信息再给人们带来方便的同时也带来了一大堆问题
信息过量,难以消化
信息真假难以辩识
信息安全难以保证
信息形式不一,难以统一处理
数据爆炸但知识贫乏
从商业数据到商业信息的进化
数据搜集→数据访问→数据仓库、决策支持→数据挖掘(提供预测性信息)
阶段
数据预处理
清洗、集成、选择、变换
数据挖掘
模式评估
流程
数据、信息、知识
数据
“8000m”、“10000m”
产生于对客观事物的观察与测量,我们把被研究的客观事物称为实体
信息
“8000m是飞机飞行最大高度”、“10000m的高山”
知识
“飞机无法翻越这座高山”
智慧
主要内容
关联规则挖掘
啤酒和尿布
监督式机器学习
离散标签预测—标签分类
连续标签预测—数值预测
非监督式机器学习—聚类(相似性算法)
回归
建立多个变量之间的定量关系
算法的分类
监督学习
从给定的训练数据中学习一个函数(模型),当新的数据到来时,可以根据这个函数(模型)预测结果
训练数据有明确的标识或结果
回归算法、神经网络、SVM支持向量机
回归算法
线性回归
处理数值问题,最后预测结果是数字,如:房价
逻辑回归
属于分类算法,如:判断邮件是否为垃圾邮件
神经网络
应用于视觉识别、语音识别
SVM支持向量机算法
逻辑回归算法的强化
无监督学习
训练数据不被特别标识
聚类算法、降维算法
聚类算法
计算种群中的距离,根据距离的远近将数据划分为多个族群
降维算法
将数据从高维降低到低维,维度表示数据的特征量的大小,如:房价包含房子的长、宽、面积、房间数量四个特征,即维度为4维的数据,而长与宽事实上与面积表示的信息重叠了,面积=长×宽,通过降维出去冗杂信息
压缩数据、提升机器学习效率
企业数据应用
半监督学习
如何利用少量的标注样本和大量的未标注样本进行训练和分类问题
图像识别
强化学习
学习对象根据观察到的周围环境的反馈做出判断
机器人控制
1.2数据挖掘基本流程及方法
基本方法
预测性挖掘
在当前数据上进行推断,以进行预测
描述性挖掘
刻画数据库中数据的一般特性(相关、趋势、聚类、异常……)
数据挖掘流程图
六中主要的数据挖掘方法(P6)
对数据集的概要总结
数据的关联规则
描述数据之间潜在联系的一种方式,通常用A-B的蕴含式来表示
分类与预测
聚类
异类检测
时间序列模型
1.3数据挖掘的应用
商务
医疗与医学
银行和保险
社交媒体
工具
Weka、matlab、Java
相关资料
子主题
第二章 数据描述与可视化
2.1概述
分析数据属性与数据值→数据描述与可视化
2.2数据对象与属性类型
数据集
由数据对象组成
销售数据库:客户、商店物品、销售额 医疗数据库:患者、治疗信息 大学数据库:学生、教授、课程信息
数据对象
一个数据对象代表一个实体
称为:样本、示例、实例、数据点、对象、元组
属性
数据对象的一个特征
术语
数据库:维
机器学习:特征
统计学:变量
数据挖掘、数据库:属性
分类
标称属性
标称属性值是一些符号或事物的名称,代表类别和名称
标称属性:头发颜色,可能值:黑、白、棕 标称属性:婚姻状态,可能值:已婚、单身、离异、丧偶
二元属性(特殊的标称属性)
只有两个类别和状态
对称二进制
数据规模差别小 例:性别——男、女
不对称二进制
数据规模差别大 例:医疗测试——阴性、阳性
序数属性
有顺序,但相互之间的差值未知,通常用于等级评定
教师职称、军阶、顾客满意度
数值属性
区间标度属性
以单位长度顺序性度量
比率标度属性
具有固定零点,有序且可以计算倍数
离散属性与连续属性
2.3数据的基本统计描述
中心趋势度量
平均数、中位数、众数
度量数据的散布
极差、四分位数、四分位数极差
五数概括、盒图与离群点
方差、标准差
数据基本统计的图形描述
分位数图
分位数——分位数图
直方图
高度——数量、频率
散点图
发现属性之间的相关性
2.4数据可视化
定义
通过图形有效地表达数据
三中可视化方法
箱线图(盒图)
分析多个属性数据的离散度差异性
可显示数据的分布、显示离群点(需删除)
直方图
分析单个属性在各个区间的变化分布
散点图
显示两组数据的相关性分布
2.4.1基于像素的可视化
可视化一维值的简单方法就是使用像素,用像素的颜色反映该维的值
适用于一维值,不适用多维空间数据的分布
2.4.2几何投影可视化
帮助用户发现多维数据的投影,几何投影技术的首要挑战是设法解决如何在二维可视化高维空间
对于二维数据点,通常用直角坐标系散点图,在散点图中可以使用不同的颜色或形状作为数据的第三维
(三维数据集使用)散点图、散点图矩阵、平行坐标可视化(维数较多的时候)
2.4.3基于图符的可视化
用少量图符表示多维数据值
两种常用的图符方法
切尔诺夫脸 (允许可视化多达36维)
揭示数据中的变化趋势
脸的眼、口、鼻等要素用不同形状、大小、位置和方向来表示维的值
每张脸表示一个n维数据点(n≤18),通过识别面部微小差异理解多种面部特征的含义
人物线条画
2.4.4层次可视化
把所有维划分成子集(即子空间),这些子空间按层次可视化
两种常用的层次可视化方法
X轴Y轴子集层次化
数图
2.4.5可视化复杂对象和关系
标签云
2.5数据相似性和相异性度量
概念
相似度
度量两个数据对象的有多相似,值越大越相似,通常取值范围为[0,1]
相异度
度量两个数据对象的差别程度,值越小表示数据越相似,最小相异度通常为0
邻近性
指相似度或相异度
提供两种数据结构
数据矩阵(对象——属性矩阵)
存放n个数据对象,n各数据对象就有n行,p个属性特征就有p列)
相异性矩阵(对象——对象矩阵)
用于存放数据对象的相异性值
通常是三角矩阵
标称属性的邻近性度量
二元属性的邻近性度量
数值属性的相异性
数值属性对象相异性的常见几种计算距离度量的方法
欧几里得距离
曼哈顿距离
欧与曼同时满足以下性质
闵可夫斯基距离
欧与曼的推广
上确界距离
给出对象的差的最大值
序数属性的邻近性度量
混合型属性的相异性
每种类型的属性分成一组,对每种类型分别进行数据挖掘分析(如聚类分析) 如果这些分析得到相同的结果,则方法可行,但在实际应用中,对每种属性类型分类很难得到相同的结果
更好的方法:只需做一次分析,将不同属性组合在单个相异性矩阵中,把属性转换到共同的区间[0.0,0.1]
例题
子主题
余弦相似性(了解即可)
文本检索、生物信息挖掘
文档向量、词频率向量
频向量通常很长,并且是稀疏的(有许多0值)
第七章 支持向量机
支持向量机的分类
线性二值分类问题
寻找最优超平面
第六章 分类与预测
6.1数据分类
连续的变量
身高、体重
分类变量
无序分类变量
有序分类
数据分类的一般方法
定类、定序、定距、定比
6.2决策树模型
生成决策树
修剪决策树
6.2.1决策树的工作原理
6.3贝叶斯分类模型
极大后验假设
学习器在候选假设集合H中西南召给定数据D时可能性自大的假设h,h被称为极大后验假设
需要求联合概率
通常假设每个属性都是独立同分布的
在此之前要进行相关性计算,进行合并,使属性间的相关性最小
特点
属性可以离散,也可连续
数学基础坚实,分类效率稳定
对缺失、噪音数据、离群点不太敏感
属性如果不相关,分类效果很好
6.4线性判别模型
6.5逻辑回归模型
6.6模型的评估与选择
第五章 关联规则挖掘
5.1概述
概念
关联规则挖掘用于挖掘事物数据库中项集间的相关联系,挖掘出满足支持度和置信度最低阀值要求的所有关联规则
关联规则是找出大量数据中数据项之间潜在的、有用的依赖关系
频繁项集
满足最小支持度、最小可信度的项集
支持度
可信度
强规则
满足或超过最小支持度和可信度的规则
数据挖掘的主要步骤
在大数据的项集中,找到出现次数≥频繁项集
从上面所得的频繁项集,建立满足最小支持度和可信度条件的关联规则
5.2分类
5.3研究步骤
5.4 Apriori算法分析
5.6关联规则的推广(GRI)
深度优先搜索
5.7关联规则的深入挖掘
第四章 数据的归约(Data Reduction)
4. 1 概述保持
保持数据原貌的前提下最大程度地精简数据
4.2属性的选择与数值归约
属性的评估准则(P58)
一致性测量
两个属性一致性程度
受教育程度与VIP等级的一致性程度
关联性测量
不同属性之间的关联性是指它们之间彼此依赖的关系
受教育程度与VIP等级的关联度
两个属性之间的关联度越高,表明由其中一个属性的值推断另一个属性的值的准确率越高
鉴别能力测量
某一属性对数据库中的记录的区分能力
信息量测量
一个属性包含的信息量越大,则它越重要
信息量的大小通常以“信息熵”来衡量
属性子集选择方法
逐步向前选择
设置目标属性集为空
每次迭代都从原始数据集剩下的属性中选择最优的一个属性添加到目标属性集中
从原始数据集中删除该属性
重复此过程,直至目标集满足要求为止
逐步向后选择
先将原始属性集赋值非目标属性集
每次迭代从目标属性集中剔除综合评分最差的一个属性
重复此过程,直到目标属性集满足要求为止
数值归约
将属性作变量变换以减少其动态范围
简单函数变换
数据的标准化
将属性离散化,用整数进行编码
等宽离散化、等深离散化
将属性二元化,使其只有两种取值
如果属性值是信号或图像,还可以进行压缩编码
4. 3 线性回归
定义
是研究单一依变项与一个或以上自变项之间的关系
用处
预测指的是用已观察的变量来预测依变项
因果分析则是将自变项当作是依变项发生的原因
线性回归
多元回归
非线性回归
对不呈线性依赖的数据建模
使用多项式回归建模方法,然后进行变量变换,将非线性模型转换为线性模型,然后用最小二乘法求解
4. 4 主成分分析(PCA Principal Component Analysis)
常用的高维数据降维方法
将原始变量做线性组合,通过少数几个组合变量反映原始数量的全部或绝大部分信息
组合变量即主成分
第三章 数据的采集和预处理(清洗、集成、归约、变换)
3.1概述
大数据采集的特点
大数据生命周期的第一个环节
相对于传统数据,大数据的数据具有海量、多样、异构等特点
大数据从采集到处理需要权衡一致性、可用性、分区容错性
大数据采集的方法(了解)
分布式系统的日志采集
网络数据采集
网络爬虫、网站公开API(应用程序接口)
DPI深度包检测
DFI深度/动态流检测
特定系统接口数据采集
3.2数据预处理的目的和任务
目的
提高数据的质量
主要任务
数据清洗
清楚数据中的噪声,纠正不一致
数据集成
将数据由多个数据源合并成一致的数据存储,如数据仓库
数据变换(如规范化)
将数据压缩到较小区间
3.3数据清洗
本质是一各修改数据模型的过程
数据清洗路径(了解)
1.缺失值清洗
删除缺失值
均值填补法
热卡填补法
最近距离决定填补法
回归填补法
多重填补方法
k—最近邻法
基于贝叶斯的方法
2.异常值(离群点、野值)清洗
异常值定义与识别
异常值的处理
3.格式内容清洗
4.逻辑错误清洗
去重
去除不合理值
5.非需求数据清洗
6.关联性验证
3.4数据集成
概念
传统意义上的数据集成
将自多个数据存储的数据合并并存放在一个数据存储中,如存放在数据仓库中
泛指意义上的数据集成
ETL—抽取、转换、加载(至目的端) 是构建数据仓库的重要一环
用户从数据源抽出所需数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去
模型的重要性
对数据做标准化定义,实现统一的编码、分类和组织
整合多个数据库经常发生数据冗余
检测冗余属性
相关性分析
离散变量
卡方测试
值越大越相关
连续变量
相关系数
等于1、-1,完全线性相关
大于0,正相关
等于0,无线性相关关系
小于0,负相关
协方差分析
大于0,正相关
等于0,独立性
有些数据协方差为0,但不是独立的
小于0,负相关
数据归约策略
降维
需要降维的场景
数据稀疏,维度高
高维数据采用基于规则的分类方法
采用复杂模型(如深度学习),但是训练集数目较少
需要可视化
典型降维方法——PCA主成分分析
介绍
数据中很多属性之间坑存在这样或那样的相关性
能否找到一个方法,将多个相关性的属性组合仅仅形成一个属性
概念
将原来多个具有一定相关性的属性(比如p各属性)重新组合成一组相互无关的综合属性来代替原来属性。通常数学上的处理就是将原来p各属性作线性组合,作为信访人综合属性
举例:学生成绩,语数外政史地理化生,分为文科理科两种属性
降数据——抽样
数据压缩
通过降低数据的质量,如像素,来降低数据的规模
3.5数据变换
数据变换策略
光滑、属性构造、聚集、规范化、离散化、概念分层
常用数据变换方法
通过规范化变换数据
通过分箱离散化
通过直方图分箱离散化
通过聚类、决策树和相关分析离散化
标称数据的概念分层
离散化
等宽法
等频法
聚类法