导图社区 数据探索与预处理
数据探索与预处理的知识点总结,详细的总结了数据清洗,数据集成,数据变化,数据归纳的知识点。希望对大家有帮助哦~
数据探索与预处理的思维导图,数据探索与预处理,包括数据属性,类型,数据的统计描述,数据相似性度量,数据集成,数据变化等等内容。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
数据探索与预处理
2.1 数据属性类型
定性
a.标称属性:值是一些符号或事物的名称,每个值代表某种类别、编码或者状态(常见的二元属性只有0和1两种类别)
b.序数属性:值有顺序,属性的一个定性描述,相邻值之间的差是未知的(如“中份”比“小份”大多少是未知的)
c.数值属性:定量的、有序的、用整数或实数值表示
d.离散属性与连续属性
2.2 数据的统计描述
2.2.1 中心趋势度量:均值、中位数和众数
2.2.2 度量数据散布
2.3 统计描述图形
直方图
散点图
箱型图
小提琴图
2.4 数据相似性度量
2.4.1 数据矩阵与相异性矩阵
2.4.2 标称属性的相异性度量
2.4.3 二元属性的相异性度量
2.4.4 数值属性的相异性
2.4.5 序数属性的邻近性度量
2.5 数据清洗
2.5.1 缺失值处理
忽略元组
人工填写缺失值
使用属性的均值填充缺失值
使用全局常量填充缺失值
使用与给定元组属于同一类的所有样本的属性均值
使用最可能的值填充缺失值
回归分析、基于推理的工具或者决策树决定
使用填充算法来处理缺失值
2.5.2 噪声数据处理
分箱法
考虑相邻的值,局部平滑方法;目的是将离散数据离散化,增加粒度
按箱平均值平滑
按箱中值平滑
按箱边界值平滑
回归
用一个函数拟合数据来平滑数据
聚类
检测离群点,相似的值组织成群,集合之外的值视为离群点
2.5.3 异常值处理
也叫作不一致数据处理,异常值通常叫做离群点
删除异常值
不处理
平均值替代
视为缺失值
发现异常值的方法
基于模型检测
基于距离检测
基于密度检测
基于聚类检测
2.6 数据集成
2.6.1 实体识别问题
2.6.2 冗余和相关分析
标称数据的卡方检测
数值数据的相关系数
数值数据的协方差
元组级检测
2.6.3 数据冲值冲突的检测与处理
2.7 数据变换
2.7.1 数据变换策略概述
平滑
属性构造
聚集
规范化
离散化
由标称数据产生概念分层
2.7.2 数据规范化
最大最小规范化
零均值标准化
Z-Score 的优点是算法简单,不受数据量级影响,结果易于比较。不足在于,它需要数据整体的平均值和方差,而且结果没有实际意义,只是用于比较。
2.7.3 数据离散化和概念分层
2.8 数据归约
2.8.1 数值归约
无参的数值
抽样
数据立方体聚集
有参的数值
对数线性模型,近似于离散多维概率分布
2.8.2 属性归约
属性子集选择
逐步向前选择(添加)
逐步向后删除
决策树归纳
主成分分析
等深分箱法、等宽分箱法
描述对象特征,而不给出具体数值,通常代表类别