导图社区 数据探索与预处理
数据探索与预处理的思维导图,数据探索与预处理,包括数据属性,类型,数据的统计描述,数据相似性度量,数据集成,数据变化等等内容。
数据探索与预处理的知识点总结,详细的总结了数据清洗,数据集成,数据变化,数据归纳的知识点。希望对大家有帮助哦~
社区模板帮助中心,点此进入>>
安全教育的重要性
个人日常活动安排思维导图
西游记主要人物性格分析
17种头脑风暴法
如何令自己更快乐
头脑风暴法四个原则
思维导图
第二职业规划书
记一篇有颜又有料的笔记-by babe
伯赞学习技巧
数据探索与预处理
2.1 数据属性类型
定性
a.标称属性:值是一些符号或事物的名称,每个值代表某种类别、编码或者状态(常见的二元属性只有0和1两种类别)
b.序数属性:值有顺序,属性的一个定性描述,相邻值之间的差是未知的(如“中份”比“小份”大多少是未知的)
c.数值属性:定量的、有序的、用整数或实数值表示
区间标度属性:用相等的单位尺度度量
比率标度属性:度量为比率,可以用来描述两个值的关系
d.离散属性与连续属性
离散属性:具有有限个或者可数无穷多个值,可以具有数值
连续属性:一般用浮点变量表示
2.2 数据的统计描述
2.2.1 中心趋势度量:均值、中位数和众数
均值(最常用)
中位数(非对称)
众数
众数小于中位数则是正倾斜,反之则负
2.2.2 度量数据散布
a.极差、分位数、四分位数和四份四分位间距
b.方差和标准差:表示数据的散布程度
b. 协方差和协方差矩阵(衡量两个变量的总体误差)
协方差大于0正相关,小于0负相关,等于0无线性关系
协方差矩阵:由两两变量的属性组成(假设数据集有三个维度)
2.3 统计描述图形
直方图
又称为频率直方图或条形图,反应不同数据出现的频率,可以直观、快速地观察数据的分散程度和中心趋势
散点图
又称为散点分布图,反应因变量随自变量变化的大致趋势图形,直观的表现出影响因素和预测对象之间的总体关系趋势
箱型图
又称为盒形图,显示一组数据分散情况的统计图,由五个数值点构成:最小值、下四分位数、中位数、上四分位素和最大值,也可以加入平均值。有效帮助人们直观地识别数据集中的异常值(离群点),判断数据集的数据分散程度和偏向
小提琴图
结合了箱型图和密度图的特征,显示数据的分布及其概率密度
2.4 数据相似性度量
2.4.1 数据矩阵与相异性矩阵
数据矩阵
也称对象—属性结构
用关系表的形式或者n*p(n个对象和p个属性)矩阵存放n 个数据对象,每行对应一个对象,每一列对应一个属性
由两种实体组成,行(代表对象)和列(代表属性)
相异性矩阵
也称对象—对象结构
存放n个对象两两之间的邻近度,通常用一个n*n矩阵表示,d(i,j)是对象i和对象j之间的相异性或“差别”的度量,若矩阵对称,即d(i,j)=d(j,i)
sim(i,j)=1-d(i,j)
只含有一个实体(代表相异度)
2.4.2 标称属性的相异性度量
两个对象i和j之间的相异性可以用不匹配率来表示
d(i,j)=(p-m)/p
相似性可以用匹配率来表示
sim(i,j)=1-d(i,j)=m/p
2.4.3 二元属性的相异性度量
对称二元属性,每个状态都重要
d(i,j)=(r+s)/(q+r+s+t)
非对称二元属性
两个状态不是同等重要
相异性: d(i,j)=(r+s)/(q+r+s)
相似性:sim=(i,j)= q/(q+r+s)=1-d(i,j)
sim(i,j)被称为jaccard系数
2.4.4 数值属性的相异性
欧几里得距离:又称直线距离。
对称性:d(i,j)=d(j,i),及距离是一个对称函数
同一性:d(i,j)=0:对象到自身的距离为0
三角不等式:d(i,j)≤d(i,k)+d(k,j):从对象i到对象j的直接距离不会大于途径任何其他对象k的距离
曼哈顿距离:又称城市块距离。
闵科夫斯基距离
h>=1 h是一个实数,表示不是一种距离,而是一组距离。
当P=1时,表示曼哈顿距离;h=2时,表示欧几里得距离;h为无穷大时,表示切比雪夫距离
切比雪夫距离
马哈拉诺比斯距离
汉明距离
2.4.5 序数属性的邻近性度量
序数属性可以通过把数值属性的值域划分成有限个类别,对数值属性离散化得到。
2.5 数据清洗
2.5.1 缺失值处理
子主题
2.5.2 噪声数据处理
2.5.3 异常值处理
2.6 数据集成
2.6.1 实体识别问题
2.6.2 冗余和相关分析
2.6.3 数据冲值冲突的检测与处理
2.7 数据变换
2.7.1 数据变换策略概述
2.7.2 数据规范化
2.7.3 数据离散化和概念分层
2.8 数据归约
2.8.1 数值归约
2.8.2 属性归约
描述对象特征,而不给出具体数值,通常代表类别