导图社区 第二章 数据探索与预处理(1)
第二章 数据探索与预处理, 内容涵盖数据属性,类型,数据的统计描述,数据相似性度量,数据清洗,数据变换,数据归纳。小伙伴们赶快学习起来吧~
社区模板帮助中心,点此进入>>
互联网9大思维
安全教育的重要性
组织架构-单商户商城webAPP 思维导图。
个人日常活动安排思维导图
域控上线
西游记主要人物性格分析
17种头脑风暴法
python思维导图
css
CSS
第二章 数据探索与预处理
2.1数据属性类型
标称属性(定性): 标称属性的值是一些符号或事物的名称。
二元属性(布尔属性): 只有两个类别或状态。
1)对称二元属性:“男、女”
2)非对称二元属性:“阴性、阳性(用于医疗检测)”
序数属性(定性): 序数属性的值有顺序,往往是属性的一个定性描述,相邻值之间的差是未知的。
例:成绩等级“优、良、中、及格、不及格”
数值属性(定量): 数值属性是定量的、有序的,用整数或实数值表示。
1)区间标度属性: 区间标度属性用相等的单位尺度度量。
例:“日期、温度”
2)比率标度属性: 比率标度属性的度量是比率,可以用比率来描述两个值的关系。
例:“体重”
离散属性与连续属性
离散属性具有有限个值或可数无穷多个值。
连续属性一般用浮点变量表示。
2.2数据的统计描述
2.2.1中心趋势度量
均值
令X1,X2,……, Xn为数值属性X的的N个观测值,该值集合的均值如式所示:
对于i=1,2,3,……,N,每个值Xi可以与一个权重Wi相关联。权重反映他们所依附的对应值的重要性或出现的频率等。考虑权重的平均值称为加权平均值,如式所示:
中位数
中位数是有序数据的中间值,是把数据较高的一半与较低的一半分开的值。
众数
众数是集合中出现最频繁的值。
2.2.2度量数据散布
1.极差、分位数、四分位数和四分位间距
极差:设X1, X2 ,……,Xn是数值属性X上的值的集合,该集合的极差是最大值与最小值之差。
分位数:分位数是在数据中每隔一定间隔所取的点,它把数据划分成基本上大小相等的连贯集合。
四分位数
第一个四分位数记做Q1,是第25个百分位数,它“砍掉”数据的最低1/4。
第二个四分位数记住Q2,是第50个百分位数,作为中位数,它给出数据的中心。
第三个四分位数记作Q3,是第75个百分位数,它“砍掉”数据的最低3/4。
四分位间距
第1个和第3个四分位数之间的距离是数据散布程度的一种简单度量,它给出被数据的中间一半所覆盖的范围。该距离称为四分位间距,定义式为:IQR=Q3-Q1。
2.方差和标准差
方差:数值属性X的N个观测值X1,X2,……,Xn的样本方差用式计算:
标准差:观测值的标准差δ是方差δ2的平方根。
3.协方差和协方差矩阵
协方差:表示的是两个变量的总体误差,也就是度量两个变量线性相关的程度。N个样本的样本协方差计算公式如下:
协方差矩阵:由数据集中两两变量(属性)的协方差组成。矩阵的第(i,j)个元素是数据集中第i个和第j个元素的协方差。例如,三维数据集的协方差矩阵如下所示:
2.3统计描述图形
1.直方图
直方图又称频率直方图和或条形图,是一种显示数据分布情况的柱形图,它反映不同数据出现的频率。
2.散点图
散点图又称散点分布图,是反应因变量随自变量而变化的大致趋势的图形。
3.箱型图
箱形图又称为盒形图,是一种用于显示一组数据分散情况的统计图。
离群点被定义为小于Q1-1.5 IQR或大于Q3+1.5 IQR的值。
4.小提琴图
小提琴图结合了箱型图和密度图(或直方图)的特征,用于显示数据分布及其概率密度,主要用来显示数据的分布形状。
白点是中位数,粗黑线的范围是下四分位点到上四分位点,细黑线表示95%的置信区间。
2.4数据相似性度量
2.4.1数据矩阵与相异性矩阵
2.4.2标称属性的相异性度量
2.4.3二元属性的相异性度量
2.4.4数值属性的相异性
2.4.5序数属性的邻近性度量
2.5数据清洗
2.5.1缺失值处理
(1)忽略元组
(2)人工填写缺失值
(3)使用属性的均值填充缺失值
(4)使用一个全局常量填充缺失值
(5)使用与给定元组属性同一类的所有样本的属性均值
(6)使用最可能的值填充缺失值
(7)使用填充算法来处理缺失值
2.5.2噪声值处理
1.分箱法:是指通过考查相邻的值来平滑数据的值。 按照取值的不同可划分为按箱平均值平滑、按箱中值平滑、按箱边界值平滑。
等深分箱方法
等宽分箱方法
2.回归:可以用一个函数拟合数据来平滑。 在线性回归中,把远离直线的点视为离群点。
3.聚类:可以通过聚类检测离群点,将类似的值组织成群,将落在簇集合之外的值视为离群点。
2.5.3异常值处理
1.发现异常值处理方法
(1)删除异常值
(2)不处理
(3)平均值代替
(4)视为缺失值
2.发现异常值的常用方法
(1)3δ原则
(2)箱型图
(3)基于模型检测
(4)基于距离检测
(5)基于密度检测
(6)基于聚类检测
2.6数据集成
2.6.1实体识别问题
2.6.2冗余和相关性分析
2.6.3数据值冲突的检测与处理
2.7数据变换
2.7.1数据变换策略概述
(1)平滑
(2)属性构造
(3)聚集
(4)规范化
(5)离散化
(6)游标证数据产生概念分层
2.7.2数据规范化
1.最小最大规范化::将原始数据用线性方法转换到[0 ,1]区间。
2.零均值标准化:是通过中心化和标准化处理将原始数据集归一化为均值为0、标准差为1的数据集。其计算公式如下:
3.均值绝对偏差标准化
4.对数规范化:常见的形式是:-log2(x+1)
5.小数定标规范化
6.三角函数规范化
7.Sigmoid函数规范化
2.7.3数据离散化和概念分层
2.8数据归纳
2.8.1数值归约
直方图
聚类
抽样
数据立方体聚类
回归
对数线性模型
2.8.2属性归约
属性子集选择
主成分分析