导图社区第二章数据探索与预处理(1)

第二章数据探索与预处理(1)

第二章数据探索与预处理，内容涵盖数据属性，类型，数据的统计描述，数据相似性度量，数据清洗，数据变换，数据归纳。小伙伴们赶快学习起来吧~

编辑于2023-03-12 23:04:34 贵州

数据处理

小🧸维尼

他的近期作品查看更多>>

第二章数据探索与预处理(1)
第二章数据探索与预处理，内容涵盖数据属性，类型，数据的统计描述，数据相似性度量，数据清洗，数据变换，数据归纳。小伙伴们赶快学习起来吧~

第二章数据探索与预处理(1)

社区模板帮助中心，点此进入>>

小🧸维尼

他的近期作品查看更多>>

第二章数据探索与预处理(1)
第二章数据探索与预处理，内容涵盖数据属性，类型，数据的统计描述，数据相似性度量，数据清洗，数据变换，数据归纳。小伙伴们赶快学习起来吧~

相似推荐
大纲

互联网9大思维
- 38.1k
- 971
- 2.4k
- 402
- 0
MindMaster
安全教育的重要性
- 8.1k
- 939
- 100
- 18
- 0
issen
组织架构-单商户商城webAPP 思维导图。
- 17.3k
- 3
- 186
- 9
- 1
Kacyun
个人日常活动安排思维导图
- 8.8k
- 0
- 84
- 0
- 0
少儿栏目外景策划波波老师
域控上线
- 3.5k
- 169
- 11
- 4
- 0
jackrao
西游记主要人物性格分析
- 18.0k
- 1.4k
- 645
- 102
- 0
issen
17种头脑风暴法
- 210.5k
- 4.2k
- 11.9k
- 4.1k
- 1
MindMaster
python思维导图
- 8.2k
- 551
- 242
- 7
- 0
(*^▽^*)
css
- 3.0k
- 1
- 43
- 3
- 0
A张舫
CSS
- 5.3k
- 271
- 189
- 33
- 0
journey

第二章数据探索与预处理

2.1数据属性类型

标称属性（定性）: 标称属性的值是一些符号或事物的名称。

二元属性（布尔属性）: 只有两个类别或状态。

1）对称二元属性:“男、女”

2）非对称二元属性:“阴性、阳性（用于医疗检测）”

序数属性（定性）: 序数属性的值有顺序，往往是属性的一个定性描述，相邻值之间的差是未知的。

例:成绩等级“优、良、中、及格、不及格”

数值属性（定量）: 数值属性是定量的、有序的，用整数或实数值表示。

1）区间标度属性: 区间标度属性用相等的单位尺度度量。

例:“日期、温度”

2）比率标度属性: 比率标度属性的度量是比率，可以用比率来描述两个值的关系。

例:“体重”

离散属性与连续属性

离散属性具有有限个值或可数无穷多个值。

连续属性一般用浮点变量表示。

2.2数据的统计描述

2.2.1中心趋势度量

均值

令X1，X2，……， Xn为数值属性X的的N个观测值，该值集合的均值如式所示:

对于i=1，2，3，……，N，每个值Xi可以与一个权重Wi相关联。权重反映他们所依附的对应值的重要性或出现的频率等。考虑权重的平均值称为加权平均值，如式所示:

中位数

中位数是有序数据的中间值，是把数据较高的一半与较低的一半分开的值。

众数

众数是集合中出现最频繁的值。

2.2.2度量数据散布

1.极差、分位数、四分位数和四分位间距

极差:设X1， X2 ，……，Xn是数值属性X上的值的集合，该集合的极差是最大值与最小值之差。

分位数:分位数是在数据中每隔一定间隔所取的点，它把数据划分成基本上大小相等的连贯集合。

四分位数

第一个四分位数记做Q1，是第25个百分位数，它“砍掉”数据的最低1/4。

第二个四分位数记住Q2，是第50个百分位数，作为中位数，它给出数据的中心。

第三个四分位数记作Q3，是第75个百分位数，它“砍掉”数据的最低3/4。

四分位间距

第1个和第3个四分位数之间的距离是数据散布程度的一种简单度量，它给出被数据的中间一半所覆盖的范围。该距离称为四分位间距，定义式为:IQR=Q3-Q1。

2.方差和标准差

方差:数值属性X的N个观测值X1，X2，……，Xn的样本方差用式计算:

标准差:观测值的标准差δ是方差δ2的平方根。

3.协方差和协方差矩阵

协方差:表示的是两个变量的总体误差，也就是度量两个变量线性相关的程度。N个样本的样本协方差计算公式如下:

协方差矩阵:由数据集中两两变量（属性）的协方差组成。矩阵的第（i，j）个元素是数据集中第i个和第j个元素的协方差。例如，三维数据集的协方差矩阵如下所示:

2.3统计描述图形

1.直方图

直方图又称频率直方图和或条形图，是一种显示数据分布情况的柱形图，它反映不同数据出现的频率。

2.散点图

散点图又称散点分布图，是反应因变量随自变量而变化的大致趋势的图形。

3.箱型图

箱形图又称为盒形图，是一种用于显示一组数据分散情况的统计图。

离群点被定义为小于Q1-1.5 IQR或大于Q3+1.5 IQR的值。

4.小提琴图

小提琴图结合了箱型图和密度图（或直方图）的特征，用于显示数据分布及其概率密度，主要用来显示数据的分布形状。

白点是中位数，粗黑线的范围是下四分位点到上四分位点，细黑线表示95%的置信区间。

2.4数据相似性度量

2.4.1数据矩阵与相异性矩阵

2.4.2标称属性的相异性度量

2.4.3二元属性的相异性度量

2.4.4数值属性的相异性

2.4.5序数属性的邻近性度量

2.5数据清洗

2.5.1缺失值处理

（1）忽略元组

（2）人工填写缺失值

（3）使用属性的均值填充缺失值

（4）使用一个全局常量填充缺失值

（5）使用与给定元组属性同一类的所有样本的属性均值

（6）使用最可能的值填充缺失值

（7）使用填充算法来处理缺失值

2.5.2噪声值处理

1.分箱法:是指通过考查相邻的值来平滑数据的值。按照取值的不同可划分为按箱平均值平滑、按箱中值平滑、按箱边界值平滑。

等深分箱方法

等宽分箱方法

2.回归:可以用一个函数拟合数据来平滑。在线性回归中，把远离直线的点视为离群点。

3.聚类:可以通过聚类检测离群点，将类似的值组织成群，将落在簇集合之外的值视为离群点。

2.5.3异常值处理

1.发现异常值处理方法

（1）删除异常值

（2）不处理

（3）平均值代替

（4）视为缺失值

2.发现异常值的常用方法

（1）3δ原则

（2）箱型图

（3）基于模型检测

（4）基于距离检测

（5）基于密度检测

（6）基于聚类检测

2.6数据集成

2.6.1实体识别问题

2.6.2冗余和相关性分析

2.6.3数据值冲突的检测与处理

2.7数据变换

2.7.1数据变换策略概述

（1）平滑

（2）属性构造

（3）聚集

（4）规范化

（5）离散化

（6）游标证数据产生概念分层

2.7.2数据规范化

1.最小最大规范化::将原始数据用线性方法转换到[0 ，1]区间。

2.零均值标准化:是通过中心化和标准化处理将原始数据集归一化为均值为0、标准差为1的数据集。其计算公式如下:

3.均值绝对偏差标准化

4.对数规范化:常见的形式是:-log2（x+1）

5.小数定标规范化

6.三角函数规范化

7.Sigmoid函数规范化

2.7.3数据离散化和概念分层

2.8数据归纳

2.8.1数值归约

直方图

聚类

抽样

数据立方体聚类

回归

对数线性模型

2.8.2属性归约

属性子集选择

主成分分析

第二章 数据探索与预处理(1)

第二章 数据探索与预处理(1)

第二章数据探索与预处理(1)

第二章数据探索与预处理(1)