导图社区 数据挖掘之数据预处理方法
现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。
编辑于2022-04-19 16:57:17日本作家 芥川龙之介 1915年创作的短篇小说,情节取材于日本古典故事集《今昔物语》。 作品讲述了藤暮时分,罗生门下,一个家奴正在等候着雨停,当他茫然不知所措,仿若于生死未决时,偶遇以拔死人头发为生的一老妪,走投无路的家奴邪恶大发,决心弃苦从恶,剥下老妪的衣服逃离了罗生门。 该作情节简单,人物稀少,短短的篇幅,小小的场面。 时间、地点、人物、结局全都展现在读者的面前。
《投资学》是由三名美国知名学府的著名金融学教授撰写的优秀著作,是美国最好的商学院和管理学院的首选教材,在世界各国都有很大的影响,被广泛使用
《投资学》是由三名美国知名学府的著名金融学教授撰写的优秀著作,是美国最好的商学院和管理学院的首选教材,在世界各国都有很大的影响,被广泛使用。
社区模板帮助中心,点此进入>>
日本作家 芥川龙之介 1915年创作的短篇小说,情节取材于日本古典故事集《今昔物语》。 作品讲述了藤暮时分,罗生门下,一个家奴正在等候着雨停,当他茫然不知所措,仿若于生死未决时,偶遇以拔死人头发为生的一老妪,走投无路的家奴邪恶大发,决心弃苦从恶,剥下老妪的衣服逃离了罗生门。 该作情节简单,人物稀少,短短的篇幅,小小的场面。 时间、地点、人物、结局全都展现在读者的面前。
《投资学》是由三名美国知名学府的著名金融学教授撰写的优秀著作,是美国最好的商学院和管理学院的首选教材,在世界各国都有很大的影响,被广泛使用
《投资学》是由三名美国知名学府的著名金融学教授撰写的优秀著作,是美国最好的商学院和管理学院的首选教材,在世界各国都有很大的影响,被广泛使用。
二、数据预处理
为什么进行预处理数据?
现实世界的数据是“肮脏的”
不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据
含噪声的:包含错误或者“孤立点”
不一致的:在编码或者命名上存在差异
没有高质量的数据,就没有高质量的挖掘结果
数据质量
准确性
完整性
一致性
时效性:及时更新
可信性:数据是否被用户信赖
可解释性:数据是否容易理解
数据预处理方法
数据清理
空缺值,噪声数据,删除孤立点,解决不一致性
数据集成
集成多个数据库、数据立方体或文件
数据归约
得到数据集的压缩表示,但可以得到相同或相近的结果
数据变换
规范化和聚集
数据离散化
将连续数据进行离散处理
1、数据清理
空缺值
数据并不总是完整的
-例如:数据库表中,很多条记录的对应字段没有相应值,比如销售表中的顾客收入
引起空缺值的原因
- 设备异常
- 与其他已有数据不一致而被删除
- 因为误解而没有被输入的数据
- 在输入时,有些数据应为得不到重视而没有被输入
- 对数据的改变没有进行日志记载
空缺值要经过推断而补上
如何处理缺失值
忽略元组:当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。
人工填写空缺值:工作量大,可行性低
使用一个全局变量填充空缺值:比如使用unknown或-∞替换
使用属性的平均值填充空缺值
使用与给定元组属同一类的所有样本的平均值
使用最可能的值填充空缺值:使用像Bayesian公式或判定树这样预测的方法
例子:缺失值处理
噪声数据
噪声:一个测量变量中的随机错误或偏差
引起不正确属性值的原因
数据收集工具的问题
数据输入错误
数据传输错误
技术限制
命名规则的不一致
其它需要数据清理的数据问题
重复记录
不完整的数据
不一致的数据
如何处理噪声数据
分箱(binning):
首先排序数据,并将他们分到等深的箱中
然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等
price的排序后数据:4,8,15,21,21,24,25,28,34
划分为(等深的)箱:
箱1:4,8,15
箱2:21,21,24
箱3:25,28,34
用箱平均值平滑:
箱1:9,9,9
箱2:22,22,22
箱3:29,29,29
用箱边界平滑:
箱1:4,4,15
箱2:21,21,24
箱3:25,25,34
聚类:(监测并且去除孤立点)
回归
2、数据集成
数据集成:
将多个数据源中的数据整合到一个一致的存储中
模式集成:
- 整合不同数据源中的元数据
- 实体识别问题:匹配来自不同数据源的现实世界的实体,比如:A.cust-id=B.customer_no
检测并解决数据值的冲突
- 对现实世界中的同一实体,来自不同数据源的属性值可能是不同的
- 可能的原因:不同的数据表示,不同的度量等等
冗余数据
集成多个数据库时,经常会出现冗余数据
- 同一属性在不同的数据库中会有不同的字段名
- 一个属性可以由另外一个表导出,如“年薪”
仔细将多个数据源中的数据集成起来,能够减少或避免结果数据中的冗余与不一致性,从而可以提高挖掘的速度和质量。
有些冗余可以被相关分析检测到
数值型
相关分析:(correlation /covariance)
标称数据
卡方检验 ( χ2 (chi-square) test )
相关分析 (数值属性)
相关系数(皮尔逊相关系数)
n样本个数, A和B的对立事件 属性A和B上的平均值, σA and σB分别为各自标准差,Σ(aibi) is the AB叉积 cross-product之和。
If rA,B> 0, A and B 正相关 (A’s values increase as B’s). 值越大相关程度越高.
rA,B = 0: 不相关; rAB < 0: 负相关
Covariance(协方差):衡量两个变量的变化趋势是否一致
Correlation coefficient:
N样本个数, A和B的对立事件 属性A和B上的均值, σA and σB分别为各自标准差.
正covariance: If CovA,B > 0, 则A 和B 同时倾向于大于期望值.
负covariance: If CovA,B < 0,则如果 A大于其期望值, B is likely to be smaller than its expected value.
Independence: CovA,B= 0 but the converse is not true.
相关分析 (标称属性)
χ2 (chi-square) test 卡方检验
σij是(ai,bj)的观测频度(实际计数)
eij是(ai,bj)的期望频度
N数据元组的个数
自由度: (c-1)*(r-1)
3、数据归约
数据归约
用来得到数据集的归约表示,它小得多,但可以产生相同的(或几乎相同的)分析结果
数据归约策略
维归约:小波分析、PCA、特征筛选
数量归约:回归、聚类、采样、数据立方体聚集
数据压缩:使用变换
维归约
小波变换
保存小波较大的系数进行原始数据的压缩,主要用于图像分析中。
PCA
Principal component analysis(PCA),K-L变换
基本思想:找到一个投影,其能表示数据的最大变化
特征筛选
目的:通过删除不相干的属性或维减少数据量
挑战:d个属性有2d个可能的子集 (枚举所有几乎不可行)
策略:启发式的方法
逐步向前选择
逐步向后删除
向前选择和向后删除相结合
算法:信息增益(Information Gain)ID3
互信息(Mutual Information)
Relief
卡方分析
信息熵
信息熵:刻画系统的混乱程度
定义:
字符串: X= AACBCCCAAB, Y = ACAACAABAB
P(X=A) = 4/10, P(X=B) =2/10; P(X=C) = 4/10 P(Y=A) = 6/10, P(Y=B) =2/10; P(Y=C) = 2/10 H(X) = -(0.4*log20.4+0.2*log20.2+0.4*log20.4) = 1.52 H(Y) = -(0.6*log20.6+0.2*log20.2+0.2*log20.2) = 1.37
条件信息熵
刻画在已知X的基础上需要多少信息来描述Y
IG(Y|X) = H(Y) – H(Y|X)
基本思想:选择那些特征对分类变量Y信息增益大,删除那些对分类无用的特征。
数据压缩
有损压缩 VS. 无损压缩
字符串压缩
有广泛的理论基础和精妙的算法
通常是无损压缩
在解压缩前对字符串的操作非常有限
音频/视频压缩
通常是有损压缩,压缩精度可以递进选择
有时可以在不解压整体数据的情况下,重构某个片断
数量归约
基本思想:通过选择替代的、较小的数据表示形式来减少数据量
有参方法:使用一个参数模型估计数据,最后只要存储参数即可。
线性回归方法:Y=α+βX
多元回归:线性回归的扩充
对数线性模型:近似离散的多维数据概率分布
无参方法:
直方图
一种流行的数据归约技术
将某属性的数据划分为不相交的子集,或桶,桶中放置该值的出现频率
桶和属性值的划分规则
等宽
等深
V-最优
MaxDiff
聚类
将数据集划分为聚类,然后通过聚类来表示数据集
如果数据可以组成各种不同的聚类,则该技术非常有效,反之如果数据界线模糊,则方法无效
数据可以分层聚类,并被存储在多层索引树中
抽样
允许用数据的较小随机样本(子集)表示大的数据集
对数据集D的样本选择:
简单随机选择n个样本,不回放:由D的N个元组中抽取n个样本
简单随机选择n个样本,回放:过程同上,只是元组被抽取后,将被回放,可能再次被抽取
聚类选样:D中元组被分入M个互不相交的聚类中,可在其中的m个聚类上进行简单随机选择(m<M)
分层选样:D被划分为互不相交的“层”,则可通过对每一层的简单随机选样得到D的分层选样
数据立方体聚集
4、数据变换
规范化
数据量纲不同,e.g. 身高、体重
最小-最大规范化
z-score规范化
离散化和概念分层
离散化(连续数据)
通过将属性域划分为区间,减少给定连续属性值的个数。区间的标号可以代替实际的数据值。
分箱(binning)
分箱技术递归的用于结果划分
直方图分析(histogram)
直方图分析方法递归的应用于每一部分,可以自动产生多级概念分层。
聚类分析
将数据划分成簇,每个簇形成同一个概念层上的一个节点,每个簇可再分成多个子簇,形成子节点。
基于信息熵的方法等
概念分层(标称数据)
通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据