导图社区数据挖掘之数据预处理方法

数据挖掘之数据预处理方法

现实世界中数据大体上都是不完整，不一致的脏数据，无法直接进行数据挖掘，或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。

编辑于2022-04-19 16:57:17

数据挖掘
数据预处理

François

他的近期作品查看更多>>

中国高铁主要城市通勤时间
这是一篇关于中国高铁主要城市通勤时间的思维导图，网络图以各个主要城市为节点，城市间的连线代表高铁通勤路线，连线上标注的数字清晰地展示了不同城市之间的高铁通勤时间。图中涵盖了众多国内主要城市，如哈尔滨、长春、沈阳等东北地区城市；北京、天津等直辖市；上海、杭州等华东地区城市；广州、深圳等华南地区城市；成都、重庆等西南地区城市；西安、兰州等西北地区城市。对于旅行者来说，这个网络图能够帮助他们提前规划行程，合理安排游玩时间和路线。比如计划从北京出发前往西安旅游，通过查看图中信息，能直观了解到高铁通勤时间，从而更好地规划整个旅行行程。商务人士经常需要在不同城市间奔波，借助此图可以精准掌握通勤时间，高效安排商务活动，避免因时间估算错误而影响工作。图中的颜色和线条粗细还对通勤时间进行了区分，1小时、2小时、3小时等不同通勤时长一目了然，让用户能够快速获取所需信息。无论您是出于旅行、商务、研究还是规划目的，这个中国高铁主要城市通勤时间关系网络图模板都能为您提供极大的便利，帮助您更好地了解国内城市间的高铁交通情况。
富爸爸穷爸爸 - 财商启蒙经典
这是一篇关于富爸爸穷爸爸 - 财商启蒙经典的思维导图，《富爸爸穷爸爸》是罗伯特·清崎的经典之作，它以清新且极具冲击力的观念，打破了传统对财富认知的桎梏。书中清崎有两个“爸爸”，穷爸爸是他亲生父亲，高学历却一生为钱所困；富爸爸是好友父亲，虽未受高等教育却成为夏威夷的富豪。两种截然不同的财富人生，源于他们迥异的财富观念。穷爸爸认为，稳定的工作是获取财富的可靠途径，他教导清崎要好好学习，找一份好工作。而富爸爸则强调，要让钱为自己工作，要学会驾驭财富而非被财富奴役。在资产与负债的认知上，二者也大相径庭。穷爸爸觉得房子是资产，而富爸爸明确指出，房子如果是自住且需要不断偿还贷款，那便是负债，只有能带来正向现金流的才是资产。这一观点颠覆了很多人对资产的固有理解。富爸爸倡导培养财商，包括会计、投资、市场和法律等多方面知识和能力的综合。他鼓励人们勇于冒险，抓住投资机会，学会分析市场趋势。同时，要克服对损失的恐惧，因为失败是成功路上的必经阶段。这本书告诉我们，财富并非遥不可及，关键在于转变思维，提升财商，学会让钱为自己工作，如此才能踏上通往财富自由的道路。
雅思政治阅读核心词汇（中文释义）
这是一篇关于雅思政治阅读核心词汇（中文释义）的思维导图，主要内容包括：一、政治体系与制度，二、政治组织与机构，三、政治人物与角色，四、政治活动与行为，五、政治现象与问题，六、法律与权利，七、政治经济关联词汇，八、政治文化与意识形态。

数据挖掘之数据预处理方法

社区模板帮助中心，点此进入>>

François

他的近期作品查看更多>>

相似推荐
大纲

马克思主义原理
- 22.3k
- 225
- 1.8k
- 317
- 0
yingqi
考研数学重点考点知识总结归纳！
- 6.3k
- 151
- 428
- 90
- 0
jiangzhengfool
数据结构
- 4.5k
- 91
- 150
- 19
- 0
jiangzhengfool
法理学读书笔记
- 7.2k
- 15
- 271
- 38
- 0
嗯坤
思维导图带你认识马克思主义原理
- 8.1k
- 73
- 475
- 34
- 0
机智的大雄
建筑光学基本知识
- 4.9k
- 17
- 42
- 8
- 0
15631176511
考研英语一写作
- 7.8k
- 292
- 1.2k
- 223
- 0
kirin
考研复习知识点之史纲思维导图。
- 13.1k
- 896
- 2.4k
- 600
- 0
宏仔oO
教育学考研：教育学原理第八章教学内容整理
- 4.1k
- 31
- 203
- 20
- 0
许秀全
考研三步翻译技巧
- 2.3k
- 9
- 152
- 10
- 0
何慧四眼哥哥

二、数据预处理

为什么进行预处理数据？

现实世界的数据是“肮脏的”

不完整的：有些感兴趣的属性缺少属性值，或仅包含聚集数据

含噪声的：包含错误或者“孤立点”

不一致的：在编码或者命名上存在差异

没有高质量的数据，就没有高质量的挖掘结果

数据质量

准确性

完整性

一致性

时效性：及时更新

可信性：数据是否被用户信赖

可解释性：数据是否容易理解

数据预处理方法

数据清理

空缺值，噪声数据，删除孤立点，解决不一致性

数据集成

集成多个数据库、数据立方体或文件

数据归约

得到数据集的压缩表示，但可以得到相同或相近的结果

数据变换

规范化和聚集

数据离散化

将连续数据进行离散处理

1、数据清理

空缺值

数据并不总是完整的

-例如：数据库表中，很多条记录的对应字段没有相应值，比如销售表中的顾客收入

引起空缺值的原因

- 设备异常

- 与其他已有数据不一致而被删除

- 因为误解而没有被输入的数据

- 在输入时，有些数据应为得不到重视而没有被输入

- 对数据的改变没有进行日志记载

空缺值要经过推断而补上

如何处理缺失值

忽略元组：当类标号缺少时通常这么做（假定挖掘任务设计分类或描述），当每个属性缺少值的百分比变化很大时，它的效果非常差。

人工填写空缺值：工作量大，可行性低

使用一个全局变量填充空缺值：比如使用unknown或-∞替换

使用属性的平均值填充空缺值

使用与给定元组属同一类的所有样本的平均值

使用最可能的值填充空缺值：使用像Bayesian公式或判定树这样预测的方法

例子：缺失值处理

噪声数据

噪声：一个测量变量中的随机错误或偏差

引起不正确属性值的原因

数据收集工具的问题

数据输入错误

数据传输错误

技术限制

命名规则的不一致

其它需要数据清理的数据问题

重复记录

不完整的数据

不一致的数据

如何处理噪声数据

分箱(binning):

首先排序数据，并将他们分到等深的箱中

然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等

price的排序后数据：4，8，15，21，21，24，25，28，34

划分为（等深的）箱：

箱1：4，8，15

箱2：21，21，24

箱3：25，28，34

用箱平均值平滑：

箱1：9，9，9

箱2：22，22，22

箱3：29，29，29

用箱边界平滑：

箱1：4，4，15

箱2：21，21，24

箱3：25，25，34

聚类：（监测并且去除孤立点）

回归

2、数据集成

数据集成：

将多个数据源中的数据整合到一个一致的存储中

模式集成：

- 整合不同数据源中的元数据

- 实体识别问题：匹配来自不同数据源的现实世界的实体，比如：A.cust-id=B.customer_no

检测并解决数据值的冲突

- 对现实世界中的同一实体，来自不同数据源的属性值可能是不同的

- 可能的原因：不同的数据表示，不同的度量等等

冗余数据

集成多个数据库时，经常会出现冗余数据

- 同一属性在不同的数据库中会有不同的字段名

- 一个属性可以由另外一个表导出，如“年薪”

仔细将多个数据源中的数据集成起来，能够减少或避免结果数据中的冗余与不一致性，从而可以提高挖掘的速度和质量。

有些冗余可以被相关分析检测到

数值型

相关分析：（correlation /covariance）

标称数据

卡方检验（ χ2 (chi-square) test ）