导图社区 第三章大数据处理
这是一篇关于第三章大数据处理的思维导图,包括:数据采集、数据清洗、数据变换、数据集成、数据归约。
这是一篇关于大数据与云计算、物联网、人工智能的思维导图,主要内容有人工智能的概念、人工智能关键技术、人工智能的应用、人工智能产业。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
第三章大数据处理
3.1数据采集
数据采集概念
数据采集,又称“数据获取”,是数据分析的入口,也是数据分析
过程中相当重要的一个环节,它通过各种技术手段把外部各种数据
源产生的数据实时或非实时地采集并加以利用
数据采集方法
传感器
互联网数据
业务系统数据
日志文件
数据采集产品
Apache Flume、Scribe
Fluentd、Apache Chukwa
Logstash、Splunk
数据质量的评估标准
完整性
一致性
准确性
及时性
数据质量的影响因素
信息因素
技术因素
管理因素
流程因素
3.2数据清洗
处理残缺数据
忽略整个元组
填写残缺值
处理噪声数据
分箱
等深分箱法
等宽分箱法
用户自定义分箱法
平滑处理
按平均值
按中值
按边界值
聚类
回归
处理冗余数据
重复过滤
直接过滤
间接过滤
条件过滤
3.3数据变换
属性类型变换
数据概化
属性构造
一对一映射
多对一映射
属性值变换
最大-最小标准化
0-1标准化
零-均值标准化
小数定标标准化
3.4数据集成
数据集成概念
数据集成就是将不同的数据源,逻辑地(生成一个视图)
或物理地(生成一个新的关系表)集成到一个统一的数据集合中
,在这个集成的数据集上进行后续的分析处理
模式匹配与数据值冲突
数据冗余
标称数据检测
数值数据检测
3.5数据归约
维归约
逐步向前选择
逐步向后删除
向前选择与向后删除结合
数值归约
直方图
抽样
参数回归