导图社区 数据分析
数据采集与预处理,知识点总结,大数据的来源,数据的采集方法有系统日志的采集方法和网页数据的采集方法。数据预处理。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
数据采集与预处理
大数据的来源
传统商业数据
准确性,及时性,多样性,适度性
互联网数据
大量化,多样化,快速化
物联网数据
物联网中的数据量更大
物联网中的数据传输速率高
物联网中数据更加多样化
物联网对数据真实性要求更高
物联网的特征
①节点的海量性,其数据规模远大于互联网
②物联网节点生成的频率远高于互联网
数据的采集方法
系统日志的采集方法
Scribe
是Facebook公司的开源的日志收集系统,在Facebook公司里已得到大量应用。Scribe可以从各种日志源上收集日志,存储到一个中央存储系统。Scribe为日志的“分布式收集,统一处理”提供了一个可扩展的、高容错的方案
分为:Scribe Agent、Scribe、中央存储系统
Chukwa
Chukwa 提供一种对大数据量日志类数据的采集、存储、分析和展示的全套解决方案和框架。
分为:适配器、代理、收集器、多路分配器、存储系统、数据展示
Flume
Flume是Cloudera公司提供的分布式、可靠和高可用的海量日志采集、聚合和传输的系统
分为:Source、Channel、Sink
网页数据的采集方法
网络爬虫
对网络上的数据进行采集
爬虫协议:Robots协议也称为爬虫协议、爬虫规则、机器人协议,是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯
爬虫的网络抓取策略
深度优先遍历策略
宽度优先遍历策略
反向链接数策略
数据预处理
影像数据质量的因素
管理方面的因素
技术方面的因素
数据预处理的目的
为进行后续的数据挖掘工作提供可靠和高质量的数据,缩小数据规模,提高数据抽象程度和数据挖掘效率
数据预处理的流程
1、数据清洗 2、数据集成 3、数据变换 4、数据归约