导图社区 大数据思维导图
大数据思维导图,整理的内容有大数据概述、大数据相关理论与技术、大数据思维、大数据采集与预处理技术、大数据存储技术等。
编辑于2021-11-28 17:12:38大数据在经济管理中的应用
第一章 大数据概述
大数据的起源与发展
起源:1.产品角度(谷歌公司的三大产品GFS、Map Reduce、Big Table) 2.第三次技术浪潮
信息技术为大数据时代提供技术支撑
1.存储设备容量不断增加;2.CPU处理能力大幅提升;3.网络带宽不断增加;4.数 据产生方式的变革促成大数据时代的来临
发展趋势
大数据定义与特征
定义:大数据指的是采用新型信息技术和方法对海量、高增长率和多类型的数据信息进行采集、管理、分析及应用,达到以 提升决策力、洞察力和流程优化能力为目标的综合数据处理过程。
特征:容量volume; 速率velocity; 种类variety; 真实性veracity; 价值value
数据的结构类型
结构化数据、半结构化数据、非结构化数据、元数据
大数据的应用与挑战
应用:政府应用、个人应用、企业应用
挑战
第二章 大数据相关理论与技术
云计算
概念:云计算是由硬件资源、部署平台和相应的服务等方便使用的虚拟资源构成的一个巨大 资源池。根据不同的负载,这些用户所需的资源可以动态地重新配置,以达到一个最理想的 资源使用状态。
特征:按需自助式服务、广泛的网络访问、资源池、快速弹性使用、可度量的服务 云计算与大数据之间的关系
体系架构:应用层,平台层,资源层,用户访问层和管理层
服务模式:软件即服务(SaaS)、平台即服务(PaaS)、基础设施即服务(IaaS)
类型划分:私有云、公共云、社区云、混合云
云计算与大数据之间的关系
物联网
定义:物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制 器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化和远程管理控制。
关键技术:识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术
应用
大数据与云计算、物联网的关系:云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者既有区别又有联系
人工智能
定义:人工智能(Artificial Intelligence),英文缩写为AI,是研究、开发用于模拟、延 伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
关键技术:机器学习 、知识图谱 、自然语言处理 、人机交互 、计算机视觉 、生物特征识别 、AR/VR
应用:智能家居 、智能制造 、智能零售 、智能物流 、智能医疗 、智能安防 、智能交通 、智能金融
大数据与人工智能的关系:
联系
一方面,人工智能需要数据来建立其智能,特别是机器学习。例如,机器学习图像识别应用程序可以查看数以万计的飞机图像,以了解飞机的构成,以便将来能够识别出它们。人工智能应用的数据越多,其获得的结果就越准确。在过去,人工智能由于处理器速度慢、数据量小而不能很好地工作。今天,大数据为人工智能提供了海量的数据,使得人工智能技术有了长足的发展,甚至可以说,没有大数据就没有人工智能。 另一方面,大数据技术为人工智能提供了强大的存储能力和计算能力。在过去,人工智能算法都是依赖于单机的存储和单机的算法,而在大数据时代,面对海量的数据,传统的单机存储和单机算法都已经无能为力,建立在集群技术之上的大数据技术(主要是分布式存储和分布式计算),可以为人工智能提供强大的存储能力和计算能力。
区别
人工智能与大数据也存在着明显的区别,人工智能是一种计算形式,它允许机器执行认知功能,例如对输入起作用或作出反应,类似于人类的做法,而大数据是一种传统计算,它不会根据结果采取行动,只是寻找结果。 另外,二者要达成的目标和实现目标的手段不同。大数据主要目的是通过数据的对比分析来掌握和推演出更优的方案。就拿视频推送为例,我们之所以会接收到不同的推送内容,便是因为大数据根据我们日常观看的内容,综合考虑了我们的观看习惯和日常的观看内容;推断出哪些内容更可能让我们会有同样的感觉,并向将其推送给我们。而人工智能的开发,则是为了辅助和代替我们更快、更好地完成某些任务或进行某些决定。不管是汽车自动驾驶、自我软件调整亦或者是医学样本检查工作,人工智能都是在人类之前完成相同的任务,但区别就在于其速度更快、错误更少,它能通过机器学习的方法,掌握我们日常进行的重复性的事项,并以其计算机的处理优势来高效的达成目标。
第三章 大数据思维
全样而非抽样:商品比价网站、谷歌流感趋势预测
效率而非精确 :谷歌翻译
相关而非因果 :啤酒与尿布 、飓风与蛋挞 、吸烟有害健康的法律诉讼 、基于大数据的药品研发
第四章 大数据采集与预处理技术
采集技术:数据库采集 、系统日志采集 、网络数据采集 、感知设备数据采集
预处理技术
数据清洗:光滑噪声(人工检查 、统计模型 、分箱 、聚类、 回归)、缺失值(忽略元 组、人工填写、用属性的均值的进行填充)
数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中
数据变换:把原始数据转换成为适合数据挖掘的形式
数据归约:主要方法包括数据立方体聚集、维度规约、数据压缩、数值规约、离散化和概念分层等
第五章 大数据存储技术
分布式文件系统(HDFS)
定义:分布式文件系统(Distributed File System,DFS)是指文件系统管理的物理存 储资源不仅存储在本地节点上,还可以通过网络存储在非本地节点上。
体系架构:HDFS采用主/从(Master/Slave)结构模式 ;一个HDFS集群(Cluster)通常有一 个名称节点(NameNode)和多个数据节点(DataNode)组成
冗余存储机制
数据读写过程
分布式数据库(Hbase)
简介
数据模型:表、行、列族、列限定符、单元格、时间戳
实现原理:链接到客户端的库函数 ,一个 Master主服务器 ,许多个 Region服务器
非关系型数据库(NoSQL)
兴起
典型非关系型数据库:键值数据库、列存储数据库、文档数据库、图数据库
第六章 大数据分析技术
描述性统计分析
按数据是否连续
连续性变量
1、描述连续变量的分布 :直方图 ;
2、连续数据的位置
中心的度量:均值、中位数、众数
盒须图
3、数据的离散程度:极差、方差与标准差、四分位差、平均绝对偏差
分类变量
无序分类变量是指所分类别或属性之间无程度和顺序的差别
有序分类变量是指各类别之间有程度的差别。
描述分类变量的分布:频数表、柱形图
按数据的计量层次
定类:它将数据按照类别属性进行分类,各类别之间是平等并列关系。这种数据不带数量信息, 并且不能在各类别间进行排序。
定序:定序数据不仅可以将数据分成不同的类别,而且各类别之间还可以通过排序来比较优劣。
定距:定距数据是具有一定单位的实际测量值(如摄氏温度)。此时不仅可以知道两个变量之 间存在差异,还可以通过加、减法运算准确的计算出各变量之间的实际差距是多少。
定比:定比数据实际是一种特别的定距数据,是最高级别的测量数据。不同的是,定比数据除了 定距数据的三种特质外,还具有乘和除的数学特质。定比数据还有零值,而且有意义,表示一个 固定的起点。距离之间的差距测量总是从零开始
探索性统计分析
相关分析
概念,分类
方法
1.图表相关分析(折线图及散点图)
2.协方差及协方差矩阵
3.相关系数
4.一元回归及多元回归
5.信息熵及互信息
回归分析
概念:回归时研究因变量对自变量的依赖关系的一种统计分析方法,目的是通过自变量的给定值来估计或 预测因变量的均值。它可用于预测、时间序列建模以及发现各种变量之间的因果关系。
目的:1)更好地了解 、2)建模预测 、3)探索检验假设
方法:线性回归、逻辑回归、Cox回归、weibull回归 、逐步回归、岭回归
如何选择
诊断回归分析结果:1.自变量与因变量是否具有预期的关系 2.自变量对模型是否有帮助 3.残差是否有空间 聚类 4.模型是否出现了倾向性 5.自变量中是否存在冗余 6.评估模型的性能
主成分分析与因子分析:主成分分析的方法与步骤、因子分析的方法与步骤、两者的区别
验证性统计分析:验证性因子分析,分析者先根据实际的研究调查情况,将潜在变量与潜在变量对于的题项关系固定,然后用数据来拟合验证这种 关系模型是否成立,如果拟合质量好,说明模型关系得到验证,反之则需要进行题项删除或修改。
第七章 大数据挖掘技术
聚类分析
概念:就是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不 在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。 (注意与 分类的区别,即区分有监督的学习和无监督的学习)
技术:K-means、层次聚类、
分类分析
概念:分类的目的是获得一个分类函数或分类模型 (也常常称作分类器 ),该模型能把数据库中的数据项映射到某一个给定类别。
技术:KNN、SVM、决策树(ID.3)
关联规则:反映一个事物与其他事物之间的相互依存性和关联性,是数据挖掘的一个重要技术,用于从大量数据中挖掘有价值的数据项之间的关系。
第八章 大数据可视化技术
第九章 大数据的应用
大数据与社交媒体的融合
大数据促进电子病历的改革
大数据对旅游休闲的促进
大数据在金融中的应用
大数据在制造业中的应用