导图社区 大数据知识树
大数据框架, 概念及内容, 用于梳理知识结构,包含hadoop平台,数仓结构,hive等。
AI知识树框架,AI,即人工智能(Artificial Intelligence),是一门新兴的技术科学,旨在开发、研究用于模拟、延伸和扩展人类智能的理论、方法、技术及应用系统。
excel 职场办公, 数据分析常用函数, 分类解析,用户可以更快速、更准确地完成数据处理和计算工作,提高工作效率!
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
大数据知识树
数据来源
概述
内部
埋点
对比
流程
维度
文档
案例
外部
竞争对手
爬虫
国家统计局
友商提供
数据仓库 DW
简介
数据仓库(Data Warehouse),简称DW。数据仓库顾名思义,是⼀个很⼤的数据存储集合,出于企业的分析性报告和决策⽀持⽬的⽽创建,对多样的业务数据进⾏筛选与整合。它为企业提供⼀定的BI(商业智能)能⼒,指导业务流程改进。
作用
存储
提取
跨部门应用
特征
面向主题
集成
稳定不易丢失
反映历史变化
图示
对比数据库
数据库
OLTP
On-line Transaction Processing
在线事务处理
数据仓库
OLAP
在线分析处理
对比表
架构
设计目标
分层架构
元数据管理
数据治理
脏数据
治理原则
Hadoop平台
⼤数据的分布式存储和计算平台
优点
⾼可靠性
Hadoop按位存储和处理数据的能⼒值得⼈们信赖
⾼扩展性
Hadoop是在可⽤的计算机集群间分配数据并完成计算任务,这些集群可以⽅便地扩展到数以千计的节点中
⾼效性
Hadoop能够在节点之间动态地移动数据,并保持各个节点的动态平衡,因此处理速度⾮常快
⾼容错性
Hadoop能够⾃动保存数据的多个副本,并且能够⾃动将失败的任务重新分配
低成本
Hadoop是开源的,项⽬的软件成本因⽽得以⼤⼤降低
生态圈
概览
分类
HDFS
全称
Hadoop Distributed File System
原理
将⽂件切分成固定⼤⼩的数据块block,默认的固定⼤⼩是128MB
分布式存储
统一访问接口
NameNode
⽀持分布式和并⾏计算
⽔平可伸缩性
基本组件
HDFS Client
提供命令管理HDFS
管理整个文件系统的元数据 , 工作职责:管理元数据、维护目录结构、响应客户端请求
DataNode
复制管理用户的文件数据块, 工作职责:管理用户提交的数据 心跳机制 块报告
SecondaryNameNode
NameNode的助理,帮助加载元数据,紧急情况下(例如NameNode宕机),可以帮助恢复数据
四大机制
心跳机制
Master/Slave结构
Master
Slave
默认DataNode向NameNode发送请求的时间间隔为3s
NameNoder如果长时间没有接收到DataNode的心跳,也会每隔一段时间(5min)向DataNode发送请求,一共会发两次
安全模式
HDFS集群正常冷启动时,NameNode也会在safemode状态下维持相当长一段时间,等待它自动退出安全模式即可
副本存放策略
将每个文件的数据进行分块存储,每一个数据块有保存有多个副本,这些数据块副本分布在不同的机器节点上
负载均衡
机器容量最高的那个值和最低的那个值差距不能超过10%
MapReduce
分布式计算
策略
分而治之
理念
计算向数据靠拢而不是数据向计算靠拢
Map
将⼀个任务分解成为多个任务
Reduce
将分解后多任务处理的结果汇总起来,得出最后的分析结果
数仓分层
好处
结构清晰
每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解
减少开发
规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算
统一口径
通过数据分层,提供统一的数据出口,统一对外输出的数据口径
简化问题
将一个复杂的任务分解成多个步骤来完成,每一层解决特定的问题
结构
电商网站数仓
hive
起源
Hive是Facebook为了解决海量日志数据的统计分析而开发的基于Hadoop的一个数据仓库工具(后来开源给了Apache软件基金会)
功能
可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能
特点
Hive 本身并不支持数据存储和处理,只是一个面向用户的编程接口
Hive 依赖分布式文件系统HDFS存储数据
Hive 依赖分布式并行计算模型MapReduce 处理数据
借鉴SQL语言设计了新的查询语言HiveQL
查询原理