导图社区 自学的大数据配置
这是一篇关于大数据的思维导图,主要内容包括:数据获取与清洗,什么是大数据,配置。
编辑于2024-04-29 20:23:45大数据
配置
java
通过rpm下载jdk
配置JAVA_HOME
vi /etc/profile
添加 export JAVA_HOME=jdk
export PATH=$PATH:$JAVA_HOME/bin
source /etc/profile
hadoop
配置文件
/etc/hadoop
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
slaves / workers
Hadoop集群的相关服务可以正常启动就行,包括HDFS、YARN以及JobHistoryServer,实际比赛题目一般会提供Hadoop集群部署规划的示意表格,按照题目的要求来做即可,如果是3节点的集群,则需要确保master、slave1、slave2节点可以正确启动对应的Hadoop服务
Hadoop安全模式
hdfsshell
mysql
查询mysql初始密码:cat /var/log/mysql.log | grep password
登录: mysql -u root -p'password'
重设密码 :alter user 'root'@'localhost' identified by 'Root@123456';
修改8.0密码规则
set global validate_password.policy=0;
set global validate_password.length=1;
赋予外部连接权限
create user 'root'@'%'identified by '123456';
grant all privileges on *.* to 'root'@'%' with grant option;
刷新系统权限相关表 : flush privileges;
hive
配置
上传MySQL驱动到hive安装目录下lib下
将hive安装目录lib下jline-2.12.jar包复制到各个hadoop安装目录下的share/Hadoop/yarn/lib目录下
先删除hive安装目录lib下的旧guava包,再将hadoop目录下的share/hadoop/common/lib下的新guava包复制过来
/etc/profile添加环境变量
初始化元数据库 schematool -dbType mysql -initSchema
确认开启hadoop集群和mysql服务后启动元数据服务 hive --service metastore &
hive-site.xml
单词计数
hive命令行
hive -e HIVE语句
hive -f HIVE脚本
对于Hive的部署过程,部分元数据需要存储在MySQL数据库中,因此在hive-site.xml设置MySQL的连接URL、连接驱动类名、用户名还有密码 元数据就是Hive当中数据表的属性数据,包括表的名字,数据列信息,分区等等一系列的属性信息
图中value项添加HDFS路径的这几个配置项可以不配置,Hive也会在HDFS中创建相关的目录,手动指定HDFS路径的作用是方便自己也能找到HDFS上面的这些数据文件的目录或者是日志文件目录
spark
安装
zookeeper
概括
配置管理,域名服务,分布式同步,集群管理
特点
配置
sqoop
功能
导入。迁入
导出。迁出
将hadoop与关系型数据库服务器之间传输数据
配置
flink
将任务当成流来处理
配置
数据获取与清洗
EXCEL
获取文本数据
TXT
CSV
获取mysql数据库中的数据
数据处理
排序
筛选
分类汇总
排序
分页显示
公式
分析
对比
柱状图
簇状图
堆积柱状图
百分比堆积柱形图
个体与总体之间的百分比大小
条形图
趋势
折线图
基础折线图
堆积折线图
将统一时期的数据累加以及总和的发展趋势体现出来
百分比堆积折线图
显示每个数值所占百分比随时间或有序类别而变化的趋势
饼图
基础饼图
数据点显示为整个饼图的百分比
子母饼图
可以展示各个大类以及某个主要分类的
圆环图
每个圆环代表一个数据系列
散点图
基础散点图
带直线和数据标记的散点图
可以清楚的表示变化的大致趋势
气泡图
在基础散点图上添加一个维度,即用气泡大小表示一个新的维度,显示客户总数与购买客户数量、销售额(按销售代表)之间的关系
雷达图
基础雷达
带数据标记的雷达图
填充雷达图
通过面积显示数据,更易观察各类性能数据中的最大值
什么是大数据
特征
hadoop
概念
源
传输
清洗
分析
可伸缩
分布式计算
容错
分布式存储
分布式系统:HDFS
分布式编程模型:MAPREDUCE
任务调度和资源管理框架:YARN
种类
容量
速度
前期准备
虚拟机
修改主机名
hostnamectl set-hostname 'name'
配置固定ip
查看IP ip addr
重启网 service network restart
dhcp --> static
将三台机器的IP地址 + 名字 写入/etc/hosts
查看空间占用 df -h
ssh
ssh-keygen -t dsa
ssh-copy-id ‘name’
版本
8.0.29
flume 1.9.0
zookeeper 3.6.3
kafka-2.12-3.0.0
sqoop-1.4.7
40 > 60
复制进来 将dev改成prod
yarn调度策略
开始
结束
default > dev
default > dev
default > dev
default > dev
default > dev
default > dev
default > dev | 100 > 60
default > dev
default > dev | 100 > 40
default > dev,prod
0.2 > 0.3
自带的三个调度器
FIFO Scheduler
先进先出
Capacity
任务分割
FairScheduler
公平释放
显示集群状态·hdfs fsck /
不仅对于查看哪些变量具有相似的值、变量之间是否有异常值都很有用,可以用于查看哪些变量在数据集内得分较高或较低
将多个维度的数据映射到坐标轴上,这些坐标轴起始于同一个圆心点,通常结束于圆周边缘,将同一组的点使用线连接起来
散点图将数据显示为一组点,用两组数据构成多个坐标点,通过观察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布或聚合情况
之间的关系
用于描述百分比构成,其中每一个扇形代表一类数据所占的比例
以一个完整的圆来表示数据对象的全体,其中扇形面积表示各个组部分
数据随时间或有序类别而变化的趋势,可以很好地表现出数据是“递增”or“递减”、增减的速率、增减的规律(周期性,螺旋性)、峰值
嵌入式
高级
单个
高级筛选 其中一个
高级筛选 多个
自定义
按颜色
自定义
主要 和 次要关键字
主要关键字