导图社区 23大数据知识点以及面试总结(1)

23大数据知识点以及面试总结(1)

简洁模板，包含java基础、 hadoop、 hive、数仓理论、 impala、数据湖理论等内容。

编辑于2024-01-18 15:05:07

大数据
面试总结

空心

他的近期作品查看更多>>

23大数据知识点以及面试总结(1)
简洁模板，包含java基础、 hadoop、 hive、数仓理论、 impala、数据湖理论等内容。

23大数据知识点以及面试总结(1)

社区模板帮助中心，点此进入>>

空心

他的近期作品查看更多>>

23大数据知识点以及面试总结(1)
简洁模板，包含java基础、 hadoop、 hive、数仓理论、 impala、数据湖理论等内容。

相似推荐
大纲

互联网9大思维
- 38.0k
- 969
- 2.4k
- 401
- 0
MindMaster
组织架构-单商户商城webAPP 思维导图。
- 17.2k
- 3
- 186
- 9
- 1
Kacyun
域控上线
- 3.4k
- 169
- 11
- 4
- 0
jackrao
python思维导图
- 8.1k
- 550
- 242
- 7
- 0
(*^▽^*)
css
- 2.9k
- 1
- 43
- 3
- 0
A张舫
CSS
- 5.2k
- 271
- 189
- 33
- 0
journey
计算机操作系统思维导图
- 6.6k
- 351
- 208
- 16
- 0
journey
计算机组成原理
- 3.2k
- 98
- 70
- 8
- 0
journey
IMX6UL(A7)
- 1.9k
- 41
- 5
- 0
- 0
Handler XU
考试学情分析系统
- 2.6k
- 51
- 10
- 1
- 0
蒋龙

大数据知识点以及面试总结

java基础

hadoop

hive

概念

hive是基于hadoop的数仓管理工具，将结构化数据映射成一张表，并且提供类sql的查询功能

原理

数据类型

DDL

DML

常用函数

排序

全局排序

order by 全局排序，只有一个reducer，数据量大的时候效率极低，数据量小效率高

分区排序

distribute by 类似于mr任务中的自定义分区器；distribute by的规则是根据分区字段的hash码对reducer个数进行模除以后，余数相同的进入同一个分区

局部排序

sort by 每个reducer内部的排序，全局无序，常与distribute by搭配使用，distribute by在前sort by在后

cluster by

当distribute by sort by 一起使用且字段相同升序时可替代，cluster by 不能指定排序规则为 ASC 或者 DESC。

分区，分桶

分桶

分桶必须开启配置 set hive.enforce.bucketing=true;

创建分桶表

create table stu_buck(id int, name string) clustered by(id) into 4 buckets row format delimited fields terminated by '\t';

分桶表插入数据跟正常表插入数据无异

分桶规则

分桶字段求hash模除分桶数取余的方式决定数据在哪个桶中

分桶和分区区别

分区针对的是数据的存储路径即文件夹；分桶针对的是数据文件

分桶抽样调查

语法

TABLESAMPLE(BUCKET x OUT OF y) 。

注：tablesample 是抽样语句，语法：TABLESAMPLE(BUCKET x OUT OF y) 。 y 必须是 table 总 bucket 数的倍数或者因子。hive 根据 y 的大小，决定抽样的比例。例如，table 总共分了 4 份，当 y=2 时，抽取(4/2=)2 个 bucket 的数据，当 y=8 时，抽取(4/8=)1/2 个 bucket 的数据。 x 表示从哪个 bucket 开始抽取，如果需要取多个分区，以后的分区号为当前分区号加上 y。例如，table 总 bucket 数为 4，tablesample(bucket 1 out of 2)，表示总共抽取（4/2=）2 个 bucket 的数据，抽取第 1(x)个和第 3(x+y)个 bucket 的数据。注意：x 的值必须小于等于 y 的值，否则 FAILED: SemanticException [Error 10061]: Numerator should not be bigger than denominator in sample clause for table stu_buck

分区

子主题

行列互相转换

窗口函数

函数

压缩和存储

调优

数仓理论

impala

数据湖理论

spark

常见算法

kafka

Hbase

flink

Datax1

presto

Oozie

数据资产

springboot

面试官虾仁猪心面试题

Linux

自我介绍

业务介绍