导图社区 Iceberg
这是一篇关于Iceberg的思维导图,数据湖就是集中式的数据存储库,可以存储各种数据格式数据。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
Iceberg
什么是数据湖
概念:数据湖就是集中式的数据存储库,可以存储各种数据格式数据,例如: 非结构化、结构化数据、文本、视频..
大数据中为什么需要数据湖
数据湖做到了离线和实时底层数据存储的统一,解决了Kappa架构的痛点问题
Kappa架构痛点问题
1.Kafka不支持海量数据存储
2.Kappa架构中使用Kafka做分层,Kafka不支持SQL OLAP分析
3.Kafka做分层不能很好的集成原有的数据血缘关系系统、数据质量管理系统
4.Kafka不支持数据的更新,只支持数据的Append
lceberg概念及特点
概念:Apache lcebera是用干海量数据分析场景的表格式(Table Format),单表以支持数十PB数据存储。可以和Hive、 Presto、Spark、Flink做高效整合。Iceberg是种数据湖解决方案。
特点
Iceberg支持实时/批量数据写入和读取,支持Spark/Flink计算引擎。
lceberg支持事务ACID,支持添加、删除、更新数据。
不绑定任何底层存储,支持Parquet、ORC、Avro格式兼容行存储和列存储。
lceberg支持隐藏分区和分区变更,方便业务进行数据分区策略
lceberg支持快照数据重复查询,具备版本回滚功能。
lceberg扫描计划很快,读取表或者查询文件可以不需要分布式SQL引擎。
lceberg通过表元数据来对查询进行高效过滤
基于乐观锁的并发支持,提供多线程并发写入能力并保证数据线性一致。
注意:lceberg非常轻量级,与Spark、Flink进行整合时就是一个jar包,官网: https:/ icebera.apache.ora