导图社区 数据仓库面试题
数据仓库面试题,主要包括:概述、与数据库的区别、怎么构建、什么是数据模型、架构为什么要分层。
自媒体各种图片尺寸,主要包括:微信公众号、视频号/抖音、微博、小红书四部分内容。希望对你有所帮助!
职能型组织结构思维导图,包括:信息、简介、结构介绍、主要特点、结构缺点、适用性应用。希望对你有所帮助!
药店2.0时代思维导图,主要内容有:中国药店创新趋势报告、我国药店、我国药店行业、我国药店。
社区模板帮助中心,点此进入>>
项目时间管理6大步骤
互联网9大思维
项目管理的五个步骤
电商部人员工作结构
电费水费思维导图
D服务费结算
组织架构-单商户商城webAPP 思维导图。
暮尚正常运转导图
批判性思维导图
域控上线
数据仓库面试题大全
概述
定义
数据仓库(Data Warehouse)是一个面向主题的(subject oriented)、集成的(integrated)、相对稳定的(non-volatile)、反应历史变化(time variant)的数据集合,用于支持管理决策(decision making support)。
特点
####
数据子集
各个部分(业务线)只是部门数据中的数据子集
数据集市
数仓可以划分为多种数据子集
与数据库的区别
目的
数据库是面向事物处理的,数据是由日常的业务产生的,常更新;数据仓库是面向主题的,数据来源多样,经过一定的规则转换得到,用来分析。
用途
数据库一般用来存储当前事务性数据,如交易数据;数据仓库一般存储的历史数据。
设计
数据库的设计一般是符合三范式的,有最大的精确度和最小的冗余度,有利于数据的插入;数据仓库的设计一般不符合三范式,有利于查询
怎么构建?
数仓模型的选择是灵活的,不局限于某种模型方法。
数仓数据是灵活的,以实际需求场景为导向。
数仓设计要兼顾灵活性、可扩展性,要考虑技术可靠性和实现成本。
什么是数据模型?
概念
数据模型就是数据组织和存储的方法,通过抽象的实体以及实体间联系的形式来表达现实世界中事务的相互关系的一种映射,他强调从业务、数据存取和使用角度合理的存储数据。
为什么需要数仓建模?
数仓建模需要按照一定的数据模型,对整个企业的数据进行采集,整理,提供跨部门、完全一致的报表数据。
合适的数据模型,对于大数据处理来讲,可以获得得更好的性能、成本、效率和质量。良好的模型可以帮助我们快速查询数据,减少不必要的数据冗余,提高用户的使用效率。
数据建模进行全方面的业务梳理,改进业务流程,消灭信息孤岛,更好的推进数仓系统的建设。
3范式?
每个属性值唯一,不具有多义性
每个非主属性必须完全依赖于整个主键,而非主键的一部分 每个非主属性不能依赖于其他关系中的属性
建模方法??
ER模型
ER模型用实体关系模型描述企业业务,在范式理论上满足3NF。数仓中的3NF是站在企业角度面向主题的抽象,而不是针对某个具体业务流程的实体对象关系的抽象。
维度模型
三种模式
星型
雪花
星座
步骤
DV模型
Anchor模型
架构为什么要分层?
1.分层可以清晰数据结构,使用时更好的定位和理解
2.方便追踪数据的血缘关系 3.规范数据分层,可以开发一些通用的中间层数据,能够减少极大的重复计算 把复杂问题简单化 4.屏蔽原始数据的异常。不必改一次业务就重新接入数据
分层思想??
ODS
DW
DWD