导图社区 数仓建设流程
这是一篇关于数仓建设流程的思维导图,主要内容包括:数据资产分析与评估,五阶段,多维模型设计步骤,建设流程,驱动因素,特征。
社区模板帮助中心,点此进入>>
跨境电子商务物流与保险概念图
乌昌海关出口加工食品检验监管流程图
请假审批流程
心理咨询诊断
激活子母账户流程思维导图
游戏发行运营流程梳理
茶主题沙龙活动
《人人都是产品经理》之需求的生老病死
万能演讲的公式
党建工作
数仓建设流程
特征
面向主题的‘ 集成的(整合的); 相对稳定的; 随时间变化的; 历史的; 明细和聚合数据。
驱动因素
运营支持
合规需求
商务智能活动
五阶段
业务、数据调研与规划

明现状
不同单位有那些业务板块及系统环境
各个业务系统建设情况
系统使用中存在那些明显的问题,包括业务流程及数据上
察来源
数据来源(同单位、不同单位)
网络环境
内网/外网
识特征
数据量规模
数据质量情况
更新频率
数据类型
关系型数据,如关系数据库表; 半结构化数据如Json数据; 非结构化数据,如日志文件、图片、音频视频。
分方式
数据读取
可以直接访问业务数据
数据推送
如业务对数据管控严格,由业务方控制数据交换,业务主动将需要的数据推送出来
知定义
来源系统信息
数据表信息
字段信息
理脉络
数据流转图
业务流程图
系统级、表级、字段级分析调研模板
调研报告
元数据管理
业务元数据; 技术元数据; 操作元数据。
数据接入
接入策略
结构化; 半结构化; 非结构化; API; 实时数据。
同步更新策略
同步策略
全量增量同步策略
更新策略
实时、离线(小时、天、周)
数据获取
任务开发与调度
数据核验
任务运行状态监控
数据校验
运维监控
系统资源监控; 数据监控; 数据服务监控,如流量峰值监控,时间段监控。
数据处理
数据标准
经纬度、地址、编码规则
数据清洗
空值、重复、缺失、异常值清洗转换
数据建模
数仓分层
模型类型
主题模型
按照主题域对数据进行聚合,形成宽表
专题模型
按照特定专项需求,从主题表或者处理的标准数据据中按照专项需求做专题加工统计
建模过程
模型调研
按照模型类型调研业务需求; 模型调研中,明确现有数据是否满足建模需求,若数据不全或者存在质量问题,则需要考虑重新与业务部门对接来完善数据。
模型设计
确认粒度; 实体关系; 逻辑模型结构。
模型开发
物理模型
SQL分析
模型验证与优化
结果验证,及时发现模型的缺陷进行模型调优
数据探查
数据规模; 字段空值率; 值域分布; 数据格式。
质量监控
数据服务
API接口
数据可视化
数据安全
数据分类分级
分级
公开; 内部; 机密; 绝密。
分类
个人; 企业; 政府; 社会公众。
数据加密
对称加密
AES、DES
非对称加密
RSA
数字签名
数据脱敏
加密; 替换; 扰动:基于统计学原理的脱敏方法,通过在数据集中引入微小、随机的变化,使个体数据点难以被识别,但保持整体数据分布、相关性和趋势不变。
接口安全
接口认证; 限次限速限时; 黑白名单。
建设流程
确定分层
SRC、ODS、DWD、DWS、ADS、DIM。 1、处理灵活,与业务解耦合,底层数据的变化不会影响到上层业务应用; 2、多层划分,各司其职,可以有效避免用户直接使用操作型数据,提升统计分析的效率; 3、复杂问题简单化,各层功能单一,那层数据出现问题,修复对应层级即可。
各层次建设要点
将数据按关联的紧密程度划分为不同的集合
SRC
以物理模型为主; 保持原表结构; 一般保留7天的原始数据。
ODS
依照数据标准对数据进行清洗转换。
DWD
以业务过程作为建模驱动,存放维度建模模型中的最小粒度事实表,主要遵循以下过程: 1、选择业务过程: 确定需要建模的业务过程,如订单处理、支付过程等; 事实表选择,如订单事实表、支付事实表。 2、声明粒度:即事实表中每行数据代表的业务活动的详细程度; 3、确认维度: 确定与业务过程相关的维度,如时间、地点、用户、商品等; 维度表的设计需要确保能够快速地根据维度进行数据地聚合和筛选。 4、确认事实: 确定事实表中的度量值,即需要记录的业务活动的量化指标,如订单金额、支付金额等; 事实表的选择要紧密结合业务过程,确保能够全面、准确地反应业务活动地真实情况。
DWS
基于上层指标需求,以分析主题对象最为驱动,构建公共统计粒度地事实表。主要遵循如下步骤: 1、确定聚合维度: 确定统计地维度和粒度,如商品、时间粒度; 聚合维度选择要根据上层应用地指标需要确定。 2、确定统计周期: 确定统计的时间周期,如日、周、月等; 统计周期的确定有助于规范数据的组织形式,提高数据的可读性与可维护性。 3、确定聚焦事实: 根据统计维度和周期,确定需要聚合的度量值,即派生指标; 派生指标是基于原始指标通过计算得到的结果。
ADS
提供高效的查询性能和决策支持。
确定主题域
将数据按关联紧密程度划分为不同的集合,如交易主题域、流量主题域、参与人主题域。 快速设计查找实体间的关系; 提高查询检索效率。 
数仓建模
ER建模
维度建模
建模工具
PowerDesign
ETL加工
工作流调度
多维模型设计步骤
维度度量识别
维度 :时间维度、地区维度、性别; 度量:收入、订单金额。
指标识别
指标:月收入、月订单金额
维表设计
日期维度表、区域维度表
确定粒度
时间粒度、行政区域粒度,要考虑的因素:业务需求、存储量、开发复杂度
事实表设计
选择需要分析的业务过程
电费账单业务
确定数据分析粒度
月度、机构
确定相关维度
机构状态维度
确定相关指标
月度电费账单、月度应收电费、月度实收电费
回顾审核
数据资产分析与评估