导图社区 数据中台
数据中台的功能设计,适合数据产品经理使用,可以全面了解数据中台的架构、功能、应用和价值。
编辑于2022-10-09 22:50:25 广东数据中台
概述
概念
缺乏大数据平台
优势
基本能力
建设指导方针
组件工具化
工具平台化
平台服务化
平台产品化
建设路径
业务数据化
数据资产
数据资产管理
平台功能
集成开发环境门户建设
数据采集、传输、交换、同步服务
工作流(作业)调度系统
数据可视化平台
数据质量管理
安全与权限管理
用户画像
数仓分层
ODS(Operational Data Store) 贴源数据层,又称操作数据层
对各业务系统数据进行采集、汇聚,尽可能保留原始业务流程数据,与业务系统基本保持一致,仅做简单整合、非结构化数据结构化处理或者增加标识数据日期描述信息,不做深度清洗加工。
DW(Data Warehouse) 统一数仓层
对来源于业务系统的数据进行重新组织。业务系统是按照业务流程方便操作的方式来组织数据的,而统一数仓层从业务易理解的视角来重新组织,定义一致的指标、维度,各业务板块、业务域按照统一规范独立建设,从而形成统一规范的标准业务数据体系。
DWD(Data Warehouse Detail)
DWS(Data Warehouse Summary)
TDM(Tag Data Model) 标签数据层
面向对象建模,对跨业务板块、跨数据域的特定对象数据进行整合,通过ID-Mapping把各个业务板块、各个业务过程中的同一对象的数据打通,形成对象的全域标签体系,方便深度分析、挖掘、应用。
ADS(Application Data Store) 应用数据层
按照业务的需要从统一数仓层、标签数据层抽取数据,并面向业务的特殊需要加工业务特定数据,以满足业务及性能需求,向特定应用组装应用数据。
指标体系
用户主题
基本信息
风险信息
设备主题
设备指纹
标签数据存储
数仓建模
事实表
事务事实表
用于描述业务过程,按业务过程的单一性或多业务过程可进一步分为单事务事实表和多事务事实表。其中单事务事实表分别记录每个业务过程,如下单业务记入下单事实表,支付业务记入支付事实表。多事务事实表在同一个表中包含了不同业务过程,如下单、支付、签收等业务过程记录在一张表中,通过新增字段来判断属于哪一个业务过程。当不同业务过程有着相似性时可考虑将多业务过程放到多事务事实表中。
单事务事实表
多事务事实表
周期快照事实表
在一个确定的时间间隔内对业务状态进行度量。例如查看一个用户的近1年付款金额、近1年购物次数、近30日登录天数等。
累计快照事实表
用于查看不同事件之间的时间间隔,例如分析用户从购买到支付的时长、从下单到订单完结的时长等。一般适用于有明确时间周期的业务过程。
维度表
缓慢变化维
缓慢变化维是在维表设计中常见的一种方式,维度并不是不变的,随时间也会发生缓慢变化。如用户的手机号、邮箱等信息可能会随用户的状态变化而改变,再如商品的价格也会随时间变化而调整上架的价格。
重写维度值,对历史数据进行覆盖
保留多条记录,通过插入维度列字段加以区分
开发日期分区表,每日分区数据记录当日维度的属性
开发拉链表按时间变化进行全量存储等方式进行处理
ID-Mapping
把用户不同来源的身份标识通过数据手段识别为同一个主体。用户的属性、行为相关数据分散在不同的数据来源中,通过ID-MApping能够把用户在不同场景下的行为串联起来,消除数据孤岛。
标签开发
标签类型
统计类
规则类
数据挖掘
开发方式
离线标签开发
在线类标签开发
标签权重计算
TF-IDF
时间衰减系数
标签权重配置
组合标签计算
性能调优
数据倾斜
合并小文件
缓存中间数据
开发中间表
数据应用
即时查询
数据分析师
通过sql查询
标签视图与标签查询
业务人员
系统操作
元数据管理
数据开发人员
圈人服务
业务人员
分析服务
业务人员、分析师、产品经理
BI服务
可视化、拖拉拽、上钻、下钻、切片等
多维分析
商品、用户、渠道、人群特征、词云
分析方法
AARRR、漏斗、RFM、生命周期CLV、客群迁移
报表服务
指标体系
经营
客户
质效
体验
驾驶舱
仪表盘展示
报表周期
精准营销
业务人员
触达服务
短信、邮件、电话、app推送
营销方式
实时营销
批量营销
个性化推荐
商品
营销策略
营销话术
A/B测试
效果分析
风控预警
技术栈
HDFS
Hadoop Distributed File System
存储技术
MySql
Hive
HBase
Elasticsearch
Spark Graph X
RAID
参考资料
《大数据平台基础架构指南》刘旭辉
《数据中台-让数据用起来》
《用户画像-方法论语工程化解决方案》