导图社区 数据中台实施大纲V3.0
数据中台实施大纲V3.0,元数据在数据管理中扮演了重要的角色。它可以用于数据的探索与调查、数据的集成与共享、数据的标准化与质量控制、数据的安全性与合规性等方面。同时,元数据也有助于提高数据的可重用性、共享性和互操作性,促进跨系统、跨组织和跨地域的数据交换与协作。
编辑于2023-09-05 09:42:22 江苏省数据中台实施大纲V3.0,元数据在数据管理中扮演了重要的角色。它可以用于数据的探索与调查、数据的集成与共享、数据的标准化与质量控制、数据的安全性与合规性等方面。同时,元数据也有助于提高数据的可重用性、共享性和互操作性,促进跨系统、跨组织和跨地域的数据交换与协作。
数据治理实施大纲V3.0的思维导图,分享了数据战略、数据治理、数据架构、数据应用、数据安全、数据质量、数据标准、数据生存周期的知识。
数据中台项目实施路线图的思维导图,具体是现状调研(需求管理)、资源评估、实施保障、方案设计、方案实施、成果交付、数据运维(运营)。
社区模板帮助中心,点此进入>>
数据中台实施大纲V3.0,元数据在数据管理中扮演了重要的角色。它可以用于数据的探索与调查、数据的集成与共享、数据的标准化与质量控制、数据的安全性与合规性等方面。同时,元数据也有助于提高数据的可重用性、共享性和互操作性,促进跨系统、跨组织和跨地域的数据交换与协作。
数据治理实施大纲V3.0的思维导图,分享了数据战略、数据治理、数据架构、数据应用、数据安全、数据质量、数据标准、数据生存周期的知识。
数据中台项目实施路线图的思维导图,具体是现状调研(需求管理)、资源评估、实施保障、方案设计、方案实施、成果交付、数据运维(运营)。
DCMM
数据战略
数据战略规划
数据战略实施
数据战略评估
数据治理
数据治理沟通
沟通路径
沟通计划
沟通执行
问题协商机制
建立沟通渠道
制定培训宣贯计划
开展培训
数据制度建设
制定数据制度框架
根据数据职能的层次和授权决策次序,数据制度框架分为政策 、办法、细则三个层次,该框架规定了数据管理和数据应用的具体领域、各个数据职能领域内的目标、遵循 的行动原则 、完成的明确任务 、实行的工作方式、采取的一般步骤和具体措施
整理数据制度内容
数据政策说明数据管理和数据应用的目的,明确其组织与范围
为数据管理和数据应用各领域内活动开展而规定的相关规则和流程
为确保各数据方法执行落实而制定的相关文件
数据制度发布
数据制度宜贯
数据制度实施
数据治理组织
数据治理组织建立
岗位设置
团队建设
数据归口识别
识别数据所有人、管理人等相关角色, 明确数据的归口管理人员
人才培养
建立绩效评价体系。
数据架构
元数据管理
元模型管理
元数据集成和变更
基于元模型对元数据进行收集,对不同类型、不同来源的元数据进行集成, 形成对数据描述的统一视图,并基于规范的流程对数据的变更进行及时更新和管理;
元数据应用
查 询
血缘分析
影响分析
符合性分析
质量分析
数据集成与共享
建立数据集成共享制度
形成数据集成共享标准
建立数据集成共享环境
建立对新建系统的数据集成方式的检查
数据分布
数据现状梳理
识别数据类型
主数据
参考数 据
交易数据
统计分析数据
文档数据
元数据
数据分布关系梳理
根据组织级数据模型的定义,结合业务流程梳理的成果,定义组织中数据 和流程 数据和组织机构、数据和系统的分布关系
数据分布关系的应用
根据数据分布关系的梳理,对组织数据相关工作进行规范,包括定义数 据工作优先级 优化数据媒成等
数据分布关系的维护和管理
根据组织中业务流程和系统建设的情况,定期维护和更新组织中 的数据分布关系,保持及时性
数据模型
收集和理解组织的数据需求
制定模型规范
数据模型的管理工具
命名规范
常用术语
管理方法
数据模型应用
符合性检查
检查组织级数据模型和系统应用级数据模型的一致性
模型变更管理
数据应用
数据服务
数据服务需求分析
数据服务开发
数据服务部署
数据服务监控
数据开放共享
梳理开放共享数据
制定外部数据资源目录
建立统一的的数据开放共享策略
安全
质量
数据提供方管理
建立对外数据使用政策数据提供方服务规范等
数据开放
数据获取
数据分析
常规报表分析
多维分析
动态预报
趋势预报
数据安全
数据安全审计
数据安全管理
数据安全策略
数据质量
数据质量需求
数据质量检查
数据质量分析
数据质量提升
数据标准
业务术语
参考数据和主数据
数据元
指标数据
数据生存周期
数据需求
数据设计和开发
数据运维
数据退役
数据中台项目实施路线图
现状调研(需求管理)
数据组织
数据组织架构梳理
项目经理
创建数据治理愿景
建立完善的组织架构,定义角色职责
明确数据治理沟通链路
《数据组织架构图》 《组织业务职责》 《干系人清单》 《数据治理组织管理办法》
准备工作
调研计划
制定整体调研计划
XXX调研计划
现状调研
调研对象
IT和数据部门
调研方法
问卷调查
现场访谈
《调研方案》
调研内容
IT部门
系统&技术调研
系统集成情况
系统网络环境
系统功能情况
《调研结果及现状分析报告》( 整体网络架构、 整体技术架构、 数据存储方案、 系统间数据交互图) 《业务术语汇总》
业务部门
业务调研
核心业务梳理
掌握核心业务流程,梳理数据和业务流程、组织、系统之间的关系
了解系统间业务流、数据流向
《业务大图》 《业务总线矩阵》
数据调研
数据资产盘点
数据现状梳理
对应用系统中的数据进行梳理,了解数据的作用,明确存在的数据问题;
识别数据质量
一般情况下哪些字段为空
正常情况下哪些字段有值
字段正常值在什么范围
识别数据类型
将组织内的数据根据其特征分类管理,一般类型包括但不限于主数据、参考数 据 交易数据 统计分析数据、文档数据、元数据等类型;
数据分布关系梳理
根据组织级数据模型的定义,结合业务流程梳理的成果,定义组织中数据 和流程 数据和组织机构、数据和系统的分布关系;
梳理数据的业务分类
对每类数据明确相对合理的唯一信息采集和存储系统;
《数据清单》 《业务系统数据字典》 《数据资源编目》
数据供需梳理
识别各业务系统数据供需关系、供需方式、频率等内容
《数据需求对接供需清单》
数据确权
沟通数据的所有权、使用权、管理权涉及个人、企业、政府和其他组织,为后期数据安全、分类分级提供基础参考
谁生产谁负责
谁拥有谁负责
谁管理谁负责
谁使用谁负责
《数据责权清单》
理清目标
明确项目需求边界范围
了解客户总体战略目标、愿景、核心需求
《客户访谈纪要》 《需求规格说明书》 《需求评审纪要》
制定方法
数据治理实施路线图
目标任务
需求分析
技术路径
建设步骤
实施保障
《项目试实施路线图》
资源评估
数据资源评估
《数据资源评估报告》
数据量
数据增长
计算资源评估
《计算资源评估报告》 《部署设计方案》 《数据存储方案》
数据存储周期
数据存储容器
数据存储范围
人力资源评估
《人力资源评估报告》
实施保障
实施规划
《项目计划书》、《WBS》
组织保障
数据治理组织建立
岗位设置
团队建设
数据归口识别
人才培养
《项目成员清单》
风险管理
《风险评估会议纪要》、《项目风险管理跟踪单》
方案设计
总体规划
从数据资产管理决策层和组织协调层视角出发, 包含数据战略、 角色职责、 任责体系等, 阐述数据资产管理的目标、 组织、 责任等;
数据战略
组织架构
角色职责
总体目标
架构体系
技术架构
功能架构
网络架构
资源信息
数据架构
实施规划
《数据中台治理总体方案》
管理办法
从数据资产管理层视角出发, 规定数据资产管理各活动职能的管理目标、管理原则、 管理流程、 监督考核、 评估优化等
数据标准管理办法
数据标准的发布、审批、执行、变更等管理方法、流程、及工具进行明确
《数据标准管理办法》
数据模型管理办法
针对数据模型的发布、审批、执行等管理办法
《数据模型管理办法》
元数据管理办法
对元模型管理规范进行定义,包括业务元数据、技术元数据、操作元数据。 对元数据的责任组织、归口人进行明确, 定义各类元数据的采集、存储、 变更、分析等管理流程规范。 保障元数据的应用, 如支撑数据血缘分析、质谥分析等。
《元数据管理办法》
主数据管理办法
对主数据标准管理的规则、 流程、 方法及主数据应用范围、 应用规则、 管理要求和考核标准做出明确规定,实现主数据应用的有效管理。
《主数据管理办法》
数据质量管理办法
围绕数据质量需求、分析、检查、提升,制定数据质量评价的指标体系、考核机制及管理办法进行明确。规范数据质量 的管理工作,持续提升数据质量管理成效;督促数据质量责任部门及责任角色的工作投入,科学评估数 据质量管理参与人员的绩效。
《数据质量管理办法》
数据应用管理办法
"a)建立数据集成共享制度,指明数据集成共享的原则 、方式和方法;
b)形成数据集成共享标准,依据数据集成共享方式的不同,制定不同的数据交换标准;
c)建立数据集成共享环境,将组织内多种类型的数据整合在一起,形成对复杂数据加丁处理、便捷访问的环境;"
《数据共享/服务管理办法》
数据安全管理办法
建立数据全生命周期安全管理制度,针对不同级别数据,制定数据收集、存储、使用、加工、传输、提供、公开等环节的具体分级防护要求和操作规程;
《数据安全管理办法》
数据开发管理办法
"指设计实施数据解决方案、 提供数据服务并持续满足企业数据需求的过程。 数据解决方
案包括数据结构设计、 采集存储、 整合交换、 挖掘探索、 可视化(报表、 用户视图) 等内容。
a)设计数据解决方案,设计数据解决方案包括概要设计和详细设计,其设计内容主要是面向具体 的应用系统设计逻辑数据模型 、物理数据模型、物理数据库、数据产品、数据访问服务 、数据整合服务等,从而形成满足数据需求的解决方案;
b) 数据准备,梳理组织的各类数据,明确数据提供方,制定数据提供方案;
c)数据解决方案的质量管理,数据僻决方案设计应满足数据用户的业务需求,同时也应满足数据 的可用性、安全性 、准圳性 、及时性等数据管理需求,因此需要进行数据模拟和设计的质瓜管 理,主要内容包括开发数据模型和设计标准,评审概念模型、逻辑模型和物理模型的设计,以及管理和整合数据模型版本变更;
d)实施数据解决方案,通过质屋评审的数据解决方案进入实施阶段,主要内容包括开发和测试数 据库 、建立和维护测试数据 、数据迁移和转换、开发和测试数据产品、数据访问服务、数据整合服务 、验证数据需求等。"
《数据开发管理办法》
数据生命周期管理办法
数据生存周期管理办法对数据的收集、创建、分发、存储、使用、归档和销毁生命周期的管理办法、流程及工具进行明确,保障数据在生命周期中一致、有效的管理
《数据生存周期管理办法》
数据运营管理办法
1)建立组织级数据提供方管理流程和标准并执行;
2)建立组织级的数据运维方案和流程并执行;
3)数据运维解决方案能与组织级数据架构、数据标准、数据质队等工作协词一致;
4)建立了数据需求变更管理流程,并以此对组织中的需求变更进行管理;
5)定期制定数据运维管理工作报告,并在组织内进行发布。
《数据运营管理办法》
数据考核管理办法
对组织数据治理中数据生命周期、数据架构、数据质量、数据应用、数据标准、 数据等各领域管理活动定义评价指标体系、考核机制及管理办法。待续提升组织数据治理能力。
1、建立数据考核机制及问责办法
2、建立数据考核管理规范
《数据考核管理办法》
数据指标管理办法
a)建立指标数据分类规范、格式规范;
b)建立组织内部统一的指标数据字典;
c)指标数据定义,清晰的描述指标含义等;
d)建立了统一的指标数据管理流程。
数据指标管理办法
数据需求管理办法
a)建立数据需求管理制度,统一管理各类数据需求;
b)数据相关方对数据需求有一致的理附,能满足业务的需求;
c)各类数据需求得到梳理和定义;
《数据需求管理办法》
数据元管理办法
1)建立组织内部数据元管理规范,规范数据元的管理流程;
2)依据国家标准、行业标准对组织内部的数据元标准进行优化;
《数据元管理办法》
数据退役管理办法
建立数据退役管理规范,包括数据退役流程、执行、检查环节的管理工作
《数据退役管理办法》
业务术语管理办法
对业务术语的创建、维护和发布进行统一的管理,进而推动业务术语 的共享和组织内部的应用。 业务术语是组织内部理解数据、应用数据的基础。 通过对业务术语的管理能保证组织内部对具体技术名词理解的一致性。
《业务术语管理办法》
实施细则
从数据资产管理层和数据资产管理执行层的视角出发 , 围绕管理办法相关要求, 明确各项活动职能执行落实的标准、 规范、 流程等;
数据标准实施细则
数据模型规范
ODS层模型
DWD层模型
DWS层模型
ADS层模型
数据标准编码
《数据标准实施细则》
GB/T 40685-2021《信息技术服务 数据资产 管理要求》 GB/T 34960.5-2018《信息技术服务 治理 第5部分:数据治理规范》
数据接入实施细则
技术架构说明
实时数据接入标准
离线数据接入标准
静态数据接入标准
安全性要求
数据接入实施细则
数据质量实施细则
目标定义
角色和职责
数据质量规则
数据质量监控
数据质量评估
数据质量报告
数据质量改进
数据质量实施细则
GB T 36344-2018《信息技术 数据质量评价指标》
主数据实施细则
分类标准
描述标准
编码标准
数据维护规范
数据集成标准
质量标准
主数据实施细则
数据安全与隐私实施细则
数据分级分类需求收集
数据安全监控
数据安全应对措施
数据安全与隐私实施细则
GB/T 39477-2020《信息安全技术 政务信息共享 数据安全技术要求》 GB/T 37973-2019《信息安全技术 大数据安全管理指南》 GBT35273-2020《信息安全技术 个人信息安全规范》 GB/T 37988-2019《信息安全技术 数据安全能力成熟度模型》 GB/T 37373-2019《智能交通 数据安全服务》 GBT38667-2020《信息技术 大数据 数据分类指南》 GBT38667-2020《信息技术 大数据 数据分类指南》
元数据实施细则
概念定义
元模型设计
概念分类
物理分类
关系型(半关系型)
元数据模型
元数据应用: 1、数据资产 2、数据血缘 3、影响分析 4、冷热度分析
业务元数据
表信息
业务表、字典表
字段信息
字段、值域
操作元数据
数据关系表(血缘分析)
非关系型
元数据模型
对应关系、存储位置、名称、大小、描述、类型
数据存储
元数据校验标准
一致性校验
数据是否一致
数据类型是否一致
数据描述是否一致
完整性校验
属性是够齐全
必填信息是否齐全
数据是否完整
元数据实施细则
数据元实施细则
建立组织级的数据元目录,提供统一的查询方法;
数据质量需求确立。根据业务管理需求
保证数据元标准与相关业务术语、参考数据等标准保待一致;
定期组织和开展数据元应用的相关培训;
建立数据元的应用机制,进行应用偏差分析;
对于数据元相关的问题进行处理和跟踪。
《数据元实施细则》
《GB/T 18391. 2— 信息技术 数据元的规范与标准化》 《GB/T 18391. 3—2001 信息技术 数据元的规范与标准化 第 3 部分: 数据元的基本属性》 《GB/T 18391. 4—2001 信息技术 数据元的规范与标准化 第 4 部分: 数据元定义的编写规则与指南》 《GB/T 18391. 5—2001 信息技术 数据元的规范与标准化 第 5 部分: 数据元的命名和标识原则》 《GB/T 18391. 6—2001 信息技术 数据元的规范与标准化 第 6 部分: 数据元的注册》
数据开发实施细则
SQL语句规范
语句格式
别名规范
注释规范
任务开发规范
命名规范
注释规范
脚本命名规范
任务节点命名规范
字段类型
公共字段定义规范
分区规范
数据开发实施细则
数据生命周期管理细则
数据生命周期管理细则
数据共享服务实施细则
共享类型
共享条件
共享范围
共享规则
共享流程
服务发布
服务上架
服务审批
数据共享服务实施细则
GB/T 39770-2021《信息技术服务 服务安全要求》
数据治理考核实施细则
数据治理考核实施细则
数据退役实施细则
数据退役需求分析
数据退役设计
数据退役执行规范
数据恢复检查
归档数据查询
操作规范
从数据资产管理执行层的视角出发,依据实施细则, 进一步明确各项工作蒂湮循的工作规程、 橾作手册或模板类文件等。
数据模型标准操作规范
数据模型设计规范:针对数据调研及业务调研产出,梳理制定数据模型分层分域、数据指标、维度度量等数据的标准,规范数据表命名方式,模型对象编码规则。
《数据标准:数据模型-数据模型规范》 《数据规范:数据模型-数据标准编码表》
数据接入操作规范
数据传输:结合数据调研内容,对接不同种数据源、来源系统,需要制定不同系统、数据源间的交换依据
数据接入技术方案
元数据操作规范
《元数据操作规范》
数据质量操作规范
《数据质量需求调研表》 《数据质量规则库》 《数据质量提升计划》
数据安全操作规范
《数据安全需求表》 《数据分级分类清单》 《数据安全标准实施细则》
数据开发操作规范
《数据开发操作规范》
数据指标操作规范
指标的建设内容
指标命名规范
指标体系架构
《数据指标设计规范》
数据标签操作规范
标签的类目体系建设
标签的命名规范
《数据标签标准规范》
主数据操作规范
《数据管理方-主数据定义沟通》 《主数据管理实施细则》 《主数据总则》、《主数据分册》
参考数据操作规范
《业务术语清单》 《参考数据字典》
数据元操作规范
《XXXXX核心数据元》、《数据元模型》
数据共享操作规范
《数据需求清单》 《数据共享API接口调用说明》
数据退役标准制定
《数据退役规则》
数据考核
《数据治理考核评价管理制度及规范》 《数据资产管理考核与问责办法》
数据运维(运营)
数据运维
《系统运维方案》 《系统运维记录》
数据运营
成果交付
试运行
《试运行方案》 《试运行问题跟踪》 《试运行报告》
成果验收
《评审记录》、《评审问题跟踪》、
上线推广
《验收报告》
方案实施
数据治理沟通
沟通路径,明确数据管理和应用的利益相关者,分析各方的诉求,了解沟通的重点内容;
沟通计划,建立定期或不定期沟通计划,并在利益相关者之间达成共识;
《沟通计划》
沟通执行,按照沟通计划安排实施具体沟通活动,同时对沟通情况记录;
不要妄图通过数据治理立即解决所有问题
主数据沟通
数据治理沟通
数据质量沟通
数据安全沟通
《数据治理沟通记录》
业务需求沟通
数据探查
数据探查
制定数据探查的规则,包括探查原始数据及数据集的正确性、有效性、完整性、及时性等规则的符合性。
数据对账
根据制定的主数据抽取策略和采集方案,实现对主数据的抽取、处理及任务调度设置。实时数据采集需设置采栠频率,批量数据采集需设置ETL任务执行周期,以满足各业务 部门、各信息系统对主数据的及时性需求;
《数据探查报告》
数据集成
数据接入计划
制定阶段性数据接入计划
数据接入计划
数据接入开发
结合数据接入方案,定制数据接入任务,开展数据接入工作(包含主数据、元数据集成)
数据接入质量稽核
配置数据接入质量稽核任务
参考数据管理
管理并维护参考数据
《数据接入清单》、《数据治理实施-数据处理环节设计记录文档》
数据模型
制定模型规范
元数据模型建设
分层
ODS层建设
源数据模型
DWD层建设
数据清洗、校验
DWS层建设
主题域模型
ADS层建设
共享数据模型
EVL建设
分域
XXX域
XXX域
XXX域
参考数据模型建设
常用术语
管理工具
开发数据模型
数据模型应用
根据组织级数据模型的开发,指导和规范系统应用级数据模型的建设;
符合性检查
检查组织级数据模型和系统应用级数据模型的一致性;
数据标准建设
业务术语
业务术语维护
制定业务术语标准,同时制定业务术语管理制度,包含组织
业务术语字典,组织中已定义,并审批和发布的术语集合;
业务术语发布,业务术语变更后及时进行审批并通过邮件、文件等形式进行发布;
业务术语应用,在数据模型建设数据需求描述、数据标准定义等过程中引用业务术语;
业务术语宣贯,组织内部介绍、推广已定义的业务术语。
《业务术语字典》
主数据
识别主数据
来源确认
高价值
高共享
相对稳定
界定主数据需求与范围,依据主数据的定义及特征,对主数据进行识别,包括识别组织级主数据类型及属性、识别不同主数据之间的关系、识别主数据与业务系统之间的关系、识别主数据与业务管理之间的关系等;
主数据分类
定义数据模型,定义参考数据和主数据的组成部分及其含义;
主数据审核
与甲方确认主数据内容,发布主数据定义标准,并宣贯
主数据编码
定义编码规则,定义参考数据和主数据唯一标识的生成规则;
主数据集成
主数据采集
主数据质量
建立质量规则,检查参考数据和主数据相关的业务规则和管理要求,建立参考数据和主数据相 关的质量规则;
主数据分发(共享)
参考数据
参考数据收集
各个业务系统及国标、省标相关数据字典
参考数据集成
统一参考数据定义标准
参考数据发布
数据元管理
数据元分类梳理
对象类
对其界限和含义进行明确的标识,且特性和行为遵循相同规则的观念、抽象概念或现实世界中事物的集合
特性
由值域、数据类型、计量单位(如何需要)、表示类型(可选)组成
表示
数据元编制
数据元评审
数据元发布
《数据元总则》 《数据元分册》
数据融合
数据标准化
依据分层分域规范,将数据资源标准化到数仓当中
数据清洗
按照数据标准将现有数据归入正确的分类,规范其描述、属性值、 基本单位等
数据脱敏
依据数据安全规范,对数据治理过程当中的敏感数据进行过敏处理
《数据治理实施-数据处理环节设计记录文档》及分册
元数据

元数据识别
识别并确定元数据及管理范围,包括技术元数据、 业务元数据、管理元数据等;
元模型构建
参考公共仓库元模型方法,对组织要管理的元数据进行结构化、模型化,抽象出稳定的存储元数据的元模型结构, 理消模型的结构及模型间关系;
技术元模型
存储元模型
数据库
库元模型
表元模型
字段元模型
索引元模型
主键元模型
外键元模型
视图元模型
函数元模型
存储过程元模型
其他元模型
文件
HDFS元模型
FTP元模型
其他元模型
工具
PDM元模型
计算元模型
数据加工元模型
指标加工元模型
标签加工元模型
调度元模型
调度依赖关系
调度环节
业务元模型
数据标准元模型
数据元模型
代码元模型
指标元模型
维度元模型
质量规则元模型
一致性规则元模型
完整性规则元模型
及时性规则元模型
唯一性规则元模型
有效性规则元模型
标签元模型
报表元模型
安全等级
操作元模型
权属
数据所有者
数据使用者
访问
访问方式
访问时间
访问限制
作业
日志
备份
归档人
归档时间
元数据采集
采集任务
采集日志
元数据质量
参考质量环节
元数据创建整合
建立审核流程以验证元数据创建维护的结果,采用多种方式采集并存储元数据, 对来源系统的元数据与相关的业务元数据、技术元数据、管理元数据等进行整合;
关系型
非关系型
元数据变更管理
元数据的变更宜遵循规范的操作流程,以提升元数据的准确性和时效性,保障元数据的质噩。元数据变更流程一般包括元数据变更申请、元数据变更审核、元数据维护和 元数据发布四个主要阶段。
元数据变更申请。
需要增加、修改、删除元数据,或进行应用退出时, 由开发人员、元数 据管理员或业务需求管理员等角色通过元数据管理模块发起元数据变更申请, 提交需要 变更的元数据消单以及变更细节;
元数据变更审核。
元数据管理员接受元数据变更申请,考察变更的必要性并进行元数据质 量检查、与变更影响相关方进行变更影响分析。变更细节确认后,交由元数据管理员批准 变更;
元数据维护。
元数据管理员对已入库的元数据进行发布准备工作,包括元数据关系维护,形成完整的数据流图, 形成元数据变更说明, 更新相关文档等;
元数据发布。
元数据管理员进行发布操作, 同时通知变更发起人和变更相关方;
元数据应用
数据资产地图
有哪些数据,在哪里可以找到这些数据,能用这些数据干什么
元数据血缘分析
发现数据问题时可以通过数据的血缘关系追根溯源,快速定位到问题数据的来源和加工过程,减少数据问题排查分析的时间和难度
元数据影响分析
价值在于当发现数据问题时可以通过数据的关联关系向下追踪,快速找到有哪些应用或数据库使用了这个数据,从而最大限度地减小数据问题带来的影响
元数据冷热度分析
让数据活跃程度可视化
《元数据资源目录-核心元数据》
数据质量
数据质量需求收集——计划(P)
数据质量沟通——建立数据质量需求调研机制
明确数据质量管理目标
外部监管
合规方面
明确数据质量管理范围
设计数据质量规则
数据质量等级评估
关键数据
重要数据
一般数据
制定数据质量规则
表
完整性
准确性
一致性
唯一性
有效性
字段
完整性
准确性
一致性
唯一性
有效性
持续更新
建立数据认责机制,明确各类数据管理人员以及相关职责,制定各类数据的优先级和质量 管理需求;
设计组织统一的数据质量评价体系以及相应的规则库;
明确新建项目中数据质量需求的管理制度,统一管理权限。
制定数据质量稽核计划
《数据质量需求调研模板/表格》 《数据质量稽核计划》
数据质量稽核——执行(D)
明确统一的数据质量检查制度、流程和工具,定义相关人员的职责;
数据质量校验,依据预先配置的规则、算法,对系统中的数据进行校验
ODS层质量稽核
DW层质量稽核
ADS层质量稽核
建立数据质量问题发现、告警机制,明确数据质量责任人员;
建立数据质量相关考核制度,明确数据质量责任人员考核的范围和目标;
数据质量问题管理,包括问题记录、问题查询、问题分发和间题跟踪。
《数据治理实施-数据处理环节设计记录文档》、 《数据质量报告》 《数据质量考核制度》
数据质量剖析——检查)C)
制定数据质量问题评估分析方法,制定统一的数据质量报告模板,明确了数据质量问题分析的要求;
制定数据质量问题分析计划,定期进行数据质量问题分析;
规范性评价指标
完整性评价指标
准确性评价指标
一致性评价指标
时效性评价指标
可访问性评价指标
对个别数据质量问题的根本原因、影响范围进行分析;
定期编制数据质量报告,并发送至客户进行审阅;
建立数据质量分析案例库,提升人员对于数据质量的关注度;
对产生的信息进行知识总结,建立数据质量知识库。
《数据质量问题处理表格》
数据质量提升——调整(A)
制定数据质量改进方案,根据数据质量分析的结果,制定数据质量提升方案;
数据质量校正,采用数据标准化、数据清洗、数据转换和数据整合等手段和技术,对不符合质量要求的数据进行处理,并纠正数据质量问题;
数据质量跟踪,记录数据质辽事件的评估初步诊断和后续行动等信息,验证数据质量提升的有效性;
数据质量提升,对业务流程进行优化,对系统问题进行修正,对制度和标准进行完善,防止将来同类问题的发生;
数据质量文化,通过数据质屋相关培训宜贯等活动,持续提升组织数据质散意识,建立良好的数据质量文化。
《数据质量专项提升方案》
数据分析
数据指标开发
指标模型
事实表
维度表
指标设计
原子指标
原子指标就是不加任何修饰词的指标,又叫度量,例如订单量、用户量、支付金额等
派生指标
派生指标是对原子指标业务统计范围的圈定,例如:昨日境外输入病例、网站近一周的访问量等
衍生指标
衍生指标是基于原子指标组合构建的,例如:客单价 = 支付金额 / 买家数。
指标应用
数据标签开发
标签类目体系设计
主体:能发出主动行为的实体,包括自然人或法人,及群体 客体:行为中被动作用的实体,如物品物体 行为关系:某时某刻主客体见发生的某种行为关系,例如浏览、推荐、购买等
标签设计
原始数据标签
统计数据标签
算法数据标签
标签应用
BI分析
《数据指标清单》 《数据标签清单》
数据共享
数据应用需求收集
1、梳理开放共享数据,组织需要对其开放共享的数据进行全面的梳理,建立清晰的开放共享数据目录;
2、制定外部数据资源目录,对组织需要的外部数据进行统一梳理,建立数据目录,方便内部用户的查询和应用;
3、建立统一的的数据开放共享策略,包括安全、质量等内容
《数据应用需求调研模板/表格》 《数据应用需求清单》
数据共享任务配置
结合数据需求,配置数据共享服务接口,并记录数据共享内容
开放任务发布
API
文件
队列
数据开放测试
功能测试
性能测试
《数据测试计划》、《数据应用测试用例》
《数据共享任务清单》、《数据API清单》
数据安全
数据安全需求
收集数据安全需求,识别安全需求
数据安全需求清单
影响的数据域数据
安全链接
相关政策
法律法规
监管要求
控制措施
数据安全分类分级
数据资产梳理
敏感数据识别
分类规划
主题分类
行业分类
分级规划
L4
L3
L2
L1
《数据分类分级清单》
《数据安全需求表》、《数据安全审计计划》
数据安全策略
数据采集安全
数据传输安全
数据存储安全
数据处理安全
数据交换安全
数据销毁安全
数据安全管理
事前预防
权限管理
权限审批
数据密级
事中监控
数据安全
脱敏
加密
替换
混淆
事后追踪
安全审计
查询日志
使用日志
下载日志
1) 检查数据安全管理标准与策略是否能满足各业务部门数据安全管理的需要; 2) 评估数据安全管理的措施是否能按照数据安全管理标准与策略的要求进行; 3) 规范数据安全审计的流程和相关文档模板。
《数据安全审计报告》
数据安全审计
过程审计,分析实施规程和实际做法,确保数据安全目标、 策略 、标准、指导方针和预期结果相 一致;
规范审计,评估现有标准和规程是否适当,是否与业务要求和技术要求相一致;
合规审计,检索和审阅机构相关监管法规要求,验证机构是否符合监管法规要求;
供应商审计,评审合同 、数据共享协议,确保供应商切实履行数据安全义务;
审计报告发布,向高级管理人员 、 数据管理专员以及其他利益相关者报告组织内的数据安全 状态;
数据安全建议,推荐数据安全的设计、操作和合规等方面的改进工作建议。
《数据安全审计计划》
数据治理评估
数据治理评估标准制定
数据治理人员
数据治理运营报告的提交频次
数据治理运营报告的平均查阅人数,最高查阅人数
数据治理例行会议的召开频次
高层领导参与数据治理例行会议次数的百分比
确定的数据域数量和数据治理关键干系人数量
数据治理流程在业务部门的执行率
参加数据治理培训的人数/次数
数据治理参与人员对数据治理理论、技术工具的掌握程度
数据质量问题
数据完整性,例如:属性完整性的百分比
数据及时性,例如:数据从发送到接收的时间
数据正确性,例如:某数据集中脏数据的百分比
数据一致性,例如:某数据指标在数仓和源系统的数值是否一致,某相同名称数据实体在不同系统的业务含义、数据结构、质量规则是否一致
既定周期内发生数据质量问题的个数
数据质量问题的影响范围,例如:系统范围、组织内部、部门内部
数据质量问题的严重程度,以存在的潜在风险或造成的经济损失为依据进行人工考核
数据质量问题处理的及时性
周期性数据质量稽核的执行情况
数据标准贯彻
按主题域划分的接受数据标准(用于特定数据或数据元素的数据)的部门的百分比
按主题域划分的共享数据标准的应用系统数据元素数量的百分比
按主题域划分的使用数据标准的业务流程数量的百分比
按主题域划分的使用数据标准的输出报告数量的百分比
按主题域划分的使用数据标准人数的百分比
按主题域划分的集成业务流程数量的百分比
治理策略执行
数据治理流程在业务部门的执行率
数据的安全合规使用天数
确定的数据问题数量
上报给数据治理委员会的问题数量
从问题识别到解决的时间
批准和实施的数据治理政策和流程的数量
发布的数据标准数量
数据标准被企业采用的数量
提高项目效率和新项目启动的设置
对新产品上市时间影响(以时间为衡量标准)
技术达成
数据问题修复的时间/成本
在来源验证的数据百分比
源数据库和目的数据库验证的数据之间的差异数
映射到数据模型和对象的业务术语数量
血缘分析完成百分比
提高数据报告效率和准确性
业务价值
提升效率
改善客户满意度
因违反监管规定而导致的罚款。
数据治理评估标准审核
数据治理评估计划
数据治理评估评审
数据治理评估报告
数据治理工作提升
数据管理成熟度评估
DCMM
DAMA
数据生命周期管理
采集
存储
整合
呈现与使用
分析与应用
归档
销毁
参与方案设计评审
面向甲方内部的项目管理 辅助乙方项目经理在甲方内部的资源协调
提供现有系统、数据(仓)库、网络环境等现状信息 提供或讨论资源规划需求(规划周期,业务及数据增长预估等) 评审乙方的资源评估输出
1、确认数据部门、技术部门对接人员 2、配合调研,评审需求、排期
数据治理是对数据管理的管理
最佳实现数据治理的方法:创建数据治理实施路线图。
元数据是数据管理的核心
是的,元数据是数据管理的核心。元数据是描述数据的数据,它记录了数据的属性、结构、定义和关系等信息。通过元数据,可以帮助用户更好地理解数据,了解数据的来源、格式、含义、访问和使用方式、安全性等,从而更好地管理和利用数据 。
元数据在数据管理中扮演了重要的角色。它可以用于数据的探索与调查、数据的集成与共享、数据的标准化与质量控制、数据的安全性与合规性等方面。同时,元数据也有助于提高数据的可重用性、共享性和互操作性,促进跨系统、跨组织和跨地域的数据交换与协作。
如何做
目标
量化指标
组织人员
数据架构
数据标准
主数据
数据质量
数据安全
保障体系
技术路径
自研
外购
实施保障
数据质量分析
技术问题
数据采集
数据交换
数据转换
数据清洗
数据调度
数据使用
数据维护
稽核流程
管理制度
管理
目标
责任人
优先级
培训
培训计划
培训制度
培训时间
考核
奖惩制度
反馈机制
信息域问题
度量
唯一性
一致性
有效性
准确性
精确性
元数据
技术元数据
操作员数据
操作元数据
变化频度
业务系统数据变化频率
数据刷新周期
流程问题
数据装载
数据创建
数据获取
数据使用
数据维护
数据质量提升步骤
定义和验证
影响分析和共性分析
追踪根本原因
识别和研究偏差
趋势监控
预防/修复数据质量问题
数据质量问题
定义缺失
指缺少关键业务元素定义,导致对同一字段的理解偏差。例如,什么是“一个客户”,不同业务有不同理解,通常风险应用将组织机构号作为对公客户的“身份证”,一个组织机构号代表一个客户;而核心系统对客户号的分配较为随意,允许一个组织机构号下存在多个客户号
数据异常
个别字段出现了异常信息,包括取值错误,格式错误、多余字符、乱码等
信息缺失或不准确
指在系统表中已经设计了某些字段,但在使用过程中,很多记录却没有收集这些字段的信息,或存在信息收集不准确、信息重复登记等情况。信息缺失或不准确通常在客户信息方面最为严重
系统之间数据不一致
系统间数据维护不一致
为了满足各个系统内部逻辑、提高访问效率和减少数据传输,相同信息可能在不同系统进行冗余存放。但冗余存放的数据如果不进行同步或及时的数据维护,则必会导致这些数据的不一致。例如,银行通常存在核心系统与信贷系统数据不一致的问题
系统之间数据同步时效性造成的不一致
典型案例如下:由于某些银行的贷记卡系统是外包系统,因此总账系统在T+1日才能取到贷记卡T日的数据,但是其他系统的科目余额缺失T+1日的数据,于是此种同步时效性的差异就导致了系统之间数据不一致
数据完整性问题
参照完整性
是指一个表A的外键不包含无效的键值,例如,借据表中记录了合同号,但是在合同表中无法找到相关记录
数据含义冲突
如某些账户,从账户属性、存期等字段看,应是通知存款产品,但从科目看,又是普通定期产品
数据生命周期问题
关键数据,例如,账户、客户、产品信息等,都有若干日期字段记录其生命周期,这些日期字段包括创建/开户日期、关闭/销户日期、最后交易日期和最后修改日期等,但是在业务系统中往往存在修改了记录状态却并未同步更新相关日期字段的情况。此外,还有一个违反合理数据生命周期的常见做法,就是直接在物理上删除记录
代码问题
代码不统一问题
即不同应用之间相同用途代码的编码不一致
未代码化问题
即常见情况使用文字存储,而非将信息代码化,很多时候会发现信息存储的不少,但却不便于分析使用
意外代码
即实际数据中出现了未定义的代码值
数据质量问题分类
管理问题域
管理
责任人
责任心
目标
工作优先级
培训
培训制度
培训计划
培训内容
培训资金
培训时间
激励
反馈渠道
反馈机制
奖惩制度
奖惩制度执行
流程问题域
数据创建
数据维护
数据装载
数据稽核
数据使用
信息问题域
质量
完整性
一致性
唯一性
准确性
合理性
元数据
业务元数据
技术元数据
变化频率
业务系统变化频率
实体数据刷新周期
技术问题域
数据维护
数据备份恢复
数据存储能力
人为调整数据
数据装载
数据清洗
数据转换
数据加载
调度机制
数据创建
数据校验规则不当
数据创建延迟
默认值使用不当
数据获取
接口获取过程中失真
数据源不当
取数时间不一致
数据传输
网络传输不可靠
文件传输方式出错
数据传输及时性
数据传输技术
数据使用
展示周期
展示工具
展示方式
开放数据错误
安全管理
脱敏方式不当
权限不当
数据质量评价指标
评估维度
规则级
表级
部门级
应用系统级
评估指标
完整性
字段完整性校验
对业务表的字段完整性校验,检查字段个数和字段名称是否完整。
空值校验
对非空字段检查填充率是否为100%,数据内容是否完整。
记录数校验
通过当前校验表中的记录数是否在预先设定的范围内,来验证数据记录的完整性。
记录条数在设定的范围内得满分 100,不在范围内得0分
参照校验——双向
验证校验数据包含在参照数据中的程度,以及参照数据包含在验证数据中的程度,即检验校验数据和参照数据相互包含的程度。
一致性
一致性校验
对分布在不同库表中的相同数据项进行一致性检查,包括对照原始数据和目标数据,检查在数据迁移过程中是否存在数掘错误、丢失致性检查包括:单表单行校验、单表汇总校验、双表汇总校验和双表单行校验四种。
单表单行校验
单表汇总校验
单表汇总校验:校验列数据汇总值和参照列数据汇总值一致得满分100,不一致得0分
双表汇总校验
双表汇总校验: 校验表与参照表关联后校验列数据汇总值和参照列数据汇总值一致得满分100,不一致得0分
双表单行校验
准确性
值域校验
校验数据的值是否在预设的范围内,数据内容是否是预期数据。例如人的年龄是否在合理范围内。
格式校验
对字段值的格式进行校验,主要包括编码格式校验,日期、时间格式校验 ( YYYY-MM 、YYYY-MM-DD YYYY-MM-DD HH:MI:SS),电话格式校验《手机号格式、固定电话格式)等。
参照校验——单向
校验数据在参照数据中的包含程度,度量数据中是否包含无效的数箱
合理性
逻辑校验
逻辑校验检查数据是否满足一定条件的要求,判断所得结果是否合理。逻辑校验检查数据是否满足一定条件的要求。分为单行逻辑、维度汇总统计和维度统计记录数三种。
单行逻辑校验
维度汇总统计校验
维度汇总统计校验: 维度汇总结果存在得满分100,不存在得0分
维度汇总记录数校验
维度统计记录数校验: 维度汇总结果个数大于0得满分100,等于0得0分
波动性校验
波动校验通过对两段不同时期数据的比较,检验数据波动情况是否合理。波动校验分同比校验、环比校验和占比校验三种子校验。
同比校验
环比校验
占比校验
关系校验
检查具有业务关联关系的数据之间的联系是否合理,是否具有与业务规则一致的联系。
唯一性
重复校验
校验某一或多个校验列数据是否有重复数据,对不能重复的数据进行的唯一性检查
及时性
记录数校验
校验某一更新周期内数据量是否变化,以此来判断数据的推送是否及时。
在更新周期内数据量有变化得满分100,无变化得0分
质量等级
优良
100-80
中等
60-80
较差
<60
数据资产
流通
共享单位数量
共享系统数量
服务需求数量
服务提供排名
能力类型分布
地图能力
电子签章能力
短信能力
数字证书能力
视频能力
非税管理能力
管理
资产管理
管理对象分类
资产分布
资产编目
指标管理
指标数量
指标分类
模型管理
模型分类及数量
加工管理
安全规则
质量规则
转换规则
存储管理
文件存储量
数据存储量
采集
数据接入情况
接入单位
接入系统
接入表
接入文件
数据接入趋势
数据质量专项
01综述
目标及成效
范围定义
02实施设计
实施路线图
数据质量问题清查
清查方式(三种)
工作闭环设计
稽核框架设计
稽核框架介绍
评分模型设计
评分模型介绍
数据质量实施设计
实施框架,工作矩阵
03工作步骤
集中整治阶段
组织架构分工
制度体系建设内容
数据资产清查
收集数据质量问题
问题分析统计
问题分发
问题整改
源端问题
内部问题
整改效果评价
持续改进阶段
事前
标准化清洗规则
源端探查
源端问题处理
源端数据质量评价
事中
标准化清洗规则
标准化治理
事中数据质量报告
事后
数据质量服务监控
数据运营报告
成熟度评估
04实施保障机制
05工具依赖集成
06重点难点工作
07输出物清单
数据资产价值
数据资产成本
建设费用
人工成本
材料成本
间接费用
运维费用
业务操作费用
技术运维费用
数据资产应用
资产分类
使用次数
使用对象
使用效果评价