导图社区 中国数据管理峰会
这是一篇关于2021DAMA中国数据管理峰会-学习总结分享(FBB)的思维导图,归纳了会议说明、数据管理、数据中台等知识。
编辑于2021-10-29 13:33:142021DAMA中国数据管理峰会总结
1. 会议说明
1.1. 参会者
各行各业,覆盖金融,能源,政务,教育,交通,物流,智能制造,医药卫生等
1.2. 内容
--分析数据管理领域国内外政策,趋势及标准,聚焦产品和技术创新--分享行业最佳实践与应用--数据管理涉及的数字经济、区块链、数据中台、数据安全、数据质量、最佳实践、实施路线开展深度分析和交流
1.3. 2021最佳
数据治理优秀产品
恩核信息,罗盘信息,北京数语、广州信安,东方金信,美林数据,数梦工厂,联通(广东)产业互联网,数澜科技,神州数码,江苏龙石,深圳昂楷,上海逸讯,数造科技,北京京航计算通讯研究所,南网数研院
数据治理创新
中国一重,延长石油,吉林电力,南方电网&数字研究院,东方航空,国网兰州,南京银行,江苏臻云,泰安银行,神州数码,成都昆仑墟,龙盈智达,云上贵州,联通(广东)产业互联网,张帮君
最佳培训架构
数澜研究院,数贝云集,山东新一代标准研究院,上海南洋万邦信息技术服务有限公司
政务及其他数据治理最佳实践
国家气象中心,北京市大数据局,上海期货交易所,济南市康养事业发展中心,苏州市大数据管理局,江苏省应急厅,广西交通设计集团,肇庆市政务服务数据管理局,联通(广东)产业互联网,中国移动云能力中心,闵行大数据中心,住建部科技中心&广联通,江苏金融租赁,华致酒行连锁股份
1.4. 提供认证
CDGA——数据治理工程师认证,Certified Data Governance Associate
行业经验0.5~5年,考试达60分
CDGP——数据治理专家,Certified Data Governance Professional
行业经验2~10年,考试达70分
CDMP——数据管理专家,Certified Data Management Professional
行业经验10年以上,考试达80分
数据管理基础考试(14个主题)&专业考试
数据管理流程,大数据,数据架构,文件和额内容管理,数据伦理,数据治理,数据集成和互操作,主数据和参考数据,数据建模与设计,数据质量,数据安全,数据存储和操作,数据仓库和商业智能,元数据管理
区块链证书
2. WHY
2.1. 外部环境
总结:数据政策指引
中央定调——数据中心作为新基建纳入国策
地位提升——明确数据成为新型生产要素
国策指示——加快推进创新发展数字化转型
数据市场化(信安数据等材料)
2017年,习近平总书记再次强调,在互联网经济时代,数据是新的生产要素,是基础性资源和战略性资源,也是重要生产力,要构建以数据为关键要素的数字经济
2019/10,党中央《推进国家治理体系和治理能力现代化若干重大问题的决定》,健全劳动、资本、土地、知识、技术、数据等生产要素,由市场评价贡献,按贡献决定报酬的机制
2020/4/9,中央第一份关于要素市场化配置的文件《中共中央国务院关于构建更加完善的要素市场化配置体系机制的意见》——指出土地、劳动力、资本、技术、数据五个要素(土地和劳动力是农业社会生产要素,资本和技术是工业革命后重要的生产要素,数据是资本时代新型生产要素)
2021/3,全国人大表决通过《十四五规划纲要》,建立健全数据要素市场规则,建立数据资源产权,交易流通,跨境传输和安全保护等基础制度和标准规范
2021国资厅发研究[2021]2号文件,国资委重大课题之一:国资委国资央企数据共享技术体系和工作机制课题组;国资央企对数据共享的需求非常大,包括但不限于煤炭数据、电力数据、航班数据及出行数据等
数据安全
《数据安全法》——总则第三条:数据安全,是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力
2021/10/1,出台《汽车数据安全管理若干规定》
2019/8/30,《信息安全技术 数据安全能力成熟度模型》(GB/T 37988-2019),简称DSMM正式成为国标对外发布
发展新形势(国家信息中心)
战略机遇期——做强做大数据经济已成为构筑国家竞争新优势,争夺发展主动权的战略选择
起步拓展期——我国数字经济规模化效应尚未显现
交织发展期——新技术、新业态、新模式相互交织演进
矛盾凸显期——数字经济形态与现有管理体制对撞,规范健康可持续成为数字经济高质量发展的迫切要求
数据要素三级市场(清华经管学院)
自由市场
数据资源要素化市场(数据资源生产数据要素)
一级市场
数据要素资产化市场(数据要素收入数据资产)
二级市场
数据资产资本化市场(数据资产投资数据资本)
2.2. 内部环境
重要性
数据贯通企业主价值链业务流程
数据驱动力(厦航的十四五发展思路三大动力之一-数据驱动力,组织协同力,文化凝聚力)
问题
数据分散,有数据不好找
数据分散几百个系统;数据资源未结构化,利用难度大
数据壁垒,有数据不能用
数据共享低,难整合,沟通成本高;数据权责不清
质量缺陷,有数不敢用
缺乏校验与流程,数据质量差;历史脏数据,数据核对清洗占用大量时间
应用不足,有数不会用
分析利用程度低,应用领域窄;典型场景少,未发挥数据价值
数据同义不同名,缺乏数据标准
模型设计不规范,维度不统一,扩展难
业务系统数据重复录入,数据不一致
系统接口多,成本高,集成困难
数据重复获取进行统计分析、报表分析
未坚持业务应用为导向
安全管理机制不完善
数据管理诉求/价值
业务协同与将本增效
产业链协同需求
智能制造需求
数字化转型需求
管理创新开放共享需求
挑战(神马-前轮基于数字原生的数据治理)
治理高度——整体性数据标准、灵活治理机制、多层级价值协同
治理宽度——第三方数据治理,数据类型复杂,治理可理解
治理深度——人工智能治理,业务流程深入,时间维度纵切
3. 体系&方法论
3.1. DAMA
11个治理领域+7个环境
数据架构管理,数据建模设计,数据存储和操作,数据安全管理,数据集成和互操作,文档/内容管理,参考数据&主数据管理,数据仓库&商业智能管理,元数据管理,数据质量管理,数据治理
数据治理全过程工具包
数据治理——线上应用网站,业务术语表,工作流工具,文档管理工具,数据治理积分卡,数据建模工具
数据架构——资产管理软件,图形设计应用,数据建模工具
数据建模与设计——数据血缘工具,数据分析工具,元数据资料库,数据模型模式,行业数据模型,数据建模工具
数据存储与操作——数据库监控恐惧,数据库管理工具
数据安全——杀毒软件安全软件,HTTPS,身份管理技术,入侵软件和入侵防御软件
数据集成和互操作——数据转换引擎/ETL工具,数据虚拟化服务器,企业服务总线,企业规则引擎,数据和流程建模工具,数据刨析工具,元数据存储库
文件和内容管理——企业内容管理系统,协作工具,受控词汇表和元数据工具,标准标记和交换格式,电子取证技术
参考数据和主数据——主数据管理工具
数据仓库和商务智能——元数据存储库,数据集成工具,商务智能工具的类型
元数据管理——元数据存储库
数据质量——数据刨析工具,建模和ETL工具,数据质量规则模板,元数据存储库
3.2. DCMM数据成熟度评估模型(国标)
8个能力域,29个能力项目
数据战略(数据战略规划、数据战略实施、数据战略评估)数据治理(数据治理组织、数据制度建设、数据治理沟通)数据架构(数据模型、数据分布、数据集成与共享、数据服务)数据应用(数据分析、数据开放共享、数据服务)数据安全(数据安全策略、数据安全管理、数据安全审计)数据质量(数据质量需求、数据质量检查、数据质量分析、数据质量提升)数据标准(业务术语、参考数据和主数据、数据元、指标数据)数据生命周期(数据需求、数据设计和开发、数据运维、数据退役)
3.3. 盘-规-治-用
管控数据风险为目的
目录梳理-标准完善-质量监控-数据入湖-数据应用
3.4. 用-识-管-治
业务驱动,实现数据价值
3.5. 分阶段数据治理(神马—浅论基于数字原生的数据治理)
数据采集阶段数据治理
可靠——数据源并非来自物理世界,而是来源于数字世界,数据准确性可验证
分布式——统一标准接口,高性能、高并发、高可用数据源可扩展
低时延——需要晚辈的基础设施,完备的传输协议,采集时延无感知
安全——符合国家区域安全要求,符合法律法规要求,安全标准可操作
数据融合阶段数据治理
熵减——数据治理本质是熵减的过程,是建立秩序,需要源源不断投入资源才能维持熵减值平衡
联邦学习——在联邦机制下,参与者的身份相同,通过建立共享数据策略进行建模,由于数据不发生转移,因此不会泄露用户隐私或影响数据规范
可解释的数据融合——通过多方面、多层次的数据处理,形成可解释的像素级、特征级、决策级信息融合
数据创新及数据业务过程中的数据治理
基于人工智能的数据挖掘,迁移学习,知识图谱及认知推理,边缘计算
3.6. 五大趋势(信安数据)
集中式→分布式
元数据——元数据作为抓手将变得更为重要
区块链——在分布式数据安全、数据质量稳定、主数据一致性方面具有极大的应用价值
联邦学习——有助于在避免数据跨库频繁复制的前提下,实现多库数据关联计算,训练算法和数据模型
异构融合——结构化和非结构化数据的融合治理,批量和实时数据的关联治理
边云协同——数据治理能力从云端向海量边缘计算节点延伸,从边缘节点开始保障数据可信、可靠、可用
传统式数据治理→资产化数据治理
登记机制、确权认责、价值评估
技术向→价值化数据治理
价值导向,“微创”式(聚焦痛点病灶的定点,微创式数据治理更有利于降低成本,价值最大化),辆画可测(直观呈现治理成果及趋势,价值量化可见)
人工数据治理→智能化数据治理
数据标准智能生成,元数据智能感知,数据质量智能纠错,数据安全智能防护
企业级→产业级
企业级(单一企业范围内)→行业级(同一行业多个企业实现神护具互通和互利)→产业级(同一产业跨行业的企业数据进行归集和整合,打破行业壁垒,实现数据自由流通)
4. 数据管理
4.1. 制度建设(美林)
数据战略
《数据战略与蓝图设计》
数据组织与职责
《数据管理委员会工作章程》、《数据管理委员会任职资格》、《数据认责管理办法》、《数据治理组织角色设计方案》、《数据管理小组工作规范》、《数据管理小组绩效考评》
数据服务
《数据服务管理制度》、《数据服务上架、下架流程》
数据需求管理
《数据需求管理办法》、《数据服务需求管理细则》
数据仓库
《数据仓库分级规范》、《数据仓库开发规范》、《数据仓库设计规范》、《数据仓库管理相关办法》
数据管理
数据标准管理
《数据标准管理制度》、《数据标准发布流程》、《数据标准修订流程》
元数据管理
《元数据标准》、《元数据管理变更流程》、《元数据管理管理规范》
数据安全管理
《数据安全管理制度》、《数据分类分级标准》
内容管理
《内容管理办法》、《文件元数据标准》
数据架构与模型管理
《数据架构管理办法》、《数据模型管理办法》
主数据管理
《各类主数据标准》、《主数据管理拌饭》、《主数据管理流程》
数据保留与归档管理
《数据保留周期管理办法》、《数据规范管理办法》
数据质量管理
《数据质量管理办法》、《数据质量考评细则》、《数据质量考评办法实施细则》
4.2. 数据要素(国家信息中心)
特点
高初始固定成本——形成系统性的消费者画像,全产业链的数字孪生、智能化平台经济体,需要海量对象、信息的数字化、海量信息的存储、连接、计算、海量算法和算力的持续、自主优化,需要IoT设备,交互网络,云端设施等大规模硬件投入
零边际成本——信息的复制与传播成本低,比特化的数据复制几乎不存在成本,尤其是,受摩尔定律作用影响,大数据及信息传输技术快速进度,信息存储,传输和处理的成本呈几何级数下降
积累溢出效应——数据的广泛应用,持续扩散和数字产品和服务能力的不断增强,交互信息的几何级数积累,尤其是IoT的广泛推广所推动的万物互联,海量数据的广泛应用,形成数据 应用和数据积累的相互加强
属性
具有非消耗性——可无限循环利用,不会因为任何人的使用而消失
具有可共享型——可以提供给他人而不会令其使用价值减少
自增值性——越挖掘价值越大
可交易的前提
数据要素个体可辨识性
解决思路——数据资源标签化,区块链技术(通过时空标记,区分内容相同的不同数据集。区块链可以弥补互联网的可信性确实
数据要素的用途可跟踪性
数据要素的价值可衡量性
数据市场化
要素确权、交易单位、定价机制、交易模式、交易监管、创新支持
数据治理三原则
Open while must,在必须的时候开放
Cooperate/Share while needed,在需要的时候合作/写作/共享
Trade while possible,在可能的时候交易
4.3. 数据确权
数据确权三阶体系(清华经管学院)
一阶-成本:数据作为虚拟生产要素,其权利必须依托技术支撑,是与其他要死差异的重要原则,由控制权、处理权和开发利用权
二阶-收益:数据要素投入生产的产品服务会形成收益,相关收益方基于原则约定并享有权益
三阶-管理:关节权力,对数据管理的配置进行规则制定与制约
4.4. 数据资产规划(美林)
主体域→数据分布→数据流向
通常一个制造企业,12-20多个一级主体域,40~70多个二级主体域
通常一个制造企业,800~1400个核心实体,2000~6000个模型
各主体域间数据流图,各主体域间C-U矩阵图
4.5. 数据安全以DSP为底座的数据安全运营(深圳昂凯)
数据安全运营
管理、运营——模型分析、数据安全综合治理平台,威胁情报
梳理、评估、验证——数据资产梳理服务,数据分类分级服务,数据安全风险评估服务,数据库攻防演练服务
梳理、漏扫、检测——数据资产梳理,数据分类分级,特权系统,漏洞扫描
审计、检测、预警——数据库审计,大数据审计,云数据库审计,工控数据审计,日志审计,状态监控,安全运维审计
防御:权限控制、数据脱敏、水印——串联数据库防火墙,旁路数据库防火墙,安全运维审计,数据脱敏,数据加密,数据水印
架构
运营度量——从资产防护覆盖率,风险处置时效性,风险收敛率,漏洞整改率等核心指标进行度量,找到数据安全的主要平静,PDCA持续优化
数据资产运营——战术数据资产的健康度、脆弱性,数据资产类型,等级与敏感数据的分布、反馈账号及权限变更情况
行为模型运营——基于大数据分析、AI只能模型,对海量日志进行分析,识别,行为计算模型优化
安全风险运营——安全可视化展示数据安全风险类型的分布及处置状态
安全策略运营——访问权限策略优化,数据处置(水印,脱敏,加密)策略优化
DSP为数据管理者与技术人员架设桥梁
CDO——一眼掌握资产动态与数据安全保护措施及效果
数据Owner——权责相符,自己数据自己掌握
数据消费者——敏捷获取数据
安全管理员——低成本高效率,实时合规
4.6. 数据模型(数据中台架构与数据模型管控-Datablau)
数语制造业客户:华为,美的,广汽丰田,中国重汽,海信
突出了:数据模型,数据目录,数据质量,数据标准,元数据管理环节自动化应用
数据治理不是一个项目,本着长期务实的精神,才能完成数字化转型
数据上下文(元数据、数据资产)的积累是个长期的过程
统一表述工具(数据模型),各种角色都能理解、使用和反馈,不断调优
跨业务领域写作,需要开放与共享(数据资产目录)
各种业务场景的深刻理解和洗礼才能打磨出真正的数据底座
数据是企业的持久资产,全量、全要素的链接,数据治理不是一个项目
数据中台开发中,模型管理缺失比较普遍
开发过程过于敏捷,维护性缺失,需要规范落地的开发模式
SQL代码需要附加模型映射管理,提高数据资产清晰度
数据模型没有可视化管理和设计,落地规范
模型设计工具需要国产化和正式化,并于中台整合
模型最为最重要的数据资产沉淀和共享,提高中台的价值
一体化业务级数据管理体系
数据治理架构
数据治理及数据集设计的整体方法论
业务访谈-系统访谈-业务全景图-数据资产梳理(主体域划分/业务对象识别/逻辑模型设计)-数据质量标准(标准制定,质量评估,质量改进)-数据集设计-数据服务化
IT4IT 4A架构&一体化数据架构
BA业务架构,DA数据架构,TA技术架构,AA应用架构
企业级信息架构的四个组件
数据资产目录,数据标准,数据模型,数据分布
六项数据入湖标准
明确数据OWNER——由数据产生的流程Owner担任,是所辖数据端到端管理的责任人,负责对入湖的数据定义数据标准和密集,承接数据消费中数据质量问题,并制定数据管理工作路标,持续提升数据质量
发布数据标准——入湖数据要有相应的业务数据标准。业务数据标准描述公司层面需共同遵守的属性曾数据的含义和业务规则,是公司层面面对某个数据的共同理解,这些礼节一旦明确并发布,就需要作为标准在企业内被共同遵守
认证数据源——通过认证数据源,能够确保数据从真确的数据源头入湖,认证数据源应遵循公司数据源管理的要求,一般数据源指业务上首次正式发布某项数据的应用系统,并经过数据管理专业组织认证。认证过的数据源作为唯一数据源头被数据湖调用。当成在数据源的应用系统出现合并、分析、下线情况时,应及时对数据源进行失效处置,并启动新的数据源认证流程
定义数据密级——定义数据密级是数据入湖的必要条件,为了确保数据湖中的数据能充分共享,同时又不发生信息安全问题,入湖的数据必须要定密。数据定密的责任主题是数据Owner,数据管家有责任审视入湖数据密级的完整性,并推动,协调数据定密工作。数据定密在属性层级、根据资产的重要程度,定义不同等级。不同密级的数据有相应消费要求,为了促进公司数据的消费,数据湖中的数据有相应的降密机制,到将密期或满足将密条件的数据应及时将密,并刷新密级信息。
定义数据质量方案——数质量是数据消费结果的保证,数据入湖不需要对数据进行清洗,但需要对质量进行评估,让数据的消费人员了解数据的质量情况,并了解消费该数据的质量风险,同时数据Owner和数据管家可以根据数据质量评估的情况,推动源头数据质量的提升,满足数据质量的消费要求
注册元数据——元数据注册是指将入湖数据的业务元数据和技术元数据进行关联,包括逻辑实体和物理表的对应关系,以及业务属性和表字段的对应关系,通过连接业务元数据和技术元数据的关系,能够支撑数据消费人员通过业务语义快速的搜索到数据湖中的数据,降低数据湖中数据消费的门槛,能让更多的业务分析人员理解和消费数据
通过数据标准,建立质量检查机制
标准制定,质量要求细则,校验脚本(标准制定,标准发布)
按照标准设计,按照质量要求核验(模型工具,落标引标对标)
集成开发控制(入口控制)
数据层核验(事后校验)
数据模型管理流程
数据模型开源社区,企业级在线多人协作建模
开源模型市场、众筹建模项目、免费建模工具(社区版DDM建模工具,构建ER图并自动生成DDL脚本),多人协作建模,建模培训
4.7. 通用数据模型(医疗大数据)
4.8. 数据质量
事前约束+事中校验+事后认责 全生命周期数据管理理念
4.9. 政务类
核心理念——逐层分解
技术底座
数据互联DPaas(General Data Connector)——以数据交互为核心,实现数据开发、联通、治理、碰撞、分析、维护的全流程在线管理,支撑数据体系的集约化建设
数据沙箱SPaas(Contextual Data Security Guard)——以数据仿真、数字拟合、数据隔离技术充分确保数据安全
零低代码VPaas(Less Code Visual Developer)——以可视化引擎为核心有效支撑前端应用快速实施和上线发布
应用工厂APaas(Diverse Application Machinist)——以系统组件化技术有效赋能应用场景的统一建设
4.10. 建议
一把手支持
业务部门参与,既是运动员也是裁判员
信息部门需要熟悉业务痛点
数字化转型不是“买平台”
持续盘点,给资产画像
持续探索场景,利用AI自动化能力
5. 数据中台
5.1. 数据接入
离线结构化数据、离线非结构化数据、实时半结构化数据、实时非结构化数据
5.2. 数据服务(API)
5.3. 数据可视化分析
5.4. 数据挖掘分析
5.5. 机器学习
5.6. 数据存储
大数据基础平台、分布式存储、关系型数据库、时序数据库、文件数据库
5.7. 数据资产管理
元数据、数据标准、数据安全、数据质量、数据模型、数据陌路、数据标签、主数据、数据生命周期、文件数据、招标数据······
5.8. 系统管理
用户管理、角色管理、组织机构管理、日志审计
5.9. 数据中台/底座
三大底座核心能力
全类型存储、全栈式开发,全场景支撑
支撑全域、全类型、全时态数据处理
累计PB+级采集和存储;对接>数十万张表;日新增采集TB+级
6. 案例
6.1. 临时用电设备租赁服务(南方电网)
通过设备数据整合共享,打破电网、用电户市场信息壁垒,实现空闲用电设备租赁“撮合”,有效提升设备利用率,降低企业设备持有成本
6.2. 厦航数据应用
厦航数据创新大赛——运行安全赛道,企业管理赛道,营销服务赛道
7. Slogan
7.1. 把工厂转变为战场,把交付产品转变为交付战斗力
7.2. 多模态数据整合技术&知识发现技术。 Data→Information→Knowledge→Wisdom
7.3. 帮助更多的人用好数据(厦航)
7.4. 业务和技术协同作战,大力实施“数业融合”
7.5. 数字赋能、柔性开放、绿色高效