导图社区 《华为数据之道》知识结构
《华为数据之道》通过对华为公司数据治理体系和数据底座建设方法与实践的介绍,讲述了数据工作如何支撑业务变革,如何驱动数字化转型。
编辑于2023-04-18 17:47:13 广东华为数据之道(2020年)
第1章 数据驱动的企业数字化转型
1 非数字原生企业的数字化转型挑战
业态特征:产业链条长、多业态并存
非数字原生企业,特别是大中型生产企业,往往有较长的业务链路,从研发到销售全产业链覆盖。
运营环境:数据交互和共享风险高
非数字原生企业,特别是注重实物生产、交易的大中型企业,还面临着场景复杂的特点,比如交易复杂、风险周期长、内外部风险多等。
IT建设过程:数据复杂、历史包袱重
非数字原生企业普遍有较长的历史,组织架构和人员配置都围绕着线下业务开展,大都经历过信息化过程。很多制造型企业随着不同阶段的发展需求,保留着各个版本的ERP软件和各种不同类型的数据库存储环境,导致数据来源多样,独立封装和存储的数据难以集中共享,也不敢随意改造或替换,IT系统历史包袱沉重。
数据质量:数据可信和一致化的要求程度高
华为公司会对合同录入质量进行严格度量和控制,以确保下游各环节能够及时、准确、完整地获得所需数据,并在整个端到端链条中对异常数据进行严格监控。数据质量要求严格,需要配置多重精确规则,基于客观事实多重校验,确保数据可信、一致。
2 华为数字化转型与数据治理
华为数字化转型整体目标
“实现全联接的智能华为,成为行业标杆”的数字化转型目标
对内,各业务领域数字化、服务化,打通跨领域的信息断点,达到领先于行业的运营效率。
对外,对准5类用户的ROADS体验,实现与客户做生意更简单、更高效、更安全,提升客户满意度。
华为数字化转型蓝图及对数据治理的要求
1)基于统一的数据管理规则,确保数据源头质量以及数据入湖,形成清洁、完整、一致的数据湖,这是华为数字化转型的基础。
2)业务与数据双驱动,加强数据联接建设,并能够以数据服务方式,灵活满足业务自助式的数据消费诉求。
3)针对汇聚的海量内外部数据,能够确保数据安全合规。
4)不断完善业务对象、过程与规则数字化,提升数据自动采集能力,减少人工录入。
3 华为数据治理实践
华为数据治理历程
第一阶段:2007-2016年
1)持续提升数据质量,减少纠错成本
2)数据全流程贯通,提升业务运作效率
第二阶段:2017年至今
1)业务可视,能够快速、准确决策
2)人工智能,实现业务自动化
3)数据创新,成为差异化竞争优势
华为数据工作的愿景与目标
愿景:实现业务感知、互联、智能和ROADS体验,支撑华为数字化转型
目标:清洁、透明、智慧数据,使能卓越运营和有效增长
华为数据工作建设的整体思路和框架
数据源
数据湖
数据主题联接
数据消费
数据治理
第2章 建立企业级数据综合治理体系
华为数据治理体系框架
1 建立公司级的数据治理政策
华为数据管理总纲
信息架构管理原则
数据产生管理原则
数据应用管理原则
数据问责与奖惩管理原则
信息架构管理政策
管理信息架构的角色与职责
信息架构建设要求
信息架构遵从管控
数据源管理政策
数据源管理原则
数据源认证标准
数据质量管理政策
(1)数据质量管理职责及要求
(2)数据质量管理的业务规则和管理要求
数据质量的持续提升是华为数据治理的核心目标
2 融入变革、运营与IT的数据治理
建立管理数据流程
为了支撑企业数据资产从架构设计、质量管理到数据分析应用的全生命周期管理,需要在企业的流程架构中建立一个管理数据流程,明确数据管理的关键活动、角色,以及与周边组织的协作关系。
管理数据流程与管理变革项目、管理质量与运营之间的关系
企业在运营过程中,能力的提升和架构的调整依托于变革项目和改进项目的实施。变革项目和改进项目需要交付业务解决方案、数据解决方案、IT解决方案,其中数据解决方案包含信息架构设计、数据质量度量、改进方案和数据分析方案。
通过变革体系和运营体系进行决策
在华为的数据治理实践中,数据相关的重大决议由企业变革指导委员会决策,通过变革管理体系和流程运营体系实现落地
信息架构的设计和变更分两层评审决策,在信息架构专家组进行专业评审,在企业架构委员会进行流程、数据与IT集成评审和争议裁决
数据治理融入IT实施
业务人员通过使用IT产品提供的功能和服务提升作业效率,因此,对业务数据的管理要求,必然要落实到IT产品的操作界面和数据库设计中,这样才能落实数据治理的要求
通过内控体系赋能数据治理
华为通过内控体系,每年实施SACA评估和数据专项内部审计,揭示数据治理过程的问题,确定改进目标和责任人,从而保证数据治理机制的有效运作
3 建立业务负责制的数据管理责任体系
任命数据Owner和数据管理
业务即行为,行为即记录,记录即数据。华为公司的每一个数据,必须由对应的业务部门承担管理责任,且必须有唯一的数据Owner。业务负责制的数据管理责任体系,是华为数据治理体系多年实践经验的结晶,是确保体系发挥作用的基石。
华为按分层分级原则任命数据Owner,在公司层面设置公司数据Owner,在各业务领域设置领域数据Owner,这样既能确保公司数据工作统筹规划,也能同时兼顾各业务领域灵活多变的特征。
公司数据Owner是公司数据战略的制定者、数据文化的营造者、数据资产的所有者和数据争议的裁决者,拥有公司数据日常管理的最高决策权
数据管家是数据Owner的助手,是数据Owner在数据管理方面的具体执行者。
建立公司层面的数据管理组织
为支撑公司实施数据治理,华为在企业范围内建立了一个公司级数据管理部,代表公司制定数据管理相关的政策、流程、方法和支撑系统,制定公司数据管理的战略规划和年度计划并监控落实。
1)体系建设者
2)能力中心
3)业务的数据伙伴
4)文化倡导者
第3章 差异化的企业数据分类管理框架
1 基于数据特征的分类管理框架
华为根据数据特性及治理方法的不同对数据进行了分类定义:内部数据和外部数据、结构化数据和非结构化数据、元数据。其中,结构化数据又进一步划分为基础数据、主数据、事务数据、报告数据、观测数据和规则数据。
2 以统一语言为核心的结构化数据管理
基础数据治理
基础数据用于对其他数据进行分类,在业界也称作参考数据。
主数据治理
主数据是参与业务事件的主体或资源,是具有高业务价值的、跨流程和跨系统重复使用的数据。主数据与基础数据有一定的相似性,都是在业务事件发生之前预先定义;但又与基础数据不同,主数据的取值不受限于预先定义的数据范围,而且主数据的记录的增加和减少一般不会影响流程和IT系统的变化。
华为的主数据范围包括客户、产品、供应商、组织、人员主题,每个主数据都有相应的架构、流程及管控组织来负责管理。
事务数据治理
事务数据的治理重点就是管理好事务数据对主数据和基础数据的调用,以及事务数据之间的关联关系,确保上下游信息传递顺畅。在事务数据的信息架构中需明确哪些属性是引用其他业务对象的,哪些是其自身特有的。对于引用的基础数据和主数据,要尽可能 调用而不是重新创建。
报告数据治理
用于报表项数据生成的事实表、指标数据、维度。
用于报表项统计和计算的统计函数、趋势函数及报告规则。
用于报表和报告展示的序列关系数据。
用于报表项描述的主数据、基础数据、事务数据、观测数据。
用于对报告进行补充说明的非结构化数据。
观测数据治理
观测数据的感知方式可分为软感知和硬感知。软感知是使用软件或者各种技术进行数据收集,收集的对象存在于数字世界,通常不依赖于物理设备,一般是自动运行的程序或脚本;硬感知是利用设备或装置进行数据收集,收集的对象为物理世界中的物理实体,或者是以物理实体为载体的信息,其数据的感知过程是数据从物理世界向数字世界的转化过程。
规则数据治理
规则数据必须有唯一的数据Owner,其负责开展规则数据的信息架构建设与维护、数据质量的监控与保障、数据服务建设、数据安全授权与定密等工作。
相应的数据管家支持数据Owner对所管辖的业务中的规则数据进行治理,包括建设和维护信息架构、确保架构落地遵从、例行监控数据质量等。
3 以特征提取为核心的非结构化数据管理
华为的非结构化数据包括文档(邮件、Excel、Word、PPT)、图片、音频、视频等。
相较于结构化数据,非结构化元数据管理除了需要管理文件对象的标题、格式、Owner等基本特征和定义外,还需对数据内容的客观理解进行管理,如标签、相似性检索、相似性连接等,以便于用户搜索和消费使用。因此,非结构化数据的治理核心是对其基本特征与内容进行提取,并通过元数据落地来开展的。
非结构化数据管理模型
非结构化数据的元数据管理采用统分统管的原则,即基本特征类属性由公司进行统一管理,内容增强类属性由相关承担数据分析工作的项目组自行设计,但其分析结果都应由公司元数据管理平台自动采集后进行统一存储。
1)基本特征类:参考都柏林十五个核心元数据,实现对非结构化数据对象的规范化定义,如标题、格式、来源等。
2)内容增强类:基于非结构化数据内容的上下文语境,解析目标文件对象的数据内容,加深对目标对象的客观理解,如标签、相似性检索、相似性连接等。
4 以确保合规遵从为核心的外部数据管理
外部数据是指华为公司引入的外部组织或者个人拥有处置权利的数据,如供应商资质证明、消费者洞察报告等。外部数据治理的出发点是合规遵从优先,与内部数据治理的目的不同。
外部数据的治理遵循原则:
1)合规优先原则
2)责任明确原则
3)有效流动原则
4)可审计、可追溯原则
5)受控审批原则
5 作用于数据价值流的元数据管理
元数据治理面临的挑战
元数据管理架构及策略
元数据管理
产生元数据
元数据设计原则
业务元数据设计原则
技术元数据设计原则
操作元数据设计原则
数据资产编码规范
采集元数据
元数据采集是指从生产系统、IT设计平台等数据源获取元数据,对元数据进行转换,然后写入元数据中心的过程。
注册元数据
运维元数据
第4章 面向“业务交易”的信息架构建设
1 信息架构的四个组件
数据资产目录
数据资产目录形成完善的企业资产地图,也在一定程度上为企业数据治理、业务变革提供了指引。基于数据资产目录可以识别数据管理责任,解决数据问题争议,帮助企业更好地对业务变革进行规划设计,避免重复建设。
数据标准
数据标准定义公司层面需共同遵守的属性层数据含义和业务规则,是公司层面对某个数据的共同理解,这些理解一旦确定下来,就应作为企业层面的标准在企业内被共同遵守。 一旦不同业务环节各自定义,那么数据就无法在上下游业务之间快速流转,往往需要额外的人工转换和翻译,这会极大地增加不必要的人工成本、延长业务执行周期、降低 业务效率。
数据模型
数据模型是从数据视角对现实世界特征的模拟和抽象,根据业务需求抽取信息的主要特征,反映业务信息(对象)之间的关联关系。数据模型不仅能比较真实地模拟业务(场景),同时也是对重要业务模式和规则的固化。
数据分布
么数据分布定义了数据产生的源头及在各流程和IT系统间的流动情况。数据分布组件的核心是数据源,指业务上首次正式发布某项数据的应用系统,并经过数据管理专业组织认证,作为企业范围内唯一数据源头被周边系统调用。
2 信息架构原则:建立企业层面的共同行为准则
原则一:数据按对象管理,明确数据Owner
原则二:从企业视角定义信息架构
原则三:遵从公司的数据分类管理框架
原则四:业务对象结构化、数字化
原则五:数据服务化,同源共享
3 信息架构建设核心要素:基于业务对象进行设计和落地
按业务对象进行架构设计
原则一:业务对象是指企业运作和管理中不可缺少的重要 人、事、物
原则二:业务对象有唯一身份标识信息
原则三:业务对象相对独立并有属性描述
原则四:业务对象可实例化
按业务对象进行架构落地
1. 逻辑数据实体设计
2. 一体化建模管理
4 传统信息架构向业务数字化扩展:对象、过程、规则
对象数字化
过程数字化
规则数字化
第5章 面向“联接共享”的数据底座建设
1 支撑非数字原生企业数字化转型的数据底座建设框架
数据底座的总体架构
数据底座的建设策略
数据底座建设不能一蹴而就,要从业务出发,因势利导,持续进行。具体来说,华为数据底座采取“统筹推动、以用促建、急用先行”的建设策略
数据安全原则
需求、规划双轮驱动原则
数据供应多场景原则
信息架构遵从原则
2 数据湖:实现企业数据的“逻辑汇聚”
华为数据湖的3个特点
逻辑统一
类型多样
原始记录
数据入湖的6个标准
明确数据Owner
发布数据标准
认证数据源
定义数据密级
数据质量评估
元数据注册
数据入湖方式
批量集成
数据复制同步
消息集成
流集成
数据虚拟化
结构化数据入湖
入湖标准:明确数据Owner、发布数据标准、认证数据源、定义数据密级、评估入湖数据质量
非结构化数据入湖
基本特征元数据入湖
文件解析内容入湖
文件关系入湖
原始文件入湖
3 数据主题联接:将数据转换为“信息”
5类数据主题联接的应用场景
多维模型设计
确定业务场景
声明粒度
维度设计
事实表设计
图模型设计
业务场景定义
信息收集
图建模
实体、概念、属性、关系的标注
实体和概念的识别
属性识别与关系识别
标签设计
指标设计
算法模型设计
第6章 面向“自助消费”的数据服务建设
1 数据服务:实现数据自助、高效、复用
什么是数据服务
数据服务是基于数据分发、发布的框架,将数据作为一种服务产品来提供,以满足 客户的实时数据需求,它能复用并符合企业和工业标准,兼顾数据共享和安全。
数据服务建设过程中,首先应该在企业层面制定统一的数据服务建设策略,
在数据服务建设中,应该为各个供应方树立统一的标准,并将这些标准以规范的形式进行固化,使所有数据服务建设都遵循同样的标准。
数据服务生命周期管理
完整的数据服务生命周期包括服务识别与定义、服务设计与实现、服务运营三个主要阶段。
数据服务分类与建设规范
数据集服务
数据API服务
打造数据供应的“三个1”
1天:对于已发布数据服务的场景,从需求提出到消费者通过服务获取数据,在1天内完成。
1周:对于已进底座但无数据服务的场景,从需求提出到数据服务设计落地、消费者通过服务获取数据,在1周内完成。
1月:对于已结构化但未进底座的场景,从需求提出到汇聚入湖、数据主题联接、数据服务设计落地、消费者通过服务获取数据,在1个月内完成。
2 构建以用户体验为核心的数据地图
数据地图的核心价值
企业在经营和运营过程中产生了大量数据,但只有让用户“找得到”“读得懂”,能够准确地搜索、便捷地订阅这些数据,数据才能真正发挥价值。
数据地图为四类关键用户群体提供服务:业务分析师、数据科学家、数据管家、IT开发人员。
数据地图的关键能力
数据搜索
排序推荐
被动响应推荐排序
主动管理推荐排序
数据样例
资产/用户画像
3 人人都是分析师
从“保姆”模式到“服务+自助”模式
数据分析消费周期极大缩短
发挥业务运营主观能动性
减少“烟囱式系统”的重复建设
打造业务自助分析的关键能力
针对三类角色提供的差异性服务
(1)面向业务分析师,提供自助分析能力,业务人员通过“拖、拉、拽”即可快速产生分析报告。
(2)面向数据科学家,提供高效的数据接入能力和常用的数据分析组件,快速搭建数据探索和分析环境。
(3)面向IT开发人员,提供云端数据开发、计算、分析、应用套件,支撑海量数据的分析与可视化,实现组件重用。
以租户为核心的自助分析关键能力
多租户管理能力
数据加工能力
数据分析能力
自助分享能力
4 从结果管理到过程管理,从能“看”到能“管”
数据赋能业务运营
满足业务运营中数据实时可视化的需求
满足业务运营中及时诊断预警的需求
满足业务运营中复杂智能决策的需求
数据消费典型场景实践
华为数据驱动数字化运营的历程和经验
第7章 打造“数字孪生”的数据全量感知能力
1 “全量、无接触”的数据感知能力框架
数据感知能力的需求起源:数字孪生
数据感知能力架构
2 基于物理世界的“硬感知”能力
“硬感知”能力的分类
条形码和二维码
磁卡
RFID
OCR和ICR
图像数据采集
音频数据采集
视频数据采集
传感器数据采集
工业设备数据采集
“硬感知”能力在华为的实践
门店数字化
站点数字化
3 基于数字世界的“软感知”能力
“软感知”能力的分类
埋点
日志数据采集
网络爬虫
“软感知”能力在华为的实践
“软感知”主要面向产品持续运营提供服务,基于对产品日志、用户行为的感知,改善产品功能。以华为内部数据管理平台为例,数据管理平台的数字化运营,需要识别用户行为,进而提升运营效率与用户数据消费的体验。通过对平台埋点,捕捉用户在界面上从数据定位到最终消费的浏览过程和停留时间等信息,并关联用户的部门、职位、所在地等信息,自动生成用户画像和数据画像。
4 通过感知能力推进企业业务数字化
感知数据在华为信息架构中的位置
感知可以应用于广泛的物理世界和数字世界,感知范围可以从人、物、作业、地点扩展到复杂环境。成熟的用例倾向于以物和人为中心。而在企业中,只有将感知数据纳入整体的数据体系中,才能发挥感知数据的价值。
非数字原生企业数据感知能力的建设
开发一个独特的物理对象感知能力可以获得收益的方向,包括改善运营、降低运营风险、降低成本、更好地为客户服务的机会,或者通过拥有质量更高、更全面的数据来进行更好的业务决策。
在更复杂、更昂贵的环境(例如工业机器和企业资产)中,更有可能抵消感知能力构建的实现成本。
组织是否拥有相关感知能力的前身,比如可以利用现有的、详细的元数据和模型(例如BOM、CAD和仿真模型)。
需要一个模型来支持极端的操作环境,比如远程或环境恶劣的地方。
探索技术或商业模式的创新,比如增强现实的应用,或者实现资产货币化的新方法,或者提供前所未有的、差异化的服务水平等领域。
第8章 打造“清洁数据”的质量综合管理能力
1 基于PDCA的数据质量管理框架
什么是数据质量
ISO9000标准对质量的定义为“产品固有特性满足要求的程度”,其中“要求”指“明示的、隐含的或必须履行的需求或期望”,强调“以顾客为关注焦点”。
华为数据质量指“数据满足应用的可信程度”,从完整性、及时性、准确性、一致性、唯一性、有效性六个维度对数据质量进行描述。
数据质量管理范围
数据质量的总体框架
华为以ISO8000质量标准体系为依据,设计了PDCA(Plan、Do、Check、Action、计划、执行、检查、处理)持续改进的数据质量管理框架
自上而下打造数据质量领导力
全面推进数据质量持续改进机制
不断加强数据质量能力保障
2 全面监控企业业务异常数据
数据质量规则
单列数据质量规则
跨列数据质量规则
跨行数据质量规则
跨表数据质量规则
异常数据监控
1. 识别监控对象范围,确定监控内容
2. 数据源剖析
3. 设计和配置监控规则,自动监测异常数据
3 通过数据质量综合水平牵引质量提升
数据质量度量运作机制
设计质量度量
执行质量度量
质量改进
第9章 打造“安全合规”的数据可控共享能力
1 内外部安全形势,驱动数据安全治理发展
数据安全成为国家竞争的新战场
通过分析各国对网络安全、数据保护、隐私保护的立法进展,可以看出各国的立法进度都在加快。隐私保护立法都在向欧盟GDPR看齐,从原来依靠道德约束保护隐私,上升至法律约束。数字时代带来了新的发展机遇,也给数据安全带来了新的挑战。
数字时代数据安全的新变化
2 数字化转型下的数据安全共享
随着非数字原生企业的逐步转型,企业拥有的数据资产越来越庞大。商品的价值原理告诉我们:“买方的市场需求决定一件商品的价值。”那数据安全的核心价值就是“让数据使用更安全”。换句话说,数据安全与隐私保护的目标就是解决如何在安全前提下充分共享数据。
3 构建以元数据为基础的安全隐私保护框架
以元数据为基础的安全隐私治理
安全隐私保护好比治疗过程,我们需要先做全面的体检(元数据发现),建立病历(信息架构、数据分类等),然后由专业的医生给出治理策略,也就是策略制定与执行数据保护和控制。整个过程都是以元数据为基础的,
数据安全隐私分层分级管控策略
外部公开
内部公开
秘密
机密
绝密
数据底座安全隐私分级管控方案
分级标识数据安全隐私
4 “静”“动”结合的数据保护与授权管理
静态控制:数据保护能力架构
动态控制:数据授权与权限管理
第10章 未来已来:数据成为企业核心竞争力
1 数据:新的生产要素
数据被列为生产要素:制度层面的肯定
数据作为生产要素的美好前景在我们眼前展开:加快数据要素价格市场化改革,健全数据要素市场运行机制,并提供组织保障已经提上了议事日程。
数据将进入企业的资产负债表
因为数据能够提升劳动者能力、加速资本周转、加速知识转化、推进技术进步、提高管理水平,所以数据对最终所得收益的贡献将是一个乘数因子,而非简单的加成。
数据资产的价值由市场决定
数据与传统的生产要素的特点不同,数据的交易、定价、主权保护、收益分配等方面也还存在很多理论空白。可以想见,在不久的未来,在经济学界将掀起对这一生产要素的研究热潮。比如,通过数字化转型促进了企业资产的保值增值,但企业的数据资产自身的变现与保值增值仍然是一个开放的研究课题。
2 大规模数据交互的企业数据生态
数据生态离不开底层技术的支撑
华为的数据生态建设目标是:从依赖管理手段到依赖自动化技术,增强数据管理的可信、透明;通过基于密码学和区块链技术的智能合约代码化,支撑商业生态系统的数据安全交换;构建统一标准的数据交换空间,实现与客户、合作伙伴协同的数据生态体验。
数据主权是数据安全交换的核心
数据主权的提出,旨在建立一种便于在数据生态圈内交换数据同时确保数据主权的架构方法,使企业能够在安全可信的数据生态系统中发挥数据的价值。基于数据主权保护的原理,数据所有者在将数据发送给数据消费者之前,需要将访问及使用控制信息附加到数据中,数据消费者只有完全同意该原则才可以使用该数据。
国际数据空间的目标与原则
目标:满足信任、安全与数据主权、数据生态系统、标准化的互用性、增值应用、数据市场
遵循原则:复用现有技术、标准化贡献
多方安全计算强化数据主权
3 摆脱传统手段的数据管理方式
智能数据管理是数据工作的未来
内容级分析能力提供资产全景图
属性特征启发主外键智能联接
质量缺陷预发现
算法助力数据管理
数字道德抵御算法歧视
4 第四个世界:机器认知世界
真实唯一的“物理世界”和五彩缤纷的“人类认知世界”
映射“物理世界”的数字孪生——“数字世界”
“数字世界”中的智能认知——“机器认知世界”