导图社区 华为数据之道
华为数据据之道关于数据治理和数字化转型的方法、规则、流程、模型等,按照章节做了读属笔记(10个章节-横向排列显示),同时为了分享且编辑理解学习,按照数据管理工作整理框架逻辑进行了重新整理。
编辑于2022-02-15 17:19:43华为数据之道
1、整体框架
10个章节4部分
企业数字化转型的前提?
数据驱动的企业数字化转型
尤其是非数字原生企业,数字化转型的关键就是数据驱动
建立企业级数据综合治理体系
只有构筑一套企业级的数据综合治理体系,才能确保关键数据资产有清晰的业务管理责任,IT建设有稳定的原则和依据,作业人员有规范的流程和指导。当面临争议时,有裁决机构和升级处理机制,治理过程所需的人才、组织、预算有充足的保障,最终建立有效的数据治理环境,数据的质量和安全得到保障,数据的价值才能真正发挥出来
差异化的企业数据分类管理框架
不同类型的数据的管理方式不同
数据治理的三个重要任务
面向“业务交易”的信息架构建设
信息架构的四个组件,给出了建设原则和核心要素,并引出了业务对象、过程、规则三项数字化的建设方向
面向“联通共享”的数据底座建设
提出了数据底座建设的整体框架,介绍了数据湖和数据主题连接两个层次的建设实践
面向“自主消费”的数据服务建设
以自助、高效、复用为数据服务的目的,提出了对数据进行搜索、加工和分析的消费过程管理方案
数据治理的三个关键能力
打造“数字孪生”的数据全量感知能力
以数字孪生的全量、无接触感知为目标,介绍了数据的硬感知和软感知两类能力
打造“清洁数据”的质量综合管理能力
基于PDCA框架,介绍了对企业业务数据异常的全面监控
打造“安全合规”的数据可控共享能力
如何构建以元数据为基础的数据安全隐私保护框架,如何建立动静结合的数据保护与授权管理方案
数据治理未来的思考
未来已来:数据成为企业核心竞争力
基于对“机器认知世界”的理解,我们提出了对数据治理未来的思考,畅想了AI治理、数据主权和数据生态建设
核心内容
2、华为转型
数字原生企业
以数字世界为中心构建,战略愿景、业务需求、 组织架构、人员技能、管理文化、思考方式都是围绕数字世界展开
非数字原生企业数字化转型挑战
业态特征-产业链条厂、多业态并存
运营环境-数据交互和共享风险高
IT建设过程-数据复杂、历史包袱重
数据质量-数据可信和一致化的要求程度高
华为数字化转型
目标(围绕成本和效率→体验)
智能机器→生产突破现有效率瓶颈;数字化平台→服务&运营结构化提升效率整体实现质量更好的产品,更优质的服务,更低的成本(客户体验)
蓝图——对外与客户做生意更简单,对内能力服务化、支撑作战效、降本增效
1. 实现“客户交互方式”的转变(用数字化手段做厚、作深客户界面,实现与客户做生意更简单、更高效、更安全,提升客户体验满意度,帮助客户解决问题)——支撑客户
2. 实现“作战模式”的转变——支撑团队作战,作战高效灵活
3. 实现“平台能力”提供方式的转变(实现关键业务对象的数字化并不断汇聚数据,实现流程数字化和能力服务化,支撑一线作战人员和客户的全连接)——能力服务化
4. 实现“运营模式”的转变(基于统一数据底座,实现数字化运营与决策)——数据资产管理及数字化运营
基于统一的数据管理规则,确保数据源头质量以及数据入湖,形成清洁、完整、一直的数据湖
业务与数据双驱动,加强数据联结建设,并能够以数据服务方式,灵活满足业务自助式的数据消费诉求
针对汇聚的海量内外部数据,能够确保数据安全合规
不断完善业务对象、过程与规则数字化,提升数据自动采集能力,减少人工录入
5. 强大的云化、服务化的IT基础设施和IT应用——强大的IT平台支撑
6.
华为数据治理实践
两个阶段(2007-2016/2017至今)
第一阶段:基于数据一网化治理持续提升数据质量,减少纠错成本;数据全流程贯通,提升业务运作效率
第二阶段:基于体验智能化业务可视,能够快速、准确决策人工智能,实现业务自动化数据创新:成为差异化竞争优势
愿景
实现业务感知、互联、智能和ROADS体验,支撑华为数字化转型(ROADS,来形容用户所期望和畅想的体验。ROADS是一系列英文单词的首字母缩略语——Real-time、On-demand、All online、DIY和Social。①Real-Time指的是有足够的带宽,零等待。②On-Demand指的是可以随心所欲地使用你所需要的各种业务;③All online指的是一切都是永远在线,所有的设备永远在线、业务永远在线;④DIY,自己定义业务,自己定义应用,自己定义网络诉求;⑤Social,顾名思义,大家会应用社交网络进行分享
目标
清洁、透明、智慧数据,使能卓越运营和有效增长
实现特性
业务对象、规则、过程数字化;数据连接;数据实时可视;数据透明;数据清洁;数据采集/处理智能化;数据管理由企业扩展到合作伙伴;数据敏捷自助;安全共享(隐私/授权/权限等);数据核对;算法模型
整体思路
1. 在现实世界基础上构建数字孪生世界
2. 通过数字世界汇聚、联结和分析数据,进行描述、诊断和预测,最终指导业务改进
3. 实现策略,数字世界一方面要充分利用现有IT系统的存量数据资产,另一方面要构建一条从现实世界直接感知、采集、汇聚数据到数字世界的通道,不断驱动业务对象、过程和规则的数字化
工作框架
基于统一的规则与平台,以业务数字化为前提,数据入湖为基础,通过数据主题联接并提供服务,支撑业务数字化运营
数据源——业务数字化是数据工作的前提,通过业务对象,规则与过程数字化,不断提升数据质量,建立清洁、可靠的数据源
数据湖——基于统筹推动、以用促建的建设策略,严格按六项标准【明确数据Owner,发布数据标准,认证数据源,定义数据密级,制定数据质量方案,注册元数据】,通过物理与虚拟两种入湖方式【物理入湖,虚拟入湖】,汇聚内部和外部的海量数据,形成清洁、完整、一致的数据湖
数据主题联接——通过五种数据联结方式【以业务流(事件)为中心联接,以对象(主题)为中心联接,智能标签,报告数据,算法模型】,规划和需求双驱动,建立数据主题联结,并通过服务支撑数据消费;
数据消费——对准数据消费场景,通过提供统一的数据分析平台,满足自助式数据消费需求
数据治理——为保障各业务领域数据工作的有序开展,需建立统一的数据治理能力,如数据体系,数据分类,数据感知,数据质量,安全与隐私等
3、数据治理
政策的顶层设计
华为:数据治理政策在华为公司EMT(经营管理团队)汇报通过后,由总裁签发
信息架构原则
所有变革项目需遵从数据管控要求。对于不遵从管控要求的变革项目,数据管控组织拥有一票非决权
应用系统设计和开发应遵从企业级信息架构。关键应用系统必须通过应用系统认证
数据产生原则
公司数据OWNER拥有公司数据管理的最高决策权,依托ESC变革指导委员会决策平台议事
关键数据项定义单一数据源、一点录入,多点调用,数据质量问题在源头解决
谁产生数据,谁对数据质量负责
数据应用原则
所有关键数据仅能在数据源录入、修改,全流程共享,其他调用系统不能修改。下游环节发现数据质量问题,应当在数据源进行修正
数据问题与奖惩
数据OWNER应建立数据问题回溯和奖惩机制
对不遵从信息架构或存在严重数据质量问题的责任人进行问责
围绕组织、机制和流程,要制定全生命周期的治理规范和方案
业务负责制的责任主题
任命数据Owner
公司数据OWNER负责批准企业级信息架构,裁决重大信息架构问题和争议
各数据OWNER负责其所辖数据的信息架构建设和维护,承接及落实公司的数据规划要求
公司的数据管理专业组织作为公司数据工作的支撑组织,负责组织信息架构的建设、维护、落地及遵从管控、负责协调跨领域的信息架构冲突。各领域事业群BG数据管理专业组织协助完成本领域信息架构建设和维护工作
信息架构(对业务运作数据进行有效管理数据架构)是数据治理的关键对象
信息架构的组成
数据资产目录①决定了数据治理的边界和对象②通过数据资产的分门别类不仅能让数据模型归位,帮助企业更好的对业务变革进行规划设计、避免重复建设③让数据资产找得到、看得清
数据标准定义公司层面需要共同遵守的属性
数据模型:从数据视角对现实世界特征的模拟和抽象,根据业务需求抽取信息的主要特征,反应业务信息(对象)之间的关联关系
数据分布定义了数据产生的源头及在各流程和IT系统间的流动情况,数据分布的核心是数据源,指业务上首次正式发布某项数据的应用系统,并经过数据管理专业组织认证,作为企业范围内唯一数据源头被周边系统调用
信息架构的治理原则
信息架构建设的核心要素
信息架构向IT侧落地的主要交付件是数据模型(问题:信息架构资产和产品实现的物理表割裂、不匹配)
不同数据类型采用不同的治理手段
基于数据特性的分类管理框架
以统一语言为核心的结构化数据管理
基础数据治理
也称作参考数据(国家、货币),业务事件发生前已经预先定义
重点在于变更管理和统一标准管控
通过明确各方的管理责任、发布相关的流程和规范以及建立基础数据管理平台等,来确保基础数据的有效管理
主数据治理
参与业务时间的主题或资源,具有高业务价值
重点在于同源多用和数据内容的校验
华为策略
唯一性(不能重复创建)
联邦管控(中央制定标准政策模型,地方实施应用)
单一数据源(不在多个系统维护,确定每个属性创建、更新和读取确定一个应用系统作为数据源))
数据、流程、IT协同
事前的数据质量策略(数据创建阶段主动管理数据质量,非出现问题后被动解决)
华为的主数据范围包括客户、产品、供应商、组织、人员主题
事物数据治理
报告数据治理
对数据进行加工后,用作业务决策依据的数据(事实表、指标数据、维度、统计函数、趋势函数、报告规则、序列关系数据)
观测数据治理
软感知(使用软件或各种技术进行数据收集数据的对象存在于数字世界,不依赖于物理设备,如日志,爬虫)
硬感知(利用设备或装置进行数据收集,收集的对象为物理世界中物理实体,或者以物理实体为载体的信息,数据从物理世界向数字世界转化
以特征提取为核心的非结构化数据管理
无格式文本、各类格式文档、图像、音频、视频等多种异构的格式文件
管理文件对象的标题、格式、Owner等基本特征和定义外,还需要对数据内容的客观理解进行管理,如标签、相似性检索、相似性连接等,以便于用户搜索和消费使用
核心为:对其基本特征和内容进行提取,并通过元数据落地来开展
基本特征类元数据流(客观)
内容增强类元数据流(主观)——个数据分析项目组解析目标非结构化对象的数据内容,将分析结果通过元数据采集、元数据标准化&整合后统一存放在元数据管理平台中
以确保合规遵从为核心的外部数据管理
遵循原则
合规优先原则
责任明确原则(明确的管理责任主体,承担数据引入方式、数据安全要求、隐私要求、使用权限等责任)
有效流动原则(避免重复采购,重复建设)
可审计、可追溯原则(控制访问权限、留存访问日志等)
受控审批原则
作用于数据价值流的元数据管理
元数据治理面临的挑战
痛点:业务元数据与技术元数据未打通,导致业务读不懂IT系统中的数据,并且缺乏面向普通业务人员的准确、高效的数据搜索工具,业务人员无法快速获取可信数据。
元数据是描述数据的数据,用于打破业务和IT之间的语言障碍,帮助业务更好的理解数据
业务元数据——用户访问数据时了解业务含义的路径,包括目录资产、owner、数据密级等
技术元数据——实施人员开发系统时使用的数据,包括物理模型的表与字段、ETL规则、集成关系等
操作元数据——数据处理日志及运营情况数据,包括调度品读、访问记录等。
元数据管理
产生元数据
元数据模型
业务元数据
主题域分组——公司顶层信息分类,通过数据视角体现公司最高层面关注的业务领域
主题域——互补重叠数据的高层面的分类,用于管理其下一级的业务对象
业务对象——业务领域重要的人、事、物,承载了业务运行和管理涉及的重要信息
逻辑实体——描述业务对象的某种业务特征属性的集合
属性——用于描述业务对象的性质和特征,反应信息管理最小粒度
数据标准——用于描述公司层面需共同遵守的属性层数据的含义和业务规则,相关标准一旦确定且发布,全公司范围内需严格遵守
技术元数据
数据库——按照数据结构来组织、存储和管理数据的仓库
Schema——数据库对象的集合,一个用户一般对应一个Schema
表——分为物理表和虚拟表,物理表为数据库的核心组件,由行和列组成。行包括若干列信息项,一行数据称为一个或一条记录;列又称为字段,用于描述相关数据的特征。 虚拟表基于物理表进行定义,用于提供数据服务,但不实际存储数据,其数据使用方式和物理表一致
字段——表中的列信息
数据资产编码原则
统一性原则 & 唯一性原则 & 可读性原则 & 扩展性原则
业务元数据资产编码原则
第一部分为主题域分组的编码规则——主体与分组的编码由公司统一分配
第二部分为主题域、业务对象、逻辑实体、属性的编码规则——这部分主要由数据治理平台按照编码规则自动生成
第三部分主要为业务元数据包含的子类对应的数据资产类型代码
采集元数据
从生产线系统、IT设计平台等数据源获取元数据,对元数据进行转换,然后写入元数据中心的过程
元数据来源
关系数据库(Oracle\MS SQLServer\DB2等)
建模工具(ERWin\PowerDesigner等)
数据集成工具(DataStage\PowerCenter等)
BI报表工具(Cognos\SQL Server Reporting Services等)
调度工具(Automation)
开发语言及脚本(Perl日志方式\SP注释方式)
其他(元数据采集虚拟库等)
三个步骤
选择适配器 → 配置数据源 → 配置采集任务
注册元数据
原则
数据Owner负责,谁的数据就由谁负责业务元数据和技术元数据连接关系的建设和注册发布
按需注册,各领域数据管理部根据数据搜集、共享的需求,推进元数据注册
注册的元数据的信息安全密级为内部公开
注册规范
准备度评估——IT系统名称必须是公司标准名称;数据资产目录是否经过评审并正式发布;数据Owner是否确定数据密级;物理表/虚拟表/视图名
元数据连接——必须遵从逻辑实体和物理表/虚拟表/视图一对一的连接原则;属性和非系统字段(具备业务含义)也需遵从一对一连接原则
注册发布——增量元数据注册(系统上线时即完成业务元数据&技术元数据连接,通过元数据采集器实现元数据自动注册)/存量元数据注册(一对一模式/主从模式/主扩模式/父子模式)
运维元数据
通过对元数据分析,发现数据注册、设计、使用的现状即问题,确保元数据完整、准确。通过业务元数据和技术元数据的关联分析,反向校验架构设计与落地的实施情况
4、数据湖实现企业数据的“逻辑汇聚”
近2年的数据入湖,已完成1.2W逻辑数据实体、28W个业务属性的入湖
华为数据湖的3个特点
逻辑统一(统一的元数据语义层管理)
类型多样
原始记录
入湖6个标准
明确数据Owner
发布数据标准(数据标准内容)
数据资产目录(主题域分组、主题域、业务对象、逻辑数据实体、业务属性)
定义及规则(引用的数据标准、业务定义、业务规则、数据类型、数据长度、允许值、数据示例、同义词、标准应用范围)
责任主体(业务规则责任主题、数据维护责任主题、数据质量监控责任主题)
认证数据源
数据从正确的数据源头入湖
定义数据密级(定义密级Or降密级)
数据质量评估
注册元数据
入湖的2个方式
一个逻辑数据实体的所有属性应一次性进湖,避免多次入湖
物理入湖
将原始数据复制到数据湖,包括批量处理、数据复制同步、消息和流集成等
虚拟入湖
原始数据不在数据湖中存储,通过建立对应虚拟表的集成方式实现入户实时性强,一般面向小数据量应用
数据入湖5种技术
批量入湖
复杂数据清理和转换,且数据量大的场景
调度作业每小时或每天,不适合低数据延迟和高灵活性场景
ETL\ELT\FTP等工具
数据复制同步
高可用性和对数据源影响小的场景
使用基于日志的CDC捕获数据变更,实时获取数据
不适合处理ge'zh各种数据结构以及需要清理和转换复杂数据的场景
消息集成
通过API捕获或提取数据
适用处理不同数据结构以及需要高可靠性和复杂转换的场景;对于许多遗留系统、ERP和SaaS,消息集成是唯一选择
不适用处理大量数据的场景
流集成
关注流数据的采集和处理,满足数据实时集成需求
梳理每秒数万甚至数十万个事件流,甚至数百万,
不适合需要复杂数据清理和转换的场景
数据虚拟化
低数据延迟、高灵活性和临时模式的消费场景
载数据虚拟化的基础上,通过共享访问层,分离数据源和数据湖,减少数据源变更带来的影响,支持数据实时消费
结构化数据入湖
由二维表结构来逻辑表达和实现的数据,严格遵守数据格式和长度规范,主要通过关系型数据库进行存储和管理
两种场景:企业数据管理组织基于业务需求主动规划和统筹;响应数据消费方的需求
1、数据入湖需求分析及管理
入湖需求→业务员数据&技术元数据(业务对象、逻辑实体、业务属性对应界面的截图)→业务代表和数据代表联合评审→有争议时申请专业评审仲裁
2、检查数据入湖条件和评估入湖标准
检查数据源准备度(原系统IT团队提供源系统数据字典和模型&检查原系统物理表规范都)
评估入湖标准(6个标准)
评估入湖质量
3、实时数据入湖
不要求历史数据、小批量数据且实时性要求高——建议虚拟入湖——由数据代表实施
要求历史数据、大批量数据且实时性要求不高——可以物理入湖——由对应数据湖的IT代表实施
4、注册元数据
是数据共享和消费的前提,为数据导航和数据地图建设提供关键输入
非结构化数据入湖
范围
无格式文本、各类格式文档、图像、音频、视频等多样异构的格式文件
基本特征类元数据
内容增强类元数据
四种方式
基本特征类元数据入湖
原始文件存储在源系统,数据湖中进存储非结构化数据的基本特征元数据
数据code,是否必填title,类型Type,格式Format,创建者Creator,主题subject,描述Description,发布者Publisher,其他责任者Contributor,创建日期create date,发布日期publish date,最后修改日期last modify date,生效日期effective date,失效日期failure date,版本version,标识符identifier,语言language,来源source,关联relation,覆盖范围coverage,密级security classification/rights
文件解析内容入湖
原始文件存储在源系统,数据湖中进存储解析后的内容增强元数据
文件关系入湖
原始文件存储在源系统,数据湖中进存储文件的关系等内容增强元数据
原始文件入湖
数据湖中存储原始文件并进行全生命周期管理
5、数据主题联结将数据转换为信息
数据湖中数据零散且数据结构与源系统一致,表没有联结,难以支撑用户进行分析→将数据由“原材料”加工成“半成品”和“成品”,支撑不同场景的数据消费需求,数据联结其实就是数据仓库建模
以业务流(事件)为中心联接(合同、销售订单等)
多维模型
依据明确的业务关系,建立基于维度、事实表以及相互间连接关系的模型,实现多角度、多层次的数据查询和分析
1、确定业务场景
2、声明粒度
精确定义事实表的每一行表示什么
3、维度设计
维度由层次结构(关系 )、层级、成员、属性组成
需要满足单一性(有且仅有一个视角)、单向性、正交性(成员两辆不相交)
4、事实表设计
由粒度属性(主键)、维度属性、事实属性、其他描述属性
例如对订货数据从时间、区域、产品等维度进行多视角、不同粒度的查询和分析
以对象(主体)为中心联结(供应商、客户等)
图模型
由节点和边组成,节点表示实体或概念(如一个人,一个城市等),边则由属性或关系构成(如国籍、生日等)。
1、业务场景定义
2、信息收集
3、图建模
4、实体、概念、属性、关系的标注
5、实体和概念的识别
6、属性识别和关系识别
例如查看某国家原产地的项目的数据具体关联到哪个客户以及合同、订单、产品的详细信息时,可以通过图模型快速分析关联影响,支撑业务决策
智能标签(员工、用户画像等)
事实标签、规则标签、模型标签
规则标签标签体系建设→打标签
例如对用户进行画像,识别不同的用户群,为产品设计和营销提供策略支持
指标数据(原子指标数据、衍生/符合等)
根据指标计算逻辑是否含有叠加公式,分为原子指标和复合指标
原子指标
通过添加口径、修饰词、维度卷积而成
门店明细表,通过门店编码卷积,属性包含门店等级、门店状态、门店形象顶级、组织等级等
复合指标
由一个或多个原子指标叠加计算而成
促销员门店覆盖率=促销员门店数量➗有效门店数量
过程
1、解读指标定义,识别指标
2、基于指标叠加公式拆解指标
3、基于指标拆解结果,识别指标数据
4、数据匹配落地
例如促销员覆盖率指标就是衡量一线销售门店促销员的覆盖程度
算法模型(辅料计划预测、机会点挖掘等)
算法与模型
算法是利用样本数据生成模型的方法
1、需求评估
业务驱动的分析需求识别
数据驱动的分析需求识别
价值与可行性评估
2、数据准备
3、方案设计
4、建模与验证
决定是否需要分析建模
建模与验证(建模,并于业务分析师确认模型成效与应用)
试算分析
编写数据分析线下验证报告
决定是否需要IT开发
模型线上验证
转运营
例如预测未来18个月的销售量。
6、数据消费
数据服务:实现数据自助、高效、复用
问题
系统多,数据集成复杂,数据搬家后源头数据和下有个系统之家差异巨大等
定义
基于数据分发、发布的框架,将数据作为一种服务产品来提供,以满足客户的实施数据需求,它能复用并符合企业和工业标准,兼顾数据共享和安全。
价值
数据服务生命周期管理
服务识别与定义
业务与数据握手,识别服务的业务价值、准入条件与服务类型,减少数据服务的重复建设,提升数据服务的重用度
1、分析数据服务需求
通过需求调研与需求交接,判断数据服务类型(面向系统或面向消费)、数据内容(指标/维度/范围/报表项)、数据源与时效性要求
2、识别可重用性
匹配已有数据服务,判断那种方式实现(新建服务、直接复用、服务变更)
3、判断准入条件
数据Owner是否明确
元数据是否定义
业务元数据和技术元数据是否建立联结
数据是否已入湖
数据资产是否具备对外提供服务的条件
4、制定迭代计划
服务设计与实现
业务、数据、IT三方协同,式设计、开发与部署快速迭代以实现服务的敏捷交付
服务契约
包括服务的基本信息(数据服务提供方、数据服务的类型)、能力要求(服务的时效性、服务的处理逻辑、服务的安全策略、服务的SLA要求等 )
数据契约
包括数据契约描述、输入和输出参数、业务数据资产编码、物理落地资产编码等
服务运营
数据服务变更
变更内容(时效性、出入参数、服务处理逻辑、安全策略等)
变更影响(连续性影响、变更成本影响)
数据变更下架
主动下架
被动下架(三个月无服务调用、重复的数据服务等)
打造数据供应的三个1
1天
已发布数据服务的场景,从需求提出到消费者通过服务获取数据,在1天内完成
1周
已进底座但是没有数据服务的场景,从需求提出到数据服务设计落地,消费者通过服务获取数据,在1周内完成
1月
已结构化单位进底座的场景,从需求提出到汇聚入湖、数据主题联接、数据服务设计落地、消费者通过服务获取数据,在1个月内完成
构建以用户体验为核心的数据地图
why:找不到&读不懂——找得到,读得懂——基于元数据应用,以数据搜索为核心,通过可视化方式,综合反映有关数据的来源、数量、质量、分布、标准、流向、关联关系,让用户高效的找到数据,读懂书,支撑数据消费
四类关键用户群体
业务分析师
数据科学家
数据管家
IT开发人员
关键能力
数据搜索
完全匹配Or模糊搜索
排序推荐
被动响应推荐排序
无前端操作,基于数据管理分类、用户行为分析等输入,通过排序推荐逻辑对结果集中进行处理
优点:提升用户体验无需操作吉氪大概率定位到需要的数据资产
缺点:缺乏交互,准确度因人而异
主动管理推荐排序
用户通过分类标签对搜索结果集进行再次过滤和定位
优点:与用户有一定交互,用户在使用中可以主动管理
缺点:管理侧和通用性收敛上来的标签满意满足个性化需求
数据样例
生产环境的实时数据更有参考价值
资产/用户画像
通过标签化的手段来对资产和用户清晰的描绘,有助于数据搜索和推荐排序的不断优化
人人都是分析师
保姆模式
业务部门只提需求,从涉及到开发全由总部完成
开发周期长 & 无法满足灵活多变的业务要求
服务+自助
总部只提供统一的数据服务和分析能力组件服务,各业务部门可以根据业务需要进行灵活的数据分析消费,数据分析方案和结果由业务自己完成
数据分析消费周期极大缩短/发挥业务运营主观能动性/减少烟囱是系统的重复建设(不需要重复构建支撑消费的数据基础,所有公共的数据汇聚、数据联结都统一建设
打造业务自主分析的关键能力
面向不同的消费用户提供差异性的能力和工具支撑
业务分析师
提供自主分析能力,业务人员通过拖拉拽可快速产生分析报告
数据科学家
提供高效的数据接入能力和常用数据分析组件,快速搭建数据探索和分析环境
IT开发人员
提供云端数据开发、计算、分析、应用套件,支撑海量数据的分析与可视化,实现组件重用
引入租户概念,不同类型的用户可以在一定范围内分析数据、共享数据结果——以租户为核心的自助分析关键能力
多租户管理能力
租户是指把数据、分析工具、计算资源有机组合的工作环境,用户可以在租户内完成数据搜索、数据加工、在线分析、报表共享等工作
多租户技术也称多重租赁技术,是一种软件架构技术,可以实现多个租户之间共享系统实例,同时也可以实现租户的系统实例的的个性化定制。通过多租户技术可以保证共性的部分被共享,个性的部分被单独隔离
示例:按国家设定不同租户,本租户内共享该国的经营分析结果,共同进行异常分析和经营改善;同时,该租户数据对其他国家屏蔽,避免了数据扩散等风险
租户4个关键角色
租户Owner
租户管理员
查看者
分析师
数据加工能力
用户可将多个数据进行关联,构建自己的宽表,可对宽表进行数据过滤,选择合适的字段及增加计算字段
数据加工关键能力——模型配置、关联条件、字段选择、函数过滤、计算关系、SQL配置、脚本编译、脚本验证
数据分析能力
即席查询
可视分析
自主分享能力
从结果管理到过程管理,从能看到能管
数据赋能业务运营
数据实时可视化
及时诊断预警
复杂智能决策
数据消费经典场景实践
需求到自助分析的5各步骤
业务需求提出
数据需求解析
数据搜索和获取
数据服务提供
自助报告设计和展示
风险管理实践
事后查
找系统→查数据→约人谈→定原因→出报告→定责任→抓改进→查落实
数字化运营
业务实时自检,风险实时在线审视和预警,风险任务快速关闭;不需要完全依赖事后核查,而是业务人员主动遵从
预制规则探针→业务自动巡检→风险自动预警→风险自主关闭
华为数据驱动数字化运营的历程和经验
不同阶段
从行走到公交阶段
机关建,业务部门用——无法满足根据业务场景灵活配置和运营
从公交到自驾阶段
各版块按需以自助形式生成各种分析表——数据无序,大量数据离线手工获取,完整性和可靠性问题等
从无序到有序阶段
数据底座建设实现生态共建、平台共享
从人工到智能阶段
在可视化基础上,逐步增加动态及时预警能力、智能分析和方案推荐能力、任务自动执行能力
三个要点
发育
赋能训战,支撑代表处从0到1的建设
做好自主分析能力赋能,识别关键核心人员通过培训与实战方式帮他们掌握自助分析基本能力,同时做好现场支持
激励
激励原创,保护原创,大众评选
分享
从优秀实践中识别真正具有共性的典型场景和典型数据联接模型,推动优秀实践再各个业务部门快速复制,达到从1到N的快速分享的效果
两个基础
数据服务
3个1的SLA
数据服务地图
授权与权限管理
IT平台
自助分析,场景市场,性能改进
分析平台——承载企业的公共分析能力建设,面向业务分析师提供自助分析能力
数据分析结果呈现前台——成在公共场景的市场能力,支撑典型场景的快速分享
华为数字化运营关键特性
平时值班
实施感知
经营运营数据
项目状态
资源状态
及时预警
KPI风险指标预警
延标风险实时预警
业务健康实时预警
站时指挥
智能分析
问题及原因分析
趋势预测
方案推荐
降成本措施
运营资产提升措施
收入达成关键措施
察打一体
快速部署
任务自动执行
闭环自动判断
差距分析与总结
全连接
知识,经验
电话、邮件、屏幕
业务作业平台
华为数据之道按章节读书笔记
数据驱动的企业数字化转型
数字原生企业
以数字世界为中心构建,战略愿景、业务需求、 组织架构、人员技能、管理文化、思考方式都是围绕数字世界展开
非数字原生企业数字化转型挑战
业态特征-产业链条厂、多业态并存
运营环境-数据交互和共享风险高
IT建设过程-数据复杂、历史包袱重
数据质量-数据可信和一致化的要求程度高
华为数字化转型
目标(围绕成本和效率→体验)
智能机器→生产突破现有效率瓶颈;数字化平台→服务&运营结构化提升效率整体实现质量更好的产品,更优质的服务,更低的成本(客户体验)
蓝图——对外与客户做生意更简单,对内能力服务化、支撑作战效、降本增效
1. 实现“客户交互方式”的转变(用数字化手段做厚、作深客户界面,实现与客户做生意更简单、更高效、更安全,提升客户体验满意度,帮助客户解决问题)——支撑客户
2. 实现“作战模式”的转变——支撑团队作战,作战高效灵活
3. 实现“平台能力”提供方式的转变(实现关键业务对象的数字化并不断汇聚数据,实现流程数字化和能力服务化,支撑一线作战人员和客户的全连接)——能力服务化
4. 实现“运营模式”的转变(基于统一数据底座,实现数字化运营与决策)——数据资产管理及数字化运营
基于统一的数据管理规则,确保数据源头质量以及数据入湖,形成清洁、完整、一直的数据湖
业务与数据双驱动,加强数据联结建设,并能够以数据服务方式,灵活满足业务自助式的数据消费诉求
针对汇聚的海量内外部数据,能够确保数据安全合规
不断完善业务对象、过程与规则数字化,提升数据自动采集能力,减少人工录入
5. 强大的云化、服务化的IT基础设施和IT应用——强大的IT平台支撑
6.
华为数据治理实践
两个阶段(2007-2016/2017至今)
第一阶段:基于数据一网化治理持续提升数据质量,减少纠错成本;数据全流程贯通,提升业务运作效率
第二阶段:基于体验智能化业务可视,能够快速、准确决策人工智能,实现业务自动化数据创新:成为差异化竞争优势
愿景
实现业务感知、互联、智能和ROADS体验,支撑华为数字化转型(ROADS,来形容用户所期望和畅想的体验。ROADS是一系列英文单词的首字母缩略语——Real-time、On-demand、All online、DIY和Social。①Real-Time指的是有足够的带宽,零等待。②On-Demand指的是可以随心所欲地使用你所需要的各种业务;③All online指的是一切都是永远在线,所有的设备永远在线、业务永远在线;④DIY,自己定义业务,自己定义应用,自己定义网络诉求;⑤Social,顾名思义,大家会应用社交网络进行分享
目标
清洁、透明、智慧数据,使能卓越运营和有效增长
实现特性
业务对象、规则、过程数字化;数据连接;数据实时可视;数据透明;数据清洁;数据采集/处理智能化;数据管理由企业扩展到合作伙伴;数据敏捷自助;安全共享(隐私/授权/权限等);数据核对;算法模型
整体思路
1. 在现实世界基础上构建数字孪生世界
2. 通过数字世界汇聚、联结和分析数据,进行描述、诊断和预测,最终指导业务改进
3. 实现策略,数字世界一方面要充分利用现有IT系统的存量数据资产,另一方面要构建一条从现实世界直接感知、采集、汇聚数据到数字世界的通道,不断驱动业务对象、过程和规则的数字化
工作框架
基于统一的规则与平台,以业务数字化为前提,数据入湖为基础,通过数据主题联接并提供服务,支撑业务数字化运营
数据源——业务数字化是数据工作的前提,通过业务对象,规则与过程数字化,不断提升数据质量,建立清洁、可靠的数据源
数据湖——基于统筹推动、以用促建的建设策略,严格按六项标准【明确数据Owner,发布数据标准,认证数据源,定义数据密级,制定数据质量方案,注册元数据】,通过物理与虚拟两种入湖方式【物理入湖,虚拟入湖】,汇聚内部和外部的海量数据,形成清洁、完整、一致的数据湖
数据主题联接——通过五种数据联结方式【以业务流(事件)为中心联接,以对象(主题)为中心联接,智能标签,报告数据,算法模型】,规划和需求双驱动,建立数据主题联结,并通过服务支撑数据消费;
数据消费——对准数据消费场景,通过提供统一的数据分析平台,满足自助式数据消费需求
数据治理——为保障各业务领域数据工作的有序开展,需建立统一的数据治理能力,如数据体系,数据分类,数据感知,数据质量,安全与隐私等
建立企业级数据综合治理体系
建立公司级数据管理政策
数据管理总纲(原则)
信息架构原则(即数据架构原则)
建立企业级信息架构,统一数据语言
所有变革项目需遵从数据管控要求。对于不遵从管控要求的变革项目,数据管控组织拥有一票非决权
应用系统设计和开发应遵从企业级信息架构。关键应用系统必须通过应用系统认证
数据产生原则
数据规划对其业务战略,业务战略规划必须包含关键数据及其路标规划
公司数据OWNER拥有公司数据管理的最高决策权,依托ESC变革指导委员会决策平台议事
各数据OWNER承担数据工作路标、信息架构、数据责任机制和数据质量管理责任
数据OWNER负责基于使用要求制定数据质量标准,且须征得关键使用部门的同意
关键数据项定义单一数据源、一点录入,多点调用,数据质量问题在源头解决
谁产生数据,谁对数据质量负责
数据应用原则
数据应在满足信息安全的前提下充分共享,数据产生部门不得拒绝跨领域的、合理的数据共享需求
信息披露、数据安全管理、数据保管和个人数据隐私保护等必须遵守法律法规和道德规范的要求。公司保护员工、客户、商业伙伴和其他可识别个体的数据
数据问题与奖惩
数据OWNER应建立数据问题回溯和奖惩机制
对不遵从信息架构或存在严重数据质量问题的责任人进行问责
信息架构管理政策
角色与职责
公司数据OWNER负责批准企业级信息架构,裁决重大信息架构问题和争议
各数据OWNER负责其所辖数据的信息架构建设和维护,承接及落实公司的数据规划要求
公司的数据管理专业组织作为公司数据工作的支撑组织,负责组织信息架构的建设、维护、落地及遵从管控、负责协调跨领域的信息架构冲突。各领域事业群BG数据管理专业组织协助完成本领域信息架构建设和维护工作
数据管控组织作为信息架构专业评审机构,确保信息架构的质量和集成
建设要求
关键数据应用被识别、分类、定义及标准化数据的定义在公司范围内应唯一数据标准制定要考虑跨流程要求。
数据资产目录必须承接公司各业务环节的使用需求和报告分析最小颗粒度的要求
信息架构驱动应用架构设计,合理规划数据分布
应用系统数据库的设计和开发要遵循信息架构,减少数据冗余,实现接口标准化
遵从管控
变革项目必须遵从已发布的信息架构,变革项目的交附件须包含信息架构的内容,对现有架构的遵从是关键评审要素,对于不满足要求的变更个项目,数据管控组织拥有一票否决权
业务流程设计必须遵从已发布的信息架构,在流程说明文件、操作指导书或模板文件中体现。对于不满足要求的流程、不予发布
应用系统设计必须遵从已发布的信息架构。在应用架构交付和应用系统设计交付件中体现。对于不满足要求的应用系统,不予上线
数据源管理政策(数据同源是核心观点)
管理原则
所有关键数据必须认证数据源,关键数据之影响公司经营、运营报告的数据,在公司范围内统一发布
数据管理专业组织为关键数据指定源头,数据源必须遵从信息架构和标准,经信息架构专家委员会认证后成为数据源
所有关键数据仅能在数据源录入、修改,全流程共享,其他调用系统不能修改。下游环节发现数据质量问题,应当在数据源进行修正
所有应用系统必须从数据源或数据源镜像获取关键数据
数据OWNER确保数据源的数据质量,对不符合数据质量标准的数据源,必须限期整改
认证标准
数据源是在信息链上正式发布数据的第一个数据存储系统
数据源是某项数据唯一的录入点
数据源必须是数据维护最为及时、正确、完整的数据存储系统
数据源所在系统的性能和可用性应当满足其他调用系统的数据访问需求
数据质量政策
职责和要求
各数据OWNER负责保障所辖数据的质量,承接公司数据OWNER设定的数据质量目标,制定数据质量标准及评测指标,持续度量与改进。
公司全员在业务执行的过程中应确保业务记录满足数据质量要求
财经各级CFO组织应遵循职业道德准则,城市记录和报告财经数据,承担财经监控和及时报告责任
公司各级数据管理专业组织为数据OWNER提供数据质量管理专业支撑
内控组织应将数据质量管控要素的执行情况纳入SACA(半年度控制评估)评估范围,推动数据质量问题的闭环管理
内审部门作为独立机构,负责中大数据问题的审计和责任回响
业务规则和管理要求
流程建设应考虑数据质量要求,将数据的关键质量控制要素纳入关键控制点
数据OWNER负责基于使用要求制定数据质量标准,且须征得关键使用部门的同意
数据创建应确保录入正确,关键数据应进行复核或审批。录入、复核和审批人员应掌握数据质量要求才能上岗
对影响关键经营指标的数据造假行文(如伪造文档、提供与业务实质不符的信息等)采取零容忍态度。
上游环节应保证数据的真实、完整并及时传递到下游环节。下游环节为核实数据质量问题可调阅所需的上游环节的数据
因外部原因频繁变化的基础数据(如汇率,税率等),数据OWNER应及时维护并统一发布最新数据,各环节适时刷新或引用
数据质量应持续进行度量。数据OWNER应主动解决长期影响业务运营和经营管理的数据问题
报告与分析的层级和最新颗粒度应适度,能与最小业务信息单元相匹配。数据加工规则应相对稳定,报告家工过程可检视,数据可回溯,可解释。
融入变革、运营与IT的数据治理
建立管理数据流程
L1——MBT&IT
L2——管理数据
L3——管理信息架构,管理数据质量,管理数据分析
关键角色及职责
信息架构工程师
数据架构设计和管控/数据分类、定义及标准化/企业级信息架构、业务测概念模型开发和维护/数据标准开发/数据源认证/数据流、信息链开发
数据治理工程师
聚焦数据资产建设和治理/数据治理和数据质量监控/识别和定位数据质量问题,实时根本分析/组织制定数据质量标准和数据质量监控计划/定义和制定数据质量评测指标/实施测评和报告
数据平台工程师
数据分析平台规划和运营/数据采集和预处理
数据分析师
聚焦价值实现/数据分析和挖掘/业务数据模型开发/数据分析报告拟定/数据可视化设计
数据科学家
聚焦技术研究和攻关/基础数据模型和算法的开发/数据产品设计/数据分析问题攻关
管理数据流程与管理变革项目、管理质量与运营之间的关系
通过变革体系和运营体系进行决策
数据整理融入IT实施
通过内控体系赋能数据治理
建立业务负责制的数据管理责任体系
任命数据OWNER和数据管家
公司数据OWNER
是公司 数据战略的制定者、数据文化的营造着、数据资产的所有者和数据争议的裁决者,拥有公司数据日常管理的最高决策权
制定数据管理体系的愿景和路标
传播数据管理理念,营造数据文化氛围
建设和优化数据管理体系,包括组织和任命、授权和问责等
批准公司数据管理的政策和法规
裁决跨领域的数据及管理争议,解决跨领域的重大数据及管理问题
业务领域数据OWNER
各级流程OWNER就是该流程域的数据OWNER,在公司数据OWNER的统筹下负责所管理流程域的数据管理体系的建设和优化
负责数据管例题解析建设,数据OWNER负责所辖领域的信息架构建设和维护,确保关键数据被识别、分类、定义及标准化,传播数据管理理念,营造数据文化氛围
负责信息架构建设
负责数据质量管理
负责数据底座和数据服务建设
负责数据争议裁决
数据管家
数据OWNER的助手,是数据OWNER在数据管理方面的具体执行者
建立公司层面的数据管理组织——数据管理部
体系建设者——负责数据管理 的战略、规划、政策、规则的制定;负责数据管理体系建设;负责架构及核心数据资产管理;确保公司数据质量水平
能力中心——构建数据管理的方法、工具、平台;负责专业能力的开发和建设,包括数据架构、数据分析、信息管理、数据质量管理
业务的数据伙伴——面向业务,提供数据解决方案,解决业务数据痛点;支撑业务数据需求;向业务提供标准化的主数据或基础数据服务
文化倡导者——在公司范围建设追求卓越、谁创建数据谁负责数据质量的文化;用数据支撑业务决策的文化
数据全生命周期治理规范与方案
差异化的企业数据分类管理框架
基于数据特性的分类管理框架
根据数据特性和治理方法的不同
内部数据和外部数据
结构化数据(基础数据、主数据、事物数据、报告数据、观测数据、规则数据)和非结构化数据
元数据
不同分类数据治理方法不同
基础数据——变更会对现有流程、IT系统产生影响——管理重点在于变更管理和统一标准管控
主数据——错误可能导致成百上千的事物数据错误——管理重点是确保同源多用、重点进行数据内容的校验等
以统一语言为核心的结构化数据管理
数据分类定义及特征描述
基础数据治理
也称作参考数据(国家、货币),业务事件发生前已经预先定义
重点在于变更管理和统一标准管控
通过明确各方的管理责任、发布相关的流程和规范以及建立基础数据管理平台等,来确保基础数据的有效管理
主数据治理
参与业务时间的主题或资源,具有高业务价值
主数据的记录的增加和减少一般不会影响流程和IT系统的变化
重点在于同源多用和数据内容的校验
华为策略
唯一性(不能重复创建)
联邦管控(中央制定标准政策模型,地方实施应用)
单一数据源(不在多个系统维护,确定每个属性创建、更新和读取确定一个应用系统作为数据源))
数据、流程、IT协同
事前的数据质量策略(数据创建阶段主动管理数据质量,非出现问题后被动解决)
华为的主数据范围包括客户、产品、供应商、组织、人员主题
主数据集成消费管理框架
数据消费层——所有消费数据的IT产品团队,负责提出数据集成需求和集成接口实施
主数据服务实施层——主数据集成解决方案的落地
主数据服务设计层——为需要集成主数据的IT产品团队提供咨询和方案服务,受理主数据集成需求,制定数据集成解决方案
管控层——由信息架构专家组担任,负责主数据规则的制定和发布,以及主数据集成争议或例外的就决策
事物数据治理
重点是管理好事物数据对主数据和基础数据的调用,以及事物数据之间的关联关系,明确哪些属性是引用其他业务对象的,哪些是自身特有的。
报告数据治理
对数据进行加工后,用作业务决策依据的数据(事实表、指标数据、维度、统计函数、趋势函数、报告规则、序列关系数据)
观测数据治理
软感知(使用软件或各种技术进行数据收集数据的对象存在于数字世界,不依赖于物理设备,如日志,爬虫)
硬感知(利用设备或装置进行数据收集,收集的对象为物理世界中物理实体,或者以物理实体为载体的信息,数据从物理世界向数字世界转化
规则数据治理
以特征提取为核心的非结构化数据管理
无格式文本、各类格式文档、图像、音频、视频等多种异构的格式文件
管理文件对象的标题、格式、Owner等基本特征和定义外,还需要对数据内容的客观理解进行管理,如标签、相似性检索、相似性连接等,以便于用户搜索和消费使用
核心为:对其基本特征和内容进行提取,并通过元数据落地来开展
基本特征类元数据流(客观)
内容增强类元数据流(主观)——个数据分析项目组解析目标非结构化对象的数据内容,将分析结果通过元数据采集、元数据标准化&整合后统一存放在元数据管理平台中
以确保合规遵从为核心的外部数据管理
遵循原则
合规优先原则
责任明确原则(明确的管理责任主体,承担数据引入方式、数据安全要求、隐私要求、使用权限等责任)
有效流动原则(避免重复采购,重复建设)
可审计、可追溯原则(控制访问权限、留存访问日志等)
受控审批原则
作用于数据价值流的元数据管理
元数据治理面临的挑战
痛点:业务元数据与技术元数据未打通,导致业务读不懂IT系统中的数据,并且缺乏面向普通业务人员的准确、高效的数据搜索工具,业务人员无法快速获取可信数据。
元数据是描述数据的数据,用于打破业务和IT之间的语言障碍,帮助业务更好的理解数据
业务元数据——用户访问数据时了解业务含义的路径,包括目录资产、owner、数据密级等
技术元数据——实施人员开发系统时使用的数据,包括物理模型的表与字段、ETL规则、集成关系等
操作元数据——数据处理日志及运营情况数据,包括调度品读、访问记录等。
元数据管理
产生元数据
元数据模型
业务元数据
主题域分组——公司顶层信息分类,通过数据视角体现公司最高层面关注的业务领域
主题域——互补重叠数据的高层面的分类,用于管理其下一级的业务对象
业务对象——业务领域重要的人、事、物,承载了业务运行和管理涉及的重要信息
逻辑实体——描述业务对象的某种业务特征属性的集合
属性——用于描述业务对象的性质和特征,反应信息管理最小粒度
数据标准——用于描述公司层面需共同遵守的属性层数据的含义和业务规则,相关标准一旦确定且发布,全公司范围内需严格遵守
技术元数据
数据库——按照数据结构来组织、存储和管理数据的仓库
Schema——数据库对象的集合,一个用户一般对应一个Schema
表——分为物理表和虚拟表,物理表为数据库的核心组件,由行和列组成。行包括若干列信息项,一行数据称为一个或一条记录;列又称为字段,用于描述相关数据的特征。 虚拟表基于物理表进行定义,用于提供数据服务,但不实际存储数据,其数据使用方式和物理表一致
字段——表中的列信息
数据资产编码原则
统一性原则 & 唯一性原则 & 可读性原则 & 扩展性原则
业务元数据资产编码原则
第一部分为主题域分组的编码规则——主体与分组的编码由公司统一分配
第二部分为主题域、业务对象、逻辑实体、属性的编码规则——这部分主要由数据治理平台按照编码规则自动生成
第三部分主要为业务元数据包含的子类对应的数据资产类型代码
采集元数据
从生产线系统、IT设计平台等数据源获取元数据,对元数据进行转换,然后写入元数据中心的过程
元数据来源
关系数据库(Oracle\MS SQLServer\DB2等)
建模工具(ERWin\PowerDesigner等)
数据集成工具(DataStage\PowerCenter等)
BI报表工具(Cognos\SQL Server Reporting Services等)
调度工具(Automation)
开发语言及脚本(Perl日志方式\SP注释方式)
其他(元数据采集虚拟库等)
三个步骤
选择适配器 → 配置数据源 → 配置采集任务
注册元数据
原则
数据Owner负责,谁的数据就由谁负责业务元数据和技术元数据连接关系的建设和注册发布
按需注册,各领域数据管理部根据数据搜集、共享的需求,推进元数据注册
注册的元数据的信息安全密级为内部公开
注册规范
准备度评估——IT系统名称必须是公司标准名称;数据资产目录是否经过评审并正式发布;数据Owner是否确定数据密级;物理表/虚拟表/视图名
元数据连接——必须遵从逻辑实体和物理表/虚拟表/视图一对一的连接原则;属性和非系统字段(具备业务含义)也需遵从一对一连接原则
注册发布——增量元数据注册(系统上线时即完成业务元数据&技术元数据连接,通过元数据采集器实现元数据自动注册)/存量元数据注册(一对一模式/主从模式/主扩模式/父子模式)
运维元数据
通过对元数据分析,发现数据注册、设计、使用的现状即问题,确保元数据完整、准确。通过业务元数据和技术元数据的关联分析,反向校验架构设计与落地的实施情况
面向“业务交易”的信息架构建设
四个组件
数据资产目录
完善的企业资产地图,为企业数据治理、业务变革提供指引;基于数据资产目录可以识别数据管理责任,解决数据问题争议,帮助企业更好的对业务变革进行规划设计,避免重复建设
L1主体域分组
有两种分类方式:基于数据自身特征边界进行分类;基于业务管理边界进行分类——华为采用了业务管理边界划分,将L1主题域分组与流程架构L1相匹配,数据资产和业务GPO(全球流程责任人)相匹配,有利于更好地推进各项数据工作。
L2为主题域
互不重叠的数据分类,管辖一组密切相关的业务对象,通常一个主题域有相同的数据Owner
L3为业务对象
定义业务领域重要的人、事、物,建设构建和治理主要围绕业务对象开展
L4为逻辑数据实体
描述一个业务对象在某方面特征的一组属性集合
L5为属性
信息架构的最小颗粒,用于描客观描述业务对象在某方面的性质和特征
数据标准
统一业务测语言和理解;对IT实施形成必要的指引和约束;明确各业务部门应承担的责任
数据模型
从数据视角对现实世界特征的模拟和抽象,根据业务需求抽取信息的主要特征,反应业务信息(对象)之间的关联关系
数据分布
定义了数据产生的源头及在各流程和IT系统间的流动情况
核心是数据源,指业务上首次正式发布某项数据应用系统,并经过数据管理专业组织认证,作为企业范围内唯一数据源头被周边系统调用
原则:建立企业层面的共同行为准则
1、数据按照对象管理,明确数据Owner
2、从企业视角定义信息架构(在业务链条中,业务部门对数据编号的诉求,都可以提交给数据Owner)
3、遵从公司的数据分类管理框架
4、业务对象结构化、数字化(业务对象包含业务结果、业务规则、业务过程)
5、数据服务化、同源共享(单一数据源,一点定义,全局共享)
核心要素:基于业务对象进行设计和落地
业务对象判定不一致时,华为遵循原则
1、业务对象是指企业运营和管理中不可缺少的人、事、物
2、业务对象有唯一的身份标识信息
3、业务对象相对独立并有属性描述(属性必定依附于某个业务对象而不可独立存在)
4、业务对象可实例化
5、按业务对象进行架构落地——华为数据模型分为三层:概念数据模型(通过业务对象与业务对象之间的关系,从宏观角度分析和设计的企业核心数据结构)、逻辑数据模型(利用逻辑数据实体及实体之间的关系,准确描述业务规则的逻辑实体关系)、物理数据模型(按照一定规则和方法,将逻辑数据模型中定义的逻辑数据实体、属性、属性约束、关系等内容,如是转换为数据库软件能识别的物理数据实体关系)
业务对象和逻辑实体的关系是一对一或者一对多,不允许多对一的情况
两个业务对象间的关系可以设计成关系型逻辑数据实体,在数据资产目录中,可按业务发生的时间线后顺序,归属于后出现的业务对象
传统信息架构向业务数字化扩展:对象、过程、规则
既有的问题
大量业务和作业所产生的数据并没有完整的被管理
大量业务过程没有形成可视、可管理的数据
大量业务规则缺乏管理,无法灵活应用
对象数字化
目标:建立对象本体在数字世界的映射。管理某个对象的全量数据
过程数字化
作业过程记录下来,要求业务活动线上化,并记录业务活动的执行或操作轨迹,一般通过观测数据来实现轨迹记录
规则数字化
把复杂场景下的复杂规则用数字化手段进行管理,实现业务规则与IT应用解耦
面向“联通共享”的数据底座建设
1. 支撑非数字原生企业数字化转型的数据底座建设框架
目标
统一管理结构化、非结构化数据
打通数据供应通道
确保数据完整、一致、共享。
确保数据安全可控
数据湖
保留数据原格式,原则上不对数据进行清洗
对于数据资产多源异构的场景需要进行整合,进行数据资产注册
入湖的6个标准【明确数据Owner,发布数据标准,认证数据源,定义数据密级,制定数据质量方案,注册元数据】
数据主题联接
5种联接方式【以业务流(事件)为中心联接,以对象(主题)为中心联接,智能标签,报告数据,算法模型】
底座建设遵从四原则
数据安全原则
用户权限、数据密级、隐私级别
需求、规划双轮驱动原则
数据供应多场景原则
提供离线/实施、物理/虚拟等不同的数据供应通道
信息架构遵从原则
2. 数据湖:实现企业数据的“逻辑汇聚”
近2年的数据入湖,已完成1.2W逻辑数据实体、28W个业务属性的入湖
特点:逻辑统一、类型多样、原始记录
入湖6个标准
明确数据Owner
发布数据标准(数据标准内容)
数据资产目录(主题域分组、主题域、业务对象、逻辑数据实体、业务属性)
定义及规则(引用的数据标准、业务定义、业务规则、数据类型、数据长度、允许值、数据示例、同义词、标准应用范围)
责任主体(业务规则责任主题、数据维护责任主题、数据质量监控责任主题)
认证数据源
数据从正确的数据源头入湖
定义数据密级(定义密级Or降密级)
数据质量评估
注册元数据
入湖方式
一个逻辑数据实体的所有属性应一次性进湖,避免多次入湖
物理入湖
将原始数据复制到数据湖,包括批量处理、数据复制同步、消息和流集成等
虚拟入湖
原始数据不在数据湖中存储,通过建立对应虚拟表的集成方式实现入户实时性强,一般面向小数据量应用
5种技术手段
批量入湖
复杂数据清理和转换,且数据量大的场景
调度作业每小时或每天,不适合低数据延迟和高灵活性场景
ETL\ELT\FTP等工具
数据复制同步
高可用性和对数据源影响小的场景
使用基于日志的CDC捕获数据变更,实时获取数据
不适合处理ge'zh各种数据结构以及需要清理和转换复杂数据的场景
消息集成
通过API捕获或提取数据
适用处理不同数据结构以及需要高可靠性和复杂转换的场景;对于许多遗留系统、ERP和SaaS,消息集成是唯一选择
不适用处理大量数据的场景
流集成
关注流数据的采集和处理,满足数据实时集成需求
梳理每秒数万甚至数十万个事件流,甚至数百万,
不适合需要复杂数据清理和转换的场景
数据虚拟化
低数据延迟、高灵活性和临时模式的消费场景
载数据虚拟化的基础上,通过共享访问层,分离数据源和数据湖,减少数据源变更带来的影响,支持数据实时消费
结构化数据入湖
由二维表结构来逻辑表达和实现的数据,严格遵守数据格式和长度规范,主要通过关系型数据库进行存储和管理
两种场景:企业数据管理组织基于业务需求主动规划和统筹;响应数据消费方的需求
1、数据入湖需求分析及管理
入湖需求→业务员数据&技术元数据(业务对象、逻辑实体、业务属性对应界面的截图)→业务代表和数据代表联合评审→有争议时申请专业评审仲裁
2、检查数据入湖条件和评估入湖标准
检查数据源准备度(原系统IT团队提供源系统数据字典和模型&检查原系统物理表规范都)
评估入湖标准(6个标准)
评估入湖质量
3、实时数据入湖
不要求历史数据、小批量数据且实时性要求高——建议虚拟入湖——由数据代表实施
要求历史数据、大批量数据且实时性要求不高——可以物理入湖——由对应数据湖的IT代表实施
4、注册元数据
是数据共享和消费的前提,为数据导航和数据地图建设提供关键输入
非结构化数据入湖
范围
无格式文本、各类格式文档、图像、音频、视频等多样异构的格式文件
基本特征类元数据
内容增强类元数据
四种方式
基本特征类元数据入湖
原始文件存储在源系统,数据湖中进存储非结构化数据的基本特征元数据
数据code,是否必填title,类型Type,格式Format,创建者Creator,主题subject,描述Description,发布者Publisher,其他责任者Contributor,创建日期create date,发布日期publish date,最后修改日期last modify date,生效日期effective date,失效日期failure date,版本version,标识符identifier,语言language,来源source,关联relation,覆盖范围coverage,密级security classification/rights
文件解析内容入湖
原始文件存储在源系统,数据湖中进存储解析后的内容增强元数据
文件关系入湖
原始文件存储在源系统,数据湖中进存储文件的关系等内容增强元数据
原始文件入湖
数据湖中存储原始文件并进行全生命周期管理
3. 数据主题联接:将数据转换为信息
数据湖中数据零散且数据结构与源系统一致,表没有联结,难以支撑用户进行分析→华为在数据湖基础上通过建立数据联接层
以业务流(事件)为中心联接(合同、销售订单等)
多维模型
依据明确的业务关系,建立基于维度、事实表以及相互间连接关系的模型,实现多角度、多层次的数据查询和分析
1、确定业务场景
2、声明粒度
精确定义事实表的每一行表示什么
3、维度设计
维度由层次结构(guanxi )、层级、成员、属性组成
需要满足单一性(有且仅有一个视角)、单向性、正交性(成员两辆不相交)
4、事实表设计
由粒度属性(主键)、维度属性、事实属性、其他描述属性
以对象(主体)为中心联结(供应商、客户等)
图模型
由节点和边组成,节点表示实体或概念(如一个人,一个城市等),边则由属性或关系构成(如国籍、生日等)。
1、业务场景定义
2、信息收集
3、图建模
4、实体、概念、属性、关系的标注
5、实体和概念的识别
6、属性识别和关系识别
智能标签(员工、用户画像等)
事实标签、规则标签、模型标签
规则标签标签体系建设→打标签
指标数据(原子指标数据、衍生/符合等)
根据指标计算逻辑是否含有叠加公式,分为原子指标和复合指标
原子指标
通过添加口径、修饰词、维度卷积而成
门店明细表,通过门店编码卷积,属性包含门店等级、门店状态、门店形象顶级、组织等级等
复合指标
由一个或多个原子指标叠加计算而成
促销员门店覆盖率=促销员门店数量➗有效门店数量
过程
1、解读指标定义,识别指标
2、基于指标叠加公式拆解指标
3、基于指标拆解结果,识别指标数据
4、数据匹配落地
算法模型(辅料计划预测、机会点挖掘等)
算法与模型
算法是利用样本数据生成模型的方法
1、需求评估
业务驱动的分析需求识别
数据驱动的分析需求识别
价值与可行性评估
2、数据准备
3、方案设计
4、建模与验证
决定是否需要分析建模
建模与验证(建模,并于业务分析师确认模型成效与应用)
试算分析
编写数据分析线下验证报告
决定是否需要IT开发
模型线上验证
转运营
面向“自主消费”的数据服务建设
数据服务:实现数据自助、高效、复用
问题
系统多,数据集成复杂,数据搬家后源头数据和下有个系统之家差异巨大等
定义
基于数据分发、发布的框架,将数据作为一种服务产品来提供,以满足客户的实施数据需求,它能复用并符合企业和工业标准,兼顾数据共享和安全。
价值
打通业务间的数据壁垒
保障数出一孔,提升数据一致性
数据消费者不再关注技术细节,可以满足不同类型的数据服务需求
提升数据敏捷相应能力(订阅数据服务快速获取数据)
满足用户灵活多样的消费诉求
兼顾数据安全(管理数据服务)
建设策略
明确数据服务化方法——确保每个从事数据服务建设的人都明白数据一致性要求
指定数据服务管理规范与流程
构建数据服务中心
数据服务生命周期管理
服务识别与定义
业务与数据握手,识别服务的业务价值、准入条件与服务类型,减少数据服务的重复建设,提升数据服务的重用度
1、分析数据服务需求
通过需求调研与需求交接,判断数据服务类型(面向系统或面向消费)、数据内容(指标/维度/范围/报表项)、数据源与时效性要求
2、识别可重用性
匹配已有数据服务,判断那种方式实现(新建服务、直接复用、服务变更)
3、判断准入条件
数据Owner是否明确
元数据是否定义
业务元数据和技术元数据是否建立联结
数据是否已入湖
数据资产是否具备对外提供服务的条件
4、制定迭代计划
服务设计与实现
业务、数据、IT三方协同,式设计、开发与部署快速迭代以实现服务的敏捷交付
服务契约
包括服务的基本信息(数据服务提供方、数据服务的类型)、能力要求(服务的时效性、服务的处理逻辑、服务的安全策略、服务的SLA要求等 )
数据契约
包括数据契约描述、输入和输出参数、业务数据资产编码、物理落地资产编码等
服务运营
数据服务变更
变更内容(时效性、出入参数、服务处理逻辑、安全策略等)
变更影响(连续性影响、变更成本影响)
数据变更下架
主动下架
被动下架(三个月无服务调用、重复的数据服务等)
数据服务分类与建设规范
数据集服务
由服务提供方提供相对完整的数据集合,消费方“访问”数据集合,并自行决定接下来的处理逻辑
数据服务提供方并不定义数据处理逻辑,但数据和数据处理逻辑仍由其控制
数据服务的生命周期级数据访问授权的有效期
建设规范(数据来自数据胡)
允许将数据湖的同一个业务对象内的一个或多个资产封装为数据服务
允许将数据湖内单个资产及其关联主数据合并封装为数据服务
不允许将数据湖中跨业务对象的多个资产合并封装为一个数据服务
规范建设(数据来自主题联接
允许将单个主题联接的数据资产封装为一个或多个数据服务
允许将多个主题联接数据资产组成多维数据模型整体封装为一个数据服务
不允许将多个主题联接数据资产直接合并封装为一个数据服务
数据API服务
服务提供方相应消费方的服务请求,提供执行结果。(伴随用户的某个任务产生,随着任务结束,服务也结束)
相对传统系统集成的优势
供应/消费数据服务
高聚合:订单服务是业务逻辑变得更加集中,易于数据同源管控
松耦合:业务逻辑的变化对服务消费方没有直接影响
打造数据供应的三个1
1天
已发布数据服务的场景,从需求提出到消费者通过服务获取数据,在1天内完成
1周
已近底座耽误数据服务的场景,从需求提出到数据服务设计落地,消费者通过服务获取数据,在1周内完成
1月
已结构化单位进底座的场景,从需求提出到汇聚入湖、数据主题联接、数据服务设计落地、消费者通过服务获取数据,在1个月内完成
数据服务供应SLA关键要素
组织组织明确(专业的评审及仲裁组织,承接各细分工作内容的角色职责)
流程规范的制定与落实
IT平台的建设
构建以用户体验为核心的数据地图
why:找不到&读不懂——找得到,读得懂——基于元数据应用,以数据搜索为核心,通过可视化方式,综合反映有关数据的来源、数量、质量、分布、标准、流向、关联关系,让用户高效的找到数据,读懂书,支撑数据消费
框架
四类关键用户群体
业务分析师
良好的业务背景,了解业务需求实质;通过对数据的识别,借助舒服恩熙工具,生成可供阅读的图标或者仪表板,识别问题,支持决策
数据科学家
能采用科学方法、运用数据挖掘工具对复杂异构的数字、符号、文字、网址、音频或者视频等信息进行数字化重现与认识,并能进行新的数据洞察的工程师或专家
数据管家
协助数据OWNER对数据信息架构进行管理,包括定义信息架构中的责任主体、密集/分类,为数据安全管理提供重要输入。通过信息架构设计,同意业务语言,明确管理责任,设定数据质量标准,拉通跨领域信息流,支撑运营和决策
IT开发人员
数据仓库开发人员,通过对物理表进行定位、识别和ETL,创建满足业务分析师或者应用平台所需要模型或维表
关键能力
数据搜索
完全匹配Or模糊搜索
排序推荐
被动响应推荐排序
无前端操作,基于数据管理分类、用户行为分析等输入,通过排序推荐逻辑对结果集中进行处理
优点:提升用户体验无需操作吉氪大概率定位到需要的数据资产
缺点:缺乏交互,准确度因人而异
主动管理推荐排序
用户通过分类标签对搜索结果集进行再次过滤和定位
优点:与用户有一定交互,用户在使用中可以主动管理
缺点:管理侧和通用性收敛上来的标签满意满足个性化需求
数据样例
生产环境的实时数据更有参考价值
资产/用户画像
通过标签化的手段来对资产和用户清晰的描绘,有助于数据搜索和推荐排序的不断优化
人人都是分析师
保姆模式
业务部门只提需求,从涉及到开发全由总部完成
开发周期长 & 无法满足灵活多变的业务要求
服务+自助
总部只提供统一的数据服务和分析能力组件服务,各业务部门可以根据业务需要进行灵活的数据分析消费,数据分析方案和结果由业务自己完成
数据分析消费周期极大缩短/发挥业务运营主观能动性/减少烟囱是系统的重复建设(不需要重复构建支撑消费的数据基础,所有公共的数据汇聚、数据联结都统一建设
打造业务自主分析的关键能力
面向不同的消费用户提供差异性的能力和工具支撑
业务分析师
提供自主分析能力,业务人员通过拖拉拽可快速产生分析报告
基于多租户环境,提供数据资产订阅、报表作品搜索、服务订阅等能力
实现从数据查询到数据拖拽式分析的端到端的一战术自主作业,增强数据即席查询和数据建模等功能
提供数据搜索、数据获取、自主分析、数据消费等一站式自主分析服务,缩短报表开发周期
支持租户管理、工具集管理、日志管理功能,集成数据底座权限模型,提供稳定的分析环境
数据科学家
提供高效的数据接入能力和常用数据分析组件,快速搭建数据探索和分析环境
集成数据可视化,数据建模能力,降低数据分析门槛,提高平台的易用性
识别公共诉求,提供R STUDIO,ZEPPILIN等工具,增强NLP基础服务、人工智能等分析装备对与机会点的支撑能力,支撑个中大数据分析应用场景
提供原系统到分析平台的数据实时同步功能
为数据科学家提供数据目录导航入口
提供数据分析环境,支持权限申请和计算资源的分配,缩短建模周期
IT开发人员
提供云端数据开发、计算、分析、应用套件,支撑海量数据的分析与可视化,实现组件重用
整合数据接入、数据计算、数据挖掘、数据展现等能力,提供高效、安全的数据集成、数据开发、开发报告,数据管理等服务,减少重复建设,实现组件重用
整合第三方资源,依托HIC能力通道,提供自助、按需、在线的基础数据服务,包括分布式处理、实时处理、内存计算等
引入租户概念,不同类型的用户可以在一定范围内分析数据、共享数据结果——以租户为核心的自助分析关键能力
多租户管理能力
租户是指把数据、分析工具、计算资源有机组合的工作环境,用户可以在租户内完成数据搜索、数据加工、在线分析、报表共享等工作
多租户技术也称多重租赁技术,是一种软件架构技术,可以实现多个租户之间共享系统实例,同时也可以实现租户的系统实例的的个性化定制。通过多租户技术可以保证共性的部分被共享,个性的部分被单独隔离
示例:按国家设定不同租户,本租户内共享该国的经营分析结果,共同进行异常分析和经营改善;同时,该租户数据对其他国家屏蔽,避免了数据扩散等风险
租户4个关键角色
租户Owner
租户管理第一责任人,由公司正式任命的管理者或变更项目经理担任,是租户内数据消费的总负责人
租户管理员
有租户Owner制定并授权,对租户内资产、用户、报告的日常维护、配置、成权承担具体管理职责的人员
查看者
申请并被允许加入租户,只对租户内的报告有查看权限的租户用户
分析师
申请并被允许加入租户,对数据资产可执行申请数据入租户、申请租户授权、通过分析工具分析数据、制作报告、查看报告、分享报告等操作的租户用户
数据加工能力
用户可将多个数据进行关联,构建自己的宽表,可对宽表进行数据过滤,选择合适的字段及增加计算字段
数据加工关键能力——模型配置、关联条件、字段选择、函数过滤、计算关系、SQL配置、脚本编译、脚本验证
数据分析能力
即席查询
提供通过筛选条件展示结果数据的能力
提供生产环境的实时数据内容,有助于用户通过筛选后的结果数据判断能否满足最终分析需求
分析结果支持以文件服务器的方式下载,满足本地化处理的需求,同时避免数据被过度共享
可视分析
数据打通——已授权加工后的数据可直接进入数据分析工具进行分析操作
最大程度利用各种分析工具已有功能
自主分享能力
对报告进行密级设定和权限管理
对报表提供浏览和编辑能力,朝朝需要浏览的报表,选择查看、编辑、分享、删除功能
提供对生成的报告定义密集的能力,报告生成者作为报告的Owner,定义密集和管控分享范围
从结果管理到过程管理,从能看到能管
数据赋能业务运营
满足业务运营中数据实时可视化的需求
实时数据入湖和联接方案,业务可第一时间获取作业监控信息
满足业务运营中及时诊断预警的需求
灵活配置各种规则类数据,通过分析平台的规则引擎,帮助业务提前感知业务问题
满足业务运营中复杂智能决策的需求
通过数据分析模型对数据底座中海量数据进行挖掘,智能分析业务问题的本质,洞察趋势并推荐方案
数据消费经典场景实践
需求到自助分析的5各步骤
业务需求提出
需求描述——明确而业务需求的痛点、目标和收益
需求范围明确——报告的使用的场景、角色/岗位;业务定义及规则的明确;业务活动的起点和终点
数据需求解析
报告数据识别——列举所需数据、明确分析维度
分析报告模型设计——从可行性出发,识别分析视角的最小颗粒度
数据搜索和获取
数据搜索——数据已入湖的可申请使用;数据未入湖的推动OWNER履行入湖作业
数据获取——根据数据的密级/隐私标签等要素,通过相应的审批后可获取所需数据
数据服务提供
数据入湖/数据主题联接资产设计/数据服务开发落地/测试验证/数据资产注册/数据授权
自助报告设计和展示
报告展示设计——将已有数据结合报告展示需求,进行报告界面设计与功能的开发
风险管理实践
事后查
找系统→查数据→约人谈→定原因→出报告→定责任→抓改进→查落实
数字化运营
业务实时自检,风险实时在线审视和预警,风险任务快速关闭;不需要完全依赖事后核查,而是业务人员主动遵从
预制规则探针→业务自动巡检→风险自动预警→风险自主关闭
华为数据驱动数字化运营的历程和经验
不同阶段
从行走到公交阶段
机关建,业务部门用——无法满足根据业务场景灵活配置和运营
从公交到自驾阶段
各版块按需以自助形式生成各种分析表——数据无序,大量数据离线手工获取,完整性和可靠性问题等
从无序到有序阶段
数据底座建设实现生态共建、平台共享
从人工到智能阶段
在可视化基础上,逐步增加动态及时预警能力、智能分析和方案推荐能力、任务自动执行能力
三个要点
发育
赋能训战,支撑代表处从0到1的建设
做好自主分析能力赋能,识别关键核心人员通过培训与实战方式帮他们掌握自助分析基本能力,同时做好现场支持
激励
激励原创,保护原创,大众评选
分享
从优秀实践中识别真正具有共性的典型场景和典型数据联接模型,推动优秀实践再各个业务部门快速复制,达到从1到N的快速分享的效果
两个基础
数据服务
3个1的SLA
数据服务地图
授权与权限管理
IT平台
自助分析,场景市场,性能改进
分析平台——承载企业的公共分析能力建设,面向业务分析师提供自助分析能力
数据分析结果呈现前台——成在公共场景的市场能力,支撑典型场景的快速分享
华为数字化运营关键特性
平时值班
实施感知
经营运营数据
项目状态
资源状态
及时预警
KPI风险指标预警
延标风险实时预警
业务健康实时预警
站时指挥
智能分析
问题及原因分析
趋势预测
方案推荐
降成本措施
运营资产提升措施
收入达成关键措施
察打一体
快速部署
任务自动执行
闭环自动判断
差距分析与总结
全连接
知识,经验
电话、邮件、屏幕
业务作业平台
打造“数字孪生”的数据全量感知能力
数据获取不是组织大量专业人员取录入校验;——需要加强数据的可获得性,丰富数据感知渠道
全量、无接触的数据感知能力框架
数字感知能力的需求起源:数字孪生
2003年,首次提出“与物理产品等价的虚拟数字化表达”,并给出定义:一个或一组特定装置的数字复制品,能够抽象表达真实装置并可以此为基础进行真实条件或模拟条件下的测试。该概念源于对装置的信息和数据进行更清晰表的的期望,希望能够将所有信息放在一起进行更高层次的分析,数字孪生 digital twin,DT由此概念衍生而出并沿用至今
数字孪生能力框架——数据感知能力、联接能力、分析能力、建模能力、监视能力、控制能力
数字感知能力框架
硬感知
利用设备或装置进行数据的收集,手机对象为物理世界中物理实体,或以物理实体为载体的信息、事件、流程等
软感知
使用软件或各种技术收集数据,收集的对象存在于数字世界,通常不依赖于物理设备进行收集
子主题
基于物理世界的硬感知能力
硬感知能力的分类
人工采集→自动采集
硬感知能力在华为的实践
门店数字化
通过光纤传感器和温度传感器,自动调节窗帘、灯光,温度随环境改变,并于店面、窗帘、灯光、空调、屏幕、防盗系统联动,打造智能绿色门店环境
通过事物管理感知,样机自动申报位置与状态,异常告警,自动上报消费者在门店体验过程中的行为,结合消费者体验情况优化陈列、营销设计、产品设计。
通过视频感知流和热区,管理门店各片区人流密度与停留时间,优化陈列与营销,适时调整服务人力与资源配置
站点数字化
通过360度全景拍照和OCR,构建站点物理对象完整的围栏尺寸、塔高、机房尺寸、设备尺寸、天线挂高、走线距离、天线的方位角、下倾角、扇区等数字镜像,是现在数字化站点勘测规划,实现站点直接施工,避免在现场反复勘测、设计调整
基于数字世界的软感知能力
软感知能力的分类
埋点
针对特定用户行为或事件进行捕获的相关技术。埋点的技术实质,是监听软件应用运行过程中的事件,当需要关注的事件发生时进行判断和捕获
代码埋点
业务人员通过自己统计需求选择需要埋点的区域及埋点方式,形成详细的埋点方案→技术人员手工将这些统计代码添加到想要获取数据的统计点上
可视化埋点
通过可视化页面设定埋点区域和事件ID,从而在用户操作时记录操作行为
全埋点
在SDK部署时做统一的埋点,将APP或应用程序的操作尽量多的采集下来。
日志数据采集
操作日志、运行日志、安全日志
网络爬虫
按一定的规则自动抓取网页信息的程序或者脚本
软感知能力在华为的实践
识别用户行为,提升运营效率和用户数据消费的体验
通过平台埋点,捕捉用户在界面上从数据定位到最终消费的浏览过程和停留时间等信息,关联用户的部门、职位、所在地等信息,自动生成用户画像和数据画像,确定细分用户范围,节点相同认知背景和业务场景的用户,提供可识别的分类资产用于搜索,结定数据资产分类,面向不同用户界定不同的资产范围,减少匹配差异和搜索引擎复杂度,训练搜索引擎和推荐算法,提供最优数据推荐结果和排序位置
通过感知能力推进企业业务数字化
感知数据在华为信息架构中的位置
华为数据治理下的感知能力对接了数据供应链,数据从感知采集(数据采集、数据接入、本地存储)到最终的分析消费,都纳入公司级信息架构,作为数据资产来进行管理。
感知元数据管理
感知方式元数据
对数据感知的方式进行登记注册的过程,在后续数据消费过程中可以之道数据来源
感知内容元数据
感知内容包括结构化数据和非结构化数据,所以元数据管理也分为结构化数据和非结构化数据元数据
感知得到的数据时企业信息架构的一部分,在数据分类中要基于感知采集方式的差异,制定不同的管理办法
非数字原生企业数据感知能力的建设
开发一个独特的物理对象感知能力可以获取收益的方向,包括改善运营、降低运营风险、降低成本、更好地位客户服务的机会,或者通过拥有质量更高、更全面的数据来更好的业务决策
在更复杂、更昂贵的环境(例如工业机器也企业资产)中,更有可能抵消感知能力构建的实现成本
组织是否拥有相关感知能力的前身,比如可以利用现有的、详细的元数据和模型(例如BOM\CAD和仿真模型)
需要一个模型来支持极端的操作环境,比如远程或环境恶劣的地方
探索技术或商业模式的创新,比如增强现实的应用,或者实现资产货币化的新方法,比如提供前所未有的、差异化的服务水平等领域
打造“清洁数据”的质量综合管理能力
基于PDCA的数据质量管理框架
什么是数据质量
ISO9000——产品固有特性满足要求的程度,其中要求指明示的、隐含的或必须旅行的需求或期望,强调以顾客为关注焦点
won kim论文——适合使用,数据适合使用的程度,满足特定用户期望的程度
数据质量不是追求100%,而是从数据使用者的角度定义,满足业务、用户需要的数据即为好数据
维度
完整性——创建、传递过程中无缺失和遗漏,包括实体完整、属性完整、记录完整和字段值完整
及时性——记录和传递相关数据,满足业务对信息获取的时间要求。数据交付要及时,抽取要及时,展现要及时
准确性——真实、准确的记录原始数据,无虚假数据及信息,数据要准确反应其所建模型的真实世界实体
一致性——遵循统一的数据标准记录和传递数据和信息,主要体现在数据记录是否规范、数据是否符合逻辑
唯一性——同一数据只能有唯一的标识符,体现在一个数据集中,一个实体只出现一次,并且每个唯一实体有一个键值且该键值只指向该实体
有效性——数据的值、格式和展现形式符合数据定义和业务定义的要求
数据质量管理范围
流程质量
基于流程结果评估业务执行的好快
数据质量
更关注业务对象、业务规则、 业务过程、业务结果等数据是否得到了即时记录
示例
采购验收及时性属于?
送达到验收所需时间满足3天SLA属于?
验收数据录入及时性属于?
验收到录入所需时间满足1天的SLA属于?
数据质量总体框架
领导力模块
通过制定政策、规范来构建数据质量管理机制,对数据质量的工作起牵引作用
自上而下打造数据质量领导力
数据质量政策应该有不同层次,管控要兼顾宏观方面的指导原则即微观层面的具体操作要求
持续改进
全面推进数据质量持续改进机制
业务战略变化会产生新的数据,对数据应用提出更高的要求,使得数据质量管理范围、目标发生变化,因此数据质量管理是动态、持续的循环过程
能力保障模块
构建完整的数据组织、流程和工具,起到支撑作用
不断加强数据质量能力保障
需要专业团队制定数据智联管理策略、流程、规范等;通过技术工具实现自动融入日常业务
全面监控企业业务异常数据
数据质量规则
华为15类规则
单列
不可为空类
员工工号不可为空
语法约束类
邮箱地址满足有效邮箱格式,身份证号满足够佳标准
格式规范类
日期有多重格式,对于同一属性指定同一类格式
长度约束类
密码长度至少8位,不超过16位
值域约束类
合同的主类型和子类型必须是合同类型基础数据库中定义的枚举值
事实参照标准类
中国电信通信有限公司的信息必须与国家法人数据库中的信息保持一致
跨列
应为空值类
敏感站点不允许维护经纬度信息
入库及时类
通过HRMS系统中员工的入职日期和系统创建日期判断员工入职信息维护及时性
单表等值一致约束类
合同的RMB签约金额必须等于USD签约金额与汇率的乘积
单表逻辑一致约束类
合同的关闭日期不能早于注册日期
跨行
记录唯一类
法人客户中国移动同音股份有限公司只能存在唯一一笔
层级机构一致约束
所有子网类型的客户,满足总部-分部-子网的三层结构
跨表
外关联约束类
合同的签署客户必须为客户主数据中定义的法人客户
跨表等值一致约束类
合同的金额与合同按产品拆分后的金额之和一致
跨表逻辑一致约束类
员工的任命日期早于员工的到岗日期
规则树
对子规则向上收敛,形成业务属性的完整的著规则,这种层级关系称为规则树
数据质量规则的生命周期是随着数据治理范围的扩大和数据治理程度的深入而更新的
异常数据监控
在过程中设置关键质量控制点
识别监控对象范围,确定监控内容
定性维度识别关键数据
重要性原则
关键主数据和基础数据
关键的事物数据
痛点问题
成本效益原则
定量维度识别关键数据
数据源剖析
分析数据源的内容、结构和质量,同时发现和分析数据源中所有数据不规范问题和使数据项目处于危险中的隐藏数据问题
设计和配置监控规则,自动监测异常数据
华为数据平台已实现质量规则可配置、数字化、快速部署、自动监控识别异常数据等能力,并可随时间推移,制定周期性监控计划,监视数据质量的进展情况,并通过虚拟化的方式快速、灵活发布监控结果
可利用自助分析工具开发在线数据质量分析报告,通过前端工具不仅能够查看监控结果汇总数据,而且能够通过钻取功能查看异常明细数据,一遍业务人员准确定位业务系统的异常数据
通过数据质量综合水平牵引质量提升
数据质量度量运作机制
度量模型
识别度量对象→确定度量指标→实施质量度量→改进质量问题
设计质量占40%——对领域所有业务对象的数据架构建设情况进行评估
执行质量占40%——聚焦影响的关键数据,对数据质量六性2进行评估(一致性,完整性,及时性,准确性,有效性,唯一性)
数据Owner职责要求
公司数据Owner——下达数据质量目标,签发数据质量度量报告;基于数据质量结果及改进情况对相应数据Owner进行奖励及问责
各领域数据Owner——承接公司数据Owner设定的数据质量目标,明确数据质量问题改进责任人看,推动问题闭环管理,对数据质量度量结果负责,依据要求向公司数据Owner述职
专业支撑组织职责要求
公司数据管理部
各领域数据管理部
度量规则
度量对象选定原则——聚焦业务运营痛点数据和影响财务的关键数据
度量频率——一年度量2次
度量方法——从设计到执行两个方面开展
评价标准——统一采取百分率的方式评价(满意/基本满意/略不满意/不满意/很不满意)
设计质量度量
维度1:数据资产目录
业务对象须有明确、唯一的数据Owner,并对该业务对象全流程端到端质量负责,
业务对象的元数据质量,如数据分类是否完整、业务定义是否准确
资产目录完整性
维度2:数据标准
数据标准元数据质量,如数据标准是否唯一、业务用途及定义是否准确、各责任主题是否有效等
所有业务对象应准确关联数据标准
数据标准在IT系统及其对应的业务流程中应得到应用和遵从
维度3:数据模型
开发概念模型和逻辑模型,并铜鼓哦IA-SAG评审
物理数据模型设计应遵从逻辑数据模型设计,数据库中物理表的落地应遵循物理模型
维度4:数据分布
已认证数据源,并通过IA-SAG评审
交易侧完整的信息链和数据流,并铜鼓哦IA-SAG评审
交易测业务资产、数据湖、主题联接、数据服务、自助分析之间完整准确的血缘关系
维度5:设计质量打分模型
执行质量度量
确定度量指标→确定数据质量衡量标准→执行度量
质量改进
先质量控制→再质量改进
打造“安全合规”的数据可控共享能力
内外部安全形式,驱动数据安全治理发展
数据安全成为国家竞争的新战场
数字时代数据安全的新变化
数字时代丰富的数据成为国家之间、企业之间竞争的关键
攻击者攻击手法更加多样
数字化加速了泄露的便捷性
数字化转型下数据安全共享
如何再安全前提下充分共享数据
构建以元数据为基础的安全隐私保护框架
WYH
元数据是描述数据的数据,即数据的上下文。数据的管理要求、信息安全要求、隐私、网络安全要求等,都是数据的管理要素,当然也可以由元数据承载,用元数据来组织、来描述安全隐私策略和约束
思路
构建对数据共享业务影响低且非介入式的治理框架
愿景
让数据使用更安全
数据安全隐私分层分级管控策略
内部信息密级维度
外部公开——可以在公司外部公开发布的信息,不属于保密信息
内部公开——可以在全公司范围内公开,但不可以向公司外部扩散的消息
秘密——是公司较为重要或敏感的信息,其泄露会使公司利益遭受损害,影响范围较大
机密——是公司非常重要或敏感的信息,其泄露会使公司利益遭受较大损害,且影响范围广泛
绝密——公司最重要或敏感的信息,其泄露会使公司利益遭受巨大损害,且影响范围巨大
资产密级维度
核心资产
绝密信息,特指公司真正具有商业价值的信息资产
关键资产
机密信息
涉及潜在隐私管控需求的数据分为5类
个人数据
敏感个人数据
商业联系个人数据
一般个人数据
特种个人数据
数据底座安全隐私分级管控方案
五个子方案包
数据底座安全隐私管理政策
说明数据底座的责任边界,数据风险标识标准、数据加工、存储、流转规范
数据风险标识方案
平台提供的数据标识能力
数据保护能力架构
数据底座分级存储架构能力
数据组织授权管理
数据在组织内共享的规则
数据个人权限管理
个人访问数据权限管理方案
数据底座安全隐私保护方案
数据安全管理基本原则
核心资产安全优先,非核心资产效率优先
数据安全规范主题
数据密级分级标准——数据定密的标准
存储保护的基线——描述每一个级别的数据资产的存储要求及入湖原则
流转审批层级——描述每一个级别的数据资产在申请数据共享时应该经过哪些控制审批
数据底座隐私保护管理原则
隐私保护规范主题
个人数据分类、分级标准——非个人数据、商业联系个人数据、一般个人数据、名按个人数据 四个级别
个人数据保护基线——根据个人数据分级,名按个人数据,一般个人数据,商业联系人分别需要做不同程度的数据保护,法律规定特种个人数据严禁入湖
流转审批层级——和安全一致,但新增了隐私专员的接入,以专家评审身份,参与控制数据流转业务,判断数据消费的目的限制级最小授权
分级标识数据安全隐私
人工识别数据风险——数据安全隐私分级标识必须基于元数据管理平台,在平台中构建对数据字段及别的风险标识
基于规则与AI的自动识别——基于规则(正则表达式)及AI机器学习的方式,构建自动推荐、识别风险标识的能力
静动结合的数据保护与授权管理
静态控制:数据保护能力架构
动态控制:数据授权与权限管理
数据授权管理(面向组织)
数据加工授权——由于数据主题联接资产建设中需要跨组织进行数据联接、加工、训练需要转移数据而发生的数据授权场景
数据消费授权——由于业务用户数据的分析需要订阅数据服务而发生的 数据授权场景
数据权限管理——基于访问管控规范,对授予的数据访问权限进行管理
面向个人
业务分析师获取数据资产(原材料场景)
业务用户获取报告访问权限(成品场景)
数据安全与隐私保护能力架构
未来已来:数据成为企业核心竞争力
数据生态下的安全交换架构
数据:新的生产要素
数据列为生产要素:制度层面的肯定
数据将进入企业的资产负债表
数据资产的价值由市场决定
大规模数据交换的企业数据生态
数据生态离不开底层技术的支撑
数据主权实数据安全交换的核心
国际数据空间的目标与原则
多方安全计算强化数据主权
拜托传统手段的数据管理方式
智能数据管理是数据工作的未来
内容分析能力提供资产全景图
属性特征启发主外键智能联接
质量缺陷预发现
算法助力数据管理
数字首先抵御算法其实
第四个世界:机器认知世界
真是唯一的物理世界和五彩缤纷的人类认知世界
映射物理世界的数字孪生--数字世界
数字世界中的智能认知--机器认知世界