导图社区 有关数据的基本概念
这是一篇关于有关数据的基本概念的思维导图,包含记录类数据、管理类数据、分析类数据等。
编辑于2023-11-23 15:48:56数据类型
记录类数据
事务数据
事务是数据库的处理数据的一个单元,可以理解为一次数据库CRUD的操作。事务数据就是记录下数据库操作的系统日志数据,以及特定业务场景中,专门记录的业务操作事务记录的数据,比如用于安全审计的系统登录日志。
业务数据
业务数据就是为了完成业务流程而存储的业务操作类数据。就是业务系统的绝大多数表和数据。
日志数据
早期的日志数据是属于事务数据中的。现在大数据时代,用户访问数据变得越来越重要,所以单独分离出来。
管理类数据
元数据
元数据又称中介数据、中继数据,为描述数据的数据,主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。
通俗来讲,只要能够用来描述某个数据的,都可以认为是元数据。举个例子,如果你把一部电视剧看做数据,那么你在电视剧里面获取到的信息,比如角色名、剧情、主题曲、感情线、导演、演员等等,都可以被看做是这部电视剧的元数据。
对于企业而言,元数据是跟企业所使用的物理数据、业务流程、数据结构等有关的信息,描述了数据(如数据库、数据模型)、概念(如业务流程、应用系统、技术架构)以及它们之间的关系。
同理,现在我告诉一个数字:175,你除了对175这个数字有比较确定的量化意义之外,也无法理解175具体代表了什么含义。但是如果是这样描述一下呢?
示例
这样是不是就很清楚了?175的意思是:2020年统计的全国成年男性平均身高,该值的合理阈值是80-260cm,数据目前存在MySQL中,访问连接是XXXX,由国家统计局的张三在2020年1月1日创建,数据目前是公开的,很安全,质量经过多重确认无误的。
在描述175这个数据,用了哪些描述项呢?单位、指标、统计时间、统计范围、合理阈值、数据库、表、字段、接口、创建人、创建时间、数据权限、质量等级等等。这些都是在描述175这个数据。我们把描述175这个数据的其他数据称之为“元数据”。
当然,为了管理方便,我们同样还能将上述元数据进行归类:
示例
业务元数据
与业务规则、流程相关的描述性数据,我们称之为业务元数据;
技术元数据
与存储、访问等技术底层的描述性数据,我们称之为技术元数据;
操作元数据
与数据操作相关的描述性数据,我们称之为操作元数据;
管理元数据
与数据管理相关的描述性数据,我们称之为管理元数据
主数据
主数据(Master Data)就是关于业务实体的数据。主数据是关键业务实体的最权威、最准确、价值最大的数据,用于建立交易闭环。
对于CRM客户管理系统来说,用户就是主数据;对于银行来说,卡bin码、开户行、账号、理财产品等都是主数据;对于生产企业,BOM表是主数据;对于二手房平台,房源信息是主数据。
贝壳的楼盘字典就是典型的主数据,他们从2008年开始建设,持续了12年,投入了5、6亿。
贝壳找房平台在这十三年内打造了房产行业先进的数据库“楼盘字典”,以“七级门址管理+少有坐标+433个字段”精准定义房源属性,描述包括房间门牌号、标准户型图、配套设施等多维信息,同时结合7*24小时房源验真系统,保障“真房源”的实现,贝壳找房平台全面提升用户体验和找房效率。
目前贝壳找房平台的“楼盘字典”已覆盖332座城市、57万个小区、累计2.4亿套住宅,成为全国覆盖面最广、描述颗粒度最细的不动产基础数据库,搭建起居住服务数字化的底层架构。
贝壳找房楼盘字典
所以总结一下,主数据一共有以下种类:
与人相关的:用户、客户、公民、病人、供应商、学生等;
与物相关的:实体产品、虚拟产品(理财产品)、生产资料(BOM表)等;
与场相关的:地址库、楼盘字典、POI信息等;
与规则相关的:财务的账套等。
在传统IT企业,甲方公司的主数据可以立一个千万级的项目。国内也有很多公司专门做主数据这个行当。主数据的核心思想是全局唯一的标准数据。因此,主数据一般会完成以下工作:
确定核心业务环节识别主数据定义和维护主数据匹配规则(代码规则、ID Mapping)建立及发布数据标准主数据的后续维护及更新。
商品主数据
用户主数据
……
参考数据
参考数据是增加数据可读性、可维护性以及后续应用的重要数据。参考数据是对数据的解释,针对一些数据范围和取值的数据解释, 让人们容易读取相关的数据。
比如,在一些数据里“性别”的这个字段,很可能是1代表男性、2代表女性。在许多企业中有这样的约定俗成,而更多的参考数据可能记录在开发人员和运营人员的大脑当中。但问题是一旦这些人离开,系统里面的数据就成了堆没有注释的天书。
参考数据约等同于数据字典。正是由于这些数据字典局仅限于个别系统而没有统一标准,从一个侧面间接造就了大量的数据孤岛。企业为了进行更有效率的数据整合、数据共享和数据分析应用,开始尝试对参考数据进行企业或者部层面的整合和管理,利用参考数据集记录系统尝试为范围内的IT系统中的数据库提供统的参考数据。
元数据与主数据的区别
元数据是关于数据的数据,当人们描述现实世界的现象时,就会产生抽象信息,这些抽象信息便可以看作是元数据,元数据主要用来描述数据的上下文信息。通俗的来讲,假若图书馆的每本书中的内容是数据的话,那么找到每本书的索引则是元数据,元数据之所以有其它方法无法比拟的优势,就在于它可以帮助人们更好的理解数据,发现和描述数据的来龙去脉,可以帮他们形成清晰直观的数据流图,元数据是数据管控的基本手段。
主数据则定义企业核心业务对象,如客户、产品、地址等,与交易流水信息不同,主数据一旦被记录到数据库中,需要经常对其进行维护,从而确保其时效性和准确性;主数据还包括关系数据,用以描述主数据之间的关系,如客户与产品的关系、产品与地域的关系、客户与客户的关系、产品与产品的关系等。
主数据跟元数据的关系,举个例子的话就像是一本书,主数据就是书里边的正文,实际有用的数据,元数据就是书的目录,是索引,方便你找到主数据的。
一般而言,企业中这三类数据与其它数据的数据量、质量需求,更新频率、数据生命周期的关系大致如下图:
分析类数据
维度
维度就是看待问题的角度,分析业务数据,从什么角度分析,就建立什么样的维度。所以维度就是要对数据进行分析时所用的一个量,比如你要分析产品销售情况,你可以选择按商品类别来进行分析,这就构成一个维度,把所有商品类别集合在一起,就构成了维度表。
度量
度量是业务流程节点上的一个数值。比如销量,价格,成本等等。
事实表中的度量可分为三类:完全可加,半可加,不可加
1.完全可加的度量是最灵活,最有用的,比如说销量,销售额等,可进行任意维度汇总;
2.半可加的度量可以对某些维度汇总,但不能对所有维度汇总,差额是常见的半可加度量,它除了时间维度外,可以跨所有维度进行加法操作;
3.还有一种是完全不可加的,例如:比率。对于这类非可加度量,一种好的方法是, 尽可能存储非可加度量的完全可加分量 ,并在计算出最终的非可加事实前,将这些分量汇总到最终的结果集中。
指标
指标是口径的衡量值,也就是最后的结果。比如最近七天的订单量,一个促销活动的购买转化率等。
一个指标具体到计算实施,主要有以下几部分组成:
指标加工逻辑,比如count ,sum, avg
维度,比如按部门、地域进行指标统计,对应sql中的group by
业务限定/修饰词,比如以不同的支付渠道来算对应的指标,微信支付的订单退款率,支付宝支付的订单退款率 。对应sql中的where。
除此之外,指标本身还可以衍生、派生出更多的指标,基于这些特点,可以将指标进行分类:
原子指标 :基本业务事实,没有业务限定、没有维度。比如订单表中的订单量、订单总金额都算原子指标;
业务方更关心的指标,是有实际业务含义,可以直接取数据的指标。比如店铺近1天订单支付金额就是一个派生指标,会被直接在产品上展示给商家看。
但是这个指标却不能直接从数仓的统一中间层里取数(因为没有现成的事实字段,数仓提供的一般都是大宽表)。需要有一个桥梁连接数仓中间层和业务方的指标需求,于是便有了派生指标
派生指标: 维度+修饰词+原子指标 。店铺近1天订单支付金额中店铺是维度,近1天是一个时间类型的修饰词,支付金额是一个原子指标;
维度:观察各项指标的角度;
修饰词:维度的一个或某些值,比如维度性别下,男和女就是2种修饰词。
衍生指标 :比如某一个促销活动的转化率就是衍生指标,因为需要 促销投放人数指标 和 促销订单数指标 进行计算得出。