导图社区 数据仓库
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合,本脑图从数据仓库的系统框架设计、多维度分析技术、数据预处理技术以及银行数仓建设重点等角度进行梳理,帮助理解数据仓库的内涵及建设意义。
本思维导图系统性梳理企业并购与重组基本概念与关键要点,介绍了并购重组几种特征模式,要点梳理,结构清晰,非常值得学习!
近几十年来国际知名金融风险案例,简述事件过程与得到的经验教训,有需要的朋友赶紧收藏吧!
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
数据仓库
数据预处理
数据质量评估标准
准确性
完整性
一致性
时效性
可信性
可解释性
数据预处理技术
1.数据清理
目的:
解决数据的错误和不一致问题
格式标准化、异常数据的发现与处理、数据纠错、重复数据的发现和清除
缺失值处理
(1)忽略元组
(2)人工填写缺失值
(3)使用统一常量填充
(4)使用属性平均值填充
(5)使用分组之后的样本属性平均值
(6)使用最有可能的值填充
噪声数据处理
(1)分箱
(2)聚类
(3)计算机和人工检查相结合
(4)回归
2.数据集成
目的:整合来自多个数据源的数据
3.数据规约
目的:得到数据更加精确的表达
数据规约策略
(1)数据立方聚集
(2)维规约
小波变换
主成分分析
(3)数据压缩
无损压缩
有损压缩
(4)数值压缩
4.数据变化
是对数据进行规范化、离散化和概念分层而进行的操作
数据变换方式
(1)聚集:对数据进行汇总和聚集
(2)数据泛化:从相对低的概念层抽象到较高概念层的过程
(3)规范化
(4)属性构造/特征衍生
数据治理
建立一个完整的数据治理体系,需要从制度、标准、监控、流程等几个方面提升数据信息管理能力,以解决以下问题
数据标准
对数据平台业务的支持,需要规范化
数据管控制度
流程规范文档
信息项定义
元数据管理
进行数据影响、脉络化分析,实现对数据间流转、依赖关系的影响和血缘分析
数据质量
数据质量要求可度量,需要全方位管理数据平台的数据质量,实现可以定义的数据质量检核和维度分析,以及问题跟踪
数据服务
为数据平台提供面向业务用户和应用开发者的服务沟通渠道
数据仓库多维度分析技术
数据仓库基本概念
基本定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理中的决策制定
数据仓库技术特点
面向主题(subject oriented)
主题,是指分析、决策的目标与要求,是决策者根据工作需要提出的,最终落实为决策者服务
面向主题,是指数据仓库中的数据要哪找主题的要求组织
适用于银行的主题一般包括
当事人
内部机构
产品
协议
事件
地址
渠道
营销
财务
客户资产
集成(integrated)
通常是数据仓库建设作为复杂也是最为关键的一步
分析和决策需要大量的数据,以便于分析、比较和鉴别。
多个数据来源之间的数据存在大量重复和不一致的情形,只有通过系统加工和清洗,才能进行下一步的整合
相对稳定(non-volatile)
数据进入仓库之后,还需要相对稳定地长期保存,是保证决策正确的基础条件
数据库操作多为查询,修改和删除很少
反映历史变化(Time Variant)
数据仓库纪要存放体现历史的时间状态的数据信息,也要以一定的事件单为单位进行阶段式保存
联机分析(OLAP)
1.基本定义:是指使用多维信息,针对特定问题的联机数据进行访问、分析和验证的软件技术
2.基本概念
(1)维度
(2)维的层次
(3)维成员
(4)度量
(5)多维数据集合
(6)数据单元
3.技术特点
(1)快速性
(2)可分析性
(3)多维性
(4)信息性
数据仓库系统框架设计
数据仓库计划与准备
1.用户需求分析
2.可行性分析
技术可行性
经济可行性
操作可行性
3.建设的协调与阻力分析
4.项目开发计划的制定
(1)“做什么”
解决数据仓库建设的任务划分
(2)“怎么做”
对数据仓库建设的任务描述及进度规划
(3)“需要什么”
各项关键资源的调用与安排:人员、硬件、软件
数据仓库数据架构
1.数据流向
贴源层:源系统数据加载
主题层:通过数据加工将详细历史数据、客户信息、账户信息、交易数据等按照主题进行存储
汇总层:定期按照账户信息和客户信息进行汇总
应用层:最后形成应用分析所需的数据进行存储
2.数据模型
随着数据仓库建设的积累,需要形成符合特性的成熟数据仓库数据模型
3.数据标准
数据映射
执行规则
4.数据质量
(1)定义及初始度量
(2)分析及发现错误
(3)查找问题根源
(4)解决质量问题
(5)监控改进过程
5.数据管控
统一数据管理体系框架
6.数据保留策略和容量
业务分析需求
监管需求
基于历史数据为客户提供额外服务的需求
多重粒度的数据仓库数据组织架构
粒度的合理与否直接影响存放数据仓库中的数据量大小,以及数据仓库能处理的查询类型
粒度是衡量数据仓库中综合程度高低的一个关键度量
粒度越大,表示数据的细节程度越低,综合程度越高
粒度越小,表示数据的细节程度越高,综合程度越低
数据仓库的体系架构
决定基本功能和扩展能力
1.自下而上及自下而上是体系结构
自上而下结构:
优点:集中、统一和规范
缺点:需要一次性完成,周期长、费用高;可能存在推到重构的风险
自下而上结构:先建设独立发展的数据集市,在此技术上构建数据仓库
2.单纯数据仓库体系结构
结构简单,从数据源系统取数经转化后加载进入数据仓库,然后直接通过数据仓库提供给前端数据应用
3.单纯数据集市体系结构
全局范围的数据仓库并不存在,数据处理应用需要连接一个或多个数据集市进行数据的调用
数据仓库的一种中间形态
4.虚拟数据仓库体系结构
数据处理应用连接的统一数据源只是中介层,包含存取数据和集成数据的规则和手段,并未数据仓库的用户提供虚拟的数据仓库视图
数据集成仅发生在用户请求查询数据时;实施要求高
银行数据仓库建设要点
(1)数据仓库系统必须首先满足总部和各地分支行对数据存储、查询、统计、分析等一些列要求
(2)数据仓库建设的同时,需要构建统一的数据源和统一的架构
重视元数据的管理和统一发布
重视标准统一、口径一致的业务员指标规范建设
建立数据检验机制,不断提升数据质量,全方位加强数据治理
(3)考虑业务的不断增长,数据仓库建设方案必须具有可扩展性
(4)银行业务对于可用性要求极高,业务信息系统不能轻易停机