导图社区 深港澳金融科技师一级考试-大数据通识笔记
深港澳金融科技师一级考试-大数据通识笔记
编辑于2022-03-05 22:17:01大数据通识
一、概述
大数据技术时代的来临
人类信息文明发展
第一次浪潮=1980年-个人计算机-信息处理
第二次浪潮=1995年-互联网-信息传输
第三次浪潮=2010年-物联网、云计算、大数据-信息挖掘
基础技术得到发展
储存介质和模式不断发展
CPU大幅提升
网络宽带增加
数据产生方式重大变革
运营系统阶段
用户原创阶段
web2.0
感知系统阶段
传感器、摄像头
大数据发展历程
萌芽
20世纪90年代-21世纪初
突破
2000-2005
成熟
2006-2009
大规模应用-2010至今
大数据技术概念
大数据的特征
数据量大volume
数据类型繁多variety
数据处理快velocity
价值密度低value
大数据主要类型
结构化
sql server/Oracle/MySQL/DB2
半结构化
XML/JSON
非结构化
大数据技术影响
大数据对科学研究方法的影响
吉姆格雷博士:科学方法的革命
实验归纳
模型推演
仿真模拟
数据密集型科学发现
大数据对思维方式的影响
样本思维向总体思维转变
精准性向效率转变
最求因果关系向最求相关关系转变
大数据对社会发展的影响
基于大数据的决策成为一种新的决策方式
大数据促进信息技术于各行业的深度融合
基于大数据的应用,推动新技术和新模式的不断涌现
大数据技术
大数据技术框架
数据预处理
数据清理、数据集成、数据归纳、数据转化
数据储存
分布式文件和储存、非关系型数据库等系统
计算处理
批处理、流处理、混合处理、交互分析、图计算
数据分析
统计分析、机器学习、数据挖掘、人工智能
数据呈现
数据可视化
业务场景应用
大数据储存管理技术
大数据分布式和并行计算
大数据分析技术
可视化分析技术
数据挖掘算法
语义引擎
大数据产业链及应用
大数据产业链
基础设施供应商
数据资源供应商
分析技术供应商
业务应用供应商
大数据的具体应用
大数据与云计算、物联网的关系
云计算
技术设施即服务IaaS
平台即服务PaaS
软件即服务SaaS
云计算的关键技术
虚拟化
分布式储存技术
海量数据管理技术
云安全
物联网
感知层
RFID网络、传感器网络
网络层
电信网络、互联网、电网、专用网
处理层
服务支撑平台、网络管理平台、信息处理平台、信息安全平台
应用层
智能交互、智能家居、智能工业、智能医疗
大数据与云计算、物联网的关系
二、处理架构
批处理框架
简介
特征
有界
持久
大量
Hadoop(典型的批处理框架
HDFS
HBase
Hadoop简介
有雅虎工程师DOUG CUTTING 和MIKE CAFARELLA,2005年合作开发
特性
高健壮和可靠性
高弹性和高效性
便利和低成本
生态系统
HDFS
MapReduce
YARN
Pig
Mahout
Amabari
Oozie
应用
流处理框架
框架
Apache storm
spark streaming
apache kafka
apache samza
apache flnk
apache S4
处理流程
数据实时采集
实时计算
实时查询服务
应用
物联网应用
在线金融交易系统
互联网应用
工业生产线
医疗护理
混合处理框架
比较以上框架
三、储存与管理
分布式文件系统
系统概念
通用的模式为客户机/服务器
系统的架构
主节点和从节点构成、副本设置
设计的需求
透明性、可伸缩性、并发控制、安全性为系统初衷
CAP consistency availability partition tolerance 为设计的最基础,关键理论
常见的分布式文件系统
GFS-google file system
HDFS hadoop distributed file system
TFS taobao file system
HDFS
设计目标
面向海量数据集
兼容兼价硬件
实现流式数据访问
具有跨平台兼容性
局限性
不适合低延迟数据读取
不适合存取大量小文件
不支持并发写入和文件随意修改
主要概念
数据块
名称节点
数据节点
第二数据节点
储存原理
单个文件被分为固定大小的若干块,采用多副本存储方式
具有速度快、数据错误检查容易、数据可靠性的优点
HBASE(Hadoop Database)
列储存模式
高可靠性、高性能、可伸缩性
适合非结构化、半结构化
数据模型
表
行健
列族
列限定符
单元格
时间戳
体系架构
zookeeper服务器
HMaster主服务器
Region服务器
Client客户端
NoSQL数据库(NOT ONLY SQL)
较好支持结构化数据存取、查询、更新、管理
灵活的可扩张性
灵活的数据模型
与云计算紧密结合
与关系型数据库的比较
无法满足海量数据管理需求
无法满足数据高并发需求
无法满足高可扩张性和高可用性需求
类型
健值数据库
列族数据库
文档数据库
图形数据库
云数据库
特点
超大规模
虚拟化
通用性
优点
动态可扩展性
高可用性
低成本
运行简单
架构
存储层
基础管理层
应用接口层
访问层
应用场景
大型web应用
数据分析业务
数据库迁移
数据异地容灾
读写分离场景
多结构大数据存储
大数据计算
云数据产品
亚马逊云数据产品库
谷歌云数据产品库
阿里云关系型数据库
四、大数据处理与分析
Hadoop MapReduce
两个重要组件:HDFS:储存 Mapreduce:计算
概述
面向海量数据
易于编程、开发简单
良好的可扩张性
高容错性
架构
client
jobtracker
tasktracker
task
map task
reduce task
三个阶段
shuffle
sort
reduce
应用场景
文档中单词统计
数据统计
搜索引擎建立索引
复杂数据分析实现
不适合场景
实时计算
流式计算n
DAG计算
Apache Spark
简介特点
快速处理能力
易于使用
通用性强
可用性高
生态系统
被称为伯克利数据分析栈(BDAS)
结构
spark core
spark SQL
spark streaming
blinkBD
MLib
GraphX
架构
基本概念
基本架构
cluster manager
worker
executor
driver app
工作流程
Apache Storm
简介,主要特点
易用性
开源软件框架
完整性
可扩展性
容错性
概念
消息流streams
计算拓扑topology
持续不断的处理数据流
获取消息源的组件spout
topology消息生产者
消息处理着bolt
拓扑的第二种节点
任务task
工作者worker
框架及组件(架构)
nimbus守户进程
supervisor守户进程
Apache Zookeeper
图计算
概述
图的定义
图的储存
图的遍历与常用算法
pagerank算法
最短路径算法
社交分析算法
推荐算法
HCGraph算法
框架
计算解决方案的缺陷
内存访问效率差
单个顶点的处理工作过少
计算过程常常发生改变
解决方案
针对图应用业务开发相应的分布式图计算框架模型
拓展图计算的组件和框架
扩张超大图数据的并行图算法
常见的图计算框架
单机内存图处理系统
2013年的ligra、galois,2015年的graphmat、polymer
单机核外图处理系统
graphchi/turbograph/x-stream/pathgraph/gridgraph/flashgraph
分布式内存图处理系统
powerswitch、praphlab、graphX
分布式核外图处理系统
chaos
应用场景
医疗行业应用
金融行业
互联网行业
子主题
pregel简介
局部计算
通信
栅栏同步
pregel图计算模型
有向图的顶点
顶点之间的消息传递
pregel的计算过程
子主题
数据可视化
概述
可视化工具
入门级工具
excel
在线数据可视化工具
google chart API
D3
互动图形用户界面GUI控制
地图工具
modest maps
leaflet
polymaps
编程进阶
专家级工具
R,属于GNU系统的开源软件
Weka,基于java的开源软件
五、金融治理与创新
金融数据治理
提供数据价值和真实性,包括数据可信性、来源和信誉、有效性和可审计性
现代金融业数据治理新趋势
问题:专业化程度不够、金融数据孤岛、行业内数据割裂
不同机构间进行生态协同合作治理
金融数据治理趋向标准化
金融数据实时中台治理,快速响应市场需求变化
大数据助力资产数据化、数据资产化
资产数据化、数据资产化实现需要大数据技术支持,主要体现:
在内部合规端数据治理进行科技化和自动化
金融数据建模
风控手段
客户画像
外部监管科技化和自动化
数据报送平台
推动金融产品和服务创新
应用场景
前台(营销),中台(风控),后台(分析)
应用创新
分为三个阶段
数据聚合和分析应用
优势1:数据分析能力提升
优势2:数据库无限拓展,有效控制成本
实时分析和智能决策阶段
人工智能应用阶段
金融新业态
先天优势和挑战
金融机构的沉淀数据已显大数据特征
拥有处理速度高速性
保证数据一致性,完整性,可用性
发展瓶颈
整体的数据资产管理水平不足
运用过程中需要不断突破原有技术框架,开拓业务领域
安全规范仍待提高
个人隐私、数据安全,风险传染
培养复合型人才是金融数据行业重中之重
发展建议
加快数字资产管理
子主题
大数据金融运营模式
运营模式
平台金融
优势1:庞大数据库,解决征信审核、风控、降低坏账
优势2:获得持续稳定客源
优势3:解决长尾客户信息不对称,加快贷款流程
供应链金融
满足供应链企业资金短缺
产业链上企业风险评估,扩大服务
运营四环节
连接
数字化
创新体验
数据洞察
打造普惠金融新业态
新:新技术、新产品、新业态、新模式
大数据金融整合过程
数据整合
平台整合
应用整合
大数据精准匹配赋予普惠金融特点
低成本
高效率
个性化
瓶颈:征信不足
大数据征信风控
精准的数据分析确保风控
纵横型+点线面多方位数据筛查
完善征信供应链
推动金融业数字化转型
发展趋势:金融数字化包括
基础设施数字化
金融市场智能化
金融数据数字化
资产数字化
数字证券化
发展引擎
大数据推动监管科技的重要手段
方面1:同时获取机构间。行业间、各个周期及各类市场数据,监管跨时空、跨区域传染特点
方面2:把握市场运行规律和风险传递,提高监管效率
方面3:保障监管科技决策时效性
落实到穿透式监管和可视化检测
六、金融机构转型
商业银行数字化转型
大数据技术推动银行战略转型
驱动银行战略转型
已有数据经营和挖掘
数据价值互联共享
经营理念多元包容
以产品为中心向以客户为中心转变
人才战略转型
以人为本
绩效考核+人力资源更加透明,多样化
机构扁平化
扁平化设置
保证前中后台信息通畅,运营高效
重塑总-分-支框架结构
大数据技术逐渐拓客银行服务渠道
重设网点布局
驱动金融服务渠道拓宽
驱动金融渠道线上线下的融合发展
线上交易,线下营销服务
驱动渠道合作多元化融合
倒闭银行服务技术革新
提升银行风控能力
风险评价和审批做到贷中防控风险
实现线上审批为主,线下审批为辅
数据来源依据不同
授信审批模型变异概率大
驱动银行营销精准化
精准营销过程
客户画像描绘
扩张目标受众
个性化投放
保险机构转型升级
大数据与保险营销
保险活动包括
需求调查
市场细分
险种组合设计
渠道比较,促销策略等
大数据与保险市场细分及精准定向营销
通过累计行为数据、意图数据、情绪数据等
客户管理
客户流失数据管理
大数据与保险服务
保险服务中的再次营销
保险索赔
通过信息共享平台(例如交通管理、医院合作等)提高赔付效率
避免保险欺诈
海量数据专业化挖掘分析,建立保险欺诈模型
大数据与保险风险管理
提高风险管理能力
大数据避免系统性风险
提高风险监测能力
大数据与保险监管
推动保险监管机制现代化
推动监管手段现代化
相关部门联动配套措施
完善健全配套监管机制
加快信息共享,重视数据安全
重视数据专业人才培养
技术与证券
发展概述
2015年7月
支持大数据
国务院
《国务院关于积极推进“互联网+”行动指导意见》
2015年7月
支持大数据市场监督
国务院办公厅
《关于运用大数据加强市场主体服务和监管的若刚意见》
2018年5月
金融大数据
银行保险监督管理委员会
《银行业金融机构数据治理指引》
证券市场应用
大数据时代下的客户关系管理
证券公司的数据价值
证券公司咨询服务
证券市场监督
大数据对证券监督制度的影响
监管对象发生转变
信息收集发生转变
工作中心转向数据分析
证券监督部门应当采取调整措施
有利于扭转监管滞后性
利用大数据技术设计规避不利影响
概要
重视对监管制度观念改变
重视大数据立法
强化事中监管,动态监控
信托数据化转型
大数据技术适合信托产品个性化设计
改变信托机构服务模式
精准营销
特殊客群个性化设计
拓客信托销售渠道
提升信托风险管控能力
证券投资基金
发展概况
助推证券投资基金产品创新
保罗 赫丁-第一个用大数据技术成功开发基金产品的人-对冲基金
优化证券投资基金资产配置
提效证券投资基金风险管理体系
应用
被动型大数据基金
跟中指数的投资基金
主动型大数据基金
指导投资决策
风险与绩效分析
被动型具备一定选股能力,但缺乏市场时机把握
主动型择时优
七、金融产品创新
银行贷款领域创新
贷款领域创新应用
产品开发应用
利用金融机构内部数据可开发出基于传统业务的新贷款产品
POS贷
利用外部数据衍生出新的贷款产品
工行税易贷
客户准入应用
贷款催收应用
有利于失联客户信息重建
根据数据分析差异化催收手段
贷款领域的难点
数据库需进一步完善
贷款评估模型需进一步完善
导致个人信息泄露和征信不良
对供应链金融的影响和风险
供应链金融的现状和瓶颈
“链主”无法定位优质公司
授信对象局限性
对供应链金融的影响
加强资信评估和贷款方风控管理
各类日常活动数据
从上下游分析企业
提供个性化金融贷款服务
降低贷前和贷后管理成本
供应链金融存在的内外部风险
外部风险
系统性风险
宏观经济周期、行业周期
内部风险
上下游违约成本低,容易延缓或违约
交易背景真实性
大数据管理的运营风险
出现数据错乱等
票据市场的创新应用
助力票据融资问题
助推票据业务风控与信用评级的发展
征信业务的发展
大数据征信技术形成和应用发展
大数据有助于建立新型信用模型
拓宽传统征信路径
机构间数据互通大大增加
目前我国大数据征信存在的问题
数据质量有待提升,信息共享有待加强
数据安全,私隐保护
相较于发达国家。我国征信普及率低
保险领域的产品创新应用
定价应用
开拓新产品
实现产品精准化定价和个性化定价
高效理赔和风险防控
高效理赔
通过模型,数据库收缩,异常报告等
风险防控
核保环节信息互联,提高便捷性
识别诈骗
赋能金融交易投资领域
助力财富管理智能化
实现过程
客户定位
资产配置
投资组合平衡
产品推荐
应用于财富管理的优势
消除信息不对称
压缩成本,提高资产配置效率
提供个性化金融服务
面临的挑战
数据采集和数据源开拓
技术融合
缺乏数据处理,分析引擎,数据技术
市场情绪与行情预测的应用
实现过程
采集社交平台网络大数据
捕捉市场情绪,关键词,相关指标
与情绪状态量表统计市场看涨看跌
助力市场行情预测
例:社交平台感知市场情绪,进行数据化,以此作为投资
面临挑战
市场情绪并非完全有效
我国市场情绪分析方面有待提高
助力防控交易风险
实现过程
电子设备监控
验证码
知识体系层面
只是工程
模型
风控系统层面
大数据智能风控优势
全维度、多视角精准画像
底层技术强大,应用场景丰富
依托智能风控,实现自动化管理
面临挑战
数据孤岛问题严重,准确性不足
行业数据没打通
数据滥用,泄露私隐
资金数据分部不对称
八、融合技术的新金融业态
物联网-无限延伸的数据源
物联网时代的发展
物联网的理解
四大特点
物业互联,实现物体数字化
智能化,可交互,可识别
感知,采集的基础上,响应,控制,实现感知交互特点
提供物物互联新型信息化服务
5G阻力物联网发展
物联网各层次与大数据互联
层次结构与数据分类
感知层
网络层
应用层
物联网平台
链接/M2M平台
终端设备间互联
专用特定硬件设备软件平台
客户/企业软件扩展
大数据融合物联网在金融业的应用
银行领域
获客
内控和管理
抵质押融资业务
保险
云计算-承载大数据平台
大数据融合云计算技术发展
人工智能-数据练就利器
大数据与人工智能的关系:算法和数据是人工智能的核心
大数据融合人工智能技术的发展
从软件到硬件,从云端到边缘
大数据与人工智能技术相互推动发展
人工智能算法抓取数据,数据抓取人工智能数据
大数据融合人工智能技术在金融领域应用
辅助投资决策
区块链-公允信用的数据记录
区块链的理解
区块链与大数据的联系
数据权属问题
数据安全
数据定价
数据支付
区块链技术的发展
去中心化的分布式记账
智能合约
大数据融合区块链在金融业的应用
银行
取代纸质
便捷、智能化
智能合约风险控制
九、大湾区金融融合发展
发展展望
加大金融创新力度
构建开放型区域协同创新共同体
打造科技创新载体和平台
优化区域创新环境
推动金融科技发展
2004.6
泛珠三角区域合作框架协议
2016.3
国务院关于深化泛珠三角区域合作的知道意见
2017.6
内地与香港CEPA服务经济技术合作协议
2017.7
深化粤港澳合作推进大湾区建设框架协议
2019.2
粤港澳大湾区发展规划纲要
2019.8
关于支持深圳建设中国特设社会主义先行示范区的意见
加强金融风险监控
探索大湾区金融监管协调机制
强化科技在金融风险监管的作用
推动粤港澳三地金融科技监管互补合作
促进大湾区金融监管和金融创新的差异性融合
推进金融融合发展
账户体系建设
在NRA基础上创新
支付体系建设
完善人民币跨境支付系统-CIPS
信用体系建设
交易所互通建设
建设跨境金融合作示范区
助力大湾区金融发展
助力大湾区内地金融转型升级
大数据助力广州发展现代金融服务体系
大数据助力深圳提高金融业运行效率
大数据助力广东七市发展特色金融
大数据助力大湾区跨境金融发展
跨境金融业务创新
金融跨境合作
金融基础设施互联互通
加强金融监管合作
推动支付系统互联互通
助力金融市场互联互通
助力跨境金融风险监控
主题
主题