导图社区 大数据发展现状及趋势-中国信通院2022年
本书聚焦过去一年来大数据领域不断涌现的新技术、新模式、新业态,分析总结全球和我国大数据发展的总体态势,并重点针对数据存储与计算、数据管理、数据流通、数据应用、数据安全五大核心 领域,逐一分析、探讨其发展现状、特征、问题和趋势,最后对我国大数据未来发展进行展望与研判。
编辑于2023-05-05 15:02:51 浙江省大数据白皮书(2022年)-中国信通院
一、大数据发展总体态势
(一)、各国神话推进自身发数据战略
美欧、韩日、澳洲通过政、法案、设立机构等形式持续深化推进自身发数据战略
美欧发布法案,确保数据价值在隐私保护的前提下释放
韩日设置专门机构,推进各行业数字化转型
澳洲发布国家数据安全战略,开始构建国家数据安全框架
中国也在政策、人才、资金等方面持续加码
(二)、我国大数据发展态势好动力足
一是产业规模高速增长
2021年,我国大数据产业规模增加到1.3万亿,复合增长率超过30%
二是创新能力不断增强
2021年我国发表大数据领域论文两站全球31%,大数据相关专利受理总数占全球超50%,均位居第一
三是生态体系持续优化
2021年我国大数据市场主体总量超18万家
四是市场前景广受认可
2021年大数据相关企业获投总金额超800亿元
我国在政策、人才、资金等方面持续加码
政策方面,中央、地方发布一系列支持文件,对大数据产业、数字技术、数据要素市场、数据安全等方面进行了重点部署
人才方面,过半“双一流”高校设立大数据相关专业,多省份积极开展人才培育专项行动,人才供给能力显著增强。
资金方面,多省份通过设立专项资金或采取税收优惠政策等方式,对大数据企业、应用进行定向扶持和培育
(三)、五大核心领域发展方向进一步明确
大数据领域内部逐渐细化,形成数据存储与计算、数据管理、数据流通、数据应用、数据安全五大核心领域
数据存储与计算
实现海量数据的高效存储与计算。本领域发展时间长,在数据规模增长、形态变化等新需求持续推动下,逐步演化出数据库、大数据平台、实时计算等成熟技术框架。当前,数据存储与计算领域已经能够支撑PB级海量数据的高效存储和准实时计算,发展方向聚焦为在持续提升能力基础上,通过精细化运营和技术升级实现“降本提质”。
数据管理
实现数据质量提升、管理高效。本领域属于投入周期长、见效慢的“下水道”型工作。当前,部分企业数据管理需求强、资源足,已将数据管理的技术和规则率先落地,但大部分企业数据管理仍处于起步阶段。数据管理的发展方向聚焦为尽快借助政策红利和智能技术带来的改变,促进各行业大规模实现全域数据管理。
数据流通
实现数据再不同主题间合理配置,使局部数据互相弥合,实现数据价值倍增。本领域需求旺盛、发展时间短,当前已初步探索出机构与机构间点对点的流通路径,但数据权属、定价、市场规则等关键性问题仍有待破解。为助力数据要素高效配置,数据流通的发展方向聚焦为通过建设基础制度、创新流通技术,实现数据流通过程中安全与效率的平衡,从而构建全社会范围数据规范化流通
数据应用
实现数据为企业业务经营过程赋能。本领域虽然发展时间长,但受限于数据管理等前序工作成熟度不够,目前仅部分核心业务被数据浅度赋能。为释放数据要素深度价值,数据应用的发展方向聚焦为通过变革业务模式、优化相关技术,使数据应用与全域业务深度融合。
数据安全
确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。特别是近两年数据安全一些法律法规发布后,本领域得到快速发展,各行业在数据外规内化、风险治理等方面推进步伐明显加快。当前,数据安全的发展方向进一步聚焦为兼顾安全与效率,从而实现安全左移的自动化与风险治理的智能化。
数据源通过数据存储与计算实现压缩存储和初步加工,通过数据管理提升质量,通过数据流通配置给其它相关主体,通过数据应用直接释放价值,并由数据安全技术进行全过 程的安全保障
二、数据存储与计算:通过深度优化实现提质增效
(一)、数据存储与计算发展历久弥新
技术方案,经过60余年发展,数据存储与计算领域总体技术框架区域成熟,进入深度优化阶段
已经形成了以分布式数据库、数据仓库、批处理平台、流处理平台为代表的总体技 术框架,并广泛应用,已能够支撑具有高并发、低延迟数据处理分析需求的极端场景
在技术能力已相对成熟的基础上,以云化、湖仓一体为代表的深度优化理念 不断涌现,并逐步应用
产业方面,全球疫情加速了数字化转型进程,数据存储与计算领域的产业发展前景持续向好
Snowflake 2022年第三季度营收与去年同期相比上涨67%
2021上半年我国大数据平台市场规模达54.2亿,同比增长43.5%
2021年我国数据库市场规模预计达305.78亿,同比增长26.93%
2022年我国大数据基础软件第一股形换课件成功上市科创板
建设运维方面,数据存储与计算建设持续深入,安全稳定运行成为关注焦点
(二)、当前数据存储与计算发展呈现三大特点
1、云化改造全面加速
数据存储与计算技术持续与云融合,资源利用率进一步提升
利用云原生理念,数据存储与计算一方面实现存储、计算、调度、安全、分析等模块的进一步解耦,各模块与容器等底层资源单元相适配,实现弹性扩缩容,从而使得资源利用率提升 30%~40%;另一方面实现应用接口函数化,即利用 Serverless 的理念,将更多如统计、机器学习、流程处理等能力封装成函数接口,实现更细粒度的按需使用和付费,在提升 2~3 倍发布效率的同时,有效降低成本
2、融合一体化持续加深
批流一体、湖仓一体、HTAP等融合架构不断降低运维成本
数据中间件技术为计算层与异构存储层搭建桥梁,提升整体运行效率,进一步加速数据平台融合一体化
3、安全能力快速补强
数据存储与计算面临着新型安全挑战,内生安全政成为传统防护的重要补充
1、随着自身规模不断庞大,数据存储与计算技术平台的边界不断延伸,网络安全防护体系随之指数级膨胀,容易出现盲点、漏点
2、伴随数据开发利用的深化,数据存储与计算技术平台中的额关键数据与其他系统将进行高频的互联互通,安全和效率难以均衡
3、数据存储与计算技术平台的技术组件60%以上基于开源技术,容易遭遇0day共计
4、数据存储与计算技术平台中数据集中存储,但操作人员类型多,数量多,变更多,操作频次高,存在数据泄露风险
(三)、数据存储与计算面临的主要挑战与发展趋势
两大挑战
1、数据存储与计算技术平台建设运营成本仍需控制
2、促进数据要素市场化的数据存储与计算技术创新仍需加强
三点趋势
1、技术与管理双管齐下,探索数据存储与计算技术平台精细化运营之路
技术方面,核心计算、存储等模块尝试与 AI 结合, 通过智能资源调度、智能数据分层存储等,实现精细化运营;
管理方面,探索公司内部成本分摊方式,从而避免业务部门无成本观念式使 用数据存储与计算技术平台,例如技术部门向业务部门售卖资源模式、 按业务部门使用量计费模式等。
据 Wikibon 研究,全球范围内企业数据存储与计算技术平台的平均投资回报率仅为 55%,46%的企业数据存储与计算技术平台未达到预期价值
2、数据编织(Data Fabric)、全密态数据库等新理念新技术不断成熟,为数据的要素价值释放提供更强力的技术底座
数据要素市场形成涉及数据权属、定价、安全保护等一系列问题,传统数据存储 与计算技术重点关注计算、存储效率,未解决数据要素市场面临的问题
Data Fabric 基于主动型元数据、增强数据目录、数据虚拟化等技术,形成了一套分布式、自动化、智能化的新型数据管理形式
全密态数据库使数据在传输、计算以及存储的各个环节始终都处于密文状态,从而解决数据全生命周期的隐私保护问题,提供数据要素安全保护的能力
3、我国数据存储与计算领域技术和产品将逐步走向海外市场
三、数据管理:在政策引领下规模化落地
(一)、政策驱动行业实践日益成熟
行业、地方大力推动数据管理能力成熟度评估模型DCMM,通过以评促建的方式提升数据管理能力
通信业、银行业、电力业数据管理能力相对领先,逐渐迈入深水区
以上 3 个行业 DCMM 评分普遍在 3 级以上,通信业 4 级占比超过了 60%,银行业 3 级占比接近 70%,电力业 3 级和 4 级累计占比达到 85%
软件和信息技术业、制造业数据管理能力相对薄弱
以上两个行业集中于 2 级和 3 级,同时 2 级比例远高于 3 级,其中软件和信息技术业的 2 级占比是 3 级 2 倍以上,累计占比达到 97%,制造业的 2 级占比接近 3 级的 5 倍,累计占比达到 98%
(二)、当前数据管理发展呈现四大特点
1、通过成立专职团队增强数据管理执行效率
2、通过发布独立规划推动数据管理精准开展
3、通过开展专项行动进一步提升数据供给质量
4、通过统一技术平台消除数据管理协同难点
(三)、数据管理面临的主要挑战与发展趋势
三点挑战
一是数据的业务价值不显著,数据管理内驱动力不足
推动业务创新和发展是数据价值的最终目标,由于企业缺乏对数据产生业务价值进行度量的体系,导致企业决策层、管理层和业务部门难以对数据价值有效感知,进一步降低了企业持续开展数据管理的动力
二是数据、IT和业务仍存在割裂,组织架构亟需变革调整
尽管越来越多的企业成立专门的数据管理团队,但是尚未明确数据管理团队与 IT 团队、业务团队的协作机制,导致数据管理与企业信息化建设和业务发展脱节,阻碍了数据管理成果在企业系统和业务场景的落地
三是数据管理人才缺失,数据管理推进后劲不足
由于数据管理是一个新兴领域,有别于传统的数据库和计算机领域,需要的是具备管理能力、技术能力和业务能力的复合型人才,因此面临较大缺口
三点趋势
一是首席数据官CDO制度将助力企业全面开展数据管理
CDO 是有效管理和运用企业数据资源、充分挖掘数据价值、驱动业务创新和转型变革的企业负责人,负责为公司制定一个明确的数字化战略,确保相关举措都获得资源分配,并通过衡量数字项目投资回报率的方式,提高客户参与度和忠诚度,推动企业形成 数据管理良性闭环
二是数据研发运营一体化DataOps将有效提升数据管理协同效率
DataOps旨在打破数据管理各环节之间的割裂,将数据质量达标率、数据标准落标率、数据架构符合度、数据安全满足度等指标作为数据设计、开发和测试的要求,优化数据生产者和数据消费者协作效率,并通过标准化大数据组件,构建一体化平台打通数据设计、开发、测试和运维各环节,实现编写代码、生产部署、调度监控全过程线上化,引入可视化编排、CI/CD 等技术降低数据研发技术门槛,推动敏态数据研发, 提高数据运维质量
三是提高智能化程度将成为降低数据管理成本的关键
通过利用AI、ML、RPA、语义分析、可视化等技术,自动识别或匹配数据规则(包括数据标准规则、数据质量规则、数据安全规则等),自动执行数据规则校验,自动发现数据之间的关联关系,并以可视化的方式展现
四、数据流通:流通规范体系加速构建
(一)、数据流通发展重心向“规范化”转移
数据流通是释放数据要素价值的关键一环
一方面,数据具有外部性,即同一组数据可以在不同的维度上产生不同的价值和效用
另一方面,数据存在分布不均衡的问题
数据流通随商业信息分析需求增强而日益旺盛,合规性逐渐引起关注
制度创新和技术创新双轮驱动数据流通行业实现“规范化发展”
(二)、当前数据流通发展呈现四大特点
1、数据流通规则逐渐清晰
数据流通存在技术依赖、非标准化的特点
政策清单
2、流通参与热情高涨,供需对接向多行业扩展
金融、互联网行业的流通实践不断深化
其他各类传统行业也在不断探索参与数据流通
工业领域中,数字化转型刚刚起步,还需经历产线内数据联动、工厂内数据协同、企业内数据共享、企业间数据流通等多阶段探索
3、安全流通技术重要性凸显
数据脱敏与数据合成技术主要作用于数据流通的输入阶段,能够有效降低原始数据中包含的隐私信息泄露风险
隐私计算作用在数据流通的输入、计算、输出阶段,实现了全流程的数据“可用不可见”、“可控可计量”
区块链为数据流通中的验证、追溯、审计提供了有效保障
4、数据流通产品形态逐渐向个性化定制方向转变
(三)、数据流通面临的主要挑战与发展趋势
4点挑战
1、数据权属界定的场景与问题复杂,对于参与数据流通的主体权利关系,理论、制度和产业实践层面均尚未形成共识
2、三个月后的估值定价尚缺乏科学、标准的评价方法,传统估值定价方法很难完全适用于数据流程的特点
3、数据流通的准入、竞争等行为约束没有清晰的法律界定,配套的激励和监管规则也不完善,相关市场主体顾虑很多、动力不足
4、隐私计算等数据流通关键技术应用还不成熟,数据安全流通的技术方案仍需持续探索
3点趋势
1、公共数据开放带动数据流通供给
2、场景化的技术分级框架将促进数据安全流通实践落地
随着数据可控程度的提升,数据应用价值的损失也会进一步增大
3、可信流通体系将为数据有序流通提供条件
可信流通体系旨在为有序的数据流通提供信任,全面提高数据可信、可用、可流通、可追溯水平
一方面,根据业务需求划定数据供方,确保数据源的合法合规、持续供应、安全可靠
另一方面,提升数据引入后的应用管理水平,通过构建组织架构、明确各部门职责要求、建立和实施系统化制度、流程和工具等方式,全面统筹外部数据的需求和使用
五、数据应用:积极探索数据深层价值的释放路径
(一)、数据应用开始探索第三阶段实践路径
数据应用是利用数据对各项事务进行探索、分析、洞察并最终推动决策的过程,其是数据价值释放的最终一环
由于信息化的发展成熟,数据应用第二阶段是当前主流形态
即财务、人力、业务增长等关键领域信息,以固定周期、通过 BI 图表可视化的方式,将其现状和趋势呈现给关键决策层,再通过人工完成决策
第三阶段介入萌芽期,实践经验正在快速沉淀
根据中国信通院 2022 年企业数字营销评估结果,已有约 30%的企业实现了自动决策能力
(二)、当前数据应用发展呈现三大特点
1、从应用方向看,面相个人消费者领域的应用相对领先
针对每个用户进行精细化运营是企业竞争力跃迁的必要手段。个人消费端用户量大,导致精细化运营资源成本高,而数据应用可以有效助力个人消费端的精细化运营,所以面向个人消费端的领域数据应用水平普遍较高
2、从服务对象看,正在从决策层向基层业务人员延伸
传统数据应用决策效率低、线条粗,无法精细指导基层人员的业务执行方式
随着市场变化逐渐加速,数据应用在固定的分析逻辑和报表基础上,向个性化、多样化转变,伴随自助式分析工具的成熟,数据应用门槛不断降低,业务终端小决策中的数据应用渗透率也在不断提高,数据应用在企业中的两级模式正在不断形成
3、从价值导向看,以人为本和可持续发展的定位日益明确
一是加强个人信息保护
二是明确界定大数据杀熟行为
三是建立大数据算法治理体系
四是倡导提升数字素养
(三)、数据应用面临的主要挑战与发展趋势
四大挑战
一是数据管理等前序工作难就绪
二是组织架构不符合新需要
三是复合型人才紧缺
四是技术工具适配度不足
四点趋势
一是自动决策将成为数据应用的主要形态
随着数据源增多、模型精细度提高、数据应用技术工具优化,数据应用的能力不断提高,所以数据应用正快速从感知、诊断向研判智能决策延伸
二是企业组织架构以数据应用为中心加速演进
一方面高层领导牵头总体工作
另一方面引入业务伙伴模式助力应用协作
三是咨询、技术、代运营一体型数据应用服务形态将崛起
目前大部分应用侧企业缺乏运营及策略能力,因而在其采购技术工具的同时需要配套的咨询服务,以及一段时间的代运营服务,从而助力其数据应用落地。
在选购技术工具时会更在意通过怎样的策略与技术产品的结合能立即推动业务增长
有较强咨询能力和代运营的供给侧企业将更能获得应用侧企业的青睐。
四是低代码数据分析工具将助推数据应用平民化进程加速
六、数据安全:强需求牵引产业生态飞速发展
(一)、数据安全发展基础不断夯实
数据安全法律政策逐步细化,政策环境不断完善
数据安全技术产品持续变革,产业发展动力愈发强劲
数据安全意识及能力逐渐提升,数据安全建设工作逐步启动
(二)、当前数据安全发展呈现三大特点
1、全面布局成为需求侧建设重心
企业数据安全能力建设重心,也开始从单点技术部署走向广范围、细粒度、一体化的全面布局
2、一站式解决方案成为数据安全主流服务形态
相对于提供单一技术产品,融合了“技术”与“服务”的整体解决方案已成为供应商角逐的新领域
供应侧数据安全解决方案主要有三种服务方式
一是提供行业化的数据安全治理建设解决方案
主要针对特定行业的某一项或某些项具体数据安全需求,输出体系化的整体建设方案
二是提供场景化的数据安全解决方案
这种服务方式的关键在于对通用场景的提炼,目前常见的场景划分方式分为基于数据全生命周期(如数据使用、数据共享场景等)和基于业务运行环境(如办公、生产、研发、云场景等)两种划分方式
三是提供“行业+场景”的数据安全解决方案
这种服务将建设思路聚焦在某个具体的行业业务应用中,有助于需求侧快速解决重要业务场景面临的数据安全问题。
3、数据分类分级成为全行业关注焦点
数据分类分级方法论逐渐形成共识
数据分类分级工作在各领域逐渐细化
数据分类分级工具及服务蓬勃发展
数据分类分级的顺利开展需要参与团队具备数据治理、数据安全、数据合规等领域的综合知识体系
(三)、数据安全民乐的主要挑战与发展趋势
三大挑战
一是数据安全责任体系构建尚不成熟
数据在实时产生及流动过程中涉及的主体很多,导致数据安全的主体责任边界模糊,难以清楚划分,容易影响数据安全建设工作的整体推进
二是数据安全管理与技术易脱钩
当前大部分企业的数据安全管理制度聚焦在原则、管理规定等较粗颗粒度的层面,对数据业务的下沉指导不充分,导致具体业务场景下的技术落地仍然缺乏实践指引,容易与管理要求脱节
三是数据安全产品与服务优势能力构建有待突破
三点趋势
一是由监管单一驱动转向监管与内生的双驱动
二是数据安全左移逐渐成为建设核心思路
为了提高数据安全工作效率,降低数据安全事件发生概率,需要在数据安全的风险源头进行及时管控与处置,这就要求企业必须把数据安全能力从运维环节前置、左移到设计、编码阶段
三是数据安全风险治理能力将成为下一步建设重点
由于数据本身具备流动性、泛在性等特点,导致数据在不同的网络区域、业务场景、应用系统中流转时,有可能被具有不同角色、权限的用户采取不同的处理方式访问使用。过长的流转链条、过大的威胁暴露面、过多的数据处理活动,导致数据安全风险的触发源和不可控性显著增加。
七、总结与展望
宏观看,各国为抢占未来发展先机,均持续深化推进自身大数据战略。
微观看,大数据五大核心领域不断演进,发展方向进一步清晰。数据存储与计算领域正通过云化、融合一体化、内生安全等深度优化手段实现提质增效;数据管理领域正在政 策引领下实现规模化落地;数据流通领域正在制度创新和技术创新双轮驱动下构建“规范化发展”的模式和体系;数据应用领域正通过在不同行业、不同场景进行滚动式实践,探索数据深层价值的释放路径;数据安全领域正通过外规内化、风险治理等手段,快速推动全面布局和一站式解决方案的落地。
良时正可用,行矣莫徒然