导图社区 《数据要素价值发挥的探索与实践》读书笔记
这是一篇关于《数据要素价值发挥的探索与实践》读书笔记的思维导图,主要内容包括:参考文献,第三部分 数据要素价值发挥的实践,第二部分 数据要素价值发挥的理论与技术,第一部分 数据要素基本理论和价值发挥难点,前言,序。
编辑于2025-02-02 15:44:23《数据要素价值发挥的探索与实践》读书笔记
序
50000年前,人类发明语言,提高表达及交流信息的效率; 5000年前,人类发明文字,开启知识存储传递的文明之旅; 1000年前,人类发明印刷术,推动知识复制登上新的台阶; 1946年,电子计算机诞生,数据随着信息技术的发展与扩张而迅速发展。
如今,数据逐步成为一种新的基础性和战略性生产要素。数据生产要素的运用是优化经济结构的重要推动力,经济社会发展正在经历一场全面性的变革。数据生产要素将成为这场变革的主要动力来原,催生了继农业经济、工业经济之后一种新的经济社会发展形态--“数字经济”。数字经济与实体经济持续深度融合,已经对社会治理、经济运行、生产生活等带来了巨大的影响,人类社会进入了数据生产力时代。
2019年10月31日,党的十九届四中全会通过的《中共中央关于坚持和完善中国特色社会主义制度推进国家治理体系和治理能力现代化若干重大问题的决定》,正式把数据列入生产要素,与土地、劳动、资本、技术等传统生产要素并列,这也拉开了我国以数据作为生产要素的数字经济发展新序幕。
将数据列为生产要素在全球是首创,既是理论上的重大创新,也是技术发展,尤其是数字技术发展的必然趋势。数据作为生产要素,还需要更多的理论探索和相关实践。
2023年以来,我国明显加快了将数据作为生产要素的推进步伐,与数据生产要素相关的各种政策规划纷纷出台,数据资产管理等一系列相关措施纷纷落地。国家及地方数据局成立、各地数据交易所和数据集团组建、不同地区关于数据要素重大会议的隆重召开,无一不在说明,数据作为生产要素,在我国已经进入到了实操和落地阶段。
数据作为生产要素,有着完全不同于传统生产要素的属性:数据既具有一般商品所包含的价值、交换价值和使用价值,又具有一般商品所不具备的非消耗、非排他、零边际成本等独特属性。这些独特属性带来了数据在确权、定价、流通交易和价值发挥等方面完全不同于已有生产要素的表达方式。当前,对数据作为生产要素本身的理解和认知还处在初级阶段,数据要素价值发挥的逻辑,也还处在早期探索阶段。
数据作为生产要素,就必然要参与生产和分配。这涉及数据本身的确权、流通、交易等一系列环节。但数据自身的独特属性,使得数据相关政策制度、市场建设、安全保障等方面存在一些难点。为了解决这些难点,构建数据价值发挥的路径,国家正在规划数据基础设施,支撑数据汇聚、处理、流通、应用、运营、安全保障能力建设,打通数据流通使用的堵点难点,确保数据“供得出”“流得动”“用得好”,充分挖掘数据要素潜能。
数据要素价值发挥才刚刚起步,道路漫长且曲折,我们将围绕国家数据要素战略,与合作伙伴共同探讨与实践,尤其是利用可信数据空间技术,围绕数据要素乘数效应,支撑数据运营体系,进一步推动和促进数据作为生产要素在采集汇聚、共享开发、授权运营、流通交易和开发利用等环节的价值发挥。数据要素价值发挥领域百家争鸣,我们将继续汲取国内外优秀经验,进一步在数据要素价值发挥的道路上继续探索与实践,服务国家经济高质量发展大局,为数据要素价值发挥做出更大的贡献。
本书涉足部分领域尚未形成统一共识,且编写过程仓促,错误在所难免,敬请读者朋友们交流和指正!本书是对数据要素价值发挥摸索过程的思考与总结,并记录了探索与实践过程的路径,还些不一定适用于所有数据价值发挥的场景。同时,我们探索的路径也只是万千路径中的一条。因此,在阅读本书的过程中,请读者以一种审视的态度,共同探讨数据要素价值发挥的路径到底应该是怎样的?如何抓住这个历史机遇?数据要素与信息时代、数字经济时代、大模型时代共振,定是那片寻觅的新蓝海。 谭林 2024 年4 月6 日于长沙
前言
数据作为生产要素,通过与传统生产要素结合,在实体经济中发挥数据乘数效应。数据作为一种生产要素,由其自身的特殊性,以及价值发挥面临的难点突出,亟需提高数据要素与其他要素的协同效率,实现全局优化,复用数据扩展生产可能性边界,融合数据价值,推动量变到质变。
然而,数据要素价值发挥遇到“供不出”“流不动”“用不好”“不安全”等问题,导致数据价值发挥受阻。作者认为,数据价值发挥需要从机制、体系、技术、市场等多方面共同发力,才能形成有效数据大市场。当市场上有足够的可用数据供给,通过市场培育,就会形成数据生态,并在各行各业渗透,从而提升行业效率,实现数据要素“乘数”效应。例如,
在工业领域,通过数据流通可以提升供应链效率和韧性;
在农业领域,通过市场价格数据指导精准农业生产规划;
在医疗领域,通过电子病历数据共享提升就医便捷度。
本书基于国家相关政策背景,结合团队多年研究成果和一线亲身实践探索经验,凝练出对数据要素价值发挥的政策和技术的思考,以及与众多优秀合作伙伴在数据要素价值化领域的探索与实践成果。
本书分析了数据要素相关政策背景,阐述了数据要素价值发挥的理论和技术基础,并通过可信数据空间实现对数据流通和数据安全技术的融合,并内置一套数据安全流通机制和数据市场交付体系,支撑数据要素安全流通。
可信数据空间作为数据要素价值发挥的重要抓手,通过在不同行业进行实践探索,已摸索出一套可行的数据要素流通解决方案。
可信数据空间
为了构建理想化的数据价值发挥的路径,作者不断思考、探索与实践,从政策制度分析、技术理解与攻关、产品设计、行业经验探索与实践,逐渐摸索出一条数据要素价值化的可行路径。随着国家对数据基础设施的定义越来越清晰,作者发现,在数据要素价值化的探索道路上,在路径、形式上是何其相似。
早在2017年,区块链火遍全球,那个时候,数据主权价值不断被提及,先驱们期望通过区块链智能合约来实现公平的数据价值化路径。然而,那时数据相关的要素和技术都还不够成熟,无法支撑数据价值发挥。2019年10月,党的十九届四中全会首次将数据确立为一种生产要素。那时,数据要素相关的制度还没有制定,《数据安全法》等相关法律还没有出台,只有相关的技术还在黑暗中探索前行。站在2024年4月这个历史点上,数据要素价值发挥似乎是处在一个最好的时代。2023年1O月25日国家数据局正式挂牌,2024年1月4日国家数据局等17部门联合印发《“数据要素x”三年行动计划(2024-2026年)》,2024年4月1日,2024年全国数据工作会议在北京召开,会议指出:我国将多措并举推进数据要素市场化配置改革,数据要素价值发挥迎来最好的时代。
国家正在规划数据基础设施,支撑数据汇聚、处理、流通、应用、运营、安全保障全流程,打通数据流通使用的堵点难点,充分挖掘数据要素潜能。本书也是围绕这样一条主线,探索数据要素价值发挥的路径。作者通过将网络、算力、流通和安全数据基础设施融合,重点基于数据流通和安全设施,打造可信数据空间,并构建数据汇聚、处理、流通、应用、运营、安全保障能力支撑数据要素价值发挥。
可信数据空间作为一种承载数据主权,支撑数据采集汇聚、共享开发、授权运营、流通交易和开发利用的载体,为数据要素价值发挥提供了较好载体。本书围绕数据要素价值发挥的逻辑,探讨了数据要素基本理论和价值发挥难点、数据要素价值发挥的理论与技术和数据要素价值发挥的实践。全书通过可信数据空间的各项能力进行展开,并在实践当中探索可信数据空间在数据要素价值发挥的作用。
读者对象
对于在数据要素领域的工作者,通过阅读本书,可以了解数据要素价值发挥的路径,相关的技术、产品,以及在工业、农业、医疗、文化等场景中的应用案例。
对于希望了解数据要素价值化发挥的相关技术的读者,通过本书可以从数据价值化角度快速了解它们。
对于在不同行业工作的信息化工作者,可以通过本书了解数据要素价值变现的一种思路。
对于在大学研究、学习数据要素领域的师生,通过本书,可以了解数据要素价值发挥的技术、思路和产业路径。
本书特色
本书从数据要素价值发挥角度,从政策、理论、技术和实践四个维度进行编写,浅显易懂,从数据要素概念、技术路线、产品思路、解决方案全面覆盖,可作为数据要素领域的入门书、参考书。
致谢
本书由谭林博士组织并牵头编写,成立编委会,确定了本书的提纲和目录,完成了对各章节内容和质量的把控,以及做了最后的通稿校稿工作。具体主责分工如下:宋霞(第一章)、谭林(第二章、第三章)、尹海波(第四章、第十一章)、郭兆中(第五章)、储超尘(第六章)、刘齐军(第七章)、孙杰(第八章)、聂璐璐(第九章)、杨腕婷(第十章)、孔曼(第十二章)、吴文兵(第十三章)、姜载乐(第十四章)。感谢杨腕婷对本书出版的组织工作,感谢李洪、谭羡对本书封面和装帧设计工作,感谢编委会所有成员及其家庭成员为本书做出的巨大贡献。高承实博士对全书的编写给予了大量的指导和帮助,特此感谢。
特别感谢湖南省数据局、长沙市数据资源局、湖南股权交易所等政府机构单位领导对本书相关业务指导;特别感谢我们的合作伙伴,包括中国铁建重工集团股份有限公司、湖南镭目科技有限公司、湖南金龙智造科技股份有限公司、源品细胞生物科技集团有限公司、湖南惠农科技有限公司、湖南新五丰股份有限公司、土流集团有限公司、湖南天河文链科技有限公司等在业务方面的指导和支持。特别感谢湘江实验室重大项目(区块链高性能跨链互通与数据协同,23XJ02007)对本书的支持。
本书写作过程得到诸多领导、老师、同事、朋友的指正,湖南科学技术出版社团队在本书出版过程中给予指导,并付出艰辛的劳动,在此一并感谢。
第一部分 数据要素基本理论和价值发挥难点
第一章 数据要素概述
2019年10月31日,党的十九届四中全会通过的《中共中央关于坚持和完善中国特色社会主义制度、推进国家治理体系和治理能力现代化若干重大问题的决定》,正式把数据列入生产要索,与土地、劳动、资本、技术等传统生产要素并列。
1.1 数据成为生产要素的必然性
2021年,我国颁布的《中华人民共和国数据安全法》,从法律意义上明确了数据的定义,即“任何以电子或者其他方式对信息的记录”。
1.1.1 数据作为生产要素的定义
数据生产要素简称数据要素,即“那些以电子形式存存的、通过计算的方式参与到生产经营活动并发挥重要价值的资源。”
生产要素是用来创造和生产商品或服务的资源,是价值创造的必要条件,也是经济发展的基石。生产要素和原材料的区别在于,生产要素是社会化大生产之必需,却不能在最终的生产成品中被直接看到。
数据要素和数据紧密相连,但又存在本质区别。应该说,数据要素来源于数据,但不是所有的数据天然就是数据要素。
数据要成为数据要素需要具备两大必要条件。
一是把原始数据加工成机器可读的,具备投入生产和使用的条件。比如纸质文档记录的数据资源虽然承载着信息,但因为它不能被计算机读取,因此它只是数据,而不是数据要素。
二是数据要可以通过流通进入社会化大生产,就像其他要素那样可以通过社会化进行配置和使用。不能在社会化范围内广泛流通的数据,无论体被多么庞大,都是手工作坊似的自有资源,不是生产要素。
因此,具备“机读”+“流通”条件的数据才有可能成为数据要素。
数据和数据要素的区别可简单类比为钱和资本的区别。在货币经济时代,几乎每个人手里都有一定的“钱”,这个“钱”可以买东西,但这并不意味着每个人都拥有资本。资本是用于投资以期得到利润的钱,其本质是获利。因此,“钱”不等于资本,只有投入生产经营、可以产生经济效益的钱才是资本。
1.1.2 数据成为生产要素的必然性
在生产发展的每个阶段都会有一种生产要素,在当时的生产力条件和水平下是最重要的,作用也是最突出的,这就是关键生产要素。
土地成为农业社会的关键生产要素
资本成为工业化社会的关键生产要素
数据成为数字经济时代的关键生产要素
1.1.3 数据作为生产要素的前景
在经济学中,生产要素是指社会生产经营活动所需要的各种基本资源。这些资源可以进行市场交换, 形成各种生产要素价格与交换体系,并由此形成要素市场。在不同的经济形态下,生产要素的构成是不断演进的,作用发挥机理也不尽相同。
长期来看,数据将大规模地渗透进社会生产、分配、交换和消费的各个环节,成为推动全球经济新一轮增长的重要引擎。因为数据重建了人类对客观世界的理解、预测和控制的新体系和新模式。在这种新体系和新模式下,数据成为对物理世界进行描述、原因分析和结果预测, 以及决策的重要抓手,数据驱动的决策替代了传统的经验决策。
数据已经参与到我国国民经济的所有运行环节。数字经济不仅是对海量的数据进行处理分析,还需要数据与各个行业结合,并对数据进行有效利用,从而提高全要素生产率。在我国国民经济发展中,数据担当着推动质量变革、效率提升和动力转换的角色,数据对生产效率的提升将发挥乘数作用,数据应用的深化对国民经济各部门的发展也具有广泛的辐射和带动效应。
据统计,美国过去十余年的劳动生产率增长中,数字化的贡献度超过40%。相比传统生产要素,数据是生产力发展的倍增器,是社会进步的杠杆,数据对经济效率的提升和经济规模的增长有更大的溢出效应。
数据的乘数作用主要体现在以下三个方面。
一是效率倍增。
数据分别融入劳动、土地、资本、技术等生产要素当中,实现数据与其他生产要素的高效融合,产生多样的化学反应,进而实现生产效率倍增。
例如,数据作为金融产业内容表达、信号传导和资金投向决策依据,快速实现货币、资本、金副的有机转化和相互融合,实现金融产业整体效率的提升,催生了更高效率的现代数字化金融运行体系。
此外,数据与其他要素的深度融合,也不断催生出金融科技等新型资本、智能机器人等“新型劳动力”,持续释放出创新活力。
二是资源优化。
数据不仅可以与劳动、资本、技术等其他单一生产要素融合并带来倍增效应,数据还能够优化劳动、资本、技术、土地这些传统要素自身的配置效率。
例如,工业企业和金融机构间流通共享的数据,就为中小企业低成本融资提供了基于数据的信用评价手段;数据在劳动力供需市场的有效流转,就通过精准招聘优化了劳动力配置; 商业和工业企业利用数据进行物流优化,驱动工业4.0和智能化制造的发展,可以大大提高经济效率。
OECD发布的《数据和数据流动的映射方法》指出,数据的利用有助于产品、流程和组织的改善和创新,能够促进企业劳动生产率增长5%~1O%。
三是投入替代。
利用数据可以实现用更少的资源创造出更多的物质产品和服务,从而形成新的生产方式对传统生产要素投入的替代。
波士顿咨询(Boston Consulting)估计,移动支付对传统ATM机和营业场的替代,在过去1O年至少为中国节省了1万亿元线下支付基础设施建设费用;电子商务减少了对传统商业基础设施的大规模需求和投入;政务服务“最多跑一次”等基础设施减少了人力和其他资源消耗。这些都是通过使用数据,用更少的资源投入创造了更高价值的体现。
1.2 数据作为生产要素的独特性
数据虽然与土地、劳动、资本、技术并列为生产要素,但数据有着完全不同于土地、劳动、资本和技术等生产要素的特殊属性。数据虽然也具有一般商品所包含的价值、交换价值和使用价值,但数据又具有一般商品所不具备的非消耗性、非排他性、边际复制成本为零等特性。而这些传统生产要素所不具备的特殊属性,就带来了数据在确权、定价、流转、流通以及价值发挥方面完全不同于已有生产要素的表达方式。
1.2.1 数据在使用上的非消耗性
数据的非消耗性指的是数据在使用过程中不会被消耗,可以重复使用。这种特性使得数据成为一种可再生的资源,可以在不同的场合和环境下被反复使用。数据的非消耗性是数据区别于资本、劳动、土地等传统生产要素的重要特点之一。与传统资产(如机器、建筑物、自然资源)会自然地衰减或耗尽不同,数据在使用过程中不会发生物理性损耗,甚至在使用过程中还可能会产生新的数据,增加数据的总体规模。
数据与数据还会持续不断地进行融合。数据与其他数据相结合使用时能够挖掘的有效信息更多,数据的价值也会相应增加。
例如,一个公司在进行市场分析时,可以使用同一个数据集进行多次分析,而不需要每次都重新收集和处理数据,同时分析的结果会成为更高价值的数据。数据的非消耗性也使得数据可以被更有效地共享和交换。
然而,数据的非消耗性并不意味着数据是无限制的,因为数据的获取、存储和处理也都需要其他资源的支撑,这些资源是有限的。但相对于数据所能发挥的作用,这点资源上的投入还是微不足道的,尤其随着硬件基础设施性价比的进一步提升,投入相应的资源开展数据资源的采集、存储和处理是完全值得的。
1.2.2 数据占有上的非排他性
数据的非排他性指的是一旦数据生成并被采集,任何人都可以复制和使用这些数据,而这个数据的复制和使用并不会影响其他人对该数据的复制和使用。与传统要素不同,数据无法被特定的人或组织所独占或垄断,相反,任何人都可以通过复制和使用该数据获得利益。这种非排他性特点也带来了数据的可共享性,人们可以更容易地分享和利用数据,从而推动数据的更广泛应用和价值发挥。
数据的非排他性也带来了一些问题和挑战。
例如,大量数据汇集带来的个人隐私泄露问题,海量数据带来的非传统安全问题,个人隐私保护和企业利益之间的平衡问题,数据被恶意使用问题等。
在数据的占有和使用方面,需要建立相应的法律和伦理规范,保障数据的合法使用,实现相应的权益保护。
1.2.3 数据的零边际复制成本
数据可以通过数字化技术和设备实现无限复制,而且复制过程中不会产生额外的物质消耗。这种零边际复制成本是数据在所有生产要素中独有的优势。数据规模和种类的增加,可以产生更多的信息和知识,而且这些信息和知识的复制成本几乎为零。这意味着数据可以以极低成本甚至是无成本的方式被广泛地共享和使用,从而带来规模经济,产生倍增效应。
数据的零边际复制成本并不意味着数据就可以被无限制地复制和分发。实际上,数据的使用和分发也需要遵守相关的法律和规定,例如关于数据隐私和安全的规定。同时,数据的使用和分发也需要消秏一定的计算和存储资源,而这些资源也是有限的。因此,我们就更需要合理地管理和使用数据,以在确保安全和隐私的情况下,确保数据带来价值增值和效率提升。
1.3 数据作为生产要素价值发挥的主要方式
数据作为生产要素的价值表达,主要包括数据资源化、数据资产化和数据资本化三种方式。
数据资源、数据资产和数据资本概念
1.3.1 数据资源化
数字经济的核心驱动力量是数据。数据的价值在于依托数据数量、数据质量和内核知识蕴含的价值生成的数据脉象价值和数据脉动价值。资源是某主体拥有的人力、物力、财力等各种要素的总称,数据资源特指数据以资源的方式作为生产要素投入生产,数据资源化则强调数据资源整合后形成的数据价值。
(1)数据资源概念
数据资源、数据资产和数据资本都是数据发展到一定规模、集聚一定价值后的产物,在概念上有本质区别。21世纪人类的一大文明进步就是进发出了“数据是一种资源”的思想,正是基于这种思想基调,人类大胆赋予数据具有实物资产一样的权属,使得数据拥有了跟石油、煤矿、土地等重要资源一样的资产特性,可买卖交易、可获利、可支撑生产。
数据资源集聚了数据的原始价值,成为需要挖掘和探索的蓝海,需要科学有效的数据价值生成方法。既然数据可以像房屋一样隶属千某个主体成为资产,那么数据也可以像房屋通过抵押获得贷款一样获得资本属性,通过数据资源化、数据资产化、数据资本化表达其数据价值。
(2)数据资源管理
数据资源作为数据生产要素的一种表现方式,需要相应的市场交易环境,需要建立有效的数据资源管理体系。数据资源管理不仅关注数据资源自身的特点和属性,更关注通过数据资源的有效使用为数据所有者、数据经营者和数据使用者带来数据价值。数据资源管理包括数据成本管理和数据收益管理两个大的方面。
数据资源管理包含了数据标准、数据质量、数据安全、数据价值、数据共享和数据挖掘等更微观的管理内容,以及如何针对不同的应用场景和大数据平台提高数据资源价值增值能力。数据资源的有效管理和价值发挥,需要更专业的管理队伍和更细致的管理制度来确保管理流程的合规性、数据内容的安全性和数据价值的有效性。
(3)数据资源主体
原始数据散落在社会网络中,经数据采集、数据加工等环节后获得数据所有者属性。数据转化为数据资源后开始有了交易属性,由此需要明晰数据资源主体的责权利关系。由于数据隐私性的存在,数据所有者不能简单地让渡数据所有权,必须在数据资源化过程中明晰数据所有者、数据经营者和数据使用者三方主体和权属关系。
数据资源主体和权属
数据所有者完整占有数据资源的所有权,可以自由决定是否将数据资源所有权委托给数据资源经营者。数据资源经营者接受数据所有者委托,享有数据经营权和获取合法收益的权利。数据使用者依据数据经营者赋予的权益享有数据资源使用权,通过使用数据资源获取其价值及其衍生产品价值的权力,从而实现数据价值传递和数据价值变现。
(4)数据资源化发展过程
按照管理成熟度模型可以将数据资源化的发展过程划分为从数据建仓、数据治理、数据应用到数据运营的四个阶段,随着数据资源管理成熟度的提高,数据也从最初的资源化逐渐发展进入到规模化运营阶段。
数据资源化发展过程
数据仓库是在数据资源管理目标驱动下,为了增强数据资源集聚、存储和管理能力而建立的。数据仓库的建立过程非常缓慢。之后随着数据资源的进一步集聚,数据资源化也从最初的数据建仓阶段发展进入到了数据治理阶段,数据采集、计算、加工、分析等配套工具得以被发明出来,并且建立了元数据管理、数据共享、数据安全保护等管理机制。数据治理的迅速发展推动着数据资源化进入到数据应用阶段。数据应用的进一步发展和创新,就使得数据资源化进入到了大规模数据资源运营阶段。
数据资源化不仅是数据产品和数据服务创新能力的前提,而且有助于实现数据资源价值最大化目标。随着数据资源管理成熟度和数据资源管理能力的提高,数据资源化发展动能不断提升,这同时也推动着数据资源价值增值能力的快速提升。
1.3.2 数据资产化
数据资产化不仅有助于提升数据价值,增加数据变现途径,增加数据作为生产要素流通的灵活性,而且能够赋予数据更多金融属性,使数据可以演化成为无形资产。
(1)数据资产概念
数据资产目前尚无统一定义,会计学科强调数据资产的资产特性,经济学科强调其产权、收益权归属等。《数据资产管理白皮书(4.0)》将数据资产定义为:“由企业拥有或控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源,如文件资料、电子数据等。”
数据资产定义为拥有数据权属(勘探权、使用权、所有权)、有价值、可计量、可读取的网络空间中的数据集。该定义明确强调了数据具备的可获得经济利益的特征,也说明了数据资产应当具备可估量的价值,但没有触及数据资产的核心本质内容。近几年,分布式存储、云计算、人工智能、区块链等技术的发展和应用正不断为数据资产概念的落地和数据资产化过程提供支撑,在相关技术的支撑下,非结构化数据也被纳入数据资产范畴,如海量的标签库、企业级知识图谱、文库文档、视频、图片等。
(2)与数字资产区别
数字时代,数字资产和数据资产是两个经常被提及的概念。虽然它们都是数字经济时代的资产,但数字资产与数据资产有着明显的区别。
数字资产泛指所有以数字形式存在并可在互联网上交易转移的虚拟资产,包括加密货币、区块链代币、数字艺术品、虚拟房地产等。它们的本质是一串代码或数字凭证,代表着所有权和价值,可在区块链等分布式账本上进行点对点转移和流通。它们与数据资产需要通过对数据的挖掘、分析和利用,为企业带来经营优化、市场洞察、新业务机会等产生价值不同,数字资产本身就蕴含直接的货币价值或所有权价值,可在互联网上像实物资产一样交易流通,它们的价值很大程度上取决于市场供需和投资者预期。
(3)数据产品资产性
一般来说,作为产品参与交易的数据集或其衍生出来的信息服务被称为数据产品, 而数据产品是企业实现“对外交易数据资源资产化”的重要路径。在数据要素市场中, 可供交易的数据产品具有较为显著的资产专用性,需满足来源权威、合规性、可溯性、应用场景明确等质量要求。在此过程中,数据价值不断被创造、挖掘和释放。
数据产品是经过创造性劳动和实质性处理和加上活动所形成,具备资产性并以“商品形态”在市场上买卖和流通的物品,其资产性体现在三个方面。
一是合法合规,数据的主体、来源、生成及内容应当符合相关法律法规。若原始数据涉及授权,需从授权方式、对象、内容、时限等方面进行分析,确认数据授权覆盖全流程。
二是权属清晰,依据“三权分置”逻辑,登记数据资源持有权、数据加工使用权和数据产品经营权的权益主体和占比。
三是预期有经济利益流入,运用技术手段,对数据资产进行可靠计量和评估,为数据产品在数据交易所挂牌、撮合、交易、结算、交付提供依据,使得数据产品以货币或货币等价物的形式完成交换,实现数据相关主体未来预期可持续的经济利益流入。
(4)数据产品商品化
数据产品在满足资产性的基础上,经过商品化变成可交易的数据商品,进入数据交易市场。数据商品作为一般商品,具备马克思在《资本论》中所考察的商品的二重因素--使用价值和价值。同时,数据商品作为数字经济时代下的具体商品形态,一方面不存在物理意义上的形态,产品数量由一到多并不会增加其生产成本,使用也不会造成物理损耗;另一方面,从总体上看,伴随着使用人群的增加,最终形成一定的使用规模,将会给数据商品带来质与量的优化提升。因此,数据商品的非排他性呈现复用性和规模效益的统一。
(5)数据资产管理体系
数据作为一种新型资产,同实物资产一样具有价值,并且能够获得经济收益。但是,如果缺乏有效的管理,数据不但不会带来价值,而且可能会变成负债。为了构建有效的数据资产化模式,数据资产管理体系的建设就显得尤为重要。
数据资产管理贯穿于数据采集、存储、管理、分析和使用等数据的全生命周期过程中,而且进一步延伸到数据采集后的运营管理和数据价值变现等环节。目前,数据资产管理尚处于探索阶段,数据质量问题、数据安全隐患、数据价值评估方法、数据交换流通等内容的管理仍显薄弱。
数据资产管理体系及其挑战
①数据资产权属界定
数据资产权属界定是数据资产化前提。数据权不同于传统物权,物权的重要特征之一是对实物的直接支配,但数据权在数据的全生命周期中有不同的支配主体,某些数据产生时由所有者支配,有些数据产生时便被数据采集人支配(如微博、电商数据、物流数据等),存数据处理阶段被各类数据主体所支配。由于数据所有权可以转移、又作以界定,所以数据资产权属界定应该综合考虑数据所有权、数据经营权和数据使用权不同层面的权属关系。
数据资产权属界定可以简单理解为法律意义上由哪个企业拥有数据、经管数据和使用数据,表现在企业是否有数据购买合同(企业本身产生的数据除外)或者预先获得许可,有无约定数据资产所有权、经营权和使用权。数据资产权属界定需要明确相应的权利和责任,包括谁能够创建、读取、修改、复制、共享或删除等。即使企业对外开放或共享数据,有法律保护下,企业仍没有失去所有权、经营权和使用权。在数据具有可复制性的独特背景下,数据资产权属界定可以保障数据资产安全。
②数据资产价值评估
数据资产价值评估是数据资产管理的基础。在企业中,并非所有的数据都可视作资产,能够成为资产的数据首先是能够为企业产生价值的数据。数据资源转化为数据资产后仍有价值高低、资产优劣的不同。数据资产作为一种复杂的全新资产形态,共价值评估比传统资产价值评估更加困难、更具挑战性。
目前数据资产价值估值方法主要有成本法、收益法和市场法三类。
成本法是基于数据资产的成本构成测算数据资产价格,与数据资产价值的重新获取或建立数据资产所需成本紧密挂钩;
收益法是基于目标数据资产的预期应用场景,通过预期经济效益折现反映数据资产投入使用后的收益能力,预测数据资产的收益情况;
市场法是当市场上具备一定数量可比数据资产的估价对象后,通过相同或相似数据资产的对比和差异因素的调整,反映出目标数据资产市场价值。
③数据资产交易流通
2014年以来,我国出现了一批数据交易半台和数据交易机构,包括贵阳大数据交易所、上海数据交易中心、长江大数据交易中心等。2019年9月正式启动的“人民数据资产服务平台”,成为首个国家级别的大数据开放平台,也是行业内首个集数据合规性审核、数据确权出版、数据流通登记等服务于一体的数据资产平台。
互联网领域从业者也在积极探索新的数据流通机制,为数据资产交易流通提供行业观察、营销支待、舆情分析、引擎推荐等数据服务,并针对不同的行业提出对应的解决方案。这些实践意味着数据行业在建立行业标准、引领行业规范发展方面迈出了新的步伐。这对数据领域资源整合具有重要的意义。
④数据资产安全保障
数据资产管理必须在确保安全的前提下进行。当前数据资产安全不能得到有效保障的主要原因是市场缺乏信任机制,技术服务方、数据所有者、数据交易中介等都可能会私下缓存并对外共享数据,数据使用者不按协议要求私自留存、复制甚至转卖数据的现象也普遍存在。数据活动中非授权数据采集、传输、汇聚活动日益频繁,相应地,个人隐私、商业机密等一系列安全问题也日益突出。
按照国家或相关主管部门要求,通过评估数据资产安全风险, 制定管理制度规范保证数据资产安全,建立良性互动的数据交易生态体系迫在眉睫。面对完全不同于传统资产的数据资产管理特点,亟须建立包括政府、监管机构、社会组织等多方参与的,法律法规和技术标准多要素协同的,覆盖数据资产交易流通全过程和数据全生命周期管理的数据资产管理体系。
1.3.3 数据资本化
在数据成为数字经济时代的核心生产要素以后,数据资本作为另外一种更具创造价值的新型资本的概念也被提出来。在数据资本化以后,传统的市场结构、社会结构也相应面临大幅的调整。
(1)数据资本概念
“数据资本”一词首先出现在统计领域中。1967年,挪威中央统计局的一份工作文件认为数据资本是采集和计算数据的保留存量,在统计文件系统中起关键作用。数据资本如同金融资本、实物资本一样,能够生成新的、有价值的产品和服务,提高数据资本拥有者的预期收益。
在经济学中,数据资本拥有长期价值和后验性,即数据资本只有在使用后才能衡量其意义和价值。同时,数据资本也必然要具有增殖性,即数据资本会进一步增殖。数据资本化是通过数据交易流通将数据资产转变为数据资本的过程,从而在更高层次上实现数据价值。
从数据资源、数据资产到数据资本,逐渐增加的数据价值带来更高的价值预期。如何深入挖掘数据资本价值成为一个新的研究方向。数字技术的迅猛发展正在消除金融资本、实物资本与数据资本之间的鸿沟,巨大的颠覆性创新正在逐步将数据资本带到资本市场的核心位置。
(2)数据资本化生产函数
数字经济时代不仅要求劳动者具备数据分析、数据处理能力,而且要求劳动者能够生产数据资本。从数据到信息、再到知识的过程描述了数字革命的本质,即应用数据生产信息和知识,数据成为价值源。数据资本化需要投入劳动力、技术和数据,从而形成一种新型的生产函数关系。
数据资产形成过程伴随着技术进步,它表现为与数据资本积累相伴的数据处理、数据分析和数据使用能力的提高。数据资产逐渐转化为数据资本,而数据资本化的生产函数也演变为“数据生产力=数据资本+数据劳动力+数据技术进步”。
(3)数据资本化体系架构
在数据资本化生产函数中,数据是资本形成的原料。数据资本的兴起,需要一个全新的体系架构以厘清数据资本的属性。在新型的数据资本化体系架构中,应突出体现数据资本公益性和公有制属性,充分展现数据福利价值属性和价值作用。
①数据资本公益性
数据资本化的目的在于追求数据价值最大化,帮助实现数据资源的更好配置,以最大覆盖范围的公益性解决更多的问题。一方面,数据资本公益性体现了数据劳动正义重构的思想, 不仅坚持按劳分配的数据劳动原则,而且坚持普惠享用的数据共享原则;另一方面,数据资本公益性体现了公益性和营利性兼容的思想,不仅坚持公平、普惠基础上的公益性原则,而且坚持效率、效益基础上的营利性原则。
②数据资本公有制
数据本身并没有制度属性、阶级属性和意识形态,但是数据资本化会赋予数据这些属性,以代表不同的制度、阶级和意识形态。数据资本公有制创造了公平的社会环境,一方面有助于以国家利益遏制垄断,推动数据资本公有制发展,让更多的公民享有数据资产权益;另一方面,数据资本公有制有助于解决数据资本收益分配不公的问题,为每一个利益相关者提供公平、合理地享有数据资本收益的权利和机会。
(4)数据资本化的优势
数据资本化在更高层次上扩展了资本内涵,在数据资本化概念下,数据资源会拓展出更多的业务主体和生产服务领域,给企业生产带来更多指引、更大自主性和更多灵活性。在微观层面,数据资本化为企业生产增加了新的自变量,改变了产品服务的生产内容构成;在宏观层面,数据资本化也增加了国家经济内容的要素构成,对进一步盘活已有资源、活跃市场,增加了新的抓手和工具。
数据资本化正在形成新的生产方式、生活方式和经营方式,并且有助于重构产业结构、颠覆业务模式,提升“全产业链脉动”价值。数据价值载体从数据资源、数据资产到数据资本,拓展了“全产业链脉动”服务价值承载力,将从根本上提高制造业服务化转型发展能力。
第二章 数据作为生产要素的全球进展
数据是新的生产要素,当前已经成为全球性共识,只是各个国家的命名方式不一样而已。各个国家对数据的认识,对数据作为生产要素的理解也有所不同,不同的国家基于各自国家的历史、文化、法律和制度考量,虽然有着大致相同,但在细节上又有着巨大差异的制度安排和做法。
2.1 美欧对数据要素的认识和相关做法
2.1.1 美国数据经纪人制度较为成熟,数据市场政策开放性强
美国数字经济发展水平全球领先,是全球数字经济发展的领头羊,同时也是数字革命的重要发源地。美国率先发展出了人工智能、大数据、云计算等技术,在数据要索市场建设方面具有技术优势,发达的信息产业为其数据要素的发展提供了强大的支撑力量,同时广阔的市场也对数据和数据应用提出了广泛而深入的需求,两者的结合有力地促进了美国数据交易市场的形成和发展。
数据经纪人(Data Broker)是美国数据交易服务的主要参与方和支持方。数据经纪人通过各种渠道采集消费者个人数据,并对采集到的原始数据进行整理,衍生出更多的数据和数据产品,之后出售给与消费者没有直接关系的企业,并提供相关的使用授权许可。数据经纪人制度有效解决了供需双方信任缺失问题,促进了数据的有序流通,提高了市场化数据运用水平。
美国数据经纪人在制度设计和商业模式方面发展较为成熟。
(1)实行注册制对数据经纪人进行监管
在联邦政府层面
美国国会2014年起就针对数据经纪业务提出了多项立法提案,包括《2015年数据经纪商责任与透明度法案》《2019年数据经纪商法案》《2020年数据经纪商问责和透明法案》,这些法案重点在于提升行业透明度和安全性。
在州政府层面
加利福尼亚州民法典规定:数据经纪人每年应在加州总检察长处注册,支付一定的注册费用,并提供指定信息;未按照规定要求注册的数据经纪人应承担民事处罚,并将费用存入消费者隐私基金。
佛蒙特州《数据经纪法》规定:数据经纪人应每年向州务卿注册,注册时需提供基本信息、数据收集做法、个人选择退出政策,以及购买者资格审查情况和安全漏洞信息等,便于相关机构及时掌握州内数据经纪人基本情况,提高行业透明度。
(2)形成了稳定的商业模式
美国积极探索多元数据交易模式,根据主体可分为“消费者- 企业分销”“企业 - 企业集中销售”和“企业 - 企业 - 消费者分销集销混合”三种数据交易模式。
消费者 - 企业分销模式是指个人用户将自己的数据贡献给数据平台,以换取一定数额的商品、货币、服务、积分等对价利益,如个人网、名车志等。
企业 - 企业集中销售模式,以微软的数据平台为代表,数据平台以中间代理人身份为数据的提供方和购买方提供数据交易撮合服务。
企业 - 企业 - 消费者分销集销混合模式是指数据经纪商收集用户个人数据并将其转让、共享给客户。
企业 - 企业 - 消费者分销集销混合模式目前是数据交易市场的主流模式,已经具有了一定的市场规模,形成了庞大的数据经纪产业。
(3)打造丰富多样的数据应用场景
美国政府出台多个战略计划,拨付资金研发升级采集、存储、分析、管理等数据使用与流通关键技术,以提高大数据开发应用水平。美国科学技术委员会也成立“大数据高级指导小组”,负责指导联邦政府整体大数据攻关项目的落实。在美国政府不遗余力的推动和引导下,美国数据应用场景覆盖从消费领域到农业、医疗、教育、政府管理等领域,数据在相关产业中均发挥了重要推动作用。
①农业领域
在农业领域,美国政府从不同来源收集数据,通过对数据的使用和分工,使农业活动安排更为精准,推动了农业环境控制和经营管理水平大幅提升。例如美国某气候企业通过庞大的传感网络系统分析和预测农田的气温、降水、土壤湿度和产量,在此基础上建立模型来预判农民的保险金额和企业需要支付的保费。
②医疗领域
在医疗领域,美国政府通过整合和挖掘医疗大数据,推动个人、医疗机构和研究机构数据共享和流通,建立医疗信息交换共享平台,形成医疗大数据信息库。
③教育领域
在教育领域,美国政府利用日常数据对学生的学习行为、考试分数和职业规划等内容进行统计和分析,进而为美国教育中心教学改革提供决策参考。
④政府管理领域
在政府管理领域,美国政府依靠数据分析来优化政府决策,提高政府管理能力。例如拉斯维加斯开发网络仿真模型用来掌握全市的管网实时动态,以便在事故发生时能够快速响应。
(4)构建完善的数据治理体系
美国不断细化数据经纪人对消费者隐私保护的相关条款,以有效规避信息泄露风险事件的发生。数据经纪人掌握和经手大量个人数据,若不注重数据安全和隐私保护,极容易发生大规模的信息泄露事件。
美国联邦贸易委员会(FTC)曾着重强调:未来数据经纪人不得从其他方出于不法行为目的获取个人信息,还需保障消费者自主选择退出的权利以及数据隐私权。
2023年5月,美国加州参议院对数据经纪人相关条款进行了修订,
一是将数据经纪人注册机构更改为加州隐私保护局(CPPA),并细化了数据经纪人注册信息要求,包括提供收到隐私请求等内容的情况记录、是否收集未成年人个人信息、是否收集精确地理位置信息,以及是否收集生殖与健康信息、合规审计情况和网站的消费者行权途径页面等内容;
二是要求CPPA建立个人信息可删除机制,允许消费者通过单次身份验证,要求数据经纪人及相关服务提供商删除其个人信息;
三是数据经纪人应至少每31天接入一次该删除系统,处理消费者的相关申请。
而且自2028年起,数据经纪人每三年需要向CPPA提交由独立第三方机构完成的审计报告,以证明其履行了删除相关义务,重点保障消费者的删除权。
(5)推行“数据霸权主义”
在对外政策上,与欧洲重视数据隐私保护不同,美国更加强调数据市场的自由开放,在“数字自由主义”理念的指导下,试图设定全球数据治理规则。基于这一理念,美国利用政治、法律优势,实施各类“长臂管辖”政策,反对各种形式的数据流通壁垒,在数据跨境流动、数据存储本地化、源代码开放、市场准入、数字内容审查、数字知识产权、政府数据开放等关键议题上呼吁数据自由交流,推行“数据霸权主义”。
(6)推动数字技术研发创新
美国政府非常注重前沿性研究,在国家战略层面大力推进人工智能、量子信息、先进计算等数字技术研发创新。
一方面,美国政府通过大量的资金投入和项目建设推动技术研发发展。
从2015年起,美国财政部、国防部等机构拨付资金并推出多个项目,开展人工智能、通信网络等相关领域的科研活动。2022年6月,美国参议院投票通过《2022年美国创新和竞争法案》,承诺在5年内投入约2500亿美元,用于芯片、人工智能、量子计算、半导体等关键科技领域的研究。
另一方面,美国通过机构设置和人才培养来推动技术发展。
美国政府成立国家人工智能倡议办公室,专门负责监督和实施国家人工智能战略;同时积极出台相关法案,提高人工智能领域内劳动力供给质量。此外,美国与多个国家签署战略合作协议,就人工智能技术和数字基础设施进行合作。例如, 美国与英国签署人工智能研发合作宣言,促进两国在人工智能发展方面的合作;与希腊签订科技合作协定,在数字基础设施、云技能教育等方面推动两国科技合作;与日本签署《量子合作东京声明》,旨在促进两国量子信息科学和技术的合作。
2.1.2 欧盟数据立法顶层设计,首创数据中介制度
近年来,欧盟与美国在数字经济领域的竞争愈演愈烈。美国互联网企业的迅猛发展和扩张对欧盟数字经济形成了巨大冲击。数字经济早期发展速度较慢,欧盟主要以传统的反垄断方式开展对数字经济领域的治理。伴随着数据技术快速发展以及美国龙头企业给市场带来的巨大冲击,欧盟加大了对数据行业的规范和治理力度,自2016年以来,欧盟就先后以税收或反垄断之名,向苹果、谷歌、亚马逊、高逌等数字科技公司开出巨额罚款。
(1)统一数据管理
为促进欧洲数字经济发展、反击美国互联网巨头过度扩张带来的威胁,欧盟于2015年公布了《欧洲数字单一市场战略》,提出建立单一数字市场的三大支柱,其中第三大支杜为:最大化实现数字经济的增长潜力,推动欧盟范围内的数据资源自由流通。2016年,欧盟委员会进一步启动“欧洲数据自由流动”计划,颁布《通用数据保护条例》(以下简称“GDPR”)以及《非个人数据自由流转条例》,在法律层而对个人数据与非个人数据的流动进行了规范。欧盟已构建起完整的数据流通框架。
为使数据得到最大程度地利用,欧盟于2020年2月发布 《欧盟数据战略》,旨在解决欧盟数据领域中数据供给不足、利用率低等问题,致力于建立欧盟单一数据空间(a single European data space)和统一的数据制度框架,打破各国和各部门因标准规范不同而影响数据发展的局面。
(2)创新数据中介模式
2020年11月,欧盟委员会公们了《数据治理法案》草案,提出了一个基于中立和透明的数据中介模式,作为欧盟数据战略的下一个战略目标。《数机治埋法案》的主要目的在于设立数据共享和再利川的框架与模式,进而让数批实现更高的经济价值。该法案从三个角度对数据共享进行了规制:公共部门持有数据的再利用机制、数据中介服务要求和数据利他主义,对数据中介服务给出了明确的定义与规制要求,明确了数据中介服务的合法性地位,以提高公众对该类机构的信任。该法案于2022年6月23日生效,于2024年9月24日实施。这给了相关监管机构、涉及的企业和主体近两年时间以达到合规要求。
欧盟数据中介服务提供者的服务对象包括个人、企业、公共部门、学术或非营利组织等,旨在促成数据持有者和数据使用者的数据共享,帮助双方在业务、法律、技术等方面建立起直接联系。
基于服务对象的不同,欧盟数据中介服务提供者提供三类服务:
第一类是数据持有者(法人)与潜在数据使用者之间的中介服务;
第二类是受欧盟《一般数据保护条例》管辖的个人数据主体和潜在数据使用者之间的中介服务;
第三类是数据合作社的服务。
(3)统一数据市场治理
为了在全球数字地缘竞争中获得数据主权的独立性,欧盟建立了基于自身规则的数据治理体系。与美国在数据治理上更重视市场自由竞争不同,欧盟的数据治理更强调对人权的保护。
①对外政策
欧盟出台系列战略文件和数据法案,以加强对本土数据的控制权。
一方面,欧盟自2020年起相继发布《塑造欧洲的数字未来》《欧洲数据战略》和《欧洲数字主权》等一系列战略文件,重点关注区域外数据霸权扩张对本地市场竞争的影响。欧盟通过《通用数据保护条例》建立基于个人数据保护的贸易壁垒,欧盟以外的国家只有在符合欧盟认证数据保护标准的情况下,才能跨境流动和使用欧盟数据。自该条例颁布实施以来,欧盟科技企业获得的风险投资大幅下降,每笔交易的平均融资率比上线前12个月下降了33%。
另一方面,欧盟相继通过《数字服务法案》和《数字市场法案》,严格监控数字平台的治理和竞争问题,并重新定义了大型互联网平台企业的权利、义务和责任,以加强对本土数据资源的控制权和数据市场规则的话语权。
②对内治理
欧盟建立跨部门治理框架和欧洲共同数据空间治理立法框架,以加强数据治理。
一方面,欧盟设立数据创新委员会和数据保护委员会,前者以专家组的形式,由所有成员国主管机构的代表,以及欧盟数据保护委员会、欧洲委员会、相关数据空间和特定部门主管机构的代表组成。同时,鉴于数据治理“不可能的三角”,欧盟多年来一直致力于将“公平治理”作为核心理念,捍卫数据主权,同时不断加强对个人数据权利的法律保护。
另一方面,欧盟强调在数据治理领域建立单一市场。为解决各部门和成员国因数据治理程度差异而造成的不同步问题,欧盟试图建立统一的数据治理体系。
(4)积极布局基础设施
在基础设施方面,基于《欧洲数据战略》要求,欧盟持续加大投资,强化欧盟在数字经济方面的技术主权。
一是重点投资具有重大影响力的项目,如开发欧洲公共数据空间和互通互联的云基础设施,以此将不同领域的数据资源整合在一起;
二是在欧盟《通用数据保护条例》等法律法规的基础上,制定“云规则手册”,为欧盟用户构建有竞争力、安全和公平的云服务市场;
三是依托欧盟现有的科研计划,如地平线计划,提高对数据技术的研发资金投入,重点聚焦隐私保护技术、工业和个人数据空间支撑技术;
四是积极布局数据中心和算力中心。
2.1.3 德国率先打造数据空问,建立可信流通休系
在数据要素市场的建设方面,德国前瞻性地做好顶层设计,依托其先进的工业制造体系,在工业数字化转型领域遥遥领先。同时德国出台了一系列市场监管法案。但是,德国在基础设施建设方面发展较为滞后,市场碎片化导致其应用场景较为单一,如何平衡数据监管保护和数据应用是德国数据要素市场发展的一个难题。
(1)加速数据要素巾场形成
自2016年起,德国相继发布多个战略计划,以促进其数据要素市场形成。继“数字议程(2014-2017)”后,德国政府推出“数字战略2025”,首次就数字化发展做出系统安排,在国家战略层面明确德国制造业转型和构建未来数字社会的思路和十个行动计划。随后,德国在2021年发布《联邦政府数据战略》,从加强数据基础设施、创新与负责任地应用数据、提高数据能力并打造数据文化和加强国家数据治理等四个方面发力,旨在充分挖掘数据要素价值,推动德国成为欧洲数据共享和应用的先行者。同年6月,欧盟批准德国总额高达256亿欧元的经济复苏计划,其中一半以上的援助资金被用于数字领域。总的来看通过联邦立法形式,德国既体现了政府对数据要素和数字经济的重视,以及对数据在新形势下的重要价值的重视,同时也对数据要素巾场进行了规范,以扩大高值数据的流通和应用范围,确保公平参与,同时持续打击数据滥用。
(2)积极推动数据流通
德国在全球率先提出“工业数据空间”的概念,希望通过制度确保交易中的数据安全,从而建立一套国际标准,以主导欧洲数据要素市场的建设和发展。德国通过打造工业数据空间来构建行业内安全可信的数据交换途径,排除企业对数据交换不安全的种种担忧,实现各行各业数据的互联互通,形成相对完整的数据流通共享生态。
工业数据空间是一个基于标准化通信接口、确保数据共享安全的虚拟架构,融合了可信认证、数据自主权管理和数据连接器技术解决方案。
工业数据空间为数据要素的市场化确权和定价提供了新思路。工业数据空间的核心是维护数据主体权利,允许用户决定谁拥有访问其专有数据的权利,从而实现对数据的监控和持续控制。目前,德国工业数据空间已经得到包括中国、日本、美国在内的20多个国家,以及118家企业和机构的支持。
(3)较完善的政府数据开放体系日趋形成
德国政府同样制定出台政策和系列措施来促进政府数据开放,鼓励公众参与,提高政府的运行效率。
在政策法规方面,德国政府发布“国家电子政务战略”,重点开放政府数据,同时在多项法规中明确联邦政府及其行政部门必须在符合法律的前提下推动开放数据,强调数据开放义务,明确开放项目、范围和收费等内容,并搭建了政府数据开放平台。
在激励措施方面,德国政府在城市规划、公共建设、财政预算和环境能源等治理内容上积极鼓励公民参与,并形成了一套较为成熟的模式。如巴登-符腾堡州设置公民参与顾问职位,并在各个部门设置联系点,鼓励民众、企业等主体共同参与。从运行情况来看,虽然德国公共数据开放已经发展了一段时间,但目前许多开放政府数据平台仍处于初级阶段,如何有效整合利用数据资源,仍是数据开放需要解决的难点。
(4)多样化场景的数据应用成效日渐凸显
德国数据要素市场应用场景十分丰富,除在优势制造业以外,在农业、公共服务等领域,数据也发挥了不可替代的作用。
作为制造业大国,德国在制造业领域积极采纳新技术,推广新应用。在2013年,德国政府提出了“工业4.0”计划,以发达的工业体系为基础,充分挖掘信息技术的潜力,重视对工业数据的开发和利用。例如,在机车上安装智能传感器,实时捕获机车性能、空调等运行数据,分析各部件的运行状态,识别潜在的安全隐患,用以预测和消除错误,提高操作与维护的质量和效率。数据显示,这一实时分析功能有助于将机车维护成本降低8%~10%。
在农业领域,德国政府投入大量资金,与大企业合作研发“数字农业”技术,主要用于农场管理和使用、畜群管理数字化解决方案与设备研制,以及气候控制和环境等领域。例如,思爱普推出数字农业解决方案,可以实时显示农作物生产信息;德国电信推出数字化奶牛养殖监测技术,对饲养过程进行全流程监测。
数据在新型冠状病毒感染疫情防控等公共服务领域也发挥了巨大作用。一方面,大数据在疫情追溯、防控中的应用极大地降低了疫情带来的负面影响;另一方面,数据应用催生了无数新业态,同时数据以其蕴含的巨大创新潜能、推动了经济社会的转型与变革。因此,德国将数据视为走出疫情影响、加速经济恢复的重要支柱。
(5)推动数据开放共享
欧盟制定出台系列战略,鼓励数据开放共享。《欧洲数据战略》强调从战略层面和公共利益层面打造欧洲共同数据空间,明确建立工业、交通等9个领域的数据空间。
2022年,欧盟通过《数据治理法案》,就公共数据开放共享推出3个方面的举措。
一是建立有利于公共数据利用的机制和环境。例如,建立公共部门数据再利用新机制,允许自然人或法人在公共部门提供的安全处理环境中访问并利用公共部门和机构持有的受保护数据。
二是采取数据利他主义,鼓励企业与公共机构共享数据。例如利用电信数据预测西非的埃博拉疫情。
三是支持个人或企业分享公共数据。当个人或者企业希望共享或捐赠其拥有的数据时,可在其控制的数据空间内自由进行。例如,患有罕见疾病的病人可以自愿分享其医学测试结果,以用于改善对这类疾病的治疗。
(6)数据要素市场主体行为监管日趋严格
德国建立了“法律+制度”两个层面的数据要素市场监管体系。
①法律层面
在法律层面,德国通过立法已经建立了相当全面的数据保护法律法规。
一方面,德国出台系列综合立法,对数据要素市场进行全面监管。例如,德国参照欧盟《通用数据保护条例》制定了《联邦数据保护法》,明确了数据保护规则和框架。
另一方面,德国出台了针对各领域的专业立法,例如,《(反限制竞争法)第十修正案》旨在加强对数字行业巨头的监管;《通信法》和《媒体法》等业内专门法律对通信、媒体等相关领域的数据予以保护。
以《联邦数据保护法》为依据,德国各州基于各自的实际情况也出台了相应的数据保护法案。德国数据监管法律体系日渐成熟。
②制度层面
在制度层面,德国政府在国家层面设立了联邦数据保护专员。联邦数据保护专员只服从法律,接受联邦法律监督,独立行使职权,最大力度地保证了法律的公正性。此外,德国政府内部建立监督专员办公室,联邦各州也均设立数据保护专员,针对本州范围内的数据安全问题进行监管。
2.1.4 英国金融行业先行先试,促进数据的市场交易
脱离欧盟后,英国积极建设本国数据要素市场,制订了新的全球数据战略计划,数据市场规模在欧洲处于领先地位。在对外合作方面,英国与多个国家建立了全球数据合作伙伴关系,签订了新的数据传输协议。在数据治理方面,英国不断完善数据跨境流动治理框架,降低国际数据传输成本,为本国数字经济在脱欧后实现自主良性发展创造了有利条件。在基础设施方面,英国制定出台相关政策,大力推动数据中心等关键领域基础设施建设。
(1)欧洲最大的数据市场规模
2020年英国就已经成为欧洲最大的数据市场。英国数据市场规模约占国内生产总值4%,数字贸易占英国国际服务贸易的最大部分,2019年英国数字贸易出口额就达到了2340亿英镑。数据要素安全有序流通带来的生产力和竞争优势,使英国国内生产总值增长了约278亿英镑。2019年9月,英国政府发布《国家数据战略》,旨在通过数据流通和应用推动经济增长,改善公共服务,使英国成为下一轮数据驱动型创新的领导者。《国家数据战略》为促进经济发展建立了框架。《国家数据战略》承诺到2027年,英国政府对数据研究和开发的投资将增长到国内生产总值的2.4%,建立诸如数据伦理与创新中心和图灵研究所等机构,并就“数据信任”这一新型的数据共享框架开展开创性工作。
(2)政府数据开放极具借鉴意义
英国政府采取多项措施开放数据,使英国在全球数据开放指数中处于领先地位。
①政策制定
在政策制定方面,英国制定出台了《抓住数据机遇:英国数据能力策略》《G8开放数据宪章英国行动计划》《透明度与开放政府》《英国开放政府国家行动计划(2016-2018)》和《英国开放政府国家计划(2019-2021)》等系列文件。系列文件为英国政府数据开放提供了较为深厚的政策基础。
②机构设立
在机构设立方面,英国政府先后成立信息经济委员会和数据战略委员会,以制定和推行英国政府的数据开放战略,并监督政府数据开放工作的实施情况,同时成立公共数据集团和数据开放研究所,负责具体的数据开放业务。
总的来看,英国政府数据开放是国家从制度和架构两方面系统化推进的结果。
(3)开放银行战略价值日渐凸显
作为一个高度重视数据价值的国家,英国在开发和利用金融数据、促进金融数据的贸易和流通方面实施了开放银行战略。该战略通过开放安全的金融市场应用程序接口,向授权的第三方提供数据,使金融市场中的中小企业和金融服务商能够更安全、便捷地获取和共享数据,进而激发市场活力,鼓励金融创新。目前,英国已有100家金融服务商参与开放银行计划并提供创新服务,大幅扩大了数据交易市场的规模。
为了向用户提供更准确的信息服务,金融业随后发起了“开放银行倡议”。根据该倡议,金融服务商能够快速访问并获取企业数据,出具企业的信贷档案,以便贷款机构更为便捷地审核企业资质,提供最优贷款方案。目前,英国的“开放银行倡议”服务拥有300万个私人和企业用户,每年可带来上百亿英镑的收益。
(4)数据市场监管体系日益成熟
脱离欧盟后,英国自2021年开始自主建立独立于欧盟数据治理体系的数据保护制度。相较于欧盟,英国的数据治理有两个创新思路:
一是掌握制定规则的主动权,摆脱欧盟对数据流动的限制;
二是以“平衡”为创新导向,找到一个既有利于创新又能实现有效监管的数据跨境流动治理框架。
基于上述要求,英国政府专注于提供灵活的监管制度,在保障公民数据权益的同时鼓励对数据的开发应用。
2021年7月,英同启动其数字监管计划,以抓住数字技术发展的机遇,推进数据要素市场建设。其监管计划主要遵循以下三个原则:
一是创新为先,消除不必要的监管和商业负担,优先考虑技术标准等非监管措施;
二是确保监管的前瞻性和一致性,并确保监管规则、监管能力和水平适应数字技术的快速发展;
三是监管决策者应具有全球视角,并在决策时将监管行为对国际动态的影响考虑进来。
这一计划的出台标志着英国数字监管新篇章的开启。随后,英国还将《网络安全法案》提交议会审议,以出台推动数字产业发展的新制度。
(5)数据基础设施投资力度不断加大
英国政府从战略制定和产业扶持两个层面来推动数据基础设施建设。
①战略制定
在战略制定方面,英国2017年发布的《产业战略:建设适应未来的英国》明确提出英国在人工智能方面应重点发力的四个领域:
使英国成为全球人工智能和数据创新中心;
支持各行业使用人工智能和数据分析技术;
在数据安全和人工智能方面保持领先地位;
提高公民的职业技能。
随后,英国发布《在英国发展人工智能》《产业战略:人工智能领域行动》等政策文件,优先支持关键领域的创新。
②产业扶持
在产业扶持方面,英国政府设立多个基金项目,加大对数据基础设施的投资力度,如设置“产业战略挑战基金”并拨款9300万英镑用于机器人与人工智能技术研发。截至2020年12月,英国政府已向包括虚拟技术在内的沉浸式新技术研发投入3300万英镑,向数字安全软件开发和商业示范投入7000万英镑,向下一代人工智能服务等领域投入2000万英镑。2021年,英国研发投资高达125亿英镑,呈逐年上升态势。
2.2 亚洲其他地区数据要素价值发挥的理念和做法
2.2.1 日本设立“数据银行”,成立数字厅
由于面临经济持续低迷、人口老龄化、基础设施老旧等经济社会问题,因此日本试图通过发展信息技术产业,尤其是数据开放和云计算等相关技术和产业,以缓解相关社会问题带来的负担。一方面,日本率先布局顶层设计,制定出台一系列数字发展战略;另一方面,日本开创个人数据银行模式,稳步推进个人数据开发和利用。同时,在数据治理和基础设施方面,日本也展开了相关探索。
(1)以战略高位推动数据市场建设和发展
日本数据要素市场相关顶层设计工作起步较早,自l995年起便出台国家战略文件,明确重点发展信息通信、大数据等产业。2012年7月,日本推出《面向2020年的信息和通信技术综合战略》,将大数据作为发展的重点。2013年6月,日本公布新信息技术战略《创新最尖端信息技术国家宣言》,宣言全面阐述了2013-2020年期间以发展开放公共数据和大数据为核心的日本新IT国家战略,提出要把日本建设成为一个具有“世界最高水准的广泛运用信息产业技术的社会”。
近年来,日本在数据要素市场建设方面持续发力。2021年5月,日本通过《数字改革关联法》等6部法案,同时成立数字厅专门负责政府部门的数字化发展,旨在加速推进日本数字化改革。2021年6月,日本出台《综合数据战略》,明确数据战略的基本思路,制定社会愿景和实现该愿景的基本行动指南,旨在打造世界顶级数字国家所需的数据基础设施,为数据要素市场建设提供指导性方针。
(2)以数据银行促进个人数据交易
在数据交易方面,日本从自身国情出发,创新推出数据银行交易模式,最大化释放个人数据价值,提高数据交易流通的市场活力。数据银行在与个人签订契约之后,通过个人数据商店对个人数据进行管理,在获得个人明确授意下,将数据作为资产提供给数据交易市场进行开发和利用。数据银行以日本《个人信息保护法》为基础管理个人数据,基于促进流通的原则对数据权属进行界定。
从数据分类来看,数据银行内交易的数据大致可分为行为金融数据、医疗健康数据及偏好数据等几个类别。
从业务内容来看,数据银行从事包括数据保管、贩卖、流通在内的基本业务和个人信用评分业务。
日本通过数据银行搭建起个人数据交易和流通的桥梁,促进了数据交易流通市场的发展。
(3)以开放战略推动政府数据共享
日本数据开放比欧盟国家起步晚,但从总体来看,数据开放价值日益凸显。2012年,日本在《电子政务开放数据战略》中首次明确开放数据战略,通过对公共数据的二次加工,提高了行政和企业效率。此后,日本又陆续发布多个开放数据文件,如2016年的《开放数据2.0》和《促进公共和私营部门数据使用基本法》,2019年的《开放数据基本指南》,这些文件对数据开放的管理办法做出了详细规定。从开放价值来看,公共数据在工业制造、医疗、教育、犯罪预防、防灾减灾等领域的应用,产生了巨大的经济和社会效益。
一是在公益事业领域,如会津若松市使用开放数据绘制全市消火栓地图、佐贺市使用开放数据绘制本市移动热点地图等;
二是在服务行政活动中,通过公开数据,减少公民的“信息请求”;
三是在商业活动中,如扎伊姆公司基于公共数据为用户免费提供医疗账单服务,并通过提供付费服务和投放广告来获利。
(4)以个人信息保护构建数据治理规则
日本数字经济虽然起步较晚,但在数据治理领域持续推动个人数据保护,积极参与全球数据治理规则的制定。
在个人数据保护方面,日本2003年通过《个人信息保护法》,并先后多次修订,对个人数据进行严格保护。为落实该法,日本政府专门成立相关执法和监督机构,成立个人数据保护委员会,将其作为最高执法机构,监督私营部门的个人数据保护,同时与内务和通信部联合监管公共部门个人数据保护工作。
在国际数据治理规则接轨层面,日本充分利用世界贸易组织、二十国集团、世界经济论坛、亚太经济合作组织等多边组织,力图推动与美国、欧盟数据治理模式的对接。日本在《通用数据保护条例》生效两个月后,与欧盟签署《日本-欧训经济伙伴关系协定》,允许日本和欧盟之间的个人数据自由流通和共享。日本致力于构建数据“基于信任的自由流通体系”,推出“大阪轨道”系列行动,以谋求在平等地位上与美欧等国家和地区就数字经济的相关规则谈判。这表明日本致力于促进其数据治理方法与美国、欧盟数据治理方法的兼容和一致,并积极协调建立美国、欧盟和日本的“数据流通圈”。日本这一举措使其在与圈外国家谈判时具有极高的话语权,也从侧面反映了日本数据战略的灵活性。这些举措使其逐渐发展成为全球在数据治理方面最开放的国家之一。
(5)以制造计划推进数据基础设施建设
日本先后出台多个战略制造计划来推动其数据基础设施建设。日本在《科学技术创新综合战略2020》中制订并推广战略性创造计划,针对人工智能、物联网、大数据等革命性网络空间基础技术,以及自动驾驶、机器人、三维打印等革命性制造技术,制订研发支持计划。2020年,日本通过的《国家战略特区法修订案》积极推动“智慧城市”建设,以期在城市内实现自动驾驶、无人快递、无现金支付、在线问诊等生活服务。2021年,日本发布《信息和通信技术基础设施区域扩展总体规划2.0》,明确提出:通过年度预算拨付方式加快第五代移动通信网络和光纤的铺设进度,计划到2023年底将第五代移动通信网络基站数量增加到21万个。这是原来计划的3倍。此外,日本经济和工业部将投入1100亿日元用于下一代通信技术的研发,重点发展半导体和通信系统。
2.2.2 韩国Mydata模式建立监管体系
韩国政府在2020年启动数字经济发展计划,同时制定出台《公共数据法》,以战略规划明确数据的重要地位,要求国家和地方政府积极推动公共数据开放,并委托相关机构开发大数据平台,以更好地促进数据开放和数据应用。从监管来看,韩国也制定出台了系列政策,在保护个人隐私的基础上,促进数据跨境自由流通。
(1)明确数据对经济增长的战略地位
长期以来,韩国智能终端普及率和移动互联网接入速度均居世界前列,数据产出量达到世界先进水平。为充分利用这一天然优势,韩国持续制定出台大数据发展战略,并将大数据作为经济增长的新引擎加以推广。
基于朴槿惠执政时韩国政府提出的国家“创意经济”发展政策,韩国多个部门提出具体的大数据发展计划,
如科技政策研究院以构建“英特尔集成数据库”为目的提出的“数据中心战略”,
国家科技委员会2012年制定的《大数据发展环境未来战略规划》,
未来创造科学部提出国家级大数据发展计划以及《第五次国家信息化基本计划(2013-2017)》。
此外韩国在政府层面发布了《智能信息社会中长期综合对策》,建设基于大数据等技术的智能信息社会,积极应对第四次工业革命的挑战。
2021年,首尔市政府发布《首尔元社会五年规划》,并宣布从2022年起,在经济、文化、旅游、教育、书信等全市业务领域建立元宇宙管理体系,以提高城市的竞争力,增强城市活力和吸引力。这是韩国地方政府在虚拟现实服务领域的第一个工作计划。
(2)公共数据开放利用成效逐步显现
韩国制定出台《公共数据法》,明确要求政府推进公共数据开放和大数据平台建设,取得了显著成效。自2021年12月以来,韩国977个政府机构开通了公共数据共享平台,开放了49324份文件数据和8055个应用程序接口。
韩国交通部是韩国最早引入数据开放和分析应用的部门之一,例如,利用大数据分析市民交通卡和电信企业通信数据,预测地铁到站时间和车辆拥堵程度。
此外,首尔建立了“TOPIS”平台,该平台集成了综合公共交通管理系统、交通地图系统和监控摄像头系统,通过收集、传递和分析交通数据,与警察、气象部门和道路交通管理部门相互配合,极大地改善了城市交通状况。
该平台推出后,许多韩国企业开始探索如何利用平台上的公共数据开发新产品、新业务。据韩国技术信息通信部的数据,参与政府数据相关业务的新上市企业数量从2019年的5家增加到2021年的26家,企业市值已高达5.8万亿美元。
(3)数据要素巾场监管制度不断完善
韩国在数据治理领域建立了独特的国家治理模式,发展出独特的商业并搭建了相应的技术监管框架。
在个人数据保护方面,韩国在2011年3月通过的《个人数据保护法》为私营部门和公共机构处理个人数据提供了指导方针,该法案在整体上与日本公私分明的数据治理体系较为类似。该法案现已成为韩国数据保护领域的重要文件,在个人数据保护评估、跨境数据流动、数据披露申报、个人信息团体诉讼等方面做了更全面、更详细的制度安排,同时保证了通信行业、金融行业等各自领域立法的有效性。
2020年1月,韩国议会对《个人信息保护法》《信息技术与安全法》和《信贷信息保护法》等3部法律进行修正,并顺利通过修正提案,同时将数据保护条款纳入《网络法》。
在网络安全保障方面,2019年韩国政府发布了《国家网络安全战略》,提出六大战略支柱,包括提高国家重点基础设施安全、增强网络攻击应对能力、发展网络安全产业等举措。
2020年7月发布的“韩国新政”包括两项网络安全数字新政项目。
2021年9月通过的《数据产业振兴和利用促进基本法》建立了数据要素流通过程中的纠纷调解机制,支持数据交易和流通,推动培育数据要素市场。
(4)数据基础设施建设水平全球领先
韩国的信息和通信技术基础设施水平处于世界前列。自2009 年以来,韩国在国际电信联盟发布的信息和通信技术发展指数中一直处于领先地位,其地理和人口优势带动了信息和通信技术的快速发展。
截至2020年12月,韩国的互联网和智能手机普及率是世界上最高的。同时,韩国在联合国发布的电子政务发展指数中排名第一。韩国信息和通信技术政策基于明确的政府战略,在基础设施建设方面取得了非常大的成功。
为有效应对关键信息基础设施面对的威胁,韩国通过《关键信息基础设施保护法》,并在总理办公室设立了关键信息基础设施保护委员会,以进一步推动对信息基础设施的保护和开发。
2.3 我国数据要素市场的培育和推进
2.3.1 构筑数据要素市场蓝图
为有效解决公共数据的交易和流通,各地政府纷纷推出了“政府主导+企业主导”的两级模式,来构建本地数据要素交易市场。
我国改革开放的前沿阵地广东,充分吸收土地、资本等要素市场建设的有效经验,率先推出“1+2+3+X”数据要素市场化配置方案,探索数据要素市场化配置路径。
“1”是要统揽,做到“全省一盘棋”;
“2”是搭建并行的两级数据要素市场;
“3”是推动数据收集和交易等内容的新型数据基础设施、数据运营机构和数据交易场所建设;
“X”旨在促进数据在各个场景中的应用,释放数据要素的潜力。
一级市场强调政府管理机制,构建公共数据运营组织,打破原有公共数据运营模式,推动公共数据分级、分类管理,打破“数据孤岛”,确保公共数据顺利进入市场,实现流通和交易,同时利用规模经济,促进公共数据的深入升发和利用。
二级市场强调自由竞争原则,建立健全市场监管和各项保障竞争的制度,充分激发供给主体的市场活力,充分发挥价格机制的作用,由市场供求关系及其自身价值决定数据要素价格,优化数据资源配置,增强数据要素在数字经济发展中的基础性作用。
此外,北京以“北京金融公共数据专区、北京国际大数据交易所”为特色,上海以“上海数据集团有限公司、上海数据交易所”为龙头,福建以“福建省大数据有限公司、福建大数据交易中心”为核心,区域数据要素市场两级体系的雏形初步形成。
江苏上海、北京等地纷纷以生态培育为目标,创新数据要素市场发展模式。
江苏省率先开展数据要素市场生态培育项目,基于数据的资源、资产与资本属性,以构建生态系统的思路,围绕数据收集、管理、应用、流通等四大方向,引导政府、园区和各类企业先行先试,遴选了一批培育项目,并对其进行跟踪指导,打造数据要素市场价值链,构建数据要素市场生态体系,推动数据要素有序流动和高效配置。
上海数据交易所首先提出“数商”概念,将数据要素相关的业务主体汇聚到一个平台上,包括数据交易主体、数据合规咨询、质量评估、资产评估、交付等服务商,帮助企业和机构更好地整理、处理和管理数据,培育和规范新主体,构筑更加繁荣的流通交易生态。
北京国际大数据交易所则建立了面向全球的首个数字经济中介产业体系,对数据托管、数据经纪等一系列创新型中介产业进行培育。
数据托管是对受托数据清洗脱敏和数据来源合法性核验,进而实现数据的合规存储、授权管理和市场应用,促进数据价值的深度挖掘和提升;
数据经纪则侧重对接数据资源、撮合数据交易,促进数据可信有序流通和市场化利用,加速数据与经济活动融合,催生新产业、新业态、新模式。
2.3.2 安全是底线
安全是数据交易、流通和使用的底线,也是数据交易、流通和使用的基本法律要求。在数据交易、流通和使用中,需要确保数据的安全性和可靠性,以保护个人隐私、商业秘密和国家安全。
中国在数据安全和保护方面已经出台了一系列的法律和政策。2016年颁布的《网络安全法》是保障网络空间安全的基础性法律,其中规定了网络运营者、网络产品和服务提供者等主体的安全责任和义务。2018年颁布的《电子商务法》也针对电子商务领域的数据安全和隐私问题做出了规定。
为了进一步促进数据的安全管理和使用,国家还制定了《数据安全法》和《个人信息保护法》等相关法律。这些法律对数据收集、存储、加工、传输、使用等环节的安全要求进行了全面的规范,要求相关主体尊重个人隐私,保障数据安全,不得滥用数据获取不当利益。
同时,中国还成立了国家数据局,负责推进数据要素基础制度建设,推进数字中国建设,推进数字经济发展等工作。这些措施将有助于促进数据的高质量和安全使用,并推动数字经济的健康发展。
数据安全和隐私保护是数字时代的重要任务,也是法律要求。全球各国都在加强数据安全和隐私保护方面的立法和监管工作,以确保数据的真实性和可信度,保障个人隐私和商业机密,以促进数据的有效流通和共享。
2.3.3 价值发挥是关键
“数据二十条”和数据入表是实现数据价值发挥的基础性政策和举措。2022年12月2日,《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》(简称“数据二十条”)发布。
“数据二十条”的核心内容是提出了4项数据基础制度,包括数据产权制度、数据要素流通和交易制度、数据要素收益分配制度和数据要素治理制度。在这4项制度中,数据产权制度是基础,流通和交易制度是核心,收益分配制度是动力,治理制度是保障。
“数据二十条”作为中央层而的顶层设计要实际落地,只有在数据被确认为是“资产”的前提下才可进行。2023年8月21日,财政部发布《企业数据资源相关会计处理暂行规定》(简称《暂行规定》),自2024年1月1日起施行。《暂行规定》明确了数据可以在一定条件下作为资产入表,这有利于完整、准确地反映企业在数据上的投入成本,同时有助于实现数据在市场流通时的合理定价,最终可以促进数据在市场上的交易。
数据资产估值入表是对企业分散的数据资源各项属性的完整登记和有效组织,是将其变为有价值数据资产的关键一步,同时也是开展数据标准制订、数据质拭提升、数据认责等治理工作的基础。
通过对企业数据资产全面盘点,可提升数据的可及性,从而有效支持数据资产治理和数据资产运营工作。
数据资产估值入表,理顺了数据产权治理,充分发挥了会计准则“启动器”作用,完成了数据从生产要素到经济资产的跨越,有利于释放出数字经济的新动能。
《暂行规定》的实施在核算企业数据资产方面具有里程碑式的意义。数据作为数字经济时代的第一生产要素,有望成为政企报表和财政收入的重要支撑,为后续数据要素的流通和交易奠定政策基础。
将数据作为独立的生产要素,与业务资源一样重点关注其价值属性,并从全生命周期视角体系化地推动数据“资源化-资产化-资本化”的发展,将能更加直观地展示新型数据战略的实施成果。
第三章 数据要素价值发挥的难点
数据作为生产要素要最大程度发挥其价值,就必然要对数据的权属、定价、交易和流通等环节的诸多内容做出相应的制度安排。而以上任何一个环节,都涉及方方面面的问题。这里面的绝大部分问题是数据自身的独特性所决定的。
3.1 数据要素市场制度难点
数据作为生产要素进入市场交易和流通,必然涉及数据的权属、价值评估、流通和监管等环节。
3.1.1 数据权属制度
我国民法典第127条对数据权益的民法保护做出了宣示性规定,宣告了数据权益本身就是一种民事权益类型,数据权益作为民事权益体系的重要组成部分,应当受到民法典关于民事权益保护规则的调整。
然而,从立法层面看,我国目前尚无法律和行政法规对数据权益做出具体界定,只有一些地方性立法在数据保护方面进行了相关探索。中共中央、国务院发布的“数据二十条”就建立数据产权制度、数据要素流通与交易、数据要素收益分配以及数据要素治理等基础性制度提出了全面和系统的意见,这对于规范数据保护和数据利用具有非常重要的指导作用。但是,地方立法和中央政策文件不能代替全国性立法。由于数据本身是一种新型财产,现有法律规则难以全面保护数据权益,从国家立法层面推动数据产权确权和数据权益保护势在必行。
(1)反不正当竞争保护法不能替代数据确权
有观点认为,可以通过反不正当竞争法对数据进行保护,即通过反不正当竞争法第2条的兜底性条款,以承担反不正当竞争法上的责任为手段,从反面对数据权益进行保护。然而, 通过竞争法调整数据纠纷并设定数据财产权的边界,实际上是在缺乏数据产权立法的情形下,不得已面为之的选择。
此外,由于反不正当竞争法并未为数据财产权提供系统的基础性保护规则,反不正当竞争法相关规则无法规范数据利用的具体行为,也无法对数据侵权做出具体认定并进行救济。
(2)知识产权保护不能替代数据确权
在满足特定条件时,部分数据将会受到知识产权规则的保护。例如,当数据以数据产品的形式呈现时,如果该数据产品具有一定的独创性(如构成汇编作品的数据库),那么其应当受到著作权法的保护。再如,当数据符合反不正当竞争法所规定的商业秘密的构成要件时,可以通过商业秘密的规则加以保护。正是由于某些数据可以成为知识产权的载体,加之数据和知识产权一样均是无形财产,交易流通的主要方式均是许可利用,知识产权中有关许可利用的规则也可以适用于数据交易。因此,有观点主张,借助知识产权的规则完全可以实现对数据的有效保护。
但是,数据权益不是归属于一个主体,而是归属于不同的主体,需要区分数据来源者与数据持有者和使用者的权益分别予以保护。针对数据来源者权益,又要区分自然人主体的来源者权益和非自然人主体的来源者权益,分别予以保护。知识产权保护的基本理念是赋予创作者垄断权利,从而激励创作者投入更多的时间和精力进行创作。但是,保护数据权利并不意味着赋予数据持有者和使用者对数据的垄断性权利,这将限制数据在市场中的流通。
所以,如果以知识产权保护替代数据确权,一方面将无法准确地确定数据权益,将知识产权的相关规则照搬到数据确权中,也会给数据确权带来不利影响;另一方面,通过知识产权保护替代数据确权,难以解决数据确权中涉及的公共利益和国家利益。知识产权的侵权构成要件和数据权利的侵权构成要件并不完全相同,倘若通过知识产权规则保护数据,将会引发系统性问题。
(3)个人信息保护不足以替代数据确权
在数据处理者处理个人信息生成数据的情形下,个人信息是数据的主要来源,但这并不意味着个人信息保护规则可以替代数据确权。数据确权与个人信息保护是两个互不相同、彼此独立的法律关系。数据确权主要调整数据处理者与其他市场主体关于数据利用的法律关系,而个人信息保护调整的是任一数据处理者与信息主体之间的法律关系。
因此,数据保护涉及多个法律部门,需要进行多维度的保护,其保护方法也具有综合性。数据权属制度是数据要素市场化和产业发展的关键制度安排,涉及数据的所有权、使用权、收益权等基本权益的确定和保护。
根据不同的数据类型和性质,数据权属制度可以包括以下三种类型:
①数据资源持有权。指数据所有者或持有者对数据的持有和管理权利,包括数据的所有权、管理权、使用权等。
②数据加工使用权。指数据加工者对数据进行处理、分析、挖掘等过程中产生的使用权,不改变数据的所有权和使用权。
③数据产品经营权。指数据产品开发者或经营者对数据产品进行开发、销售、运营等过程中产生的经营权,包括数据产品的所有权、销售权、出租权等。
在数据权属制度中,数据的所有权是基础和核心,其他权益的确定和保护都依赖于所有权的明晰。在推进数据要素市场化配置的过程中,需要建立健全的数据权属制度,明确各类数据的权益主体和权责关系,保障各方权益的合法性和公平性。同时,需要加强数据监管和法律保护,防止数据侵权和不当竞争行为,促进数据要素市场的健康有序发展。
数据权属制度是指规范数据权属关系的法律制度。在数据权属制度中,数据的权属关系被明确规定,以便于保护数据的权利人和使用者的权益。
数据权属制度通常包括以下四个方面的内容:
①数据的权属关系。规定数据的所有权、使用权、处理权等权属关系。
②数据的收集和使用。规定数据的收集和使用的条件和限制,例如数据的来源、数据的使用目的、数据的使用方式等内容。
③数据的保护。规定数据的保护措施,例如数据安全、数据隐私等内容。
④数据的转让和许可。规定数据转让和许可的条件和限制,例如数据的转让价格、数据的许可期限等内容。
数据权属制度是保护数据的权利人和使用者的权益,促进数据合理利用和流通的基础性制度。数据权属制度通常由国家立法机关制定,例如《数据保护法》《数据权属法》等。
(4)数据知识产权的探索与挑战
2021年9月,中共中央、国务院印发《知识产权强国建设纲要(2021-2035年)》,明确提出“研究构建数据知识产权保护规则。”同年10月,国务院印发《“十四五”国家知识产权保护和运用规划》,再次提出“研究构建数据知识产权保护规则”的要求。此后,国家知识产权局围绕构建数据知识产权保护规则开展了大量工作。2024年2月29日,浙江省市场监督管理局的《关于深化数据知识产权改革推进数据要素赋能发展的意见(征求愁见稿)》标志着数据知识产权探索将进入实际运用实施阶段。
作为一项全新的制度探索,数据知识产权一方面面临更复杂和高难度的挑战:传统知识产权主要针对实物产品、方法或服务,如专利、商标、著作权等,而数字经济时代的知识产权则主要针对数字产品或服务,如软件、网络内容、数字音乐等。目前,数字技术的发展速度远超过知识产权法律的制定和完善速度,导致数据知识产权法律体系存在滞后的情况。数字经济的特点是技术含量高、产权多样、应用范围广,这对于保护数据知识产权提出了更加复杂和高难度的挑战。
另一方面数据要素确权存在难题:数据本身的复杂性是数据知识产权存在难以界定的重要原因之一。在法律学的层面上,数据信息作为法律关系客体,数据权利是以数据权利客体“数据”来定义的,而当前我们对于数据的认识还不全面;另外,人工智能算法会对数据进行深度学习和创新性的处理,其产品甚至可以做到“以假乱真”。而面对这种情况,生成的数据可能来自多个知识产权的权利人,这就使得对于明确这些数据的权利归属的需求会更加迫切,而目前还没有权威、公认的界定数据产权的方法,理论层面仍存在多项需进一步探索之处。
3.1.2 数据资产评估制度
(1)数据资产的确认
评估对象范围的界定直接影响着价值评估的准确性。评估范围的扩大或者缩小,会直接导致评估值的偏大或者偏小。例如,在对企业流动资产评估时,很容易把机器设备作为流动资产列入评估范围,这样就会导致评估结果偏大;或者会忽视企业的低值易耗品,结果就会导致评估结果偏小。
数据资产评估时,评估对象是“数据资产”。数据资产在具体确定评估范围时存在以下难点:
第一,数据资产的属性仍不清晰,是列入无形资产还是单独列示数据资产一个新科目,数据资产如何进入会计报表,仍存在一系列问题;
第二,企业数据资源形式多样,数字、文字、图片、视频都属于企业的数据资源,但是在评估时要去除无效、重复等一些不能给企业带来经济价值的信息。
会计对于资产的定义规定了三个条件:
一是企业拥有该项数据资源的所有权或者使用权;
二是该项数据资源应当是企业通过已经发生的购买行为等交易方式取得或者自行开发形成的,并且其成本能够可靠地计量;
三是企业使用该项数据资源能够产生现金或现金等价物的流入,并且其价值能够可靠地计量。
只有符合上述确认为资产条件的数据资源才能确认为资产。数据的开发必须基于特定业务需求,只有能够满足生产经营需要的数据才能创造经济价值,转化为资产。所以,数据资源确认为会计认可的资产,具有比较大的难度。
(2)评估方法的选择
《资产评估执业准则-资产评估方法》规定:当满足采用不同评估方法的条件时,资产评估专业人员应当选择两种或者两种以上评估方法,通过综合分析形成合理评估结论。但是存在法律、行政法规规定,评估对象仅满足一种评估方法,受操作条件限制这三种情形时,资产评估专业人员可以采用一种评估方法。
对于数据资产评估方法的选择,要综合考虑评估目的、特点和评估方法的适用性。对数据资产进行评估,目前有三种方法,但这三种评估方法也都存在相应的难点。
①市场法
市场法的运用前提就是要有活跃的数据交易市场。目前虽然一批数据交易中心先后得以建立,比如中关村数海、数据堂、浙江大数据交易中心、贵阳大数据平台等,但是到具体数据交易时,定价的公开、透明性难以保证。
其次就是对评估对象和可比资产的差异如何量化处理。数据资产的价值受经济、技术、法律等多方面因素影响,这无疑加大了评估工作量,而且以上各因素对于价值的影响不同。如果采用层次分析法对各个影响因子赋予权重,层次分析法在使用矩阵运算时也要有专业人员对一些因素进行量化,存在一定的主观性。
②成本法
成本法的评估思路就是资产的重置成本扣除实体性贬值、功能性贬值和经济性贬值等三种贬值。
运用成本法的前提是资产存在贬值。同无形资产一样,数据资产不具有实物形态,且价值存在着较大的不确定性,其价值可能会随着数据量的积累而升值,也有可能因为数据失去时效性而贬值。数据资产主要包括获取、分析加工、维护等环节的成本。由于目前数据资产未能在资产负债表上明确列示,数据资产的成本会因为会计核算和构成多样而导致成本的全面性难以保证。
此外由于数据资产不具有实物形态,所以不用考虑实体性贬值。功能性贬值和经济性贬值的求取比较复杂。目前解决思路是运用AHP法对导致数据资产产生的功能性贬值因素赋予权重,评估专业人员确定各因素的贬值率,加权得到功能性贬值率。由于法律法规限制而导致的禁止流通或者需要脱敏带来的费用也作为经济性贬值。
③收益法
收益法评估资产价值的前提是未来资产的收益和风险可以量化。根据数据资产的特点可以得知,数据资产的不确定性比一般无形资产更要大。这首先体现在法律保护年限上。我国有专门的对于专利权、著作权的法律保护期限,但是数据资产目前还没有明确的法律对其保护年限进行约束,所以其收益和风险以及未来收益期限的不确定都给收益法在数据资产评估上的运用造成了困难。
但是目前对数据资产评估还是主要采用收益法,其次在具体参数确定时辅之以其他方法。相比于市场法和成本法,收益法更适合数据资产的评估。但是这并不代表收益法是首选方法。在评估模型的探索中既要不断完善收益法,也要考虑突破收益法的思维束缚创新评估模型。
3.1.3 数据流通制度
当前,我国逐步构建了四个层次的数据要素流通规则:一是党和国家明确提出要建立数据要素流通全流程合规与监管体系;二是地方政府出台的数据促进条例,促进数据流通和开发利用;三是以数据交易机构为主的交易平台制定的数据交易流通规则;四是数据要素流通标准体系。
(1)党和国家的制度安排
国家层面,《中华人民共和国网络安全法》(2017年6月1日起施行,以下简称《网络安全法》)、《中华人民共和国数据安全法》(2021年9月1日起施行,以下简称《数据安全法》)及《中华人民共和国个人信息保护法》(2021年11月l日起施行,以下简称《个人信息保护法》)共同构筑了维护国家主权、安全和发展的数据基础法律,形成了中国数据合规法律体系的“三驾马车”。
《网络安全法》明确了关键信息基础设施运营者在个人信息和重要数据的境内存储、出境评估等方面的法律义务。
《数据安全法》对“数据分级”做出了规定,从多个方面规定了相关企业的数据安全义务,包括制度管理、风险监测、风险评估、数据收集、数据交易、经营备案和配合调查等内容。
《个人信息保护法》对“个人信息”做出了界定,明确个人信息不包括匿名化处理后的信息,确立了个人信息处理的合法原则、正当原则、必要原则(即处理个人信息限于实现目的的最小范围)、诚信原则、质量原则(即要避免个人信息不准确或不完整)、安全原则(即保障个人信息的安全)等六大基本原则。
中共中央、国务院关于数据要素流通有三个重要文件:
一是2020年3月30日,《中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见》提出加快培育数据要素市场,加快推动各地区各部门间数据共享交换,研究建立促进企业登记、交通运输、气象等公共数据开放和数据资源有效流动的制度规范,支持构建农业、工业、交通、教育、安防、城市管理、公共资源交易等领域规范化数据开发利用的场景,制定数据隐私保护制度和安全审查制度;
二是2022年1月6日,国务院办公厅印发《要素市场化配置综合改革试点总体方案》,明确提出探索建立数据要素流通规则,要求完善公共数据开放共享机制、建立健全数据流通交易规则、拓展规范化数据开发利用场景、加强数据安全保护,具体提出了探索开展政府数据授权运营、探索建立数据用途和用量控制制度、推动完善数据分级分类安全保护制度、支持打造统一的技术标准;
三是2022年12月2日,中共中央、国务院发布的“数据二十条”,以促进数据合规高效流通使用、赋能实体经济为主线,完善和规范数据流通规则,构建促进使用和流通、场内场外相结合的数据要素流通和交易制度,明确提出建立数据流通准入规则、建立数据分类分级授权使用规范、建立实施数据安全管理认证制度,出台数据交易场所管理办法,建立健全数据交易规则,制定全国统一的数据交易、安全等标准体系。
此外,《中共中央 国务院关于加快建设全国统一大市场的意见》《数字中国建设整体布局规划》《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》《“十四五”数字经济发展规划》《“十四五”大数据产业发展规划》《“十四五”国家信息化规划》等文件,都提出加快建立数据基础制度、市场规则和标准规范,推动公共数据汇聚利用、畅通数据资源大循环、有效释放数据要素价值。
例如,《“十四五”数字经济发展规划》提出推动数据资源标准化工作,深化政务数据跨层级、跨地域、跨部门有序共享,加快构建数据要素市场规则,探索建立数据资产登记制度和数据资产定价规则,健全数据交易平台报价、询价、竞价和定价机制。
(2)地方政府颁布的数据条例
近年来,为了让数据真正成为生产要素,大部分省市都颁布了相关数据条例(包括大数据条例、数据条例、数字经济条例等,统称为“数据条例”),促进数据作为生产要素开放流动和开发利用。各省市在数据流通方面有四个共识:
一是推动公共数据面向社会开放,并持续扩大公共数据开放范围,推进公共数据和其他数据融合应用,不断提高公共数据共享、开放和利用的质量与效率;
二是加快培育数据要素市场,完善数据要素市场规则,推动构建数据收集、加工、共享、开放、交易、应用等数据要素市场体系,促进数据资源有序、高效流动与利用;
三是重视制定数据处理活动合规标准、数据产品和服务标准、数据质量标准、数据安全标准、数据价值评估标准、数据治理评估标准等地方标准;
四是推动大数据与农业、制造业、服务业、新兴产业深度融合,深入开展大数据领域金融、人才、科研、技术、市场等方面的制度创新。
(3)大数据交易机构的规则体系
一方面,针对数据交易过程中面临的数据确权难、定价难,市场交易主体互信难、入场难、监管难等一系列痛点难点问题,大数据交易所积极探索建立数据交易规则。
例如,2022年5月27日,贵阳人数据交易所通过创新探索,发布了全国首套数据交易规则体系,包括《数据要素流通交易规则(试行)》《数据交易合规性审查指南》《数据交易安全评估指南》《数据产品成本评估指引1.0》《数据产品交易价格评估指引1.0》《数据资产价值评估指引1.0》《贵州省数据流通交易平台运营管理办法》《数据商准入及运行管理指南》等文件。
另一方面,地方政府也在积极探索制定数据要素流通交易规则。
例如,2023年年初,深圳市发展和改革委员会印发了《深圳市数据交易管理暂行办法》和《深圳市数据商和数据流通交易第三方服务机构管理暂行办法》,对数据交易主体类型、数据交易场所运营机构、可交易的数据类型和如何确保数据交易安全进行了规定。
(4)数据要素流通标准体系
《促进大数据发展行动纲要》明确提出,建立标准规范体系,推进数据采集、政府数据开放、指标口径、分类目标等关键共性标准的制定和实施。
“数据二十条”明确指出应围绕构建数据基础制度,逐步制定完善数据流通、安全与治理等主要领域关键环节的政策及标准。
数据要素流通标准体系是对数据资源的市场化流通进行规范,包括数据要素流通交易业务相关的基础标准、数据标准、技术标准、平台和工具标准、管理标准、安全和隐私标准以及行业应用标准等内容。
2014年,工业和信息化部和国家标准化管理委员会指导成立了“全国信标委大数据标准工作组”,主要负责制定和完善我国大数据领域标准体系。
目前,我国在数据要素领域已经形成了国家标准、地方标准、行业标准和团体标准的标准化体系。随着数据要素市场的完善,数据要素流通标准将不断健全。
3.1.4 数据监管制度
(1)数据执法监管的特点
随着数据相关制度的推出和数据要素市场的发展,依据制度落实数据安全、个人信息保护、防控数据垄断等要求,成为相关执法监管部门的工作重点。当前我国数据执法监管总体上呈现出以下特征。
第一,数据执法监管工作涉及领域多、范围广、任务重、难度大,系统性、整体性、协同性强。《网络安全法》《数据安全法》《个人信息保护法》等法律的落地实施,基本上形成了直接部门主导执法,相关部门协同的格局。
第二,逐步形成了“强监管”态势。网信、公安、工信等部门多次进行年度性、季度性的执法活动,对数据相关领域的违法犯罪活动保持高压态势,同时出台各类部门规章或规范性文件明确监管要求,要求压实主体责任,规范数据的有效利用。
第三,严格法律责任追究,对大型互联网企业开出高颌罚单。执法部门依据《数据安全法》和《个人信息保护法》,对互联网企业违法处理数据的行为实施了高额罚款。《数据安全法》规定了“最高一千万元”以及“违法所得一倍以上十倍以下罚款”两种处罚额度。《个人信息保护法》第六十六条规定了不同情形下违法处理个人信息的行政责任,其中第二款将违法处理个人信息且情节严重行为的罚款金额设定为五千万元以下或者上一年度营业额5%以下。2022年9月14日发布的《关于修改<中华人民共和国网络安全法>的决定(征求意见稿)》提出:关键信息基础设施的运营者使用未经安全审查或者安全审查未通过的网络产品或者服务的,可对其处以上一年度营业额5%以下罚款。此处“按营业额比例”进行罚款,与前述“最高五千万元罚款限额”可择一从重行使。这些规定对涉事企业起到了足够的震慑作用。
(2)数据执法监管存在的问题
作为新兴领域的执法主体,无论是数据执法队伍建设,还是执法队伍的执法能力建设,目前还存在相应的短板。面对数据要素市场的独特性,数据要素市场化发展面临的新形势、新矛盾、新问题,传统的监管执法机制明显抓手不足,监管执法乏力。这些问题主要体现在以下三个方面。
第一,执法主体过多。数据监管领域“多头监管”的情况较为常见,公安、网信、工信等部门都可以基于部门立场对数据处理者执法,而真正出现数据泄露、数据滥用等数据安全事件后,用户又经常投诉无门,存在部门之间推诿扯皮的现象。执法监管体制有待进一步理顺。
第二,单向“强监管”现象严重,不能很好地满足营商环境优化的需求。数据是数字经济发展的重要驱动力量,《优化营商环境条例》规定:“政府及其有关部门应当按照鼓励创新的原则,对新技术、新产业、新业态、新模式等实行包容审慎监管,针对其性质、特点分类制定和实行相应的监管规则和标准,留足发展空间同时确保质量和安全,不得简单化予以禁止或者不予监管。”新业态有着新的特点,应考虑到数据技术应用在发展初期的草根性,监管部门需要不断调整监管方法和监管力度,保护数据产业发展的有利环境。缺少沟通的单向“强监管”以及在处罚上不断加码的“严监管”都不利于数据产业健康生态的形成。
第三,行政处罚的裁量基准不明确。《数据安全法》《个人信息保护法》等法律规范强调要通过罚款乃至于高额罚款对相关主体起到切实的震慑效果,但尚未明确行政执法的具体尺度和标准。
此外,在建立和健全数据监管制度时,也需要注重法律规范和自律管理的结合,应发挥政府监管和市场自律的协同作用,以切实实现数据要素市场的健康有序发展。同时,也需要重视国际合作和交流,积极参与国际数据治理规则的制定和完善,推动全球数据要素市场的健康发展。
3.2 数据要素市场建设难点
基于数据自身的特点,数据要素市场建设至少包括了数据登记制度、数据定价模式、数据交易模式和数据服务运营模式等几个方面的内容,而每个方面内容的建设,都存在相应的难点。
3.2.1 数据登记制度
数据资产登记起源于我国政务数据资源目录体系建设,是解决我国数据要素流通“确权难、定价难、入场难、互信难、监管难”等问题的前提。
资产登记需要数据持有者明确数据资源目录,梳理数据资源,交由第三方数据资产登记机构进行核验和统计分析。第三方数据资产登记机构基于制度规则与数字化技术,对数据资产进行审核、评估,并对数据资产及持有者的各项信息(包括数据资产名称、数量和流通轨迹等)予以登记,标注数据资源的持有权归属,为数据“确权”提供参考,有效地将数据资源转化为数据资产,推动各类数据积极参与数据要素市场化流通,保障数据在合法合规的框架下实现交易流转与共享,促进数据价值释放。
(1)数据资产登记的必要性
数字经济时代,数据成为核心生产要素,是推动产业结构转型升级、实现经济社会高质量发展的重要推手。目前,数据要素市场的发展仍面临数据权属不清、数据定价机制不明等一系列难题。加速推进数据资产登记工作,能够尽快将数据资源转化为可参与市场流通的数据资产,明确流通共享数据的产权归属,提高数据要素市场主体间的互信程度,保证数据流通交易合法合规,推动数据要素市场科学、高效监管机制的形成,促进数据资源整合、开放共享与价值提升。
数据资产是能带来未来经济收益的数据资源,数据资源只有具备可控制、可计量和可变现的属性,才能转化为数据资产。
数据资产登记,
一是解决了数据的可控性问题。
数据资源只有在企业合法合规控制和管理的前提下,才能转化为数据资产。对元数据评估与审计后,数据资产被明确记入第三方数据资产登记机构,数据权限归数据登记方所有,为数据所有者颁发登记证书,明确数据产权归属,才能使数据权属受到法律保护。数据资产登记保障拥有者在合法合规的情况下,实现对数据的完全控制,获取数据流通产生的经济利益,并约束他人使其无法从中获取其不应得的收益。
二是解决了数据的可量化问题。
数据资源资产化,就必须将数据从企业实际生产与运营中分离出来,并能够以货币为单位计量。数据资产登记工作的推进,有利于推动数据持有者对数据进行目录式梳理和分级分类管理,并登记数据名目,界定管理范围,便于后续的盘点、检索与使用,使数据具备计入资产负债表的前提条件,促进数据资产进入市场流通,实现价值最大化。
三是解决了数据的可变现问题。
数据资源转化为数据资产,才可以为企业带来持续的经济收益。一方面,数据资产登记为企业数据类型,获得质量背书,证明运用该数据资产的产品存在市场价值,具有明确的使用价值;另一方面,数据资产登记能够保证对数据资源加工与处理的合规,帮助提高数据资源价值,并帮助数据资源创造新价值。
数据资产登记能够实现数据在一定时期内的重复使用,加速推进数据资产化,进而推动数据要素市场化配置。数据资产登记工作采用区块链等数字化技术,保证了数据产权归属的唯一性,推动了海量数据资源资产化并参与市场交易,扩大了数据要素流通范围,保证了数据流通使用的安全和合法合规,实现了数据要素的市场化和价值化,能够进一步发挥数据蕴藏的价值。
(2)推行数据资产登记的制约因素
数据资产登记制度的确立与推广,能够解决当前我国数据要素市场培育面临的一系列难题,但同时数据登记制度也面临着制度体系不完善、相关服务机构缺口较大,以及登记平台缺乏等挑战。
①数据资产登记制度有待完善。
我国各级政府部门对数据资产登记制度体系建设进行了有益探索,但目前仍然缺乏全国统一的数据资产登记立法。
一方面,现有数据资产登记制度地域限制较强。我国部分地区已制定数据资产登记相关制度,对数据资产登记对象类别与认定标准、基本条件、机构设立基本要求与权威性认证、认定证书信息与颁发条件等关键内容进行了约定,但这些约定仅限于该区域内的数据资产管理。例如,山西省颁布的《政务数据资产登记目录清单编制规范》与贵州省颁布的《贵州省政府数据资产管理登记暂行办法》,都仅限于本省政务数据资产登记工作,难以实现数据资产登记的跨区域互认和统一管理。
另一方面,数据资产登记制度存在较强的类别局限性。各省建立的数据资产登记制度仅对特定类别的数据资产登记做了规定。例如,山东省省内数据交易机构颁布的制度条例对公共数据资产与企业数据资产的针对性更强,广东省颁布的电子数据资产凭证仅限千公共数据资产,浙江省“数据资产云凭证”仅应用于个人数据,尚未在政务数据、公共数据、企业数据与个人数据等多个领域同步推广应用。
②数据资产登记机构相对匮乏。
数据资产登记机构既是数据进入流通环节的入口,也是构建数据要素的核心基础设施和推进数据要素市场化的关键环节,但我国现有数据资产登记机构相对匮乏,以致数据资产登记战略难以落地执行。
自2015年起,我国虽然陆续成立了中关村数海数据资产评估中心、内蒙古数据资产评估中心等服务机构,开展了数据资产登记确权服务,但多作为辅助性业务,针对性不强。
专门负责数据资产登记确权业务的第三方数据资产登记机构缺位,面对海量的数据资产登记需求存在较大的缺口。
③数据产品登记平台亟须建立。
数据资产登记平台是完成数据资产登记工作的重要载体。目前,我国数据资产登记平台相对分散,类别限制较多,功能较弱,且缺乏统一标准。
一是数据资产登记平台建设尚未实现互联互通。
部分地区政府已构建相应的政务数据资产登记平台,部分第三方数据交易机构也建立了企业与公共数据资产登记平台。例如北京国际大数据交易所数据资产登记中心作为全国首个数据资产登记中心已正式揭牌,但上述平台均不能实现数据资产登记的互联互通,仍存在不同类别数据的资产登记壁垒,限制了数据要素资源与数据资产的汇聚融合与价值发挥。
二是数据资产登记程序尚未明确统一。
不同数据资产登记平台的业务要求存在明显差别,例如数据资产登记申请所需材料规范不同、数据资产登记调查内容不同、审计要求不同等。数据资产登记服务体系难以统一,对数据资产在全国范围内的可信登记与上链形成掣肘。
三是数据资产登记平台的规范性存在地区差异。
对数据资产登记证书这一明确数据资产权属的必要证明文件缺乏统一的构成要件标准,各地区数据资产登记平台对数据资产登记证书包含内容(包括数据资产的登记日期与机构、数据来源、数据提供者、数据使用期限与使用限制,以及数据保密要求等)和形式规范存在较大差异,不同平台的数据资产登记证书与数据要素产权唯一性难以互认。
3.2.2 数据定价模式
从经济学角度来讲,价格是单位产品或服务价值的表达,是交换价值在流通中的转化形式,而定价就是确定单位产品或服务价值的过程。数据作为生产要素具备经济属性,其自身价值也需要通过价格来进行表达。
具体米讲,数据产品是指经过数据收集、整理、分类、加密等一系列处理之后的数据衍生品和服务,根据数据处理和传输方式的不同,数据产品可以分为数据包、数据服务、数据应用程序接口和数据报告等不同形式。
数据定价指的是对原始数据加工和处埋之后,对能够作为生产要素的数据产品和数据服务的价格界定。
(1)数据定价影响因素
由于数据户品的特殊性,数据产品在定价时要充分考虑交易场景多元化和市场结构的复杂性。具体而言,需要考虑以下三个因素:
第一,数据产品的价值高度依赖场景,存在高情景相关性;
第二,数据产品的交易不同于传统商品,数据交易包括使用权、持有权等不同权利谱系的交易,需要分别界定;
第三,单边市场和多边市场的复杂结构会影响数据产品和数据服务的定价。
(2)数据定价制度
在具体场景下,基于市场结构和交易方式界定等多种条件确定数据价格,既包括对数据资产的估值,又包括将数据产品作为商品进行销售的价格。数据定价制度是数据要素市场的基础性制度。概括而言,数据定价制度主要包括四个方面内容:
一是完善由市场决定数据要素价格的机制,形成数据价格共享机制并搭建动态监测预警体系,对数据价格予以实时透明展示;
二是培育规范的数据交易平台,健全数据交易平台询价、报价、竞价和定价机制,探索协议转让、挂牌等多种形式的数据交易模式;
三是鼓励市场主体探索数据资产定价机制,推动形成数据资产目录,逐步完善数据定价体系;
四是健全生产要素由市场评价贡献、按贡献决定报酬的机制,充分体现数据的价值。
(3)数据定价机制面临的主要问题
①数据产权不清晰。
明确的数据产权是数据要素市场化的前提,也是制约数据定价的关键因素。市场中的大多数数据都是由多个主体共同开发的,但不同主体在数据形成过程中的贡献却难以区分清楚,由此围绕数据产权就产生了很多争议。
确定数据产权,就是要解决数据归属、数据使用权和数据收益归属问题。目前的法律规定和数据产权理论尚没有办法清晰界定数据产权划分和归属问题。数据产权的模糊性导致难以准确界定哪些数据可以交易,哪些数据不应在市场上流通。数据产权如果不能科学准确界定,那么数据定价的实现难度就会更大。
②数据价值难以评估。
与传统生产要素相比,数据的独特属性使其价值难以得到科学有效地评估。
第一,数据价值通常是在多个环节中生成的,数据价值生成的各个环节虽然都是相对独立的单元,但并非将整个数据价值生成环节全部走完才能够产生数据价值。从数据采集到数据处理和分析,每个衔接环节都会产生阶段性成果,这些阶段性成果也可以满足特定场景需求。所以,数据在不同价值生成环节中的价值变化,导致无法静态地评估其价值。
第二,数据产品的使用是可重复的,存在多主体使用的情况,且数据本身在使用后也不会被消耗。此外,不同主体对数据产品的价值估值也是不同的,由此导致数据难以被统一定价。
第三,数据价值发挥涉及要素融合,数据产品通常需要与实物资产和有形资产结合才能生成价值,但在最终计算价值时,需要将最终成果剥离出来进行价值评估,这也为单独确定数据产品估值带来困难。
③数据价值测度体系不健全。
作为重要的新型生产要素,明确定价机制,实现科学的价值评估是数据交易的前提。目前,数据的价值测度体系建设还面临一定的困难。因为数据价值测度与数据自身的特性息息相关:
一是数据存在显著的异质性,标准化的数据占整体数据的比例很低;
二是以流量形式存在的数据其价值更能得到体现,而以存量形式存储的数据价值可能锐减;
三是数据价值高度依赖使用场景,同一数据在不同场景的价值差异较大;
四是数据的价值变化呈非线性特征,例如一项数据随着收集量的增加,边际成本递减,而价值却不断增加。
④数据交易规则尚未形成。
作为一个新事物,数据交易目前在全球尚未形成统一的、规范的交易规则,也尚未形成完整成熟的交易模式。从实践来看,大多数数据交易都依赖相关平台,包括交易模式、定价、监管等内容,而数据要素的市场监管又不同于传统市场。数据交易市场透明度低,买卖双方关于交易价格的信息不对称将会阻碍数据要素定价机制的形成,有可能导致数据垄断行为出现,甚至出现数据产品被复制、盗用、滥用等情况。
3.2.3 数据交易模式
数据要素不同于传统要素,在建立数据要素市场交易模式的时候,需要探究数据要素市场与传统要素市场的差异,然后才有可能建立起适合的数据要素市场交易体系。根据交易内容(数据加工的程度)差异,目前数据交易一般可分为直接交易和间接交易两种,数据交易由此也形成了两级市场体系。
数据市场直接交易和间接交易对比
直接交易指的是数据卖方向数据买方直接提供没有加工的原始数据,间接交易模式指的是数据卖方向数据买方提供经过一定加工的数据产品。两种交易模式在适用条件、交易方式、交易规模等方面都存在显著差异。
在适用条件方面,当原始数据价值容易评估的时候,直接交易更适合,当数据的网络外部性较强、敏感性较强,数据脱敏后才能保证数据安全的时候,间接交易更适合。
在交易方式方面,直接交易可以采用订阅模式、捆绑销售、多阶段销售(先提供部分随机数据,再交易所有数据)等多种方式,间接交易可以采用两步定价法(固定费用+计量费用)、拍卖、第三方平台等方式。
目前已经有多种数据交易模式,典型的有以下七种。
(1)数据交易所模式
数据交易所一般是政府牵头、多方参与建设的一个场内交易场所,例如贵阳大数据交易所、东湖大数据交易中心、华中大数据交易所、上海大数据交易中心、江苏大数据交易中心等。在数据交易所,数据供需双方在政府监管下进行数据和数据产品交易。但由于信息不对称,数据和数据产品交易存在很多障碍,因此大部分数据交易所的交易规模有限。
(2)场外直接交易模式
现实中大量的数据需求,很多无法通过数据交易所得到满足,因此市场上很多数据需求者通过一定渠道找到数据供给者,然后双方协商,通过数据交易合同进行数据交易。这种场外交易存在很多问题,比如私下交易难以监管、数据容易被二次转让等。同时,场外交易模式下数据提供者的数据权益也难以被保证,而且数据安全和隐私保护也难以实现。
(3)资源互换模式
资源互换是很多互联网平台当前的常用手段,通过免费的APP服务,互联网平台获取用户的数据使用权。这种模式带来了很多问题。
首先,由于双方地位不平等,互联网平台往往会过度收集用户数据,包括经常性收集其基本功能需要之外的数据。
其次,数据滥用问题严重。互联网平台常常会过度使用用户数据,在没有得到用户授权的情况下将数据用于其他用途或者将数据转让给他人。
再次,用户的数据复制权、可携带权等权益无从保障,一般用户较难将自己的数据迁移到其他平台。
最后,平台利用用户数据开发数据产品,但是用户难以获得其合理的数据收益。
《个人信息保护法》针对当前存在的问题,规定了个人信息处理有最小方式、最小范围、最短时间的“三最”原则。
(4)数据云服务模式
数据供给方向数据需求方以“云”的方式提供相应的数据服务,而不是直接提供数据,这样数据需求者相当于购买了数据服务。这种模式有利于保护数据安全和供给方的权益。
(5)会员模式
数据供给方建立俱乐部,然后数据需求方通过注册会员方式,即可以获得相应的数据访问权限。会员可以分级,不同级别的会员有不同级别的数据访问权限。这样数据供给方就可以通过区分消费者增加数据收益。
(6)数据接口模式
区别于直接提供数据,还有很多数据提供者会向数据需求者提供数据的接口(API)。这种模式可以促进数据的流通,增加数据的交易规模,而且可以控制数据开放的范围。
(7)数据产品交易模式
可以基于隐私计算、密码学等数字技术对数据加密,将数据包装成产品,实现数据的“可用不可见”。在保障数据安全的前提下,数据提供者可以向数据需求者提供数据产品和服务。这种模式的技术要求较高,但是安全性也较高。
尽管现有的主流数据市场已经形成了两级市场交易体系,但现有的数据要素交易模式还是不能解决所有场景的数据需求。
3.2.4 数据服务运营模式
从数据来源分类,目前进入市场交易的数据还可以大体分为政务数据和企业数据。不同来源的数据具有不同的特点和属性,也就具有不同的数据服务运营模式。
(1)政务数据市场化运营
政务数据市场化运营是指将政务数据资源的所有权、收益权和使用权等权益开放流通,将政务数据资源转化为政务数据资产。政务数据市场化运营可细分为标准化场景服务、已汇聚政务数据的受托服务和未汇聚政务数据的受托服务三种模式。
政务数据标准化场景服务
已汇聚政务数据的受托服务
未汇聚政务数据的受托服务
数据汇集区包括政务原始数据区和政务数据挖掘加工区两部分。数据运营服务平台是联通政府数据供给侧、数据需求方和数据交易平台等多主体的数据处理区。政府的受托服务运营是在平台数据资源不出安全域的情况下,为支持具备开发能力的产业用户和生态技术服务商提供按需的数据开发服务。数据实验室主要面向生态技术服务商和产业用户,基于固定安全边界提供数据资源、算力、办公场所等条件,以支持数据运营平台受托服务业务及自身算法孵化的封闭数据开发。数据需求者依据自身需求提出相关数据产品使用申请,平台运营者审核之后配置数据产品使用权限。其中平台数据指被接入平台的原始数据,经过平台的清洗、过滤、挖掘、标签化、分级分类等相关操作后,可用于服务数据需求者和平台运营者的数据。
在数据由收集、存储向平台运营层流动的过程中,需要经过数据申请与数据授权审批、数据接入和审查等环节。例如,数据平台运营者向数据所有者提出数据使用申请,并提供数据使用场景说明,政务数据所有者对数据使用清单及使用场景审核,完成签字审批和存证等流程。审批通过后,在数据运营服务平台上同步数据任务创建,并完成数据下发与数据脱敏等工作流程。平台中的产品包括API、产品应用、行业解决方案、数据类项目等标准化场景数据服务,基于上述服务开展产品运营,主要是实现对数据运营平台产品超市的设计、研发、运行、监管与维护等工作,包括平台运营者对标准化数据产品进行产品筛选、产品分类与付费类型筛选等。
数据运营平台作为市场交易载体,承担着提供交易规则、审核交易主体资格、监督交易行为相应的自律监管职责,需对进入数据运营平台的数据供给方、需求方进行资格审查,以签订协议的方式确认其资格,并全程监督其运营行为。从标准化运营视角看,政府和平台运营者要对购买数据产品的数据需求方的资质和需求目录进行合规性审核并签订购买协议,平台运营者为需求者提供数据衍生品接入服务。
按照上述运营思路,受托服务过程包括服务商入驻和实验室入驻两部分。服务商包含生态产业用户和服务提供商,服务商入驻平台须首先向平台运营者提出申请。进驻平台的生态技术服务商承接众包开发和算法研发等任务,可以向平台运营者申请入驻数据实验室。生态技术服务商与数据需求者须向平台提供相应资质证明,由政府监管方与平台运营者共同进行资质审核,并签订相关入驻协议。从需求角度来看,生态技术服务商或数据需求者将相关产品、需求所涉及的数据目录提交平台,由政府监管方与平台运营者对其合规性进行审核,平台需求结合生态技术服务商能力进行交易撮合,并由平台提供流程保障和相对应的算力支持。
当数据使用方或申请方申请尚未汇聚至数据运营平台的政务数据时,相关申请在被受理后,数据需求将被汇总至大数据局等管理监督部门。大数据局等管理监督部门按照数据需求启动数据汇聚工作。在申请材料移交至数据源提供部门的资质审查环节,管理监督部门联合数据运营平台,结合申请方的申请材料,共同审查该数据是否涉及国家机密、商业秘密、个人隐私,或者法律法规规定不得开放的数据。数据申请方的资质、数据用途、数据处理和安全管理能力如符合要求,管理监督部门则会同业务受理方共同要求申请方签署相关协议,并通知相关数据源的委办局进行详细审查,之后将数据汇聚至数据运营平台,并依据相关规定为申请方提供所需的数据服务。上述过程表明,平台、算法和算力水平的提升和优化,会逐步实现数据使用效率和数据安全的平衡,并形成良性的内生数据供需闭环,为不同生态主体提供充足、有效的数据集合,进而推动不同算法体系和平台规模的创新和迭代。
通过切实满足数据使用单位对政府数据的需求,能够充分发掘其在数据创新方面的潜力,同时进一步推动更多主体参与到数据创新应用中,形成积极参与的良性数据生态系统。运营平台在政府授权下,能够从政府部门取得运营数据,数据运营服务产生的经济效益又能够用于政府数据的进一步运营,数据运营平台也可以增强自身数据服务能力,这在某种程度上也提升了政府的公共治理能力。
(2)企业数据市场化运营
就企业数据而言,数据市场化运营主要采用受托服务模式。数据运营者与企业数据所有者结合市场需求协商企业数据使用场景,经协商确认的企业生产、销售、管理等数据由企业授权数据运营平台运营,获得授权的企业通过交换共享或数据服务接口的方式接入数据运营平台,企业的授权数据进入政务网受控区,依据应用场景需求形成标准化数据产品并上架至数据运营平台。
企业数据受托服务可分为无需政府审核和需要政府审核两种情形。
无需政府审核的企业数据受托服务流程
需要政府审核的企业数据受托服务流程
在需要政府审核的情况下,若政府部门对受托运营企业的数据申请内容和使用目的存疑,企业方应将申请材籵移交至政府审核,再将受托服务的需求引入数据实验室。上述相应的操作行为均需实时进行上链(区块链)处理。
数据运营平台的健康发展需要合理、完善的政府监管配套措施。各级政府作为数据要素市场化、资产化的主导者,应自上而下明确数据市场化的目标,在宏观层面上统筹、协调数据资产化各个阶段和过程的关系。通过设立大数据局等政务数据的专有管理监督部门,建立和完善数据市场交易的监管制度,保证数据资产的安全、合法和规范有序运行。单纯的行政监管往往会面临监管成本高、权力寻租、效率较低等政府失灵问题,因此应确立平台内部技术监管与行政监管并行的监管模式,由政府部门和数据运营平台分别承担监管职责,并按照政府部门整体监管、运营平台具体监管的原则各自规范流程。
从行业自律视角,企业应将其授权的数据库、数据管理平台接入数据资源平台。数据核查过程基本与政务数据的处理一致。如果申请方受托运营的企业数据与数据申请内容和使用目的存疑,应将申请材料移交至企业方与数据运营平台方双向审核。从运营平台内部监管技术层面来看,上述市场化机制对应的监管流程可以通过实时上链(区块链)来实现。区块链技术可以保障数据处置的公信力,便捷的操作步骤可以降低政府监管的困难程度,并解决数据要素市场化运营的一系列痛点。
首先,区块链具有确权功能。区块链架构中的识别技术与共识机制能够避免交易被篡改,这有助于验证数据资产所有权的流转。当所有权出现争议时,数据所有者能够通过区块链交易的时间戳等方式证明其合法性。其次,区块链在交易前能够帮助数据需求方确定数据集是否符合需求。数据需求方在数据交易前无法明确供给方提供的数据是否与描述相符,运用区块链技术后,所有“元数据”都记录在链,可进行证据留痕验证,这在一定程度上可规避数据需求方随意泄露数据和对数据进行修改的风险。
近年来隐私计算技术的发展,使得各参与方在不泄露各自数据的前提下可以对数据进行联合学习、联合计算。通过打造数据实验室,以封闭的物理和网络环境,在隐私计算的帮助下,可以保持数据在存储、传输和应用层面的绝对安全。再利用区块链等技术实现业务全流程的上链存证,保证流通过程的不可篡改、全程可追溯。这些技术手段的应用,一方面降低了个人、企业和政府数据的泄露风险,提高了数据使用安全,促进了数据互通协作和融合;另一方面,隐私计算能够证明、记录企业是否践行了相应的数据保护责任,从而与区块链技术共同解决数据市场化运营过程中的交易可追溯问题。数据脱敏、加密和在不同场景下的应用,可以转化为基于数据融通的数据产品和数据服务。
数据运营平台是需求导向的。一方面政府或者企业方提供常规数据,数据运营平台为潜在的数据需求方提供服务,例如根据企业、法人等市场主体的经营内容为其设计、规划数据应用场景;另一方面则要根据数据需求方的需求,向政府部门或者企业提出数据申请,实现个性化、定制化服务。更进一步,数据运营平台还可以利用现有的数据分析能力提供业务咨询、解决方案和市场运营策略,并主动与可能的数据需求方建立业务联系,实现政府数据与市场主体的需求贯通。数据运营平台还可以利用数据和技术流入,为政府的创新发展和智慧治理带来策略上的提升和公共服务能力的改善。
3.3 数据安全问题
数据采集、清洗、汇聚,以及在形成数据产品、提供数据服务全过程的每一个环节,无一不涉及数据安全问题。数据安全问题可以说是数据要素市场形成和运行过程中的最大挑战。数据安全问题又可以大体分解为公共安全、隐私安全和合规等方面的问题。
3.3.1 数据的公共安全
数据的公共安全是指公共数据被非法获取、篡改或破坏,以及超过一定数量的个人数据和企业数据由于泄露和非合规汇聚,而带来的对公共利益的损害。公共数据通常包括来自公共机构(包括各级行政机关和经法律法规投权的具有管理公共事务职能的组织,以及供水、供电、供气等公共服务运营单位)在依法履行职责或者提供公共服务过程中收集、产生的数据,这些数据的公共性较强,一旦数据被泄露或破坏,可能会对公共利益和社会秩序造成严重影响。
为了保护公共数据的安全,通常需要采取以下措施。
①建立健全公共数据安全制度。
建立健全公共数据安全制度可以为公共数据的安全提供法律保障,例如建立公共数据安全管理制度、制定公共数据安全法律法规等。
②采用先进的数据安全技术。
采用先进的数据安全技术可以提高公共数据的安全性,例如采用数据加密技术、身份认证技术、访问控制技术等。
③加强数据安全培训和教育。
加强数据安全培训和教育可以增强公共机构服务人员的数据安全意识,减少数据泄露风险,例如进行数据安全培训、数据安全教育等。
④加强数据安全监管和检查。
加强数据安全监管和检查可以发现和修复系统的问题,防止公共数据被非法获取、篡改或破坏,例如进行数据安全检查、进行数据安全审计等。
个人数据和企业数据,在其采集、存储、脱敏、汇聚、应用,尤其是出入境等环节上,也需要加强法律法规建设,严格法律法规要求,同时强化技术分析和技术防护。
3.3.2 数据的隐私安全
数据的隐私安全是指防止个人隐私数据被非法获取、篡改或破坏。个人隐私数据通常包括个人身份信息、个人健康信息、个人金融信息等敏感信息,这些信息的泄露或破坏可能对个人利益和社会秩序带来严重影响。
为保护个人隐私数据的安全,通常需要采取以下措施。
①建立健全个人隐私数据安全制度。
建立健全个人隐私数据安全制度可以为个人隐私数据的安全提供法律保障,例如建立个人隐私数据安全管理制度、制定个人隐私数据安全法律法规等。
②加强个人隐私数据安全监管和检查。
加强个人隐私数据安全监管和检查可以及时发现并修复存在的问题,防止个人隐私数据被非法获取、篡改或破坏,例如进行个人隐私数据安全检查、个人隐私数据安全审计等。
3.3.3 数据的合规标准
数据的合规标准是指对数据收集、处理和使用的规范和要求,以确保数据的合法、合规、安全和可控。数据合规标准通常包括数据隐私标准、数据安全标准、数据质量标准、数据管理标准等内容,这些标准通常包括了国家法律法规、行业标准和组织内部规定。
为确保数据的合规性,通常需要采取以下措施。
①建立健全数据合规管理制度。
建立健全数据合规管理制度可以为数据的合规提供法律保障,例如建立数据合规管理制度、制定数据合规法律法规等。
②加强数据合规培训和教育。
加强数据合规培训和教育可以增强公众的数据合规意识,减少数据违规风险,例如进行数据合规培训、进行数据合规教育等。
③加强数据合规监管和检查。
加强数据合规监管和检查可以发现和修复存在的问题,防止数据违规行为,例如进行数据合规检查、进行数据合规审计等。
第二部分 数据要素价值发挥的理论与技术
第四章 数据要素价值发挥的理论基础
土地作为最基本的生产要素,在人类历史长河中发挥了重要的作用,与劳动力和资本共同构筑起了现代经济繁荣。土地具备物理独占性和使用排他性,且具备内生动力,不需要任何外部要素和力量的加持,就可以天然长出树木和庄稼。数据与土地、劳动力、资本、技术一起构成生产系统的五大要素。数据不同于土地,作为生产要素,既需要劳动力和资本的加持,同时也离不开“第一生产力”的科学技术赋能,才能发挥出其价值。
数据要素价值发挥经历了从数据到知识,再从知识提取价值的过程。价值来源于主体对数据携带的知识的认同,知识再经过主体产生效用或效益。例如,企业数字化转型的前提是实现业务数字化,企业获得价值需要通过数据洞察来优化业务来达成。洞察和优化是对数据价值的挖掘,是数据要素价值发挥不可缺少的环节。这个环节可分为两个阶段,即数据的收集和数据价值的提取。数据要素价值发挥是收集到一定体量的数据后,数据经由技术加工发生质变并完成数据价值提取,再将数据产生的价值服务于特定主体,从而生成效用和效益。
本章首先从数据要素的底层逻辑切入,阐述数据要素激发量变到质变的过程;然后从计算机技术发展视角,分析数据要素市场经济逻辑的组织形式,以及和数据交易所的差异性;最后,构建数据要素安全流通理论基础,并阐述数据要素价值发挥在当下的可行路径。
4.1 信息论与数据要素内在价值
信息的来源很多,通过人与人、人与自然的父互,人可以获得直接信息,人也可以通过书籍、音像等多媒体资源获得间接信息。随着数字技术的广泛应用,数据成为信息最主流的存储和传播方式。从数据中提取信息的过程也是数据价值挖掘的过程。
4.1.1 数据价值发挥途径
数据是对客观事物本身,客观事物的性质、状态以及相互关系进行记录并可以鉴别的物理符号或这些物理符号的组合。信息时代,数据作为被存储或记录的未加工原始素材,既是信息的承载体,也是构成信息的基础。
信息论奠基人克劳德·艾尔伍德·香农(Claude Elwood Shannon)认为:“信息是用来消除随机不确定性的东西”。控制论创始人维纳(Norbert Wiener)认为:“信息是人们在适应外部世界,并使这种适应反作用于外部世界的过程中,同外部世界进行互相交换的内容和名称”。信息是基于需要对数据进行加工,提供决策价值的有效依据。有价值的信息,沉淀并结构化后形成知识。狭义地说,知识是信息综合加工后提取的对系统的认识。智慧是生命所具有的一种高级创造思维能力。知识是人作为主体,基于对信息的理解而创造出来的一种新的认识。数据->信息->知识->智慧,是数据价值发挥的一个基础路径。
数据价值发挥金字塔
在从数据提取信息的过程中,劳动力与技术起到了关键作用。知识的提取也是类似的过程。信息在满足特定场景的需求后,经由技术和人类劳动的转化才能形成知识。信息基于特定的目标设计,产生具体动作并服务于特定目标的能力,本质是依赖于已经植入系统的相关知识。
例如在智能家居中,当我们推开门时客厅灯自动亮起这个场景。这个过程中,门的开关数据被实时收集,智能家居的控制系统接收这个数据并理解了这个数据背后的信息,然后基于规则,当门打开时自动打开客厅顶灯。“门被打开”是数据被加工后形成的信息,而“开客厅顶灯”是决策的执行。这就是从数据到信息,再将信息转变为价值(决策)的完整过程。实际上,上述过程隐含了一个“门开-开灯”的大的逻辑规则,这是人基于常识设定的一条知识。因此,数据价值发挥涉及数据加工和信息重组。
人工智能大模型提供了一种新的从数据->信息->知识的实现模式。这种模式基于大模型海量参数构建“基础知识库”,再结合新数据生成新知识。计算机通过对人类过往经验积淀数据的大量训练,识别出数据中包含的逻辑模式,形成“基础知识库”,直接完成数据到信息,信息到知识的提取。这个过程的具体案例有物体识别、模拟发声以及基于大模型的生成式人工智能等。这个过程就像一个智者,只需输入少量新信息,就可以结合已有的信息和知识,生成新知识,甚至新智慧。大模型之前的决策式AI通过训练获得知识,大模型时代的生成式AI通过训练获得知识中的逻辑。这些能力使得人只需要简单给出提示词,即可获得大模型积累的海量知识背后的价值。
数据、信息、知识和智慧是人类面向复杂世界,基于人类认知方式形成的常规路径,但这个路径也绝非坦途。即便“基础知识库”是集人类儿千年文明形成的产物,也无法给出普遍适用于任意行业和任意人群的通用方案。此外,大模型输入的数据以公开数据为主,而高价值数据往往分布在不同的机构和个人手中,甚至还有大部分信息、知识和智慧是在一部分人的头脑中,并没有以数据作为载体,更不用说被大模型吸收了。因此,最佳策略是基于鲜活的数据、灵巧的加工方法和专业化的知识提取分工,构建数据要素价值转化路径,然后在必要时再借助“基础知识库”,完成数据到智慧提取过程的融合,释放数据价值。
例如,某企业售后服务部门积累了数年的设备维修方法,并形成了经验库,但这些经验仅局限在企业内部分享。如果用户咨询一个产品售后问题,这个时候就需要有经验的售后人员,通过收集客户的问题数据,形成专屈于该客户及其设备的信息,最后基于经验库知识给出该客户问题的解决方案。这个过程,就是通过企业内部经验数据和客户特有数据而发挥价值的简要过程。
4.1.2 大语言模型时代的数据价值
2023年5月2日至9月27日,全球几乎所有著名影视剧编剧组成的团体-美国编剧工会,组织了一次持续了148天的罢工。这次罢工的诉求除了提高薪金水平,改善工作条件之外,还包括限制在编剧创作过程中使用生成式人工智能。
这次大罢工,本意是禁止人工智能参与编剧创作,然而大罢工又确实给人工智能编剧功能的使用带来了机会。人工智能模型基于人类创作的内容进行训练,又创作出人类几乎无法分辨的内容。ChatGPT的编剧水平不断进步,大有青出于蓝而胜于蓝之势。
AI虽然不理解人类情绪,但创作出与人类特定情绪相关的内容已不是什么难事,比如写诗就难不倒AI。罢工中抵制AI的事件,与2023年3月29日包括特斯拉的马斯克、苹果的联合创始人沃兹尼亚克、人工智能教父级人物杰弗里·辛顿(Geoffrey Hinton)在内的1100多位业界知名人士呼吁停止大模型人工智能试验一样,都是人类基于大模型的迅速进化而对未来人类发展的担忧。目前看来,人类对大模型的抵制没有起到作用,大模型进化反而越来越快。
ChatGPT通过汇集大量数据训练一个超大神经网络,使得网络出现了涌现能力。斯蒂芬·沃尔弗拉姆在《这就是ChatGPT》中提到:如果你有一个足够大的神经网络,那么,你也许可以做任何人类可以轻松做的事情。但是,你不会捕捉到自然界一般能做什么,或者我们从自然界中塑造出来的工具能做什么。正是这些工具的使用-无论是实用的还是概念性的-使我们能够在最近几个世纪里超越“纯粹的人类思想”的界限,并为人类目的捕捉更多物理和计算宇宙中的东西。ChatGPT 从根本上一直试图做的是产生迄今为止它所获得的任何文本的“合理延续”,其中“合理”是指人们在看到人们在数十亿个网页上写的内容后可能期望某人写的东西。
ChatGPT通过大量语料训练的神经网络(ChatGPT3有l750亿个参数),压缩了人类提供的全部知识,然后通过提示词不断推断出下一个字出现的概率。例如“数”这个字,如果在学生的语境中,“数学”一词出现的概率高于其他;而在政府公文中,“数据”一词出现的概率高于“数学”。正是这种概率计算,使得ChatGPT基于用户的提问,可以生成更加符合用户期望的语料。
ChatGPT生成内容的能力来源于其模型足够大,大到可以把人类所有知识压缩到一个巨大的网络中,然后根据用户提示,重组出一个新的语料信息。ChatGPT工作原理依然属于自然语言处理(NLP)范畴,通过神经网络以某种人类无法解释的方式压缩大量语料,然后输出重组后的自然语言。几千年人类文明的积累塑造了大语言模型在语料“理解”和输出上的“无所不能”。
无论是人类文明沉淀的内部数据,还是企业内部积累和维护的数据,这些数据均需要完成信息化、知识化,最终才能沉淀出人类特有的智慧。在大语言模型的生成式AI时代,数据的内在价值提取变得越来越容易,如何发挥好数据要素的价值将会是未来竞争的关键,其中技术的发展及其人类对工具运用的能力同样是关键。
人工智能基于人类产生的数据进行自我训练,在大语言模型之前就已经被成功应用。例如,2016年Alpha Go击败韩国围棋天王李世石;2017年5月Alpha Go击败中国顶尖棋手柯洁;同年10月,基于规则自学习的AlphaGo Zero以100比0的成绩击败老版本Alpha Go。AlphaGo Zero基于规则训练的人工智能已经远远超过了基于人类棋谱训练的人工智能。特斯拉汽车自动驾驶中启用了仿真模拟来实现各类驾驶场景模拟,从而加强了自动驾驶模型在各种场景下的识别能力,远比基于常规的天气、路况训练的模型要强大得多。如果大语言模型用这类机器模拟生成的数据进行训练,大语言模型的能力也将会有新的突破。但无论怎样,最基础的数据依旧是人类提供的,毕竟人类语言不同于只有一套规则的围棋。因此,在大语言模型时代,数据将会变得比以往更有价值。
4.2 数据要素价值发挥关键路径
自纸张发明之后,信息记录的方式,传播的范围均发生了巨大的变化。西方的哲学思想可以传播至今,中国历史文化延续数千年,第一、第二次世界大战依然记忆犹新,这些都是人类记录和传播信息的丰功伟绩。自计算机和计算机网络发明以来,以数字方式表达的信息的计算和传播速度更是产生了根本性的飞跃。那么,在今天这个时代,什么样的数据更具有价值?哪些因素影响数据作为生产要素的价值发挥?数据要素价值发挥如何实现乘数效应呢?
4.2.1 影响数据要素价值发挥的关键因素
进入信息化时代以后,人类生产数据的速度呈指数级增长,大语言模型更是把机器生产数据的速度推上一个新高度。那么,数据作为生产要素,哪些因素会影响到其价值发挥呢?
(1)时效性是影响数据价值的一个重要因素
人处理信息和数据的能力非常有限,因此,人类更喜欢接收和处理最新的信息和数据。而数据作为生产要素,尽管大部分时候可以由机器来处理,但数据处理的结果最后总还是要作用到人的身上。因此,数据的时效性会是影响具价值发挥的一个重要影响因素,这也是人类避免信息过载的最佳选择。比如,除了气象史领域的专家,对于大部分人而言,当日所在地的天气情况就远比100年前当地的天气情况更有价值。
一般而言,数据越快得到处理,其价值就越大。历史上美国股市曾经因为西海岸能够比东海岸的交易所更早得到最新的股票价格而被指控泄密,因为即使是光纤通信也有数十毫秒的延迟。美国股市的高频交易已经把数据的时效性发挥到了极致,这也正是时效性在数据要素价值极致发挥方面的表现。金融行业推荐性标准《证券公司核心交易系统技术指标》(JR/T 0292-2023),该标准从左侧到右侧的延时在不同类型的系统中定义为8~10毫秒。由此可见,金融行业对数据的时效性要求之高。
证券公司核心交易系统参考架构图
数据如何高效利用,发挥其最大的价值,也决定于数据收集和数据被允许使用的方式。还是以交易撮合为例:在金融场景中,证券交易所是完成交易撮合的场所,各证券公司代理用户完成报价,反馈交易结果。在这个过程中,报价数据从证券公司转移到了交易所的撮合系统,最后信息被返回证券公司。因为这个过程不涉及其他隐私数据,撮合过程顺利进行。如果把证券交易所换为数据交易所,在证券公司考虑数据安全的情况下,证券公司就会要求数据交易所为其交易建立一个专区,完成交易后,清除数据计算过程数据。数据交易过程还涉及非标准算力问题,这比交易撮合复杂得多。因此,数据要素利用过程涉及数据安全、计算算力、数据传输等影响数据处理时效等诸多因素,需要逐一解决,并不断优化。
(2)数据质量是影响数据价值的另外一个因素
正如汽车质量会影响汽车市场发展一样,数据质量同样是影响数据要素市场是否能够存在和健康发展的关键因素。数据质量受数据来源的可靠性、数据记录的规范性和数据治理水平等因素影响。
确保数据质量无外乎有两种途径,
第一种是采集来的数据本就是高质量的,例如淘宝的交易数据、美团的外卖数据。这类数据因为涉及人类衣食住行的交易,因此在产生时就携带了用户与系统交互过程的准确且完整的数据,如双方交易的商品、价格、配送地址、用户信息,甚至支付信息。这类数据的来游是可靠的,记录也是规范的,因此质量很高。
第二种是通过数据治理相关技术完成数据质量的提升,如数据补全、数据清洗等技术,使得已收集的数据质量得到改善。企业可以通过制定数据标准和规范,提升内部数据治理水平,从而提高数据质量。
数据的重要作用是为行动提供有益的指引。如果因为数据质量问题而导致行动目标发生偏差,将会极大打击市场信心,甚至有可能导致市场崩塌。那么如何衡量数据质量呢?一种方法是静态质量评估,另一种方法是动态质量评估。
静态质量评估采取类似1S0 9000质量管理体系或3C认证等标准,从数据的规范性、数据产生和数据管理过程等方面进行评估。静态质量评估方法可以确保在数据要素市场交易的数据符合最基本的品质。
动态质量评估有赖于同类数据商品形成相互竞争的局面,从而通过数据要素市场建立起正反馈机制。如果多个第三方运营公司在确保信息安全的前提下完成数据治理工作,那么所形成的数据商品将会形成竞争,竞争内容则包括了数据治理水平、数据服务提供效率等,从而只有质量较好的服务商可以生存下来。
(3)数据体量同样是数据价值的一个重要维度
除数据的时效性和质量之外,数据的体量同样是数据价值另外一个重要的维度。随着人工智能对数据中信息和知识的提取能力变得越来越强大,通过汇聚大量的数据解决特定领域的问题,对发挥数据内在价值就变得非常关键。在同等数据质量的前提下,汇聚的数据量越大,对特定领域问题的解决针对性就越强。
然而,数据体量受存储、网络、算力等诸多因素限制,更为重要的是数据权属特性会制约数据体量的进一步增长。如果某机构汇聚了全国所有人口实时数据、运营商活动数据,甚至手机位置数据,那么个人隐私将无从谈起。比如在新型冠状病毒感染疫情期间,全国人口位置活动信息在防疫中就起到了关键作用,但这种数据也将每个人的位置信息暴露无遗。既要大数据体量,又要高数据安全,这是数据要素价值发挥过程中不得不平衡的两个互相矛盾的方面。
4.2.2 数据要素价值发挥的乘数效应
数据一般分散在各主体内部,通过数据收集、治理和利用,可以带来一定的价值。当数据量增长到一定程度后,数据之间的关联性和复杂性也随之增加,从而有可能产生涌现现象,新的价值和机会也会随之出现。当数据作为生产要素在市场上交易时,数据的价值也将随着使用用户数量的增加而呈现出乘法效应。
数据要素价值发挥的乘数效应逻辑示意图
假设机构A为构建身份认证服务与三大运营商分别签署了协议。但运营商考虑信息安全问题,只提供结果核验查询服务,按笔收费。机构A通过封装三大运营商服务接口,在阿里云出售该项认证服务,按笔付费。由于机构A提供了更好的用户体验,这使得其用户无需考虑用户归属运营商细节,因此可以合理向用户收取附加值费用。假设机构B基于机构A的身份认证服务开发了另外一个付费类应用,要求用户每月进行一次身份确认核验,那么机构B间接使用了运营商提供的数据服务,使得运营商还可以获得额外的数据服务的价值。
大部分数据要素价值创造很难像上图所示那样形成明确的数据服务链条,这会导致数据服务无法获得两次以上组合后的数据服务价值,也会阻碍数据要素价值的有效发挥,降低数据要素供给动力。在上述例子中,如果付费类应用机构基于该项认证服务提供专属服务时,缓存认证结果,后续只需要通过手机短信核验用户与手机的绑定关系,这就使得该机构在比较大范围的时段内无需再次付费认证。虽然身份三要素(姓名、手机号和身份证号码)存在更新的可能性,尤其是手机号码,但一般情况下在三个月周期内身份三要素还是有一定的稳定性的。一般来说,人们活动的数据信息都有一定的稳定性,比如信用分,一般情况下变化很慢。
然而,在企业信贷场景中,各银行对客户贷款逾期的情况极其关注。银行希望在第一时间掌握客户逾期情况,使具先于其他银行收回本金或及时止损。尽管手机绑定身份的数据和信贷逾期的数据都是同一个人的,但因为不同主体对数据变化的不同偏好,出现了时间错配问题。
在线下门店开展客户营销时,进入商圈的客户是精准营销的重要目标(暂且先不考虑客户位置隐私问题)。这类基于客户位置的数据服务如果能够开放给门店,其服务价值是显而易见的。比如线下生活的美团APP,通过位置信息就实现了O2O(Online - to – Offline)场景下的广告精准营销。又比如基于运营商信号塔的用户信息,商圈也可以实现线下场景的精准营销。美团基于历史用户数据,在封闭的体系中,基于位置信息和喜好标签也可以实现精准推荐。在非美团可覆盖的场景中,基于用户和位置信息,还需要基于门店积累的客户标签数据才能实现精准营销。这类位置空间数据因为标签缺失,出现了空间错配问题。数据时间错配和目标客群的空间错配,阻碍了数据价值乘数效应发挥。
国家对数据要素价值的乘数效应发挥提出了更明确的表述。国家数据局在《“数据要素×”三年行动计划(2024-2026年)》提出:“数据要素×”行动就是要通过推动数据在多场景应用,提高资源配置效率,创造新产业新模式,培育发展新动能,从而实现对经济发展倍增效应。国家数据局从三个方面推动数据要素乘数效应,
一是从连接到协同,通过数据要素作用其他要素,找到企业、行业、产业在要素资源约束下的“最优解”;
二是从使用到复用,推动各行业知识的相互碰撞,创造新的价值增量;
三是从叠加到融合,推动不同领域的知识渗透,催生新产业、新模式。
数据要素价值发挥实现乘数效应的关键是数据要素与其他要素的协同、复用和融合,创造出新价值。通过技术手段,不断提升数据的实时性和质量,增大数据体量,并不断丰富应用场景,确保数据服务方可以获得应有的价值。这是数据要素价值发挥的关键路径。
4.3 数据要素市场经济逻辑新设想
上面的讨论还遗留了一个难题,即数据要素价值的时间和空间错配。这类问题从根本上来说,是数据的供给是否足够快、足够好和足够多,如果满足这三个条件,那么经过技术处理,数据供给方面大量无法实现的需求均可以得到满足。当然,还需要解决数据权属、数据安全和用户意愿间题。
4.3.1 数据要素市场经济逻辑
数据要素市场通过价格机制和竞争来调节资源配置,让数据配置到它更应该被配置的地方,成为促进数据价值发挥的重要环节。国家在政策层面通过政策设计和制度安排推动数据要素市场发展,数据资源持有权、数据加工使用权、数据产品经营权“三权分置”的数据产权制度框架有利于数据要素市场的形成。“三权分置”还可以让专业的人干专业的事,使得不同主体可以在数据要素价值发挥的不同阶段、不同层面、不同环节贡献专业的力量。数据要素市场提供了供需双方基于自身利益最大化进行博弈的平台,让市场各主体在安全性、便利性、收益率等方面权衡。
诺贝尔经济学奖得主乔治·阿克罗夫在其《“柠檬”市场:质釐不确定性与市场机制》的文章中提出了一个假设,如果二手汽车市场的汽车质量不均匀,买家给出的意向最高价格就会低于市场中质量较好部分汽车的价格,导致这个市场中质量好的玩家自动放弃市场。如果质量好的汽车卖家离开市场这个信息被买家知道,买家还会进一步降低意向价格,从而继续驱逐拥有质量相对好的汽车卖家,最终导致这个汽车市场崩溃。以上困境产生的根本原因是“柠檬”市场中买家不知道每一件商品具体的品质,从而尽可能低地给出市场交易价格。这篇文章之所以重要,是因为作者提出了人类社会在交易时遇到的一种天然约束,即“人与人之间的互信是如何建立的”这个问题。《薛兆丰经济学通识》提到有以下一些方法来帮助解决这个问题,包括多次交易、第三方信任背书、通过增加附加成本发出信号、以品质三包替代质量检验、以延保合约甄别用户、以共享合约保障品质等。这些是目前在广泛应用的建立互信的方法,比如二手车市场通过店面装修、售后服务、质量保证等方式与用户建立信任关系,确保市场可持续。由上可知,市场的建立除了需求之外,还需要确保参与市场的主体具备相应的知识,以及相对透明的信息。
数据交易市场的建立与二手车市场类似,需要有交易目标,也需要对商品定价。然而数据交易市场建立所面对的困难比二手汽车市场要多得多,主要表现在以下几个方面。
(1)数据定价具有主观性
大多数情况下,数据在没有被第三方使用过时,很难形成具体的定价。一是数据很难像玉米大豆等标准化程度高的商品那样,通过大量交易形成能够被市场接受的价格。二是数据在不同应用场景所发挥的作用不同,这导致数据定价更加困难。
(2)数据质量很难界定
虽然通过一些技术手段,可以对数据质量给出相应的度量,但是数据质量和价格一样,在需求未定的情况下,数据质量的好坏并不能被显现出来,或者说,能够被度量的数据质量,并不会完全决定其内在价值。只有当数据质量问题已经影响到数据价值发挥的时候,质量才是最终问题。
(3)数据加工工艺不确定
开发工艺也是数据与其他商品不同的地方。数据要素就类似于原油和汽油,不经过炼油厂的开发,石油的价值就很难体现出来,不经过相关数据加工工艺的开发,数据的价值也很难发挥出来。但是,数据不同于石油,石油的加工工艺可以是标准化的,但数据的加工工艺却是非标准化,是基于应用场景而定义的。数据价值的发挥需要另辟蹊径。
如果假设数据要素按“三权分置”处置,数据资源持有方购置数据加工装置,允许第三方拥有其数据加工使用权,并控制数据产品经营权。在这个界定下,数据持有方只是让渡了数据加工使用权,如果数据加工使用的过程可以保障安全,并在有效监管的情况下,数据持有方将会有足够的动力和信心开放数据共享。这里的关键改变是数据持有权和加工使用权的分离。数据加工使用权是数据持有方给数据需求方提供按需加工的一种权力,使得数据可以按照需求方的要求完成定制化加工,形成数据价值化链路。由于数据本身具备可复制性,数据方并不会因为让渡数据加工使用权而损失数据持有权益,反而因为其灵活的数据服务能力,激活了数据需求方的需求。
4.3.2 数据市场与数据集市
只有各参与方通过利益博弈后实现共赢,一个稳定的市场才会形成,这个市场也才会长久。而供给和需求的差异化,是市场形成的前提。因此,数据集市有可能优先数据市场先发展起来。正如目前既有跳蚤市场,也有大型超市,因为它们面对的人群和解决的问题都不同。跳蚤市场是基于社会特定群体生存能力的差异化交换需求而建立的市场。跳蚤市场中的大部分交易是熟人之间的重复博弈,建设门槛较低,只要有一定量的需求,跳蚤市场就会出现,因此其地域和规模也都极为有限。而大型超市是在小市场的基础上汇聚形成的,大型超市是市场机制成熟的一个重要信号--商品具备明确的价格体系和监督机制,可通过规模化提升商品流通效率。
数据要素市场的形成需要时间,需求也需要一个激发过程,基于此,数据集市大概率会优先数据市场先发展起来。在数据集市交易模式趋于成熟,形成一定规模后,数据市场才大概率会形成,而且会以面向不同行业的多层次市场的形式出现。正如今天既有大型综合超市,也有专业的大卖场,还有多层次的批发集散市场一样。
这里我们以鸡蛋作为数据要素的对照例子来说明数据要素市场的工作逻辑。
在菜市场有卖鸡蛋、西红柿、茶叶的商铺,也有卖蛋炒饭、茶叶蛋和用微波炉加热的餐馆。这里我们假设鸡蛋、西红柿和茶叶为数据资源,蛋炒饭、番茄炒蛋和茶叶蛋属于数据产品,而蛋炒饭、番茄炒蛋、茶叶蛋和用微波加热鸡蛋的过程就是数据加工的过程。
做蛋炒饭的餐馆需要到商铺那里购买鸡蛋,然后做蛋炒饭出售。商铺也需要从别处购买鸡蛋和西红柿。卖茶叶蛋的餐馆也需要从商铺那里购买鸡蛋和茶叶做茶叶蛋出售。因为用微波炉加热鲜鸡蛋可能导致鸡蛋爆炸,因此,卖鸡蛋的商铺老板需要确认购买鸡蛋的餐馆老板购买鸡蛋的理由,以防止可能发生的安全事故。
由于蛋炒饭、番茄炒蛋和茶叶蛋是餐馆的绝活,餐馆老板总不能在卖鸡蛋的商铺老板面前现场证明其安全性。为此这个商铺老板只需要知道餐馆老板使用鸡蛋的大致流程即可,比如做蛋炒饭的餐馆老板足用鸡蛋和米饭做原料,用鸡蛋炒饭;茶叶蛋餐馆老板是用水煮鸡蛋;而微波炉餐馆老板想直接微波炉加热鸡蛋。这样鸡蛋商铺老板就获取了拒绝出售鸡蛋给微波炉餐馆老板的理由。
上述过程,卖蛋炒饭、茶叶蛋的餐馆老板在没有透露加工细节的情况下购买到了受到商铺老板监管的鸡蛋,而微波炉商铺则被拒绝。
上面这个鸡蛋“小集市”展现了通过数据要素集市解决“鸡蛋”数据要素价值发挥过程中的几个问题。
一是通过数据源对数据加工方的审核和监管,避免了数据被用于非法用途,保护了数据安全;
二是数据加工方在监管的情况下没有透露加工的工艺参数给数据源方,保护了数据加工方的劳动成果;
三是数据源可以为多个不同的数据加工方提供数据服务,一份数据可服务多个主体,获得多方价值;
四是数据需求方可以使用多个数据源和多个已加工的半成品,且利益分配链条清晰可见,加工后商品的价值包含所有数据参与方获得的价值。
这个“小集市”的运作模式体现了数据要素经济模型运行的基本流程,各参与方按照分工,实现多方共赢。
4.4 数据安全流通理论基础
4.4.1 数据安全三角问题的产生
在数据要素流通中,有数据拥有者和数据使用者两大主体,分别掌握数据和数据加工算法。如果与传统生产要素流通场景类比,数据就对应了生产资料,而数据加工算法就对应了生产工具。在数据要素市场中,数据的安全性得到了最大程度的关注。然而,正如生产力的发展离不开生产工具的改进,数据加工算法同样有隐私与安全需求。数据安全流通并不是一个单边问题,而是一个复杂的多边问题。综合数据拥有者和数据使用者的需求,我们可以自然构建出数据安全流通的三角问题。
数据安全三角问题
(1)数据的完整性和隐私性
数据的完整性是指原始数据正确完成预处理,没有发生恶意篡改,同时如果提供错误数据,则满足不可抵赖性。数据的隐私性是指原始数据不以任何形式泄漏,这个泄漏既包括原始数据本身,也包括原始数据的相关统计学特征。
(2)算法及参数的完整性和隐私性
处理数据的算法可以进一步细分为算法和参数两部分。算法的完整性是指算法本身被严格且正确地执行;算法的隐私性是指数据计算和操作过程不泄漏任何信息。参数的完整性是指参数以正确方式生成、保存和使用;参数的隐私性是指计算过程不泄漏任何信息。因为在很多场景下,参数不但决定了计算效果,也会涉及核心商业机密。
(3)计算结果的完整性和隐私性
计算结果的完整性是指结果未被恶意篡改,是原始数据输入算法后经过运算得到的结果;计算结果的隐私性是指其公布范围可控,范围由实际业务场景决定。
数据安全三角问题让人自然联想到区块链不可能三角问题, 二者虽然涉及的内容不同,但是内涵一致,即“三个角”很难同时得到满足。
我们以淘宝推荐系统的模型训练场景为例进行说明。
淘宝使用用户的消费数据进行推荐系统训练,以便能够精准地在APP首页为用户展示其感兴趣的产品,从而提升交易额。
在该场景下,用户的消费数据淘宝是直接能够获取的,因此数据的隐私性并没有保证;
如果根据数据安全法,对用户的浏览数据进行安全保护且并不提供给淘宝,那么为了确保推荐系统训练的完整性,淘宝需要把算法给到用户侧,由用户在本地训练并将训练结果返回给淘宝。
这种方式虽然保证了用户数据的隐私性,但是淘宝算法的隐私性则无法保证,同时训练结果的可信性也无法保证,因为淘宝无法确认用户确实是在真实数据上进行了模型训练。
因此,数据隐私性、算法隐私性和计算结果的可行性,是数据安全中的三角问题,同时达到非常困难,在一些场景下甚至是不可能实现的。
4.4.2 数据安全三角问题的数学抽象
为更好地描述数据要素场景中的安全问题,本小节对数据安全三角问题进行数学抽象。高度数学抽象的好处是能够剥去不同应用场景的外衣,将共性内容进行精确提取,从而有效凝练科学问题。
数据安全三角的数学抽象
数据安全三角问题可以抽象为数学公式fp(x,w)=y,其中f是处理数据的模型/算法,p为模型/算法的参数,这两个参数为数据使用者所掌握;w为原始数据,为数据拥有者所掌握;y为计算结果,由数据使用者最终掌握;x为公共输入,即数据处理过程中输入的公共可知的内容。经过数学抽象之后,数据要素场景下不可能三角问题就可以表述如下:
数据拥有者输入w,数据使用者输入f和p,x为公共可知;
完成计算之后,数据拥有者获得f和p的概率是可忽略的,数据使用者获得w的概率是可忽略的;
数据使用者获得y,且满足等式fp(x,w)=y。
4.4.3 数据安全三角问题的求解方法
数据安全三角问题并没有放之四海而皆准的求解方法,而是在与实际应用场景的结合中,综合考虑场景中的信任假设和业务逻辑,提出适用于特定场景的解决方案,从而规避数据安全三角问题的约束,实现数据价值发挥的同时满足各方数据隐私需求。总体而言,有两个基本的求解思路,即折衷法和技术法。
(1)折衷法
折衷法是计算机领域常用的一种问题解决方法,常用以处理计算复杂度和通信复杂度的平衡,即在计算资源受限场景下,通过提升通信复杂度从而降低计算复杂度,或在通信资源受限场景下,通过提升计算复杂度从而降低通信复杂度,也就是在计算与通信之间进行折衷(Trade-off)。这个思路同样适用于解决数据安全三角问题。在不同的场景下,数据的隐私需求和算法的隐私需求是存在强弱区别的,因此在不能够兼得的情况下,就要“两害相权取其轻”,完成数据隐私和算法隐私的折衷,实现该场景下的最大收益。
具体而言,在数据隐私性需求强烈的场景,可以采取“数据不动算法动”的思路,将算法传输给数据拥有者,由数据拥有者在本地输入原始数据完成计算后,将计算结果返回数据使用者。这样虽然牺牲了算法的隐私性,但是保证了原始数据的隐私性。
在算法隐私性需求强烈的场景,则可以采取相反的思路,即“算法不动数据动”,将数据输入给算法拥有者并完成相关的计算。这种方法虽然牺牲了数据的隐私性,但是保证了算法的隐私性。而计算结果的可信问题,则取决于特定场景下数据拥有者和数据使用者之间的信任关系,以及是否存在第三方可信机构参与,甚至可以引入经济激励机制保证计算结果的可信。
因此,使用折衷法解决数据安全三角问题的核心在于对场景的深入理解和剖析,在资源受限条件下,在数据隐私、算法隐私和计算结果可信之间折衷,实现特定场景下的收益最大化。
(2)技术法
技术法就是通过引入新一代信息技术,解决数据安全的不可能三角问题。与折衷法不同,技术法致力于同时解决数据、算法和计算结果的完整性和隐私性问题,其基木思路是将数据安全三角问题中的痛点与新一代信息技术的技术特征进行对应,从而一一攻破。
完整性保证。
数据和计算结果的完整性保护需求和区块链的不可篡改性对应,因此可以将数据、算法和计算结果进行指纹链上存储与承诺,从而有效保证其完整性。而算法的完整性则与区块链公开透明的特征对应,因此算法的执行过程可以基于链上运算实现,从而保证其可验证性。当然在某些场景下需要结合隐私合约的技术(Confidential Smart Contract)以防止核心计算流程外泄。
隐私性保证。
隐私性需要依赖隐私计算技术去实现,如安全多方计算、同态加密和联邦学习等技术。在隐私技术环境下,数据处理的对象不再是明文数据,而是经过秘密分享或同态加密后的“密态数据”,从而防止计算过程中数据外泄。同样在模型训练过程中,不同数据集上的训练参数基于同态加密完成聚合,从而保证模型参数的隐私性。
计算结果可信性保证。
计算结果的可信,可以基于零知识证明实现。通过构造计算过程电路,结合链上数据承诺,即可生成计算结果正确性的零知识证明,证明该结果是“正确数据在正确算法下的计算输出”。
综合以上内容,技术法貌似能够解决数据安全三角问题,而不像折衷法在数据安全三角问题上进行平衡和折衷,但是该方法也存在其制约条件,即技术的应用能力问题。新引入的技术(如隐私计算、零知识证明)往往技术复杂度较高,使用门槛较高,从理论到实用还存在一定的距离。此外新技术的使用也会带来较大算力消耗,这导致这些新技术在某些场景下并不适用。因此,技术法和折衷法应该根据应用场景需求综合使用,最终有效解决数据安全三角问题。
第五章 数据要素流通与数据安全技术
数据要素价值发挥离不开数据流通、应用和运营,且数据安全技术是数据流通的核心保障。在数据要素流通领域存在“供不出、流不动、用不好、不安全”的问题,这些问题阻碍了数据要素高效流通、应用和运营。
数据“供不出”主要表现在:
一是数据权属不清晰,确权难,导致数据共享动力不足;
二是数据种类复杂,缺乏统一的数据口径、数据字典、数据标准和信息模型;
三是数据质量不高,缺乏数据治理,导致数据质量与实用性不高。
数据“流不动”主要表现在:
一是跨部门、跨行业、跨领域,壁垒较高,缺乏协调机制;
二是数据基础设施不完善,网络、算力、数据流通和数据安全基础设施不完善。
数据“用不好”主要表现在:
一是专业技术能力不够,无法快速、有效、安全支撑数据应用;
二是企业的数据应用水平不均衡,数据深度分析与优化占比不高;
三是缺乏数据应用场景创新土壤,可供使用数据体量不够,数据获取、加工、分析场景不足。
数据“不安全”主要表现在:
一是数据流通技术普及不够,存在数据泄露风险、商业秘密保护等问题;
二是数据可信支撑要素应用率低,数据交付无法控制和监管数据流通效率,安全和成本难以兼顾。
针对上述问题,本章基于国家数据局的规划和编者的理解,简要介绍数据基础设施的构成,并重点介绍数据流通基础设施和数据安全基础设施中的关键技术。通过本章可以深入了解数据流通基础设施和数据安全基础设施的技术细节,以及为何需要这些技术才能构成基础设施的关键能力,并支撑上传数据要素价值发挥的相关能力。
5.1 数据基础设施
随着国家数据局的挂牌成立,中国数据事业止在迎来崭新阶段。数据作为关键生产要素获得了全新重视,更加成为推动数字经济发展的关键战略性资源。国家数据局局长刘烈宏曾提出数据基础设施的概念:数据基础设施是从数据要素价值释放的角度出发,在网络、算力等设施的支持下,面向社会提供一体化数据汇聚、处理、流通、应用、运营、安全保障服务的一类新型基础设施,是覆盖硬件、软件、开源协议、标准规范、机制设计等在内的有机整体。
数据基础设施主要包括网络设施、算力设施、流通设施以及安全设施,它们构成了数据流通过程中数据处理和管理的核心柜架。其中,
以5G、光纤、卫星互联网等为代表的网络设施为数据提供高速泛在的连接能力,
以通用、智能、超级算力为代表的算力设施为数据提供高效敏捷的处理能力,
以数据空间、区块链、高速数据网为代表的数据流通设施打通数据共享流通堵点,
以隐私计算、联邦学习等为代表的数据安全设施保障数据的安全。
数据的四大基础设施共同确保数据在流通过程中能够高效、可靠地传输和处理,并保证数据的安全性和完整性,为数据资源开发利用落地和创新提供了稳固的基础支持,全面促进数字中国、数字经济、数字社会高质量发展的平台和载体。
5.1.1 网络设施
数据要素流通过程中的网络设施是指在数据要素从源头到目的地传输和流动过程中所涉及的网络基础设施和设备,这些网络设施包括各种网络设备、通信设备、传输介质和网络协议等,例如5G、光纤、卫星互联网等,它们共同构成了数据要素在网络中传输的基础框架,为数据提供高速泛在的连接能力。
在构建网络设施过程中,
首先,需要整合5G、光纤、卫星互联网等代表性的网络设施,以提供数据高速泛在的连接能力;
其次,建设高速稳定的数据传输网络,确保数据能在不同地域和环境下进行快速传输与交换;
最后,需要加强网络安全防护,网络设施中可采用加密技术和安令协议,保障数据在传输过程中的机密性和完整性。
上述方式构建的网络设施将为数据提供可靠的连接支持,促进数据要素基础设施的高效运行与发展。
网络设施在数据要素基础设施中扮演着至关重要的角色,它们承担着数据传输、通信、带宽管理和安全保障等重要功能,构建和优化网络设施是数据要素基础设施建设的关键环节。
网络设施的稳定运行和高效性为数据的高效流动和可靠传输提供了坚实支撑,加速了数据的流动和共享,推动了数字化时代的发展和普及,对于促进经济社会的发展具有重要意义。
5.1.2 算力设施
数据要素流通过程中的算力设施可以被定义为提供计算能力支持的设备和基础设施,更注重实时处理和流动性,一般需要具备高并发、低延迟的特性,同时也需要适应不确定性场景、强调数据安全、采用分布式流式计算架构,以满足动态数据流动的需求,与传统的算力设施存在较为明显的差异。
建设数据要素基础设施中的算力设施时,需要考虑算力的通用性,包括通用处理器、通用计算节点等,能够满足各类数据处理需求,提供灵活多样的计算能力。其次,基于数据要素流通中数据治理、加工与分析的需求,算力设施可引入智能化算法,能够实现数据的智能分析、挖掘和处理,提高数据处理的效率和准确性。另外,为满足数据共享交换过程中大规模数据处理和复杂计算任务的需求,算力设施需提供强大的计算处理能力。因此,算力设施通过整合超级计算资源和高性能计算设备的方式,构建超级算力设施,全面支持数据要素基础设施中的数据处理、分析和决策任务,实现对大规模数据的快速处理和实时响应。
算力设施中的通用、智能及超级算力特性,为各参与方提供高效便捷、安全可靠的数据要素存储、计算、分析能力,有效推动数据处理环节实现高效率、低成本、高智能的特性,推动数据驱动决策和创新发展,促进数据要素基础设施的构建和发展,助力数字化转型和智能化发展的实现。
5.1.3 流通设施
数据要素基础设施中的流通设施,是指为促进数据共享、传输和交换而构建的基础设施。它包括各种技术和标准,用于确保不同数据要素(如数据集、数据服务、数据产品等)在不同系统、组织和平台之间能够安全、高效地流通和交换。这些流通设施可以涵盖数据传输协议、安全加密技术、数据标准化方法、数据接口规范等,旨在打破数据孤岛,促进数据的互联互通,从而支持数据驱动的创新和应用发展。
首先,流通设施的建设需要整合数据空间、区块链、离速数据网等代表性的数据流通设施,以打通数据共享流通的堵点;
其次,通过建设统一的数据接入和交换平台,实现多源数据的集成和共享,促进数据在不同系统和组织之间的流通和互联;
最后,基于安全可控的数据流通机制,引入区块链等技术确保数据传输的安全性和可信度,同时推动数据开放共享和合规流通。
上述方式建设的数据流通设施将有助于加强数据共享和流通,实现数据在不同主体间“可用不可见”“可控可计量”,为不同行业、不同地区、不同机构提供可信的数据共享、开放、交易环境,有效提升数据流通环节的安全可靠水平,推动数据要素基础设施的健康发展和应用创新,为经济社会发展提供更为坚实的数据基础支撑。
5.1.4 安全设施
在当今数字化社会中,数据的安全隐私保护已经成为至关重要的议题。在数据要素基础设施中,安全设施的作用愈发凸显。安全设施通过引入先进的隐私计算、联邦学习等手段,可有效保障数据的隐私与安全,还能确保数据在流通过程中的完整性和可靠性。
数据基础设施中的安全设施的建设方案可以结合多种技术手段和安全机制,全面保障数据要素流通的安全性。
首先,在建设安全设施过程中可以采用隐私计算技术,实现对流通共享中的数据进行加密处理,确保在数据传输和存储过程中得到保护;
其次,安全设施通过结合联邦学习等技术,实现数据的分散存储和模型训练,避免集中式数据存储带来的风险,同时确保数据的隐私性和安全性;
最后,在安全机制方面,通过建立严格的访问控制机制和权限管理体系,限制数据的访问范围,防止未经授权的数据泄露和篡改。
安全设施的建设有助于各参与方建立数据安全保障体系,推动各参与方在数据合规性方面形成最佳实践,贯穿数据生命周期全流程,确保数据的可信性、完整性和安全性,更能推动跨组织间安全数据交换与合作,为数据要素流通提供了坚实的保障和支持,促进数字化社会的安全发展与创新应用。
5.2 数据空间
数据空间通过定义数据归属权,以及以空间为主体参与数据流通的一套机制,服务数据要素流程应用场景。通过数据空间宣示数据主权的同时,结合区块链技术实现分布式、可信的数据空间网络,再结合高速数据网络支撑数据高效、安全、可信流通,从而支撑起数据流通基础设施。
5.2.1 数据空间定义
据IDS(国际数据空间协会)定义,数据空间是一个虚拟空间,它基于通用协议和格式以及安全可信的数据共享机制,为数据交换提供了一个标准化框架。《欧洲数据战略》中提到,为实现欧洲单一数据市场,需建设欧盟数据空间,即一种能保障企业数据、公共数据、个人数据有序流通应用的技术体系。其核心价值是赋予了数据提供方一种新型的权利--数据主权,即数据所有者保留对其数据的控制权,可以确定谁可以使用数据以及在什么条件下使用数据。数据空间作为数字化时代的一种新型数据管理和利用方式,正在逐步成为数字化转型的重要支撑。数据空间的诞生,象征着网络空间正在由“以计算为中心”向“以数据为中心”的转变,为数据的共享、交换和利用提供了更加便捷、高效的方式。
数据空间在欧盟、日本、韩国等均在跟进。2016年,工业数据空间协会(IDSA)成立;2019年更名为国际数据空间协会。2020年《欧洲数据战略》明确建设9 大数据空间(制造业、绿色化、交通、健康、金融等)。2024年,欧盟现有17大通用数据空间与46个行业数据空间,覆盖制造业、运输、金融、能源、农业等行业。
我国数据空间主要围绕可信展开。2022年,工业互联网产业联盟发布《可信工业数据空间系统架构1.0》。2023年,全球数商大会发布国内首个可信数据空间标准《可信数据空间系统测试规范》。2023年年底,国家数据局会同有关部门制定了《“数据要素X”三年行动计划(2024-2026年)》,指出要深化数据空间、隐私计算、联邦学习、区块链、数据沙箱等技术应用。
国家数据空间可以向下细分为行业空间、区域空间,形成多层次的数据空间,从数据全生命周期和基础设施的横向和纵向来看,又有分层、分类,实现不同的目标。
国内数据空间与数据基础设施关键
在数据空间中,数据的共享和交换需要遵循一定的协议和格式,以确保数据的安全性和可信度。这些协议和格式通常由国际数据空间协会等权威机构制定和维护,以确保数据空间的标准化和规范化。通过这些协议和格式,数据可以在不同的系统、平台和应用之间进行无缝交换和共享,大大提高了数据的利用效率和价值。除了协议和格式外,数据空间还需要建立安全可信的数据共享机制。这些机制包括数据加密、身份认证、访问控制等多种技术,以确保数据在传输和存储过程中不会被窃取、篡改或滥用。同时,数据空间的治理和监管也必不可少,需要建立相应的法律法规和监管机制,以确保数据空间的合规性和可持续性。
5.2.2 数据主权
数据空间是数据主权的一个重要概念载体。数据主权是指数据所有者对其数据的控制权和决策权,面数据空间就像法律文书一样,定义了数据的所有权和管理权。在传统的数据交换和共享模式中,数据往往由数据提供者完全控制,而数据使用者只能被动接受数据提供者的规则和限制。在数据空间中,数据主权强调数据所有者应有权利决定其数据的使用、分享和流通方式,同时保护其数据的安全和隐私。
数据主权的概念体现了数据所有者在数据交换和共享过程中的自治权和控制权,强调数据所有者在数据生命周期的各个阶段都应具有明确的控制和决策权限。这包括数据采集、存储、处理、共享和销毁等环节,数据所有者应能够自主选择数据的使用目的、范围和方式,以确保数据的合法、安全和有效使用。
在数据空间中,数据主权的实现需要结合法律、技术及交易三个维度,以保障数据所有者的权益和数据的安全性。这可能涉及数据共享协议的制定、数据安全技术的应用、数据治理机制的建立等方面,以平衡数据的开放共享和数据主权的保护之间的关系。
①法律层面:
法律应明确规定数据所有者对其数据的所有权,并赋予数据所有者决定数据使用方式的权利,通过相关法律法规,规定数据使用者需要获得数据所有者的明确同意,这样可以有效保障数据所有者的数据主权,防止数据被滥用或未经授权使用。
②技术层面:
基于加密、安全及数据访问控制等技术,可以确保数据在传输和存储过程中的安全性,保护数据所有者的数据免受非法获取和篡改,增强数据主权的实施效果。
③交易层面:
通过建立数据交易平台,为数据所有者提供一个公平、透明的交易环境,使得数据所有者能够更好地控制自己的数据流通和使用,从而增强数据主权。
总的来说,数据主权是数据空间中的重要概念,强调数据所有者应对其数据拥有最终的控制权和决策权,以推动数据交换与共享的可持续发展,并促进数据驱动的创新与应用。
5.2.3 数据空间内涵
数据空间提供了一个统一的环境,有助于有效组织、管理和交换不同来源、格式和结构的数据。其关键特征包括数据的标准化、互操作性和安全性,确保数据在跨系统和平台间流畅传输和共享。数据空间涉及数据所有权、数据隐私、数据安全、技术应用和交易机制等多方面内容,需要从法律、技术和交易三个角度进行全面考队和保障。借助数据空间,用户可更便捷地获取和利用数据资源,推动跨组织、跨行业的合作与创新,为数据驱动的应用奠定坚实基础,助力智慧型社会的构建。
在医疗领域,数据空间可以帮助医院和医生实现病历数据的共享和交换,提高医疗服务的效率和质量;
在交通领域,数据空间可以促进车辆、道路、交通信号等各种交通元素之间的数据共享和协同,提高交通的安全性和效率;
在金融领域,数据空间可以实现银行、证券、保险等金融机构之间的数据共享和交换,提高金融服务的便利性和创新性;
在工业领域,可信工业数据空间是基于数据使用控制、隐私计算、安全技术、存证溯源等技术综合构建的,遵从统一标准的,覆盖数据全生命周期的数据管控系统和价值生态体系,是实现数据要素高效配置的新型基础设施。
同时,数据空间还可以为企业和组织提供更加灵活和高效的数据管理和利用方式。通过构建数据空间,企业可以将分散在各个部门和系统中的数据进行整合和标准化,实现数据的集中管理和利用。这样一来,企业可以更加便捷地获取和利用数据,提高决策的科学性和准确性,进一步推动企业的发展和创新。
数据空间的出现,不仅为数据的共享和利用提供了更加便捷、高效的方式,也为数字化时代的发展注入了新的动力。随着数据空间技术的不断发展和完善,相信未来数据空间将会在各个领域发挥更加重要的作用,为社会的进步和发展做出更大的贡献。
5.3 区块链
区块链的概念来源于一位化名为“中本聪”(Satoshi Nakamoto)的学者2008年11月在密码学邮件组发表的论文《比特币:一种点对点的电子现金系统》。经过十几年的发展,区块链技术已趋于成熟,凭借其特有的运行机制,能够有效解决中心化系统中存在的单点故障、数据流转成本高和数据存储不可信等痛点,并正在重塑诸多行业的运行规则,也成为数字社会的核心底层技术。本节首先详细介绍区块链技术,包括其概念内涵、技术特征、安全与可信逻辑和关键研究领域,随后介绍区块链在数据要素领域的典型应用场景。
5.3.1 区块链的概念
区块链并不是一种单一的技术,而是分布式存储、点对点传输、密码学和博弈论等多种技术融合和创新的结果。工信部在2016年指导发布的《中国区块链技术和应用发展白皮书》将区块链的发展划分为两个阶段,分别对应区块链的狭义概念和广义概念。
(1)狭义概念
狭义上,区块链是一种按照时间顺序将数据区块以链条的方式组合成特定数据结构,并以密码学方式保证的不可篡改和不可伪造的去中心化共享总账,能够安全存储简单的、有先后关系、能在系统内验证的数据。在区块链发展的1.0阶段,其技术本质是一个具有鲜明技术特征的分布式数据库,因此也被称为分布式账本技术(Distributed Ledger)。
(2)广义概念
广义上,区块链是利用链式数据结构存储与验证数据、利用分布式节点共识算法生成和更新数据、利用密码学方式保证数据传输和访问的安全、利用自动化脚本代码组成的智能合约来编程和操作数据的一种全新的分布式基础架构与计算范式。广义概念和狭义概念最大的区别在于智能合约的引入,这也是区块链2.0相比1.0质的提升,区块链不再是分布式账本,而是进化为通用计算平台,由“记账”变为“算账”。
5.3.2 区块链的技术特征
(1)去中心化
去中心化是指区块链的运行不依赖中心化机构,所有节点权限对等,通过数学方式达成信任,共同维护系统正常运转。为了更加深刻地了解区块链“去中心化”的技术特征,我们将其与传统中心化系统和分布式系统进行对比。
在传统中心化系统中,往往存在一个管理员的角色,该角色负责系统的正常运行以及系统内部角色权限的分配,具有系统内最高甚至唯一的管理与控制权限,因此整个系统是中心化的运行模式。而在区块链中,并不存在一个管理员的角色,整个系统的管理权限进行了“分摊”,由区块链中的所有节点共同完成系统的运行和管理,具备明显的去中心化特征。
在分布式系统中,同样是由多个节点配合共同完成系统的运行,某种程度上也具备一定的去中心的特征。然而,分布式系统更多强调的是多节点参与,节点和节点之间是否对等是没有明确要求的,也就是说分布式系统中可能存在“多节点参与,单节点确认”的情况,这和区块链“多节点参与,节点对等”的设计形成差异。
(2)集体维护
集体维护是指区块采用特定的激励机制来保证系统中所有节点均可参与数据区块的验证过程,并通过共识算法来选择特定的节点将新区块涂加到区块链。具体而言,集体维护的内涵可以从系统决策和数据可用性两个层面进行剖析。
系统决策方面,除了新区块的添加是所有节点共同通过共识算法决定外,整个系统的核心参数也是由网络中的节点共同确定,比如区块链的大小、数字签名算法的类型、底层共识算法的类型等。区块链领域中经常提及的去中心化自治组织(Decentralized Autonomous Organization,DAO),本质上就是来源于区块链集体维护的技术特征。
数据可用性方面,区块链的数据并不是单一存储在某个节点,而是网络中每个节点都在本地存储完整的区块链数据,所有节点共同维护,且存储的数据是—致的。这就保证了数据的高可用性,离线和新加入的节点可以从其他节点迅速同步到最新的区块链数据,而数据丢久或损毁的节点也可以高效实现数据恢复。
(3)不可篡改
不可篡改是指写入区块链的数据无法修改,数据的完整性能够得到有效保护。这一点是区块链区别于传统数据库的核心特征,也是区块链能够实现数据确权和追踪溯源的内生能力支持。以下从两个层面来剖析不可篡改的技术内涵。
首先,不可篡改这一特征是由区块链底层的数字签名、链式结构和共识算法等技术共同保证。数字签名能够保证被签名数据的完整性;链式结构使得链上任意数据的修改都会引发“雪崩”效应,从而不满足区块链数据合法性的验证要求,防止数据篡改;共识算法则保证了区块链数据理论上无法“回滚”,因此随着数据所在区块深度的增加,被篡改的风险以指数级降低直至不可篡改。
其次,不可篡改并不意味无法对链上数据进行更新。在实际应用场景中,业务数据是存在更新需求的,即对已存证在区块链上的数据进行替代。这一需求与区块链不可篡改的特征并不矛盾,因为可以通过“追加”而非“覆盖”的形式完成数据的更新,既实现了当前最新数据的上链存证,又实现了数据修改历史的精准记录。
(4)用户匿名
用户匿名是指区块链的参与者以数字签名算法公钥作为身份标识,不会暴露现实身份。可以从两个层面去理解用户匿名:
首先,区块链原生的用户匿名是“伪匿名”,即链上数据并不直接反映用户现实身份,但是通过对链上数据进行归集并开展行为模式分析,是能够追踪到用户的现实身份。因此区块链领域才有隐私保护这一研究方向,通过复杂的密码学技术实现真正的“用户匿名”。
其次,用户匿名的范围与区块链的类型是紧密相关的。比如在联盟链中,节点是有准入条件的,需要共识节点对其身份进行认证审核后才能加入网络。因此,联盟链中的“用户匿名”更多的是业务层面的匿名性,而非对整个系统成员都具备匿名性。
5.3.3 区块链的安全与可信逻辑
(1)安全逻辑
区块链的安全逻辑体现在网络安全、数据安全和运行安全三个方面,三者相互作用,共同形成系统的内生安全。而这些安全性的产生则依赖于区块链本身具备的技术特征,具体介绍如下。
网络安全方面
区块链网络层使用对等网络协议(Peer–to–Peer networking,P2P),是一种在对等者(Peer)之间分配任务和工作负载的分布式应用架构。P2P架构天生具有耐攻击、高容错的优点。由于服务是分散在各个节点之间进行的,部分节点或网络遭到破坏对其他部分的影响很小,同时在部分节点失效时能够自动调整整体拓扑,保持其他节点的连通性。
数据安全方面
区块链数字签名、链式结构和共识算法的应用实现了不可篡改的技术特征,保证了链上数据的完整性,能够有效抵御数据的伪造和篡改;此外,集体维护的技术特征能够有效保证数据的可用性,具备高度的容错性,个别节点的宕机和数据污染,并不会影响整个系统的数据安全。
运行安全方面
区块链底层的运行逻辑严格遵循共识算法,只要满足共识算法的安全假设(如诚实大多数、拜占庭假设等),那么整个系统的运行过程就不受外部影响;同时智能合约也是链上数据的一部分,其运行逻辑受到数据安全的保障,不存在代码入侵和代码安全风险。
(2)可信逻辑
区块链的可信逻辑体现在数据不可抵赖性和计算可验证性两个方面。数据不可抵赖性保证了输入数据的可信,而计算的可验证性保证了数据处理过程的可信,二者共同决定了结果的可信,具体介绍如下。
数据不可抵赖性
是指任何参与方无法对已经承诺的数据进行修改操作,也无法进行数据的撤回或者否认橾作,本质上是由区块链不可篡改的技术特征决定。因此,区块链可以作为节点之间的可信信道,完成数据的交换与使用。相比在节点之间构建数据传输通道,以区块链作为数据载体能够有效提升交互的可信度以及稳定性,因此在一些学术论文中,区块链也经常作为公告板(Public Bulletin Board)的具体实例出现。
计算可验证性
是指发生在区块链上的运算过程能够被任意第三方进行验证,其本质来源于区块链公升透明的技术特征。首先,区块链上运算的载体为智能合约,而智能合约的代码是公共可见的,其承载的业务逻辑以及安全性是接受公共审计的;其次,智能合约代码的执行是在每个共识节点本地进行,之后各节点会将计算结果进行相互比对,比对一致后才作为最终结果写入区块链,因此智能合约的执行过程也是以分布式、可信的方式完成的。
5.3.4 区块链关键研究领域
目前区块链技术正处于成熟演进的过程,仍存在一定的缺陷导致其应用场景受限。为弥补这些缺陷,在学术界和工业界逐渐形成了四个主要的区块链研究领域,即可扩展性研究、共识算法研究、隐私保护技术研究和跨链技术研究,以下分别进行介绍。
(1)可扩展性研究
交易是区块链最基本也是唯一的事件类型,任何链上应用都依赖于发送交易去完成。因此业界常使用每秒处理交易的数量(Transaction Per Second, TPS)来衡量区块链系统的性能。比特币的TPS约为7,以太坊的TPS介于10到20之间。作为对比,Visa信用卡每秒处理交易约为2000笔,淘宝双十一交易的峰值约为每秒54万笔。显然现有区块链系统性能远远不能满足一些高频交易场景的需求。可扩展性研究的目标是最大限度地提高区块链的TPS。具体而言,根据所处区块链系统层级的不同可以将可扩展性方案分为Layer 0、Layer 1和Layer 2三类。
Layer 0方案针对区块链网络层提出,旨在通过提升P2P网络的传输效率来提高区块链系统的性能,通过在全球建立区块链数据路由网关并设置为区块链网络的骨干节点,其他节点连接这些网关完成交易数据和区块数据的同步。从而极大地提高了区块链P2P网络的传输效率,为上层性能的提升奠定网络基础。
Layer 1方案针对区块链链上提出,通过修改区块参数或者数据验证逻辑来提高区块链系统的性能,比如将区块大小由1M提高至32M和128M,增加了单个区块最大承载交易的数量,从而在出块时间不变的情况下提高了区块链的TPS,抑或将交易信息和非交易信息(即交易的数字签名)进行分离,广播的区块中只包含交易信息,从而增加了单个区块可容纳交易的数量,提高了区块链的性能。
Layer 2方案针对区块链链下提出,通过将交易转移到链下执行来提高区块链的性能,将用户资金在链上进行锁定,双方在链下完成资金转移后将凭证发送到链上进行结算,或者将链下交易压缩后打包上传到区块链,并利用欺诈证明(Fraud Proof)或者零知识证明保障其正确性,提高了区块链的交易验证效率。
(2)共识算法研究
区块链本质是由网络中所有节点共同维护的分布式账本。这些节点分布在世界各处,仅通过P2P 网络进行连接。因此就需要一种有效的机制去组织这些节点完成“记账”过程,保证全网仅有一条合法区块链。这一机制即为共识算法,它是区块链技术的核心组成部分,决定整个系统的可用性和安全性。共识算法解决的核心问题是记账权的分配,即决定每个高度区块的合法出块者。当前典型的区块链共识算法包括工作量证明、权益证明、委托权益证明和拜占庭容错。
工作量证明(Proof-of-Work,PoW)是最早的区块链共识算法,其核心思想是节点通过算力竞赛去竞争出块权,节点出块概率与其算力大小成正比,每个节点都有权提出区块,但是需要保证区块头的哈希值小于当前的目标值,只有满足这一条件的区块才会被其他节点验证通过并最终接入链中;
权益证明(Proof-of-Stake,PoS)是另一种被业界广泛接受并研究的共识算法,能够有效规避PoW高能耗的缺陷,其核心设计思想是链上权益越大的节点获得出块权的概率也越大,而背后的经济学原理在于权益越大的节点作恶的成本也越高,因此有更大的动机去严格遵守协议、提出合法区块、维护整个系统的安全;
委托权益证明(Delegated Proof-of-Stake,DPoS)与议会选举制度类似,即所有权益持有者经过层层投票选举得到一个董事会,最终由董事会的成员完成区块的生成和验证过程,因此DPoS可以理解为集中化的PoS;
拜占庭容错(Byzantine Fault Tolerance,BFT)能够在恶意节点存在情况下保证共识过程的一致性和活性,实现少量节点之间的高效共识,因此常应用于联盟链,它的安全基础为拜占庭假设,即所有参与共识节点中恶意节点数量不超过三分之一,而整个共识过程就是节点投票的过程。
(3)隐私保护技术研究
区块链是公共可访问的,即任何人都可以接入区块链网络并同步得到完整的区块链数据。这一特征在丰富区块链应用场景的同时,也为区块链的隐私保护带来严重风险。用户在区块链系统以账户地址作为其身份标识,通过将用户账户地址相关交易汇总并进行关联分析可以实现精确的用户画像。如果该用户与其他已知身份的地址发生过交易,那么有很大概率揭示其真实身份。隐私保护技术旨在借助混淆或者密码学手段去保护交易发送者和接收者的真实身份以及交易的真实金额。目前主流的隐私保护技术包括环签名、隐蔽地址和零知识证明。
环签名和隐蔽地址技术可以组合使用,从而隐藏发送者和接收者的真实身份。具体而言,交易的发送地址是一组地址,共同构成环签名的公钥集合,发送者的真实地址是这个集合中的成员,但是任何人无法判断具体为哪一个地址,而交易的目的地址是发送者为接收者生成的隐蔽地址,只有接收者能够进行识别并生成对应私钥;
零知识证明技术同样可以用于隐藏发送者和接收者的真实身份以及交易金额,用户可以将资金发送到屏蔽池(Shielded Pool)来对交易的内容进行保护,也可以随时从屏蔽池提取资金进行正常的交易,整个过程的合法性由零知识证明系统保证。
(4)跨链技术研究
当前很多公司在内部建有私有链或者与其他公司合作建立联盟链,所有类型区块链合计上万条。然而不同区块链系统之间缺乏一种有效的方式完成信息交互,存在严重的数据隔离问题。具体表现为不同区块链上的数字资产无法自由流动和链与链之间无法进行业务互动。造成这种数据隔离结果的很重要原因是不同区块链系统技术架构差异巨大,如账户管理方式、共识算法等。跨链技术(Cross-Chain Technology)旨在高效完成链与链之间的信息交互和资产流动,变“链”为“网”,彻底打破数据孤岛,解决不同区块链之间数据隔离的问题。目前主流的跨链技术可以分为公证人技术、侧链技术、中继技术、哈希时间锁技术和分布式私钥控制技术。
公证人技术通过可信第三方(即公证人)在两条区块链之间建立“连接器”,完成链上数字资产的托管和信息的传递验证,不同链上的用户无需直接交互,仅通过与连接器交互即可完成跨链信息的传导和资产的转移;
侧链技术通过将A链的区块头写入B链以完成数据的锚定,由于区块头中包含交易默克尔树的根,因此A链上任意交易都可在B链上完成合法性验证,如果将B链的区块头也写入到A链,两条链即可实现“双向锚定”,即能够互相验证对方信息;
中继技术实现思路是建立一条中继链(Relay Chain),其他链将资产锁定后转移到中继链上,并通过一个特定的跨链通信协议与中继链进行信息的传递和验证;
哈希时间锁技术主要解决跨链数字资产兑换的问题,它在两条链上各部署一个智能合约,兑换人甲在本地生成一个随机数,然后将资金锁定在A链合约中,并写入随机数的哈希值,兑换人乙看到甲的操作后,将资金锁定在B链合约中,写入同一个哈希值,之后甲在B链提交随机数,合约验证是哈希值的原像后释放资金,乙在甲暴露随机数后,以同样方式在A链获取资金;
分布式私钥控制技术是在原链上建立一个资产锁定账户,其私钥以碎片的形式分布在多个节点,用户只需要将资产发送到锁定账户,这些节点就会在另一条链上映射相同数量的资产,从而完成资产的跨链转移。
5.3.5 区块链典型应用场景
(1)数据存证确权
如果在区块链中存储大量的原始数据会使区块链系统的传输、存储成本极大增加,计算效率极大降低,并且数据的隐私和安全也得不到保障。所以,通常只需将原始数据的哈希值和相关元信息登记到区块链上。原始数据的哈希值不会披露数据,也小会带来数据信息的泄露, 同时还可以完成数据的完整性验证。原始数据的元信息包含了数据多个维度的属性,例如数据持有方的标识、数据的特征信息、数据的哈希值、数据所属的主题和数据的样本容量等内容,将这些元信息登记到区块链上可以极大地增强数据资源的检索能力。
数据资源目录包含原始数据的哈希值和元信息,是在区块链上管理数据资源、帮助实现数据流通的重要工具,也是数据资源交换的核心组成。
区块链在数据流通中的应用
数据持有方将原始数据的元信息生成哈希值,并将元信息和元信息哈希值作为数据目录一同登记到区块链。
在对原始数据的确权时,先验证数据目录中元信息和元信息哈希值是否匹配,以确认元估息是否被篡改;再核验元估息中的原始数据哈希值,实现链上数据资源目录与链下原始数据的关联映射;最后通过核验元信息中的数据持有方标识, 即可证明数据的拥有方身份。
因为区块链是数据供需各方共同构建和维护的可信体系,这使得存储在区块链上的数据也是可信的。基于该方法,我们可以对数据持有方的共享行为进行可信存证,并对流通中的数据进行可信确权。
(2)数据追踪溯源
区块链在实现数据确权和行为存证的同时,也在多个层次上解决了数据溯源问题。
数据在加工、计算、汇聚后会形成派生数据,派生数据又能被需求方无限传播。在数据循环反复派生和传播过程中,同一参与方的角色也会跟随数据流向切换,但是,无论是原始数据共享,还是派生数据共享,其与持有方的权属关系已经被登记在区块链上,并且派生数据与原始数据的血缘关系也可以以数据资源目录的方式登记到区块链上。凡是登记到区块链上的数据均可被查验和追溯。
当数据在流通过程中出现争议甚至法律问题时,系统可以通过区块链溯源到数据流通的某个特定阶段,然后识别数据在该阶段的真实性和其持有者。这在提高数据流通安全性的同时,能更好地支持法律监管。当某参与方通过派生数据获利时,系统也可以通过区块链准确追溯到派生数据的原始数据持有方,并根据激励策略给予原始数据持有者相应奖励。这不仅保护了数据持有者的权益,也防止了数据的盗用。
(3)数据资源激励
以区块链为底座实现数据资源存证确权后,就为数据供需利益相关方构建了互信关系。接下来需要考虑的是数据在流通过程中的激励问题。
在激励机制设计方面,基于通证经济概念构建的激励模型可以实现数据资源资产化激励,有效提升数据供需双方的参与意愿。数据不同于商品,数据供需参与方的身份也并非始终是单一的,在大多数情况下,数据交易参与方可能会同时兼有数据持有方和数据需求方两个身份,这会使得所有参与方在数据流通的所有环节都有接入点,这最终会帮助实现数据资源自治生态的形成。
在激励机制的技术实现方面,利用区块链智能合约技术实现激励模型可保证激励机制在实际实施过程中的公平透明和安全可信。智能合约是一段运行在区块链上的代码,它具有以下特点。
①多中心化。
智能合约代码经过多方共识后存储在区块链的各个节点上,不受单个参与方或个人的控制。
②不可篡改。
智能合约一旦部署到区块链上其内容就无法修改。
③自动执行。
区块链上交易一旦满足智能合约约定的条件,合约就会自动执行,不需要人为干预,合约也无法通过人为干预改变其执行内容。
④透明性。
区块链上的所有事务都是公开的,智能合约也不例外,智能合约的内容可以被所有参与者看到,受所有参与者监督。
⑤无需信任。
智能合约的执行是基于区块链共识机制,不需要参与方建立额外的信任机制,这使得智能合约适用于不需要强力执行和监管方的场景。
鉴于智能合约上述一系列特点,我们可以通过智能合约实现对数据流通交易各参与方的激励。数据供需各方先就激励策略达成一致,并由一方生成智能合约代砃(代码中包含通证发放、通证转移、通证销毁、通证赠予等约定),合约代码提交到区块链后经各方审核并共识后完成部署。之后,数据持有方共享数据、数据需求方订阅数据、数据需求方共享数据加工结果等数据流通行为将触发智能合约执行,根据约定的
激励策略,智能合约自动为相关方发放通证激励。最后,每一次激励行为形成的记录也将被存储在各个区块链节点上,以供存证和追溯。发放的通证,也将激励相关参与方更多参与数据的流转和交易。
(4)抗数据欺骗与投毒
如果有数据欺骗和数据投毒行为发生,基于区块链可追溯特性,系统可以快速精确定位到相关行为的发起方和参与方,再基于约定的奖惩机制,智能合约自动、公平且透明地对欺骗方和投毒方进行相应惩罚,包括扣除通证激励、销毁其通证,甚至冻结其系统账号。这有效约束和抑制了数据流通各参与方的恶性行为,推动数据流通向着良性方向发展。
5.4 高速数据网
高速数据网是支撑数据要素高效流通的基础技术设施,能够快速、安全、可靠地在数据空间之间传输大量数据。高速数据网是基于网络和算力基础设施之上构建的数据网络,高速数据网不同于宽带或光纤等网络基础设施,而是服务于数据流通的高速数据网。高速数据网用于支撑数据空间之间的数据高速公路,一方面支撑集群内部的数据高速流通,另一方面支撑集群之间的数据高速流通。本节介绍高速数据网的技术特征,并从数据空间内部和数据空间两个维度介绍高速数据网络。
5.4.1 高速数据网的技术特征
高速数据网络核心的技术特征包括数据处理架构、数据流通承载网和数据流通协议。
数据处理架构是实现数据在数据空间内部和外部高效处理的一种技术架构。目前数据处理架构主要分为批处理架构、流处理架构和批流一体融合架构,这些架构是针对数据不同的来源而采取的技术路线,核心技术主要包括一致性、吞吐率、稳定性等。在数据流通场景中,数据处理架构核心作用是完成数据的快速交付。
数据流通承载网类似于电信运营商一样的网络,实现数据空间之间的数据运输,使得数据空间之间可以进行正确寻址和高效投放。数据流通承载网络使得数据空间无需关系其他数据空间的位置,通过一个唯一编码就可以通过数据流通承载网实现通讯。
数据流通协议是构建数据空间之间的相互交互的协议。目前数据流通协议标准还在制定中,暂时还没有形成统一共识。
5.4.2 数据空间内高速数据网络
数据空间内高速数据网络专门为大规模数据处理和分析任务而设计,主要用于连接计算集群内部各个节点,在空间内部快速完成数据的处理,为数据在空间之间提供数据服务。由于数据空间之间的流通能力需要由空间内部调度完成,因此集群(数据空间)内部的高速数据网络是快速完成数据流通的基础。
在20世纪90年代初期,随着计算机硬件技术的不断发展,人们开始意识到通过将多台计算机连接起来,可以实现更高的计算性能。这种集群计算系统通常使用低成本的标准服务器和网络设备,但网络带宽和通信速度相对较低,可以称其为早期集群计算时代。
随着集群计算技术的不断发展,人们开始关注如何提高集群计算系统的性能和效率。在这一时期, 高性能计算集群逐渐成为主流,使用专用的高性能计算节点和高速网络设备,以支持科学计算、工程模拟等应用的需求,将其称之为高性能计算集群,高性能计算集群目前在一些应用领域还能看到其身影。
随着大规模数据处理和分析需求的增加,以及云计算技术的兴起,对高速互联网络的需求也日益增加。在这一时期,像lnfiniBand、IOGbE等高速互联技术开始得到广泛应用,为数据空间内高速数据网络的发展奠定了基础,这是高速互联网络的兴起时代。
随着软件定义网络(SDN)和网络功能虚拟化(NFV)等新技术的出现,数据空间内高速数据网络的设计和管理方式发生了革命性的变化。这些新技术使网络资源的配置和管理更加灵活,同时提供了更高的可编程性和自动化能力,为数据空间内高速数据网络的进一步发展提供了技术基础。
数据空间内高速数据网络是基于高速网络在数据空间中以数据视角构成的一种网络基础设施形式,因此和网络一样注重低延迟和高带宽。在计算集群中,各个节点之间需要频繁地进行数据交换和通信。因此,数据空间内高速数据网络通过提供低延迟和高带宽的传输通道,确保了数据能够在集群内部高速传输,从而支持了大规模数据处理和分析任务的执行。
数据空间内高速数据网络以计算集群内部大量节点为基础,因此需具备高度的可靠性和容错性。考虑到集群规模通常较大,节点数量众多,数据空间内高速数据网络需要能够在节点故障或网络异常的情况下自动进行故障转移或恢复,以保证集群的稳定运行。这种高可靠性和容错性是确保集群数据处理任务顺利完成的关键因素之一。
此外,数据空间内高速数据网络还注重负载均衡和适应性。在集群环境中,可能存在大量的数据流量需要在不同的节点之间传输。因此,数据空间内高速数据网络需要具备负载均衡的能力,以确保数据传输的公平性和效率性。同时,随着计算任务和数据量的变化,网络需要具备良好的适应性,能够根据需求动态调整网络资源的分配和配置。
5.4.3 跨数据空间高速数据网络
本节基于上一节描述的数据空间内的高速数据网络,重点介绍跨数据空间高速数据网络,顾名思义就是跨多个数据空间的数据传输网络,它承载了数据空间之间数据高效传递的基础设施,包括网络设施、承载网络和相关协议。跨数据空间高速数据网络通过连接多个计算集群实现集群之间的数据交换和通信。随着数据处理和分析任务的复杂性和规模不断增加,单个计算集群可能无法满足所有需求,因此跨数据空间高速数据网络的出现填补了这一空白,为数据要素流通领域中数据的分布式计算提供了强大支持。
跨数据空间高速数据网络的发展历程可以追溯到计算集群和分布式计算的兴起,随着数据处理和分析任务的不断增加,单个计算集群可能无法满足所有需求,因此跨数据空间高速数据网络应运而生,使得不同集群之间可以高效地共享数据和计算资源。
早期阶段的集群计算和分布式计算虽然发展迅速,但是研究人员和企业仅仅是建立自己的计算集群,以满足不断增长的计算需求,而随着单个集群的规模和性能局限性不断加大,已无法满足计算集群规模扩大和数据处理任务复杂性增加的需求。
因此人们开始尝试在不同集群之间建立数据通信通道,以实现数据共享和计算协作。在这个阶段,一些基础的跨集群数据通信技术开始出现,但通常面临性能低下、可靠性差等问题。
随着网络技术的进步和分布式系统理论的发展,跨数据空间高速数据网络技术得到了极大地改进。各种新的通信协议、数据传输技术和安全机制被提出和应用,使得跨数据空间高速数据网络能够更加高效、安全地实现集群之间的数据传输和通信。
2010 年至今,云计算技术的兴起,跨数据空间高速数据网络迎来了新的发展机遇。云服务提供商开始提供跨集群数据通信服务,使得企业和个人用户可以更方便地利用云计算资源进行数据处理和分析。
跨数据空间高速数据网络通过高带宽、低延迟的数据传输通道、数据承载和转发协议,实现了多个数据空间之间的快速数据传输。这种快速传输能力使得集群之间可以高效地共享数据和计算资源,从而支持了更广泛的数据处理和分析应用。
跨数据空间高速数据网络强调了数据一致性和安全性。在多个集群之间传输数据时,确保数据的一致性和完整性是至关重要的。因此,跨数据空间高速数据网络通常采用了数据复制、备份等技术,以确保数据在传输过程中不会丢失或损坏。同时,为了保护数据的安全,跨数据空间高速数据网络也会采取加密、身份验证等安全措施,防止数据泄露和未经授权的访问。
跨数据空间高速数据网络还注重了网络的可扩展性和灵活性。随着数据处理和分析任务的增加,可能需要动态地扩展跨数据空间高速数据网络的规模和容量。因此,跨数据空间高速数据网络设计时考虑了网络资源的动态配置和管理,以便根据需求灵活调整网络结构和带宽分配。
跨数据空间高速数据网络强调数据一致性、安全性、可扩展性和灵活性,为分布式计算和大规模数据处理提供了更强大的支持,推动了数据要素流通领域中数据密集型应用和服务的发展。
5.5 隐私计算
隐私计算是数据安全基础设施的重要组成部分。隐私计算是面向隐私信息全生命周期保护的计算理论和方法,具体是指在处埋视频、音频、图像、图形、文字、数值、泛在网络行为信息流等信息时,对所涉及的隐私信息进行描述、度量、评价和融合等操作,形成一套符号化、公式化且具有量化评价标准的隐私计算理论、算法及应用技术,支持多系统融合的隐私信息保护。
从技术层面来看,隐私计算主要有两类技术途径:
一类是基于密码学等复杂协议实现,即“软实现”;
另一类是基于可信执行环境实现,即“硬实现”。
本节详细介绍隐私计算技术,首先介绍“软实现”中常用的三个密砃学技术,即同态加密、秘密分享和零知识证明,随后介绍“硬实现”中的可信执行环境,包括概念、技术途径和应用实例。
5.5.1 同态加密
(1)同态加密的概念
同态加密(Homomorphic Encryption,HE)最早是由李维斯特(Rivest)等人在20世纪70年代提出的一种特殊的加密方案。同态加密具有无需解密,数据可在密文状态下进行加密和乘法等运算,并生成与明文相对应结果的特性,这一特性使得多方数据可以以密文的形式汇聚、计算并反馈计算结果,而不泄露原始数据,从而实现了数据的安全流通,保证了多方数据价值挖掘中对数据安全的要求。
同态加密原理
(2)同态加密的分类
经过几十年的发展,同态加密技术已经取得了长足的发展,目前主要分为半同态加密和全同态加密两类。
半同态加密算法是一种在密文状态下支持有限次运算(加法或乘法)的加密方式,它在保护数据隐私的同时,允许对加密数据进行一定程度的计算。半同态加密分为乘法同态和加法同态两种类型。
乘法同态加密算法满足乘法同态特性,典型的例子包括RSA和ElGamal公钥加密算法。RSA算法是最经典的公钥加密算法之一,其安全性基于大整数分解的困难性。
加法同态加密算法满足加法同态特性,Paillier算法是其中的代表。Paillier算法的同态性质表现为明文的加法对应于密文的乘法,明文的乘法对应于密文的指数幕运算。Paillier算法的安全性也是基于大整数分解的困难性。
全同态加密算法是一个允许在密文上进行任意复杂运算的密码学系统。其允许用户通过加密保护数据的私密性,同时允许服务器对密文进行任意可计算的运算操作(加法、乘法),且得到的结果为相应明文运算结果的某个有效密文。全同态加密(Full Homomorphic Encryption,FHE)相关概念于1978年被Rivest等人提出,2009年才由Gentry构造出第一个理论证明完全可行的FHE方案,历经近30年才获得突破性进展。到目前为止,FHE发展历程可划分为三代。
第一代FHE伴随Gentry取得突破性进展而出现。Gentry设计了一个构造全同态加密方案蓝图,通过构造一个类同态加密方案,即能够计算一定深度的电路,利用稀疏子集和假设压缩解密电路,使得同态计算电路能够支持解密操作,进而实现自举,基于循环安全假设有序执行自举。之后,Van等人基于最大公因子问题和稀疏子集和假设实现了一个整数上的全同态加密方案。
第二代FHE方案是基于格上的容错学习方案(Ring Learning With Errors,RLWE),代表方案主要有BGV(Brakerski-Gentry-Vaikuntanathan)、BFV(Brakerski/Fan-Vecauteren)、CKKS(Cheon-Kim-Kim-Song)。Brakerski等人设计BV(Brakerski,Vaikuntanathan)方案中引入再线性化(Re-linearization)和维度-模量约减技术成为第二代FHE方案核心。Zvika等人提出的“层次型”全同态加密(Leveled-FHE)方案BGV,其中用到的密钥切换(Key Switching)和模量切换(Modulus Switch),本质上是对上述两种技术的提炼。
1以论文三位作者Zvika Brakerski、Craig Gentry、Vinod Vaikuntanathan姓氏命名的全同态加密改进方案, https://eprint.iacr.org/2011/277.pdf。
2基于Brakerski的等人论文,论文作者Junfeng Fan和Frederik Vercauteren进行的全同态加密改进方案, https://eprint.iacr.org/2012/144.pdf。
3以论文四位作者Jung Hee Cheon、Andrey Kim、Miran Kim、Yongsoo Song 姓氏命名的同态加密方案, https://eprint.iacr.org/2016/421.pdf。
4以论文两位作者Zvika Brakerski、Vinod Vaikuntanathan姓氏命名的高效全同态加密方案,http://eprint.iacr.org/2011/344.pdf。
第三代FHE方案特点是无需引入计算密钥,且密文采用矩阵形式。2013年,Gentry利用“近似特征向量”技术,设计了无需计算密钥的全同态加密方案GSW。山于该类力案同态计算过程中噪声增长是非对称的,则之前的噪声消减方案将不再适用。
(3)同态加密应用实例
2017年2月,新加坡最大的电信公司Singtel发布消息称,存储在第三方合作伙伴系统中约12万电信客户的个人信息、28名雇员的银行账户详细信息和45位企业员工的信用卡详细信息被泄露。虽然在该事件中Singtel的核心业务未受影响,但仍因为用户隐私数据泄漏导致该公司被新加坡政府罚款,甚至造成用户对其的信任危机。我们把上述事件表达为:因数据需求方的业务需求,数据拥有方将原始数据共享给了数据需求方,数据需求方使用数据计算进而获得了满足自身业务所需的结果,但是数据需求方因自身技术漏洞导致数据拥有方的原始数据遭到了泄露。在该事件中,数据拥有方的数据在数据需求方得到了价值发挥,但数据被泄露,侵犯了用户隐私。
同念加密技术支持基于数据密文的运算橾作,从技术层面可以解决原始数据在共享给数据需求方后被泄漏的问题。图中是基于同态加密技术的解决方案。电信公司为数据拥有方,第三方公司为数据需求方,第三方公司需要结合自身的业务数据和电信公司的用户数据挖掘出潜在业务。首先,第三方公司生成一对公钥和私钥,为了方便读者理解,我们把公钥比喻为给原始数据加密的“锁”,原始数据加“锁”后形成密文,把私钥比喻为“钥匙”,“钥匙”可以将密文解开还原成明文。
基于同态加密技术的解决方案
具体步骤如下。
步骤1:第三方公司将业务数据输入到同态加密模块,在同态加密模块中用“锁”对业务数据加密,形成业务数据密文。
步骤2:第三方公司将业务数据密文共享给电信公司,因为电信公司没有解开密文的“钥匙”,所以电信公司在接收业务数据密文后无法窃取其中的隐私数据。
步骤3:电信公司根据第三方公司的要求,使用用户数据与业务数据密文进行同态运算,并形成计算结果,计算结果为密文。同理,因为电信公司没有解开密文的“钥匙”,所以即使运算发生在电信公司一方,电信公司也无法解开计算结果密文获取到结果值。
步骤4:电信公司将计算结果密文发送给第三方公司,第三方公司利用“钥匙”解开计算结果密文,最终得到计算结果。
在同态加密技术的解决方案中,第三方公司对数据加密后传输,这保证了数据在流通途中的安全;电信公司没有“钥匙”解开密文,以及电信公司的数据在本地运算,这保证了数据在价值挖掘时的安全;结果数据以密文形式生成,并只能在第三方公司解开,即结果只能被“钥匙”的保管方获得,这保证了数据价值挖掘结果的安全。所以,同态加密技术可在数据安全流通中发挥重要作用。
5.5.2 秘密分享
(1)秘密分享概念
秘密分享(Secret Sharing)是指将一个秘密分发给一组参与方,每个参与方只能获取这个秘密的一部分,这样一个或少数几个参与方无法还原原始数据,只有满足一定数量的参与方合作,才能够恢复出真实数据。秘密分享是隐私计算领域的核心技术之一,其设计哲学与同态加密互不相同。同态加密实现了数据的密态运算,而秘密分享则是将原始数据“碎片化”,然后分发给不同的计算节点完成运算并得到计算结果的碎片,最后再通过碎片恢复完整计算结果,从而实现数据隐私状态下的运算能力。
秘密分享原理
(2)秘密分享的分类
常见的秘密分享有Shamir秘密分享、可验证秘密分享和Asmuth-Bloom秘密分享,具体介绍如下。
Shamir秘密共享方案(Shamir Secret Sharing,SSS)最早是由Shamir和Blackly在1970年基于Lagrange插值和矢量方法提出,是一种将秘密拆分成多份并分配给多个参与者保存,只有在满足特定条件下才能恢复原始秘密的密码学方案,具有良好的容错性、加法同态性和无条件安全性等特点。在进行Shamir秘密分享时, 分享者先选定一个共享多项式,其常数项为待共享的秘密,而每一个秘密碎片则是该多项式在某点处的取值,秘密恢复则通过Lagrange插值的方式完成。
可验证秘密分享(Verifiable Secret Sharing)是对Shamir秘密共享的提升。在Shamir秘密分享过程中,节点是无法对所接受秘密碎片的合法性进行验证的,这在实际的应用场景中存在安全风险。而可验证秘密分享则增加了秘密碎片的合法性验证机制,通过对碎片进行承诺来防止错误碎片的分发。可验证秘密分享的典型算法是Feldman秘密分享方案,分享者在选择秘密分享多项式之后,需要将其系数以椭圆曲线倍点的形式进行公布,任何人可以基于公布的倍点可以计算得到所接收碎片的倍点,从而完成碎片合法性的验证。
Asmuth-Bloom秘密共享则是另一种共享的思路,其底层原理是中国剩余定理。在该方案下,节点获得的秘密碎片是原始数据在不同模数下的余数,而恢复原始数据的方法则是通过中国剩余定理求解。
(3)秘密分享应用实例
在2008年,丹麦政府在甜菜的双边拍卖中使用了安全多方计算技术以保护价格私密性。在丹麦,有数千名甜菜种植者,他们生产的甜菜将被卖给丹麦市场上唯一的甜菜加工商Danisco公司。甜菜种植者签订的合同赋予他们向Danisco交付一定数量甜菜的权利和义务,Danisco根据合同中的定价方案向甜菜种植者付款。在欧盟大幅减少了对甜菜生产的支持后,Danisco需要将合同重新分配给生产效益最好的甜菜种植者。丹麦政府准备在全国范围内通过双边拍卖来确定每千克甜菜的价格。买家会按照价格收购一定数量的甜菜,同样,甜菜种植者也会根据自己的经济条件和生产能力,按照不同价格出售一定数量的甜菜。所以甜菜种植者和买家的出价方案都会交给拍卖方,由拍卖方统计各价格区间的供给需求,并最终确定甜菜的价格。但是,定价方案中的价格需求将清楚地揭示甜菜种植者的经济地位和生产力,加上Danisco在市场上的垄断地位,即使Danisco声称不会滥用定价方案中的数据,甜菜种植者仍会因担心数据暴露而不愿意参加Danisco举办的双边拍卖活动。
双边拍卖的问题可以描述为:在不暴露各方数据的前提下,汇聚各方数据并对汇聚数据进行统计。丹麦政府最终基于安全多方计算中的Shamir秘密分享模型实现了双边拍卖价格需求统计,使得双边拍卖的各参与方在提交价格方案,以及数据汇聚统计分析时不会暴露价格方案中的数据,并最终能根据价格需求的统计结果准确地确定甜菜的单价范围。该双边拍卖通过基于Shamir秘密分享的甜菜卖家需求统计、基于Shamir秘密分享的甜菜买家需求统计、基于二分法的供需平衡调整,最终确定了甜菜收购价格区间。相较Shamir秘密分享,加法秘密分享能实现同样的功能,且更容易被读者理解,所以我们基于加法秘密分享介绍甜菜卖家需求统计实现方案。
基于加法秘密分享的甜菜卖家需求统计,甜菜的买家需求统计同理。其步骤如下。
基于加法秘密分享的甜菜卖家需求统计示例
步骤1:Danisco公司确定收购甜菜的价格区间(这里用“价格1”“价格2”“价格3”和“价格4”为例),并将价格区间下发给甜菜种植者。
步骤2:甜菜种植者根据自己的经济能力和生产能力填写价格区间的甜菜数量。例如甜菜种植者A愿意按照“价格1”被收购10千克甜菜、按照“价格2”被收购20千克甜菜、按照“价格3”被收购100千克甜菜、按照“价格4”被收购150千克甜菜。
步骤3:甜菜种植者根据统计服务器数量将价格区间中的甜菜数量值切分成秘密份额(在示例中甜菜种植者A 将“价格1”“价格2”“价格3”和“价格4”的甜菜数量分别切分成“2、1、51、30”“5、9、12、110”和“3、10、37、10”)并将秘密份额分别发送给统计服务器。
步骤4:统计服务器对收集到的秘密份额进行加法运算,计算出本地求和结果并共享该结果。
步骤5:累加各统计服务器的本地求和结果,并最终得到所有甜菜种植者在价格区间上的数量总和,该结果由Danisco公司获得。
我们通过示例可以观察到,通过加法秘密分享技术,Danisco公司最终统计出了所有甜菜卖家的出价需求,但是在统计过程中,Danisco公司、统计服务器A、统计服务器B和统计服务器C均无法获得单个甜菜种植者的出价需求,甜菜种植者也无法获得其他种植者的出价需求,所以甜菜种植者的出价隐私得到了保护。这是因为甜菜种植者并没有将出价需求的原始数据值共享,而是将出价需求的秘密份额分别共享给了统计服务器,而统计服务器只能拿到单个甜菜种植者的秘密份额,而无法根据秘密份额推算出原始需求数据。Danisco公司拿到的是所有种植者出价需求总和,也无法通过总和推算出单个种植者的原始需求数据。
但是,这个示例隐含了一个前提假设,即甜菜种植者和统计服务器之间的网络是安全的,网络安全意味着没有参与方可以利用网络漏洞来窃取甜菜种植者的秘密份额,同时甜菜种植者和统计服务器是半诚实的参与者,半诚实意味着他们会严格遵守协议,相互之间不会共谋交换数据。如果在上述过程中发生参与者共谋攻击,就需要采用适合恶意模型的安全多方计算协议来实现双边拍卖。
5.5.3 零知识证明
(1)零知识证明概念
零知识证明(Zero Knowledge Proof,ZKP)是一种交互式协议,其中一个人能够向另一个人证明一个陈述的真实性,而不需要透露这个陈述的具体内容。在这个过程中,证明者只需要证明所声称的陈述是真实的,而不需要向验证者透露其陈述的具体信息。这样可以避免信息的泄露和被篡改的风险。ZKP技术可以在不牺牲隐私的情况下验证信息的真实性,被广泛应用千身份验证和加密通信等领域。
零知识证明具有简洁性(Succinctness)、完备性(Completeness)、可靠性(Soundness)、零知识性(Zero-Knowledgeness)等技术特征。
零知识证明的技术特征与应用
简洁性是指证明本身要比证明对象简短;
完备性是指正确事件的证明必定能够通过验证;
可靠性是指伪造的证明必定不能通过验证;
零知识性是指整个证明过程不泄漏除证明目标之外的任何信息。
零知识证明的不同技术特征可应用于不同业务场景,如计算正确性验证依赖于简洁性、完备性和可靠件,而数据隐私保护则依赖于完备性、可靠性和零知识性。
(2)零知识证明的分类
目前主流的零知识证明系统有零知识可验证非交万式证明和零知识可扩展递归证明两类。
零知识可验证非交互式证明(Succinct Non-interactive Argument of Knowledge,ZK-SNARK)的特点是在证明过程中是非交互式的,即证明者可以生成一个证明,而验证者可以在不与证明者交互的情况下验证该证明的正确性,其设计目标在于保持隐私保护的同时,实现高度的效率和紧凑性;
零知识可扩展递归证明(Scalable Transparent Argument of Knowledge,ZK-STARK)的核心特点是在证明过程中使用递归技术,允许将证明的复杂性从多项式级别扩展到超多项式级别,从而在保持安全性的同时实现更高的可扩展性,其设计目标是在大规模系统中提供高度安全性和高性能的零知识证明。
现在从交互性、证明复杂性、可验证性和隐私性四个维度对ZK-SNARK和ZK-STARK进行比较。
交互性方面,ZK-SNARK是一种非交互式证明,即验证者在非交互条件下完成证明的合法性验证,而ZK-STARK是一种交互式证明,证明过程需要多轮交互;
证明复杂性方面,ZK-SNARK和ZK-STARK都是多项式级别的复杂性,但是ZK-STARK理论上可支待超多项式级别的复杂性,使得其在大规模系统中表现更加出色,而ZK-SNARK则需要更多的计算资源和更长的证明长度;
可验证性方面,ZK-SNARK验证过程相对较快,需要较少的计算资源,而ZK-STARK验证过程相对较慢,需要更多的计算资源;
隐私性方面,ZK-SNARK提供高度的隐私保护,但是会在某些情况下暴露关于系统结构的信息,而ZK-STARK较高的隐私保护,因为证明者和验证者之间的交互可以更大程度上地隐藏敏感信息。
(3)零知识证明应用实例
在数据要素场景下,零知识证明用于计算正确性保证的应用实例,系统运行步骤介绍如下。
零知识证明保证计算正确性
步骤1:数据拥有者将本地数据进行标准化处理之后,将数据指纹进行上链存证,并在链上发布样本数据,区块链合约根据用户上传数据的数量以及质量以通证的形式给予激励。
步骤2:数据使用者基于链上发布的样本数据在本地进行测试试验,并将最终确定的计算任务发布到链上,区块链合约基于计算任务的复杂度完成计算费用的锁定。
步骤3:数据拥有者接到计算任务后,在本地完成运算,并将任务反馈以交易形式发送在P2P网络中,交易载荷包括计算结果和对应的合法性零知识证明。
步骤4:区块链上智能合约对零知识证明进行验证,验证通过后,即将结果写入链中,并对数据使用者进行计算费用的正式扣除。
步骤5:数据使用者从区块链上获得计算结果,且该结果是由零知识证明保证其正确性的,全部流程结束。
5.5.4 安全多方计算
安全多方计算(Secure multi-part computation,MPC),也有叫作安全计算、多方计算或者隐私保护计算,是一个安全多方计算协议,密码学的一个子领域,其目标是创建一个多方参与的计算函数,使得可以保护多个参与方各自输入的隐私性。本节简要介绍安全多方计算协议,首先从经典的百万富翁街头攀比富裕问题开始,简要介绍安全多方计算及其几个相关的协议。
(1)经典百万富翁协议
中国计算机科学家、2000年图灵奖获得者姚期智先生在1982年提出姚氏百万富翁问题。该问题假设两位百万富翁在街头攀比,看谁的财产多,但都不愿意对外公布自己的具体财产数字。当时的解决方案就是将该问题简化为数学问题,并通过设计一套密码学的协议来解决。为了便于理解,下面用简单的逻辑介绍如何在不泄露双方财富时进行比较。
假设富翁A和富翁B的实际财产分别为300万和600万,他们的协议过程如下:
百万富翁协议简要分析图
①首先,假设富翁B在一条极其长的公路上找一个位置,这个位置只有富翁B知道。然后,富翁B把这个位置通过密码学机制在密态空间(可以理解为在太空找到一个点与之对应,这个太空位置只有A可以解密到公路的位置上)。
②为了隐藏富翁B的实际财富6,他在太空中后推5步(类似归零),然后把这个太空中的位置(密态空间中最左侧的那个点)告诉给富翁A。
③富翁A虽然知道富翁B在太空上后退了几步位置,可是太空中的一小步,在地面完全不在同一个位置,而且,富翁A并不知道富翁B后退了几步,所以他无法得知富翁B具体财富数量。这个位置差异是密码学特性带来的,只要一丁点儿变化就会产生差异非常大的数值。图中用虚线箭头表示它们的映射关系。此时,富翁A把富翁B的太空坐标位置按B后退的反方向前进10步,再解密为真实空间,等同于在公路上很分散的位置上,分别记录在图中的方格中。
④然后,富翁A把小于自己实际财富的位置直接发给富翁B,大于等于自己财富数值则加1(等于在真实马路上向前走一步)同样发给富翁B。由于富翁A在超长的公路10个位置上,比自己财富值小的地方不动,大于等于自己财富值的地方走一小步。富翁B所在的位置可以发现富翁A是否有移动,但富翁B并不知道其他9个位置是否有移动,实现了富翁A 对富翁B具体财富的保密。
⑤富翁B收到10个具体位置后,如果发现自己所处位置没有移动,那么就可以肯定A的财富比自己多(富翁A只会在大于等于自己财富的位置上移动一小步),反之A的财富不会比自己多。
⑥富翁B告诉富翁A这个结论就完成了攀比过程。
上述协议过程极其有趣。双方通过密码学机制实现两方的一个比较操作。这个操作就像通过构建与、非门等简单数字电路一样,就可以构建加法、减法器,进而构建出超级厉害的计算机。在本节上述同态加密、秘密分析等隐私计算协议一样,安全多方计算是数据流通过程中非常常见的协议。下面就安全多方计算中比较常用的技术进行介绍。
(2)隐私保护集合交集技术
隐私保护集合交集数据,简称隐私求交(Private Set Intersection,PSI)是一种特殊的安全多方计算协议。计算双方各自有一个集合,要求双方协作通过一系列交互,共同计算出两者集合的交集,计算过程中不泄露除交集外的任何额外信息。隐私求交的实现途径通常有四种,即基于密钥交换、基于不经意传输、基于透明健值对、基于透明向量线性估值,而其底层技术则是前文中介绍的同态加密和秘密分享等。值得一提的是,隐私求交既可以作为一种独立的技术用于实际业务场景,如银行黑名单共享,也可以作为前置操作应用于其他技术,如在联邦学习中完成样本对齐。
(3)隐私信息检索
隐私信息检索(Private Information Retrieval,PIR),也称匿踪查询,是指查询方隐藏被查询对象关键词或客户ID信息,数据服务方提供匹配的查询结果却无法获知具体对应哪个查询对象。匿踪查询根据服务器的数量可以分为多服务器匿踪查询和单服务器匿踪查询,根据输入又可以分为基于索引的匿踪查询(Index-based PIR)和基于关键词的匿踪查询(Keyword-based PIR)。需要强调的是,匿踪查询和隐私求交有极高的技术相似性,本质上是一个单向的、带标签的隐私求交协议,因此二者的研究成果能够共用共通,应用场景也非常类似。
5.5.5 可信执行环境
(1)可信执行环境概念
可信执行环境(Trusted Execution Environment,TEE)是一种安全技术,它通过硬件级别的隔离提供敏感数据的高可信、高安全执行环境。
可信执行环境具备以下特性:
一是可信执行环境基于硬件进行沙盒式隔离计算,数据的安全性是可以被证明的;
二是在可信执行环境中的计算没有性能瓶颈,计算性能可以与本地明文计算相媲美;
三是可信执行环境具有硬件依赖性,目前热门的可信执行环境都基于特定的硬件实现。
(2)可信执行环境技术途径
当前,主流的可信执行环境有TrustZone、SGX和SEV,介绍如下。
TrustZone是ARM针对消费电子设备设计的一种硬件架构,其目的是为消费电子产品构建一个安全框架来抵御各种可能的攻击。TrustZone在概念上将SoC的硬件和软件资源划分为安全世界(Secure World)和非安全世界(Normal World), 所有需要保密的操作在安全世界执行,其余操作在非安全世界执行。安全世界和非安全世界通过一个名为Monitor Mode的模式进行转换。处理器架构上,TrustZone将每个物理核虚拟为两个核,一个非安全核(Non-secure Core)运行非安全世界代码;另一个安全核(Secure Core)运行安全世界代码。两个虚拟的核以基于时间片的方式运行,根据需要实时占用物理核,并通过Monitor Mode在安全世界和非安全世界之间切换,类似同一CPU下的多应用程序环境。
英特尔SGX是一项为满足可信计算行业需求而开发的技术,其方式与ARM TrustZone类似,但这只适用于台式机和服务器平台。它允许用户代码创建专用内存区域(称为安全区),这些区域与以相同或更高权限级别运行的其他进程隔离。在安全区内运行的代码有效地与其他应用程序、操作系统、虚拟机管理程序等隔离。SGX将应用程序分为两部分,即安全部分和非安全部分。应用程序启动安全区,该安全区放置在受保护的内存中。调用安全区函数时,只有安全区内的代码才能看到其数据,外部访问始终被拒绝;当它返回时,安全区数据将保留在受保护的内存中。
SEV是AMD于2017年提出,与英特尔的SGX采用了完全不同的方法。SEV为云而设计,为密集计算提供更好的性能,并对运行在支持SEV的虚拟机上的软件透明。SEV使用秘钥加密VM达到隔离VM的目的,秘钥只能由硬件访问,因此hypervisor或者VM外其他软件无法干扰加密。相比于SGX飞地的实现使用了内存管理单元,SEV使用了Secure Memory Encryption(SME)来加密VM内存保护防止物理攻击和特权软件攻击。SME是一个透明的硬件内存加密特性,在数据进入内存前对其加密,加载如cache前解密。在设计上同样没有考虑侧信道攻击。
(3)可信执行环境应用实例
基于可信执行环境的数据保护案例。数据持有方和数据需求方均在可信执行环境中共享数据和使用数据。不同的可信执行环境先通过数字证书认证技术进行相互验证,保证程序执行的环境安全可信,并建立安全的网络通道。之后数据持有方从证书中获取公钥,并用公钥对共享数据加密,加密后的数据被发送至数据需求方。最后,数据需求方用私钥解密数据,并使用解密后的明文数据进行融合数据分析。在数据共享和使用流程中,数据以密文的形式在网络中传输,保证原始数据在传输过程中不会被泄露;数据在数据需求方的可信执行环境中被解密使用,而该环境采用(硬件技术对运行环境中的处珅器和内存进行了安全隔离,所以攻击者也无法从可信执行环境外部窃取到可信执行环境中的数据。
基于可信执行环境的数据保护
然而,可信执行环境高度依赖于硬件,这使得它具有以下缺点。
一是不同硬件设备上的可信执行环境不兼容,导致应用程序跨硬件设备运行存在问题。
二是不同硬件可信执行环境的架构设计有差异,而其架构设计支撑着上层应用的功能实现,所以这在某种程度上会限制上层应用的功能。例如,有些可信执行环境就不支持多任务的隔离运行。
三是可信执行环境上层应用的开发和维护需要专门的技术知识,这增加了开发者的工作成本。
5.6 联邦学习
联邦学习是一种数据并行的分布式协同机器学习方法,其概念最初由谷歌在2016年提出。谷歌使用联邦学习在不汇聚移动端用户隐私数据的同时,实现了虚拟键盘的单词预测算法训练,提高了模型的性能,为用户带来了更好的使用体验。本节首先详细介绍联邦学习技术,首先介绍其概念内涵、分类和关键研究领域;其次结合金融场景给出不同类型联邦学习的具体实例。
5.6.1 联邦学习的概念
传统的机器学习与人工智能算法需要将各个节点的数据集中在一个可信的第三方,随后完成各领域相关业务的回归、分类等计算,实现数据价值。然而,人们的隐私意识不断增强,各机构和个人出于对数据的完全控制和财产权考虑,也不愿共享自己的数据,因为数据一旦出域就面临着被泄露的风险。同时GDPR(General Data Protection Regulation)等隐私保护法律出台,也给通过数据汇聚进行分析获取数据价值的公司或个人以极大的数据安全方面的压力。
联邦学习利用其“数据不动模型动”的特性实现了数据的可用不可见。一般来说,联邦学习系统存在一个参数聚合服务器和若干联邦学习参与方,联邦学习参与方即数据拥有方(可以是不同的组织机构,也可以是智能移动设备)。
客户端-服务器架构联邦学习示例
各联邦学习参与方利用本地数据在初始模型上进行本地模型训练;
各参与方在本地模型训练后,只将模型中间结果(如梯度)或模型参数上传到参数聚合服务器,聚合服务器将收集到的各本地模型中间结果聚合以得到更新后的全局模型;
参数聚合服务器将聚合后的全局模型广播到各个联邦学习参与方,各联邦学习参与方再用该全局模型继续进行本地模型的训练。
上述过程不断迭代,直至模型收敛或达到预设的停止条件。
在上述过程中,各个联邦学习参与方的数据始终存储在本地,并成功将数据价值融入到模型中,通过模型流动代替原始数据传输,在保证多方数据安全的同时,实现了扩大数据体量的效果,利用多方数据共同训练模型,使模型性能更优。
联邦学习虽然可以使数据保存在本地不出域以保证数据安全,但山于有半诚实或恶意参与方和攻击者的存在,聚合过程中参数更新的传递也存在原始数据泄露的风险。随着同态加密、差分隐私和安全多方计算等隐私保护技术在联邦学习模型中的应用,中间参数泄露问题得到一定程度的缓解与解决。联邦学习作为一种分布式的学习机制,结合自然语言处理、计算机视觉等人工智能研究,已经在多个领域展现出巨大的应用潜力和实用前景。联邦学习平衡了数据隐私和系统效率,促进了数据流通与共享,实现了数据要素的价值,虽然现在仍存在一定的数据流通瓶颈,但联邦学习无疑是实现数据价值安全流通的一种有效工具。
5.6.2 联邦学习的分类
根据各数据提供方持有数据的分布情况,可将联邦学习分为横向联邦学习、纵向联邦学习和联邦迁移学习。
(1)横向联邦学习
横向联邦学习(Horizontal Federated Learning)也称为按样本划分的联邦学习,主要应用于各个参与方的数据集有相同的特征空间和不同的样本空间的场景,其本质是样本的联合。
例如两个地区的城市商业银行可能在各自的地区拥有非常不同的客户群体,所以他们的客户交集非常小,并且数据集有不同的样本ID,然而他们的业务模型却非常相似,因此他们的数据集的特征空间是相同的。由此,这两家银行就可以联合起来进行横向联邦学习以构建更好的风控模型。横向联邦学习一般采取“客户-服务器”架构或者“对等网络”架构。
(2)纵向联邦学习
纵向联邦学习(Vertical Federated Learning)也称为样本对齐的联邦学习,其本质是特征的联合,即纵向联邦学习参与方的训练样本重叠很多,但各样本的数据特征重叠很少。
纵向联邦学习的一般过程为:
首先对参与方数据进行加密样本对齐,获得重叠的样本数据;
中心节点生成秘钥对,并向各参与方发送公钥用以加密需要传输的数据;
参与方各自初始化和自己相关的模型参数,然后在本地对所选出的样本数据进行训练,分别训练出和自己相关的特征中间结果;
各参与方将训练出的特征中间结果基于公钥进行加密(一般为同态加密)后进行交互;
各参与方基于交互得到的加密中间结果继续进行训练,并将训练后的模型参数(依然是加密的)发送给中心节点;
中心节点进行解密后分别将各自的模型参数再返回给各参与方;
各参与方更新各自的模型参数。
(3)联邦迁移学习
联邦迁移学习(Federated Transfer Learning)针对的是参与样本和特征信息都不同的场景,用于解决标签样本少和数据集不足的问题,如中国的电商平台与其他国家银行之间的数据迁移,由于跨部门跨国的数据交流很难实现,通过联邦迁移学习可以很好地解决这类痛点问题。
5.6.3 联邦学习关键研究领域
自联邦学习的概念提出后,其迅速得到了学术界广泛的关注与研究,也在实际业务场景产生了巨大的影响,然而目前这一研究方向仍有许多威胁与挑战亟待解决,以下介绍联邦学习的关键研究领域。
(1)通信效率
在联邦学习网络中,服务器与远程客户端之间往往需要进行不断的通信来交互模型更新信息,动辄万计的客户端很容易对通信网络造成巨大的带宽负担。
通常,全局模型训练时间分为数据处理时间和通信传输时间两部分,而随着计算机设备算力的提升,数据处理时间不断降低,联邦学习的通信传输效率变成限制其训练速度的主要因素,因此联邦学习的通信效率优化具有重要的研究意义。
通常改进方案有两个目标:减少每轮通信传输的数据大小;减少模型训练的总轮数。
目前,改进通信效率方案主要是通过优化联邦学习框架算法、压缩模型更新和采用分层分级的训练架构。这些方案一定程度上提升了联邦学习模型训练速度、减小了数据通信足,对联邦学习技术的完善具有重大意义,但现阶段仍然存在许多难以解决的问题。
(2)隐私安全
联邦学习通过源数据不出本地而仅交互模型更新(如梯度信息)的方式来保护用户的敏感数据,开创了数据安全的新范式。理想情况下,联邦学习中客户端通过训练源数据上传本地模型,服务器仅负责聚合和分发每轮迭代形成的全局模型。
然而,在真实的网络环境中,模型反演攻击、成员推理攻击、模型推理攻击层出不穷,参与训练的各户端动机难以判断,中心服务器的可信程度难以保证,仅通过模型更新来保护用户隐私的方式显然是不够的。研究表明,梯度信息会泄露用户的隐私数据,攻击者可以通过客户端上传的梯度信息间接推出标签信息和数据集的成员信息。
联邦学习主要存在三种威胁:
恶意客户端修改模型更新,破坏全局模型聚合;
恶意分析者通过对模型更新信息的分析推测源数据隐私信息;
恶意服务器企图获得客户端的源数据。
针对以上威胁,增强联邦学习隐私安全性的主流方案与经典机器学习隐私保护技术结合,包括差分隐私、安全多方计算、同态加密等技术。大量的研究表明,联邦学习与这些隐私保护技术的结合能够提供足够强的安全性,但仍然存在一些问题需要解决。
(3)激励机制
联邦学习为现代社会建立了一个数据安全共享的架构,在未来万物互联的场景中,不同的机构、部门之间的数据联合会形成一个巨大的联邦学习联盟,旨在构建基于大数据和多特征融合的智能分析决策模型。
但是,数据联盟需要吸引大量客户端参与到训练过程中,没有高效的激励机制很难吸引足够的训练数据,无法保证最终的智能模型质量;
另外,联邦学习并没有针对客户端的信任机制,对于客户端的信誉没有统一的分数评价,这严重影响了对优质客户端的选择,从而导致全局模型精度降低。
针对以上问题,学术界通过结合区块链技术做出了大量研究。联邦学习通过集成区块链能够以一种安全、高度抗中断和可审计的方式记录其模型更新,为系统框架提供可问责性和不可否认性。同时,区块链的激励机制作为一种经济回报能够根据构建模型时客户端的贡献给予相应的奖励。
5.6.4 联邦学习的实例
横向联邦学习、纵向联邦学习和联邦迁移学习在很多场景下都有广泛应用,我们以金融场景应用为例进行介绍。
(1)横向联邦学习实例
银行A准备基于客户数据构建风险评估模型,对本行客户信用风险进行评估,以作为借贷审批依据。风险评估的参考指标为客户信用记录、收入情况、资产财务状况、金融行为等,此类参考指标被称为“金融特征”。但是,银行A担心受地缘差异和样本容量影响,所构建模型的准确度不够。在这样的情况下,银行A可以采用横向联邦学习技术,利用其他银行中特征重叠的客户样本数据共建风险评估模型。
横向联邦学习的数据体量扩宽示意图
银行A为了提升风险评估的效果,邀请银行B和银行C参与模型共建。银行A、银行B和银行C分别拥有10万条样本数据和七类特征数据。
如果银行A仅用本方的数据进行模型训练,则只有10万条样本数据可供模型训练。如果采用横向联邦技术,银行B和银行C也将利用各自的10万条样本数据,按照三方统一的机器学习算法进行模型训练,最终参与模型训练的样本体量为30万条,相较于银行A仅用本方数据训练模型,横向联邦学习技术扩宽了20万样本数据体量。
训练采取模型流通,而训练数据集仍存储在其原地.不会汇聚到第三方.这保证了三方数据价值挖掘过程中的安全。值得注意的是,因为横向联邦学习技术要求样本的特征同构,所以在三方横向联邦学习中,我们利用银行A、银行B和银行C共有的“金融特征1”“金融特征2”“金融特征4”“金融特征5”和“金融特征7”等5类特征数据进行模型训练。
(2)纵向联邦学习实例
我们再假设另一个金融场景来说明纵向联邦学习的应用。银行A想参考某电商公司的客户消费数据以构建金融产品营销模型,从而精准把握银行客户的购买需求和偏好。但是银行A因为仅有金融特征数据而无法构建模型。在这种情况下,银行A可以采用纵向联邦学习技术,利用电商公司中客户样本重叠的电商特征数据共建金融产品营销模型。
纵向联邦学习中数据体量的扩宽示意图
银行A为了提高金融产品的营销效果,需要与电商企业联合建模。假设银行A与电商企业分别拥有10万条和2万条样本数据。银行A拥有客户的信用评级、工商信息等相关的5类金融特征,电商企业拥有客户的消费金额、购买记录等相关的5类电商特征。如果银行A仅凭己方的数据进行模型训练,则只有金融相关的特征,而没有用户的消费特征,所以无法构建产品营销模型。
采用纵向联邦学习解决上述问题,首先要保证各个参与方参与训练的样本是一致的。利用隐私集合求交技术,在无需查看银行A和电商企业两方本地数据的情况下,对双方客户ID求交集,在保护本地数据隐私和安全的同时,得到双方“客户1”到“客户5000”和“客户10000”到“客户20000”共计15000个客户结果,也就是银行A和电商企业与此对应的15000条记录即为最终参加纵向联邦学习模型训练的样本。
纵向联邦学习将营销模型分为A部分和B部分,银行A和电商企业利用各自的5类特征分别训练模型的A部分和B部分,通过参数聚合服务器实现两部分模型交互,训练结束后银行可以获得完整的营销模型。
与只使用银行A自身特征数据进行模型训练相比,纵向联邦模型训练应用了电商特征,完成了金融产品营销建模,也提高了模型的预测性能。纵向联邦学习技术将电商企业的客户消费数据信息转换到模型中,在电商企业数据不出域保证本地数据隐私和安全的情况下,通过模型实现了数据价值的流通。
(3)联邦迁移学习实例
在通过纵向联邦学习技术实现两方共建金融产品模型的场景中,因为需要通过隐私集合求交技术(Private Set Intersection,PSI)求得银行A和电商公司的共有客户,然后再进行两方联合建模,所以在电商公司的20万条客户消费数据中只有1.5万条数据可用于最后的模型训练,造成大部分客户消费数据的浪费。
面对数据样本重叠率低或者数据特征重叠率低而造成丢失数据多的情况,我们可以引入联邦迁移学习技术,以充分利用各方数据和特征,训练出效果更优的模型。
联邦迁移学习中多方数据集虚拟融合示意图
银行A邀请银行B、银行D、银行E和电商公司共建金融产品分析模型,形成联邦迁移学习。其中银行A和银行D有完全重叠的客户数据样本,并且银行D有银行A在特征空间中缺失的“金融特征8”数据。
因此,银行A、银行D和电商公司组成了第一个纵向联邦,包含8类金融特征数据和5类电商特征数据,共计15000条样本数据;
银行B和银行E有完全重叠的客户数据样本,并且银行E有银行B在特征空间中缺失的“金融特征3”,所以银行B、银行E和电商公司组成了第二个纵向联邦,第二个纵向联邦包含8类金融特征数据和5类电商特征数据,以及1O万条样本数据。
最终,将两个纵向联邦混合形成混合联邦,共有15个数据特征和11万多条的数据样本加入到了混合联邦计算中,最大化了模型训练所用数据的体量。
在训练过程中各方数据通过模型流通,而训练数据集仍存储在本地而不会汇聚到第三方,保证了数据价值挖掘过程中的数据安全。
5.7 数据沙箱
在之前章节中提到了数据安全三角问题,数据和算法的安全与隐私是非常重要的设计目标。一方面,数据在使用过程中必须安全可控,确保原始数据在使用过程中不会被窃取;另一方面,算法程序必须受控,算法提供方不得通过恶意程序窃取用于数据分析任务的原始数据,同时算法本身也不能被泄露。为实现以上目标,最好的方式就是在数据与计算之间设置明确的安全边界,使得运算在可控范围内执行,从而保证数据和算法的安全,该技术即为数据沙箱。本节详细介绍数据沙箱技术,包括概念、技术途径和应用实例。
5.7.1 数据沙箱概念
数据沙箱是一种隔离和保护计算机操作系统的安全技术。数据沙箱在宿主机上创建受限的虚拟环境,并为该虚拟环境分配一些虚拟的硬件资源(例如处理器、内存和网络等)和软件资源(操作系统、文件系统等),在虚拟环境中运行的非受信程序无法对宿主机或运行在宿主机上的其他虚拟环境造成影响。数据沙箱除了能够实现一些对外的安全保障,对内也能够为数据提供很好的保护。管理员通过操作设置,可以对部分功能进行限制,尽可能减少复制粘贴、恶意盗取数据等不当行为,全方位地保护沙箱内的数据安全。数据沙箱可以解决可信计算环境没能解决的问题。数据沙箱在数据使用过程中还可以同时保证数据持有方的原始数据安全和算法提供方的算法不被泄露。
5.7.2 数据沙箱技术途径
当前主流的数据沙箱技术有基于虚拟机的数据沙箱技术和基于容器的数据沙箱技术,可以说虚拟机和容器都可以看作是沙箱的不同表现。前者侧重于对硬件的虚拟化,而后者则更像是操作系统的虚拟化。二者都能够提供沙箱能力:虚拟机通过硬件级抽象提供,而容器则使用公共内核提供进程级的隔离。
虚拟机与容器的架构差异
具体来说,容器是一种对应用进行打包、分享和部署的现代化方式。与把所有功能打包为单一软件的单体应用相比,容器化应用或微服务的设计目标专注于单一任务。
容器中包含要完成这一任务所需的所有依赖项目(如包、库和二进制文件等)。正因如此,容器化应用是平台无关的,能够在任何操作系统上运行,并不在意其版本或者已部署软件。
当容器在主机上完成部署后,每个容器的资源都会被安置在一个虚拟的隔离环境中,其他容器无法访问这一隔离环境。这个技术能够在一个集群内同时运行几百或几千个容器,容器化应用能够轻松地通过复制容器实例的方式进行伸缩。
容器运行时为每个容器模拟一个操作系统,虚拟机则为每个虚拟机模拟一个硬件环境,容器共享主机操作系统的内核以及物理硬件,虚拟机共享主机的物理硬件。因为容器从主机共享的资源更多,它们对存储、内存以及CPU的利用比虚拟机更加有效。
然而共享越多,其代价就是容器之间、容器与主机之间的信任边界就越模糊。相对于命名空间隔离技术而言,虚拟化硬件隔离通常会有更好的安全边界。
5.7.3 数据沙箱应用实例
基于数据沙箱的数据和算法保护示例
示例中,数据需求方根据业务需求实现了数据分析算法,但它没有数据和计算资源;数据持有方拥有数据分析所需要的数据和计算资源。
所以,数据需求方须将算法提交给数据持有方,并利用数据持有方的数据进行分析。需求方A和需求方B的算法同时在数据持有方被执行。
此时,“数据需求方B”提供的算法是恶意程序,其目的是通过程序获取其他并行任务的数据和算法,即图中“数据沙箱1”中的数据和算法。
但是,因为数据持有方采用了数据沙箱技术隔离了算法运行环境和宿主机环境,所以,数据沙箱内部的指令无法访问到宿主机系统的资源和数据,这使得宿主机上不同的数据沙箱在计算过程中被完全隔离,数据和指令无法串用。
进而,“数据需求方B”无法通过算法窃取其他数据沙箱内的数据和算法。并且,数据持有方可以对数据沙箱的数据复制功能进行限制,这就使得“数据需求方B”无法通过算法窃取本沙箱内的数据。
数据沙箱技术正是通过这种方式实现了数据使用过程中的数据访问控制和算法保护。
第六章 数据要素价值发挥的服务能力
当前,数据被赋予了前所未有的重要性,数据要素的价值能否得到发挥,也已经成为企业和组织的核心竞争力。但从数据到数据要素的形成,需要一系列技术的加持。
首先,数据汇聚是数据成为数据要素的基本前提。
其次,数据以及数据要素的流通和使用可以让企业间数据流转起来并带来收益,这不仅可以通过获取其他企业的数据了解市场趋势和竞争对手的情况以及客户需求等信息,进而帮助企业做出更明智的决策,而且数据要素还能够与其他要素结合,带来生产效率的乘数效应,带来企业间新的合作和创新。
最后,随着数据汇聚成为大数据,再生成数据要素,通过数据进行治理,以及对数据本身的治理,都已经成为一个重要问题。这其中还有数据安全问题,如何在保证数据安全流通的前提下提升数据质量也成了一个亟待解决的问题。
这些问题的解决,一方面有待包括哲学、政治学、社会学、经济学以及法学等相关学科在内的数据科学在研究上的进一步发展,但同时这些问题的解决,也都离不开一系列技术的支持,包括数据的汇聚、整合、清洗、组织、分类、存储和管理,以及数据的查询、分析、挖掘和可视化等。
这些技术不仅可以帮助我们更好地理解和利用数据,还可以提升数据的质量和可用性,促进数据的集成和共享,甚至关乎到其价值能否得到充分释放。
本章将围绕数据汇聚、数据治理、数据流通和使用、数据安全等几个主题,探讨数据要素价值发挥的相关技术。这些技术是确保数据价值发挥的关键实现路径。打通数据流通和使用通道,提供数据价值释放可落地工具,才能让数据要素的价值最大化。
6.1 数据服务流程
数据要素价值发挥需要围绕数据的“聚、理、通、用、营”五个环节展开。
数据要素价值发挥的服务流程
“聚”强调数据汇聚,数据需要联合在一起才能进入数据价值发挥环节。大数据技术已经非常成熟,提供了诸多工具完成不同类型数据的汇聚。
“理”强调数据治理,数据需要经过治理才能发挥其价值。虽然大数据技术已经成熟,但是数据治理和业务及其场景相关,因此数据价值发挥得好与不好,治理是关键。
“通”强调数据共享,数据在价值化之前需要将数据通道打通,这是数据价值化的前提条件。
“用”强调数据使用,是数据价值化最直接的步骤。
“营”强调数据运营,是数据价值发挥不可缺失的一个过程,数据价值在于其近乎零成本的复制。因此数据要想发挥好价值,在运营方面做好工作显得格外重要。数据一旦被流通和使用起来后,其价值就会源源不断地创造出来。
数据按其存储结构一般可分为结构化数据、半结构化数据和非结构化数据。
结构化数据一般以关系型数据库存储,数据标准统一。
半结构化数据一般以文档型为主,包括JSON、HTML、XML格式的文件。
非结构化数据通常是图片、视频、音频等格式的文件或对象。
对不同结构类型的数据需要采用不同的技术,这一部分在后续章节进行介绍。
6.2 数据汇聚
数据汇聚是指将分散的数据收集、存储、整合在一起,是数据进入价值化管道的第一步,是为下一步数据治理提供基础数据。
一般情况下,业务系统因为特定目标呈现出相对完整性,因此数据是围绕业务需求而出现的。业务系统建设的不断发展,使得不同业务系统之间的关联性开始出现。
例如:多个业务系统统一用户名和密码登录。目前,可以通过单点登录技术解决多个系统的统一登录问题,这样实施后,所有业务系统只需要一个账户。
然而,不同业务系统对登录用户依然会有一些额外的数据需求,包括组织机构、职位、岗位信息,还可能有一些特定的标签,这些一般都由具体业务系统维护。
这些散落在各业务系统的业务数据聚集起来,就可以形成一组比较完整的用户标签,从而可以基于用户标签提供对应的数据服务。如果能够汇聚用户主体的更多业务信息,例如业务系统的行为数据,那么用户画像将会更加精准。
目前,互联网公司在用户画像方面已经做得相当好,但这些数据必须通过合法渠道进行收集,也不能侵犯用户隐私。上述用户画像例子说明,多个数据汇聚以后,可以获取数据对应的价值。
不同存储结构的数据采用的汇聚方法不同。从汇聚过程中是否进行数据迁移,可以将数据汇聚方案分为物理汇聚和逻辑汇聚。从数据价值发挥的角度来看,数据汇聚方案的不同决定着数据流通的解决方案。物理汇聚从管理角度来讲,属于数据出域,逻辑汇聚却没有。这里的“域”既可以是管理域,也可以是组织机构域。
6.2.1 物理汇聚
物理汇聚是将不同来源、不同格式、不同存储方式的数据在物理层面进行集中和整合的过程,汇聚涉及数据类型、数据规模、存储类型和业务特征。汇聚目的是将分散的原始数据,按照数据使用的需求,将原始数据读取到数据库中,也包括将获取到的最新数据变动情况写入数据库中,为后续数据治理、数据流通和数据使用提供支撑和可靠来源。
物理汇聚是将数据从原业务系统复制到特定的位置,脱离原业务系统的存储和计算空间。
物理汇聚的优点是数据的后续处理不依赖业务系统,从而可以为后续数据治理、流通和共享提供一个独立的处理空间。
物理汇聚的缺点主要有两点:
一是数据更新比较麻烦,如果采用全量复制会影响到后续的数据治理过程,如果采用增量复制,又容易造成数据丢失;
二是所有数据需要制作一个或多个副本,数据存储成本较高。
但物理汇聚即使存在上述缺点,也依然是数据汇聚的首选,该方式可以减少数据汇聚对原业务系统的影响。
数据物理层面的汇聚有多种方法,基于数据汇聚的形态, 一般分为结构化数据汇聚、半结构化数据汇聚、非结构化数据汇聚。
(1)结构化数据汇聚
结构化数据主要存储在关系型数据库系统中,数据汇聚一般通过ETL(Extract、Transform、Load)工具实现结构化数据的抽取、转换,之后加载到汇聚目标数据库中。
一些实时性要求高的场景需要实时掌握数据变更状态,此时一般利用CDC工具(Change Data Capture,变更数据捕获)通过数据库日志方式捕获数据变更。
在一些场景中,ETL工具和CDC工具可以结合使用,以满足不同的数据集成需求。例如使用ETL工具定期加载全量数据,同时使用CDC工具实时捕获变更数据,以保持目标系统数据的及时性和准确性。
结构化数据汇聚需要考虑源库和目标数据库类型、存储能力、读写性能和计算支撑能力等指标。
结构化数据库源库一般为开源数据库MySQL、微软的SQL Server、甲骨文的Oracle,还有国产数据库达梦、人大金仓、南大通用等。
目标库的选择一般采用分布式数据库或者分析型数据库,例如Hadoop、Hive大数据存储引擎、TiDB(PingCap,平凯星辰)、OceanBase(蚂蚁集团)、GaussDB(华为研制的分布式数据库)、ClickHouse、Apache Doris(百度开源)等超大规模并行处理数据库(MPP),它们都有着不同的特点。
结构化数据汇聚需要考虑数据类型转换、数据标准化、数据计算等操作。
结构化数据是较为标准的数据形态,例如常见的文本类型、数值类型、货币类型等。然而,不同类型的数据库系统支持的数据类型有差异,汇聚过程需要考虑数据兼容性,不完全兼容的类型就会涉及数据类型转换问题。
此外,汇聚过程涉及数据标准时,如果源类型和目标类型标准不一致,也需要进行数据标准化处理。
结构化数据转换需要重点关注数据转化细节,避免转换错误导致数据错误或数据丢失,影响数据价值发挥。
结构化数据汇聚工作的示意图
左上角甲机构人员信息表和右上角乙机构人员信息表汇聚后,形成了新的机构人员信息表。这两个人员信息表存储的信息相同,但存储结构不同,因此需要做如下转换:
①重新生成编号,解决汇聚过程编号重复问题,新增老编号列,为数据反向关联提供映射值;
②姓名字段扩充长度;
③统一性别字段,0、1表示的性别统一转换为男、女;
④统一出生日期标准,采用“年.月.日”格式,不足位补零。
上述转化只是结构化数据汇聚的冰山一角,不同数据在汇聚过程中需要考虑诸多问题,才能保障数据汇聚质量。
因此,在结构化数据汇聚前应该做好汇聚目标数据库系统规划,不仅需要考虑数据规模、数据读写性能,还需要考虑数据类型的支持能力。另外,还应该选用支持数据类型转换、支持数据标准化处理的汇聚工具,确保数据可正确汇聚到目标数据库中。
(2)半结构化数据汇聚
半结构化数据主要是XML(可扩展标记语言)、JSON(JavaScript对象表示)数据,为便于存储和检索,主要存储在NoSQL数据库(如MongoDB、Cassandra等)一类的数据库中。半结构化数据是介于结构化和非结构化之间,机器和人均可识别的一种数据格式,具备较好的灵活性。
半结构化数据的汇聚目的地可以是结构化的数据库,也可以是半结构化数据库。基于业务需要,从半结构化到结构化的数据库汇聚涉及转换过程;从半结构化到半结构化数据库也会存在标准化的环节。
为了更好地发挥好半结构化数据的价值,大部分情况下需要将其转换为结构化数据,再进行大规模的分析和处理。XML文档类型数据可通过XPath(一种定位XML文档的路径描述)定位到具体的数据,再转换到表单样式的结构化数据。
例如爬虫获取的网页数据就需要基于HTML页面结构,先定位到表格中特定行、特定列的位置。再进行数据提取。JSON文档类型数据和XMLPath一样,可先通过JSONPath定位到具体的数据,再实现数据的提取。
半结构化数据到结构化数据转换示意图
同样,半结构化数据在汇聚之前应该做好汇聚目标数据库系统规划。同结构化数据库设计一样,半结构化目标数据库设计需要考虑数据规模、数据读写性能、数据类型支持能力,还需要考虑半结构化数据的存储能力。通过类似的转换方法可以实现数据的结构化转换,确保半结构化数据可正确汇聚到目标数据库中。
(3)非结构化数据汇聚
非结构化数据一般包括文字、图片、音频、视频及其他通用文档或专业文档数据。这些数据主要由人类产生。除了相对标准化的文字、图片和音视频之外,其他文档类型数据需要专用软件才能转化为上述几种类型,之后再进行处理。
为了更好地利用计算机处理这些数据,需要专用的工具提取其中关键信息,并以结构化的方式进行存储,方便快速检索。目前全文检索工具、以图搜图工具巳经达到实用水平,音频、视频检索的核心能力也已经基本实现。
①非结构化文字数据汇聚。
互联网出现以后,对网页数据的检索需求激发了对全文检索的研究。目前基于文本的检索技术已经非常成熟,Elastic Search、Solr等开源软件也比较丰富。竞争的关键在于后期的检索优化。全文检索的核心技术是分词后对文本数据的索引排序,高级引擎还会增加联想、纠错等功能,这使得文字检索结果的符合度更高。在自然语言处理(NLP)领域,NLP通过人工智能方法基于语法语义尝试对文字进行理解,其结果广泛应用于机器翻译、舆情监测、文本分类、自动摘要、文本语义对比、语音识别、中文OCR等领域。基于该技术司以提取出文字内容,并可通过特定结构表示知识来实现文本的价值转化,例如知识图谱就是表示文本内容的一种方法。随着ChatGPT等大语言模型的兴起,NLP领域也迎来了新的突破。
在上述技术和工具的帮助下,文本数据汇聚主要有以下几种方式:
一是通过支持全文检索引擎的数据库进行存储,同步对文本进行索引化存储;
二是基于NLP技术实现对文本语义的理解,通过知识图谱进行存储,并提供检索和推理能力;
三是基于大语言模型实现知识库构建,并提供问答式信息提取。
文字数据汇聚过程还需要记录汇聚数据来源、并将文字的相关信息形成元数据(一种描述数据的数据结构,在6.3.1节详细描述),以完成文字内容的汇聚,并为后续数据价值化提供基础。
②图像数据汇聚。
图像数据是感光传感器记录外界颜色后形成的记录,数据格式从原始图像RAW到经过各类图像压缩算法编码的JPEG、PNG等格式的数据,最终以文件形式存储。图像数据的汇聚采用的主要是文件汇聚方式,存储的方法包括文件系统存储、数据库存储、对象存储和向量存储。
图像数据汇聚后的重点在于对图像数据的提取,图像数据提取主要有以文搜图、以图搜图两种方式。
以文搜图需要通过人工标记的文本信息完成对图像的检索,或是通过图像语义分析获得图像的文本信息(例如百度飞桨高性能图像分割开发套件PaddleSeg)之后,再基于文本检索能力完成以文搜图。
https://github.com/PaddlePaddle/PaddleSeg
以图搜图主要是通过提取图片特征(例如VGGNet),再通过特征匹配(例如基于向量数据库Milvus检索)进行检索。
https://arxiv.org/abs/1409.1556(论文:Very Deep Convolutional Networks for Large-Scale Image Recognition)
https://github.com/milvus-io/milvus
③音频数据汇聚。
音频数据是声学传感器记录外界频率振动后形成的记录,数据格式包括了原始声音文件WAV,以及通过常用压缩算法编码的如MP3格式。音频数据和图像数据一样,主要是以文件形式存储。音频数据可以独立存在,也可以和视频一同存在。
音频数据提取和图像类似,主要有听词搜歌、音频检索两种。
听词搜歌和通过文本检索歌曲类似,在识别词的基础上,通过对歌曲的检索来实现。
音频检索过程和以图搜图类似,首先基于音频特征模型进行特征识别(例如PANNs),然后与已汇聚的音频数据库的特征数据(比如向量数据库)进行匹配。
https://arxiv.org/abs/1912.10211(论文:PANNs:Large-Scale Pretrained Aud io Neural Networks for Audio Pattern Recognition)
④视频数据汇聚。
视频数据是由连续的图像和声音合成后形成的记录。视频图像是由称之为帧的一张张图片叠加起来的,每秒25帧及以上时,人的肉眼看上去是连续的。如果视频每一帧都完整保存,将会占有非常大的存储空间,既不利于传输,也不利于保存,因此需要通过压缩技术对视频数据进行处理。例如通过H264、H265等压缩算法,输出MP4、WMV、AVI等格式的视频文件。
视频数据压缩过程包括两个部分:
一部分是选定关键帧,该帧包含图像所有细节,然后用图像压缩算法压缩关键帧;
第二部分是基于关键帧对非关键帧数据压缩,再基于关键帧的变化进行编码,从而得到一个较高的压缩率。
因此,视频图像的检索算法一般针对关键帧图像进行。视频数据挖掘除人工标记信息外,以图搜视频和以音频搜视频方法和上述独立音频和图像类似。
非结构化数据汇聚相对结构化和半结构化数据存有诸多难点,为此需要通过不同的汇聚技术对非结构化数据进行转换,最终可通过检索、推理、问答的方式实现非结构化数据价值化。此外非结构化数据种类多,除文字、图像、音频、视频之外,还有类似Word文档、PDF文档等很多专行类型非结构数据。对于这些非结构化数据,需要专用的工具提取其中信息,通过转换为上述四种基本类型的非结构化数据之后,再进行处理。
非结构化数据价值化示意图
6.2.2 虚拟汇聚
虚拟汇聚是将不同来源、不同格式、不同存储方式的数据在虚拟层面集中和整合,在数据价值化系统中一般以数据目录或者服务接口形式存在,基于目录或接口协议进行数据访问。
与物理汇聚不同,虚拟汇聚并不需要将所有的数据都集中存储在一个相对集中的位置,而是通过网络技术,将分布在不同位置的数据进行逻辑上的整合和统一管理。
在数据价值发挥过程中,物理汇聚在统一组织机构下被更多采用。在跨机构场景下,虚拟汇聚是数据价值化的主要数据整合形式。
(1)虚拟汇聚的优势与劣势
虚拟汇聚无需将原始数据集中存储,那就意味着数据还在其原始系统中,当需要时,数据在原始系统中被实时加载并进行计算。
虚拟汇聚的优势主要体现如下四个方面。
一是数据的一致性优于物理汇聚。
虚拟汇聚无需完成数据同步,直接基于原数据系统完成数据汇聚,数据一致性由业务系统保障,不存在数据汇聚过程中的同步时延,不会出现因为数据变更而导致同步不及时的间题。
二是数据安全可以得到最大程度保障。
虚拟汇聚无需将数据复制出去,因此可以通过技术手段确保数据安全。
三是数据存储空间最优。
虚拟汇聚直接使用原数据系统,无需为数据物理汇聚另外开辟存储空间。
四是可充分利用数据源的存储和计算能力。
虚拟汇聚只是将服务暴露给数据价值化系统,数据的存储和计算依旧由现有系统执行,可以充分利用现有数据源的能力。
虚拟汇聚也存在一些劣势,主要包括以下两个方面。
一是数据请求延时不可控。
由于虚拟汇聚依旧需要跨网络访问原数据,相比直接从本地数据系统中提取数据,虚拟汇聚的访问延时受网络带宽、业务系统当前负荷影响。
二是可能影响业务系统处理性能。
虚拟汇聚直接使用业务系统的数据、算力、存储甚至是带宽,如果数据价值化系统访问频繁,负荷较大,会导致业务系统负荷增加,影响业务系统的稳定性和性能。
实际的数据价值化系统中,数据汇聚是以物理汇聚为主,虚拟汇聚为辅。虚拟汇聚影响业务系统运行可能是虚拟汇聚没有被广泛采纳的主要原因,因为一般情况下业务价值远大于数据二次价值,业务系统对时效的要求也要高于数据价值要求。因此,为不影响业务系统运行,需以独立建设数据价值化系统,并通过物理汇聚方式汇聚数据。
虚拟汇聚在跨机构场景下有极大前景。在跨机构场景下,数据价值化首先要保护业务数据的价值,跨机构的数据物理汇聚有可能引发数据泄露等安全问题,而数据虚拟汇聚可有效解决这个问题。为解决虚拟汇聚过程中影响业务系统的问题,最好的汇聚方式是机构内部采用物理汇聚方式实现数据价值化系统,在跨机构的价值化系统中采用虚拟汇聚方式实现数据价值化。
物理汇聚与虚拟汇聚结合的数据价值化路径
(2)数据虚拟汇聚的相关技术
对于数据供给方,虚拟汇聚是将数据的相关基础信息以数据目录的方式发布到某一个数据汇聚系统,然后提供一种或多种数据访问协议以对外提供数据服务。
目前主流的虚拟汇聚方案是通过API或者JDBC(Java数据库连接协议)接口方式进行。对于复杂场景下的数据虚拟汇聚,一般是采用TCP协议之上的自定义协议,以虚拟融合的方式提供数据服务。
2023年7月26日,信通院隐私计算联盟发布了《隐私计算互联互通开放协议》,定义了隐私计算场景下的隐私集合求交(PSI)、基于秘密分享的逻辑回归(Secret Sharing、Logistic Regression、SS-LR)和基于半同态的联邦线性回归(Partially Homomorphic Enc1yption、Federated Logistic Regression,PHE-FLR)开放协议,这些协议可在保障数据安全的前提下完成跨节点的数据虚拟汇聚。
数据使用方需要通过数据目录使用虚拟汇聚数据。API和JDBC是标准的通用数据接口,通过自定义协议使用数据则需要通讯双方基于相同协议完成数据交换。业务数据通过安全边界保护,基于专用的服务接口对外提供数据服务,其中虚拟融合协议是基于多方数据形成的一个虚拟数据集,也是提供后续数据处理的一个标准。
虚拟汇集技术工作流程
6.2.3 物理汇聚与虚拟汇聚的数据流通差异
物理汇聚将数据以物理方式从数据原空间迁移到数据新空间,从数据的产权结构来看,因为存储的位置不同,数据资源持有权发生了复制,那么后续数据加工和运营等服务能力将基于新的数据副本展开。物理汇聚带来了数据资源持有权分离,会导致数据加工使用权、数据产品经营权分离。
《关于构建数据基础制度更好发挥数据要素作用的意见》中明确提出建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制。在物理汇聚的形态下,持有权出现了副本,对持有权的管理出现问题。
而虚拟汇聚则比较适合数据要素流通的“三权分置”思路,因为汇聚的是数据加工使用权,持有权没有分离,也没有副本,管理依旧在持有权机构手中。
因此,从数据流通角度和数据产权结构来看,虚拟汇聚更加有利于数据要素流通。为更好发挥数据要素价值,落实“三权分置”,在机构内部,基于需要可以选用物理汇聚,通过该项能力实现内部的数据资源化过程;在机构外部,则通过虚拟汇聚方式,使得数据持有权与主体管理权保持一致。
6.3 数据处理
数据汇聚后,需要对数据进行清洗、关联、合并、治理等数据处理操作。
以汇聚各业务系统用户数据为例,如果早期业务系统并没有统一用户身份,那么数据汇聚后,即使同一个组织机构在不同的业务系统中还会有不同的用户名称。比如这个机构在A业务系统里面可能叫作张三,而在B业务系统中可能就叫作
某部张三,但实际上这两个名称对应的是同一个人。此时就需要对数据进行关联核对,完成数据匹配。只有完成了数据治理,数据才能相对准确。
值得注意的是,数据治理很难达到百分之百精确。
一方面是汇聚过程存在时间差,容易导致数据错配,例如用户在A系统更新了电话号码,而B系统没有及时史新,此时用户的电话号码取哪个合适?
另一方面是数据治理一般需要懂业务的人参与,会存在治理的时间滞后和治理过程出现错误。
因此,数据治理是一个细致的工作,同时,也是数据价值化过程中的一个难点。
数据处理是通过管理和控制数据的规范、准则和流程,以确保数据的安全性、可靠性、有效性和合规性。数据治理是数据要素价值化的重要步骤,是数据流通和使用的重要保障。通过数据治理,提升数据质量,强化数据标准,完善和细化数据安全管控。数据治理对完成数字化转型、实现智能化升级和数据要素价值化具有重要意义。
数据处理包括数据标准化、元数据管理、数据质量管理等内容,本节分别展开介绍数据处理的相关过程。
6.3.1 数据标准化
数据标准化是数据治理的重要环节,也是数据治理的第一个环节。数据标准建立之前,需要管理层面统一思想,以数据价值化为目标,指定专人负责数据标准制定、审核、批准等工作。数据标准化是将不同来源、不同格式、不同类型的数据进行规范化和统一化的过程,核心在于标准制定。
(1)数据标准定义
数据标准化包括数据标准定义和数据标准执行两个环节。按照中国信通院定义,数据标准是指保障数据的内外部使用与交换的一致性和准确性的规范性约束。在日常管理和业务发展中,一般会从业务、技术和管理维度去分析和拆解数据标准。
业务标准规范一般包括业务的定义、标准的名称、标准的分类等内容。比如企业的CRM系统,要判断客户是否为老客户,我们会通过用户的消费金额、消费频率和消费日期等维度进行判断,这个维度就是数据判断标准。数据标准化建设可以提升业务的规范性,提升工作效率,同时保障了数据含义的一致性,降低了沟通成本,给业务的数据分析、挖掘、信息共享提供了便利。
技术标准规范包括了数据的类型、长度、格式、编码规则等内容。比如业务系统中客户的姓名、手机号这些数据,都需要设定相应类型和长度规范。在数据技术标准规范基础上,可以大幅提升工作效率,降低出错率。
管理标准规范包括了数据标准的管理者是谁,如何增添和删减,访问标准等内容。
(2)数据标准执行
数据标准执行主要包括数据标准管理、数据约束和数据字典定义及其与特定标准的关系。数据约束包含明确的数据约束和自定义约束。
在技术层面主要包括数据约束方法。数据字典定义要定义字典的名称、描述和枚举值,比如省份数据枚举就包括23个省、5个自治区、4个直辖市和2个特别行政区。例如“北京”和“北京市”对人类来说可能在理解上不存在太大歧义,可是在计算机来看两者就是不同的值,因此数据字典要统一这类标准。
数据标准约束定义表
正则表达式是一种文本模式,通过正则引擎执行文本模式判定给定文本是否匹配模式,例如“[0-9]|2|”模式就表示文本包含两位0到9的数字,00~99均匹配该模式,而“A1”或者“1”不匹配。
数据标准被定义后,标准主要由数据库系统、数据汇聚工具、数据治理工具和数据质量管理工具来执行,以避免数据处于非标准状态。数据库系统一般只支持类型和长度约束,正则、规则和自定义约束必须依靠具体的数据管理工具来执行。
6.3.2 元数据管理
元数据是关于数据的数据,它描述了数据的含义、结构、属性、关系和其他特征信息。元数据管理是对业务数据的收集、组织和维持的过程,是数据治理的基础。在数据治理中,元数据管理贯穿了数据全生命周期。通过元数据管理,组织能够系统地管理数据的含义、结构和关系,使数据更易于理解、查找和使用。
(1)什么是元数据
元数据就是描述数据的数据。例如一个身份信息库包含姓名、性别、出生年月、籍贯、身份证号码等字段,用以描述一个人的身份信息。这里身份信息就是数据,比如张三,男,1992年1月1日,湖南长沙。这里的“姓名”“性别”就是身份信息的元数据,元数据还包括对这些信息的定义,比如姓名的长度、允许录入的字符,又比如性别只能是男或者女,身份证号码需要符合GB11643-1999《公民身份号码》标准等内容。这类数据定义的描述信息和规则,被称为数据的元数据信息。
对于非结构化数据,除内容之外还有诸多和数据相关的信息,也可以称之为元数据。例如一张图片的拍摄时间、地点,一首歌曲的词作者、曲作者、演唱者信息,一段视频的导演、主演信息,都可以作为非结构化数据的元数据,因为这些信息是描述图片、歌曲和视频的基础信息。
(2)元数据如何管理
元数据管理同样包括了元数据采集、存储、查询、分析和维护等操作。元数据主要从数据产生过程和汇聚过程产生,是记录数据的创建日期、数据权属、数据结构等内容的信息。元数据存储一般采用结构化方式或者半结构化方式存储,以方便快速检索和管理。元数据查询、分析和维护主要针对元数据的数据表进行操作。
元数据定义了数据的标准,因此元数据管理要包含对数据标准、数据规则的关联。在数据汇聚过程中,需要基于元数据中数据标准和数据规则执行数据转换,对于不符合标准的数据要提示用户进行处理,保证数据符合统一的管理体系。
元数据管理需要从数据源头开始,并贯穿数据全生命周期。其他数据也需要通过元数据进行维护,包括数据采集、数据汇聚和数据管理中产生的相关信息,也包括人工标记的信息,以及在数据使用过程中产生的关联信息。通过元数据管理,可以生成数据的资产地图、数据的血缘关系等衍生数据。
(3)元数据管理技术
元数据技术层面的管理主要包括元数据维护、元数据版本管理、元数据变更管理和元数据血缘分析。
元数据维护主要依靠存储元数据的数据库提供统一的管理功能,包括元数据的增删改查。元数据在维护过程中可能会由于操作不当导致数据不可用或者丢失信息。例如,如果将身份证号码类型修改为数值,那么身份证号码中校验位为“X”的号码将会出现错误,这对身份数据库将会是灾难性的。因此对于元数据维护这一类特别关键的操作,系统需要通过版本管理方式记录其变更过程,并对变更过程实施过程控制,包括审核确认机制。
元数据血缘关系在数据价值化过程中比较重要。血缘关系记录了数据源头到各类数据被加工和使用的过程。小规模的数据血缘关系可以通过关系型数据库进行记录,数据规模大且错综复杂的血缘关系可以考虑使用图数据库,例如用开源的Neo4j做记录。通过图数据库表示血缘关系比较自然,也为后续数据要素价值的分配提供了参考依据。
一种基于Java语言开发的开源图数据库软件,也支持商业版本。
6.3.3 数据质量管理
数据质量是影响数据要素价值发挥的关键因素之一。数据质量管理的相关技术是与数据标准管理体系一同作用于数据质量管理过程。
数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡全生命周期中每个阶段可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动。
通过数据质量管理,机构可以提升数据的准确性和可靠性。
质量提升对内可以增强决策的可靠性,提高运营效率,保护企业声誉,挖掘数据价值,并避免因数据错误导致的潜在风险。
对外可以让数据价值更高,让企业在数据价值化过程中获得更高溢价。
数据质量管理是集方法论、技术、业务和管理为一体的解决方案,目的是通过管理提升数据在使用中的价值,并最终为企业赢得经济效益。
数据质量管理从技术角度来说包括建立数据标准、判别数据质量、数据质量执行、数据质量跟踪四个部分。
建立好数据标准后,数据质量管理工具需要基于数据标准定义的约束对已入库的数据进行约束检查,并度量出数据在质量上的差距。
数据质量维护主要是通过数据勾稽工具对数据进行勾稽,使其满足数据标准。例如,如果存储的省份信息可能存在“北京”“北京市”“北京西城区”等类似字眼,勾稽过程就需要把这些都勾稽为“北京”,同时把“北京市”“北京西城区”映射到“北京”,并提供给数据汇聚或者质量管理工具为后续自动勾稽提供规则。
数据勾稽是指通过对比和核对不同来源的数据来确保数据的准确性、完整性和一致性,是数据质量控制的重要环节。 勾稽过程涉及自动勾稽和手动勾稽,自动勾稽需要基于人工勾稽后确认的规则完成。
6.4 数据流通
数据基础设施通过数据空间、隐私计算、区块链、数据脱敏、数据沙箱等技术,实现数据在不同主体间“可用不可见”“可控可计量”,为不同行业、不同地区、不同机构提供可信的数据共享、开放、交易环境,有效提升数据流通环节的安全可靠水平。
数据经过“聚”和“理”后,已经具备了价值发挥的基本条件,接下来就是要打通各类汇聚数据,在合规的前提下,让数据流通起来,实现数据的开放、共享和交易,这样使数据的价值才能得到发挥。
6.4.1 数据流通环节
数据在实际流通和使用环节还面临诸多问题。
数据要素流通与使用面临的问题
首先,数据一旦脱离数据持有方掌控,就能被无限制地复制和传播,且复制和传播过程无法通过物理方式加以阻止,由此数据持有方的权益就无法得到保护。确权手段的缺乏,会使数拫持有方不敢共享自己的数据。
其次,数据持有方有因共享数据而获得合理回报的权益。如果数据流通过程中缺乏激励机制,将导致数据持有方共享数据意愿不足。
再次,如果数据流通体系缺乏身份认证、行为存证和追溯手段,当非法用户实施数据欺骗,或者共享有毒数据时,数据流通体系的健康运转将受到干扰和破坏,进而损害数据供需双方利益。
最后,数据在加工、聚合、交易等操作后将形成派生数据,而原始数据在派生后将会有不同的存在和表现形式,这也导致数据的主要内容有可能由“真”变“假”。如果缺乏数据溯源手段,则无法保证派生数据的真实性、可靠性和安全性,派生数据发挥的价值也无法保障。
6.4.2 数据交易流通模型
分布式数据共享流通功能原理主要包含数据柔性化供给和数据供需匹配阶段,从而实现数据交易流通。
数据交易流通模型
首先是数据的供给阶段。
数据供给时,数据提供方需要按照需求侧的需求进行定制计算,编者称之为数据的柔性化处理阶段。柔性化处理主要是将面向业务的数据转换为面向共享交易为核心的数据,通过为数据构建安全交换区,以数据加工为核心,辅以安全和访问控制,以响应数据定制化需求(第三方数据业务需求),完成柔性数据制造和交付。
然后是数据的供需匹配阶段。
数据交易流程是以需求方为核心,通过需求侧业务系统来实现。需求侧需要数据满足业务需求,而业务需求与数据供给差异性极大,需要供需匹配撮合。因此该阶段通过理解业务需求,并基于供需规则开发出算法,使得在交易市场中找到可供使用的业务数据,在交易平台完成数据交付。
6.4.3 数据可用不可见原理
数据可用不可见是数据流通过程中,保护供给方和需求方的一种工作模式。结合同态加密、多方安全计算等隐私计算技术,保证在多方协作过程中流转的敏感信息、模型融合参数和秘密数据不被泄露,实现原始数据脱敏、数据隐私保护,完成数据的建模与结果计算,为多方数据流通共享提供安全的计算工具。
大数据中心或其他数据集通过响应数据安全网关(参见数据安全保障章节)的数据安全请求,将数据过滤记录至区块链的同时发布至交易沙箱(参见数据安全保障章节)进行融合计算,交易沙箱的数据交易算法由分布式可信数据交易平台提供。通过虚拟化安全沙箱,强制将数据交易环境和宿主机内核环境进行隔离,对容器的内外环境进行安全加固。
数据流通过程中的可用不可见功能原理图
6.5 数据应用
数据可流通后,重点在于如何应用数据,实现数据要素价值发挥。数据基础设施为数据应用方提供通用化的智能决策、辅助设计、智慧管理等建模能力,帮助数据应用方优化设计、生产、管理、销售及服务全流程,进一步降低数据应用门槛,提升数字化水平。
6.5.1 商业智能应用
数据要素价值在商业领域的应用包括内部价值和外部价值两个部分。
内部价值主要服务企业内部业务系统,包括业务流程互通、数据分析与应用。
外部价值也是通过企业实现数据价值,只是数据的主体不同,且可能涉及多个数据提供方。
对企业内部而言,核心是通过商业智能分析,支撑企业业务优化,实现数据价值。
(1)企业内部数据应用
通过汇聚、处理、流通数据,并通过数据可视化完成对数据的加工、分析、保存和接口调用,并支持通过可视化大屏(商业智能应用)完成数据呈现。数据大屏通过拖拉拽的自定义方式实现快速配置,依托各种图表、图形和装饰,将业务数据直接呈现给用户。
数据大屏具有丰富的数据可视化工具,包括各种交互控件和图表组件,可以实现数据可视化呈现。在数据要素价值场景中,通过将数据大屏或业务系统和数据资源目录连接起来,实现企业内部的数据应用。
例如工业企业需要打通企业资源计划系统(ERP)和新部署的仓库管理系统(WMS),一般情况下ERP先于WMS建设,WMS系统适配ERP系统即可。但如果涉及复杂的定制业务逻辑,WMS系统开发难度就会提高,从而导致系统建设成本提升,且不方便后期维护。同时,企业内部的业务系统也会越来越多。通过数据流通产品完成系统之间业务互通,有利于加快业务系统建设,从而实现数据价值在业务层面的发挥。
比如某新零售企业有自己的电商系统、门店数据、采购调拨数据,通过数据流通产品,业务数据可以被加工成区域零售看板、门店零售看板、总部商品看板等业务看板,这些看板可以及时反馈零售销售动态,方便零售企业及时调整营销、产品、渠道等经营策略。
(2)跨企业数据应用
企业内部数据应用比较直接,如果企业需要外部数据才能实现业务优化,则需要通过数据流通交易机制选购数据,来实现跨企业的数据应用。这对于数据输出方而言,是向外部输出有价值的数据服务,例如通过API接口提供数据服务,或通过联合建模输出数据价值。企业用户可通过数据流通交易平台获得数据,并通过数据加工方式使用数据目录,完成数据业务流程设计,来构建商业智能应用,实现其业务目标,完成外部数据内部价值化。
6.5.2 大数据应用技术
数据使用是数据要素价值发挥最重要的一环,而大数据分析技术是实现数据价值发挥的直接工具。数据被如何使用取决于数据需求方的业务需要和目的,主要的使用方法包括数据统计分析和人工智能建模。
数据统计分析是指计算数据的数理统计指标(例如计算数据的平均值、中位数、标准差、最大值、最小值等),以及数据的分布和特征等内容;
人工智能建模是利用机器学习方法对数据进行深入挖掘,利用程序学习人脑不易总结的数据规律并将该规律应用到预测与聚类等实际任务中。
数据流通和数据的联合使用推动着相关技术的发展。山于没有相应的技术支撑,尽管企业存在数据相互流通的紧迫需求,希望打破数据壁垒以提高生产效能,但还不得不局限于单一的数据源进行数据分析。
将各自的数据暴露给对方或某个第三方,将数据集中起来进行数据分析,都存在不可避免的数据安全间题。企业数据,尤其生产经营数据一旦被泄露,就可能产生难以估量的经济损失。个人身份信息或日常行为等数据被以非法的方式收集与分析,也会给当事人带来很多困扰。
这些问题催生了数据联合统计分析技术和人工智能联合建模技术,它们利用安全多方计算、同态加密等隐私计算技术加密数据,在实现多方数据协同使用的同时,确保数据的可用不可见。
(1)数据联合统计分析
数据联合统计分析是指将多个数据持有方的数据视为一个整体,在保护各方数据隐私和安全的情况下,计算出所有数据的数理统计指标,或者进行加减乘除以及比较等运算操作。
数据联合统计分析在企业日常运营过程中发挥着重要作用,其中一个比较典型的应用就是供应链体系。物流、信息流、资金流是供应链的基本组成,信息流指引物流,物流决定资金流,信息流作为供应链的基础,它的阻滞会带来上下游企业的信息不对称,使上下游企业无法做出正确决策,从而严重阻碍供应链的整体性能。
数据联合统计分析技术可以解决这个问题。以服装行业供应链为例。
服装行业供应链信息流示意图
服务行业供应链一般情况下,自上到下,供应链中存在原料供应商、服装生产商、服装分销商、消费者四种角色。四者分别可以就其库存及供应情况交流,以保证服装生产销售供应持续运行。
以服装生产商为主体展开描述。由于各企业的库存、销量等信息是企业的运营秘密,上下游企业不愿将相关数据暴露给服装生产商,而这又影响了服装生产商生产计划的准确性。
无明确的供需数据使得服装生产商的生产更为保守,为了减少库存成本和风险,加快资金流转,退而采取预售模式组织服装生产,这又降低了消费者的消费体验,大大阻碍了供应链系统的高效运作。
而通过数据联合统计分析技术,服装生产商可以实现高效的库存管理。
服装分销商将产品的销售数据与其库存水平结合,可以得到当前所需购入的产品数量。服装生产商有自己的库存产品数量信息,将两者对比,服装生产商可以快速做出决策。
当服务分销商所需购入的服装数量大于服装生产商库存产品数量时,服装生产商与生产系统对接以增加生产;
当服装分销商所需购入的服装数量小于服装生产商库存产品数量时,服装生产商对接仓储与运输配送系统,组织产品的及时配送。
因此,使用联合数据运算可以在不暴露各自库存的情况下实现产品数量的对比,进而将供应链系统效益最大化。
(2)人工智能联合建模
传统的人工智能建模是指建立机器学习或深度学习模型。
机器学习模型包括线性回归模型,支持向量机、决策树、神经网络的预测模型,以及k-means聚类模型。
深度学习作为神经网络的拓展,发展出了用于图像分析的卷积神经网络、用于序列数据分析的长短期记忆神经网络、用于图像生成的对抗生成网络等各种用途的神经网络模型。
人工智能联合建模与上述模型都不同,传统的人工智能建模都是利用单一的数据源进行的建模,而人工智能联合建模是多个机构协同构建自然语言处理、计算机视觉、推荐系统等领域的机器学习和深度学习人工智能模型。
人工智能联合建模利用各机构提供的多个数据源进行训练,并将训练好的模型运用不同的生产经营环节中,利用训练完成的模型在业务中进行模型推理,实现数据价值。
人工智能联合建模可以分为联邦学习建模方式和数据安全外包建模方式。
联邦学习建模方式将各方数据保存在本地,各参与方在本地训练模型,从而保证原始数据的安全。通过人工智能算法联邦化,将本地模型参数汇总起来,实现最终的全局模型收敛。需要注意的是,这要求参与方具有足够的计算资源支持局部的模型训练。
在数据持有方缺乏足够计算资源甚至没有计算资源的情况下,可以采用基于数据的安全外包建模方式。这种方式将数据以加密的方式分配给云端服务器,同时计算任务也随数据一同转移至云端。模型的收敛通过基于隐私保护方法的安全数据交互实现。
我们以医疗机构联合预测为例。
医疗机构A、医疗机构B、医疗机构C、医疗机构D想要基于患者数据建立高准确率的疾病预测模型,但是由于患者数据往往具有高度隐私性,并且受到法律法规直接限制,四个医疗机构将原始数据直接汇聚到某一方将会面临高危的隐私泄露问题,甚至会因为违反相关的法律法规而受到处罚。
我们采用联邦学习方式进行联合建模。医疗机构A、B、C、D分别将患者数据保存在本地,使用本单位的服务器进行局部模型训练。由于联邦学习基于聚合算法的设计实现了模型收敛,一般需要一个可信第三方(如政府机构)提供联邦学习聚合服务器功能。四个医疗机构分别将模型训练的中间梯度或中间参数传递到聚合服务器进行聚合,聚合服务器更新的参数再分别传递给四个医疗机构继续局部模型训练。山于聚合算法设计的合理性,经过不断迭代,可以实现疾病预测模型的收敛,从而完成模型训练任务。
采用联邦学习方式的人工智能联合建模
如果采用安全外包方式进行联合建模,中小规模的医疗机构可能由于硬件配备较差没有相应的计算能力,而无法实现局部模型的训练。云计算的蓬勃发展,使得采用云端服务器进行训练成为常见的解决方式。然而由于云计算需要将本地数据传送到云端,因此为了防止隐私泄露,数据发布和云端的建模过程都需要在隐私计算的保护下进行。A、B、C、D四个医疗机构共同租用三台服务器,为保证数据安全,每个医疗机构将自身的数据通过隐私计算技术加密后发布到三台服务器,此时三台服务器拥有A、B、C、D四个医疗机构所有数据的密文。三台服务器基于密文协同的训练模型,在训练过程中,特征值、标签值、中间参数值自始至终都是以密文的形式存在,任意服务器都无法获得任意数据持有方的任意一条原始数据,而模型数据也只有指定的参与方才能获得。这保证了外包计算过程中原始数据和模型的安全。
采用安全外包方式的人工智能联合建模
在大数据分析技术使用的过程中,无论是数据的联合运算还是数据的联合建模,最直接关注的还是数据的隐私和安全问题。新型大数据分析技术在为数据要素价值发挥带来机会的同时,在联合使用过程中也可能会暴露数据隐私并造成安全问题。因此,数据流通需要依赖于安全多方计算、同态加密等隐私计算技术,以及新颖的数据流通框架支持,以确保数据的安全性和隐私保护。
6.5.3 人工智能应用
今年来,生成式人工智能技术取得突破性进展,数据基础设施也要充分利用人工智能大模型的最新成果,更好推动数据要素赋能千行百业,促进数字化转型和智能化升级。数据要素在人工智能领域的应用呈现出多样化和广泛性,为各行业带来了巨大的变革和机遇。
首先,数据是人工智能大模型的基础,其质量和数量直接影响着人工智能系统的性能和效果。大模型需要大量数据进行训练,基于高价值的数据训练大模型,可以提高模型的适用性和精度。通过数据流通技术,人工智能可以快速、方便地获取海量数据,并从中学习和挖掘规律,实现智能化决策和预测等任务。
其次,数据要素在机器学习领域发挥着关键作用,通过对数据的分析和建模,机器学习算法可以从中学习并不断优化自身的性能,实现对复杂问题的自动化解决。同时,在深度学习领域,数据要素作为训练模型的输入,可以帮助神经网络不断优化参数,提高模型的准确性和泛化能力。此外,数据要素在自然语言处理、计算机视觉、智能推荐等领域也发挥着重要作用,为人工智能系统提供了丰富的信息和支持。
总的来说,数据要素流通在人工智能领域的应用不仅扩展了人工智能的高质量数据的源头,也能通过安全可信数据流通技术,使得人工智能技术深入到各行各业的具体场景中,扩大其应用范围,推动了人工智能技术的不断发展和创新。
6.6 数据运营
数据基础设施通过一系列技术工具和规则手段的协同联动,推动数据汇聚、处理、流通、应用、交易等功能有序高效运转,促进数据要素市场的供需精准匹配,保障清算结算、审计监管、争议仲裁等一系列公共服务高质量开展,有效支撑数据要素市场各类资源高效配置。
在《数据运营实践白皮书》中,数据运营活动主要包括数据目录管理、数据应用场景构建、数据服务推广、数据动态优化、数据成本管理和数据价值评估等主要活动。数据运营是企业持续释放数据价值、进入数据要素市场的能力基础。企业通过构建数据管理能力,实现了理清数据分布、提升数据质量、确保数据安全、数据共享交换、数据分析挖掘等,为进一步深化数据应用、赋能业务发展奠定了基础。未来,伴随着数据要素市场逐渐成熟,企业更聚焦于持续优化数据管理能力,形成数据供需闭环,丰富数据应用场景,充分赋能业务发展,有效管控成本,精细化管理数据价值。
对于数据要素价值发挥的服务能力而言,数据运营是实现价值化的关键步骤。酒香也怕巷子深。因此,数据运营是将数据价值与外部需求进行共享对接、匹配的关键一环,做好了前期的数据汇聚、处理、流通和应用后,通过数据运营放大数据价值就是数据运营需要重点关注的方面。
一般情况下,数据运营需要基于特定的载体。例如将数据资产对接数据交易所,就是数据运营的一条重要路径。通过组建数据联盟,构建场外数据交易市场也是数据运营的一种模式。无论采用场内还是场外交易市场作为运营的主阵地,均需要通过完善数据目录、应用场景、服务推广等有助于促成数据供需对接的场景,都是数据运营应该关注的范围。
6.7 数据安全保障
数据基础设施通过隐私保护、数据加密、数字身份等技术手段,帮助各参与方建立数据安全保障体系,推动各参与方在数据合规性建设方面形成最佳实践,贯穿数据生命周期全流程,确保数据的可信性、完整性和安全性。
6.7.1 数据安全控制技术
数据流通和使用环节需要重点保证的是数据安全。数据安全是否得到有效保证是数据能否共享的关键前提。数据流通安全技术正在飞速发展,目前已经可以在无需公开原始数据的前提下完成大量的计算。例如同态加密技术可以在加密的情况下完成数学计算,安全多方计算可以在相互不泄露集合信息的情况下实现多方数据集合去重、信息检索等应用,联邦学习可以实现在不泄露原始数据的情况下,完成机器学习模型的训练。
从数据“聚、理、通、用、营”过程来看,其核心逻辑是完成数据价值的外部化过程,其中涉及数据的汇聚技术、治理技术、流通与使用技术,并通过数据安全流通技术为数据流通和使用过程保驾护航,为数据要素价值释放铺好道路。
一方面,跨组织、跨层级的数据访问需要精准的数据分类分级授权和鉴权,应避免过度的“一揽子授权”,以避免由于共享数据过量而带来不必要的数据泄露;
另一方面,数据使用既要充分挖掘数据价值,同时也要保证数据的隐私和安全,这也是数据在使用过程中面临的问题。
数据供给方与数据需求方之间需要通过多个过程实现数据安全控制。包括日志数据采集、数据确权、数据标识、数据加密、数据流转记录、数字签名、数据使用凭证、可信执行环境、身份认证、数据溯源、传输安全等技术手段,构建数据安全保障体系,推动各参与方在数据合规性建设方面形成最佳实践,贯穿数据生命周期全流程,确保数据的可信性、完整性和安全性。
数据安全保障流程图
在数据安全控制技术方面,主要包括数据访问和数据交易过程的安全控制。数据访问安全控制技术主要是将数据访问的过程保障安全,包括数据请求的安全检测,以及执行请求结果的审核。数据交易过程的安全控制主要是控制算法逃逸出运行环境,进而对数据空间内其他非共享数据进行访问的安全控制。下面通过数据安全网关和数据交易沙箱进行安全控制技术进行介绍,下一节对数据安全访问的具体工作逻辑进行介绍。
(1)数据安全网关
数据安全网关的数据来自数据空间范围内的用户数据库或文件系统,通过纵深防御实现数据安全访问。无论是结构化数据、非结构化数据还是其他类型的数据,都能够通过数据安全网关完成一站式数据采集、处理和共享,并在该过程中实现数据安全防护。数据安全网关以区块链智能合约为基础构建访问规则策略,以支撑数据在分布式场景下数据空间中数据的安全访问控制。该网关支持对数据和模型算法封装的算子按需执行,并提供联邦学习组件(FL)、隐私保护集合求交组件(PSI)、隐私信息检索组件(PIR)等功能的执行。
数据安全网关的防护逻辑
(2)数据交易沙箱
数据交易沙箱基于容器化技术,构建数据安全访问控制能力,使得算法在数据空间内部执行过程得到有效控制,避免算法逃逸出数据交易沙箱,对数据空间产生破坏。数据交易沙箱采用可估执行环境(TEE)技术和隐私计算技术,以保证数据流通交易过程中算法对数据的访问安全和算法对数据空间的访问安全,使得数据流转的敏感信息、模型融合参数和秘密数据不被泄露,同时保证隐私数据处理程序的完整性。
基丁可信执行环境的技术的数据交易沙箱重点是确保数据在可信执行环境中密态技术。数据按照可信执行环境的公钥对数据进行加密,且只能在TEE环境内进行数据解密、数据恢复和计算,能保证数据在分析过程中不被窃取,也能保证计算程序不被篡改。由于可信执行环境需要特殊硬件支持,因而只能在有硬件基础的场景下使用。
基于容器化的虚拟数据交易安全沙箱,强制将数据交易环境和宿主机内核环境隔离,通过合约规则约束容器内部的访问行为,并对系统调用等进行细粒度控制,实现对容器的内外环境的安全加固,防止数据交易程序(算法)逃离沙箱容器。
数据安全交易沙箱具体结构
6.7.2 数据安全访问技术
数据流通在数据空间之间进行数据访问时,需要通过一种合约规则的安全访问控制技术进行安全访问,以确保数据访问的标准化和安全性。区块链在数据提供方和数据消费方之间架设了一条安全可信的数据共享桥梁。数据流通技术基于区块链智能合约构建,是数据资源汇聚中心、数据资产转化中心、数据价值发掘中心,服务于内外部客户。通过数据上链管理、数据合约管理、数据隐私权限管理等支撑服务,保障数据安全访问。
数据安全访问技术基于区块链技术的数据安全访问和共享监管过程
数据服务前置阶段执行过程共分为以下5个步骤:
第一步,“数据提供方”基于“数据资源池”的数据在“目录数据管理器”中发布数据模型目录;
第二步,“数据提供方”同步在“数据服务代理”开通数据共享服务;
第三步,“数据提供方”通过“API/库表共享代理”设定数据目录访问的角色和权限,并在区块链上形成数据规则合约,并同步到“共享监管模块”;
第四步,“数据消费方”通过“目录数据管理器”检索数据目录,并发起数据请求;
第五步,“数据提供方”审批、批复数据请求,并同步写入链上数据规则合约,“数据消费方”获得数据目录权限。
数据服务前置阶段完成后,数据消费方可通过“API/库表共享代理”获取数据。数据服务请求执行过程如下。
首先,数据应用对“数据区块链”发起数据请求,“共享监管模块”基于“数据规则合约引擎”验证API请求权限。
验证通过后,“API/库表共享代理”请求“数据服务代理”对“数据资源池”执行API或库表接口。
当“数据资源池”完成请求执行后,返回API或库表数据,“共享代理模块”检查相应数据合规性,并生成数据目录访问日志写入“区块链”,数据原路返回,最终返回到“数据请求方”,完成数据一次访问过程。
如果“共享监管模块”校验失败,则合约规则验证失败,数据访问被拦截,同步记录失败请求日志,请求过程结束。
第七章 可信数据空间服务数据要素价值发挥
人类的发展离不开工具的革新。数据要素价值发挥需要将技术用产品的形式封装起来,给数据持有方提供价值发挥的工具。
数据价值发挥涉及诸多环节,包括数据产品化之前的数据汇聚、处理、分析,并形成对特定人群或其他工具有用的产品,也包括数据价值流通过程中协助价值变现的管理工具,以及数据流通、应用、运营过程的一系列工具,包括数据运营过程中实现数据价值交换的自动化交易系统。
前两章介绍了数据要素技术和能力基础,本章以可信数据空间为核心,阐述数据要素价值发挥的产品逻辑。
可信数据空间不仅包含了可信数据空间的主权,还将数据基础设施的能力和数据要素价值发挥的能力集合在一起,提供数据要素价值发挥服务。
本章从数据价值化的三部曲开始,说明可信数据空间的架构、能力,以及定义可信数据空间在产品层面上的具体呈现形式,实现安全、可信、可靠数据流通,助力数据要素价值发挥。
7.1 数据价值化三部曲
数据作为新型生产要素,已然成为新型资产。然而,从数据本身的形态来看,数据价值化需要经历数据资源化、数据资产化和数据资本化三个阶段。数据价值化的这三个阶段有前后关系,但并不意味着所有的数据均可以实现资本化。
数据价值化三部曲
7.1.1 数据资源化
数据资源化是指将分散、无序的原始数据收集、处理并转化为有组织、易于访问和分析的格式的过程,这是数据价值化之路的第一步。数据的收集一般是基于特定业务行为,此时数据的形态还不能算作资源,而只是业务数据化的一个常规步骤。
数据资源化主要有两种主要的形式:
一种对数据拥有者而言,通过对数据进行加工处理,在内部实现数据的业务化,完成内部闭环,形成价值;
另一种则是通过数据服务的形式供给到外部,与需求方一同完成加工处理,服务特定的业务目标,实现更大范围的价值过程。为了更好地实现数据价值化,
在资源化过程中,一般要形成特定的数据目录、标准,以数据产品或者数据目录的形式存在。
数据资源化的核心是将业务数据作为生产资料服务于业务,进而通过业务提质增效而形成价值的过程,它的价值主要表现在业务价值上。
例如电商平台的数据经过加工分析后,可以作为电商排名、生意参谋等形式实现其业务价值。
又比如,两家商业银行基于各自客户标签数据完成联合建模分析,形成各自客户的更完整的画像,从而为客户提供更优质和精准的服务。
上述两个例子均是通过数据创造业务价值的过程,一个是在企业内部完成,一个是通过企业之间的联合计算而完成。这种数据通过业务创造了价值,就已经具备了晋级数据资产化的条件。
7.1.2 数据资产化
数据资产化是将数据转化为一种与货币等价的一种形式。这个过程涉及质量评估、法律评估、会计审计等过程,其核心作用是对数据进行估值。数据资产评估的基本方法主要包括成本法、收益法和市场法。
成本法是以重置该项数据资产所发生的成本作为确定评估对象价值的基础,并对重置成本的价值进行调整以此确定评估对象价值。采用成本法,除了归集与数据资产相关的各项成本费用,还需关注各项投入与数据资产的相关程度、数据资产的质量、经济寿命等。
收益法是通过测算该项数据资产所产生的未来预期收益并折算成现值,进而确定被评估数据资产的价值。在获取数据资产质量评价等相关信息的基础上,根据该数据资产的历史应用情况及未来应用前景,结合数据资产应用或者拟应用企业经营状况,重点分析数据资产经济收益的可预测性。采用收益法,需关注数据资产的应用场景、收益模式和收益风险。
市场法是在具有公开并活跃的交易市场的前提下,选取近期或往期成交的类似参照系价格作为参考,并修正有特异性、个性化的因素,从而得到估值。采用市场法,需关注该数据资产或者类似数据资产是否存在合法合规的、活跃的公开交易市场,是否存在适当数量的可比参照物。
从以上三种方法的描述可以看出,如果在数据资源化阶段已经体现出价值化,在数据资产化阶段主要是对数据资产的价值进行评估。编者认为,市场法是能较好体现数据真实价值的一种评估方法。
一是数据价值更多地需要在外部通过数据商品的形式体现,如果仅仅是内部价值或者有限联盟内部价值,那么还不能算作数据资产;
二是数据真实价值只有在被广泛使用后,其价值才能出现乘数效应,而这正是数据要素作为一种新质生产力的重要体现。
7.1.3 数据资本化
数据资产化后,数据具备了等价货币价值,为此通过赋予数据资产金融属性,则数据转换为一种数据资本,可以实现数据的金融属性,包括数据增信、数据质押、数据保理、数据资产证券化和数据入股。
数据增信、质押和保理模式更多是从数据资产化衍生出的一种金融工具,
而数据资产证券化和数据入股则是将数据作为一种可流动的金融资产进入资本市场。
以前是以金融资产为支持的债券或票据融资,现在可以将数据作为基础资产进行证券化发行交易,从ABS(Asset-Backed Security)变成D-ABS(Data Asset-Backed Security)。
由于数据资本化需要受到金融业的监管,情况会更为复杂,目前还属于行业早期,有待市场进一步探索。
7.2 可信数据空间架构
可信数据空间是为数据跨组织流通和使用提供安全和信任机制的一种新型数字基础设施。它以分布式的形态,架构在现有的数据管理系统和网络基础上,通过共同的标准和认证等体系化的技术安排来确保数据受控、可信地流通和应用,解决数据要素提供方、使用方、服务方等主体间的安全与信任问题,进而支撑数据驱动的数字化转型。
编者认为,在数据要素领域,可信数据空间是集网络、算力、流通和安全四大基础设施和数据汇聚、处理、流通、应用、运营和安全保障六大能力于一体的数据基础设施。可信数据空间不仅仅是在数据空间之上增加可信那么简单,它提供了数据可信流通所需的各种基础设施和数据服务能力。
可信数据空间总体框架
7.2.1 四大基础设施能力集成
在数据要素流通与数据安全技术一章中,我们深入分析了作为数据流通基础设施的数据空间、区块链和高速数据网络的技术能力,以及作为数据安全基础设施的隐私计算、联邦学习和数据沙箱的技术能力。
可信数据空间除了集成上述技术基础设施能力外,还需要借助网络基础设施和算力计算设施能力,为上层数据服务能力提供服务。
在数据流通过程中,涉及算力、算法和算据,需要通过可信数据空间共同完成其数据流通使命。
算力调度是针对不断增长的算力需求,请求合适的算力资源,包括通用算力资源、智能算力资源和超级算力资源等。如果仅仅把可信数据空间理解为一栋楼、一个房间,那么就没办法充分调度外部算力为数据流通服务。因此可信数据空间可支持对不同区域的算力进行资源调度。
算法是数据流通的关键,可信数据空间提供一系列算子,支撑对算据的各类计算的一个复杂编排,算子提供具体计算能力。
算据则是数据流通的主体,通过可信数据空间的流通能力实现更大范围的数据价值化,并与其他空间主体进行融合,实现数据价值叠加效应。
算子作为算法的组成单位,主要实现特定的计算目标。
例如基础设施能力的特定技术,就会封装为具体算子。
例如隐私计算中的隐私求交、隐匿查询、联合计算等均是一个具体算子。
这些算子不同于传统大数据处理领域的算子,可信数据空间算子概念更大。算子提供跨可信数据空间的计算能力,使得在空间内部可以像大数据处理领域一样使用,但她会基于所关联的算据,自动在可信数据空间网络中完成计算,并最终拿到所需结果。
7.2.2 六大数据服务能力集成
在可信数据空间中,六大数据服务能力集成为特定算子,通过在可信数据空间内运行,完成数据流通过程的计算。算子提供的能力主要包括数据汇聚、处理、流通、应用,并通过集成数据运营和数据安全保障能力实现可信数据空间的能力交付。
通过在可信数据空间中集成六大数据服务能力,可以有效地将数据资源化、资产化和资本化所需的技术能力均通过可信数据空间来实现。
例如,数据资源化需要完成数据的清晰、标准等功能,那么通过数据汇聚和数据处理能力即可实现数据资源化目标。通过数据运营可有效将数据价值发挥出来,为数据资产化提供参考依据。
7.2.3 可信数据空间网络
可信数据空间网络为数据流通双方的可信数据空间提供数据通信功能。可信数据空间网络提供安全基础设施服务,包括可信数据空间通信加密、空间数据路由等,为数据空间之间的通信提供安全防护。可信数据空间之间的数据安全通过算子实现。通过可信数据空间网络,实现跨部门、跨行业、跨领域的“三跨”数据流通。
可信数据空间之间的数据通路有两种模式:
一种是直连模式,需要双方公开可相互访问的网络地址和端口,对网络管理要求较高,且在多方数据空间网络连接时网络管理更为复杂;
另一种是中间转发模式,一般通过数据交付中心(或数据集市)进行转发,这样所有可信数据空间无需开放网络地址和端口,只需要由数据交付中心来负责转发。
可信数据空间通信方式
7.3 可信数据空间能力
可信数据空间作为数据流通的关键载体,其核心能力是实现数据资源化、资产化和资本化的技术能力支撑。结合政策、法规,完成数据要素价值化发挥。本节从可信数据空间的主要技术路线、能力、技术路径等对可信数据空间能力进行介绍。
7.3.1 可信数据空间基本能力
可信数据空间以数据流通和数据开发利用为核心,帮助数据提供方、数据消费方和服务监管方开展数据流通共享和交换业务。可信数据空间作为产业数字化平台服务提供方,基于区块链构建了数据共享交换和开发利用基础设施,以促进数据共享流通。
数据共享交换示意图
可信数据空间的主要包含以下几个方面的能力:
(1)数据可信引接汇聚
可信数据空间依靠区块链技术的不可篡改性,对所有流通行为数据进行链上记录与存证,确保数据共享流通过程的安全和可信。数据可信引接基于“数据安全网关”实现数据目录的管理和数据的共享,从而帮助用户完成数据或数据处理结果的输出。该过程的权限、角色由区块链智能合约控制,而数据引接过程在链上完成可信鉴权和存证。
(2)分布式数据处理
分布式数据处理是可信数据空间的能力之一。数据处理是数据流通的前置步骤,数据引接、处理、转存的一系列数据转换过程都需要数据处理。分布式数据处理需要实现多机构主体基于数据的分布特性,在一个体系下完成包括数据引接、标准化、数据分析处理、数据共享、数据融合计算、数据结果处理和数据安全共享等工作的数据分布式处理和对应的处理工作。
(3)数据安全共享交互
目前,数据共享交换平台多采用中心化结构,围绕数据提供方、数据服务方、数据需求方,实现数据共享交换。在中心化结构下,数据共享交换平台存在共享交换过程标准化程度低、管理难度大、安全性低、缺乏公信力等问题。
可信数据空间通过引入区块链技术,采用链上链下协同的方式实现大容量数据共享。通过同态加密等隐私计算技术,使结构化数据无需解密仍可进行分析和运算操作,不暴露原始数据,保障共享方的数据所有权,实现数据安全共享交换。通过分片加密、水印、传输过程加密等方式使非结构化数据可控共享。
(4)数据服务与可视化
可信数据空间提供便捷、快速的数据服务开发能力,支持线上可视化数据分析,为业务部门决策提供数据支撑;提供数据可视化服务,为业务部门提供快速开发数据应用服务的工具,响应业务需求,服务数据生态体系,释放数据价值。
可信数据空间主要山基础设施层、区块链层、数据加工层、数据共享层、规则引擎模块和安全保障模块组成。
可信数据空间技术架构图
①基础设施层。
基础设施层为数据流通的实施提供基础配置,包含网关服务、容器组件、基础网络以及文件系统等。
网关服务是基于区块链的智能终端和智能合约规则执行终端,负责提供数据处理和数据并行计算服务;
容器组件类似集装箱,提供一次构建、随处部署的服务;
基础网络提供基本的网络技术、网络协议等网络服务;
文件系统负责操作系统中持久数据的管理。
②区块链层。
区块链是可信数据空间的关键组成部分,主要提供混合共识算法、智能合约及SDK等组件。
③数据加工层。
数据加工层主要提供可信的中间服务,封装数据开发过程中的各项功能,包括数据体系标准化、数据安全网关、自定义数据标签、数据加工规则引擎、数据质量评估以及数据溯源确权。
④数据共享层。
数据共享层为数据共享提供分析计算能力和规则调用,主要包含规则引擎、分布式身份标识DID、边缘计算、函数计算以及资产交易。
数据共享规则引擎通过制定共享规则,控制和管理用户的数据共享行为,并确保共享数据的合规性和安全性。
当用户共享请求获得授权后,授权用户就可以使用分布式身份标识DID授权访问和使用数据。数据访问过程使用了DID文档公钥和数字签名技术验证数据的真实性和完整性,从而保证数据的安全和可靠。
通过在边缘设备上部署边缘计算节点,使数据在采集后可以直接进行本地计算和分析,配合使用加密技术,保障数据传输的安全性,同时可以提高数据共享的时效性和效率。
利用函数计算提供的API网关、消息队列等功能,实现多个应用之间实时的数据交互和协同处理。
用户在可信数据空间上浏览和筛选数据资产,通过资产交易服务,在付款后获得数据使用权限和数据访问方式。
⑤规则引擎模块。
规则引擎模块是处理复杂业务逻辑的组件。该组件将业务规则和逻辑从源代码中分离出来,形成规则智能合约。
当应用程序执行时,规则引擎基于合约中的业务规则和逻辑执行规则进行验证,以满足数据服务规则校验的灵活性和可扩展性。
可信数据空间能够根据业务需求,基于智能合约技术灵活制定访问规则、审核规则和交易规则,降低业务逻辑组件复杂性、应用程序的维护成本和可扩展性成本。
⑥安全保障模块。
安全保障模块为数据流通提供安全保障能力,主要包含数据访问权限、分布式加密管理、分布式存储切片以及基础设施防护。
数据访问权限遵循最小访问原则,基于智能合约构建访问管理策略,仅为用户分配供其完成任务所需访问数据及系统的最小权限,最大程度避免因频繁、无原则的数据访问而导致的数据安全风险。
分布式加密管理为每个用户提供唯一的公私钥对,使其能够以授权的方式指定可以访问的主体,并具备时效特征。基于非对称加密方式,确保用户上传的密文绝对安全,不能被任何人静默访问。
分布式存储切片将数据分片存储到多个存储服务器上,并将这些分散的存储资源映射为一个虚拟的存储设备,基于这种架构,实现节点可横向扩展,同时实现了对块、对象、文件等多种类型存储的统一管理。
基础设施防护模块具备基本的软硬件、网络安全防护能力。
7.3.2 可信数据空间技术路线
可信数据空间最早由欧盟定义,以企业数据主权为核心,对具体的技术路线并没有清晰的定义。通过数据是否可见和数据是否分散两个维度,可以形成一个四象限图。这三种技术路线都可以构建数据安全使用场景,也可以解决跨主体之间的数据共享流通问题,本节对三种技术进行介绍。
可信数据空间的主要技术路线
(1)以数据控制为核心的路线
数据控制技术是一系列用于管理和保护数据的策略、程序和机制。数据控制技术比较成熟,已经得到广泛使用,例如专用的音乐、视频播放软件。
该模式主要的特征是通过将数据加密后,然后通过特定软件系统实现可控解密,并在必要的时候控制数据销毁。该技术主要用于需要以明文方式使用数据的场景,如图纸、音乐、视频等数据。
该类技术属于数据出域的一种方案,为了保障数据的安全,需要对明文在用户侧受控使用。
该模式的主要技术包括访问控制技术、使用控制技术和延伸控制技术等。
访问控制技术主要是针对访问过程进行控制,例如基于用户角色的控制(Role-Based Access Control,RBAC)和基于用户特定属性的控制(Attribute-Based Access Control,ABAC)。他们通过用户的特定信息,控制用户如何访问明文数据。
使用控制技术主要对使用过程进行控制,核心还是访问控制,除了基于用户信息之外,还通过扩展一套可扩展标记语言实现访问控制(eXtensible Access Control Markup Language,XACML)或者通过访问决策数据图的下一代访问控制(Next Generation Access Control,NGAC)。
延伸控制技术通过本体技术扩展和增强传统访问控制模型的能力,OBAC(Ontology-Based Access Control)是一种利用本体(Ontology)技术来实现访问控制的方法。本体是一种表达领域知识的形式化表示方法,它能够描述概念、概念间的关系以及规则。
上述三种方法并没有严格地区分定义,核心是对用户的角色、属性、标签、访问路径等一系列检测方法,实现对数据访问的控制。
(2)以机密计算为核心的路线
以机密计算为核心的路线主要聚焦于通过硬件和软件的结合,实现数据在使用中的安全保护。目前主要是通过可信执行环境(TEE)实现数据安全计算,该模式与上一种模式差别在于该模式需要通过特殊硬件来确保数据在严格受控的环境中被使用。
该路线对硬件环境有要求,因此该路线只能在有限的场合使用。一般情况下,主要用于隐私计算方案无法满足计算性能的情况下,通过特殊硬件来保障数据的安全。
例如Intel的SGX就是在CPU内部构建了一套独立的系统,只有在授权且代码认证通过后才能在可信执行环境中执行,且进入可信执行环境的数据是采用其专属的密码进行加密的,确保数据不能被可信执行环境外部获取,从而确保数据出域的情况下,保障数据使用安全。有关可信执行环境的介绍请参见本书5.5.5节。
(3)以隐私计算为核心的路线
以隐私计算为核心的路线与前述两个路线最大的不同在于数据无需出域。该路线适用于严格要求数据不出域的场景。在本书5.5、5.6章节分别介绍了隐私计算技术和联邦学习技术,这两种技术主要就是解决数据不出域场景下的安全计算问题。
该路线无需特殊硬件即可安全完成计算,适应性强,随着算力性能和网络速度不断增强,基于隐私计算为核心的数据不出域路线会成为可信数据空间主要采用的技术路线。
7.3.3 可信数据空间能力建议
可信数据空间除提供四大基础设施和六大数据服务能力外,为更好地构建可信数据空间,编者基于团队经营,建议新增如下功能模块,使得可信数据空间更安全、更好用。
可信数据空间基于代码数据产品建模能力和分布式协同调度引擎能力,通过“一张图”模式支撑数据流通算法设计。
数据流通算法主要由数据源、大数据引擎和算子组件完成计算,其中数据源完成初步计算,大数据引擎完成流式实时或非实时任务计算,算子组件则基于组件特征灵活应用现有成熟技术完成具体计算。
算子组件包含系统内置组件(含数据集成、数据转换、数据治理、数据分析、数据建模、隐私计算、联邦学习等)、复合组件(任意内置组件经自由连接形成的复合功能)和自定义组件。
例如AI组件可以对数据进行建模分析,输出数据模型;再例如隐私计算组件,通过对端网络完成密态计算,最终输出计算结果。
这些功能均通过“一张图”计算引擎实现数据融合和计算,并可以以数据服务形式对外发布。
(1)低代码数据产品建模
可信数据空间通过增加低代码一站式数据产品建模能力,通过各类计算组件完成核心计算能力。可信数据空间低代码数据产品建模模块从各业务系统、外部数据库等多种不同的数据源中获取数据后,通过各类算子完成数据产品构建,对外输出为数据产品。
系统集成Hadoop、Spark、Flink、Kafka、Hive等大数据引擎组件,结合内置Doris OLAP分析库和Ignite分布式内存数据库,提供多组件高效数据分析和计算服务,并利用大量桥接组件实现各类引擎数据桥接汇通。
平台内含人工智能组件,用于实现数据人工智能建模与模型应用,包括数据归类分析、机器学习建模和模型应用分析。
通过联邦学习实施跨机构、组织和地域数据计算,系统中不同数据源可以在无需物理汇聚的前提下完成对数据的共同建模。
低代码数据产品建模平台采用低代码数据分析开发模式,通过可视化、拖放式的开发工具构建数据分析、计算、处理系统,使数据处理、流通的过程更加透明化。可视化低代码平台是一种类似于集成开发环境IDE的产品形态,用户可以从平台的组件库里以拖拽的方式,像搭建积木一样完成数据产品的构建。
低代码数据产品建模平台
基于低代码/无代码开发理念构建的可信数据空间数据加工系统,具备以下三个优势:
一是图形化的数据处理方式使得数据处理和分析流程可以被快速理解;
二是图形化的数据流程使得各参与方均可以看到己方数据的加工处理过程,可以提高数据共享意愿;
三是图形化的数据处理流程在实现多方数据综合分析时,可以快速计算数据贡献和数据血缘,各方权益易于理解。
可信数据空间以图形化的方式实现数据处理流程的编排,通过管理数据订阅、数据发布情况,确保数据交易各个环节的流程规范与真实可靠。
可信数据空间还能够让业务人员快速搭建数据交易平台,极大降低数据交易门槛,在数据交易场景中实现数据流转、数据测算和自动结算等核心功能,为数据交易提供了一个安全、合规、高效的平台,为各类数据交易提供高效、透明的支持。
对于企业而言,零代码的数据流通平台可以助其快速适应市场变化,在保障数据安全和隐私的同时实现业务创新。
(2)“一张图”分布式执行引擎
可信数据空间通过“一张图”分布式执行引擎提供统一的算法执行服务。算法由一系列算子按数据处理流转组成。以算子为最小单位,在算据全生命周期的每一环节,完成对数据的处理。由于数据分布于多个数据系统,因此可信数据空间执行引擎需要通过统一架构,实现对不同算子组件的调度,这些算子包括普通算子、隐私计算、联邦计算等算子。
可信数据空间将一切皆化成算子组件,利用算子组件的组合形成业务处理流程,并通过调度器或者执行器实现流程的数据转接、数据计算、数据传递,最终实现数据流程图的结果输出或转存。
不同中台的算子组件对运行环境和操作对象的要求不同,执行引擎通过算子元信息和数据元信息共同引导各执行器完成数据计算任务。
“一张图”分布式执行引擎通过“图”极大地降低了数据分析和开发难度,同时通过执行器及其底层组件的性能优化,使得执行过程中性能损失极小。具体包括以下四个层面:
一是充分发挥数据源的计算能力,实现了数据可贴源计算,例如采用了大数据引擎数据库,使得系统具备较强的数据读取和分析能力;
二是采取内存计算模式,减少了数据在算子组件之间的传递,系统采用分布式内存数据库作为数据中转和计算场所;
三是在数据共享存储和消息通讯方面,对于算子组件运算过程中产生的非结构化数据,通过对象进行存储,确保了算子组件可以使用非结构化数据,元数据信息通过执行引擎和消息队列进行转发;
四是在跨网络事件驱动数据调度方面,执行引擎通过gRPC(General-purpose Remote Procedure Calls,通用远程过程调用)协议重构组件跨域通讯,一方面通过协议优化提升了通讯效率,另一方面也实现了组件无感跨域计算。
gRPC是一个跨平台开源高性能远程过程调用框架,由Google在2015年开源。
“一张图”是面向服务与业务的。通过“一张图”不仅使得维护、稽核、改进变得容易,也使得数据处理过程更容易被理解。在“一张图”分布式执行引擎中,分布式调度是关键。分布式执行引擎对所采用的资源、所使用的引擎、所运行的硬件都进行了屏蔽,用户只需要关注业务,基于“一张图”涉及的语义进行调度即可。分布式引擎基于数据源生成有向无环图DAG,然后基于算子的特性和前一节点的特性,将数据分发给特定的执行器。
“一张图”工作界面
(3)基于可信数据空间集市的通讯引擎
“一张图”定义了业务处理要求,但在具体执行过程中,因为数据源可能分布在不同的节点,所以需要在可信数据空间之间提供无感数据融合,才能让组件开发符合“一张图”架构设计。为此,编者建议可信数据空间采用基于HTTP2的gRPC作为组件跨域通讯机制,并通过gRPC代理机制实现防火墙穿透,使得组件和流程设计者不需要关心运行网络配置,从而最大限度体现“超融合”设计理念。
可信数据空间的算子组件一般运行在专用的安全容器中,不同算子组件采用的通讯机制也不同,因此需要采用双重代理机制实现不同算子组件之间的通信。
算子组件通信代理工作流程图
顶部的平台gRPC代理为辅助节点,实现gRPC的代理和组件之间通信消息流的削峰填谷(数据排队机制),同时解决因为防火墙的存在而导致的左右两边计算节点无法通信的问题。
gRPC Proxy既作为gRPC服务端,主动连接平台gRPC代理,无需外部主动发起连接,这样gRPC Proxy就是一个普通客户端,无需开发特定外部端口,避免因为防火墙限制而导致的无法双向通信情况的出现。
由于gRPC是基于HTTP协议栈设计的,因此,防火墙可以很好支持该协议,无需额外设置。该设计可保障节点所在网络的端口安全。
由于AI组件本身采用gRPC通讯,因此直接和gRPC Proxy通信即可。
PSI组件采用原始TCP协议,为此需要通过虚拟TCP代理实现和gRPC组件组合,实现协议转化,并最终实现算子组件通讯的“无感知”。
可信数据空间之间的通信均通过平台(这里指可信数据空间集市或者数据交付中心)gRPC代理进行消息转发。平台gRPC代理作为辅助节点在可信数据空间基于gRPC协议通信,包括消息接收、缓存和转发。
由于可信数据空间有可能存在临时掉线或带宽受限(比如物理隔离环境)等情况,因此需要通过缓存消息再转发,以确保组件正常通信。
平台gRPC代理组件基于线程池维护客户端通道,考虑到大量可信数据空间会同时需要代理通信,因此,平台gRPC代理的设计支持核心可扩展,以满足系统总体的性能、吞吐量和效率指标。
7.3.4 可信数据空间服务流程
可信数据空间基于区块链、隐私计算、联邦学习、数据空间等技术融合构建。在数据供给方,通过可信数据空间节点完成数据汇聚和数据处理环节,在保护数据主权的前提下,从内部数据通过算力基础设施完成分类分级,降低风险成本,并通过集成了数据沙箱、隐私计算、计算引擎的可信数据空间节点降低数据供出成本。同时,通过算力外包、存储转移方式,通过数据运营中心来支撑复杂计算和海量存储。在数据运营中心,数据可以安全、自由完成交易撮合,并通过可信数据空间完成数据交付,实现高效数据流通。
可信数据空间服务流程
数据“流得动”需要符合经济学逻辑,为实现数据要素乘数效应,需要在数据收益、供出成本和交易成本之间取得平衡。为提高数据收益,需要提高数据要素新模式下的收益,并降低替换成本。在降低供出成本和交易成本方面,基于可信数据空间会成为在数据应用和数据运营方面探索一种新模式。
7.4 数据资产管理工具
7.4.1 数据资产管理工具概述
企业数据资源主要包括
企业自身生成数据,例如企业机器运行数据、企业经营活动过程数据;
企业采集数据,例如企业App收集的开展业务必要的用户数据、订单数据;
企业采购数据,例如气象、能源数据等。
企业收集数据需要付出劳动,并期望产生收益,其动机既包括服务企业内部业务,也包括部分数据经过处理后可以以数据服务等形式出售。例如各大电商平台会收集用户购物数据,这些数据除完成订单管理外,还会用规范分析用户的购物行为、地域特征,为商家提供广告、推荐等有偿服务。
数据资产管理工具让企业数据资产化过程变得更容易,同时也让企业更容易快速完成数据资产评估。这与企业的财务管理软件类似,但与企业财务管理软件不同的地方在于,数据资产管理工具的输入形式与财务软件不同,除了人工录入之外,数据资产管理功能更多的要完成数据接入和分析,才可以形成数据资产。
数据资产管理工具作为企业数据价值发挥的一个工具,可离线运行。数据资产管理和运营是数据价值发挥的关键路径。该工具基于区块链、隐私计算、智能合约等技术确保数据资产管理过程的安全、可信和可运营。企业一般通过数字化工具和各类业务软件完成企业业务数据的积淀。数据资产管理工具帮助实现数据的标准管理、数据治理、质量管理和数据资产目录生成。
数据资产管理与运营的路径
数据资产管理工具基于上述目标打造,其处理业务流程如图。连接数据资源后,通过数据治理完成数据资产化,再包装为数据产品,实现数据价值的发挥。数据产品可以支持第三方专业机构的合规评估、质量评估和价值评估,提供可导出的证明材料。数据资产管理工具提供数据集成、数据治理、数据分析、数据加工、数据字典、数据合规和确权数据存证、数据目录简理等功能,实现企业数据价值发挥的管理工具。从数据进入管理工具开始,数据资产管理工具就开始对数据进行全生命周期追踪,包括数据从哪里来,经过哪些处理,最后被哪些数据产品使用。这个过程通过数据血缘分析系统呈现,并支持通过“数据产品”功能一键导出,供第三方机构评估。
数据资产管理工具业务流程
数据资产管理工具是能够保障数据安全,实现数据资产管理闭环的轻量级、安全可信的数据资产工具,能够帮助企业快速完成数据资产管理部署,支持企业数据资产一体化管理。
数据资产管理工具,
一是通过数据引入存证形成确权证据,让数据有身份;
二是通过数据资产管理工具让数据有价值,建立数据标准,保证数据资产的准确性、一致性、完整性、规范性、时效性和可访问性;
三是助力资产评估,提供数据资产评估需要的信息、法律、价值属性,包括数据名称、结构、数据字典、规模、数据周期、产生频率和存储方式;
四是让数据好流通,将原始数据到数据资产过程作为主线,让数据合规、可交易、可增值、可持续运营。
7.4.2 数据资产管理实施流程
数据资产管理是数据资产化前置步骤,通过数据资产管理工具,可实现流程的极大简化,并支持循序渐进完成数据资产化的实施。数据资产管理工具提供的数据资产化过程共分为五个步骤。
数据资产管理实施流程
(1)数据资产盘点
数据资产盘点核心目标是完成企业数据的梳理,确定数据初步价值。该过程包括确认数据来源、数据性质、数据更新频率等指标。
比如数据主体是企业,还是个人?该数据是否存在隐私问题?数据更新的频率怎样?数据体量和数据质量如何?这些问题是描述数据的一个初步维度,如果数据更新频次太低,体量太小,那么对该数据进行资产化的必要性就比较低,纳入管理的必要性也比较低了。
确定好需要管理的数据后,就可以通过数据资产管理工具的数据源管理功能完成数据源的接入。数据源支持数据库、API接口和文件等数据类型接入,以便接入数据进行后续处理。
(2)构建数据标准
数据标准化是数据资产化的关键步骤,数据资产管理工具建立的是企业数据资产标准,未来对接数据市场同样会存在数据标准化问题。这个标准转换过程由工具自动完成。
构建数据标准包括建立分类分级体系、完善数据字典标准、设计数据约束和规则、指定归口人,以及形成数据标准体系等环节。
在完成数据资产的初步盘点之后,按照数据标准,完成数据资产的真正盘点。因为数据资产核心是其内在价值,而数据标准化的目标就是使得数据有序、可理解、易操作。
(3)创建资产目录
数据标准体系建立后,还需要将数据接入到数据资产管理工具才算完成数据资产的真正盘点。数据接入过程是将企业数据按数据标准进行管理的开始。
数据接入支持物理汇聚和虚拟汇聚,接入过程需要收集接入数据的元信息,包括数据来源、数据更新频次、数据描述、复合数据标准、脱密脱敏规则设置、样例数据等。
收集完数据元信息后,就可以将数据资源发布为数据资产目录,发布环节会存证确权。数据目录是数据服务的最小单位,例如一个订单数据目录就包含了订单的业务数据信息。数据目录通过数据资产管理工具即可实现内部数据价值的发挥。
(4)发布数据产品
构建数据资产目录后,针对外部用户需要,可以将数据产品组合起来对外提供服务。
例如通过勾选10个数据资产目录形成一个完整的订单服务产品,供上下游企业完成订单的按需生产,那么这个数据产品就形成了具体的业务价值。
由于数据的特殊性,数据使用范围会受到严格的监管,以确保数据在合理的范围内使用,因此需要指定数据使用范围,具体包括数据加工模式、数据使用模式(隐私或原始数据)等内容。还需要描述产品使用说明,为未来用户使用数据资产时提供重要参考。数据产品价值相比数据目录而言更具有目标性。
以上述订单为例,订单的信息中还包括一些可以挖掘的价值,例如商品名称、描述,购买用户画像信息,基于这些信息就可以开展营销分析活动,而数据价值的发挥就会更加依赖数据使用方的特定描述。
(5)促成交易流通
完成数据产品化以后,数据资产工具核心的工作已经完成,但数据资产化的目标还差一步,就是数据交易。数据资产管理工具基于前四个步骤,可以以数据资产目录和数据产品的方式对外提供数据服务。
数据资产管理工具的另一个核心功能是提供分布式数据加工流程执行引擎,通过与其他数据资产管理工具组网,形成数据资产联盟,实现跨企业的数据要素价值发挥。
经过上述步骤,数据资产管理完成了数据资产化的过程,随时可以进行数据资产的交易,从财务角度来看就已经具备资产价值了,只需要由第三方机构进行评估,即可实现数据资产入表。
7.4.3 数据资产管理案例
数据资产管理工具核心目标是完成数据资产化过程。下面以某电商企业为例,说明数据资产的具体实施。
该电商企业服务农业领域,在批发和零售方面具备较大优势,企业的数据意识较强,尝试通过数据治理分析,以农产品行情等数据产品对外提供服务。农业领域因为产品附加值有限,运营电商平台需要较多资金,还需要和主流电商平台、直播电商平台竞争。
该企业虽然在数据理解、治理和分析方面具有优势,但企业内部数据有限,同时还存在资金周转的较大压力。数据在国家层面被认定为生产要素以后,该企业对数据如何发挥更大价值有着更大的雄心,在做好垂直行业的电商之外,开始拓展数据要素新赛道。
该企业为加快数据资产化过程,并满足数据交易所对数据来源合规性、数据服务灵活性和自身数据安全性方面要求,选用数据资产管理工具开展了数据资产化管理工作,并希望通过该管理工具和数据资产运营工具,联合领域内企业构建农业农村行业数据联盟,共同做大农业数据价值市场。
数据资产管理工具部署结构
农业电商平台通过数据资产管理工具和数据资产服务完成数据治理,并发布数据资产目录和产品到可信数据空间,通过资产管理工具,企业可以快速导出数据资产合规登记所需的基础材料,还能以数据可用不可见的方式通过交易平台实现数据资产价值变现。
数据资产管理工具帮助电商平台快速实现数据资产化,并快速对接数据交易所,为数据资产评估提供了完整的证据链,为更合理的价值评估提供充足的证明材料。随着管理时间跨度增大,数据资产管理工具还将能够提供完整的数据价值管理证据链,使得数据资产评估更便利、更快捷、更科学、更有参照性。
数据资产管理工具还提供了数据安全视图。
数据资产管理工具安全视图
通过该视图可以清晰地看到数据使用情况,包括访问频次、趋势、频率等相关信息。数据资产管理工具还支待对数据执行过程进行审计,确保执行过程符合数据标准要求,同时,阻断不合要求的数据访问。
7.5 数据资产运营工具
数据要素价值发挥有两个途径:
一个是通过数据交易所,完成数据的直接交易;
另一个是以点对点或者联盟方式,实现数据价值化。
数据资产运营工具构建了一个特定的数据联盟,联盟成员将数据资产管理工具接入数据运营平台,构建数据集市联盟,所有联盟成员都可以通过运营工具构建的平台完成数据交易。
7.5.1 数据资产运营工具概况
数据资产运营工具帮助垂直行业的数据联盟构建联盟平台,主要包括联盟数据标准管理、联盟成员数据打通和数据交易三个核心功能。
数据标准管理与数据资产管理工具类似,通过业务专家帮助联盟构建被业内广泛认可的数据标准。
数据标准作为联盟成员间数据交换的依据,使得联盟成员可以基于统一的标准进行数据加工。联盟成员数据打通是基于HTTP协议栈无感数据融合代理技术构建的,各数据资产管理节点可以基于各方数据加工诉求,完成数据执行过程。
数据交易是运营管理工具中完成数据订阅和数据使用过程的一种功能,数据交易使得联盟有了统一的协同运管平台,帮助实现数据价值的发挥。
数据资产运营工具帮助实现一种小联盟的数据父易市场,通过前述各项技术保障数据运营过程安全、可控,并拥抱政府监管。
这一方面可以让数据在小范围内通过商业协作模式优先流动起来,而不受限于确权、评估、定价等诸多一时还难以厘清的各种因素的限制;
另一方面通过数据运营工具可以快速构建相对标准化的数据交易联盟,帮助形成多层次的数据要素交易市场,从而有利于更大规模数据要素市场的形成。
数据资产运营工具有如下四个优点。
(1)灵活部署
数据资产运营工具支持多种灵活的部署方式。数据资产运营一体机支持独立部署,开箱即用,具有超高安全防护性能,并且数据不出域,数据可用不可见。数据资产运营工具支持以SaaS方式快速弹性部署,成本低,可以快速高效应用数据资产管理工具。数据资产运营工具同时还支持数据集市级联操作,可满足数据渠道运营商在多个数据集市之上构建数据联盟的需求,尤具是跨行业的数据集市,更能够激活数据要素市场。
(2)低代码易操作
数据资产运营工具采用灵活的1+N自助式模块组合,用户可以基于数据集市或市场中接入的标准数据和内置的多种数据计算组件,根据实际场景需要,自由拖拽组合成满足定制化需要的数据产品或服务,实现数据产品或服务快速上架和使用。
(3)多维度数据资产管理
数据资产运营工具通过数据资产目录清晰地描述数据资产,拉通业务元数据和技术元数据,同时面向数据开发人员和数据使用人员,帮助数据管理员轻松地管理与运营数据资产,实现资产可视、可找、可用、可运营。
(4)全域数据安全保障
数据资产运营工具通过租户隔离、细粒度数据权限、数据加密、分级分类管理等安全技术手段限定数据非授权访问,保证数据隐私合规、可审计、可回溯,为企业的数据共享和应用保驾护航。
7.5.2 数据资产运营实施流程
数据资产运营涉及多个主体,除数据需求方和数据供给方外,还包括授权运营方、监管授权方和第三方机构。运营过程包括准备、授权、上架和交易四个环节。
随着数据要素市场的规范化,数据交易流程也越来越标准化。数据交易不同于商品交易,数据交易需要场景,并且要确保数据的使用和访问要受到监管,所以存在分类授权运营商。上海数据交易所提出“无场景,不交易”。数据交易场景化是在数据资产运营过程中不可回避的问题。
数据交易所场景下的数据资产运营流程如下。
数据交易所场景下的数据资产运营流程
①数据需求方发起需求,数据供给方准备数据资源,监管授权方完成数据确权和数据登记。数据确权和登记过程也可以通过区块链网络完成。
②分类授权运营商汇聚数据场景需求,结合现有数据资源供给,输出数据交易场景方案。如果数据需求无法被直接满足,还需要继续寻找数据供给方,直到满足场景数据要求。
③场景匹配成功后,监管授权方授权分类授权运营商运营指定场景。分类授权运营商基于场景需求,搭建授权运营环境。第三方机构可以为运营环境提供运营环境技术支持。
④授权通过后,数据产品上架,上架过程接受监督授权方的监督。数据产品上架需要符合数据交易所的交易规范,可以自建或由第三方机构支撑数据产品开发和上架。
⑤数据产品达到上架条件后,可以上架数据集市或者数据交易所开展数据产品交易,交易过程接受监督。在数据产品交易过程中,还存在按需定制情况,也可由第三方机构支撑数据服务过程。
相比数据交易所的数据运营流程,在数据集市场景下,运营实施流程还可以相对简化。
一方面,因为数据集市是基于联盟构建的专用数据市场,主要基于参与主体之间信任共同构建,具备信誉基础,数据运营流程可以简化。确权和登记流程只需要基于可信第三方或者区块链基础设施即可,数据授权环节可以极度简化,监管过程主要是做好相应的记录即可快速进行数据交易。
另一方面,数据交易场景可以相对模糊。在数据要素市场构建早期,数据需求和数据供给的目标并不充分,数据价值化的场景还需要慢慢探索,很难基于现有数据就构建出一个有明显价值的应用场景。借助数据资产运营工具,可先通过数据集市完成数据市场的构建,并慢慢探索数据应用场景,等到应用场景被验证后,再逐步标准化,进而走入正规数据交易所的建设。
7.5.3 数据资产运营核心价值
数据资产运营工具的核心价值是构建了一种多层次数据集市模型,提供了一种类似跳蚤集市的数据资产变现途径,从而帮助形成了多层次的数据交易市场,为最终数据交易所的建立打下坚实的交易基础,形成了一个巨大的数据要素交易网络。
基于数据资产运营工具,各行业核心企业可自由搭建本行业数据联盟;数据联盟成员使用数据资产管理工具在内部完成数据资产确权,并在行业数据联盟的集市上发布数据资产目录,构建安全可信的数据交易共享通道。
数据资产运营集市场景
数据联盟由数据提供方(卖方)、数据需求方(买方)、数据服务商(数商)和数据经纪人(经纪)共同构建一个行业联盟。基于多层次的数据集市模型,可实现不同联盟之间的数据互通,借助数据资产管理工具提供的能力,可实现数据位置无感的高效交易。
第三部分 数据要素价值发挥的实践
第八章 钢铁行业数据联邦应用
中国是全球最重要的钢铁生产和消费大国,钢铁作为重要的基础性制造业,其发展关系到国计民生诸多方面。中国上一轮基础设施建设的红利,使得众多钢铁企业把主要精力投入到了生产产量上来,而对精益化生产和智能化生产关注有限。在房地产等基础设施建设下行的今天,钢铁行业面临营收和利润双下降压力,而高质量发展和中国式现代化建设,又对钢铁行业提出了新的发展要求。同时,随着数字经济在国民经济中的占比逐步增加,钢铁行业的数字化占比也在逐年增高,传统钢铁行业正面临着比较大的转型升级考验。随着我国经济结构调整和人口出生率的变化,未来钢铁行业必将向着少人化、无人化和智能化的方向发展。
钢铁行业有其生产的特殊性。
一是大部分工作处千高温高尘环境下,工作强度大,对工人身体素质要求高;
二是钢铁行业很多岗位都需要经验累积,比如铁水扒渣、结晶器添加保护渣等岗位,而随着大量“老师傅”退休和年轻工人越来越少,这些经验面临失传的风险;
三是钢厂体积庞大,建厂受到诸多限制,这使得钢厂很难像汽车流水线工厂那样有着标准化的生产环境。
这些因素都导致钢铁行业对人的依赖更强。
国家双碳战略也在深刻地改变着钢铁行业的生产模式。钢铁行业最重要的任务之一是减少3D(Dirty,脏;Difficult,累;Dangerous,险)岗位需求。令人兴奋的是,2020年宝武钢铁集团入选世界经济论坛“灯塔工厂”,从冷轧厂“黑灯车间”起步,无人化生产方式在宝钢多个生产环节被复制。
四川日报数字版2023年3月20日《上千台机器人活跃在脏累险岗位》
当前钢铁行业数字化、智能化正在大步迈进,越来越多的机器人开始在重要岗位取代人上。具备“老师傅”的工作经验是对机器人的基本要求,尤其是老师傅们以惨痛代价获取的错误经验。机器人需要通过正负样本的数据训练才能胜任,由此催生出优秀的信息服务商。信息服务商通过经验数据积累,可以在理论上形成完善的智能化解决方案。然而,在具体实践中,机器人的模型优化受限于数据样本体量,精度提升困难,其中主要原因是受到网络条件限制和信息安全方面的顾虑,无法实现跨园区的在线学习。
本章针对钢铁行业数据联合动态训练难的问题,基于可信数据空间技术,综合运用区块链、隐私计算、分布式协同等技术,构建钢铁行业数据联盟,实现钢厂之间“数据可用不可见、可控可度量”的联合建模。基于特定业务场景,通过联合建模方式共享经验数据,扩充钢厂训练数据样本集,不断优化机器人在特定业务领域的决策模型,使得机器人“新师傅”青出于蓝而胜于蓝。
8.1 钢铁行业负样本数据缺失
8.1.1 行业发展概况
中国钢铁行业当前面临矿石资源保障程度低、产能过剩突出、技术创新能力有待提高、绿色低碳改造进程有待加快等突出矛盾与问题。除此之外,钢铁行业还面临业绩和利润压力,同时还需要与“双碳”目标对齐,面临内外多重压力。
近年来,钢铁行业积极推进数字化转型,取得了不错的成绩,也催生出一批钢铁行业的信息化服务商。随着机器人在钢铁产线上广泛取代人工,钢厂内部的节能减排与效能提升也慢慢地进入了瓶颈期。
为提高钢铁企业生产效率,实现信息互联,这些年,很多钢铁企业加快了工业互联网建设。然而,钢铁行业因网络安全、数据安全和控制安全, 对工业互联持保守态度,一般情况下还是以钢厂或者集团公司为单位实现内部互联,远没有达到行业的工业互联。
数据要素概念的提出和数据资产入表为钢铁行业带来了新的发展机遇。数字经济的发展对当前钢铁行业至少存在三大利好,
一是钢铁企业已经积累了大量工业数据,数字化基础扎实, 稍加处理即可释放数据价值;
二是钢铁企业经济规模大,微小的数据优势就可以带来极大的经济价值回报;
三是钢铁行业企业集中度相对较高,数据联合建模需要花费的成本可控,投资回报率(ROI)较高。
数据要素带来的数据内在价值和数据广泛互联后产生的附加值,足以构建一个广泛的工业数据互联网。
8.1.2 行业数字化痛点
钢铁行业收获了早期信息化投入的回报,然而后续优化动作的投入产出比不断下降,因此行业的进一步发展需要依赖新的科技创新来驱动。当前大量的机器人、闭环自动控制系统已经通过人工智能提升了生产效率,减少了3D(Dirty,脏; Difficult,累;Dangerous,险)岗位需求,降低了三废排放。然而,在传统的“老师傅”岗位上,机器人还需要大量的样本训练,才能达到相同甚至更高的水平。另一方面,如何对关键设备做到自动调节和预测性维护,避免生产事故并降低产品不良率,也是当前钢铁行业数字化需要解决的问题。
当前钢铁行业机器人等自动控制系统的精度面临如何进一步提升的困难。自动控制系统需要通过已经被训练好的神经网络模型完成计算,基于模型输出控制决策,而已被训练好的模型一般需要在线或离线训练,这个过程离不开“老师傅”的协助。
下面以炼钢的扒渣为例说明人工智能在其中所起到的作用。铁水脱硫是炼钢的第一道工序,传统扒渣依靠人工操作,容易出现铁损严重、扒渣过度或欠扒等情况,从而影响炼钢质量。
在人工扒渣环节,工人需要盯着1400多度的铁水液面,这既容易产生视觉疲劳,也容易对眼睛造成伤害,导致工人们在操作过程中失之精准。
镭目公司的一键脱硫系统(自动脱硫+自动扒渣),通过人工智能和智能控制结合,实现了远程脱硫和扒渣,并通过评估进站铁水质量,智能计算最优脱硫剂配比;结合渣面评估功能,自动控制扒渣机按计算路径执行扒渣工序,实现了高质量低消耗脱硫生产。
自动扒渣系统在工作中
在上述过程中,人工智能模型是基于“老师傅”经验不断训练样本来实现自动化操作的。目前这套自动扒渣系统,通过高清图像自动分析铁水液面钢渣表面情况,控制机智人反馈控制完成自动扒渣操作,自动扒渣效率超过人工操作10%以上。
上述基于机器视觉的人工智能应用通过一家钢厂收集足够多的正样本数据就可以完成模型训练,但基于人工智能的故障预测就需要足够多的负样本数据了,而一家钢厂的负样本数量很有限,难以独自完成模型构建。
目前此类系统一般基于钢厂或钢铁信息化公司积累的负样本数据完成建模,虽然取得了不错的进展,比如漏钢预报、连铸表面缺陷在线检测等系统已经上线运行,但是上述系统目前以离线运行居多,在故障预测方面,因为缺乏负样本数据,系统精度提升困难。系统因安全问题离线运行,也导致了模型难以继续优化。这是当前钢铁行业在智能化方面面临的核心痛点。
8.1.3 可能的解决方案
针对上述核心痛点,需要解决两个方面的问题。
一是垂直方向的优化,由设备厂商提供在线解决方案。目前5G技术已经相当成熟,可以实现特定设备的工业互联网,从而解决负样本数据不足的问题。垂直方案等同于通过设备厂商完成设备联网和数据的集中,实现设备优化。但钢厂建设一般采用集成方案,很难让设备独立联网,尤其是关键设备,需要接入内部控制系统。
另一个方向是钢厂之间工业互联,实现多个钢厂之间的网络互通,并由此构建数据互联通道,以解决负样本不足的问题。但这个方案依然存在数据的安全问题。
基于安全可信数据流通技术,在确保数据安全的条件下实现联合建模,是目前既可以保障钢厂数据安全,又能够解决负样本数据不足、不能在线训练推理应用的问题。通过安全可信数据流通技术,构建钢铁行业数据联盟,基于应用场景实现联合建模,提升智能化效率和精度,可为钢厂带来直接经济效率。
8.2 行业数据联盟与联合建模解决方案
8.2.1 行业数据联盟建设思路
钢铁企业信息化系统一般与互联网物理隔离或位于多层防火墙后面,不允许外部直接访问,而为实现联合建模目的,又需要实现钢厂之间的互联。行业数据联盟目前还属于早期建设和发展阶段,不同于已经开展合作的产业链上下游企业。行业数据联盟早期会员以兄弟公司、市场竞争相对较弱的同行组成,而且基于钢厂负责人之间的信任关系构建。只有通过数据互联实现价值创造产生收益后,行业数据联盟链才会不断扩大,最终形成真正意义上的行业数据联盟链。这是一个循序渐进的过程,也是数据要素催生的一种新型数据合作模式。
行业数据联盟以区块链为底层信用基础设施,并以可信数据空间为载体,形成以数据价值共享流通为目的的数据联盟网络。在钢厂的DMZ(非军事化区)部署区块链节点,组成钢铁行业数据联盟链。区块链节点分为共识节点和观察节点,不同的钢厂可以选择不同的部署方式,共识节点要求钢厂可以相互访问, 需要开放外围可访问端口。在区块链之上构建优享可信数据空间,提供数据资产化和资产服务化能力,为行业联盟成员提供数据联合建模和其他数据增值服务。优享可信数据空间由数据安全网关、计算节点(可支持CPU、GPU型算力)、区块链节点和分析型数据库等构成。钢铁行业数据联盟建立后,联盟成员可以自组织进行联合建模,也可以实现对相关数据的联合使用。例如A、C、D钢厂联合训练一个特定模型,A、D或C、D钢厂也可以联合训练另一个模型。优享数据空间实现数据访问过程中的数据安全、计算和控制,保证数据价值安全地在联盟之间流动。
钢铁行业数据联盟示意图
联盟构建后,还需要完成数据对接,数据才能真正流动起来。为此,本方案融合了区块链、隐私计算与联邦学习技术,基于优享可信数据空间构建了钢铁行业数据服务体系,用人工智能组件完成了钢厂数据的智能优化。如何说服钢铁企业负责人愿意贡献数据呢?除了行业数据联盟的承诺,还需要通过技术手段让他们看到数据的实际使用逻辑和可控的确定性,并附带严格的数学证明。同时,通过优享可信数据空间,钢厂负责人可以直观地看到数据接入、处理、发布、访问、检查等各环节的操作,以看得见的安全,让企业负责人相信联合建模安全可行。
8.2.2 钢铁行业数据联合建模方法
基于行业联盟链,采取抱团式的数据联合建模,是联盟可以实现联合建模的最优方案。钢铁行业数据联合建模架构有别于独立钢厂的数字化和智能化架构,是基于联邦学习的思路,并采用联合隐私计算和分布式协同计算方式实现的联合建模架构。联合建模建立在区块链构建的信任基础之上,通过提升自身数据价值挖掘能力,联盟成员均可以获得联合模型的综合性优势。
联合建模架构基于行业数据联盟链、优享可信数据空间和钢铁数据服务平台,提供联合建模数据服务。钢铁数据服务平台主要提供行业联盟的数据集市和钢厂之间的网络中转,同时内置了一个优享可信数据空间,使得中心化平台也可以完成联合建模,这对由行业联盟发起的建模任务具备较好的中立性。优享可信数据空间内置了近100种算法组件,包括支持密态联邦建模组件,并提供“一张图”的数据加工设计和分布式执行引擎。通过钢铁数据服务平台联合建模的一种架构。优享数据空间部署到不同的钢厂,对接生产数据,通过数据共享通道连接钢铁数据服务平台。
钢铁数据联合建模业务流程图
钢铁数据服务平台基于数据分析、故障预测、维护服务等需求发起数据建模流程,如果建模流程需要使用不同钢厂的数据源,则需要经过钢厂管理员同意方能执行。数据建模过程中建模流程对钢厂原始数据的访问、模型训练过程均在钢厂内部的优享可信数据空间的数据安全网关中执行,数据安全网关接收算法和密态模型数据,输出结论或完成新一轮运算的模型,最终在数据服务平台完成数据模型的融合。数据融合后,各方获得融合后的模型,可用于钢厂的自动控制、故障预测等生产活动。
在上述应用场景中,优享可信数据空间除实现数据联盟的联合建模外,还需要完成一部分业务数据操作任务,包括数据采集扩容、内部数据建模、内部数据服务等工作。业务数据化之后就是数据资产化,该过程需要完成数据收集、整理和分析,再通过资产化服务,才能获取更大的数据要素价值。优享可信数据空间可集成超融合数据中台能力,提供常见工业应用场景的数据采集、存证、数据计算等服务,在区块链数据全程可追溯和不可篡改的基础上,打造融合IOT、云计算、大数据和人工智能等技术的工业数据服务中台,为数据联盟各参与方构建起数据服务基础设施,为上层应用提供数据存储、分布式计算、机器学习等数据服务,并提供数据计算开发和数据共享服务,形成数据“共建共享”“越用越优”的数据开发服务能力,助力钢铁行业数字化转型,提升信息化服务能力。
在特定钢厂部署实施的工业数据服务平台。这种部署方式不仅需要完成数据联合建模,还需要通过底层机器人完成数据采集与控制、第三方业务系统数据对接、工业设备数据采集等工作,再将相关数据接入到系统平台层。然后,基于汇聚的数据完成上业数据资产库建设,形成数据资产目录。通过数据资产目录,结合数据工厂架构,完成钢厂内部数据治理和可视化数据建模服务。最后通过标准化的数据资产目录发布数据资产服务,向内输出数字化能力,向外安全输出数据价值。
在特定钢厂部署实施的工业数据服务平台
在完成内部数据资产化和数据服务化之后,作为数据要素价值挖掘方式之一的数据联合建模,才有可能满足联盟成员的需求。钢铁行业数据服务平台提供了可信数据集市服务,优享可信数据空间参与到数据集市的交易过程中,等同于连接并集成了数据需求方和数据提供方。在联盟场景下,钢厂既是数据需求方,也是数据提供方。数据模型的加工过程如钢铁行业数据服务联合建模流程所示,两个优享可信数据空间通过隐私数据传输通道完成联合建模。
钢铁行业数据服务联合建模流程
具体来说,数据提供方通过优享可信数据空间的数据安全网关发布数据目录到钢铁行业数据服务平台的数据集市上; 数据需求方通过积木式低代码数据产品加工模块完成钢铁行业数据模型算法的开发;数据需求方订阅数据目录(数据联盟相互订阅对方数据),数据提供方通过优享可信数据空间审核数据产品加工任务;优享可信数据空间按联合建模需求完成安全计算,最终形成优于各方独立建模的一个新的公有模型。通过联合建模,可以做到每一个参与方在不泄露自有数据的情况下,安全获得联合建立的模型。
钢铁行业数据服务平台在联合建模过程中,除了承担数据集市的功能外,还承担了隐私数据安全传输的职能。比如,优享可信数据空间基于安全通讯引擎,构建了一个安全的代理机制,使得数据空间在联合建模过程中,双方都只需要访问这个数据服务平台(已知联盟网络内IP地址),而无需对外开放网络端口。
基于优享可信数据空间完成联合建模需要符合业务流程。首先钢厂通过优享可信数据空间发布数据资产目录,该过程会自动构建智能合约,记录合约发布和后续订阅、审批、访问等环节的操作,然后平台完成算法开发,并订阅钢厂隐私数据。各钢厂基于访问数据权限、算法建模的意图和算法流程进行审批,审批完成后联合建模即可运行,最终形成两个钢厂数据联合构建的模型,该模型在数据量和数据维度上都优于各钢厂独立训练的模型。
8.2.3 钢厂数据安全保护方案
钢厂数据联合建模的过程离不升必要的安全保护措施。本方案中的安全措施主要包括三个方面:
一是基于区块链构建的可信联盟,并通过优享数据空间共同构建了一个“看得见的安全”的机制;
二是基于隐私计算构建的密态联邦联合建模,在保护原始数据安全之外,还提供了模型安全;
三是基于中间代理的数据空间通信引擎,使得数据空间在防火墙后面依然可以完成数据安全建模。
(1)基于区块链机制的安全可信
区块链的核心能力是把对特定人的信任,用一种程序化和算法机制,转化对系统和体系的信任,由此构建了一个可信的数字空间。数据联合建模涉及数据安全、算法安全、数据可信三个维度,在不能同时满足三个维度的安全时,就需要某种信任机制来保障过程安全。而区块链恰好解放了对人的信任,将原来对具体人的信任转移为对系统和机制的信任上来。区块链通过时间戳定义了数字世界与真实世界的交汇点,从而为多源数据联合发挥价值提供了可能。优享可信数据空间将数据资产化的过程用智能合约表示,将发布、订阅、访问、修改等过程与链下数字世界绑定,再通过时间戳和物理世界绑定,从而构建了一个数据可信空间。
除了区块链本身能够确保的可信,数据可信空间还需要提供“看得见”的可信。看得见的可信包括了三个方面的内容:
一是数据不出域,数据安全网关基于智能合约实现安全访问,并通过数据访问存证和可视化,让安全看得见;
二是控制权永远在钢厂,数据使用单位、数据加工、数据可见范围均以可见方式呈现给审批人员,且随时可关闭;
三是数据使用过程清晰可见,数据使用、拦截、阻断等操作均通过可视化图表展示,并自动稽核已审批流程,数据安全一览无余。
(2)基于隐私计算的可证明安全
隐私计算是可在数学上证明其安全的诸多协议的统称,例如同态加密、联邦学习、安全多方计算。联邦学习是把原始数据用模型来表示,并基于模型完成训练任务,已经具备一定的安全性,但依然存在针对模型攻击而导致的源数据泄露风险。基于隐私计算的密态联邦目前还处于研究早期,在性能方面还难以满足实用性要求。联邦学习中具备实用型树算法的XGBoost已经广泛用于数据科学领域。基于XGBoost改进的密态联盟算法,比如SS-XGB,是基于秘密分享(Secure Share)的一种实现形式,具备可证明安全。蚂蚁开源了基于纵向的联邦算法SecureBoost(SGB),该算法在性能方面比SS-XGB高不少,但在安全假设方面不如SS-XGB。虽然SecureBoost不具备可证明安全性,但采用了可证明安全的同态加密来保护标签数据,使得关键的标签数据依然安全。
除密态联合建模外,基于可信数据空间的隐私计算还为联盟成员间的数据共享和融合计算提供了隐私集合求交、隐匿查询、联合统计等功能。隐私计算基于底层密码学机制,为联盟成员提供了可证明的安全性。当前,为了提高计算效率,研究人员通过优化并放弃一部分安全性,比如SGB算法,可以换来一个具备实用性的效率提升方案。
(3)基于安全通信引擎的网络空间安全保护
钢铁行业联合建模不可回避的一个问题就是网络空间安全。优享可信数据空间将钢铁行业数据服务平台作为信息中转站,建立了安全通信引擎,使得数据空间在联合建模过程中不需要对外开放任何网络端口。通信引擎采用gRPC协议(基于HTTP2的),联合建模过程受到防火墙的保护和监管。
安全通信引擎在联合建模过程中,除承担了数据集市的职能外,还具有隐私数据安全传输的功能。比如,参与训练的两方均在各自防火墙的防护下,优享可信数据空间无法为两方直接建立起网络连接,而开放网络端口对钢厂又存在较大的风险。为此,钢铁行业数据服务平台为优享数据空间构建了一个安全代理机制,这样数据空间在联合建模过程中,在已知联盟网络内IP地址的情况下都可以访问这个数据服务平台。
8.2.4 钢厂数据建模成果应用
对大型的钢铁企业,钢铁生产工艺流程主要有前期的焦化、烧结、球团、高炉炼铁,在炼钢阶段主要有转炉、精炼炉、连铸、轧制,以及轧制成品的后续处理阶段。现阶段人工智能在钢铁行业应用面临的均是生产过程中的难点和卡点间题,优化处理的难度较大,如炼钢阶段浇钢、结晶器震动、扒渣等环节的经验沉淀, 如废钢分拣识别、连铸表面缺陷检测、结晶器加保护渣等环节的检测和预测。内嵌优享数据可信空间的钢铁行业数据服务体系,与镭目公司相关系统一起,构建了相应的数据解决方案。
(1)数据建模成果在废钢智能判级中的应用
废钢回炉是推动资源再利用的重要措施,也直接可以提升钢厂的收益。镭目公司废钢智能判级系统采用先进的图像检测算法,结合大数据建模和密度回归曲线,研制了智能检测盒, 智能检测盒可以准确、快速、稳定地监测每一车废钢的料型、厚度、尺寸,汇总出整车废钢等级,极大地解决了当前人工废钢评级不准确的问题。镭目公司为满足客户对整车废钢边行高精度识别的需求,通过在钢厂部署摄像头,并在钢厂内部完成废钢判级的人工标注,形成了钢厂自己的废钢经验数据。早期,因为标注数据有限,现场环境差异大,人工智能系统难以达到要求的判级标准。在多个项目之后,系统在多个钢厂积累了一定量的分析师标注数据和环境差异性数据,但这些数据还无法直接汇聚。
优享可信数据空间打通不同钢厂的标注数据样本,通过联合建模,使得整车废钢判级识别率标准精度达到了90%。与此同时,在现场人工经验的指导和训练下,单点项目在实施一年后已经可以达到95%的精度。模型精度越来越高,现在项目上线即可达到90%以上的精度。目前该系统已经在19家钢厂中应用,采用该系统的钢厂实现了完全无人化自动判级。
(2)数据建模成果在连铸表面缺陷在线检测中的应川
镭目公司连铸表面缺陷在线监测系统运用机器视觉、机器学习、模式识别技术,获取连铸板坯表面图像,分析和识别表而图像缺陷,并判定缺陷类别,进行准确定位,生成缺陷报表,利用相关的判定规则,对产品质量进行判定。虽然因为负样本数量不足,早期产品模型的识别率一直不高,常见缺陷的识别率和检出率也比较低,难以满足生产要求。
优享数据空间与客户联合建模,通过贡献大量纵裂、夹渣、重接、划伤、毛刺、凹陷、异物压入、切伤等照片,使得建模的精度显著提升,目前常见缺陷检出率大于95%,常见缺陷识别率达到了90%。
8.3 钢铁行业数据流通价值体现
联合建模吸收了分散在各钢厂的数据,将这些分散的数据汇聚成一个对特定领域有较大贡献的模型,为行业联盟成员带来了生产效率的提升。在经济效益方面,合作伙伴镭目公司冶金市场占有率达到85%。钢铁智慧制造业业务近两年增幅达到28%,人工智能模型精度平均提高了5%,钢铁企业成本降低达l00亿元。在社会效益方面,通过入工智能优化,确保了零安全事故,做到了零污染物排放,碳排放量减少了10%, 3D岗位减少了85%。
(1)数据汇聚提升行业整体水平
从上面的案例我们可以清晰地看到,数据的汇聚显著提升了模型的精度。行业数据联盟接入的钢厂越来越多,越来越多行业积累的知识就会沉淀到共有的模型中,这个领域的知识也会变得越来越丰富。行业数据共享和流通为我们带来了更为丰富的数据资源,这使得模型能够更全面地了解和掌握行业的知识,从而显著提高模型精度。行业数据联盟也让行业内的知识和经验得以更好地共享和传承。这种方式还为整个行业的发展注入了新的活力,使得每个钢厂都能够在竞争激烈的市场中具备更强的竞争力,同时也推动了行业整体的创新和发展。
(2)钢铁行业数据服务能力得到拓展
随着人工智能和大模型技术的飞速发展,钢铁行业的数据服务能力将会实现全面的提升,服务领域也将得到极大拓展。
数据联邦的构建将不仅仅局限在联合建模层面,更将深入到数据要素可服务的每个领域,包括供应链的高效互通和更广泛的工业互联互通领域。这一能力的拓展,将带来更为巨大的服务能力提升和更广泛的价值创造。具体来说,数据联邦的构建将借助先进的算法和模型,完成海量的钢铁行业的数据有效整合、内容分析和价值挖掘。这也将帮助钢铁企业更好地理解市场需求、掌握原材料供应情况、优化生产流程、提高产品质量并降低运营成本。同时,数据联邦还将为供应链的各个环节搭建起高效的互通桥梁,使得供应商、生产商、物流企业各方能够实时共享信息、协同作业,进一步提升供应链的效率和灵活性。
更广泛的意义上,数据联邦将推动钢铁行业与其他相关行业的深度融合和互动,形成更加紧密的产业生态圈。这将为钢铁企业提供更多元化、更个性化的服务,例如市场预测、客户行为分析、生产计划制定,从而为企业创造更大的商业价值。同时,数据联邦还将通过不断优化算法和模型,提高自身的智能化水平和服务能力,为钢铁行业的发展注入更多的创新活力和竞争力。
8.4 钢铁行业数据要素价值展望
8.4.1 钢铁行业数据价值化带来的新机遇
在实现数据资产化之前,钢铁行业主要通过数字化技术帮助钢厂实现节能减排,提质增效。在数据要素价值带来的巨大机会面前,钢铁企业数据蕴含的内在价值也应该被充分地释放出来。南方钢铁的“数智战略”已经收获了数字化带来的红利。
2021年,南钢提出以“数据”为核心,通过业务数字化、数据资产化、资产服务化、服务产业化等“四个转变”,驱动业务效率提升和生产模式创新。数据资产化是内部视角,资产服务化和服务产业化是产业链视角,这是内生数据价值发挥的早期。南钢还提出以“一切业务数字化,一切数字业务化; 产业智慧化,智慧产业化”为目标。对钢厂面言,已经准备好的数据资产应该像“不会损耗的石油”一样,能够精炼出不同的数据产品,这些产品不仅可以服务于产业链上下游,还可以服务于金融、保险、期货等其他行业。
8.4.2 钢铁行业数据建模竞争带来新挑战
钢铁行业数据联盟帮助所有联盟成员实现了模型共建共享,等同于联盟成员在技术方面的优势被拉齐。虽然可以通过激励机制设计,使得拥有更多数据的钢厂从数据中获得更多利益,但相比同行通过模型精度提升所带来的竞争威胁,数据带来的边际价值增加可能还远远不够。
原来钢厂之间的竞争主要是工艺水平方面的竞争。在数字化应用开始落地之后,钢厂还可以通过信息不对称获得竞争优势。但在数据充分流动后,钢厂原有的信息不对称优势将很难存在,竞争将会有更高的维度上展开。因此,数据流动不仅仅创造了数据的价值,同时还会倒逼钢厂打造更高更新维度的竞争优势,从而在整体上提高钢铁行业生产水平。
第九章 工程机械供应链管理协同
数据作为新型生产要素,已经全面融入生产、流通、分配、消费和社会服务管理各个环节,深刻地改变着生产和生活方式。在工业互联网领域,数据的重要性愈发凸显,其应用空间越发广阔。在供应链场景,数据赋能的应用越来越多。企业不但需要与其向上游供应商交换数据以优化业务模式,也需要与下游客户企业交换数据以精准匹配客户需求,扩大生产规模。通过打通产业链上的全链路数据,实现供应链上下游企业的互联互通,可以大幅提高整个产业链的效能。
作为制造业产业基础的工程机械行业,一直致力于制造技术与数字技术的融合发展,并已建立起相对完整的信息化和自动化体系。该行业制造过程涉及大型设备和复杂的生产流程,覆盖了从零部件制造到整机装配、物流运输和售后服务等多个环节,并形成了包括制造商、供应商、物流服务商、经销商和最终用户在内的供应链体系。
传统的供应协同管理主要依赖于核心工厂和上下游企业构建的点状协同网络,但这种模式始终存在一些难以解决的问题。
首先,供应链上下游企业相互缺乏信用保证,增加了供应商的采购风险。
其次,工业数据较为零散,供应链各环节比较广泛地存在数据孤岛现象,导致数据无法准确、及时共享。
此外,工业数据敏感性高,即使企业有互联互通意愿,该意愿在实际工作中也难以实现。
针对工程机械行业供应链跨企业协同难的问题,我们结合区块链技术和可信数据空间技术,构建了一个在确保数据安全可信情况下系统互联互通的数字化产业链平台。该数字化产业链平台可以促进工业数据在产业链内的流动,实现数据的可信共享和可控共享,帮助供应链上下游企业实现生产高效协同和资源的优化配置。进而提高产业链协同效率和数据管珅水平,进一步释放产业链数据要素价值,推动整个工程机械行业的可持续发展。
9.1 工程机械供应链跨企业协同难
9.1.1 行业背景
工程机械是中国机械工业的主要支柱产业。按照中国工程机械工业协会统计分类,工程机械可以分成铲土运输机械、扢掘机械、起重机械、工业车辆、路面机械、压实机械、凿岩机械、气动工具、混凝土机械、桩工机械、市政工程与环卫机械、装修机械、钢筋及预应力机械、线路机械、军用工程机械、电梯与扶梯、专用工程机械、工程机械专用零部件等十八个大类。工程机械位列高端装备制造业,对投资规模和技术水平要求都非常高,但其却是多品种、小批量生产,属于技术密集、劳动密集、资本密集型行业。该行业同时是典型的强周期性行业,在产品销售上呈现明显的周期性。
《2023-2028年中国工程机械行业发展前景分析与投资策略分析报告》。
我国具有一定规模的工程机械生产企业2000家左右,也有数家企业名列全球10强。近些年这些企业信息化和自动化程度越来越高,但内部管控和优化所取得的效果却越来越有限,因为诸多环节涉及到产业链的上下游,已经很难通过管理和单一的信息化手段实现进一步的提质增效。为巩固和优化信息化系统建设成果,需要在供应链协同、产业链上下游质量管控、产业协作方面构建以核心企业为关键节点的上下游产业链协同机制,重点解决供应链企业之间协同问题,打通上下游供应链企业信息协同通道,提升企业核心竞争力, 优化供应链结构。
在工程机械行业,供应商管理、质量考察和质量评测需要耗费企业大量时间和精力。通常情况下,只有企业与供应商经历多次合作后,才能建立起相对稳固的合作关系,这对协同效率产生了巨大影响。这个问题的根源在于产业链上下游由于信息不透明而带来的高信任成本,高信任成本又进一步带来了协同困难。在供方选择、质量保证、交易结算等环节存在的信息不对称,也进一步影响了行业整体效率的提升。此外,由于供应链上下游企业没能实现信息和数据互通,导致供应链中流通的产品无法进行全生命周期管理,这不仅导致产品售后服务困难,而且也导致产品使用和服务成本均居高不下。同时,由于缺乏足够可信的数据和证明,银行对工程机械行业小微企业的贷款覆盖率较低,这对企业的新技术研发和产能扩大也产生了负面影响。
9.1.2 跨企业协作痛点分析
工程机械从生产制造到售后服务,都需要实现跨行业、跨地域合作。目前,该行业供应链跨企业协作存在的痛点问题,主要表现在供应链上下游企业在协作时可信度较低、产品研发协同安全性不足以及质量协同存在阻碍。
(1)供应链跨企业协作难
供应链上下游企业存在相互依赖和协作关系,但同时也存在由于信息不对称而导致的信任问题。
首先,不同企业掌握的市场需求、生产能力和质量标准等信息的差异性是导致供应链协同管理难的原因之一。由于存在信息不对称,一些企业可能无法及时获取供应链上其他企业的相关信息,从而无法对整个供应链的运行状况做出准确评估。这种情况往往会导致个别企业对行业发展判断失误,进而使得整个供应链的协同运作受到影响。
其次,在市场需求波动、资金链紧张的情况下,部分企业可能会面临经营困难、付款延迟或拖欠等问题,无法及时履行合约义务。这些问题的出现不仅会破坏供应链上下游企业的信任关系,而且还会影响到其他企业的正常运营,进而导致整个供应链的协同运作受到影响。
再次,如果供应链中某个环节的企业未能按时交付产品或提供服务,或者提供的产品或服务质量不符合要求,还会带来信用风险。这种情况不仅会影响到一个企业的正常运营,而且还会影响到整个供应链的协同运作。
除此之外,一些企业的欺诈、虚假宣传、不诚信经营等行为,也会破坏供应链中的信任关系。这些不良行为不仅会影响到其他企业的正常运营, 也会影响到整个供应链的协同。
供应链协同管理是上下游企业通过共享信息进而实现流程优化和决策协同,再进而实现整个供应链高效协同运作的一种管理模式。然而,在实际操作中,不同环节上的企业存在的信息不对称和信任问题, 给供应链的协同管理带来了不小的挑战。这些挑战至少有以下几个方面的表现。
一是供应商产品质量无法得到新客户的足够信任,重复检、反复检时常出现,极大提高了交易成本,延缓了供应链流通效率;
二是客户无法快速准确匹配到满足需求的可信供应商,供应商寻源效率低;
三是客户选择供应商时无法及时有效地获得企业的基础情况和业务情况,信用构建困难;
四是供应商无法有效证明自身产品质量和客户真实数据,优秀产品在行业内营销推广难度增加,提升了营销成本;
五是供应商申请贷款流程复杂,缺乏客户有效数据支撑,链主企业也不愿意提供担保,银行等贷款机构信息确真速度慢、效率低,影响资金使用效率。
(2)产品研发协同难
产品研发涉及企业内部和外部的高效协作。工业设计与制造涉及到外部供应商、内部不同研发设计团队、外部设计团队、客户和潜在客户等众多主体。在多方协作过程中,对设计图纸、工艺文件、合同、质量报告、测试报告等过程文档的管控是一个巨大挑战。这些文档是企业智力资产的代表性成果,凝聚着企业的努力与心血,是企业核心竞争力的关键组成部分。在以设计和制造为核心工作的企业中,图纸等设计和制造文档通常在独立架设的物理隔离网络中流转。外部协作团队、供应商、潜在客户、销售代表等主体均只能在企业网络之外访问企业核心机密文文档,缺乏有效手段将外部协同过程用一种安全、方便、可管控的方式管理起来。如果设计和制造工作需要同外部企业或内部其他工作人员协同,就需要配备专职管理人员,并配备相应的流程或软件系统进行严格管控。由于管理不善、管控不严,以及外部客户疏忽,经常出现关键图纸出现在打印店,甚至被公布在互联网上,极大地影响了企业核心竞争力。
企业为保护设计、工艺等企业秘密,在企业内部可以通过设计物理隔离的安全区,并配备专岗实现研发到办公的管理,但在互联网办公区用上述办法就难以实现管控了。对互联网办公区目前一般采用落盘加密、屏幕水印的方式实现企业内部安全。然而,在与企业外部团队产品研发协同时,上述安全机制也将难以保障企业秘密。纸质文件按规定无法随身携带;即使允许随身携带,但文件外发后无法进行安全管控,且可能引发产权归属问题,存在被侵权风险。而数字水印、落盘加密等方式无法有效跟踪文件流转,难以保障文件多级转发后的安全问题。此外,产品研发协作过程也涉及到责任的交互,协同过程很难被追溯。
(3)质量高效协同难
随着生产方式的改变,工业质量管理经历了从传统的质量检验到统计质量控制,再到全面质量管理,以及现在被不断提及的协同质量链管理。1S09000质量管理体系是从企业内部视角对做好质量管理的规范。但随着生产环境的变化、企业协调范围的扩大,以及对质量和效率不断提升的需求,供应链上下游企业以质量证书或者报告的方式,基于标准和质量考核体系建立质量信任基础,显然已经无法满足快速变化的生产需求了。
跨企业质量协作存在的主要障碍包括供应链上下游企业质量标准不一致、产品各指标数据无关联追溯、质量数据分散。供应链上下游企业质量标准不一致,质量主要通过证书进行证明,这使得质量把控需要每一个企业重复检、反复检。产品各项指标数据无关联追溯,就导致了质量数据无法得到有效反馈并难以溯源到最终供应商。质量数据分散,就导致了无法形成有效的产品全要素质量报告,产品质量缺乏一致性。
9.1.3 跨企业协作可能的解决方案
工业互联网通过全面连接人、机、物,构建起了覆盖全产业链和全价值链的全新制造和服务体系,为工业和产业数字化、网络化、智能化发展提供了实现途径,也成为第四次工业革命的重要基石。然而,如前文所述,工业互联网仍需解决数据安全、网络安全和控制安全问题,其中,数据安全最具挑战性。2021年,中国铁建重工董事长刘飞香在全国两会人大代表建议中提出,建议利用区块链技术加速推进工程机械各领域数据要素市场培育,建立产业信息基础设施和数据资源管理体系,推动工业经济从高速增长转向高质量发展。工业互联网发展至今,产业链的互联和高效协作仍然面临一定困难,但隐私计算、区块链、可信数据空间等技术的出现,为构建跨企业协作提供了新的途径。
工程机械行业中的供应链跨企业协作困难问题,可以基于区块链、分布式存储、多方安全计算、联邦计算等新一代信息技术,通过搭建制造业应用场景中的数据确权、数据可用不可见、数据共享与流通系统,打通工业数据壁垒来解决。搭建跨企业可信供应链基础信息联盟链,保障资源安全可控,构建供应链可信管理与金融服务。该联盟链基于链主企业的业务数据,包括业务合同、质量数据和企业供应商年度评分数据等,并利用隐私计算技术(如安全多方计算、同态加密等技术),形成可信的供应商评价体系和可视化呈现能力。此外,还可以为所有生态企业提供自评、他评服务,为企业提供产品展示平台,为其他企业提供供应商寻源能力。基于供应链积累的信用数据,可完善供应商数据库,并支持基于数据“可用不可见”的数据安全能力,搭建供应链金融数据取证服务能力,满足银行对供应商数据取证的需求。
在跨企业协作方面,可采用区块链、数字加密和安全可控共享技术实现设计协同。针对工程机械行业主机厂和上下游协作企业,在企业研发内部网络和办公网络中对接企业OA审批系统、产品设计管理(PDM)等系统,实现设计文档、模型和工艺数据文件的内部流转、外部转发。同时,通过跨企业安装协作的终端实现产品协同研发设计,利用区块链技术进行溯源,确保协同过程安全。
在质量协同方面,采用区块链、质量评估和质量数据标准化技术实现质量的高效协同。针对工程机械行业主机厂及上下游协作企业,基于企业内部已部署的SRM、MES、ERP、CRM等系统,采集产品质量和售后数据,例如最终产品、模组、配件、装配工位、供应商质量数据、质检测试数据等,开发全要素质星数据采集、分析和溯源算法。以此为基础,面向售后服务体系构建基于产业链的全要素产品质量溯源体系, 实现跨供应链企业的产品全要素质量溯源。
9.2 供应链企业数据安全协作方案
9.2.1 工程机械行业数据联盟建设思路
通过构建“区块链+”的可信供应链服务平台,实现供应链协同管埋。在此平台上建立领域联盟链,将制造业上下游的各个参与方通过可信数据空间接入工程机械行业联盟,包括供应商、主机厂、客户、监管部门、政府、银行等机构。根据不同的业务需求,构建不同的业务子链,实现数据要素的业务协同。
基于区块链可信数据服务的高端装备产业链生态
区块链是以分布式账本为存储载体的一种存储系统,支持子链的区块链可以在同一套区块链体系上构建多套账本、多个网络,进行跨域区块链协同。在区块链服务平台上,通过建设囊括上游供应商和下游客户的质量管控平台,为生态体系内所有合作伙伴提供服务。本章以铁建重工为例做平台介绍。
首先,基于铁建重工自身的资源优势和公开资源信息,汇聚供应商企业画像数据、供应商合同数据、供应商质量数据, 并对外开放查询功能。基于铁建重工在供应链体系中的核心位置,其数据查询功能将吸引更多企业参与到质量协同体系中,促进更多企业之间的协作与合作,推动工程机械行业产业升级和创新。
跨域区块链协同设计
为解决制造业场景下供应链企业分布广,系统节点多,对协同效率要求高、通信时延要求低等技术问题,区块链可以采用DPOS-PBIT共识算法,分布式选举(Distributed Elected)的PBIT共识算法可以保障区块链网络的高效和稳定。同时,通过分组DAG(有向无环图)交易无锁队列排序算法,提高区块链共识效率,降低交易执行时延。采用分布式存储系统与链无缝关联存证确权方案,构建链上确权和可信协同,实现链下数据资源共享,为数据资源库提供完整的底层技术支撑。
9.2.2 企业可信数据空间保护供应链数据安全
为搭建“基于区块链的供应链协同管即平台”,我们联合了多家工程机械行业的核心企业,建立了产业协作联盟。技术实现上,为构建企业可信数据空间,我们在核心企业内部部署了数据安全网关,通过引接企业内部SRM、ERP、CRM等信息化系统数据,完成了供应链协同的数据标准化和数据资源发布,形成企业数据资产目录。同时,通过优享企业数据集市, 采用基于隐私计算的分布式计算引擎,实现了核心企业数据空间的安全可信互通。这里的互通,包括了供应商、设计图纸、文档、质量信息的共享、联合计算等内容的互通。借助区块链提供的可信审批和稽核,数据访问过程和安全防护在企业数据空间内全程可见。这种做法让企业能够看得见共享互联过程中的数据流转,消除了数据流转过程中的不安全因素,帮助企业逐步实现了从不愿共享数据到可以共享数据的转变。
下面以联合多个核心企业,通过供应商合同实现供应链商誉共享互通的业务为例,说明基于区块链的供应链协同管理平台的工作流程。
基于区块链的供应链协同管理平台的工作流程
①企业通过优享企业可信数据空间引接核心企业业务数据,包括供应商合同(企业、产品、合同额)、绩效平均、质量实测数据等数据;
②企业按照平台要求,对引接数据标准化,并发布为企业数据资产;
③企业数据资产目录存储引接的元数据信息(不包含具体的业务数据),数据目录会同步在区块链上形成数据资产目录合约,记录数据发布、订阅、使用过程的相关信息,数据空间会对访问过程和合约规则配置进行匹配,稽核访问行为;
④企业分布式计算引擎(隐私计算)模块执行订阅用户的数据计算请求,并对出域数据执行脱敏检查、按需加密、日志记录和链上存证等操作;
⑤区块链除提供联盟可信基础设施外,还提供数据目录合约、企业信誉合约等业务相关智能合约服务;
⑥优享企业数据集市基于平台描述的供应链企业商誉计算和查询需求,在企业数据空间的保护下完成商誉计算,并更新智能合约设定的雷达图;
⑦企业数据资产集市提供所有联盟企业数据空间的数据目录,通过“一张图”方式完成数据加工算法的描述,由分布式计算引擎完成“数据不动算法动”的联合建模,各参与方均可获得业务结果数据;
⑧最终,供应链门户通过底层的数据计算,实现供应链协同门户构建,联盟成员可以查看企业链上商誉,还可以查看企业产品质量评价、供应链合作强度等信息,为供应商寻源、供应链金融等工作提供切实数据依据,提升协作效率。
除上述提到的供应商信誉业务流程,该平台还提供设计协同和质量协同功能。这些功能通过优享企业数据空间实现,完成不同企业设计文档和质量数据的安全共享,帮助实现跨企业的数据要素价值发挥。
9.2.3 企业数据多方安全协同方案
(1)供应链可信管理与金融服务
“链主”企业联合多家供应链上下游企业,将上下游供应链企业和其产品纳入可信供应链体系,结合内部业务往来合同数据,构建供应链可信联盟。基于区块链技术的去中心化、信息不可篡改等技术特性,采用半联盟链、半公有链相结合的方式,构建多方协作可信系统,实现融资服务、供应商画像、供应商合同管理和供应商质量管理等多种功能。
在这个系统中,区块链在包含联盟节点和中心节点的网络中,通过智能合约构建起多方协作可信系统。区块链基于哈希算法实现智能合约的发布和接收,以及数字签名的确认,结合双方交易产生的所有智能合约摘要,形成“合约信息Hash摘要+双方金额+交易双方ID+交易时间戳”的智能合约数据结构。基于多方协作公开可信平台,结合总合约数、总合约金额、企业信用评价记录等内容,通过平台信用记录模型,计算出企业信用指数,为制造企业采购决策提供数据支撑。在公开可信供应商评价体系基础上,打通企业采购管理系统SRM,完成供应商画像数据在SRM系统中的集成,实现基于供应商可信评价的供应链采购协同。
多方协作的跨企业数据要素协作方案
供应链金融是银行围绕核心企业,管理上下游中小企业的资金流、物流和信息流,并把单个企业的不可控风险转变为供应链企业整体的可控风险,通过立体获取各类信息,将风险控制在最低的金融服务。工程机械行业供应链涉及到海内外众多企业,受诸多因素影响,这些企业对风险控制具有内在需求。通过将单个企业不可控风险转变为供应链企业整体可控风险,可有效降低供应链中单个企业的风险,也可有效降低整个供应链可能面临的风险。多方协作公开可信方案充分利用开放的可信供应商画像数据,可以为企业融资提供数据支撑服务。
供应链金融服务门户及其关系
“链主”企业的周边供应商是工程机械行业的重要生态组成部分,尤其是关键零部件的供应企业和加工企业。以“链主”企业为核心,通过为银行和供应链企业构建可信数据知识库,可以为周边企业提供更好的供应链金融服务。例如,基于“链主”企业提供的合同和应收账款信息,银行就可以为供应链上下游企业可信地提供金融服务,这也便于供应商更快、更好地获得银行的资金支持,同时也提升了银行在供应链金融领域的服务质量。
一般情况下,银行等金融机构缺乏高效手段验证目标客户的业务真实性,也难以找到合适的目标客户群体。例如小额贷公司的主要目标客户群体足“链主”企业的二级甚至是三级供应商,这类企业群体和“链主”企业没有直接的业务往来,因此金融机构很难基于“链主”企业的往来票据评估出这些企业的资金需求真实性,或无法及时解决这些企业运行过程中的资金需求。通过在多个供应链系统的不同“链主”企业部署数据安全网关,实现穿越单一供应链企业业务数据的可信采集,能够在更大范围内为供应链金融提供数据可信服务,为企业经营提供高效融资渠道,加快企业和地方经济发展。
为推进供应链各参与方的协同合作,为供应链各参与方提供可信的产品采购和金融服务,可通过汇聚供应链企业间的业务往来和信誉评价数据,构建利益共同体,服务供应商寻源、供应链金融服务等应用场景。基于这个系统,供应链各参与方可以开展更高效的采购活动,实现更快速的资金流动,这也可以进一步提高供应链的整体效率和竞争力。
可信数据空间的技术保障和安全机制,有助于降低信息不对称和交易风险,增强供应链的可信度和稳定性。为保证供应链上业务往来数据的安全性,可从技术层面采取措施,例如在数据未被使用前便保护起来。隐私计算技术支持数据可用不可见,这可有效保证企业原始数据的安全。基于区块链技术实现的企业敏感数据权限管控和橾作行为上链,可以最大程度保护企业的知识产权和数据安全。随着数据要素化和数据流通的不断推进,产业链和供应链的结合越发紧密,区块链存证同时也为以后企业之间的纠纷维权提供了充分的佐证信息,确保企业利益不受无端损害。
以铁建重工和天盾重工为例。将供应链上各企业内部的供应商管理系统(SRM)和采购计划与执行系统(ERP)上采集到的供应商合同数据(甲乙双方企业名称、签订时间、金额等) 上链存证,结合工商、司法、官网和舆情数据,基于区块链、安全多方计算和沙箱计算技术,搭建具备商业秘密保护能力的评估算法和供应链金融安全多方评估算法,为铁建重工等“链主”企业提供可信画像、战略寻源和供应链风险预测等服务。同时链上可信的供应商数据也是供应商产品和服务能力的展示舞台,企业通过可信数据的优胜劣汰,可形成更安全、更开放的供应商生态圈。
供应商可信画像与评价体系
供应链可信联盟实现了工程机械行业内部的业务数据(特别是链主企业与上游供应商企业间的业务往来数据)确权、数据可控共享(体现在“数据不出域,可用不可见”等特征),破解了数据“不愿共享、不敢共享”的困境,构建了以“链主”企业为核心的利益共同体。
当前,供应链可信联盟已纳入供应商企业数千家,产品数千计,为企业解决了供应商寻源、可信数据源展示门户等服务。本方案在供应商资质可信证明方面已经开始发挥效用,已实现合同摘要存证、关键信息提取、加密存储、企业画像、企业可信评分、金融报告、贷款审批参考等功能,并不断提升供应链企业间的沟通效率和协作效能。
(2)安全可追溯的产品研发协同
通过协同设计,不同专业领域的设计师、工程师、制造商等主体可以共享信息、交流想法,并共同参与产品各个阶段的设计。但在工业设计文件的流转和信息反馈过程中,工业企业和外部企业在设计文档交互过程中存在安全性和及时性问题。通过区块链技术,可实现安全、可信、可溯源的设计文件协同,提升企业协作效率。
基于区块链的工业产品协同设计主要包括以下内容:
①文件必须通过数据安全网关实现共享,确保源文件可信。
②必须制定文件共享访问规则,保障文件发放在许可规则许可范围内。与此同时文件规则全部记录在区块链智能合约,公开且可查。
③基于用户制定的加密级别(不加密、普通密钥、电子密钥、硬件密钥),采用不同的共享方式。对于硬件密钥级别的加密,接收方要配备相应的硬件加密设备才可以获得设计文件信息,保障文件安全传递。
④对于外发文件,采用显性(信息预览)或隐形数字水印技术(文件转发),保障信息在用户侧具有一定的安全威慑。显性屏幕/文件水印技术支持溯源,隐形数字水印技术需要针对不同文件类型分别构建,主要用于事后追责。
工业高端装备制造业协作平台的主要功能是实现工业设计文件的流转和信息反馈,所有通过协作平台发布的文件都会记录文件指纹和版本信息,并将文件数据储存在安全网关之上。工业设计文件协同模块主要功能如下:
①集成区块链签名认证功能,基于区块链智能合约构建数据安全验证规则和审计规则,实现设计数据可控、可信共享流通,支持文件申请、解密、浏览操作和下载记录溯源。
②集成多种常用文档和工业设计文档可控预览能力,包括但不限于DOCX/DOC、XLSX/XLS、PPTX/PPT、PDF、TXT、MP4、JPEG、BMP、GIF、PNG、CAD等格式;具备集成多源数据的能力,包括但不限于EXCEL、CSV、数据库(Oracle、MySQL等)、JSON和文本文件等。
安全可追溯的产品协同研发设计场景
传统设计协作模式下,设计文件人工拷贝频繁、效率低,解密和拷出文件操作无法追溯,文件数量和文件内容真实性无法核实,存在突出的泄密风险。以掘进机为例,一台掘进机全套设计图纸预计需要20万张A4张才可以全部打印,掘进机的生产涉及近千家上游供应商,其生产定制化程度高,实现过程复杂,并且还需要依据客户要求进行设计。掘进机设计文件的管控环节多,任何环节上的偏差都容易导致产品在使用过程中出现问题。基于区块链的可信设计文件管理和协同系统,通过将设计图纸、三维模型、工艺文档、分析报告等设计数据摘要上链,实现了对掘进机的相关设计数据确权,并使设计数据不能被随意浏览、拷贝、传输,保障了数据拥有方对数据的唯一权属。该系统把数据变成受保护的数字资产,确保价值物在数据管理体系下的有记录流动。
基于区块链的可信设计文件管理和协同系统,以软件插件的方式实现数据的安全可控和溯源。以CAD软件为例,在企业供应商管理系统(SRM)上部署区块链存证组件,实现CAD软件图纸源文件摘要上链存证,并基于SRM协作需求自动完成图纸源文件跨域安全可信传递。研发设计协同组件“可用不可见”,并对修改实现自动化版本管理,所有协同研发设计过程均可追溯,形成安全、高效、及时、可溯源的图纸多方可信协同设计能力。工业设计信息协作交互过程如下。
工业设计信息协作交互图
①用户在本地的数据安全共享网关发布设计数据(文件),数据安全网关基于区块链智能合约构建数据安全验证规则和审计规则,实现设计数据可控、可信共享流通,同时对文件申请、解密、浏览、下载等操作记录以供溯源使用。同时,平台会自动将设计数据反馈给发起方。
②协作方在工业设计信息协作平台上查看协作发布信息,针对可以协作的项目申请订阅,平台将相关信息反馈给协作方。
③平台通过区块链系统提供的可信审批和稽核功能,实现数据访问过程和安全防护过程全流程可见,让企业看得见共享互联过程中的数据流转,降低数据安全方面的不确定风险,帮助企业实现从不愿共享数据到可以共享数据转变。
(3)产品全要素质量存证与溯源
工程机械行业中产品质量管理的核心环节是质量检验,同时还包括对产品质量规范、质量计划的有序管理。工业生产通过对质量检验过程相关信息的采集与跟踪,实现产品质量的完整回溯,对各类生产进行透明化监控,将出现的质量问题快速暴露给相关责任人员,确保问题及时解决。通过各种质量统计分析系统,分析预测质量趋势,可以为质量改进提供数据支持和量化指标。运用MES系统追踪管理生产计划,可以解决质量数据分散、干扰因素多的问题,还可以帮助企业解决跟踪困难和处理产品质量的及时性和可追溯问题,实现对历史质量数据的有效分析。
通过在各类信息化系统(SRM、ERP、CRM、PLM、CAPP等)中采集“链主”企业和供应商的入库质检数据(首次检出率、质量检测报告)、生产计划和过程质量数据(生产编号、批次或日期及其相关的质检数据)、出库质量数据(产品编号、批次及其质量报告),同时将相关数据和操作链上存证。同时通过关联产品、供应商和质量信息,形成全面、及时的质量管理数据,构建产品全要素质量数据可信库,就可以为链上“链主”企业和供应商提供产品供应链关键环节重要部件的全要素质量存证与溯源服务。这种做法在质量保障、质量追溯、产品质量分析等场景下,形成了全供应链质量协同。
产品全要素质量存证与溯源业务流程
制造执行系统(MES)是跨企业质量数据采集的核心业务系统,其能力包括以下几个方面。
①检验项维护。通过集成或人工配置的方式,实现与SAP、ERP以及工艺软件的绑定,定义和维护检验项目的基本信息,以此实现检验项目的标准化和基础数据的复用能力。
②检验点创建。检验点存在千工艺路线中,SAP、ERP系统根据生产计划形成检验计划。MES系统中的检验任务一般由任务报工自动生成,在发生物料进厂或作业报工时,承接或自动触发来料检、过程检、试验工序等检验任务。
③数据采集。通过终端手工填报、数字化量具、检测中心设备或检验设备(如机器视觉等),实现对检验数据的数字化采集。
④结果判定。MES系统将结果与检验项预设的判定值比对,自动判定检验结果是否合格。合格则触发产品转序或完工下线,不合格则触发不合格品处理流程。对不合格的产品,系统支持质量通知单的在线填报,通过处理流程采集问题类别、问题原因、解决方案、处理结果等信息,并按照相应流程进行处理。
⑤质量追溯查询。系统能够在生产检验过程中记录产品的加工人员、加工设备、工装夹具、检验人员、检验设备、检验结果等信息,相关信息构成一个可追溯的结构树,通过结构树可以方便追溯到原材料、半成品、成品、包装的质量检验记录,检验信息中的人、检验时间、工时、检验设备、工具工装,生产信息中的人、设备、产线等信息,实现有效的质量追溯查询。
⑥检验任务管控。参照生产任务执行检验任务的生成、下达、追踪、调整(含插单)及反馈等流程。
MES质量数据采集可以与MES系统对接,通过将数据存证到区块链,并基于当前生产的订单情况,实现质量数据的标签化。MES质检信息涵盖了多个数据分类,为统一质量信息的管理,本方案将生产质量数据标准化为几个常用的质量标签,以便实现对质量过程的监管和追溯,并构建全局唯一的质量管理信息ID,从而实现从采购到生产过程的质量管控与溯源。
MES具备对不合格产品进行管理的功能,并能基于不合格产品生产的历史记录对生产过程预警,从而解决因零件不合格而导致整机不合格的问题。另外,MES还能对在线返修和离线返修进行管理,解决不合格产品的监管问题。在线返修方面,返修人员可以按照不良明细类别进行返修,并根据返修类别提供相应的返修处理办法和描述。针对个性化问题,系统会记录操作过程并积累返修经验。返修完成后,相关工单会重新上线到出现异常的工序,以恢复正常的生产流程。离线返修则是指重新下达返修工单,同时维护返修BOM和工艺路线信息。这样,可以确保不合格产品得到及时处理,并保证整体生产过程的顺利进行。
通过MES系统采集和监测不合格产品的审查过程,可有效解决生产过程中的质量安全间题。该方案还基于MES系统的不合格产品管理数据,并与生产过程数据绑定,完成对生产过程的质量数据存证。同时,基于订单数据和上下游质量数据,完成对不合格产品的溯源分析。
本方案基于区块链的不可篡改特性,解决了供应链质量管理环节中数据受质疑的问题,通过跨厂质量数据存证溯源,打通了跨企业产品全要素质量质检。质量数据的跨企业共享使得企业质量管控从内部向外部扩展,实现了高效管控协同,进一步提升了装备制造业的生产效率,从而提高了产品整体质量。
9.3 供应链企业数据安全协作案例
9.3.1 可溯源的SMT行业安全设计协作
中电凯杰是一家高新技术企业,是中央管理骨干企业中国电子信息产业集团有限公司(以下简称“中国电子”)的成员单位,承担着传统SMT生产制造转型升级的使命。中电凯杰在行业内率先推出了面向SMT领域的专用MES系统,以极低价格或者赠送的模式在中小微企业推广,形成了SMT行业联盟,打造了生态系统。该企业基于我们上面提出的区块链可信设计文件管理和协同方案,结合MES系统、DCS系统、智能货架、智能工位的PLC控制系统,完成了对SMT厂线的数字化改造和智能化数据采集,形成了厂线高可信的数字化SMT厂线,搭建了面向SMT行业的协作云平台。通过将不同企业的贴片生产线接入SMT云协作平台,实现了不同SMT企业生产线的协作,解决了由于自身生产线不足引起的产能低、损耗高和质量差等问题。同时,针对SMT产业中小微企业现状,通过生产线的可信数据采集和远端协作,构建了企业的完整厂线数据。
SMT行业协同设计
9.3.2 智能井盖产品质量全流程管理
井盖关乎到行人和车辆的安全,同时牵涉到防汛泄洪问题。井盖全生命周期管理包括了原材料采购、生产加工、部署安装、监控运维等环节。区块链、物联网、工业控制等技术,可以实现厂内生产过程数字化和智慧井盖运营的全生命周期管理。通过信息采集跟踪和数据采集网关等工具,将井盖质量检验数据上链存储,可以实现完整的井盖产品质量回溯。对井盖各个生产过程进行透明化监控,将出现的问题快速暴露给相关责任人员、以便及时处理。借助各种质量统计分析软件,对质量趋势进行分析预测,为质量改进提供大量的数据支持和量化指标。运用MES系统对生产计划进行追踪管理,可以解决质量数据分散、干扰因素多、企业跟踪困难等问题,同时可以解决产品质量管理的及时性和可追溯性问题,帮助企业对历史质量数据进行有效分析和预测。以上各种功能模块组成了智能井盖全生命周期溯源管理系统,该系统在金龙制造生产智能井盖的过程中发挥着重要作用。
智能井盖全生命周期溯源管理系统
该系统在铸造行业构建了全生命周期数据协同服务体系,确保了智能井盖在全生命周期中的数据管理得以全面实施。这不仅提升了井盖的数字化运营效率,还实现了对井盖生产、运行数据的全面覆盖。同时,该系统也成功解决了运行数据的安全采集问题。这些先进技术的综合运用,为解决“老百姓”脚底下的安全问题提供了有力保障。目前,该系统已成功监控了43.42万余个井盖,使金龙制造井盖的良品率提升了5%以上。
9.3.3 挑战与展望
为有效应对工程机械行业供应链协同过程中的一系列挑战,例如供应商寻源、协同研发设计、跨企业质量协作环节中的供应链网络信用机制缺失、多方协作复杂度高、出错成本高以及工程周期短等问题,本章提出了一种基于区块链的供应链协同管理解决方案。该方案深度融合了制造业与新一代信息技术,特别是区块链、多方安全计算和联邦学习等技术。方案聚焦于供应链跨企业协同中的关键场景,以期为工程机械行业数字化产业链的构建提供有力支持。本方案中基于数据安全网关,在“链主”企业和上下游协作企业间实现了数据“可用不可见”的能力。这不仅保障了数据安全,也使得链上企业能够享受到金融服务、供应商寻源、设计协同等服务,最终实现了链上系统的互联互通、生产的高效协同和资源的优化配置,从而最大化释放了工业数据价值,并彻底解决了工程机械行业协同交互过程中的数据安全可信问题。
(1)工程机械行业数字化转型过程中的挑战
目前,工程机械行业已广泛引入各类数字化系统,但这些系统仍然停留在传统的数据采集阶段,缺乏工业大数据分析和跨企业协作能力。这使得企业数字化系统的数据价值没能被充分挖掘出来。虽然多数工程机械企业对于引入先进数字系统的意愿强烈,但很多企业的关注点仍然集中在企业内部的信息化,而不愿意实现跨企业的数字互通。这主要是因为很多企业对隐私计算、区块链等新技术的认知不够深入,担忧数据安全风险无法得到有效解决。因此,跨企业的业务系统互联互通仍存在一定的认知壁垒。企业主体信任机制缺失、信息安全保障能力不足等问题依然突出,互联产生的收益和不确定性损失还很难平衡,这导致供应链上的工业数据价值很难最大程度地发挥出来。
(2)工程机械行业供应链管理数智化展望
在数字化时代,通过数据流动实现高效协同,已经是一种不可逆的趋势。为了充分发挥数据要素价值,除了基于区块链构建供应链数据协作的信任基础,还需要确保企业数据的安全、真实和可信。本章提出的方案旨在构建一个安全、可信且可协作的工程机械行业供应链协作网络。借鉴钢铁行业的经验,在工程机械行业联盟网络中,引入联合建模、联邦学习等入工智能技术,在确保供应链企业数据安全的前提下,实现供应链数据的智能应用。这将进一步提升供应链的安全、智能化水平和效率,从而推动工程机械行业的供应链尽快转变为数智化供应链,让数据的价值得以更充分发挥,使供应链运作更加智能。
第十章 农业农村数据联盟应用
“三农”作为全党工作重中之重的战略定位。党的二十大擘画了以中国式现代化全面推进中华民族伟大复兴的宏伟蓝图,并首次提出加快建设农业强国。2024年中央一号文件从关键切口入手,提出了一批有含金量的政策措施,力求出实招、办实事、见实效,推进乡村全面振兴不断取得新成效,让农民群众得到更多实惠。依据《“数据要素x”三年行动计划(2024-2026年)》,数据要素x现代农业更是从现代农业角度,支撑农业农村发展。数据要素是新质生产力的核心要素之一,可以提高土地产出率、劳动生产力,并最终提高产业质量,生产出个性化多元化的优质产品,从而提高效益水平。
通过综合多方数据,充分挖掘数据要素价值,数据要素x现代农业从如下几个方面提出了明确路径:
一是提升农业生产数智化水平;
二是推进产业链数据融通创新;
三是培育以需定产新模式;
四是提升农业生产抗风险能力。
目前农业农村数据分散,
一是以统计口径归集的政务农业数据;
二是种子、化肥、粮食集团等归集的业务数据;
三是以电商平台、农业农村服务平台等归集的价格和流通数据。
然而,上述数据的归集和分析非短期可以快速解决。
要实现数据要素x现代农业目标,需要将数据进行打通,按照数据要素价值化的路径,实现数据联合应用。以电商平台、种子公司等企业主体为抓手,是快速探索数据要素x现代农业的一条重要路径。本章通过实际的应用案例,介绍构建农业农村数掘联盟的思路、路径和成果,作为农业农村数据要素的一个重要探索。
10.1 农业农村数据维度缺失
在现代农业发展过程中,数据应用的关键要素与当前面临的应用难问题相结合,主要表现在农业农村数据基础相对较差,相比金融、工业领域,数字化水平相对落后,具体来说包括数据收集难、数据整合难、数据安全风险高和应用价值不明显等问题。本节重点分析现存农业农村数据缺失问题,引出数据要素价值化在农业农村数据的一个解决方案。
10.1.1 农业农村数据收集难
在现代农业中,数据的收集涉及到多个环节和来源,包括传感器、无人机、卫星遥感、农业设备等,但面临着收集成本高、数据来源多样、数据质量参差不齐等问题,导致数据收集难度较大。主要表现在如下几个方面:
一是数据来源分散。农村地区涉及的数据源多样化且分散,包括农业生产、气象、土壤、水资源、农产品市场等各个方面,数据往往分散在不同的机构和部门中,收集和整合难度较大。
二是数据获取成本高。农业农村数据未形成规模,导致需要通过诸多渠道收集数据,导致数据获取成本居高不下。
三是数据质量参差不齐。农业农村数据来源多,涉及面广,面向业务构建的系统对数据质量要求不高,导致质量参差不齐,存在数据不完整、不准确、不一致等问题。
10.1.2 农业农村数据整合难
现代农业中涉及到的数据种类繁多、格式不一,存在着数据孤岛和系统之间的隔阂,数据整合和共享的难度较大。例如土地规划数据、土地流转数据、农作物种植数据、地理气候数据、农产品价格数据等散落在政府不同职能部门和部分企业手中。由于各项数据背后所包含的能力、价值、分析等各种因素不确定,整合难度高。另一方面,农业农村数据包含地理时空数据,结构相对复杂,这也会提高数据整合的难度。
10.1.3 农业农村数据安全风险高
农业农村数据涉及到大量的农户信息、农田地块数据等敏感信息,面临着数据泄露、数据篡改等安全风险,在数据要素场景中,加强数据安全保护成为亟待解决的问题。
10.1.4 农业农村数据应用价值不明显
尽管有大量的农业数据被收集和整合,但由于数据的应用价值不明显,农民和农业从业者往往缺乏对数据的有效利用,导致数据闲置和浪费。农业农村数据应用方面投入产出比偏低,是影响农业农村应用价值的一个关键。《中国数字经济发展白皮书》显示数字经济正在向更深层次、更广领域演进,农业数字化转型缓慢、增速显著低于全行业平均水平。相比金融、工业领域,农业数据的价值主要在农业生产数智化、农产品追溯、产业链融通、以需定产等领域应用。
10.2 基于可信数据空间的数据联盟方案
针对农业农村数据维度缺失问题,从农村电商数据、农村土地流转数据等企业为主的数踞,再结合政务农业农村数据、气象数据等,构建农业农村数据联盟,以可信数据空间为载体,构建农业农村数据集市,提供农业农村数据加工服务,互利且惠,提升联盟成员在各自领域竞争力。并借助“数据资产入表”契机,融合数据资产价值,提升农业农村企业价值。
10.2.1 农村农业数据联盟建设思路
(1)湖南省农业数据产业基础扎实
湖南农业在涉农数据规模、数据市场成熟度、农业数据人才团队等方面,均已具备较好的基础。作为全国13个粮食主产省份之一,湖南常年粮食播种面积稳定在7000万亩、产量稳定在600亿斤左右,水稻种植面积常年居全国第1位,双季稻面积占全国的四分之一,是全国重要的大米生产基地。另一方面,湖南聚集了一批优秀的农业农村数字企业,如隆平高科、新五丰、惠农网、土流网等企业,具备农产品、生猪、土地等价格数据。
以惠农网的农产品行情价格数据为例,惠农网平台实时采集超4400万用户的交易行为数据,经标准化清洗、分类和数据库建设而形成的农业全产业链专业价格数据产品。可实时跟踪产地端和销售端的市场价格,提前研判未来行情走势,指导农业生产和销售,助力解决农产品产销信息不对称问题,促进产销对接,成为广大农业从业者、科研机构及政府部门的重要参谋。
(2)农业农村大数据联盟建设思路
基于湖南农业数据产业优势,基于可信数据空间,围绕数据要素x现代农业,以惠农网、土流网、隆平高科、新五丰等企业为主,结合农业农村行业数据、企业数据和政务数据,构建农业农村大数据联盟。通过在各联盟企业部署可信数据空间,实现联盟企业数据安全接入,并支持联盟节点完成数据的治理和标准化,并基于可信数据空间联盟协议,实现联盟成员间数据安全可控共享。农业农村大数据联盟集合所有联盟成员发布的数据目录,提供数据交易和联合分析服务,在数据可用不可见的模式下, 完成农业数据分析目标。农业农村大数据联盟数据可通过对接数据交易所和需求方数据空间完成数据应用,包括农产品投资、农产品供需匹配优化、衣产品价格走势、信贷、保险、融资等场景,实现农业农村数据价值变现。
农业农村大数据联盟示意图
10.2.2 农业农村大数据联盟建设方案
农业农村大数据联盟基于可信数据空间技术构建农业可信数据空间,连接惠农网、土流网等业内企业,形成农业可信数据空间,支撑农业大数据联盟平台。该平台通过组建4个数据要素服务团队,形成农产品价格行情、农业研究报告、行情地图、品类洞察、猪肉价格行情、区域土地产值分析数据等农业数据产品。
农业农村大数据联盟架构
一是通过数据联盟形成面向农业农村领域的产品创新模式,通过联盟内部数据,创新数据产品,更好地服务联盟内部企业业务;
二是通过数据交易所实现更大范围的数据产品服务,支撑县域数字农业服务、企业或个体户经营服务等农业产业数据消费场景,发挥数据要素乘数效应。
10.2.3 农业农村数据应用场景
(1)生猪市场监测与预测
惠农大数据电商市场监测平台显示,2023年12月12日发布生猪供采信息的用户来自全国30个省市区、1284个县级行政区,养殖户、合作社和家庭农场是信息的主要发布者。从数据中可以发现生猪养殖格局仍足中等规模养殖企业和农户为主。惠农网从2013年上线运营以来,全国有31个省级行政区、2821个县级行政区、4400多万注册用户发布农产品供求信息,覆盖4000多个农产品品类、2万多个产品,累计产生近3亿条农产品供应、采购、交易的标准记录,且每天新增20多万条记录。同时,惠农网汇集的生猪养殖实时技术咨询、饲料和兽药采购等数据,具备对生猪全产业链监测预警能力。
通过农业农村数据联盟,结合惠农网、新五丰数据,形成生猪全产业链数据,包括生猪技术咨询、饲料采购、网络搜索、网络询盘、能繁母猪存栏、仔猪出栏与价格、生猪出栏与价格、猪肉价格、生猪期货、生猪进出口等,在原统计分析基础上,辅以量价分析和行为分析,多角度、多层次监测和预警生猪市场。
(2)农产品种植面积(产能)规划
农产品种植面积(产能)规划是指根据市场需求、土地资源、气候条件等因素,合理安排和调配不同农产品的种植面积,以实现农产品生产的有效组织和管理。通过农产品电商价格监测数据,及时掌握农产品市场行情,并基于分析报告及时调整种植面积,优化产能。
农产品种植一般以年为单位,如果种植规划出现与未来市场预期差距较大时,就会出现供大于求,导致价格下降,甚至可能出现亏本现象。通过关注市场价格行情,种植大户可及时调整种植策略,规划产能,可以有效避免供需不匹配问题。对于采购商而言,可及时调整采购计划,降低采购、库存和物流成本。
(3)农产品种植优化
农产品价格受诸多因素影响,一般情况下和产地、品种、种植户等因素有关,其中产地和品种影响较大。例如,当年褚时健选址“褚橙”种植地时,充分考量了橙子的品种,种植区域经纬度、日照、气温、土壤情况等诸多因素。当农产品市场出现供不应求时,如何选择新区域进行种植或培育,是一个较为复杂的多因素方程求解问题。往往这些因素需要查阅诸多资料,并进行分析才能找到新产地进行种植。基于农业农村大数据联盟,种植户可以基于平台的气象数据、土地数据、电商数据等快速决策,寻找价值洼地,实现农产品种植选址优化。
10.3 农业农村数据联盟价值体现
10.3.1 实现农产品按需定产模式
(1)中国柚子电商市场分析案例
惠农网电商平台于2020年12月发布了一份《中国柚子电商市场分析报告》,其中一个非常重要的数据就是2017年三红蜜柚、红心蜜柚、琯溪蜜柚均价分别为1.O元/千克、1.0元/千克、1.1元/千克,2020年价格出现波动,三红蜜柚价格跌至0.7元/千克,琯溪蜜柚价格涨至1.6元/千克,因此我们建议减少三红蜜柚的面积,增加琯溪蜜柚的面积。后面在福建省平和县“柚子科技小院”建设现场会上,很多柚子种植农户都反馈根掘这份报告调整了种植的品种与销售策略,取得了非常好的经济效果。
通过上面的例子可以看出,通过市场分析,种植农户可以依据报告数据调整种植策略,按市场需求制定种植方案,使得经济效益最大化。
(2)内陆海鲜养殖
新疆产海鲜?在日本核污水排海之后,这个话题成为人们热议的话题。新疆,中国离海最远、沙漠最多的地区,竟然也盛产海鲜和水产。新疆的阿克苏市在养南美白对虾;尼勒克县在养跟三文鱼同族问宗的虹鳟鱼;新疆的红旗农场在养鲍鱼和龙虾;新疆的麦盖提县在养澳洲淡水龙虾;新疆的罗布湖在养螃蟹。新疆的鲈鱼、鱼子酱和池沼公鱼,也早已经出口到了芬兰、荷兰和日本。以《蔡钰·商业参考3》中提到新疆的古尔班通古特沙漠边缘的红旗农场为例。红旗农场地处帕米尔高原东部,地势低洼,周边地下盐碱水都会往这里汇集。于是红旗农场就建了4个温棚车间,250亩室外鱼塘,来养罗非鱼、石斑鱼、南美白对虾、鲍鱼和龙虾。
从上面的数据可以石出,鱼类养殖和地理环境极其相关,再加上人类对养殖环境的改造,对鱼类习性进行“改进”,使得可以带动一个地方的经济发展。通过数据分析市场需要,通过在更大范围选择生产地,或者改造环境,实现按需定产得以运行,提升农产品供需匹配能力。
10.3.2 服务农业生产数智化
基于农业农村数据联盟,农业生产经营主体和相关服务企业融合利用数据联盟上的遥感、气象、土壤、农事作业、灾害、农作物病虫害、动物疫病、电商市场等数据,打造以可信数据和联合模型为支撑的农业生产数智化场景,实现精准种植、精准养殖、精准捕捞等智慧农业作业方式,支撑提高粮食和重要农产品生产效率。
10.3.3 提高农业生产抗风险能力
基于农业农村数据联盟,可以在农业生产决策、农产品市场预测、农村电商发展等提高农业生产抗风险能力。基于农业农村数据进行数据分析和挖掘,通过对农产品产能、运输、加工、贸易、消费等数据融合、分析、发布、应用,加强农业监测预警,为应对自然灾害、疫病传播、价格波动等影响提供支撑,为农业生产决策提供科学依据。例如,通过数据模型和算法预测天气变化、病虫害发生等情况,为农民提供种植、防治等方面的建议。
10.4 农业衣村数据联盟价值展望
10.4.1 提升农业生产效率
通过农业农村数据联盟整合多方数据资源,包括农业生产、气象、土壤、市场需求等方面的数据,通过数据分析和智能化技术,为农业生产提供精准决策支持,优化农作物种植结构、调整生产策略、提高资源利用效率。在农业农村数据联盟平台上,农民和农业企业可以获取更多的农业生产数据和信息,从而优化农业生产流程、提高农作物产量和质量,降低生产成本,实现农业生产的智能化和精准化。
10.4.2 改善农民生活质量
农业农村数据联盟可以促进农村经济的多元化发展,推动农村产业结构的升级和转型。通过挖掘和利用农村经济数据,推动农产品加工、乡村旅游、农村电商等新型产业的发展, 促进农村经济的繁荣和可持续发展。农业农村数据联盟还可以为农民提供更多的农业技术支持和信息服务,帮助他们提高生产技术水平、增加收入来源,改善生活条件和社会福利,提升农民的生活质量和幸福感。
10.4.3 促进政府决策优化
农业农村数据联盟可以促进农业科技的交流与合作,搭建农业科技创新平台,推动科研机构、企业和农民之间的合作,加速农业科技创新和成果转化,推动农业产业的升级和创新发展。该联盟还可以为政府部门提供农业农村数据的共享和应用服务,支持政府农业政策的制定和实施。通过数据分析和预测,为政府提供科学决策支持,优化资源配置,推动农业农村治理的现代化和智能化。同时,数据联盟还可以促进农村地区之间的数据共享和合作,支持区域农业产业链的协同发展。通过建立区域间的数据互联互通机制,促进农产品流通和农业产业链的整合, 推动区域农业的协同发展和共赢合作。
第十一章 政务医疗数据安全可控运营
2022年11月,国家卫生健康委、国家中医药局、国家疾控局制定的《“十四五”全民健康信息化规划》,该规划就将完善健康医疗大数据资源要素体系作为“十四五”任务之一,该任务要求进一步促进和规范健康医疗大数据应用发展、有序推动健康医疗大数据共享应用,培育健康医疗数据要素市场,激发数据要素价值,推动健康医疗大数据在疾病预防、健康管理、辅助决策、药物研发、医疗保险、精准医疗、营养健康等方面产业化、规模化应用。该规划的另一任务为拓展基层信息化保障服务体系,该任务要求自动采集健康数据信息,减少手工填报和纸质报表,以居民健康为核心,围绕居民需求服务提供场景。
医疗数据运营产业的前景非常广阔,主要受益于数字化技术的发展以及各方对医疗信息不断增长的需求。医疗数据运营产业主要可从如下几个方面发挥数据价值:
第一,健康数据分析。医疗数据运营平台可以利用大数据分析技术,深入挖掘患者的健康数据,提供个性化的医疗建议和预测。这有助于改善医疗诊断和治疗效果,同时提高患者的整体健康水平。
第二,医疗保健管理优化。医疗数据运营平台可以整合患者的电子病历、检验报告、医嘱等信息,为医生和患者提供更好的医疗服务体验。
第三,预防性医疗服务。运用医疗数据运营,可以实现更加预防性的医疗服务,提前识别潜在的健康风险,并采取预防措施,降低患病风险。
11.1 医疗数据应用痛点分析
医疗数据应用最核心的问题是隐私问题。毫无疑问,健康数据是个人最隐私的信息之一。原则上, 个人必须是其健康数据的所有者。我们必须尽可能保障个人的自主权,由个人决定哪些人何时可以访问自己的哪部分健康数据。我们还必须制定安全标准来规范数据交换和数据保护方式,从而使数据能够真正用于研究和分析。正因为个人医疗数据的隐私问题,医疗数据面临了诸多痛点,包括医疗数据分散、数据质量差、标准不统一等问题。
11.1.1 个人医疗数据分散
个人医疗数据主要依据就诊、体检、住院、问询等,在特定医疗机构形成过程记录数据,分散存储在各医疗机构信息系统内部。医院内部采用电子病历系统(HIS)实时记录患者的医疗记录,个人(患者)通过医院的小程序、公众号、App等可以进行预约挂号、缴费、查看一定时期内的检验检查结果、影响报告等。由于医院之间信息不互通,个人很难全面掌握完整的健康诊疗奻据,更别提基于个人医疗数据的应用。
11.1.2 医疗数据质量不高
不同医疗机构的信息化程度不同,标准也不统一,还处于业务数据化阶段,因此缺乏对数据质量的管埋。医院信息化系统主要包括医院信息系统(HIS)、实验室信息管理系统(LIS) 和医学影像存档与通讯系统(PACS)。这三个主要系统包括了个人健康的挂号、问询记录、处方记录、检验报告、影像检查数据等。不同的医院部署的信息系统可能厂商不同、版本不同、使用习惯不同,数据散落在各信息化系统。随着医院数字化转型不断推进,不少医院启动了医疗数据系统建设,开始推动数据业务化,提升医院内部效率。然而, 医院数字化转型需要面临的核心问题主要是数据质量不高的问题。 医院经营的目标是为当下的患者提供医疗服务,医疗数据主要是服务于当下,很少会关注历史数据的价值,这也是导致医疗数据质量不高的原因。
11.1.3 数据隐私阻碍共享
个人医疗数据隐私问题阻碍医疗数据共享。医院内部的数据原则上严格隔离,不对外开放共享,除了以下几种场景:
第一,为了确保全面的医疗服务,医院内部不同科室实现有条件共享患者的医疗数据;
第二,医联体内部的远程会诊、远程问诊;
第三,医疗检验检测结果互认可以基于行政命令或政策实现有条件共享。
目前,医疗数据共享应用主要在大型医疗机构内部进行,尤其是医疗集团,通过集团内部共建基础设施的方式,实现集团内部医院数据共享,主要是服务于多方会诊、病理学研究等场景。考虑到医疗数据的敏感性和隐私性问题,医疗数据只在集团内部共享,不对外开放。
医疗数据共享困难的核心原因主要有两个方面:
一方面,缺乏有效的数据安全保护措施,是医院数据对外共享困难的核心原因;
另一方面,医疗数据共享所带来的收益很难覆盖信息安全、商誉等所带来的损失。
因此,医疗数据共享需要从小处着手,避免切面过大而导致医疗数据服务类应用不确定性风险过高,导致医疗共享目标无法达成。
11.1.4 医疗数据泄露时有发生
医疗数据对商业保险、制药企业、医药销售企业等机构具备较大商业价值,在缺乏有效的监管时,很容易出现信息过度提取和分析,导致个人信息和隐私泄露。例如,在商业保险领域,老年人投保、带病投保问题突出。商业保险公司需要对特殊疾病人群保费进行测算,不仅需要知道投保人群的数量、治疗所需要的平均费用,还需要了解特定地区患病人群数量和趋势等信息,从而更好地设计保险产品。商业利益容易驱使导致地下交易医疗数据。通过政务服务提供医疗数据服务是将医疗数据阳光化的一种重要途径。
11.1.5 互联网医疗服务信息安全缺失
互联网医疗催生医疗数据服务新形态。根据中国互联网络信息中心(CNNIC)发布的第52次《中国互联网络发展状况统计报告》,截至2023年6月,我国互联网医疗用户规模达3.64 亿人,较2022年12月增长162万人,占网民整体的33.8%。截止至2024年1月,中国主要的互联网医疗平台包括阿里健康、京东健康、平安好医生、微医、百度健康、春雨医生、丁香医生、好大夫在线、医鹿、微脉。这类互联网医疗平台日前提供线上问诊和药品销售,在缺少个人健康医疗数据情况下,获取这些数据的途径依然是在线问答或者人工手动输入,这直接限制了平台的服务质量和体验感。同时,由于线上沟通模式无法全方位实现望闻问切,变相增加了医疗事故发生的风险系数。假如,互联网医疗可以在用户授权的情况下,执业医生通过远程查验病人检验报告等数据,可以较大降低远程诊疗风险。
11.2 基于可信数据空间的医疗数据服务方案
在数据要素x医疗健康的数据要素场景中提到要有序释放健康医疗数据价值。在医疗数据价值的应用场景中,最先需要解决的是数据隐私和安全问题,然后在此基础之上寻找医疗数据服务价值的切入点,实现医疗数据价值的释放。基于可信数据空间的医疗数据服务方案是围绕医疗数据主体构建可信数据空间,明晰数据主权,提供可验证的数据安全防护方案,再围绕数据服务应用,构建应用场景,发挥数据价值。本节结合具体实践,论述基于可信数据空间的医疗数据服务方案。首先对医疗数据服务的需求进行分析,并以陪诊陪护的数据服务为例分析医疗数据服务的需求点。然后以陪诊陪护为例讲述医疗数据服务的方案,并结合运营和商业推广的模式,分析陪诊陪护案例的服务方案。由于该方案还在不断探索阶段,编者希望通过这种方式引发对医疗数据运营的思路,从而找到更多的应用场景。
11.2.1 医疗数据服务需求分析
随着国家政策、国家健康战略、民生需求的不断演变,商业需求和用户期望也在发生变化,提供更为精准、个性化的医疗健康数据服务将是未来行业的发展趋势和市场机遇。通过满足这些市场上未被满足的需求,本场景通过可信数据空间让医疗数据安全服务民生和商业机构,既有社会效益,又有经济效益,还能进一步促进数据汇聚,提升数据要素价值。
(1)民生需求
国家的全民健康发展战略、现代个人的健康管理需求催生了居民对于自身健康管理更高阶的需求,目前的行业现状无法完全满足居民的以下四点民生需求:
①健康全生命周期管理需求。居民希望全面了解自身健康状况,从生命各个阶段获取有效数据。例如希望能够掌握个人从出生、入学、毕业、参加工作、结婚、生育直到退休和养老阶段的健康状况全生命周期数据。
②健康分析需求。结合目前我国慢病人群庞大,慢病潜伏时间长、治疗周期长,治疗要进行严格过程管控等特点,居民对以人工智能技术从数据中挖掘疾病信号、康复信号有内在需求。
③高质量医疗健康数据需求。居民期望积累连续性、周期性的健康数据,而不只是单一的某项检查结果、某个医院的数据。
④个体化医疗体验需求。居民对于更个体化的医疗体验有着增长的需求,希望能够通过服务提供方获得更为准确和精细化的个人健康数据,从而提升医疗建议和服务准确率。
(2)商业需求
截止至2023年9月,全国互联网医院已超3000家;截止至2024年1月,全国已有数百家陪诊陪护服务机构,其中注册地在湖南的陪诊陪护服务机构已有20余家;2022年全国药店总数已突破62.3万家,其中零售连锁家数6650家,门店总数约36万家。这些机构的主要业务是为患者提供线上线下问诊和陪诊陪护服务,由于这两种服务机构存在个人医疗健康数据缺失的普遍现象,因为降低了服务效率和准确率,间接提升了医疗事故风险。市场中这类服务机构的商业需求未被充分满足的情况主要有:
①精准医疗能力提升的需求。目前的线上线下问诊、陪诊陪护服务机构没有条件获取足够的精准医疗信息,缺乏深度的个性化健康数据分析和服务。
②服务效率提高的需求。将传统的患者线下打印病历、诊疗结算单据到保险公司申请理赔的过程转移到线上全自动完成,可将原需“7~15日”的审批报销流程缩减为30分钟内,减少保险公司人工投入,提高就诊群众理赔体验,减轻个人费用负担。商业保险客户出险报案或申请理赔(超过一定金额标准)后,保险公司依据保险合同对出险人身份、保险事故等进行核实。智能理赔调查3~5秒即可返回调查结果,同时降低调查成本60%以上。
③医疗数据价值挖掘和释放的需求。陪诊陪护服务、健康疗养服务可以通过更好地利用患者的健康数据,实现数据挖掘和应用,提供更精准、个性化的医疗服务,从而打破目前服务形式的局限性。
(3)以陪诊服务为例分析
医疗陪诊陪护领域,目前主要的服务机构包括两大类:公益服务类和商业服务类。
公益服务类一般由医院与公益机构共同发起,例如2023年6月湖南省肿瘤医院、湖南康爱肿瘤患者服务中心(康爱公益)及权威媒体共同发起的公益项目【异地就医爱心陪诊项目】进入试运营阶段。该项目旨在帮助异地来湖南省肿瘤医院就医的肿瘤患者提高就诊效率,节省就医的时间和人力等成本,在陪诊过程中给予患者及家属关怀与支持,减轻并纾解其各方面的心理压力。
商业服务类以“桔小跑”“微医保”“美团头药”为例,分别可以提供体检陪同(含上门接送)、全天陪诊(含上门接送)、出院办理(含送客到家)、半天陪诊(含上门接送)、医疗险产品、健康险产品、医药和医疗器械、康养护理和调理等数百项有偿产品和服务。
在陪诊陪护服务对接过程中会存在信息差,导致诸多问题。
一方面,患者找陪诊陪护服务人员存在信息差。比如服务对象所需的陪诊陪护人员需求无法有效提炼,从而无法找到合适的服务人员。陪诊陪护服务虽然捉供的服务类似,可是不同类型的患者对陪诊陪护服务人员的要求不同,包括服务人员的能力、健康状况、执业资格等。在线上寻找陪诊陪护人员时,如何保障陪护人员服务质量,如何保障服务人员可信,都是问题。
另一方面,用户需要告知病历或口述陪诊注意事项。这个过程容易引起病人不适,甚至对病人造成心理负担,且沟通效率不高。
针对服务过程中需要的信息不对称和存在的沟通障碍,可通过医疗数据安全共享来解决。
11.2.2 基于可信数据空间的陪诊陪护方案
在医疗数据应用痛点分析中,编者分析了医疗数据面临的具体问题。随着数据要素在政务领域的先行先试契机,各地政府开展政务数据运营试点示范。借助地方政府收集的医疗数据、医保数据、人社数据,可以有效地解决数据汇聚的问题,从而为医疗数据服务提供较好的支撑。通过从政府侧获取医疗相关数据,可以避免直接从医院获取数据的难点。然而,医疗数据隐私问题依然需要解决。本节以长沙市陪诊陪护应用场景为例,重点介绍基于可信数据空间的医疗数据安全解决方案。
(1)陪诊陪护应用场景
安心陪诊服务(星城陪诊)是为老年人、孕妇、残疾人等特殊人群、异地诊疗人群、独行年轻人等提供的线上预约陪诊陪护服务。通过政务数据安全运营,让需要陪诊陪护的人员和陪诊陪护人员实现高效、安全的供需对接。
一是基于用户需要,高效推荐匹配的陪诊陪护人员,并提供陪诊陪护人员安全认证和服务保障;
二是基于陪诊陪护人员需要,快速完成病患陪诊陪护注意事项沟通、核实是否有传染疾病、确认陪护需求和保障合理收入;
三是基于政府、医院维护陪诊陪护市场秩序,形成既有竞争又有保障的市级陪诊陪护服务平台。
陪诊陪护小程序
陪诊陪护市场虽然有需求,但依然是低频、非刚需互联网本地服务,仅仅提供陪诊陪护服务很容易陷入发展瓶颈很难扩大规模而实现盈利。为此,陪诊陪护采用B2B2C的商业模式,通过政务数据优势,形成整合地方陪诊陪护企业和服务人员资源,提供规范化的陪诊服务,并提供服务保障的通道。基于政务数据的医疗服务应用的优势在于通过政务数据的公信力为平台提供了一种安全保障,并通过地方民生服务入口,可以形成一个稳定的流量入口,再结合如美团、抖音、咸鱼等互联网本地化服务社区引流,实现本地化的特色服务。
(2)医疗数据安全服务方案
在政务数据运营场景中,医疗数据存储在政务云,而对公的运营服务在公有云,为保障政务数据运营的安全,政务数据服务出口需要提供安全防护措施,确保数据安全。政务数据运营的核心规则是“数据不出域”,也就是对保管的企业法人和自然人的数据不出域。为此,需要基于可信数据空间概念,通过隐私计算等技术实现“数据不出域”。具体来说,在陪诊陪护场景中,如果用户需要核实陪诊陪护人员是否在企业缴纳社保,需要得到平台和被查人员授权,同时还必须提供查询目标信息核验,确保查询针对的范围只是针对授权个体,且只返回结论性的答案。例如回答:某陪护人员在某企业已正常缴纳社保。从而可以政务数据验证陪护人员身份的真实性。
通过政务云医疗数据运营平台与数据加工平台和公有云的数据加工平台形成可信数据空间,为个人健康应用系统提供安全的医疗数据服务。在此场景中,形成了以政务数据为主的供给方数据空间和以数据运营企业为主的需求方数据空间,他们通过可信数据空间中的区块链、隐私计算、联邦学习等技术,既解决了医疗数据不出域的问题,也满足了数据运营环节中数据差异化需求,使得数据需求方可以基于自有业务数据和政务数据隐匿查询、联合建模等,实现基于医疗数据运营诉求,为政务医疗数据供得出和用得好提供了切实解决方案。
基于可信数据空间的医疗数据方案
基于可信数据空间的医疗数据方案数据流程过程如下:
①政务数据资源池内经过数据加工平台(政务)进行数据加工,输出到医疗资源运营库;
②将医疗资源运营库以数据目录发布的形式(含样例数据)发布至医疗数据开放运营平台(医疗可信数据空间载体),源数据此时依然保存在医疗资源运营库中;
③数据加工平台(公共)提供申请加入运营功能,数据使用者可向医疗数据开放运营平台申请数据运营权限;
④医疗数据开放运营平台授权数据加工平台(公共)对数据运营使用;
⑤个人健康应用系统向数据加工平台(公共)申请数据访问权限;
⑥数据加工平台(公共)将数据访问权限申请转发给医疗数据开放运营平台;
⑦数据加工平台(公共)将数据访问权限申请结果返回给个人健康应用系统,若申请通过,个人健康应用系统将具备数据使用权限;
⑧针对已授权使用的数据,数据加工平台通过隐私计算的方式将政务数据资源池中的复杂数据分发给医疗数据开放运营平台,也可以经过医疗资源运营库的现有数据直接服务于医疗数据开放运营平台;
⑨医疗数据开放运营平台通过API网关提供的数据服务(含测试和运行)将隐私数据发送给个人健康应用系统;
⑩针对N个医疗健康服务机构,可选择向健康数据市场发送API调用申请;
⑪健康数据市场将API调用申请转发给医疗数据开放运营平台,由医疗数据开放运营平台决定是否授权给该机构API调用的权限;
⑫授权成功后,医疗数据开放运营平台将返回医疗健康服务机构所需的API数据。
(3)医疗数据共享流通方案
针对医疗数据共享流通场景,本系统的流程。
医疗数据共享流通业务流程图
数据运营管理员将医疗数据发布至数据交易市场,交易市场管理员处理数据准入请求,并进行数据标准确认,将审核通过信息、返回给医疗健康数据开放运营平台,平台端也可以选择将已发布在交易市场的数据进行下架。
针对场景应用端,可通过登录数据交易市场查看已发布的医疗数据资源目录,根据自身业务的需求,申请订阅使用数据资源,该申请通过空间发送给平台端,平台经过审核后基于数据使用权限,数据订阅成功后,应用端可在不获取原始数据的条件下完成医疗数据的加工与应用。
11.2.3 星城陪诊平台设计
(1)总体设计
本场景基于政务医疗数据资源,建设医疗健康数据开放运营平台,向上支持医疗数据运营多个应用场景。基于目前的调研分析和数据特点,支撑应用以陪诊陪护为主,医疗数据服务和健康管家为辅,构建地方医疗数据服务运营场景。
医疗数据运营总体设计图
基于长沙市政务医疗数据,向医疗健康机构提供有偿的市场动态分级分类数据,包括但不限于向医疗机构提供的医保费用结算、病种数据分析、用药需求分析、消费商圈统计分析、人群画像分析、需求趋势分析等。
通过移动端个人健康服务管家的建设,让个人用户拥有专属的健康管家,一方面通过主动式健康预警提醒帮助个人用户及时发现自身健康;另一方面不断促进个人用户完善自身的健康数据能力,通过持续运营不断激发居民的健康管理内生需求,推动数据资源丰富、数据质量提升、医疗健康服务多元化升级,是实现数据要素价值化的在民生服务中的重要体现。
(2)星城陪诊平台设计
通过融合患者用户信息数据、陪诊师可信认证数据和陪诊订单管理系统数据,连接一老一小、残障人士、陪诊师,为市民提供安心陪诊陪护服务。通过政务数据核验提供个性化和安心的陪诊陪护服务。通过患者用户信息数据提炼陪诊陪护所需的标签数据,避免在陪诊陪护过程中泄露个人隐私信息。通过陪诊师的个人档案、教育认证、技能认证、设备参保、就业单位、定级定档数据提供可信认证。通过陪诊订单管理系统管理服务评价、接单数量、流水明细、服务时长信息对服务人员进行星级管理,提高陪诊陪护服务人员总体水平。
陪诊陪护功能结构图
星城陪诊平台面向医疗健康服务场景,通过对政务数据进行加工处理,实现为社会提供数据产品和服务。按照数据不出域的要求,基于医疗数据可信数据空间协议,与政务云的政务数据形成数据要素流通的供需两方,通过医疗数据运营服务平台的可信数据服务能力,为陪诊陪护提供安全、可信、防数据泄露的数据服务能力。
(3)陪诊陪护小程序功能设计
陪诊陪护小程序是用户获取陪诊服务的主要窗口,通过陪诊陪护小程序或者嵌入页面实现陪诊陪护的用户接入。陪诊陪护人员通过服务端进行接单和个人信息维护。陪诊机构管理端供陪诊陪护机构对陪护人员进行管理和信息维护。政府通过监管、审批、授权医疗信息数据服务平台对平台数据服务进行审批和监管。下面仅仅介绍陪诊陪护用户端功能介绍医疗数据服务所带来的体验优化进行介绍。
陪诊陪护需求(陪诊预约)的信息包括三个方面:
一是基本信息,包括就医医院(系统提供医院列表可选)、就诊人(通过关联湖南居民健康卡,获取本人和家属信息)、就诊时间、就诊科室等;
二是语言方言信息,比如选择“长沙话”“浏阳话”“湘乡话”等)方言标签;
三是定制标签信息,患者可以选择“儿童护理”“心血管疾病陪诊经验”“残疾人护理”“3年以上陪诊经验”“熟悉妇产科” 等特定标签。
陪诊小程序预约界面
患者或亲属通过陪诊陪护小程序时,可以选择授权平台调取患者健康档案,生成陪诊陪护需求标签,并可基于个人需求定制特定表,从而为后续陪诊师智能推荐提供数据标签。
陪诊师智能推荐
系统根据患者输入的陪诊需求,与授权的政务开放数据进行隐私计算,形成患者的画像, 比如老年人、孕妇、特殊人员、残疾人等需要特殊照顾人群信息,通过算法模型,匹配出最适合的几位陪诊师,推荐给患者进行选择。
陪诊师可信认证信息查看
患者点击陪诊师“可信认证”按钮,可以查看一位陪诊师的可信认证详情,包括陪诊师的个人身份信息、无犯罪记录、职业技能证书、社保缴纳情况、健康证、健康情况。其中个人身份信息与人口库数据进行验证,无犯罪记录与公安部门的数据进行认证,社保缴纳情况与人社部门数据进行认证,健康证信息与卫健部门数据进行认证,个人健康状况与卫健部门的传染病数据进行验证(防止传染病传播)。
陪诊下单
患者选择一名陪诊师后,进行下单。系统后台通过服务端告知所选陪诊师,进行订单确认。陪诊订单通过后,用户和陪诊师可以通过小程序实现双向联系。
陪诊师现场身份确认
在患者与陪诊师现场碰面后,患者可以扫描陪诊师佩戴的工作牌上的二维码进行身份确认。患者不方便在现场扫码的,亲友可以远程输入陪诊师编号或订单链接进行身份确认。陪诊师身份确认后,现场陪诊服务开始计时,直到陪诊师在服务端点击陪诊结束按钮,现场陪诊结束计时。
订单支付
陪诊师的陪诊服务完成后,患者通过就诊端小程序进行线上支付,通过平台提供按需支付服务保障能力。
代办服务
代办服务包括代问诊、代开药、代办结算、取寄报告、代挂号等服务,代办服务直接下单支付即可,具体服务情况可以线下咨询。
11.2.4 陪诊陪护运营模式
医疗数据运营是医疗数据要素价值发挥的关键。构建政务医疗数据价值化的正向循环,通过数据取于民、用于民的思路,以及安全保障方式,促进数据开放。通过可信数据空间解决方案,构建的医疗数据服务平台解决医疗数据安全可控流通,使得医疗数据变现成为医疗数据应用的关键点。构建可运营的商业模式是本方案的关键,而运营模式设计关乎数据应用场景是否可以持续运营的关键。本节对运营模式和用户进行简要介绍。
(1)运营模式
本场景基于医疗健康数据特征,核心用户分为企业端(B端)和市民端(C端),基于政务数据来源和服务特征,主要运营收费模式以B端商业收费服务为主,C端增值服务为辅。提供的服务主要包括个人健康服务、陪诊陪护服务和医疗数据服务。个人健康服务主要是通过医疗数据分析免费为用户提供个人健康报告、信息检索服务,并通过定制分析报告、共享医学影像等增值服务。陪诊陪护服务主要是通过B端用户向C端用户提供安心陪诊陪护服务,通过政务医疗数据提供陪诊陪护信用基础。医疗数据服务主要是通过给医疗机构、制药企业、连锁药店等提供行业分析报告、医保清算核拨、顾客行为分析等。在医疗数据服务场景中,B端购买数据服务模式,例如新药市场投放、特药人群筛选、区域用药报告等,由于频次更低,本节主要以C端用户的陪诊陪护服务为主介绍运营模式。
医疗健康数据服务的运营模式
在陪诊陪护服务中,C端用户可以通过B端服务付费,B端用户为C端用户提供服务获利。C端用户主要是患者或者其亲属,B端用户主要为提供陪诊陪护人员管理的陪护机构,B端服务机构通过分成订单收益获利。
(2)C端用户
C端用户指的在陪诊陪护小程序或其他直接消费医疗数据服务的用户。C端用户通过在陪诊陪护平台检索数据服务,并完成订单提交、订单支付和订单评价,获取安心陪诊服务。基于政务医疗数据服务的运营模式与常规的陪诊陪护服务的优势主要表现在:
第一,解决了C端用户对B端机构提供陪护人员的信任问题,包括陪护人员基础信息、社保信息、职业资格信息;
第二,通过患者的标签数据与陪护人员的标签数据匹配,快速获得匹配服务人员;
第三,基于政务医疗数据提供的服务保障,使得C端用户更放心。
C端用户的运营主要通过互联网渠道引流、医院导诊台引流、护士站引流等多种方式。由于陪诊陪护的公众认知度、服务接受度等方面普及度远远不够,因此,需要借助现有流量平台实现导流。在长沙政务医疗数据运营场景中,通过“我的长沙”App的本地服务运营,可以快速实现推广。由于陪诊陪护服务属于本地社区范围服务,因此线下推广效果更好。
(3)B端用户
B端用户包括陪诊陪护机构和需要获取医疗数据服务的机构。在陪诊陪护场景中,B端主要提供陪诊陪护人员资质管理、人员培训、售后问题处置等。对于获取医疗数据服务的机构,主要是通过线上直接提交数据订阅需求完成。基于政务医疗数据服务的运营模式与常规的陪诊陪护服务的优势主要表现在:
第一,通过政务医疗数据运营,可以为陪诊陪护服务提供规范化的行业平台,有利于做大陪诊陪护产业;
第二,对于线下陪诊陪护机构面言,流量是其运行的关键,通过加入区域性的平台可以提高客流导入效率;
第三,通过政务医疗数据,可以提升用户服务体验,从而可以做大陪诊陪护市场,对机构有利。
B端机构的运营主要是通过做好现有机构服务,以正向螺旋扩大平台机构数量。通过医疗数据运营提升用户体验和口碑,不断下沉市场,以医院周边为推广点,逐步规范陪诊陪护市场,促进行业发展。类似于贝壳网的真房源一样,基于医疗数据运营模式以“专业、靠谱”方式将陪诊陪护市场规范化运营,从而将市场边界不断扩大,从银发经济中做大规模。
11.2.5 陪诊陪护实施路径
数据要素价值发挥离不开特定行业专家。数据要素属于信息化领域,医疗则是另一个全然不同的领域,如果提供数据要素价值化的企业下场经营陪诊陪护行业,则会遇到很多难以逾越的障碍。例如,陪诊陪护人员哪儿找?陪护人员如何培训和管理?遇到客户投诉怎么办?这是很细分的一个领域,因此基于医疗数据的运营需要采取联盟策略,并通过数据价值服务细分行业,提升服务体验才能实现数据要素价值化。以下是陪诊陪护运营的实施路径。
(1)构建行业联盟,借船出海
为快速启动医疗数据价值化路径,需要联合领域专家和成熟企业,快速实现经验积累。每一个细分赛道都有自己特有的运行逻辑,即使是商业链条简单的陪诊陪护市场,也有巨多特有的逻辑。通过构建行业联盟,将陪诊陪护服务通过联盟成员实现,平台专注医疗数据价值化,提升用户体验,扩大市场接触面。
由于陪诊陪护市场已经有企业已经搭建了完善的陪诊陪护服务平台,借助数据要素赋能,提升平台陪诊陪护服务人员的信息认证和匹配效率,提供服务保障,导入流量等方式,与现有成熟陪诊陪护平台合作,借船出海。
(2)强化医疗数据运营,做实服务保障
当陪诊陪护平台启动运营后,重点是强化数据运营能力,切实通过数据要素价值化逻辑,做实服务保障。
一是通过政务数据核验陪诊陪护人员的身份信息、执业资格信息等,确保服务人员可以稳定提供顾客所需陪诊陪护服务;
二是通过政务医疗数据加快患者与陪诊陪护人员的信息匹配、陪护要点沟通,提升服务体验,提高客户满意度;
三是通过政务数据提供服务保障,规范化陪诊陪护服务市场。
(3)做优用户体验,做大行业规模
陪诊陪护市场目前还处于小众市场,公众了解有限。随着老龄化人口增多、城市人口流动加速、情感陪伴需求增大,公众对陪诊陪护的需求不断提高。目前该行业的核心痛点在于陪诊陪护的用户体验不好。
一是需求匹配难。老年人和年轻人对陪诊陪护的需求不同,对陪诊陪护服务人员的年龄、经验需求不同。需求匹配难的问题需要通过引入差异化的陪诊陪护服务机构,扩大陪诊陪护服务人群,通过市场机制引导市场供需匹配,最终实现用户体验优化。
二是信任构建难。陪诊陪护的过程短,而“陪”很大程度上是需要情感认同,而短时间内构建信任相对比较困难。为此,通过政务数据、历史数据可以提升建立信任的效率。
三是服务保障难。陪诊陪护服务一般发生在相对私密的近距离空间,服务过程缺少监督,主要依靠服务人员的自觉、历史评价和支付保障成为服务保障的重要抓手,
通过基于政务医疗数据的运营模式,可以提供可信的历史评价和支付保障,为服务保障提供支撑。通过优化需求匹配、信任构建和服务保障,提升用户体验,可以进一步提升公众认知度,从而规范该行业,并做大行业规模。
11.3 医疗数据安全可控服务价值体现
通过上节对基于可信数据空间的陪诊陪护方案分析,编者认为基于医疗数据在具体场景中的价值化应用具有重要意义。主要表现在如下三个方面:
一是通过可信数据空间技术,使得极具价值的政务医疗数据取之于民,用之于民;
二是通过政务医疗数据本身具备的可信特点,为市场注入新活力、新动能,使得原来推动困难的产业焕发生机;
三是通过可信数据空间的定制化数据加工能力,可以引导医疗市场开启数字化进展,有利于提升行业整体水平。
下面将详细论述其数据要素价值发挥的逻辑。
11.3.1 政务医疗数据取之于民,用之于民
政务医疗数据的形成是政府为更好地服务市民而收集的数据,这些数据包括个人的公民基础数据、社保数据、健康状态数据、职业资格数据等,也包括医疗相关的医保数据、就诊数据、体检数据等。在传统的政务服务模式下,政务医疗数据只限于提供政务服务和个人使用,无法对外开放。
基于可信数据空间的政务医疗数据运营模式,开拓了一种新思路。通过将政务医疗数据放置到可信数据空间中,既可以保护个人隐私信息,又可以数据价值化的方式为市民提供优质的服务。从上文介绍的陪诊陪护案例中,通过提供陪护人员基础信息、职业资格等的核验结果,可以确保平台服务人员真实性,且满足用户需求标签。另一方面,通过医疗数据可以核验患者的必要信息,包括是否是传染病患者,是否是行动不便患者等,以此来提高供需匹配效率。这个核验过程就是通过政务医疗数据提供的数据价值,将数据取之于民,而用之于民。
11.3.2 政务医疗数据推动新旧产业升级
政务医疗数据可以推动新旧产业升级。以陪诊陪护为例,该行业已经存在多年,为老年人、行动不便、儿女不在身边、需要陪伴的人群提供了便利。该产业一直以不温不火的形态存在医院周边,由于天然存在信任问题,呈现出区域性、小众性特点,产业规模很难做大。通过政务医疗数据的应用,可以用数据解决信任问题,提高供需匹配效率,提供服务保障,从而推动该产业升级。陪诊陪护还只是一个区域性、非高频业务场景,通过政务医疗数据的价值化探索,都可以使得这个产业焕发出新的生命力,那么在众多医疗数据应用场景中,可以探索出更具价值化的路径。
11.3.3 政务医疗数据提升行业整体水平
政务医疗数据的应用可以提升相关企业的数字化应用水平。企业数字化转型已经实施多年,不少企业从中获得转型升级带来的红利。过去,企业数字化转型主要是针对企业内部的数字化转型,通过优化生产管理、优化用户体验,由于这些数据均来自企业业务过程,因此具备较大的封闭性和局限性。现在,通过政务医疗数据的运营模式,医疗相关企业数字化转型的数据就可以综合政务医疗数据,实现更大范围的数字化转型升级。
以新药试药人群发现为例,过去药企研发企业在获取新药试药人群时,往往是盲人摸象,投入了巨大精力,但收获较小,且勇于尝试的病患也不清楚从何处获取新药。通过医疗数据运营模式,药企可以基于疾病特征信息在一个城市甚至更大范围内,快速匹配到类似病症的用户群体的医院科室,针对性的进行新药人群推广,以此来提高获取试药人群的效率。
通过数据价值化的探索,使得企业数字化转型可以进入全新视角,从而有望激发企业运营数据价值的能力,提升企业竞争力。随着尝鲜企业获得竞争优势后,其他企业也会加强数据价值化的应用探索,从而提升一个行业的数据应用水平,乃至提升行业整体水平。
11.4 医疗健康数据应用展望
医疗数据的收集、处理、分析和应用在数据要素时代具备极高的价值,在提升群众就医便捷度、优化医疗理赔结算、提升中医药发展水平等方面具备较大价值。然而,医疗数据的安全保障一直困扰着医院和政府,通过上述可信数据空间的模式,在保障数据安全的前提下,将数据与医疗服务机构、研究机构以及市场的主体连接起来,探索医疗数据应用场景可以激发诸多想象。以市场化运作方式,在保障患者个人信息安全的基础上,从医疗费用优化着手是医疗数据运营的关键。通过可信数据空间的模式将医疗数据综合起来,探索医疗数据应用,于个人、于家庭、于国家都是有益的。
11.4.1 医疗数据运营应用展望
医疗数据运营产业的前景在未来非常广阔,主要受益于医疗领域数字化技术的发展以及医疗领域对成本优化的需求。本节从患者的角度概述医疗数据运营应用展望,在下一章节概述医疗数据在新药研发、虚拟医生等领域的应用展望。
现代医学取得了非凡的成就,这是无可争议的一个事实,但医疗费用却逐年攀升。在过去的100年间,人类的预期寿命翻了一番,从20世纪初的40~46岁,提高到现在的69岁。不断增长的预期寿命带来的是大量非传染性慢性疾病患者。常见的非传染性慢性疾病包括五种:心血管疾病、慢性呼吸系统疾病、糖尿病、心理疾病和癌症。这些病都不会立即致死,但也无法立即治愈,导致全世界所有国家面临医疗费用的上涨的问题。据世卫组织的报告,大约一半的非传染性疾病风险是可以人为控制的,以心血管疾病为例,人们可以通过预防以降低80%的患病风险。通过医疗数据和医疗数据运营模式优化并指导大量非传染性慢性疾病患者保持良好生活习惯,提供预防性医疗服务,并在就诊时,通过数据提供精准治疗,优化诊疗效果,降低总体医疗费用。
(1)精准医疗:专属于患者本人的治疗
在数据要素新时代,治疗方式将从标准化的治疗方法向个性化的治疗方法转变。这种个性化治疗是某于已保存的患者全部真实世界数据(血液检测数据、X射线影像、CT影像、MRI影像、组学数据、微生物组和生命体征数据等)而制定的。真实世界专属个人医疗数据库有助于持续优化治疗方法,医生在治疗过程中会根据患者的历史数据特征做出诊疗方案。这种通过患者本人数据形成的个人健康档案,可以为患者本人后续医疗提供精准的数据。
(2)货比三家:第二诊疗意见服务
癌症的诊断和治疗日益复杂,涉及很多专业术语。在参与决策过程中,不仅是医生,没有医学背景的患者更难在各种诊疗方案中做出正确选择。于是,对于第二意见、第三意见的需求越来越多。在欧美国家,获得第二诊疗意见是患者的一项基本权利。随着线上诊疗日益被接受,中国需求第二意见的病人渐多。在寻求第二意见过程中,对于诊断报告、医学影像等患者医疗数据的准确、高效传递是面临的一个较大问题。在医院之间调档一般需要临窗办理,且档案形式更多的一些过程性和结论性数据,在寻求第二诊疗意见时面临信息不全、效率不高的问题。通过上述可信数据空间的模式,可以加速第二诊疗意见服务的优化。
(3)重视疗效和医疗透明度:按效果付费
在数字时代,医疗费用将取决于医疗透明度和实际达到的疗效。未来,患者不是为自己获得的医疗服务付费,而是为服务结果付费。只有出现积极的结果时,患者才会支付医疗费用。患者数据的数字化采集和共享提高了医疗透明度,通过个人健康数据的重复流动,可从根本上为实现这一目标奠定基础。
(4)预防医学:上工治未病
在非传染性慢性疾病领域,预防医学和诊断跟踪的地位尤为重要。但是,到目前为止,用于疾病预防方面的支出却非常少,仅占医疗费用的3%。通过个人健康数据分析,虚拟医生会主导个人慢性疾病的管理,从而减轻医生的负担。数字化追踪器会帮助患者持续记录生命体征数据。通过数据诊断跟踪,医生便可以根据患者的所有情况与他们沟通预防性保健问题。医生将同时担任患者的教练,负责纠正患者的行为习惯,并获取相应的报酬。这类通过医疗数据,通过市场化的激励机制,强化慢性病患者更好地保持良好习惯,做好预防性防护,从而实现中国古代医学最高境界:上工治未病。
11.4.2 医疗数据与大模型应用展望
据不完全统计,2023年底国产医疗AI大模型数量已超过40个。AI在医疗影像领域一直以来是热点,在大模型出现后,各大互联网巨头纷纷入局医疗大模型,试图提供远超人类医生的AI助手,也有将机器人应用于新药研发,尤其是分子类药物的研发。然而在大模型在医院落地过程中,往往需要私有化部署,究其原因是需要保障医院数据隐私与安全。在数据要素新时代下,通过可信数据空间的模式,保护医疗数据安全的前提下,大模型应用有望得到长足发展。
《财经》杂志社 记者 辛颖《财经(2024年第1期)》医院为何对前沿AI不感冒?
(1)虚拟医生
在美国,有一家叫作Enlitic的公司,通过给人工智能输入大量的放射图像和相应诊断结果,来训练人工智能识别X射线图像的能力。根据测试,人工智能在影像识别上的速度和精度已经远超放射科的医生,哪怕针对罕见组织病变的检测,人工智能凭借其海量的图像检索和比照功能,以及对患者医疗数据的统合和分析能力,它的表现仍然比放射科的医生要好。中国也有公司在推进这一技术的开发和运用,比如万里云公司,它成立于2009年,也致力于提供医学影像分析服务。目前已有1600多家医院与它展开了合作,这有助于缓解中国放射科医生和肿瘤科医生数量过少所造成的压力,并推动诸如肺癌等疾病的筛查项目。目前这类服务商更多是通过和医院合作,获取已标记好的医疗影像数据,从而实现在特定领域的突破。随着数据要素市场的推动,各维度的数据获取成本会更低,围绕更加通用的医疗目的创新将会更加容易。例如,当通过汇聚特定疾病的病历数据达到一定规模时,通过大模型训练的“虚拟医生”将会为医生提供全球诊疗知识,从而为医生做出最优决策提供重要参考依据。
“虚拟医生”毕竟不是医生,由于缺乏人类情感体验,也无法感知人类对诊断结果的心理反馈,在国内还存在执业资格证的问题,这些问题会影响医疗数据的价值发挥。不过,通过积累的个人数据构建的专属医疗档案库,可以为辅助诊疗,健康助理等提供便捷服务,也可以为医生提供快速参考依据。随着技术的成熟,“虚拟医生”也许还可以具备个人情感偏好,设定知情权力和不知情权力,确保医疗数据在受控的环境下发挥其价值。
(2)新药研发
如今机器人变得越来越智能,它不仅能执行重复性的任务,还可以执行认知和研究任务,这让它们可以在排查候选药物等事项中发挥重要作用。比如剑桥大学曾开发了两款实验室机器人,分别为“亚当”和“夏娃”,它们能够提出假设、测试假设,并根据试验结果调整假设,由此来快速寻找可能有效的药物成分。此前它们帮助研究人员发现了多种热带疾病的候选药物,虽然目前研究结果还停留在体外阶段,一旦在临床研究上得到证实,那么这两个机器人的工作便有可能造福数百万人。万维钢老帅在《万维钢-AI前沿》课程中介绍了众多研究者在《自然》杂志发表的一篇AI在科学发现应用,其中新药研发就重复利用AI的自监督学习机制实现训练,再结合少量的标记数据作微调和筛选,从而判断最有可能成为有效新药的组成成分。
第十二章 细胞制剂过程数据可信应用
干细胞是一类具有增殖、分化、自我更新能力的起源细胞,被医学界称为“万用细胞”,可用于组织器官的损伤修复和抗衰老,在促进人类健康和治疗重大难治疾病方面具有巨大的应用潜力。
细胞治疗作为生物产业的重要分支,具有广阔的发展前景。近年来,我国政府对细胞治疗产业给予了大力支持,推动其持续快速发展。随着科技的不断进步,细胞治疗技术也不断发展,从干细胞治疗到免疫细胞治疗等领域都取得了显著进展。干细胞技术还被广泛应用于组织工程和再生医学等领域,例如中国科学院等机构的研究人员在世界上首次宣布将人类多能性干细胞转化为8细胞阶段全能性胚胎样细胞,可用于再生人类器官,减少对器官捐赠的依赖,抑制了器官买卖的黑色产业链。
细胞制剂属于新兴行业,虽然成本居高不下,但是投入产出比却不明晰。一方面,细胞制剂服务兑现周期长,不确定性高。细胞制剂行业当前提供的服务主要是细胞存储,而存储的细胞原材料主要来源于新生儿脐带血和成人免疫细胞。用户购买服务与服务兑现之间的周期长,时间跨度大,不确定性高。另一方面,细胞制剂企业需要承担细胞采集、运输、制备、存储、检验等环节较高的运营成本,同样面临极大的不确定性风险。
此外,细胞制剂虽然是新兴行业,但其产业链供应链数字化水平低、产业规模受限、生物制品流转不闭环等问题突出,导致企业运营过程安全性低、存储细胞可见性差、服务过程价值传递缺失等问题非常明显。
针对这个问题,我们采用区块链技术和数据共享流通技术,为用户、细胞制剂企业、医院构建信任网络,基于智能合约设计共享激励营销管理体系,充分发挥细胞制剂行业数据价值,帮助细胞制剂行业打造闭环、安全、透明、可信的生态链。
12.1 产业规模受限于数据要素化能力
细胞制剂产业具有高技术含量和高风险特性,其发展依赖于强大的科技实力和数据分析能力。只有拥有强大的数据价值化能力,我们才能从大量数据中提炼出有价值的信息,为细胞制剂的研发、生产和监管提供数据支持和决策依据。然而,当前细胞制剂行业的数字化水平还比较低。为推动细胞制剂行业的高质量发展,有必要强化数据价值化能力建设。
12.1.1 细胞制剂行业现状
(1)细胞制剂原材料
细胞制剂原材籵主要是干细胞和免疫细胞。
干细胞是一种未完全成熟,也未充分分化,但具有强大的自我复制和不断更新能力的特殊细胞,也被称为“人体万金油”。干细胞可以分化成任何其他类型的细胞,并能够转化为任何组织或器官,因此被广泛称为“万能细胞”。在生物学和医学领域,干细胞的研究和应用已经成为一个备受关注的课题。干细胞的自我复制和分化能力,可以为身体提供新的细胞来修复或替代受损组织,治疗各种疾病。
免疫细胞也被称为白细胞,是人体防御系统中至关重要的细胞群体。它们不仅在防御外来病原微生物入侵力面发挥关键作用,而且还具备清除体内衰老细胞、突变细胞甚至癌细胞的能力,因此又被称为“健康卫士”。在临床医疗中,自然杀伤细胞(NK)、细胞因子诱导的杀伤细胞(CIK)以及近年来备受瞩目的CAR-T细胞等免疫细胞类型被广泛运用。与干细胞不同,免疫细胞更具攻击性和战斗力,它们能够迅速识别和清除外来病原微生物,防止感染和疾病的发生,维护人体健康。同时,免疫细胞还能够消除体内衰老或死亡的细胞,保持人体内部组织的清洁和稳定。当身体出现突变细胞或癌细胞时,免疫细胞会迅速识别并清除它们,防止肿瘤的发生。
(2)细胞制剂的应用优势
细胞制剂是由活体细胞或其分泌物制备而成的一种制剂,在再生医学、免疫疗法、抗感染治疗、心血管治疗、神经保护与修复、肿瘤治疗、组织工程、生物材料支持和抗衰老等领域有较强应用优势。以免疫疗法为例,干细胞增强免疫有以下四种方式。
①扩充免疫细胞数量。通过刺激机体免疫细胞增殖,干细胞可以有效地扩充免疫细胞的数量。这一过程可以通过干细胞的自我复制和分化来完成,这使得机体内免疫细胞的数量得到显著提升。这种增殖不仅增强了机体的免疫力,还有助于及时清除体内的病原体和损伤细胞。
②提升免疫细胞战力。干细胞不仅具有分化能力,还能够分泌多种生物活性物质,如生长因子、细胞因子等,这些物质可以显著提升免疫细胞的活性和战力。通过增强免疫细胞的杀伤力、诱导免疫细胞的增殖和分化,干细胞在提高机体免疫力方面发挥着重要作用。
③改善体内环境。干细胞的内分泌作用可以改善体内环境,调节免疫平衡。通过调节免疫细胞的活性,干细胞有助于减少炎症反应,改善机体内环境。这种调节对于维持机体健康和预防慢性疾病具有重要意义。
④抗衰老。细胞制剂的神奇之处在于具有出色的多向分化和修复能力,能够对衰老的机体进行全面而精准的修复。通过在基因水平改变机体的衰老状态,重建那些因岁月流逝而受到损伤或衰老的组织器官,能够实现抗衰老保健的终极目标。这种抗衰老方法不仅科学有效,而且安全,副作用低,让人们无需手术或忍受药物带来的副作用,轻轻松松焕发青春活力。
(3)细胞制剂产业链现状
细胞制剂已经是一个全球性的产业了。我国也形成了完整的干细胞产业链,产业链的上游包含了像中国脐带血库企业集团、中源协和细胞工程股份有限公司这样的领军企业,它们开展的是干细胞的采集、储存和供应等方面最基础也最前端的业务,这些业务是干细胞医疗行业中最为成熟的一类。产业链中游由那些从事干细胞增殖与药物研发的企业构成,它们是技术研发的尖兵。除了干细胞增殖技术研发、干细胞药物研发,它们还开展实验室配套产品研发,比如检测试剂等。北科生物、冠昊生物是这些企业的代表。产业链下游以干细胞保健为主,是干细胞医疗的“战场”,除了开展干细胞医疗的三甲医院,还包括了开展干细胞治疗临床研究和应用的医疗机构,以及一些医疗美容服务机构。下游应用端市场的代表有解放军302医院、武警总医院干细胞移植治疗中心和北京大学人民医院。这些机构不仅设备先进,技术一流,而且有着丰富的临床经验,可以为患者提供优质的医疗服务。
干细胞产业链条上相关机构开展的工作
我国在干细胞产业链的上游、中游和下游都有布局,每个环节都有一批杰出的企业作为行业发展支撑。这些企业凭借其强大的技术研发实力和丰富的临床经验,推动着找国干细胞医疗事业的发展。干细胞被发现距今已近百年,但其被运用于临床治疗也就数十年时间。因此,用户对干细胞存储和细胞治疗的信任还没有建立起来。此外,产业链数据流通机制不完善,也限制了该行业的发展。
12.1.2 细胞制剂行业痛点
细胞制剂行业细胞存储成本高、收益周期长、不能重复交易,虽然类似于保险,但可感知性差。细胞制剂行业存在的问题,从数据价值发挥层面,可以归结为以下三点。
一是样本数据缺乏,服务难以按概率计价。保险是基于特定险种出险概率而给被保人未来出险的承保承诺,出险概率计算的基础是保险公司所掌握的大数据。干细胞存储服务虽然类似于为未来疾病购买的保险,但由干细胞制剂行业样本数据缺乏,无法按概率计价,只能按成本估价,从而导致细胞存储服务定价偏高,成为有钱人的奢侈服务。
二是数据可视化极度差,取信用户难。对用户而言,除了签约时能感受到细胞制剂机构的存在之外,剩下的就只有在需要细胞制剂的时候才会和细胞制剂机构打交道,而在中间的漫长过程中,用户对细胞存储所有内容一概不知,更没有任何服务体验。因此,细胞制剂机构除了提供专业性的细胞存储服务,还需要通过定期体检等方式和用户建立起经常性联系,同时更需要通过数字化手段,让用户以可视化的方式知晓存储细胞的当前状况。
三是成功案例数据少,效果展示难,导致共识难以大规模建立。细胞制剂不但是新技术,而且也是新行业,其发展还处于拓荒阶段。由于新,所以可供传播的成功案例也比较少,再加之其技术特性,即使有成功案例,也难以通过可视化的形式生动活泼地呈现出来。但细胞存储的体量、参与的用户数量会直接影响行业的发展速度和发展水平。如果能有更多的人参与到干细胞存储中来,那么行业就能持续快速发展,从而可以实现普惠的细胞治疗服务。
上述三个问题可归因为数据少和专业性强而导致的数据可展示化程度低,以及由于数据少、服务周期长和专业性强而导致的信任关系难以建立。针对这三个问题,
一是要提升细胞制剂行业整体的数字化水平;
二是要加强不同细胞制剂机构间的数据流通,通过数据流通扩大数据样本量,同时拉齐不同细胞制剂机构水平;
三是通过数据可视化和数据存证,建立用户和细胞制剂企业的信任关系。
提升数字化水平,除了加强数字化建设,也需要加强对内部已有数据的整合。尽管细胞制剂是新兴行业,但已经出现了比较明显的数据孤岛现象。数据孤岛现象不仅出现在不同的细胞制剂机构之间,也出现在同一家机构的内部。这种封闭的数据管理机制阻碍了数据的流通和共享,使得机构内部各部门难以协同工作,同时也限制了企业对全局数据的综合分析,影响了决策效率和生产效益。同时,机构之间数据难以互通共享,也导致了整个行业发展进步速度相对缓慢。但细胞制剂数据涉及个人隐私甚至国家卫生安全等诸多方面,因此其流通也必须是在数据可信可控范围内的流通,而不是无限制地流通。
12.1.3 可能的解决方案
针对细胞制剂行业存在的问题,除了普遍性地加强数字化建设,提升数字化水平,还需要构建安全可信的溯源体系,以满足政府监管和用户知情需求。同时,要建立起营销服务体系,激发用户传播细胞制剂技术与知识,扩大用户群体,通过规模化降低成本。此外,建立安全可信的数据流转流通通道也至关重要。因此,
首先要运用数字化技术实现细胞服务全流程的可信溯源存证,通过采集、处理、分析实时数据,向用户展示企业的工作和努力。通过构建细胞制剂工程全要素数字化能力,使用户了解全生产流程,并切实感受到托管的细胞安全,降低信息不对称,赢得用户信任。
其次,利用区块链和互联网技术创建数字通证,创建共享合约,通过用户推广机制的使用降低企业营销成本,进而降低存储干细胞成本。通过全要素数字化和共享合约,在数据采集基础上,建立细胞工厂与用户、用户与用户之间的数据纽带,并基于数据可信流转机制形成信任链,进而解决行业痛点。
l2.2 供应链全流程数字化协同解决方案
细胞制剂行业全流程管理最主要的挑战,本质上源于信任传递不畅。为解决这个问题,找们运用数字化与区块链等技术,构建数字化共享合约“通证”,建立工厂与用户的信任通道。具体而言,通过数字化与区块链技术,形成全流程可追溯的数字化细胞协同服务体系,基于区块链一体化可信通证,推动细胞制剂行业供应链全流程数据流动,为细胞制剂工厂和其用户服务提供有力支持。
12.2.1 全流程数据要素流通思路
细胞治疗产业要求严格,容错率低、样本易损,因此有必要构建活盖“采-运-研-产-销”的全流程可信供应链体系。为了保障可信供应链数据的畅通,需要借助区块链、大数据、物联网和人工智能等先进数字技术,搭建基于区块链的数据流通全流程管理平台。同时,也需要创新产业链上下游线上可信协同模式,推动行业研发、生产、存储和交付的数字化和智能化转型升级。这将实现细胞治疗全流程质量跟踪溯源的自动化、可视化和智能化,并提升行业整体协同效率,创新生产与资源组织方式。这也可以最终帮助实现产销存“零误差”、用药安全“零风险”、制剂监管“零死角”、应急用剂“零延时”。
针对细胞制剂行业面临的细胞制剂原材料供应短缺、质量追溯不闭环、生产效率低、人工操作复杂和数据存储困难等问题,我们提出了一种全流程数字化平台解决方案,以提升产业链效率,实现内外部的协同和流通。
该解决方案基于特定研制设备采集干细胞供应者相关信息,并利用区块链技术将这些信息上链存证。同时,鉴于干细胞采集、存储业务中用户身兼供应者和消费者双重身份的特性,我们采用加密数字凭证手段,研发构建“供应-消费”一体的可信通证经济模型。借助通证模型进行激励与治理,动员产业链用户群体与合作伙伴共同构建共享、共赢、自治的细胞产业生态圈。这不仅催生了数字资产的金融创新,加速了资产价值流通,还确保了用户个人对数据隐私的控制权。
此外,我们还设计了一套全流程可追溯的智能化细胞数据协同服务方案,以实现生产制备全过程的无纸化和办公协同。这一方案打通了原材料、运输和药品消费环节,满足了细胞药品全流程质量追溯要闭环的要求,保证了高水平细胞药品的安全消费。通过区块链将数据上链,实现了细胞治疗制备过程中数据和结果的可信存储和可信存证溯源,构建了一个全新的数智化细胞工厂。
细胞制剂行业全流程数据流通思路,秉持了内外协同的建设理念,贯通“采-运-研-产-销”全流程上下游环节,通过数字化技术促进了产业链供应链的协同。
12.2.2 基于区块链构建一体化可信通证
当前,细胞治疗产业面临着诸多挑战,包括供应链数字化程度不高、生物安全追溯机制不完善、信息追踪困难、人工操作负担重且容易出现失误、样本质量受损、库存与实际情况不符、细胞工厂产能不足等问题,存在较大的安全风险。这些问题的存在严重阻碍了该行业的规模化发展。考虑到细胞治疗产品研发具有技术性强、保质期短、质量控制要求严等特点,因此构建严格管控、安全、可靠、高效、可追溯的完整信息体系,具有重要意义。
本方案借助专门研发的设备,搜集干细胞供者信息、合同详情、医疗机构信息、业务员资料、运输箱信息等数据,将这些数据上链保存。因为干细胞采集与存储业务中用户同时具备供应者和消费者双重角色,因此在“供应-消费”一体化的新型可信通证经济模型中,采用了加密数字凭证手段,通过采用分布式身份验证、多方安全计算、智能合约、可信云和区块链服务,构建了用户数据隐私保护、数据溯源追踪的通证权益平台。借助智能合约确保权益验证与执行,为用户全生命周期的健康管理提供可信支持。同时,开发用户端APP或浏览器,使用户能够查看和追踪其干细胞相关资讯,保障信息隐私安全。
“供应-消费”一体的可信通证运营模式业务流程结构
可信通证经济模型打造的通证激励方式包含“叶子”“小钻”和NFR三个部分。
“叶子”是生物平台内对完成特定任务用户的固定奖励、拉新奖励、交易奖励和其他类型的奖励。这种奖励主要用于品牌推广、空投、社区运营、自治和用户激励。用户完成任务即可获得奖励,平台会根据用户所产生奖励行为的不同,发放相应数量的积分至用户账户。
“小钻”与“叶子”有所不同,其发放对象是客户和企业。“小钻”更多代表的是一种未来价值,主要面向高价值用户、科研组织、业内从业者和合作商家。创始团队、创作者基金池和外部企业团队获得“小钻”的条件是为企业和项目做出过重大贡献并可以长期合作的主体(企业或个人)。“小钻”同时具备了强化企业合作关系的能力。
NFR(非同质化权益)源于NFT(非同质化代币),是数字化用户身份信息和生物信息的表示,具有唯一性确权特性。NFR的使用使个人生物样本信息得以更安全、高效地流通和复用,同时NFR也具备一定的商品属性,可以实现盈利。在平台中,NFR产品包含对客户生物样本的属性分析,客户可以通过自身社会资源,宣传和寻找对NFR产品有需求的客户。NFR流通交易平台是商家和客户一体化的社区,这一平台改变了传统的推广营销模式,可以让更多人参与其中。
12.2.3 全流程可追溯的数字化协同服务
干细胞等相关产品的采集、运输、生产、应用制造过程,涉及人、机、料等众多生产资源的管理。为提高细胞药品研究与生产制备效率,并解决质量追溯难题,我们设计了一套全流程可追溯的智能化细胞数据协同服务方案。该方案打通了原材料、运输与药品消费环节,满足了细胞药品全流程质量可追溯的闭环要求,进而保障了高水平的细胞药品安全消费。同时,将相关数据上链存储,实现了细胞治疗制备过程中间数据和结果的可信存储、可存证溯源。
细胞制剂生产数据协同主要解决细胞制剂企业内部样品数据、设计文档交互过程中的安全性和及时性问题。基于区块链、密码学、数字水印设计信息协作能力,实现全流程数据安全、可信、可溯源采集,支撑了企业内部文件数据流转协同。协作共享文件应满足以下三个条件:
第一,发布文件均记录文件指纹、版本信息,文件数据存储在数据安全前置机(重要文件发布出口,设有相应的数据分享权限等规则),并通过安全前置机进行共享,确保源文件的可信;
第二,文件必须按照共享访问规则,在许可规则内共享。文件共享规则以区块链智能合约形式自动触发,访问记录公开且可查;
第三,基于用户制定的加密级别(不加密,普通密钥,电子密钥,硬件密钥),采用不同的共享方式。
细胞制剂企业内部协作交互图
细胞药品安全消费服务协同主要解决由于信息不对称而导致的用户品牌信心建立难的问题。本方案中干细胞原材料的采集、运输环节的全流程可追溯、细胞工厂的存储和生产、存储全流程溯源等过程,消费者通过“供应-消费”一体的可信通证平台均可查验。此外,根据消费者的体检数据、随访记录等辅助确诊数据,系统还会推荐干细胞治疗方案,实现干细胞相关消费服务的安全可信数字化协同(包括信息上链、可信追踪溯源、消费记录、健康管理等),将医院、生物药品厂商与消费者上下游信息打通,在可信体系下实现受体身份匹配、药品种类确定、制剂方案制定、药品制备等线上高质量协同服务。
细胞制剂行业全流程全部门数字化运营协同主要为前端业务提供数据支撑,提升终端用户触达和营销能力。在生产和消费阶段,数字化运营协同需要对细胞制剂供应链进行管理,调动采购部、财务部、销售部等部门协调原材料采购、生产计划、库存管理和订单履行等活动。通过区块链平台构建了一个批次记录系统,跟踪每个批次细胞的来源、处理和去向。该系统可以提供高度透明和可追溯的细胞制剂生产过程,这
有助于帮助相关企业提高产品质量,确保产品安全性。在客户关系管理方面,数字化运营可以提供强大的管理客户信息、订单和售后服务的能力。通过这种方式,客户可以方便地查询订单状态、下载产品信息,从而提高客户满意度和忠诚度。同时,这也能够减轻工作人员的工作负担,提高工作效率。
全流程、全部门协同数字化运营流程
12.3 数据价值发挥的体现
在上一节中,我们探讨了如何通过基于可信数据空间产品来解决细胞制剂行业的产品全流程管理问题,并实现了相关业务与服务的协同。反过来看,细胞制剂行业相关业务与服务的数据协同发展也有助于整个行业数据价值的发挥。企业内部的数据循环可以扩展并辐射至行业数据大循环,从而激活细胞制剂行业数据生态,提升整个行业的生产消费服务能力。
12.3.1 数据流通为细胞制剂行业注入新活力
细胞制剂行业管理高度依赖数据,数据管理涵盖了从细胞样本采集、处理、培养到最终产品分发和应用全过程。这些环节本身产生了大量数据,包括但不限于细胞特性、培养条件、质量控制结果和供应链信息。为了确保数据的完整性、准确性和安全性,并最大限度地发挥数据的价值,我们提出了基于区块链构建一体化可信通证的想法。
可信通证贯穿细胞制剂行业“供应-消费”流程,从后台业务订单配置的严谨逻辑关系出发,用户可以全程查看并溯源相关订单信息。通过加密数字凭证,确保信息的隐私和安全,并利用智能合约技术实现各参与主体的权利义务自动化。将数据上链,确保一体化可信通证的不可篡改、透明和可追溯,为细胞制剂行业数据生态注入新的活力。
一体化可信通证设计所体现的价值包含以下层面内容。
①在数据确权和交易层面,一体化可信通证可以用来标记数据的所有权,确保数据在产生、传输、使用和交易过程中的权益归属清晰明确。在合规的前提下,数据可以作为资产交易。一体化可信通证可以表达数据的所有权和使用权,实现数据的可编程交易。这不仅促进了数据的市场流通,还为数据所有者提供了新的收入来源。
②在数据共享与协作层面,一体化可信通证利用区块链网络实现了数据在不同机构、企业和研究者之间的安全共享。数据共享对于细胞制剂行业的研发、质量控制和患者护理至关重要。一体化可信通证确保了数据在共享过程中的隐私保护和不可篡改,从而消除了数据共享障碍,促进了行业协作和创新。
③在供应链管理和质量控制层面,一体化可信通证可以用于跟踪细胞制剂从原材料到最终产品全生命周期的状态,这确保了供应链的透明度和可信,也有助于快速定位和解决问题,提高了供应链生产协同效率和安全性。同时,质量控制数据可以在一体化可信通证平台记录和验证,提高了质量控制过程的效率和准确性。
总体来说,一体化可信通证为细胞制剂行业数据生态提供了一个创新性的解决方案。确保了数据的可信度,发挥了数据的价值,还帮助实现了行业内的数据共享、供应链管理、质量控制和监管合规。
12.3.2 数字化协同提升生产消费服务水平
数字化细胞数据协同是利用区块链、大数据等技术实现细胞数据收集、整合、分析和共享协作的方式。这种模式强调数据的标准化、透明化和可访问,通过数字化细胞数据协同系统,企业内部部门可以基于共同的数据平台进行协作创新,企业与外部客户、企业与合作商能够及时共享信息。
数字化细胞数据协同所体现的价值包含以下三个层面。
①在高效业务协同管理层面, 基于数据驱动、高效协同的设计原则,在平台核心业务流程的规范下,细胞工厂生产员工和各业务职能人员基于自身业务,实现了高效的业务协同,从而提升生产效率。
②在核心业务智能排产层面,核心业务流程由生产计划发起,储存、制剂需求、采集和运输情况及时同步细胞工厂,然后细胞工厂进行智能排产,以生产计划为核心转换为对项目信息进行策划与管理,并根据项目需要制定生产计划,达到生产力的合理配置。生产情况实时同步业务终端,并结合物联网、云存储等软硬件技术,实现实时视频监控和实时硬件数据监控。制备环节实时视频监控,保障对生产制备过程的质量把控,保障生产设备正常运行,异常时能得到及时响应,给生产过程提供质量保障,便于给客户提供更优质的服务。
③在增强用户消费体验与营销开展层面,数字化细胞数据协同可以提供个性化的医疗服务。通过整合患者的细胞数据和健康信息,医生可以更好地了解患者的病情,制定精准的诊疗方案。同时,患者可以通过数字平台实时跟踪治疗进展和效果,提高治疗依从性和满意度。此外,通证经济的加入,可以推动整个平台转型升级,带来更大的社会效益和经济效益。精细化运营工具和通证节点激励,使得每个阶段、每个节点的变化都将待续刺激用户为体系做出贡献。信息的高度可信和及时呈现,在短时间内就能有效增强用户对企业品牌的认同。
12.4 细胞制剂行业数据价值化发展的价值展望
细胞制剂行业的数字化发展,其价值远不止于单一的数据服务能力的提升。数据价值化将引领细胞制剂行业向更智能、高效和可持续的方向发展。通证经济和数字化协同服务机制也有望实现数据流通基础上的行业新形态数字经济体系。这种业态将为细胞制剂行业带来更多的机遇和发展空间。
12.4.1 数据流通促进经济新业态发展
在干细胞领域引入区块链通证经济模型,开启了网络生态新模式。基于区块链的通证经济是一种与互联网并行、全新的数字经济体系。湖南源品细胞生物科技有限公司已实践了细胞制剂行业可信通证。这一举措推动了区块链与实体经济的深度融合,实现了以用户为中心的高质量服务。运用通证模型的激励与治理机制,提升了产业链用户群体与合作伙伴的参与度,帮助了共享、共赢、自治的细胞产业生态圈的建立。此举不仅催生了数字资产的金融创新,还加速了资产价值流通。
为解决数据开放中的用户隐私问题,监管部门纷纷出台规范,加强对生物数据的保护。区块链技术与零知识证明技术的结合,确保了用户数据隐私,NFR的使用也确保了用户个人对数据隐私的控制权。
鉴于干细胞产业独特的业务特性,传统网络平台难以实现用户全生命周期的可持续运营,尤其是低频商价场景下的用户运营。而“供应-消费”通证权益平台可以从用户运营、数据运营、内容运营等多个维度,全面连接细胞治疗行业的上下游合作企业、供应商和消费者,构建数字化平台新的全生命周期健康运营体系。精细化运营工具和通证节点激励机制,将极大推动细胞行业从传统运营模式向现代化方式转型升级。
12.4.2 数据协同推动产业升级
细胞制剂行业的数据量极为庞大,是典型的数据富集型行业,其数据流通市场具有巨大的发展前景。为了充分发挥这一优势,需要形成数据聚集效应,以便更好地分析和理解行业趋势,为企业提供有价值的信息。
业务协同推动细胞制剂行业数据互联互通,同时数据产业生态、数据集市和数据要素市场的发展也让企业融入公共、行业、产业等不同类型组织机构的数据流通交易中,分享数据要素发展的“蛋糕”。随着企业合作关系的深化,参与分享的数据资源也会越来越丰富,实现的数据价值也会越来越大,整个行业的效率也将随之提高,企业的差异化竞争能力也会增强,企业从中也会收获更多商机,获得更多收益。
构建良好的数据交易生态,需集合社会力量,共同进行数据价值的挖掘。数据商们在经济激励下,将通过多种渠道开展数据的收集,采用分类、整理、分析等多种手段运营数据,实现数据价值的最大化,盘活闲置数据资源。因此,应在数据安全可靠可信流转的技术加持下,鼓励细胞制剂行业数据进场交易,完成更加高效、精准的数据利用和开发,这样才能提高整个行业的效率和竞争力,为企业带来更多的商机和收益,同时也促进整个行业的可持续发展和创新进步。
第十三章 政务数据安全流通应用
自2002年国家信息化领导小组出台《关于我国电子政务建设指导意见》,明确要求促进业务系统互联互通和信息资源共享以来,我国政务数据共享已走过20多年的历程,最近几年呈加速发展趋势。
2016年,国务院印发《政务信息资源共享管理暂行办法》,正式确立“以共享为原则,以不共享为例外”的政务数据共享原则。2021年,“十四五”规划纲要把“提升国家数据共享交换平台功能”作为提高数字政府建设水平的重要抓手。同年,中共中央、国务院发布的《法治政府建设实施纲要(2021-2025)》强调要建立健全政务数据共享协调机制。2022年,《国务院关于加强数字政府建设的指导意见》要求“充分发挥政务数据共享协调机制作用,提升数据共享统筹协调力度和服务管理水平”。同时,多地出台了政务数据共享相关规范。但在政务数据实际共享流通中,仍存在相关部门“难以共享、害怕共享、共享意愿低”等问题,这阻碍了政务数据价值的发挥,也阻碍了数字经济的发展。
本章围绕政务数据共享流通环节存在的共享难、怕共享、共享意愿低等问题,基于分布式数据流通技术,打造政务数据流通平台,以加快推进政务数据有序共享。
13.1 政务数据流通效能有待提高
13.1.1 政务数据流通现状
各地方数据立法和法学界研究数据问题时,均未对政务数据与公共数据概念进行区分,出现了公共数据与政务数据概念界定不清、交叉使用的情况。对公共数据与政务数据概念进行区分,厘清二者关系,有助于界定政务数据的内涵和外延。
(1)政务数据与公共数据
部分省、市在数据立法时未对公共数据与政务数据进行区分,造成了政务数据与公共数据概念混同,行政机关操作管理失当。《中华人民共和国数据安全法》(以下简称《数据安全法》)规定,行政机关为政务数据收集、使用的主体并且法律法规授权的具有管理公共事务职能的组织,为履行法定职责开展数据处理活动,同样适用此章规定。根据该解释,我们可以认为,政务数据是国家机关以及具有管理公共事务职能的组织在履职中收集、使用的数据。《数据安全法》在第五章以专章形式规定了政务数据的安全与开放,表明政务数据是数据(广义)中的一种。此外数据还应当包括公共数据、个人数据等类型。
由以上分析可以看出,行政机关、具有公共事务管理职责的机构自身产生的数据(如内部数据),不在公共数据的概念范围内。社会组织、机构、公司等产生、收集的以及由个人为主体产生的公共数据,也不在政务数据的概念范围内,但是行政机关、具有公共事务管理职能的机构在履行公共管理过程中收集、产生的数据既有公共数据,也有政务数据,两者存在一定程度的交叉。
(2)政务数据共享现状
近年来,政府各部门之间的数据共享以及政府与企业之间的数据共享,共享规模持续扩大,共享推进速度持续提升。为了提升数字化发展水平,加快数字政府建设,政府各部门纷纷建立了自己的数字化平台,但在数据服务方面部门与部门并没有形成合力,尚未完成数据的互联互通,也未建成互联互通的数字化业务系统。政务数据共享体系尚不完备,机制也不健全,虽然数字化平台已经存在,但数据共享难、数据资源整合难、业务协同难等问题仍然存在,实际业务更多还是依靠传统方法,并未完成数字化转型。
政府和企业政务数据共享持续深化,政府与企业共享的数据种类和数量不断增加,应用范围也越来越广泛。
一方面,随着政府业务范围越来越广,业务管理内容越来越精细,政府与企业之间的沟通、与社会的关联,更多是在线上以数字和数据的形式完成的,因而更多数据得以产生和传播;
另一方面,随着政府部门业务数字化程度加深,政府各业务部门产生了海量的数据,但政府部门由于其工作性质的原因,对数据的处理和使用还大都处于初级阶段,而企业对数据处理有着更为丰富的经验,因此政府可以借助企业完成数据的分析和利用,为其提供决策支持;
再一方面,为了更好地服务民生,公共机构通过数据共享渠道获得部分政务数据,通过让政务数据持续性地发挥价值,也可以进一步提高公共机构的服务能力。
政务数据共享在一般情况下,不是直接传输原始数据。为了确保数据安全防止隐私泄漏,共享的数据需要通过数据脱敏、数据加工和数据建模的方法,通过特定渠道完成数据共享。数据共享对接模式也多种多样,大致可以分为行政对接、接口对接、数据抽象和数据模型四种方式。
13.1.2 政务数据流通痛点
政务数据流通是营造良好数字生态、推动数字经济发展、加快数字社会建设和数字化发展的必然要求。政务数据流通对提高政府服务能力、转变政府职能实现现代化国家建设意义重大。但当前政务数据流通面临诸多挑战。
(1)数据归属模糊
政务数据的采集、整合、流通环节涉及多方主体,需要多个部门的参与。
在数据采集阶段,数据来源是明确的,然而数据的归属却相对模糊;
在数据整合阶段,集中式的整合方式使得数据的权属问题更加复杂;
在数据流通环节,由于责任划分不够清晰,职责分工也存在一定的模糊性,导致安全措施不够完备。
此外,不同行业或应用领域的数据归属也存在差异,难以通过统一的顶层设计明确数据权益的归属,这就使得参与政务数据共享的主体共享意愿不强烈,共享后的数据溯源也存在一定的困难。
(2)数据精细化程度存在差异
自数字政府建设和政务数据开放共享以来,各级政府纷纷着手构建各自的数字化平台,并设立了相应的数据管理机构或平台。然而,对数字化发展理解上的差异,导致各地区数字化建设呈现出不同的进度和水平。同时由于缺乏统一的建设标准,各地政府数据服务平台在数据维度、数据接口、数据格式和数据传输方式等方面各有特色,这使得各地区的数据难以形成合力,也加大了政务数据跨部门、跨平台、跨区域的协调难度。这不但可能会对数据的共享和应用带来负面影响,而且也会阻碍政府数字化转型进程。
此外,部分地区的数字技术能力相对较弱,比如我国中西部地区的互联网发展就比东部慢,这也导致了中西部地区数字化发展程度相对不足。
(3)数据质量有待提升
数据要素化的前提条件是数据要满足一定的质量要求。虽然政府拥有丰富的数据,但这些数据的数据类型和数据结构的差异性与复杂性,导致了政务数据往往无法被有效分析,以支持政府目标设定、决策、监控或其他方面的应用。同时,随着政府数字化转型的进一步深化,数据量持续性增长也将加剧政务数据质量的良莠不齐。影响数据质量的根本原因源于政务数据并没有设定统一的标准而多源异构带来的大量结构化、非结构化数据本身就需要经过统一处理才可以使用,这大大地降低了数据的应用效率。
(4)政务数据融合程度有待提高
数字政务和智慧城市建设以及数字经济的发展,都需要将政务数据和企业数据融合起来,这样才能更好地发挥数据价值,服务于民生和社会经济发展。但两类数据的融合也存在一定的困难。
一方面,政务数据和企业数据两者主体存在性质上的差异,利益诉求也不同,数据类型也不一致,且部分数据拥有主体对于数据共享意愿较差,导致政务数据和企业数据对接范围小、融合程度低;
另一方面,政务数据多为公益类数据,涉及垂直领域的数据以及开放数据的质量不能满足社会需求,企业难以获得真正有效的数据供其开发和利用。
为推动数字政务、智慧城市的建设和数字经济的快速发展,必须实现政务数据和企业数据的深度融合与开发利用。只有这两种数据充分融合,经过专业的数据挖掘,才能最大程度地发挥出数据相应的价值。
(5)安全防护有待加强
数据价值发挥需要数据的集中汇聚和整合存储,但政务数据难免会涉及到公民、企业,以及政务等多领域的隐私和敏感信息。隐私数据一旦泄漏,轻则会对个人隐私造成损害,重则可能威胁到企业的生存发展,甚至影响国家安全。因此,在发挥数据价值的同时,这些数据也更容易成为攻击目标。
在政务数据汇聚过程中,不同来源的数据由于格式不同、数据分类分级标准不一致而导致不同数据的安全策略也不相同,因此难以做到对数据的安全有效管控,同时数据安全的权责边界模糊也可能导致在发生安全事件时难以成功追溯事件源头。此外,政务数据开放共享流通环节复杂,大量数据在传输过程中也易被窃听和篡改,这也增加了数据泄露风险。数据安全成为政务数据流通的一大挑战。
13.2 政务数据流通解决方案
为提高政务数据价值,解决政务数据流通中的痛点,我们提出了政务数据流通解决方案,具体包括政务数据流通建设方案、政务数据安全防护和区域性股权交易数据流通应用几部分内容。
13.2.1 政务数据流通解决方案
政务数据流通采用“双循环”体系构建。在省内政务领域完成内部数据循环,与省内外其他机构或企业可形成外域数据循环。系统支持多类型机构和多种形式政务数据流通,流通数据通过数据目录进行发布,数据目录服务基于数据共享服务系统实现。区块链通过对数据共享与交换过程的监管实现安全控制,解决数据流转中的可信问题。
跨域数据共享数据流图
政务数据流通平台支持分级分类管理。政务数据共享通过区块链完成数据可信共享交换,支持政务数据无条件共享、有条件共享和不予共享三种类型的数据交换,支持原始数据不出域,数据输入、运算、结果输出实行全流程密态保护在数据共享时,授权数据可以定向地传送至数据使用方,区块链网络对受控的隐私数据以加密方式存储,在数据协同、传输和中间环节均以密文形式呈现,无明文业务数据呈现,确保协同数据的安全可控。
政务数据目录是数据共享交换的基础。数据目录是政务数据消费方进行数据检索的门户,数据目录也支持数据样本查阅、数据访问申请。“透明防火墙”基于数据规则以智能合约引擎方式记录数据资源共享的全息信息,包括数据源信息、数据源目录信息、数据目录访问角色(基于RBAC访问策略)和权限规则(包括允许访问的字段和特定值、请求频次、返回数据数量等)、源IP白名单、API和库表访问密钥信息等内容。对“透明防火墙”参数的修改不仅要经过区块链网络验证,修改过程也会在区块链中保存。外部用户向数据目录请求共享数据时,“透明防火墙”基于区块链合约规则检查请求参数,执行检查规则,依据执行情况允许或阻断数据请求,并在区块链中记录数据请求过程。
数据共享交换业务流程图
区块链网络在外部用户和数据资源池之间架设了一条安全可控的政务数据共享桥梁,通过目录链和智能合约技术实现了数据的共享和流通,简化了数据审批手续,实现了数据共享便捷化、合约化。政务数据流通平台通过区块链支撑服务,实现数据上链管理、数据合约化管理、数据隐私权限管理等功能,是数据可信共享服务人口,提供了数据资源的自动定位、智能授权、公开透明、安全共享等核心能力,对内对外提供可信数据共享服务。
政务数据流通共有五个步骤。
一是内部用户基于数据模型发布政务数据目录。
二是在目录中开通数据共享服务。
三是在目录中设定角色和访问权限。
四是外部用户获得用户账户后,通过目录检索数据后即可以通过API或库表获取数据。外部用户在通过API或库表申请数据时,数据流通执行过程首先对政务数据区块链发起数据请求,共享监管模块基于合约引擎验证API请求权限,共享代理请求数据代理对数据资源池执行API或库表接口。
五是当数据资源池完成请求执行后,返回API或库表数据,共享代理模块检查数据合规性,并生成日志写入区块链,数据原路返回,最终返回到数据请求方,完成数据共享和监管过程。如果共享规则校验失败,则合约规则验证失败,拒绝访问,记录失败请求日志,请求过程结束。这也是政务数据流通的最后一个步骤。
从功能结构上来讲,政府部门在原有业务系统中引入区块链技术,将各个业务参与单位的职责、目录和数据高效协同地联结在一起,打造了职责为根、目录为干、数据为叶的“目录区块链”系统,实现了数据变化的实时探知、数据访问的全程留痕、数据共享的有序关联。通过“上户口”“立规矩”“建闭环”,形成了一套基于区块链的数据共享新路子、数据应用新机制和数据治理新秩序,解决了政务数据共享难题。
13.2.2 政务数据安全防护
政务数据具有极大价值,一旦出现安全性问题,轻则危害民生,重则影响国家安全。为了保护政务数据流通中的安全,本节介绍政务数据流通解决方案中采用的多种安全防护方式,保证政务数据共享安全。
(1)纵深安全防护体系
纵深安全防护体系中,数据的提供者需要经过一系列的发布流程,包括数据分类、格式化、加密等步骤,以确保数据在发布时具有足够的安全性。同时,数据使用者也需要经过订阅和审核等流程,才能获取和使用数据。这些流程的每个环节都相互独立,单一流程受到攻击并不会影响其他流程的正常运行。
此外,为保护数据提供者在数据发布时的隐私,发布政务数据时可将数据发布为隐私数据并设定发布的隐私数据共享范围。只有经过授权并经过订阅审批的数据使用者才能正常使用这些隐私数据。这种机制有效地保护了数据的隐私性和安全性,确保了数据使用者的权益不受侵犯。
同时,先进的网关技术可以阻断数据的非授权使用,这意味着任何未经授权的数据使用者都无法使用这些数据。此外,还可以通过网关设置数据调用的频次限定以及调用策略,以进一步增强数据的安全性和可控性。
纵深防护体系统
(2)完备的安全传输策略
在数据共享过程中,首先通过建立防火墙IP白名单机制确保点对点通信防止网络通信过程中的恶意访问风险;其次,通过建立VPN隧道确保通信过程安全,保证数据的私密传输,防止IP欺骗;最后,通过建立内外部数据中心隔离体系确保网络攻击不会影响到内部数据区,利用不同数据区的异构防火墙策略,防范进一步的网络攻击。
在数据共享过程中,首先需要建立一道坚实的防线来确保通信安全。为此,平台采取了防火墙IP白名单机制,即只允许特定的IP地址访问政务数据主体网络,从而有效防止了来自网络中的恶意访问风险。通过这一机制,能够精确地控制网络通信的访问权限,从而确保了点对点通信的安全性。
其次,通过建立VPN隧道来确保通信过程的安全与私密。VPN隧道能够实现数据加密传输,这使得数据在传输过程中不会被窃取或篡改,能够保证数据的私密,防止了IP欺骗等不法行为。即使数据在传输过程中遇到了安全威胁,VPN隧道也能起到一定的保护作用,确保数据的安全到达。
最后,通过建立内外部数据中心隔离体系,确保网络攻击不会影响到政务的内部数据区。利用不同数据区的异构防火墙策略,进一步防范网络攻击。这种隔离体系能够有效地将外部威胁与内部数据区隔离开来,从而避免了潜在的安全风险。这一系列措施能够为数据共享过程提供全方位保护,确保数据的安全与完整性。
通过共享平台的数据传输流程
(3)数据安全链闸
本方案采用链闸实现数据的安全隔离与灵活合理使用。链闸前的节点贴近网关数据源进行高性能计算,在满足数据提供方出口条件的情况下,链闸后的节点在平台继续计算获得需要的结果。链闸节点结合区块链不可篡改特性,通过链合约稽核审批状态、流程规则、出口规则来确定是否允许政务数据流通出链闸。
不同链闸限定于对应的节点,满足不同的场景需要,隐私数据必须结合链闸节点使用。本平台提供通用链闸、隐私求交链闸、模型链闸、聚合链闸和同态加密链闸等链闸节点。其中,
通用链闸不对前后节点做限定,但需满足核规则;
隐私求交链闸的子节点必须是隐私求交计算节点,链闸节点配合隐私求交计算的要求进行数据准备;
模型链闸要求子节点必须是模型应用节点,链闸节点配合模型应用准备模型文件;
聚合链闸要求链闸前的节点必须是聚合节点,对链闸后的节点不做限定;
同态加密链闸要求子节点必须是同态加密计算节点,链闸节点配合同态加密计算的要求进行数据准备处理。
数据提供方可以自由设定出口规则,消费者必须根据规则来调整流程以满足出口稽核要求。
13.2.3 区域性股权市场数据流通应用
区域性股权市场是服务当地行政区域内中小微企业的私募股权市场,主要负责中小微企业私募证券和股权的融资与转让。私募性质的区域性股权市场能够拓宽中小微企业的融资渠道。同时,区域性股权市场实现了与其他市场板块的互联互通,从而实现资本市场对中小微企业的“全链条”服务和支持。
当前,中小微企业仍面临融资难和融资贵的问题。这一问题的部分原因在于金融机构与中小微企业存在严重的信息不对称。企业信息分散在各个地方,存在数据割裂现象,并且这些信息难以被核实。因此,金融机构难以准确评估企业的真实价值,尽职调查难度大。这也是中小微企业无论是在金融机构那里寻求债权融资还是股权融资,都面临较大困难的原因。
数据共享可以有效打破数据孤岛现象,但传统的数据共享流通环节仍存在一些难以克服的问题。
首先,数据安全责任边界不够清晰,传统共享平台在实现数据共享时,仍存在无差异的数据传递、单向责任传递等问题,不利于数据泄露溯源,并可能挫伤共享者的积极性。
其次,各机构和企业的数据标准不统一,导致数据需求方难以获取持续、多源、标准化的数据资源,从而阻碍了数据交换和共享效率的提升。
再次,缺乏共享数据实时监测手段和数据使用授权机制,也使得相关机构无法获取数据共享范围并审核共享参与方身份,合法性成为问题。
最后,监管机制缺乏。传统数据共享往往依赖于数据共享平台,而中心化的数据共享平台缺乏公信力,用户难以对平台进行有效监督管理。为解决上述问题,助力中小微企业融资,本方案提出了基于分布式数据共享平台。
分布式数据共享流程图
分布式数据共享平台包含安全网关和数据共享平台两部分。参与数据共享的各方需部署数据安全网关,并采用统一的数据共享平台进行数据控制,最终以点对点的方式实现数据出口。此平台还提供数据发布和订阅、数据安全存证等功能。网关作为数据流通共享的关键“闸门”,而平台则担当数据流通的“引擎”角色,确保在安全和隐私的基础上,实现数据的共享与流通。数据可信共享网关部署在用户本地,在不涉及原始数据出域的前提下,帮助数据提供方实现数据资产的发布、管理、计算等功能。数据可信共享平台作为统一平台,提供数据目录、数据订阅以及数据共享等统一的数据服务,并实现数据的全生命周期管理。
在数据共享流通流程中,以下是五个关键步骤。
①数据供给方首先通过数据安全网关将各种数据源(包括数据库、API和表格等)添加到网关中。
②数据供给方将这些添加的数据源通过数据安全网关发布到数据目录中,该目录仅包含数据的元数据信息(如字段名和描述)。在发布数据源时,可以根据预设规则将数据标记为隐私数据或API数据。API数据可以直接订阅和使用,而隐私数据需要进一步处理后才能订阅和使用。发布的数据目录将存储在区块链上以供后续存证。
③数据安全网关发布数据目录后,这些目录将在数据共享平台上被标准确认。只有经过标准确认的数据目录才能在平台上被检索到,后续数据需求方才可以订阅到这些目录以获取数据。
④当数据需求方需要使用数据时,可以直接订阅或通过特定的数据加工流程订阅。
⑤数据需求方发起订阅请求后,数据供给方会审核这些订阅。如果审核通过,则生成一个用于数据共享的API。需求方可以通过这个API获取数据,整个审核过程也会在区块链上存证,以确保整个共享流程的可追溯性。
在数据流通的基础上,以各联盟成员共享的企业多维数据为基座,我们通过建立数学模型,计算企业的多维画像,为企业提供股权质押的参考。利用区块链技术和数据建模算法,设计出“企业多维数字画像”应用服务,其中包括企业通用数字画像、企业信贷服务、私募股权服务、上市孵化服务四个子画像。
首先是企业通用数字画像。企业通用数字画像从企业背景、经营能力、信用评级、创新能力和发展态势五个方面对企业进行综合评估,实现企业的初步分层分类。
其次是企业信贷服务画像。企业信贷服务画像侧重于企业偿债能力的评估以降低中小微企业信息不对称。通过汇聚省内特色信贷资源,创新投贷联动贷款产品,扩大了对企业的信贷支持力度,也为企业在银行、小贷、担保、典当等机构的贷款需求提供了数据支持。
再次是企业私募股权服务画像。企业私募股权服务画像侧重于企业的成长能力评估,为私募股权机构投前提供投资标的项目库、投后提供管理赋能服务、退出探索拓宽退出渠道,为“募投管退”全生命周期提供数据支持。
最后是企业上市孵化画像。企业上市孵化画像侧重于企业发展能力及上市潜力的评估,对接上证信息评价模型,建立企业上市孵化画像,对标各板块上市标准,挖掘优质、潜力企业进行重点孵化培育,充分发挥区域性股权市场与沪深交易所、新三板基地及北交所基地(筹)市场联动作用,将企业输送至更高层次资本市场。
企业多维画像流程图
为满足安全高效的数据共享需求,区域性股权交易所采用区块链技术构建了数据共享平台。该平台整合了数据加工处理、链上确权等功能,确保了数据的可信和隐私安全。该平台同时具备以下优势。
首先,该平台采用分布式数据共享模式。数据在其所属机构所在地存储,仅在通过机构的审核后才能共享数据,实现按需共享,最大化保障数据安全和隐私。
其次,该平台提供标准化数据目录与安全审核服务。用户在发布数据时,需先对数据进行标准化处理,形成数据目录,并通过平台提供的订阅审核能力供其他用户使用。这种模式提高了数据使用的透明度和安全性。
再次,该平台具备强大的数据接入能力。支持多种接入方式,包括数据库、API和文件接入,并能适配主流数据库的使用需求,提高平台的可用性和适配性。
再者,该平台提供可视化、低代码数据加工处理功能。通过智能数据加工处理,提高数据质量并降低数据清洗成本,同时保护原始数据的隐私安全。
最后,该平台实现数据使用可追溯与透明性。基于区块链技术,所有数据的发布、订阅、审核和使用过程均在区块链上留痕,确保数据所有权归属,实现数据使用过程的可追溯性。通过区块链浏览器查询数据使用过程,消除数据所有者共享数据顾虑,增强数据共享透明度。
13.3 政务数据流通价值
政务数据流通将在多个方面带来广泛的价值,其中既有社会方面,也有经济层面。
13.3.1政务数据流通的社会价值
政务数据本就是由政府的公共管理而产生的数据,这些数据的流转流通,也会在更大程度上反馈政府管理和政府治理。
(1)提升社会治理水平
政务数据的流通可以提升社会治理水平,推动政府服务的智能化和精细化。例如,政务数据可以用于城市管理、公共安全、环境保护等领域,提高政府服务的效率和水平。同时,政务数据的流通也可以为政府决策提供更加准确的数据支持,提高政府决策的科学性和有效性。
(2)增进社会福祉
政务数据的流通可以增进社会福祉,提高人民群众的生活质量。例如,政务数据可以用于教育、医疗、文化等领域,为人民群众提供更加优质的教育、医疗和文化服务。同时,政务数据的流通也可以为社会保障提供更加准确的数据支持,提高社会保障的水平和效率。
(3)保障公共安全
政务数据的流通可以保障公共安全,维护国家安全和社会稳定。例如,政务数据可以用于反恐、维稳、打击犯罪等领域,提高公共安全的管理水平和效率。同时,政务数据的流通也可以为应急管理和灾害防治提供更加准确的数据支持保障人民群众的生命财产安全。
政务数据流通可以为改善社会治理、提高人民群众的生活质量、提升公共安全带来重要的推动作用。其社会影响非常广泛,价值巨大。
13.3.2政务数据流通的经济价值
政务数据已经成为数据要素的重要组成部分,其经济价值日益凸显。
(1)促进经济发展
政务数据流通可以促进数字经济的发展,推动传统产业升级和新兴产业发展。例如,政务数据可以为企业提供更准确的市场分析和预测,帮助企业制定更加科学的发展战略。同时,政务数据流通也可以为金融行业提供更加准确的风险评估和信用评级,为金融行业的发展提供更加可靠的支撑。
(2)增加直接经济收益
政务数据的直接经济收益可以来自数据交易、数据服务、数据资产化和数据驱动业务等方面。政务数据与其他数据的交易一样,可以获取一定的经济收益。同时,政务数据经过处理和分析,可以为政府和企业提供有价值的情报和决策支持,从而带来更多的经济收益。此外,政务数据资产化后,也可以通过抵押、转让等方式实现其经济价值。
(3)提升经济增长贡献度
政务数据流通可以促进数字经济的快速发展,带动相关产业的发展,如大数据、人工智能、云计算等。同时,政务数据流通可以帮助政府更好地了解企业和居民的需求,提供更加精准的服务,从而提升政府服务水平,也可以帮助政府和企业更好地了解市场和行业动态,优化资源配置,提高生产效率。
政务数据的经济价值是数字化时代的重要课题之一。政务数据流通是实现其经济收益,促进经济增长的重要抓手。随着技术的不断进步和应用场景的不断扩展,政务数据流通将会发挥更加重要的作用,为社会和经济发展带来更多的机遇。
13.4 政务数据流通展望
政务数据流通和共享无疑对社会治理、经济民生等诸多领域的发展会起到至关重要的作用,然而当前存在的“不愿共享、不敢共享、不能共享”也在阻碍政务数据流通工作的进一步深化。要进一步做好政务数据流通工作,需要在以下两个方面发力。
一方面,政务数据流通需要政府率先发力,在政府各部门间完善内部数据流通制度。数据在政务体系内部的流转流通顺畅,可以极大提高政务服务效率和水平。并且数据价值化的力量,可以进一步激励各地政府完成数据的共享互通。为此,
首先需要明确数据权属边界和归属权,明确的数据权属边界和归属权是数据安全共享的前提和基础。清晰的数据边界,明确的数据所有权、使用权和收益权,可以有效避免数据争议和纠纷,从主观上可以提高各数据主体共享的意愿。
其次需要设定数据质量标准,数据质量是数据价值发挥的核心要素,政府应制定统一的数据格式和数据质量标准,包括数据精度、数据更新频率等指标,确保共享数据的准确性、可靠性和便捷性。同时应建立数据质量评估和反馈机制,及时发现和纠正数据质量问题,提高数据的可用性。
最后需要构建完备的监管制度,完备的监管制度是保障数据安全共享的关键。监管制度包括数据共享的审核、数据使用的追踪、数据安全的保障等内容。通过技术手段和法律手段结合,实现对数据共享的全过程监管,确保数据共享的可控、可见、可管。
另一方面,政务数据流通和价值发挥,还需要积极推动政府部门与外部机构的合作,通过分层级、分批次的数据开放,实现政务数据供给到民生、企业等主体,持续推进不同领域基本公共服务数字化,以实现公共服务更加精准、高效和公平。为此,
首先需要扩大政务数据开放范围,将更多的政务数据以统一的数据格式和接口对外开放,方便企业和个人获取。同时也需要建立完善配套的开放数据管理机制,包括数据的分级分类、数据的更新维护、数据的安全保障等,确保数据的准确性和安全性。
其次政府部门需要加强与其他机构和企业的合作。政务数据涉及大量的个人信息和企业秘密,政府部门需要与其他机构和企业合作,共同制定数据开放标准和规范,明确数据的用途和范围,避免隐私数据和涉密数据的泄露和滥用。同时,借助其他机构和企业的技术力量和资源优势,提高数据的可使用性和价值。
最后要关注数据的隐私保护和泄密问题。政务数据涉及大量的个人和企业信息,需要采取有效的隐私保护和加密措施,保护个人和企业权益可以通过加密技术、访问控制等手段,限制非授权主体对数据的访问和非授权使用,避免数据被非法获取和滥用。
第十四章 文化创意场景应用
***总书记指出:“文化产业是一个朝阳产业。现在文化和技术深入结合,文化产业快速发展,从业人员也在不断增长,这既是一个迅速发展的产业,也是一个巨大的人才蓄水池。”湖南省与国家部委、省市区四级联合打造了“中国V谷”,按“北有中关村、南有马栏山”定位,以“中国一流、亚洲领先、世界知名”国际型文创产业园为战略目标,创建了马栏山视频文创产业园。湖南广电和芒果TV为长沙奠定了坚实的综艺产业基础,提供了大量稳定的综艺录制需求,也给长沙带来了巨大的娱乐产业价值。马栏山视频文创产业园在文化创意产业生态方面进行了非常重要的探索,借助区域优势,结合区块链等技术打造了“中国V链”--全域数字资产保护和交易平台。
14.1 文化创意确权与流通中存在的困难
14.1.1 文化创意的数字时代背景
在数字时代,文化创意产业面临着前所未有的挑战。
一是人们对文化产品的需求越来越多元;
二是文化产品消费潮流的变化越来越快;
三是可用于文化产业的数字技术和数字工具发展越来越快、功能越来越强。
因此文化创意产业也必须持续创新,以适应这种变化。
首先,数字技术为文化创意产业提供了更丰富的创作工具,也提供了更多的传播渠道。例如,在影视制作方面,数字技术可以让导演更方便地实现自己的创作意图,同时也为观众提供了更加真实和震撼的视觉效果。然而,文化创意产品的数字化和传播渠道的数字化,也给文化创意产业带来了诸多挑战,如盗版、侵权。
其次,数字技术的广泛应用一方面在大幅降低文化创意产品创作门槛,但另一方面也使得高水准文化创意产品的制作成本不断攀升。小型文化创意企业已很难承担高水准文化创意产品高昂的制作费用,文化创意行业已经进人了竞争深水区。因此,中小微文化创意企业必须把自己嵌入到一个完整的产业链中,通过打磨好在某一个环节上的专业能力,才能获得生存的机会。
最后,文化创意产业目前还面临着人工智能的冲击。大模型在给诗词、绘画、视频、音乐创作提供了极大便利的同时,也给大量尾部创作者带来了极大的威胁。
14.1.2 文创版权保护痛点分析
数字时代文化创意产业主要的痛点在于创意版权的保护和人工智能的冲击两个方面。
如今,文化创意在消费浪潮的带动下焕发出前所未有的生机与活力,移动与联网进一步扩大了文化创意产业的可触达人群范围,提升了文化创意产业价值。然而,版权保护问题,尤其是维权难的问题使得文创产业发展受到一定程度的制约。
版权在制度上保护了创作者对其创作作品的合法权益,阻止了他人盗用或非法传播他们的作品,并能够从中获得应有的收益。版权保护也可以鼓励更多人投身于创作活动,为社会带来更多的优秀作品。北京互联网法院发布的《北京互联网法院审判工作情况白皮书》指出,至2023年7月底,案件类型集中在著作权权属和侵权纠纷,网络侵权责任纠纷,信息网络买卖合同纠纷,分别占比71.57%、11.27%和8.65%。一方面通过互联网法院,版权得到很好地维护;但另一方面,版权维权依然困难,案件小、取证难成为制约版权维权的主要因素。
人工智能威胁主要表现在现有文化创意工作者与AI的正面竞争上。AI大模型在对人类大量创作成果学习的基础上,形成了一套较高水准的模型能力输出,但AI大模型无法描述训练数据的来源和输出结果的相关性。AI的进化速度越来越快,从早期的文字理解和文字输出,到声音、图片理解和图片、视频输出,输出质量也越来越高。为保护创作者劳动成果,无论是正常使用创作成果,还是用来训练AI,均应该合理使用版权,并在后续给创作者提供应有的回报。
14.1.3 问题解决思路
当前文化创意产品创作从主体上来分,大体可分为PGC(专业生产内容)、UGC(用户生产内容)和AIGC(生成式人工智能生产内容)三类。
PCC主要通过特定渠道进行内容分发,版权问题不突出。
互联网时代下UGC蓬勃发展,创作内容大多通过一些平台发布,版权保护主要依靠行业自律。目前业界的主流做法是以平台合作分成的方式实现对第一创作者的版权保护。在版权作品流通过程中还需要针对版权载体实行专门保护,例如对图片、视频等的数字水印保护技术,或者通过区块链的溯源和NFT技术。社会层面主要是通过法律手段和行业自律实现对版权作品的保护。
AIGC在内容生成方面对UGC带来重大冲击。AIGC内容产出效率越来越高,版权的界限也越来越模糊。随着移动互联网的进一步普及和生成式人工智能能力的快速提升,文化创意版权保护问题也越来越突出。
UGC的价值更多是由创作者选择的分发渠道来决定,再次分发的版权很难得到保护。然而,文化创意产品的价值也不是一成不变的,早期创作者、传播者、内容载体等参与文化创意产品流通的各主体,都是价值创造过程中不可或缺的环节。如何让参与者都能获得价值创造的回报,是一个很难估量的问题。
解决以上问题有两个可以探索的方向。
一是通过数据要素化,把文化创意的创作、传播、使用过程透明化。在数据价值没有彰显出来之前,价值链只记录文化创意产品在全生命周期内的状态和操作,直到文化创意的价值被发现并取得价值后,再基于已记录的创作、传播、使用过程进行估值计算,让所有参与者均能受益。
二是通过工业化协同,把创作者和创作过程嵌入工业化协同过程中。创作者针对文化创业价值产业链需求进行创作,创作的产品也通过支持工业化协同的创意流通市场进行流通,当创意成果被应用到后续工业化协作的任何环节,创作者可获得付费承诺,从而创作者可以获得文化创意成果应有的回报。
数据要素化和工业化协同并不是两个孤立的文化创意保护方向。当前数据要素化还处于初级阶段,而文化创意工业化协同已经取得了较大进展。随着数据要素化的进一步推进,工业化协同的效率和创作者价值公平性将会得到进一步提高。
14.2 文化创意数据价值流通
14.2.1 文化创意版权保护
文化创意产品形成过程大体包括在大脑中形成创意、通过各种工具对创意做进一步设计和最终形成作品三个环节。随着数字化设计软件的大规模应用,文化创意的表达过程已经完成了数字化。文化创意作品也可以通过多种表现形式,包括艺术作品、影视作品、文学作品、旅游景点、时尚设计等形式呈现。在大脑中形成创意是最为关键也最需要保护的环节,但是目前文化创意版权保护大多数情况下保护的主体是作品,这是商品经济的思维模式。其核心原因是大脑创作是黑箱,无法量化;数字设计过程难以取证也难以跟踪,所以才采取可明确定义的作品,并通过控制对作品的使用来实施版权保护。
文化创意作品在著作权保护范畴内,而著作权针对的对象是非授权使用作品的个人或群体,维权的途径包括著作权行政投诉、法律仲裁、通过内容分发平台维权,或者自行协商。著作权行政投诉涉及举证、协商和判决等过程,程序复杂且成本高,而且著作权保护法投诉时效只有两年。
文化创意版权保护如果仅仅是保护作品本身,那么就给窃取他人作品或创意的个人或群体有了可乘之机。如果将版权保护从保护最终作品调整到保护创作过程,那么版权保护将可能进人到一个全新的时代。
以中国人常用的办公软件WPS为例,如果我在文档中插入一张图片,并且我的目的是出版,那么我就必须购买图片的版权。这个创作过程被WPS记录下来,并通过结算支付版权费用。如果WPS会员需要使用大量素材资源,WPS通过打包的方式获得素材资源后,通过收取会员费的方式完成了素材资源的价值交换。这个过程就是典型的通过平台方式完成价值流通方案。
在一般的意义上,本章给出的文化创意版权保护与维权解决方案是基于协作过程的版权保护方案。
首先,将文化创意过程用数字方式表达,创意过程中使用的素材以数据形式引人,从而可以把文化创意表示为一个信息加工过程,该过程涉及多个输入和输出。信息加工付出的劳动成果可以理解为创作,从而需要给予版权保护。
其次,如果作品获得了价值变现,那么信息加工过程的输入同样应该获得一定的价值回报。至于价值分配的比率则基于输入信息的定价模型,既有免费的,也有打包的,还有定额的,或按比例分配的,类似于一个合约,在信息加工过程时就确定下来了。
这个基于文化创意价值合约的流通过程就是基于数据价值流通的文化创意版权保护与维权解决方案。
14.2.2 文化创意数字内容交易流通
文化创意数字内容流通需要记录创意生成和流通的全过程,而这需要各参与方的配合。现阶段,通过建立溯源机制,创建数字文化创意市场,建立文化版权交易中心,是一条可行的路径。通过区块链技术构建承载文化创意的数字版权交易平台,覆盖数字内容生产、数字内容流通和数字内容消费各个环节,通过交易平台将数字资产的生产、流通和消费形成闭环,打通文化创意数据资产的循环通道,为文化创意数据价值提供释放途径。
数字内容生产流通消费过程示意图
(1)数字版权交易平台业务逻辑
数字版权交易平台覆盖文化创意数字资产交易所有环节,服务数字内容资产全生命周期交易。数字版权交易的核心环节包括生产、确权、存证、流通和使用(消费),平台流通机制引导用户参与生产、流通和再生产过程,为文化创意内容流通提供公共服务基础。该平台底层基础设施基于区块链、可信计算、分布式存储等技术构建,提供可靠、安全、可信的数字资产底层服务,在底层服务之上构建数字版权交易平台,为供需双方提供可信的流通途径和证据链存证。
数字版权内容不仅包括人类对物理世界建模、理解、思考后形成的数字化内容,还包括基于现有数字内容进行的二次或多次混合创作后形成的内容。目前,数字内容异常丰富,然而数字内容资产化较为困难,尤其是数字资产确权、交易并不便捷。数字版权交易平台从源头获得数字资产的指纹信息,连同数字内容一同存入区块链基础设施,完成文化创意数字资产的存证,通过和国家版权中心同步,形成时间戳,作为确权的证据。
(2)数字版权交易平台技术架构
基于成熟且跨平台的Java技术栈,选用目前成熟度好、用户广的Spring Cloud微服务框架。可选LVS做前端IP负载均衡,但在目前的用户流量下,暂时可不考虑。Nginx做方向代理,主要解决对象、静态文件访问,并支持后台渲染,加快页面加载速度。采用Traefik做服务反向代理,避免服务动态调整导致的服务失效问题,且无需手动配置。服务发现采用阿里开源项目Nacos,实现灵活的服务注册和服务发现,并支持服务冗余、服务负载均衡、服务熔断等服务管理功能,保障系统总体平稳。微服务独立设计,通过共有数据库和租户数据库实现。
数字版权交易平台微服务架构
(3)点对点文化创意数据产品流通
数字版权交易平台能够确保数据资产可信可靠存储,确保数据资产流通环节的使用权和二次交易权,确保从生产到消费过程全部操作的安全可信和可溯源。数字内容不同于传统的商品,数字内容流通更应该支持点对点的定向流通。例如张三发布某文化创意资源,只需要发布资源简介和相关信息,基于资源生成可信数据指纹(生成设备信息、时间戳和数据指纹),在平台登记数据资源信息。如果用户李四需要购买张三的资源,张三同意后,为李四生成一份定制密码发送给李四,李四基于自己的密钥解密并使用资源,从而实现资源在可控渠道中流通。此外还需要确保李四购买资源后不传播该资源,李四不能在平台重复确权或售卖,确保资产安全。而这,只能在数字版权交易平台才能够实现。如果采用传统的中心化存储或第三方分布式传统,都有可能会造成张三的文化创意资源泄露或被窃取。
数字内容流通中间件架构图
(4)文化创意数据产品流通端对端安全方案
文化创意数据资产消费最核心的问题是确保数字内容“可用不可见”和“使用安全”。不同于结构化数据,文化创意数据一般是非结构化的,并且需要原始数据。因此文化创意数据从采集到流通就需要端对端的安全支持。为此,数据资产交易平台基于区块链和密码学技术构建了一个端对端的文件安全流通方案。
端对端的安全方案包括了基于属性加密方案的一次交易一个密钥,基于设备特征指纹和属性加密方案的“一机一密”两种实现。这里重点介绍一下“一机一密”实现。
宿主软件基于区块链传输数据密码,结合非对称密钥和宿主机器指纹特征获得仅限本机宿主软件解密的密钥,同时通过虚拟文件方式供用户使用文化创意数据资源。该加密体系包括两个部分;
一个是区块链密钥算法代理端,负责通过区块链获取数字资产交易信息,及时完成密钥交换和数据资产解密;
另一个是宿主应用,宿主应用和代理端通讯,负责数字资产在系统安全区域解密和使用。
宿主应用是一个需要适配各种文化创意类的软件,最常见的是操作系统的资源管理器,可以被大多数软件直接使用。基于特定软件的插件,其安全性可以得到进一步提高,例如CAD软件插件就可以确保对应的数据内容只有CAD软件才可以查看。为限制终端不能随意复制文化创意源文件,需要开发相应的插件才能满足对文化创意数字资产安全流通的需要。
数字内容消费中间件架构图
基于以上考虑,平台对文化创意内容依据数字内容特征和安全分级做如下分类。
①一级安全。该安全等级要求数字资产内容只有在购买后才可以从生产者获得,数字内容受区块链密钥算法保护,数字内容在离开由区块链密钥算法保护的安全环境下不能使用,确保数字内容的“可用不可见”。该方案对用户使用环境有要求,一般需要通过安装专用在线解密软件,实现文化创意内容的安全使用。该级别会在一定程度上影响消费者的用户体验。
②二级安全。该安全等级要求数字资产内容可以通过区块链服务平台加密存储,并通过消费者密钥加密流通。该数字资产在消费者侧需要区块链密钥算法才可以解密,确保数字内容“安全使用”。该安全等级不要求数字资产守护系统实时在线,通过特定密钥可以确保内容安全。
③三级安全。该安全等级要求数字资产内容通过区块链服务平台存储,不要求加密,仅对数字内容确权,数字内容通过交易平台寻址流通,消费者可以在购买后自由使用,版权受原作者保护。区块链服务平台提供版权鉴权和确权能力。
本节给出了数字版权交易平台的构建方案,并基于生产-流通-消费场景描述了文化创意数字产品的交易流通过程,解决了文化创意数字产品流通环节的安全问题。本节还探讨了以嵌入式方式,通过平台和第三方软件构建数据流通市场客户端实现逻辑,可作为后续文化创意数据市场的实现提供参考。然而,文化创意产品往往需要跨主体、跨软件使用。如果某软件创建的素材需要在其他软件中使用,这个过程涉及多个不可控环节,这个问题暂时还没有好的解决方案,可信数据空间是一个可能的方案,将在后续继续探讨。
14.2.3 标准化的文化创意产品流转方案
目前,标准化的文化创意产品流转方案除通过平台提供可售卖素材之外,最重要的探索方向是数字藏品。相比普通的售卖方式,数字藏品可提供一种独占、公开可追溯的持有权声明,而普通的文化创意产品交易模式交易的是使用权,其权力由购买协议确定,购买主体信息不主动公开,销售的副本也缺乏唯一编号。
数字藏品是在区块链网络环境内,基于NFT技术,对各类作品、艺术品生成的唯一的加密数字权益凭证,具有不可替代、不可分割、不可篡改等特性,能实现可监管、真实可信、可追溯的数字化发行、交易、收藏和展示功能。数字藏品与文化创意版权有着相当直接的关系,数字藏品发生交易转移,等同于文化创意作品的持有权发生转移。为此,数字藏品交易的是文化创意的版权持有权,也包含未来可能存在的收益权。
数字藏品实现了文化创意价值高效且标准化的价值流转方案。通过交易平台实现文化创意作品的数字化发行、持有权转移,并结合各种IP版权转化、事件营销、门票、活动纪念等,让文化创意价值得到释放。
数字藏品平台主要包含以下四个方面功能。
(1)数字藏品的发行和版权确认
数字藏品是一种对文化创意版权持有权的绑定,其发行环节需要验证版权。一般情况下,需要作品持有人到版权登记机构办理登记。数字藏品发行平台要求的版权登记更多是一种免责行为,版权纠纷裁判或仲裁所采纳的证据不仅仅是版权证书,更多是纠纷双方列举的证据。版权登记是数字藏品发行的必要条件,代表的是版权持有人确认作品归属权,并愿意承担后续可能的法律风险。
数字藏品发行过程除版权确认环节外,还涉及数字藏品平台的相关发行规则、策略、定价,以及运营方式。以优版权为例,该平台采用的是品牌馆模式。可以申请入驻品牌馆,共享优版权数百万用户和便捷的平台发行,也可以与品牌馆合作发行。品牌馆核心能力是提供运营和客服能力。数字藏品发行涉及创建数字藏品商品及其链上合约,确定发行数量、发行模式和运营策略。例如采用盲盒发行模式,享受优先购等权益。
(2)数字藏品交易及其版权税
数字藏品上架后版权即可交易。正规平台会在区块链上记录完整的交易过程,确保数字藏品的所有权在公开的区块链上完成权益转移。平台在发行数字藏品过程中会收取发行费和技术服务费。为开展数字藏品交易,一般情况下,企业需要开通第三方资金托管与清结算服务通道,用于完成收支付过程。不同支付服务通道有不同的开通规则和费率要求。如果平台用户通过充值方式存入资金到平台,按相关的金融规定,平台还需要引导用户在支付平台开通子账号(用户通过签约平台在支付公司创建的子账号,支付公司会要求验证并绑定银行卡信息)。
平台发行在发行和转售过程中会涉及税费问题。平台抽取的发行费和技术服务费需要按企业增值税缴纳税费;平台用户通过平台获得的收入也需要缴纳个税或企业增值税。
(3)数字藏品交易平台关键技术指标
数字藏品交易平台涉及诸多关键技术,除基础功能外,平台的核心能力还在于提供稳定的可运营能力。由于数字藏品主打盲盒和抢购等模式,用户体量有数百万之众,平台需具备抗攻击、抗“刷单平台”能力和高并发处理能力。成熟的交易平台需要履行实名认证、活体验证职责,以确保用户真实性;也需要支持抢购、优先购、抽签等多种购买方式,为数字藏品爱好者提供公平的交易环境。另外,可运营能力也是成熟平台的一个重要特征。数字藏品运营包括用户群体运营、拉新、促活,设计新玩法等功能。
“刷单平台”是指通过黑客技术手段,通过自动化软件注册并操纵大量虚拟用户参与竟拍的这一类网络群体的称呼。当平台存在套利机会时,不少群体会通过这类手段实施自动化抢购,从而导致普通用户很难与自动化的软件争抢竞拍资格。
(4)数字藏品衍生品及其营销
数字藏品衍生品是基于数字藏品平台进行的转化,最终以实物或者其他衍生品形式进行输出。例如,通过购买数字藏品获得版权持有权,然后与自有平台或产品开展联名活动,体现企业对数字藏品版权产品形态和年轻人群体的认同,实现企业营收目标。数字藏品本身具备用户权益属性,可以通过持有数字藏品完成用户权益绑定,从而实现对客户的营销。基于数字藏品开展的营销,相比通过积分等传统方式开展的营销,前者通过限量购和合成等玩法,更容易与客户形成联动,相比冷冰冰的积分数值更具有温度。
14.2.4 基于可信数据空间的文化创意价值流转方案
可信数据空间是为数据跨组织流通和使用而提供的具有安全和可信机制的新型数字基础设施。如果把云空间视作一个可信数据空间,用户在该空间共享文化创意产品,云空间就会记录该文化创意产品的使用过程,使用、合成、再发布的过程也会被云空间记录下来。按照数据价值的流转逻辑,在可信数据空间中为该产品价值生成做出贡献的租户也将获得其贡献对应的价值。
如果可信数据空间中流转的是文化创意作品,那么就相当于构建出了一个基于可信数据空间的文化创意价值流转方案。该方案通过在云空间中记录原始或合成素材的使用,满足用户创意需求,并确保流通过程的安全可控。随着云集成开发环境(IDE)的兴起,基于云环境的设计开发将确保素材的使用是在一个受控的环境下完成的。可信数据空间技术的兴起,使得在云可信空间中完成设计、渲染等创意过程,并为文化创意提供保护,成为一种全新的可能。
例如云3D设计需要诸多素材,如果把素材作为数据要素,在云设计软件使用过程中记录数据的使用过程并完成作品发布,这样形成的素材价值链条如果是在一个可信数据空间中完成的,那么文化创意的价值过程就是可信的,也可以让创作者享有创意所带来的收益。
14.3 文创创意数据价值体现
14.3.1 版权保护与创意价值交换促进产业繁荣
文化创意以数据方式完成的流通将重构移动互联网时代的文化产业发展。文化创意数据流通将数字文化内容生产者与消费者的直接联动推向核心位置,通过数据价值交换促进了产业发展,拓展了文化衍生消费产业新模式。将文化创意过程用数据表达,并通过“数据要素市场”表达创意的价值流通过程,使得创意价值交换变得更容易,版权保护也因为数据要素化过程扩大了外延,不仅仅保护作品本身,还会保护创作过程。当数据要素市场足够活跃以后,这类文化创意“数字资产交易中心”的模式将会成为更广为认同的文创资源集市,通过将文创资源数据变现,使得互联网从千亿级内容走向万亿级产业互联网。
目前,中国V链借助全域数字资产保护和交易平台,开设了“版权保护”和“版权交易”两大板块,为各大版权方及各类企业提供了全生命周期的知识产权服务。该平台以严选、高质的平台标签,通过区块链、大数据算法,精细化的素材管家模式,建立了覆盖生产、交易、监管、审核、确权、维权等环节的全链条一站式、全方位数字版权保护,为数字版权的生产、交易赋能。截至2023年12月,该平台实现作品确权数达21万件,签约优质创作人员10000+,取得了较好社会效益和经济效益。
https://vlian.cn,中国v链,全球数字资产保护及交易平台。
14.3.2 文化创意IP市场联动产业链多元发展
2022年初,数字藏品红遍全球,国内各地政府也出台了相应的文件鼓励数字藏品产业发展。数字藏品是基于文化创意而衍生的一种基于区块链的非同质化通证(NFT),是该数字藏品权益的表达,并在一定规则之下可进行价值转移或者实现IP孵化变现。国产运动品牌通过购买无聊猿(Bored Ape Yacht Club,BAYC)的NFT数字藏品获得IP版权,即可开展商业化运作。通过数字藏品获得IP数字版权,极大简化并提升了IP版权的使用效率。数字藏品的进一步发展,使得文化创意IP市场联动产业链多元发展成为一种全新路径。基于数据价值流通激活的文化创意价值,基于IP及其衍生品市场同样会得到长远发展。
“优版权”是湖南天河文链科技有限公司以区块链技术为核心、面向文化产业构建的版权数字资产流通平台。平台聚集数字艺术、科技潮玩、潮流音乐、明星影视、动漫游戏等各类内容,利用智能合约技术构建集IP、产品、数字权益于一体的版权数字资产,从机制上解决了传统的文化作品确权难、维权难、流通难的问题,让文化更有活力,让创意更有价值。该平台定制打造数字原生IP,通过IP共创更新品牌印象,进一步打开了商业化的无限可能。
优版权IP版本孵化应用案例
14.3.3 文化创意数字原生推动创意提质增效
文化创意中数字原生部分是数据价值流转的关键元素。在文化创意数字原生工具中嵌入数据价值流通系统时,文化创意的版权保护才是真正方便所有产业链的关键所在。正如现在音乐已经和10年前可随处下载完全不同一样,届时文化创意数字原生推动创意真正提质增效,也将使得文化创意生态合作者实现其核心价值。那时,将会是文化创意数据价值发挥的高光时刻,而创意数字原生工具则是文化创意商业转化的重要载体。
14.4 文化创意行业数据要素价值展望
14.1.1 数据赋能国产电影创意衍生品发展
电影的工业化发展,除了优秀的“超级产品经理”,还需要优秀的编剧、道具、场景、灯光、音乐、后期制作、IP设计等。随着目前对大IP的深度挖掘和利用,相关的周边越来越受到影迷的热爱,包括主角IP、道具IP、配音、花絮、高清片段等均可以作为文化版权IP进行售卖。电影工业化带来的分工精细化,必然需要更多的资源供给,同时需要确保资源的内在价值得到合理体现。
2023年火热的短剧就是一种新类型的类电影制作。如果可以通过数据将短视频、短剧乃至电影、电视剧的IP资源、创意资源等要素化,这将会使得这个行业的参与者在获得收益的同时,可以共同把这个行业蛋糕做得更大。这正是数据要素价值得以发挥的重要领域之一。
14.1.2 数据价值流转帮助大语言模型放大文化创意价值
大语言模型需要大量素材训练才能胜任专业能力。如果大语言型每一次输出取得的价值能够反哺给最初训练素材的创作者,那么大语言模型将与素材创作者形成共生关系,并且这种共生关系还将是可持续的。专业人员提供专业素材给大模型训练,并基于其内容生成能力获得素材供应,就像大语言模型成为文化创意的数据加工厂一样,不断迭代出符合需求的作品,释放创意价值。可以想象这种人机结合将会激发出远超当前的创意能力并大幅提升创作效率,
参考文献
1. 清华大学金融科技研究院. 数据要素化100问 [M]. 北京:人民日报出版社,2023.
2. 戎珂,陆志鹏. 数据要素论 [M]. 北京:人民出版社,2022.
3. 于施洋,王建冬,黄倩倩. 论数据要素市场 [M]. 北京:人民出版社,2023.
4. 王伟玲,王昶,贾子君. 数据要素市场:全球数字经济竞争新蓝海 [M]. 北京:电子工业出版社,2023.
5. 王丽颖,王花蕾. 美国数据经纪商监管制度对我国数据服务业发展的启示 [J]. 信息安全与通信保密,2022,(03):1O-18.
6. 金慧婷. 欧盟数据治理法律问题研究 [D]. 上海:上海外国语大学,2023. DOI:10. 27316/d. cnki. gswyu. 2023. 000137.
7. 王伟玲. 中国数据要素市场体系总体框架和发展路径研究 [J]. 电子政务,2023,(07):2-11.
8. 赵潞. 数据资产评估过程难点分析及建议 [J]. 全国流通经济,2021(21):131-134.
9. 林镇阳,侯智军,赵蓉,等. 数据要素生态系统视角下数据运营平台的服务类型与监管体系构建 [J]. 电子政务,2022(08):89-99.
10. 周辉,张心宇,孙牧原. 数据要素市场的法治化:原理与实践 [M]. 北京:中国社会科学出版社,2022.
11. 欧阳日辉. 数据要素流通的制度逻辑 [J]. 人民论坛·学术前沿,2023(06):13-27.
12. Eric S. Raymond. 大教堂与集市 [M]. 卫剑钒,译. 北京:机械工业出版社,2014.
13. 俞军. 俞军产品方法论 [M]. 北京:中信出版集团,2020.
14. 刘鹏. 计算广告:互联网商业变现的市场与技术(第3版) [M]. 北京:人民邮电出版社,2022.
15. 丁磊. 生成式人工智能:AIGC的逻辑与应用 [M]. 北京:中信出版集团,2023.
16. 用友平台与数据智能团队. 一本书讲透数据治理:战略、方法、工具与实践 [M]. 北京:机械工业出版社,2021.
l7. 约恩·里塞根. 数据化决策2. 0 [M]. 王正林,译. 北京:中国经济出版社,2020.
18. 陈昌盛,许伟. 数字宏观:数字时代的宏观经济管理变革 [M]. 北京:中信出版集团,2022.
19. 华为公司数据管理部. 华为数据之道 [M]. 北京:机械工业出版社,2020.
20. 付登坡. 数据中台:让数据用起来 [M]. 北京:机械工业出版社,2019.
21. 韩向东. 数据中台:赋能企业实时经营与商业创新 [M]. 北京:人民邮电出版社,2023.
22. 李伟荣. 深入浅出隐私计算:技术解析与应用实践 [M]. 北京:机械工业出版社,2022.
23. 中国物流与采购联合会. 中国供应链发展报告(2021) [M]. 北京:人民邮电出版社,2022.
24. 中国国际工程咨询有限公司. 工业企业技术改造升级指南:指南解读案例(2023年版) [M]. 北京:电子工业出版社,2023.
25. 兰小欢. 置身事内:中国政府与经济发展 [M]. 上海:上海人民出版社,2021.
26. 蒋辉,吴永清. 乡村产业振兴研究 [M]. 北京:社会科学文献出版社,2021.
27. 陶然. 人地之间:中国增长模式下的城乡土地改革 [M]. 辽宁:辽宁人民出版社,2022.
28. 安德烈亚斯·郝尔曼,埃尔加·胡莱斯,克里斯托夫·弗朗兹. 数字医疗:医疗App、智能分诊和医疗保健大众化 [M]. 吴士宝,译. 北京:中国科学技术出版社,2023.