导图社区 阿里云表格存储 Tablestore
表格存储(Tablestore)面向海量结构化数据提供 Serverless 表存储服务,同时针对物联网场景深度优化提供一站式的 IoTstore 解决方案。适用于海量账单、IM 消息、物联网、车联网、风控、推荐等场景中的结构化数据存储,提供海量数据低成本存储、毫秒级的在线数据查询和检索以及灵活的数据分析能力。
编辑于2024-01-12 17:44:04这是一篇关于DPIA流程和模板的思维导图,主要内容包括:DPIA模版,DPIA概述和范围,如何执行DPIA,可接受的DPIA标准,DPIA解决什么问题,DPIA执行标准。
本文翻译了GDPR并且添加了解析,深入剖析GDPR的各个方面,可以更好地理解这一法规的重要性,并为企业和个人在数据保护方面提供有益的指导和建议。非常有价值。
这是一篇关于信息安全技术 、数据安全能力成熟度模型Informatio的思维导图,主要内容包括:附 录 C (资料性附录) 能力成熟度等级评估流程和模型使用方法,附 录 B (资料性附录) 能力成熟度等级评估参考方法,DSMM架构,附 录 A(资料性附录) 能力成熟度等级描述与 GP,DSMM-数据安全过程维度,DSMM-安全能力维度。
社区模板帮助中心,点此进入>>
这是一篇关于DPIA流程和模板的思维导图,主要内容包括:DPIA模版,DPIA概述和范围,如何执行DPIA,可接受的DPIA标准,DPIA解决什么问题,DPIA执行标准。
本文翻译了GDPR并且添加了解析,深入剖析GDPR的各个方面,可以更好地理解这一法规的重要性,并为企业和个人在数据保护方面提供有益的指导和建议。非常有价值。
这是一篇关于信息安全技术 、数据安全能力成熟度模型Informatio的思维导图,主要内容包括:附 录 C (资料性附录) 能力成熟度等级评估流程和模型使用方法,附 录 B (资料性附录) 能力成熟度等级评估参考方法,DSMM架构,附 录 A(资料性附录) 能力成熟度等级描述与 GP,DSMM-数据安全过程维度,DSMM-安全能力维度。
阿里云表格存储 Tablestore
产品简介
表格存储(Tablestore)面向海量结构化数据提供Serverless表存储服务,同时针对物联网场景深度优化提供一站式的IoTstore解决方案。适用于海量账单、IM消息、物联网、车联网、风控、推荐等场景中的结构化数据存储,提供海量数据低成本存储、毫秒级的在线数据查询和检索以及灵活的数据分析能力。
基本概念
术语 说明 地域 地域(Region)物理的数据中心,表格存储服务会部署在多个阿里云地域中,您可以根据自身的业务需求选择不同地域的表格存储服务。更多信息,请参见表格存储已经开通的Region。 读写吞吐量 读吞吐量和写吞吐量的单位为读服务能力单元和写服务能力单元,服务能力单元(Capacity Unit,简称CU)是数据读写操作的最小计费单位。更多信息,请参见读写吞吐量。 实例 实例(Instance)是使用和管理表格存储服务的实体,每个实例相当于一个数据库。表格存储对应用程序的访问控制和资源计量都在实例级别完成。更多信息,请参见实例。 服务地址 每个实例对应一个服务地址(EndPoint),应用程序在进行表和数据操作时需要指定服务地址。更多信息,请参见服务地址。 数据生命周期 数据生命周期(Time To Live,简称TTL)是数据表的一个属性,即数据的存活时间,单位为秒。表格存储会在后台对超过存活时间的数据进行清理,以减少您的数据存储空间,降低存储成本。
数据存储模型
模型 描述 宽表模型 类Bigtable/HBase模型,可应用于元数据、大数据等多种场景,支持数据版本、生命周期、主键列自增、条件更新、局部事务、原子计数器、过滤器等功能。更多信息,请参见宽表模型。 时序模型 针对时间序列数据的特点进行设计的模型,可应用于物联网设备监控、设备采集数据、机器监控数据等场景,支持自动构建时序元数据索引、丰富的时序查询能力等功能。更多信息,请参见时序模型。 消息模型 针对消息数据场景设计的模型,可应用于IM、Feed流等消息场景。能满足消息场景对消息保序、海量消息存储、实时同步的需求,同时支持全文检索与多维度组合查询。更多信息,请参见消息模型。
计算与分析
支持通过MaxCompute、Spark、Hive或者HadoopMR、函数计算、Flink以及 表格存储 SQL查询进行计算与分析,请根据实际场景选择相应分析工具。
分析工具 适用模型 操作 描述 MaxCompute 宽表模型 使用MaxCompute 通过MaxCompute客户端为表格存储的数据表创建外部表,即可访问表格存储中的数据。 Spark 宽表模型 使用Spark计算引擎 使用Spark计算引擎时,支持通过E-MapReduce SQL或者DataFrame编程方式访问表格存储。 Hive或者HadoopMR 宽表模型 使用Hive或者HadoopMR 使用Hive或者HadoopMR访问表格存储中的数据。 函数计算 宽表模型 使用函数计算 通过函数计算访问表格存储,对表格存储增量数据进行实时计算。 Flink 宽表模型 时序模型 使用Flink 通过实时计算Flink访问表格存储中的源表、维表或者结果表,实现大数据实时计算与分析。 目前数据表支持作为源表、维表或者结果表,时序表只支持作为结果表。 Presto 宽表模型 通过PrestoDB使用Tablestore 使用Presto对接Tablestore后,基于Presto on Tablestore您可以使用SQL查询与分析Tablestore中的数据、写入数据到Tablestore以及导入数据到Tablestore。 表格存储多元索引 宽表模型 多元索引 多元索引基于倒排索引和列式存储,可以解决大数据的多维查询和统计分析难题。当日常业务中有非主键列查询、多列组合查询、模糊查询等多维查询需求以及求最值、统计行数、数据分组等数据分析需求时,您可以将这些属性作为多元索引中的字段并使用多元索引查询与分析数据。 表格存储SQL查询 宽表模型 时序模型 使用SQL查询 SQL查询为多数据引擎提供统一的访问接口。通过SQL查询功能,您可以对表格存储中数据进行复杂的查询和高效的分析。
功能特性
宽表模型
宽表模型支持的功能特性请参见下表。
功能特性 描述 相关文档 表操作 支持列出实例中的全部数据表、创建一张数据表、查询数据表的配置信息、更新数据表的配置信息以及删除一张数据表。 表操作 基础数据操作 表格存储提供了PutRow、GetRow、UpdateRow和DeleteRow的单行数据操作接口以及BatchWriteRow、BatchGetRow和GetRange的多行数据操作接口。您可以通过单行数据操作接口或者多行数据操作接口读写表中数据。 写入数据 读取数据 删除数据 数据版本和生命周期 使用数据版本以及数据生命周期(TTL)功能,您可以有效的管理数据,减少数据存储空间,降低存储成本。 数据版本和生命周期 主键列自增 设置非分区键的主键列为自增列后,在写入数据时,无需为自增列设置具体值,表格存储会自动生成自增列的值。该值在分区键级别唯一且严格递增。 主键列自增 条件更新 只有满足条件时,才能对数据表中的数据进行更新;当不满足条件时,更新失败。 条件更新 局部事务 创建数据范围在一个分区键值内的局部事务。对局部事务中的数据进行读写操作后,可以根据实际提交或者丢弃局部事务。 局部事务 原子计数器 将列当成一个原子计数器使用,对该列进行原子计数操作,可用于为某些在线应用提供实时统计功能,例如统计帖子的PV(实时浏览量)等。 原子计数器 过滤器 在服务端对读取的结果再进行一次过滤,根据过滤器中的条件决定返回哪些行。由于只返回符合条件的数据行,所以在大部分场景下,可以有效降低网络传输的数据量,减少响应时间。 过滤器 二级索引 通过创建一张或多张索引表,使用索引表的主键列查询,相当于把数据表的主键查询能力扩展到了不同的列。二级索引包括全局二级索引和本地二级索引。 全局二级索引:以异步方式将数据表中被索引的列和主键列的数据自动同步到索引表中,正常情况下同步延迟达到毫秒级别。 本地二级索引:以同步方式将数据表中被索引的列和主键列的数据自动同步到索引表中,当数据写入数据表后,即可从索引表中查询到数据。 二级索引 全局二级索引 本地二级索引 多元索引 多元索引基于倒排索引和列式存储,可以解决大数据的复杂查询难题,包括非主键列查询、全文检索、前缀查询、模糊查询、多条件组合查询、嵌套查询、地理位置查询、统计聚合(max、min、count、sum、avg、distinct_count、group_by)、并发导出数据等功能。 多元索引 使用控制台 使用命令行工具 使用SDK SQL查询 SQL查询功能为多数据引擎提供统一的访问接口。通过SQL查询功能,您可以对表格存储中数据进行复杂的查询和高效的分析。使用SQL查询数据时,您还可以配合索引来优化查询。 SQL查询 使用控制台 使用SDK 使用JDBC JDBC连接表格存储 通过Hibernate使用 通过MyBatis使用 使用Go语言驱动 通道服务 表格存储提供了增量、全量、增量加全量三种类型的分布式数据实时消费通道,可以实现对表中历史存量和新增数据的消费处理。 通道服务 快速入门 使用SDK 数据安全 表格存储默认允许任意网络的访问,您可以通过为实例绑定VPC并更改实例网络类型实现在专有网络中使用表格存储资源,保证网络访问安全。 为了保证表数据安全,表格存储提供了数据落盘加密功能。您可以在创建数据表时配置数据表加密。 网络安全管理 数据加密 数据湖投递 表格存储数据湖投递可以全量备份或实时投递数据到数据湖OSS中存储,以满足更低成本的历史数据存储,以及更大规模的离线和准实时数据分析需求。 数据湖投递 快速入门 使用SDK 数据可视化 支持对接数据可视化工具DataV或者Grafana。通过对接数据可视化工具可以实现可视化展示表格存储中的数据。 对接Grafana 对接DataV 监控与报警 通过查看表格存储资源的监控信息,您可以了解资源的使用情况。通过为资源的重要监控指标设置报警规则,您还可以及时得知指标异常并快速处理异常。 通过表格存储控制台查看监控数据 配置监控指标报警 备份与恢复 通过混合云备份HBR(Hybrid Backup Recovery)定期备份表格存储实例中的数据,并在数据丢失或受损时及时恢复。HBR支持全量与增量数据备份,同时支持数据冗余机制,可以提高存储库的数据可靠性。 备份Tablestore数据 恢复Tablestore数据 HBase支持 开源HBase API的Java应用可以通过Tablestore HBase Client直接访问表格存储服务。 HBase支持 快速入门
时序模型
时序模型支持的功能特性请参见下表。
功能特性 描述 相关文档 表操作 支持列出实例中的全部时序表、创建一张时序表、查询时序表的配置信息、更新时序表的配置信息以及删除一张时序表。 使用控制台 使用命令行工具 使用SDK 读写时序数据 将时序数据批量写入一张时序表中。数据写入后,您可以通过指定时间线标识来查询一条时间线在某段时间范围内的数据。 时间线检索 检索一张时序表中的时间线,检索条件支持多种条件组合。检索到时间线后,您可以通过调用接口进一步查询该时间线中的数据。 SQL查询分析 时序表支持通过SQL进行查询,SQL中支持通过指定时间线的元数据条件筛选时间线以及通过统计聚合操作按照不同维度对数据进行聚合操作。 此外,SQL还支持仅对时间线的元数据进行查询,方便通过SQL进行时间线的元数据管理。 使用SQL查询时序数据 对接Grafana 表格存储的表数据接入Grafana后,Grafana可以根据表数据生成大盘面板,将数据实时展示给需要的用户。 对接Grafana
消息模型
消息模型支持的功能特性请参见下表。
功能特性 描述 相关文档 表操作 创建或者删除Meta表及其索引。 创建或者删除Timeline表及其索引。 表操作 Meta管理 Meta管理提供了增、删、改、单行读、多条件组合查询等接口。 Meta管理 Timeline管理 Timeline管理提供了消息模糊查询、多条件组合查询接口。 Timeline管理 Queue管理 Queue是单存储库下单Identifier对应的消息队列的管理实例,主要有同步写、异步写、批量写、删、同步改、异步改、单行读、范围读等接口。 Queue管理
产品架构
系统架构
表格存储的架构如下图所示。
业务场景
适用于元数据、消息数据、时空数据、大数据等场景下的系统搭建。
数据接入
提供SDK、DataWorks、IoT规则引擎等多种数据接入方式,支撑应用数据、消息数据、物联网数据等不同业务类型结构化数据的存储。
Tablestore
多模型数据存储
针对不同业务类型的结构化数据提供了宽表(WideColumn)模型、时序(TimeSeries)模型和消息(Timeline)模型三种数据存储模型。
模型 描述 宽表模型 类Bigtable/HBase模型,可应用于元数据、大数据等多种场景,支持数据版本、生命周期、主键列自增、条件更新、局部事务、原子计数器、过滤器等功能。更多信息,请参见宽表模型。 时序模型 针对时间序列数据的特点进行设计的模型,可应用于物联网设备监控、设备采集数据、机器监控数据等场景,支持自动构建时序元数据索引、丰富的时序查询能力等功能。更多信息,请参见时序模型。 消息模型 针对消息数据场景设计的模型,可应用于IM、Feed流等消息场景。能满足消息场景对消息保序、海量消息存储、实时同步的需求,同时支持全文检索与多维度组合查询。更多信息,请参见消息模型。
多元化数据索引
表格存储 还支持二级索引和多元索引的索引方式,提供强大的数据查询能力。
索引类型 描述 数据表主键 数据表类似于一个巨大的Map,它的查询能力也就类似于Map,只能通过主键查询。 二级索引 通过创建一张或多张索引表,使用索引表的主键列查询,相当于把数据表的主键查询能力扩展到了不同的列。 多元索引 使用了倒排索引、BKD树、列存等结构,具备丰富的查询能力,例如非主键列的条件查询、多条件组合查询、地理位置查询、全文检索、模糊查询、嵌套结构查询、统计聚合等。
冷热分层存储
数据存储支持自动冷热分层,同时表格存储 支持高性能实例和容量型实例两种实例规格来满足不同业务的数据存储需求。
实例规格 描述 高性能实例 适用于对读写性能和并发都要求非常高的场景,例如游戏、金融风控、社交应用、推荐系统等。 容量型实例 适用于对读性能不敏感,但对成本较为敏感的业务,例如日志监控数据、车联网数据、设备数据、时序数据、物流数据、舆情监控等。
数据湖投递
将表数据全量备份或实时投递数据到数据湖OSS中存储。投递的数据兼容开源生态标准,按照Parquet列存格式存储,兼容Hive命名规范。您可以使用E-MapReduce直接对投递到OSS的数据进行外表分析。
计算生态对接
支持对接主流开源流批计算引擎,包括Flink、Spark、Presto等。
与阿里大数据平台生态组件有较完善的对接,包括DataWorks、DataHub、MaxCompute等。
典型应用架构
互联网应用架构
互联网应用架构包括数据库分层架构和分布式结构化数据存储架构,主要用于电商订单、直播弹幕、网盘中文件元数据、社交网络中即时通讯等场景。
数据库分层架构
在数据库分层架构中,使用Tablestore 配合MySQL来完成应用系统的业务需求,利用MySQL的事务能力来处理对事务强需求的写操作与部分读操作,利用 Tablestore 的数据检索能力和大数据存储来实现数据存储、查询与分析。
分布式结构化数据存储架构
在分布式结构化数据存储架构中,Tablestore直连应用系统实现简单的事务处理和高并发数据读写。
数据湖架构
数据湖架构主要用于数据中台、推荐系统、风控系统等场景。
表格存储 作为源表、结果表或者维表对接流批计算引擎实现大数据计算与分析。
物联网架构
物联网架构主要用于车联网、智能家电、工业物联网、物流等场景。
表格存储 作为IoT基础设施中的统一数据存储平台来存储物联网平台相关的时序数据、元数据、消息数据等,并提供丰富的数据分析处理能力。
产品优势
多模型数据存储
表格存储
支持宽表(WideColumn)模型、时序(TimeSeries)模型、消息(Timeline)等多种数据存储模型,能实现多种类型数据的一体化存储。
宽表模型
:经典模型,目前绝大部分半结构化、结构化数据均使用宽表模型进行存储。
时序模型
:适用于时序数据、时空数据等核心数据场景。
多元化数据索引
表格存储 还支持二级索引和多元索引的索引方式,提供强大的数据查询能力。
二级索引
:相当于给数据表提供了另外一种排序方式,即对查询条件预先设计了一种数据分布,可加快数据查询的效率。
多元索引
:基于倒排索引和列式存储,支持多字段自由组合查询、模糊查询、地理位置查询、全文检索等,可解决大数据的复杂查询难题。
多计算生态接入
支持接入开源生态体系与阿里自研生态体系。
支持对接MaxCompute、Spark等批计算以及通过实时数据通道对接Flink流计算。
访问安全性
提供多种权限管理机制,并对每一次请求都进行身份认证和鉴权,以防止未授权的数据访问,确保数据访问的安全性。
支持数据访问权限管理,包括登录权限、创建表权限、读写权限、白名单控制权限等。
无缝扩展
通过数据分片和负载均衡技术,实现了存储无缝扩展。随着表数据量的不断增大, 表格存储 会进行数据分区的调整从而为该表配置更多的存储。 表格存储 可支持不少于10 PB数据存储量,单表可支持不少于1 PB数据存储量或1万亿条记录。
高可靠
将数据的多个备份存储在不同机架的不同机器上,并会在备份失效时进行快速恢复,提供99.99999999%(10个9)的可靠性。
数据一致性强
保证数据写入强一致,并保证数据3副本均写入磁盘,且所有数据保持一致。写操作一旦返回成功,应用程序就能立即读到最新的数据。
高并发读写
支持千万级并发读写能力。
运维便捷
表格存储 ,您只需专注于业务研发,无需担心软硬件预置、配置、故障、集群扩展、安全等问题,在保证高服务可用性的同时,极大地减少了管理及运维成本。
应用场景
互联网应用
历史订单数据场景
订单系统是一个非常通用的系统,存在于各行各业,例如电商订单、银行流水、运营商话费账单等。随着互联网的发展以及各企业对数据的重视,需要存储和持久化的订单量越来越大。传统关系型数据能够解决需要支持强一致的事务的在线业务,但海量的订单关系型数据无法保存全量数据,因此需要支持数据分层存储。
IM场景
IM(Instant Messaging,即时通讯)已成为当前互联网业务的基础组件,广泛应用在社交、游戏、直播等场景,具有数据量大、实时性要求高、数据增长快等特点,因此需要支持海量消息的存储、同步和检索。
Feed流场景
Feed流成为社交、媒体、新闻等领域的标准信息传递形态,产生了朋友圈、微博、头条等主流产品。由于Feed流场景的读写比一般为100:1,往往采用推模式,因此需要支持高并发主键自增消息写入。
大数据
推荐系统
推荐系统作为当前所有业务精细化运营的主要手段,广泛应用在电商、短视频、新闻等场景,具有数据量大、实时更新、个性化推荐等特点,因此需要支持海量消息存储以及实时与离线分析。
舆情&风控分析(数据爬虫)场景
通过对舆情信息的分析与把控,可以有效的分析与洞察市场,例如针对点评、新闻、评论等信息的收集分析,需要丰富的多类数据高并发写入以及便捷的数据流转进行计算分析。
物联网
对系统的运维监控以及对物联网(Internet of Things,简称IoT)场景中环境与人的监控均有助于进行事实理解与决策,因此需要支持众多设备与系统的高并发写入与数据存储以及决策分析。