导图社区 统一存储技术方案大纲
统一存储技术方案大纲的思维导图,整理了背吴、现状、目标、架构原则、需求分析、设计方案、资源需求的内容,快来看看交流吧!
编辑于2023-02-27 10:21:55 广东这是一篇关于关于商业软件采购的步骤的思维导图,主要内容包括:验收总结,上线试运行,项目进场实施,硬件资源准备,准备供应商入场手续,项目启动会,签订合同,准备招标评分规则、确定上午招标计划,投资立项汇报,输出供应商选型分析报告,供应商详细交流,供应商初步交流,准备需求清单。
这是一篇关于组织变革的方法的思维导图,包含启动变革、调整结构-装配动力、制度升级-赋能个体、研发平台-激发创新等。
华为数字化转型企业持续有效增长的新引擎的思维导图,数字化转型,不仅仅是生产方式的变革,也是组织和运行机制的变革,是对企业决策者决心和恒心的考验。
社区模板帮助中心,点此进入>>
这是一篇关于关于商业软件采购的步骤的思维导图,主要内容包括:验收总结,上线试运行,项目进场实施,硬件资源准备,准备供应商入场手续,项目启动会,签订合同,准备招标评分规则、确定上午招标计划,投资立项汇报,输出供应商选型分析报告,供应商详细交流,供应商初步交流,准备需求清单。
这是一篇关于组织变革的方法的思维导图,包含启动变革、调整结构-装配动力、制度升级-赋能个体、研发平台-激发创新等。
华为数字化转型企业持续有效增长的新引擎的思维导图,数字化转型,不仅仅是生产方式的变革,也是组织和运行机制的变革,是对企业决策者决心和恒心的考验。
统一存储方案
背景
随着公司数字化建设,数据增长越来越快,对数据存储有了更高的要求,企业面临数据存储和数据安全的极大挑战。 为了更好的支持公司业务目前遇到的文件存储需要,充分利用资源,减少重复投资,同时更好的应对未来新增的数据存储需要,计划构建统一通用的存储服务,提供通用的数据存储、归档服务。
现状
目前为了统一公司项目文件管理,在Trinity构建了项目文档管理模块,从原有的线下、共享盘、RDM等多种方式统一成由Trinity统一入口、统一管理。根据数据预估,项目管理仅网盘一年的容量增长在250T左右,而Trinity本身的BUG附件管理年增长量在5T左右。
业务BU提出了对供应商交付物进行管理的需要,交付中设计1G以上大文件存储的需要。
现状
公司目前并没有合适的存储各种大小的统一存储系统,Trinity现有的文件存储,依赖的是SFTP基于传统的文件存储系统,在存储文件大小上,对于大文件的支持较弱,同时是单节点,不支持分部署架构。
差距
单点故障,可用性不达标
高性能
目前亟待解决的应用场景有三类
目标
长期目标
构建统一的微服务监控平台,提供通用的微服务监控能力,完善系统、中间件和应用层的 监控体系。
实现对 EDS 现有及未来新建的应用和中间件、数据库进行监控覆盖 ,关键系统监控覆盖率100%。
提升用户服务体验、提升应用服务稳定性:在用户感知之前提前发现风险和故障,提前处理。
改变运维模式:从被动运维模式到主动运维模式,为自动化运维的实现奠定基础。
短期目标
满足web数据存储需要
小型对象,事务处理负载搞,数以亿计的文件对象
比如Trinity附件管理、项目文档管理
满足媒体存储需要
大型对象,流数据访问,高吞吐率
比如供应商交付物管理
满足数据归档备份需求
如飞书
架构原则
先进性
在条件允许的范围内,引进吸收和应用先进技术,方案推荐的产品性能和功能不仅满足当前需求,而且需要考虑未来的应用发展和数据扩展
安全性
系统具有成熟的安全保护机制,关键应用及设备均采用冗余链路设计,消除单点故障,设计结构中考虑数据备份和回复的功能。
稳定性
应用系统的稳定性需要重点考虑,是否可靠,是否有冗余节点;尤其是数据存储系统需要具备高可用特性。
可扩展性
存储系统未来必然会为不同的系统提供存储服务、备份服务,需要考虑其接口的设计需要符合开放性设计原则,以及存储设备本身的灵活扩容特性。
可行性
方案中涉及的技术、设备、实施方法等都必须经过实际工程案例的应用或经过测试环境的验证,具备实际可操作性。
应遵循通用的原则:一致性、适合性、简单性、演进性
同时遵循通用设计原则:SOLID面向对象设计原则、AFK设计原则
需求分析
功能需求
Trinity系统在项目管理过程中,通过存储服务接口对系统中的附件、项目文档进行服务的保存、读取、删除操作。
QS+系统在进行供应商交付物进行检查确认时,需要通过存储服务接口
通过权限控制接口对存储的文件数据进行ACL(Access control List)控制
存储系统后台管理
统计分析
当前租户文件数量统计、容量查询
接口调用统计
桶数据概览、对象数量统计、对象大小统计
文件管理
文件查询浏览
文件查询
文件更新?
管理功能
租户管理
存储桶ACL管理
组策略维护
用户ACL管理
质量属性分析
性能要求
公司内部文件传输速度理论值达到100M/s(受限于网络环境限制,具体以时间网络情况为准)
设计方案
整体方案介绍
采用对象存储
文件存储就像自助停车一样,需要自己找到停车(文件)的位置(目录),记录下找到车的路线(路径),在取车时通过记录好的路线找到自己的车。
而对象存储就像代客泊车,工作人员(对象存储)按照一定的规律替你把车(对象)停在停车场(桶)的某个位置,并且给你一张凭证(对象ID),取车时只需要凭停车凭证就可以由工作人员替你取出你的车,而你本人不需要知道车具体停哪里。
对象存储是什么
对象存储有什么优势
高可靠:纠删码存储方案,能够提供更加好的可靠性。跨数据中心的副本冗余,能够保障服务的高可用性
可伸缩性强 您可以轻松横向扩容对象存储的扁平架构,而不会受到文件存储或块存储那样的限制。对象存储基本没有大小限制,因此只需添加新设备,即可将数据扩大到 EB 级。
具有弹性 对象存储可以自动复制数据并存储在多个设备和多个地理位置。这有助于防范服务中断和数据丢失,并可为灾难恢复策略提供支持
复杂性低 对象存储没有文件夹或目录,也就不具有层次结构系统的大多数复杂性。由于没有复杂的树或分区,检索文件变得十分轻松,因为您不需要知道确切位置。
易扩展:充分运用对象存储,存储空间无上限限制,也不需要担忧扩容问题。能够完成存储需求量的弹性伸缩,进而提升业务灵活性
成本效益高 对象存储在设计时考虑了成本因素,与基于文件和块的系统相比,能够以更低的价格存储大量数据。使用对象存储时,您只为需要的容量付费,即使存储大量数据,也能很好地控制费用。
成本低:早期不需要投入,因为对象存储按需使用、按需收费的便利性,能够有效的防止存储及带宽资源的闲置不用浪费
存储加速:边缘存储可充分运用可用链路带宽,数据信息在边缘节点上传和下载可平均提速60%以上
边缘计算:就近原则集成边缘计算及边缘缓存服务,边缘存储节点具有本地数据处理能力
RESTful API、http查询对象
可以遍布全球的单个存储池 随着物联网、遥感技术以及低成本4K摄像头的出现,实时创建连续的非结构化数据流无处不在。除了可扩展性的挑战之外,这种模式的转变对存储网络技术提出了新的要求。对象存储通过分布式系统来解决这个问题,在这个系统中,节点可以部署在任何需要的地方。这样就可以在收集数据的地方执行分析,而不必通过网络发送所有原始的非结构化数据进行处理。
目前除了aws亚马逊,BAT也对S3都提供了支持。百度云、阿里云、腾讯云都可使用S3.
增加节点对于性能的影响轻微
S3存储与传统存储相比,具有更高的可用性和可扩展性,可以提供更高的容量,更低的成本,更快的响应速度,更安全的数据保护,以及服务器不可用时的可靠性。
多租户的多租户对象存储系统,这样可以更好地保护客户的数据安全。其次,应该考虑如何实现数据的容灾恢复和备份,以及如何处理数据的安全性和隐私保护。最后,应当考虑如何将存储在该系统中的数据进行有效管理和分析,以满足不同行业的需求。
对象存储是什么?S3对象存储就是云存储
整体架构图
部署架构
风险评估
资源需求
RASCI分析
硬件要求
人力投入预估
实施计划
评审记录
评审纪要
ToDo List
对象存储、块存储、文件存储的区别
文件存储
以文件和文件夹的层次结构来整理和呈现数据
文件级存储或基于文件的存储,数据会以单条信息的形式存储在文件夹中。 当您需要访问该数据时,您的计算机需要知道相应的查找路径。(注意,这可能会是一条蜿蜒冗长的路径。)存储在文件中的数据会根据数量有限的元数据来进行整理和检索,这些元数据会告诉计算机文件所在的确切位置。它就像是数据文件的库卡目录。
请试想一下塞满文件柜的储藏室。每个文档都会按照某种类型的逻辑层次结构来排放 ——按文件柜、抽屉、文件夹,然后再是纸张。“分层存储”这个术语就是这么来的,而这就是文件存储。它是适用于直接和网络附加存储系统的最古老且运用最为广泛的一种数据存储系统;
文件存储具有丰富多样的功能,几乎可以存储任何内容。它非常适合用来存储一系列复杂文件,并且有助于用户快速导航。 问题是,就像文件柜一样,虚拟抽屉只能打开到一定的程度。基于文件的存储系统必须通过添置更多系统来进行横向扩展,而不是通过增添更多容量来进行纵向扩展。
通用(处处都可以用到,但是做到商业级研发周期长、语义多、比较复杂),一般局域网内使用
缺点:读写速率低,传输速度慢,以太网上传下载速度慢,所有读写都要一台服务器里的硬盘来承担
常见的有Windows的FAT/FAT32/NTFS,Linux的EXT2/EXT3/EXT4/XFS/BtrFS
文件存储应用场景 视频、影像等海量文件数据存储 视频监控、视频编辑、金融票据、医疗影像等系统的视频、影像等非结构化数据的存储,在容量和文件数量方面对存储系统的规模都有很高的要求,采用文件存储能够保证数据写入实时高效,同时具备大容量和高可扩展的存储能力,全面满足用户复杂的业务需要。 高性能计算 HPC高性能计算对存储并发性能的要求很高,传统的阵列式存储设备难以满足其要求,需要采用文件存储提供足够的并发性能。 大数据在线分析 利用Hadoop等大数据分析平台对海量数据进行数据分析、数据挖掘,对存储容量提出较高要求,分布式存储系统提供海量存储空间的同时,支持Hadoop的协议共享,简化了部署难度。
块存储
将数据拆分到任意划分且大小相同的卷中
块存储会将数据拆分成块,并单独存储各个块。每个数据块都有一个唯一标识符,所以存储系统能将较小的数据存放在最方便的位置。这意味着有些数据可以存储在 Linux 环境中,有些则可以存储在 Windows 单元中。
块存储通常会被配置为将数据与用户环境分离,并会将数据分布到可以更好地为其提供服务的多个环境中。然后,当用户请求数据时,底层存储软件会重新组装来自这些环境的数据块,并将它们呈现给用户。它通常会部署在存储区域网络 (SAN) 环境中,而且必须绑定到正常运行的服务器。
由于块存储不依赖于单条数据路径(和文件存储一样),因此可以实现快速检索。每个块都独立存在,且可进行分区,因此可以通过不同的操作系统进行访问,这使得用户可以完全自由地配置数据。它是一种高效可靠的数据存储方式,且易于使用和管理。它适用于要执行大型事务的企业和部署了大型数据库的企业。这意味着,需要存储的数据越多,就越适合使用块存储。
但是,块存储有一些缺点。块存储的成本高昂。它处理元数据的能力有限;这意味着,它需要在应用或数据库级别进行处理 — 开发人员或系统管理员又多了一件事要担忧。(意味着开发运维成本高)
对象存储需要一个简单的 HTTP 应用编程接口 (API),以供大多数客户端(各种语言)使用。对象存储经济高效:您只需为已用的内容付费。它可以轻松扩展,因而是公共云存储的理想之选。它是一个非常适用于静态数据的存储系统,其灵活性和扁平性意味着它可以通过扩展来存储极大量的数据。对象具有足够的信息供应用快速查找数据,并且擅长存储非结构化数据。
当然,它也存在缺点。无法修改对象 — 您必须一次性完整地写入对象。对象存储也不能很好地与传统数据库搭配使用,因为编写对象是一个缓慢的过程,编写应用以使用对象存储 API 并不像使用文件存储那么简单。
简单来说是给计算机使用的
它的 IO 特点与传统的硬盘是一致的,一个硬盘应该是能面向通用需求的,即能应付大文件读写,也能处理好小文件读写。
专业(基本都是匹配为专用的环境、系统、应用),不适合分布式(虽扩展性强,但是性能下降,网络延迟,与自身定位违背),一般局域网内使用
应用实例:数据库、电信、票据
各种级别的RAID,JBOD,某些操作系统的卷管理系统(Volume Manager)如Windows的动态磁盘、Linux的LVM等
块存储应用场景 实时交易类型应用 采用高一致性、高可靠、低延迟的块存储进行部署,能够满足在实时交易类型应用的数据库等结构化数据的读写中,对数据一致性和读写效率的高要求。 分析处理类型应用 数据仓库等联机分析处理应用为用户的经营决策提供支撑,块存储具备高性能、易管理的特性,可以有效保证分析过程的准确、高效。 虚拟化及容器云环境 私有云及混合云环境中本地存储的构建一般采用块存储的方式,块存储协议兼容性高、管理接口支持全面,对主流的虚拟化、云平台等具备全面的支持能力。
对象存储
管理数据并将其链接至关联的元数据
对象存储,也称为基于对象的存储,是一种扁平结构,其中的文件被拆分成多个部分并散布在多个硬件间。在对象存储中,数据会被分解为称为“对象”的离散单元,并保存在单个存储库中,而不是作为文件夹中的文件或服务器上的块来保存。
给浏览器等HTTP客户端使用
接口简单,一个对象我们可以看成一个文件,只能全写全读,通常以大文件为主,要求足够的 IO 带宽
http协议(URL(URI),使用这种标志符可以定位到具体位置,天生适合互联网)
海量(访问方式和结构比较简单,非文件存储那种树形结构而是是一种扁平结构,查询有显著的优势),http的访问方式非常适用互联网的环境,超高并发(比如网上买票),需要适应公网环境(不稳定性、比如断点续传 重复数据删除、数据压缩)
应用实例:大数据、公有云、网盘(百度网盘)、媒体(腾讯视频)、医疗影像(PACS)、冷数据的归档
对象存储应用场景 海量非结构化数据归档 对象存储可提供完善的归档备份类解决方案,弹性扩展的集群可有效满足企业日益增长的存储需求。通过EC、多副本、多站点部署等策略提供可靠性保障;同时实现海量文件的高效检索。 数据分析与挖掘 支持标准S3、NFS等协议,可与Hadoop等主流大数据平台实现无缝对接,全面纳管大数据存储。采用分布式架构及哈希算法实现负载均衡,可及时高效地响应业务存调需求。 企业云方案 可为云就绪的数据中心提供智能存储,并可通过开放的API模式帮助云原生应用快速完成开发及业务上线。支持定制化IAM策略,并且能与云应用深度结合,协同为用户打造全面的企业云方案。
存储分类
时间/部署角度
传统的集中式存储、分布式存储
服务类型角度
块存储、文件存储、对象存储
高效存储、读取数据、并发工作、数据安全、校验机制(能够使用少数数据保存多量数据)、存储空间管理(有足够的能力管理硬件)
其他
为统一公司项目文件管理,从原有的线下、共享盘的方式转为Trinity线上统一管理;业务BU的供应商交付物管理需求同样需要存储对大文件进行支持。同时,数据的迅速增长和
存储遇到的问题
1. 是所有节点数据同步成功才上传成功,还是上传到1个节点成功就返回成功?
2. 如果上传到1个节点就成功,其他节点正在同步数据时,立即瞬间删除文件,程序应该如何处理?
3. 如果同步过程中,有部分节点同步数据失败怎么办?
4. 有部分节点在收到删除但还未执行时,服务器突然挂了怎么办?
5. 允不允许修改已上传的文件?如果允许,那么修改到一半的时候,突然断电,文件是否就损坏了?
6. 支不支持断点续传,断点续传过程中突然断电,上次还能否接着上传而数据不损坏?
7. 新增存储节点后,会不会重新分配和迁移之前的数据?
8. 新增的存储节点刚刚加入集群,然后立马关闭或者意外挂掉,集群状态会不会混乱,数据会不会异常?
9. N个存储节点N个副本,如果挂掉一个节点,服务还能否使用,如果能使用,那上传的文件会有几个副本?
10. 挂掉一个存储节点后,运行了一段时间,上传了很多文件,当这个节点恢复了,会同步之前上传的文件到这个节点吗?
存储考虑的点
高性能
安全性/容错性高、数据万无一失
资源占用较小、运行稳定
高可用、支持集群、支持多活
支持平滑的扩容
较高的并发