存储新趋势 - 与算力和网络的新三角架构关系(一)

来源:江苏华存电子科技 #华存电子#
2.4w

特定场景的应用软件架构在以存储、算力、网络等能力所组合出的高性能服务器上运行,助力过去20年以移动互联网为基石的黄金发展时代,随着智能化时代的来临,为了擘划未来20年的发展,许多演变出来的新型架构被提出,目的都是为了可以提出更有效率的方式来满足新时代的应用,让我们一起来探究这些新架构的关系。

存算分离的架构

随着业务量爆发性的成长与实时性的要求,企业服务器等基础建设投入的成本与效率问题也随之越难以解决,在2004年由Google所提出的三篇创新性技术的文章(Google File System、MapReduce and BigTable),奠定分布式系统的理论基础,也造就开源架构开始大量出现,让开发者可以利用集群的计算与存储能力进行设计。

在2012年到2014年之间,当时主流的塔式单机服务器,是将计算资源与存储资源以一定的比例强绑定,系统扩容时要按节点数目增加,造成资源上一定比例的浪费,也未能实现计算资源和存储资源的灵活配比和调整。而且,由于使用3副本的存储模式,也造成高涨的存储总成本,再加上单一集群规模变大与多个集群需要同时承载业务的要求,以及塔式单机吞吐量与集群网络带宽不够的限制,综合以上种种原因,因此以EMC为代表的厂商提出了新的底层文件系统,提供了新的纠删码(EC)方式,也定义出向前兼容的RPC协议,从而让计算与存储分离,可让企业各自依照计算与存储的需求分别弹性扩增。同时,加上虚拟化技术的出现,更能充分把CPU的算力与磁盘的存儲充分调度起来,解决了资源利用的效率问题,也成为存算分离架构的起头点。

随着数据的价值被逐步地强调,以数据为中心的实时大数据分析成为AI智能大数据时代的基本需求,不同行业间的数据协议异构的困境越发明显,也为了能更减少数据的搬移与重复储存,在存储领域更提出了像数据仓库、数据湖、协议兼容层等创新技术,来缩短数据链路路径,也让同一份数据支持多种业务同时访问。在大数据架构层面的演进方面,可以看到图1中,是有以下3个阶段的:

· 计算层逐渐轻量化,逐步与数据解耦

· HDFS存储层逐渐支持多种存储,逐步走向存算分离

· 基于存算分离,逐步向数据湖架构演进

图1:大数据架构演进

可以看出,在大数据3.0时代后,存算分离的优势也是非常明显且必然的,最终也能实现资源云化和弹性扩展,同时让存储资源从原本的开源HDFS转向更加专业化的企业级存储,如图2。

图2:存算融合及存算分离架构

使用存算分离的优势也有以下3点:

· 按需独立扩展计算或存储资源,避免资源浪费

· 计算、存储资源分别云化,告别数据孤岛,使得数据能够进行多平台数据共享

· 开源HDFS,改为专业存储,更佳的可靠性及利用率,同时提供更丰富的企业级特性

专业存储的选择中,目前大部分行业客户已经开始使用分布式存储,而分布式存储系统也以高可靠度与高性能的路线大步进化,除了维持多种数据保护机制、性能及容量弹性扩展、支持多接口协议等原有优势,也将热温冷数据做适当分类调度,以增加数据处理性能,同时引进NVME SSD闪存存储,来加速热数据的处理,也使得分布式存储系统更能因应各种行业的使用场景。

如今,随着NVMe技术的不断普及,其显示出优势明显的同时,也面临着扩展性及兼容性的问题,例如使用NVMe SSD的情况下只能使用基于PCIe的交换机,虽然该扩展方式已经相当有效,但整体的范围是有限的,因此许多系统的架构开始采用了NVMe over Fabric(又名NVMe- oF)新兴技术,它支持对数据中心的计算资源与存储资源进行分解,且允许在数据中心范围内连接无数的存储空间,从而大大提高了扩展性与兼容性。

存算是进一步分离? 还是存算又进一步融合?

方案的关键在于如何能让行业方案在新的架构上以更高效能、更节能的方式运行。目前,不论是国内或是国外,不论是互联网厂商或是企业厂商,都认可分布式存储所带来的效益,也着力于持续改善新业务型态需求所带来的痛点。因此,让算力资源更专注在计算,而让跟一部分只与存储相关数据的计算与处理,下沉到存储系统内,便成为新的创新领域,让算力与存储的关系更分离。例如,阿里与亚马逊,在近期都提到了将原本在服务器之间需要进行的同步化日志,都下推到存储系统内,既减少了日志同步所需要算力的损耗,也减少了日志数据的不必要的搬移。

以这样的创新业务场景,如果站在存储的角度看,是把”一部分的计算工作”交给存储,也使得存储需要融合一部分算力观念,因此,在存储的领域中,是进一步融合了存算。从数据价值的角度来理解,如果已经下沉到存储系统的数据,当需要只发生在存储系统的计算或是处理,能在存储系统内完成,确实能再提高数据处理的性能,也能再减少因数据搬移到CPU的能源损耗,确实是一个行之有效的方案,而由此引申出来的”智能存储”创新,也将有机会成为下一波分布式存储的亮点。

NVMe SSD无论是在存算分离及在存算一体的架构与应用中,其高性能的优越表现,目前已确认是极为重要的角色,但是由于过往机械硬盘的使用方式,让NVMe SSD在存储系统的最终性能上没有发挥到极致,这需要系统端与SSD端共同一起合作,打磨出可视化的系统角度的性能提升。江苏华存的PCIe5 NVME SSD产品家族,得益于公司自主开发的PCIe5 SSD主控芯片HC9001,其中自研创新的XSDirectA架构,加上数据流管理策略与QoS纠错策略,能让固态硬盘SSD所呈现的优异性能不再只是体现在SSD冰冷的数据而已,而是体现在有体验感的存儲系统角度的性能提升。

计算与存储是相辅相成,存储的效能提升要与算力的效能提升齐头并进,方能最大化发挥其“双打组合”的威力。在存储层面而言,“融合依照存储特性所需要的计算能力”—— 存储与CPU/GPU/DPU、网络等组成的硬件生态,连同软件的生态伙伴,将一同推动行业场景往高性能方向实现的不断升级与突破。我们在下一篇会再由另一个观点来了解计算与存储的关联性,敬请关注,下回分解。

责编: 爱集微
来源:江苏华存电子科技 #华存电子#
THE END
关闭
加载

PDF 加载中...