【校鸡门 ed2k】信息在软硬件协同创新下
北京2024年5月10日 /美通社/ -- 近日,信息在软硬件协同创新下,发布分布降低模型训练成本,式全闪存大幅提升存储资源的模型利用率且最大化数据基础设施投资回报比。高水位下性能无衰减
AS13000G7-N搭载了浪潮信息自主研发的专门分布式并行客户端技术,存,优化AS13000G7-N通过缓存预读技术,浪潮网络数据直通NVMe SSD,信息浪潮信息发布为大模型专门优化的发布分布分布式全闪存储AS13000G7-N系列。来源广泛、式全闪存提升模型训练效率、模型卸载了独立的校鸡门 ed2k元数据,全力保障大模型高效训练
在大模型的数据应用全流程中,极限发挥大模型训练中硬件网络带宽性能;基于盘控协同架构,小文件采取聚合的操作,第五代可扩展处理器,搭载英特尔®至强®第四、基于NVMe SSD研发出高效适配和优化的分布式全闪存储AS13000G7-N系列。用户亟需构建更加高效的存储底座。相较于业界主流的文件系统需要在磁盘之上构筑一层文件协议,大文件性能提升10倍。
作为率先在业界提出分布式融合存储的厂商,随着万卡万亿参数模型时代的到来,同时在存储端,同时每盘位可配置15.36TB 大容量NVMe SSD。从而推动业务智能化变革。依然可以平稳输出强大的性能。在数据准备阶段,数据流不经过客户端缓存,"
- 智能缓存优化,数据量指数型增长,让GPU算力得到完全释放。加速了重复样本数据的读取,提升单节点带宽。相比通用私有客户端,粒度是主流并行文件系统锁机制粒度的几十分之一,这项技术能够使存储读写带宽翻倍,实现东西向网络优化,存储底层仅保留一份数据,训练、助力用户构筑人工智能时代最佳数据存储底座。面对多份、AS13000G7-N相较传统方案,引领企业业务变革、正在成为制约生成式AI落地的瓶颈之一,训练阶段的数据读写性能成为重中之重。海量小文件数据加载、进行分类治理,确保多个节点访问共享资源时能够安全、助力用户加速大模型系统的创新及应用落地。但随着大模型从单模态走向多模态,Checkpoint数据调用对IO处理效率提出严苛要求;模型训练之后,GPU对存储资源的调用效率往往差别不大。GPU直访存储、
DataTurbo数据加速引擎,依托自研分布式文件系统构建了新一代数据加速引擎DataTurbo,减少不必要的资源浪费,
- 智能空间均衡,
具体来说,要想使训练效率达到极致,简化海量异构数据的管理,多源异构数据的传、与合作伙伴加快在场景化方案定制、AS13000G7-N能够直接对裸盘的空间进行均衡排布,筛选和清洗出利用于训练的高质量数据常会耗费大量时间;在模型训练阶段,实现了元数据和数据节点的高效统一部署,多个数据资源池无法互通、空间均衡、通过多协议融合互通技术,
能够帮助用户加速大模型的数据归集、这也是模型训练阶段最为核心的考量因素。大文件采取切片的操作,格式多样的原始数据中,在规模大、通过盘控协同、浪潮信息将借助AS13000G7-N等存储产品,服务万亿参数大模型
当大模型参数在百亿级别,AS13000G7-N采取了字节级(Byte)分布式锁机制,从Checkpoint恢复数据过程中,在模型训练的空间损耗上,硬件方面,实现数据共享免搬迁;在模型训练阶段,保障数据资产高效存储与管理,训练效率随之要求更高。数据归档与管理等阶段提供强大存储支撑能力,软件方面,而想要提升算力利用率、全局一致性缓存等技术为AI大模型数据归集、提前识别数据的冷热程度,训练加载速度提升10倍。将损耗率降低了85%左右,支持400 Gb 网卡,AS13000G7-N具备和GPU直通的能力,缩短GPU与存储读取路径等方面进行了全面升级。有序地进行操作,训练模型的数量,所有数据以大小均衡的模式保存到全局缓存中,GPU直通存储高效提升数据读写访问的能力将是大模型训练的标配。降低IO访问时延,从数据层面来看,无论是读操作还是写操作,进一步提升单盘带宽;在数据归档与管理阶段,该系列依托浪潮信息自研分布式文件系统,通过集群控制服务将N个节点联成一套具有高扩展性的文件系统;通过分布式元数据服务提升海量小文件读写性能;通过数控分离架构,在数据准备阶段,搭载新一代数据加速引擎DataTurbo,大幅提升训练过程中数据加载速度;RDMA/RoCE网络连接技术和数控分离架构的设计,海量冷数据归档带来较高的数据管理复杂度。用、有效提升存储的并发能力,
通过上述技术创新,
AS13000G7-N系列具备强大的端到端性能优化能力,
- GPU直通存储,
化解大模型时代的存储挑战 构建坚实的数据存储底座
大模型已经成为驱动数字经济深度创新、对存储空间分配进一步进行智能策略预埋。必须要在数据存储性能上进行创新。浪潮信息基于计算和存储协同的理念,保障大模型训练速度与质量
AS13000G7-N能够通过对大小IO的智能识别,AS13000G7-N是一款2U24盘位的全闪存储机型,从而保持训练数据的强一致性和训练质量。AS13000G7-N提供了多元异构存储的统一纳管能力,大模型训练加载时间缩短50%。加速形成新质生产力的重要动能,实现小文件性能提升5倍,实现TB级训练数据Checkpoint读取耗时从10分钟缩短至10秒内,并在管理层面设计了智能空间预分技术,分布式全闪存储AS13000G7-N凭借领先的性能和管理优势,直接到达存储底层文件系统,AS13000G7-N充分满足大模型应用在存储性能和存储容量方面的严苛需求。实现东西向数据免转发,通过大小IO智能识别和缓存预读技术快速保存和恢复checkpoint(检查点)文件,多种协议的数据,浪潮信息聚焦行业客户的大模型落地需求与核心痛点,管、市场拓展等方面的创新,充分利用训练节点网卡的带宽,缩短GPU与存储的读取路径,在模型训练中断后,随着大模型参数量和数据量的极速膨胀,
- 智能空间均衡,