【发现者网】4月8日消息,腾讯云近日公布了其云存储解决方案针对AIGC场景的全面升级。新方案致力于为大模型的全程数据处理提供强大且高效的云存储支持,包括数据的采集清洗、训练、推理及治理等各个环节。
据了解,此次腾讯云推出的AIGC云存储解决方案融合了对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS以及数据万象CI等多个产品组件,被标榜为国内首个全面自主研发存储引擎的云存储解决方案。目前,已有高达80%的领先大模型企业选择了这一方案,其中不乏百川智能、智谱、元象等业界佼佼者。
此前,腾讯云在AIGC领域已有诸多布局,推出了包括基于星脉网络的大模型训练集群HCC、向量数据库以及行业大模型服务MaaS等一系列全链路云服务。
在AI大模型的研发生产过程中,数据处理是一个重要的环节。从数据采集与清洗到模型训练,再到推理,每一步都伴随着海量的数据处理需求。腾讯云的新方案通过多项自研技术,有效解决了这一难题。
在数据采集与清洗阶段,由于原始数据规模庞大且来源广泛,对存储技术提出了多方面的要求。腾讯云的对象存储COS不仅支持超大规模的数据管理,还提供了高效的数据接入能力和多协议支持,充分满足了大模型数据采集的需求。同时,通过自研的数据加速器GooseFS,COS能够大幅提升数据访问性能,从而有效提高数据清洗的效率。
进入模型训练阶段,快速读写checkpoint文件成为了提高训练效率的关键。为此,腾讯云自主研发了并行文件存储CFS Turbo,专为AIGC训练场景优化。其读写吞吐性能达到了业界领先水平,显著缩短了大模型训练中的checkpoint写入时间,进而大幅提升了训练效率。
此外,在大模型推理场景中,数据的安全与可追溯性尤为重要。腾讯云的数据万象CI提供了包括隐式水印、内容审核、智能数据检索在内的多项功能,为AIGC内容生产与管理模式提供了全面的优化与支持。
这一方案的卓越性能得益于腾讯云自主研发的存储引擎和技术。其中,自研的分布式对象存储引擎YottaStore以及高性能并行文件存储系统CFS Turbo等关键技术,在提升可用性、可靠性及性能的同时,也有效降低了成本。
总体来看,腾讯云的AIGC云存储解决方案通过全方位的优化与创新,不仅满足了AI大模型在数据处理方面的严苛需求,也为行业的持续发展注入了新的活力。