发现商业评论 旗下
洞察商业 启迪未来

京东云推出创新vGPU池化方案,助力大型模型高效训练与推理

   时间:2023-08-16 10:26 来源:发现者网

【发现者网】8月16日消息,京东云近日发布了全新的vGPU池化方案,该方案旨在为用户提供高效的GPU算力管理解决方案,以降低成本、提高资源利用率,进一步推动大型模型训练与推理任务的效率提升。

根据京东云的官方介绍,这项创新方案的最大亮点在于其能够一站式提供GPU算力池化能力,有效地应对多种AI应用需求。该方案在现有的混合多云CPU算力池化能力基础上,针对大模型训练所需的泛算力池化能力进行了进一步增强,还加强了对AI应用的调度管理能力,涵盖卡管理、节点管理、异构资源调度等。

其中,京东云表示这一方案具备四大优势。首先,在算力切分方面,该方案支持灵活的任意比例切分和动态调整机制,实现了按显卡算力和显存做细粒度切分,这意味着一张物理卡可以供多个容器使用,而性能衰减仅在2%以内。其次,在配额管理方面,用户可以根据显卡型号或标签进行灵活的配额管理,从而确保资源能够按需分配,提高了推理的稳定性和训练的性能。此外,这一方案还具备多场景适配能力,能够适配主流CUDA版本和不同的GPU芯片,同时兼容业界主流的AI训练框架,如TensorFlow和PyTorch。最后,在多节点管理方面,该方案支持节点虚拟分组和节点组指定应用使用,全面提升了大型模型训练的效率。

据发现者网了解,开发者可以根据具体的卡型号申请资源,按照算力和显存进行切分,并由控制器根据用户设定的调度策略进行动态调整。这些资源仅在训练、微调和推理任务启动时进行动态分配,在任务结束后立即释放,同时支持多任务算力隔离和任务冷启动。

 
标签: 京东云
 
更多>同类内容
全站最新
热门内容