手机号码,快捷登录

手机号码,快捷登录

星球AI:一键训练大模型及部署GPU共享推理服务

329 0
admin 2024-6-7 22:53:11 | 显示全部楼层 |阅读模式





通过创建ACK集群Pro版,使用云原生AI套件提交模型微调训练任务与部署GPU共享推理服务。支持快速创建Kubernetes集群,白屏配置任务数据共享存储和下载,并通过命令行工具Arena快速提交模型训练任务、部署推理服务。使用云原生AI套件可以让模型训练和推理提效,提高GPU资源利用率。
方案预估:体验本方案预计费用约为12~16元(假设您配置ACK集群、云原生AI套件和NAS实例时选择本文指导的规格资源,且资源运行时间不超过1小时。实际情况可能会因您操作过程中使用的资源规格和流量差异,而导致费用有所变化,请以控制台显示的实际报价以及最终账单为准)


方案介绍

一键训练大模型及部署GPU共享推理服务
通过创建ACK集群Pro版,您可以为集群挂载NAS实例作为集群的共享存储卷,用于存放模型训练数据。在集群中部署云原生AI套件后,您可以基于其能力提交Bloom模型训练任务进行模型训练,并通过GPU显存共享调度的能力,将多个推理服务部署在同一块GPU卡上以提高GPU的利用率。


应用场景

持续优化异构资源效率
对云上各种异构计算资源(如CPU、GPU、NPU、VPU、FPGA)、存储(OSS、NAS、CPFS、HDFS)、网络(TCP、RDMA)资源,云原生AI套件支持对其进行抽象,统一管理、运维和分配,通过弹性和软硬协同优化,持续提升资源利用率。

高效运行AI等异构工作负载
云原生AI套件兼容Tensorflow、Pytorch、Horovod、Spark、Flink等主流开源或者用户自有的各种计算引擎和运行时,统一运行各类异构工作负载,统一管理作业生命周期,统一调度任务工作流,保证任务规模和性能。云原生AI套件一方面不断优化运行任务的性能、效率和成本,另一方面持续改善开发运维体验和工程效率。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

节点星球科技有限公司

全国服务热线:9:00-16:00

400-8888-000
Copyright © 2001-2025 Node Planet .|节点星球

Powered by Discuz! X3.5