百度百舸AI计算平台40发布模型训练效率提升至995
【ITBEAR】9月25日消息,在2024百度云智大会上,百度智能云宣布了其百舸AI异构计算平台的重大升级,正式推出4.0版本。这一升级版本紧密围绕大模型全旅程的算力需求,致力于为企业提供“多、快、稳、省”的AI基础设施服务,全面覆盖集群创建、开发实验、模型训练及模型推理四大核心环节。
据ITBEAR了解,针对当前算力资源短缺的普遍问题,百舸4.0版本重点强化了“多芯混训”能力,成功实现了在万卡规模集群上高达95%的多芯混合训练效能,达到了业界领先水平。此外,在集群部署环节,升级后的百舸显著提升了部署效率,能够将万卡集群的运行准备时间从以往的数周缩短至最快1小时,极大缩短了业务上线周期。
针对大模型训练过程中频繁出现的故障问题,百舸4.0版本全面升级了故障检测手段和自动容错机制,有效降低了故障发生频次,并大幅减少了集群故障处置时间,确保在万卡集群上实现超过99.5%的有效训练时长。在模型推理方面,鉴于长文本推理逐渐成为主流趋势,百舸4.0版本对推理速度和成本进行了全面优化,使得长文本推理效率提升了1倍以上。
此次百度智能云百舸AI异构计算平台的全面升级,无疑将为企业提供更高效、更稳定的AI基础设施服务,助力企业在AI领域的快速发展。#百度智能云# #百舸AI异构计算平台# #大模型训练# #模型推理# #算力资源#