百度百舸AI计算平台40发布模型训练效率逼近极限
【ITBEAR】9月25日消息,在2024百度云智大会上,百度智能云宣布了其百舸AI异构计算平台已成功升级至4.0版本,旨在满足大模型全旅程的算力需求,为企业提供更为高效、稳定的AI基础设施。
据ITBEAR了解,百舸4.0版本特别针对“多芯混训”能力进行了显著升级,实现在万卡规模集群上达到95%的多芯混合训练效能,处于行业领先地位。这一升级有效解决了算力资源短缺的问题,提升了训练效率。
在集群部署方面,升级后的百舸平台展现出强大的工具层面优化能力,将万卡集群的运行准备时间从数周大幅缩短至1小时,极大提升了部署效率,缩短了业务上线周期。
针对大模型训练过程中频繁出现的故障问题,百舸4.0版本全面升级了故障检测手段和自动容错机制,有效降低了故障发生频次,大幅减少了集群故障处置时间,确保在万卡集群上实现超过99.5%的有效训练时长。
在模型推理方面,随着长文本推理逐渐成为主流需求,百舸4.0版本进行了整体优化,使得长文本推理效率提升了1倍以上,显著提升了推理速度和降低了成本。
此次百度智能云的百舸4.0版本发布,无疑为企业提供了更为强大、高效的AI基础设施,助力企业在AI领域实现更快的发展。#百度智能云# #百舸AI异构计算平台# #算力升级# #模型推理优化# #大模型训练#