蚂蚁集团NextEvo全面开源AI Infra技术，可实现大模型训练'自动驾驶”-人工智能-PHP中文网

蚂蚁集团NextEvo全面开源AI Infra技术，可实现大模型训练'自动驾驶”

王林

发布： 2024-02-02 08:39:02

转载

1112 人浏览过

近期，蚂蚁集团旗下AI创新研发部门NextEvo宣布全面开源AI Infra技术，该技术能够极大地提高大型模型训练的效率。根据数据显示，该技术能够将训练时间的有效占比提高至超过95%，实现了训练过程的自动化。这一突破性的进展显着推动了AI研发的效率提升。

蚂蚁集团NextEvo全面开源AI Infra技术，可实现大模型训练“自动驾驶”

图：蚂蚁集团的自动化分布式深度学习系统DLRover现已全面开源

DLRover是一个专为大规模分布式训练而设计的技术框架。在当前许多企业中，训练作业常常在复杂多变的混合部署集群中运行。无论环境多么复杂，DLRover都能轻松应对，就像在崎岖的地形上行驶一样。

2023年大模型技术的快速发展催生了工程实践的爆炸式增长。如何高效管理数据、优化训练和推理效率，充分利用现有算力，成为了关键问题。

完成一个千亿参数级别的大模型，例如GPT-3，用一张卡训练一次要耗时32年。因此，在训练过程中，充分利用算力是非常重要的。为了实现这一目标，有两种方法可以采用。首先，可以进一步提高已购买GPU的性能，以充分发挥其潜力。其次，可以利用以前无法利用的算力资源，例如CPU和内存。为了实现这一点，可以通过异构计算平台来解决这个问题。

DLRover最新集成了Flash Checkpoint（FCP）方案，用于模型训练时的Checkpoint打点。传统的Checkpoint打点方式存在耗时长、高频打点降低训练可用时间、低频打点恢复时丢失过多等问题。通过应用新方案FCP，在千亿参数模型训练后，Checkpoint导致的训练浪费时间降低了约5倍，并将持久化时间降低了约70倍。这一改进将有效训练时间从90%提升至95%。这意味着DLRover的模型训练效率得到了显着的提升。

我们还集成了三项新的优化器技术进去。优化器是机器学习的核心组件，用于更新神经网络参数以最小化损失函数。其中，蚂蚁的AGD（Auto-switchable optimizer with Gradient Difference of adjacent steps）优化器在大模型预训练任务中比传统的AdamW技术加速1.5倍。 AGD已在蚂蚁内部多个场景使用并取得显着效果，相关论文已被NeurIPS '23收录。

蚂蚁集团NextEvo全面开源AI Infra技术，可实现大模型训练“自动驾驶”