社区学习工具库休闲

简体中文

首页 > 科技周边 > 人工智能 > 字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

WBOY

发布： 2024-03-01 16:01:33

转载

739 人浏览过

随着对Sora技术分析的展开，AI基础设施的重要性愈发凸显。

来自字节和北大的一篇新论文在此时吸引关注：

文章披露，字节搭建起的万卡集群，能在1.75天内完成GPT-3规模模型（175B）的训练。

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

具体来说，字节提出了一个名为MegaScale的生产系统，旨在解决在万卡集群上训练大模型时面临的效率和稳定性挑战。

在12288块GPU上训练1750亿参数大语言模型时，MegaScale实现了55.2%的算力利用率（MFU），是英伟达Megatron-LM的1.34倍。

论文还透露，截止2023年9月，字节已建立起超过1万张卡的Ampere架构GPU（A100/A800）集群，目前正在建设大规模Hopper架构（H100/H800）集群。

适用于万卡集群的生产系统

大模型时代，GPU的重要性已无需赘述。

但大模型的训练，并不是把卡的数量拉满就能直接开干的——当GPU集群的规模来到“万”字级别，如何实现高效、稳定的训练，本身就是一个颇具挑战的工程问题。

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

第一重挑战：效率。

训练大语言模型并非简单的并行任务，需要在多个GPU之间分布模型，并且这些GPU需要频繁通信才能共同推进训练进程。通信之外，操作符优化、数据预处理和GPU内存消耗等因素，都对算力利用率（MFU）这个衡量训练效率的指标有影响。

MFU是实际吞吐量与理论最大吞吐量之比。

第二重挑战：稳定性。

我们知道，训练大语言模型往往需要花费非常长的时间，这也意味着，训练过程中失败和延迟的现象并不鲜见。

失败的成本是高昂的，因此如何缩短故障恢复时间变得尤为重要。

为了应对这些挑战，字节跳动的研究人员构建了MegaScale，并已将其部署到字节的数据中心中，用以支持各种大模型的训练。

MegaScale是在英伟达Megatron-LM的基础上改进的。

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

具体改进包括，算法和系统组件的共同设计、通信和计算重叠的优化、操作符优化、数据流水线优化以及网络性能调优等：

算法优化：研究人员在模型架构中引入并行化的Transformer块、滑动窗口注意力机制（SWA）和LAMB优化器，来提高训练效率而不牺牲模型的收敛性。
通信重叠：基于对3D并行（数据并行、流水线并行、张量并行）中各个计算单元操作的具体分析，研究人员设计技术策略有效地减少了非关键执行路径上操作所带来的延迟，缩短了模型训练中每一轮的迭代时间。
高效操作符：对GEMM操作符进行了优化，对LayerNorm和GeLU等操作进行了融合，以减少启动多个内核的开销，并优化内存访问模式。
数据流水线优化：通过异步数据预处理和消除冗余的数据加载器，来优化数据预处理和加载，减少GPU空闲时间。
集体通信群初始化：优化了分布式训练中英伟达多卡通信框架NCCL初始化的过程。在未经优化的情况下，2048张GPU的集群初始化时间是1047秒，优化后可降至5秒以下；万卡GPU集群的初始化时间则可降至30秒以下。
网络性能调优：分析了3D并行中的机器间流量，设计技术方案提高网络性能，包括网络拓扑设计、减少ECMP哈希冲突、拥塞控制和重传超时设置。
故障容忍：在万卡集群中，软硬件故障难以避免。研究人员设计了一个训练框架，来实现自动故障识别和快速恢复。具体包括，开发诊断工具来监控系统组件和事件、优化checkpoint高频保存训练进程等。

论文提到，MegaScale能够自动检测和修复超过90%的软硬件故障。

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

实验结果表明，MegaScale在12288个GPU上训练175B大语言模型时，实现了55.2%的MFU，是Megatrion-LM算力利用率的1.34倍。

训练530B大语言模型的MFU对比结果如下：

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

One More Thing

就在这篇技术论文引发讨论之际，字节类Sora产品也传出了新消息：

剪映旗下类似Sora的AI视频工具已经启动邀请内测。

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

看样子地基已经打好，那么对于字节的大模型产品，你期待吗？

论文地址：https://arxiv.org/abs/2402.15627

以上是字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

ai 模型

来源：51cto.com

上一篇：微软为财务部门量身定制专业AI工具下一篇：Think2Drive：首个用于自动驾驶的基于模型的RL方法（上海交大）

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

什么是 NullPointerException，如何修复它？

2024-10-22 09:46:29
从新手到程序员：您的旅程从 C 基础知识开始

2024-10-13 13:53:41
使用PHP解锁网络开发：初学者指南

2024-10-12 12:15:51
揭秘 C：为新程序员提供一条清晰简单的道路

2024-10-11 22:47:31
释放您的编码潜力：绝对初学者的 C 编程

2024-10-11 19:36:51
释放你内心的程序员：C 绝对初学者

2024-10-11 15:50:41
使用 C 自动化您的生活：适合初学者的脚本和工具

2024-10-11 15:07:41
PHP 变得简单：Web 开发的第一步

2024-10-11 14:21:21
使用 Python 构建任何东西：释放创造力的初学者指南

2024-10-11 12:59:11
编码的关键：为初学者释放 Python 的力量

2024-10-11 12:17:31

最新问题

在多个路由中声明的workerpool是否仍然可以保持其cpu使用率而不关心阈值我希望找到一个带有workerpool的node.js系统来处理CPU密集型任务，但是对于多条路由中的cpu使用情况，我有些困惑。一个场景是这样的：route1.js:constw...

来自于 2024-04-06 19:54:23

0

1

444

使用MySQL SQL查询计算另一张表中字段的总和我有一个这样的模式：具有属性“user_id”和“username”的用户表以及具有属性“customer_id”（user_id的FK）和“finalPrice”的订单表数据库架...

来自于 2024-04-06 19:39:29

0

1

441

无法从网站获取输入元素所以我试图从Twitter获取一个输入元素，但当我运行它时，它不断在节点终端中给我一个这样的错误，结果，由此代码创建的浏览器窗口将自行关闭，因为它找不到正确的输入选择器。如何获取正...

来自于 2024-04-06 18:59:57

0

1

442

在模板中使用在方法中定义的变量这是我第一次使用Vue（v2而不是v3），并且我一直在尝试在模板内使用变量（在方法内定义）。我的简化代码：<template><divclass="co...

来自于 2024-04-06 18:10:25

0

2

513

使用SCSS生成默认值和CSS变量我正在实现网站样式。出于遗留支持的原因，我需要支持IE11，至少一段时间。出于工作流程和我的理智原因，我想尽可能使用css变量。我已经研究过这个解决方案，它会生成一些有效的东西，但...

来自于 2024-04-06 17:46:54

0

1

355

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1423149
php入门教程之一周学会PHP

4268670
JAVA 初级入门视频教程

2535940
小甲鱼零基础入门学习Python视频教程

507328
PHP 零基础入门教程

862682

最新下载

更多>

网站特效

网站源码

网站素材

前端模板