社区学习工具库休闲

简体中文

首页 > 科技周边 > 人工智能 > 大模型训练成本降低近一半！新加坡国立大学最新优化器已投入使用

大模型训练成本降低近一半！新加坡国立大学最新优化器已投入使用

WBOY

发布： 2023-07-17 22:13:17

转载

1095 人浏览过

优化器在大语言模型的训练中占据了大量内存资源。

现在有一种新的优化方式，在性能保持不变的情况下将内存消耗降低了一半。

该成果由新加坡国立大学打造，在ACL会议上获得了杰出论文奖，并已经投入了实际应用。

大模型训练成本降低近一半！新加坡国立大学最新优化器已投入使用图片

随着大语言模型不断增加的参数量，训练时的内存消耗问题更为严峻。

研究团队提出了 CAME 优化器，在减少内存消耗的同时，拥有与Adam相同的性能。

大模型训练成本降低近一半！新加坡国立大学最新优化器已投入使用图片

CAME优化器在多个常用的大规模语言模型的预训练上取得了相同甚至超越Adam优化器的训练表现，并对大batch预训练场景显示出更强的鲁棒性。

进一步地，通过CAME优化器训练大语言模型，能够大幅度降低大模型训练的成本。

实现方法

CAME 优化器基于 Adafactor 优化器改进而来，后者在大规模语言模型的预训练任务中往往带来训练性能的损失。

Adafactor中的非负矩阵分解操作在深度神经网络的训练中不可避免地会产生错误，对这些错误的修正就是性能损失的来源。

而通过对比发现，当起始数值m_t和当前数值_t相差较小时，m_t的置信度更高。

大模型训练成本降低近一半！新加坡国立大学最新优化器已投入使用图片

受这一点启发，团队提出了一种新的优化算法。

下图中的蓝色部分就是CAME相比Adafactor增加的部分。

大模型训练成本降低近一半！新加坡国立大学最新优化器已投入使用图片

CAME 优化器基于模型更新的置信度进行更新量修正，同时对引入的置信度矩阵进行非负矩阵分解操作。

最终，CAME成功以Adafactor的消耗得到了Adam的效果。

相同效果仅消耗一半资源

团队使用CAME分别训练了BERT、GPT-2和T5模型。

此前常用的Adam（效果更优）和Adafactor（消耗更低）是衡量CAME表现的参照。

其中，在训练BERT的过程中，CAME仅用一半的步数就达到了和Adafaactor相当的精度。

大模型训练成本降低近一半！新加坡国立大学最新优化器已投入使用 △左侧为8K规模，右侧为32K规模

对于GPT-2，从损失和困惑度两个角度看，CAME的表现和Adam十分接近。

大模型训练成本降低近一半！新加坡国立大学最新优化器已投入使用

在T5模型的训练中，CAME也呈现出了相似的结果。

大模型训练成本降低近一半！新加坡国立大学最新优化器已投入使用

而对于模型的微调，CAME在精确度上的表现也不输于基准。

资源消耗方面，在使用PyTorch训练4B数据量的BERT时，CAME消耗的内存资源比基准减少了近一半。

团队简介

新加坡国立大学HPC-AI 实验室是尤洋教授领导的高性能计算与人工智能实验室。

实验室致力于高性能计算、机器学习系统和分布式并行计算的研究和创新，并推动在大规模语言模型等领域的应用。

实验室负责人尤洋是新加坡国立大学计算机系的校长青年教授(Presidential Young Professor)。

尤洋在2021年被选入福布斯30岁以下精英榜(亚洲)并获得IEEE-CS超算杰出新人奖，当前的研究重点是大规模深度学习训练算法的分布式优化。

本文第一作者罗旸是该实验室的在读硕士生，他当前研究重点为大模型训练的稳定性以及高效训练。

论文地址：https://arxiv.org/abs/2307.02047

GitHub 项目页：https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/CAME

以上是大模型训练成本降低近一半！新加坡国立大学最新优化器已投入使用的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

模型训练

来源：51cto.com

上一篇：华为将于 7 月发布面向 AI 大模型的新款存储产品下一篇：助力人工智能产业高质量发展龙岗区算法训练基地正式启用

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

什么是 NullPointerException，如何修复它？

2024-10-22 09:46:29
从新手到程序员：您的旅程从 C 基础知识开始

2024-10-13 13:53:41
使用PHP解锁网络开发：初学者指南

2024-10-12 12:15:51
揭秘 C：为新程序员提供一条清晰简单的道路

2024-10-11 22:47:31
释放您的编码潜力：绝对初学者的 C 编程

2024-10-11 19:36:51
释放你内心的程序员：C 绝对初学者

2024-10-11 15:50:41
使用 C 自动化您的生活：适合初学者的脚本和工具

2024-10-11 15:07:41
PHP 变得简单：Web 开发的第一步

2024-10-11 14:21:21
使用 Python 构建任何东西：释放创造力的初学者指南

2024-10-11 12:59:11
编码的关键：为初学者释放 Python 的力量

2024-10-11 12:17:31

最新问题

在多个路由中声明的workerpool是否仍然可以保持其cpu使用率而不关心阈值我希望找到一个带有workerpool的node.js系统来处理CPU密集型任务，但是对于多条路由中的cpu使用情况，我有些困惑。一个场景是这样的：route1.js:constw...

来自于 2024-04-06 19:54:23

0

1

444

使用MySQL SQL查询计算另一张表中字段的总和我有一个这样的模式：具有属性“user_id”和“username”的用户表以及具有属性“customer_id”（user_id的FK）和“finalPrice”的订单表数据库架...

来自于 2024-04-06 19:39:29

0

1

441

无法从网站获取输入元素所以我试图从Twitter获取一个输入元素，但当我运行它时，它不断在节点终端中给我一个这样的错误，结果，由此代码创建的浏览器窗口将自行关闭，因为它找不到正确的输入选择器。如何获取正...

来自于 2024-04-06 18:59:57

0

1

442

在模板中使用在方法中定义的变量这是我第一次使用Vue（v2而不是v3），并且我一直在尝试在模板内使用变量（在方法内定义）。我的简化代码：<template><divclass="co...

来自于 2024-04-06 18:10:25

0

2

513

使用SCSS生成默认值和CSS变量我正在实现网站样式。出于遗留支持的原因，我需要支持IE11，至少一段时间。出于工作流程和我的理智原因，我想尽可能使用css变量。我已经研究过这个解决方案，它会生成一些有效的东西，但...

来自于 2024-04-06 17:46:54

0

1

355

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1422925
php入门教程之一周学会PHP

4268138
JAVA 初级入门视频教程

2533155
小甲鱼零基础入门学习Python视频教程

507226
PHP 零基础入门教程

862353

最新下载

更多>

网站特效

网站源码

网站素材

前端模板