社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 大模型訓練成本降低近一半！新加坡國立大學最新優化器已投入使用

大模型訓練成本降低近一半！新加坡國立大學最新優化器已投入使用

WBOY

發布： 2023-07-17 22:13:17

轉載

1096 人瀏覽過

優化器在大語言模型的訓練中佔據了大量記憶體資源。

現在有一種新的最佳化方式，在效能保持不變的情況下將記憶體消耗降低了一半。

此成果由新加坡國立大學打造，在ACL會議上獲得了傑出論文獎，並已經投入了實際應用。

大模型訓練成本降低近一半！新加坡國立大學最新優化器已投入使用圖片

隨著大語言模型不斷增加的參數量，訓練時的記憶體消耗問題更為嚴峻。

研究團隊提出了 CAME 優化器，在減少記憶體消耗的同時，擁有與Adam相同的效能。

大模型訓練成本降低近一半！新加坡國立大學最新優化器已投入使用圖片

CAME優化器在多個常用的大規模語言模型的預訓練上取得了相同甚至超越Adam優化器的訓練表現，並對大batch預訓練場景顯示出更強的穩健性。

進一步地，透過CAME優化器訓練大語言模型，能夠大幅降低大模型訓練的成本。

實作方法

CAME 最佳化器是基於 Adafactor 最佳化器改進而來，後者在大規模語言模型的預訓練任務中往往帶來訓練效能的損失。

Adafactor中的非負矩陣分解操作在深度神經網路的訓練中不可避免地會產生錯誤，對這些錯誤的修正就是效能損失的來源。

而透過比較發現，當起始數值m_t和目前數值_t相差較小時，m_t的置信度更高。

大模型訓練成本降低近一半！新加坡國立大學最新優化器已投入使用圖片

受這一點啟發，團隊提出了一種新的最佳化演算法。

下圖的藍色部分就是CAME比較像Adafactor增加的部分。

大模型訓練成本降低近一半！新加坡國立大學最新優化器已投入使用圖片

CAME 最佳化器基於模型更新的置信度進行更新量修正，同時對引入的置信度矩陣進行非負矩陣分解運算。

最終，CAME成功以Adafactor的消耗得到了Adam的效果。

相同效果只消耗一半資源

團隊使用CAME分別訓練了BERT、GPT-2和T5模型。

先前常用的Adam（效果較優）和Adafactor（消耗更低）是衡量CAME表現的參考。

其中，在訓練BERT的過程中，CAME只用一半的步數就達到了和Adafaactor相當的精確度。

大模型訓練成本降低近一半！新加坡國立大學最新優化器已投入使用 △左側為8K規模，右側為32K規模

對於GPT-2，從損失和困惑度兩個角度看，CAME的表現和Adam十分接近。

大模型訓練成本降低近一半！新加坡國立大學最新優化器已投入使用

在T5模型的訓練中，CAME也呈現了類似的結果。

大模型訓練成本降低近一半！新加坡國立大學最新優化器已投入使用

而對於模型的微調，CAME在精確度上的表現也不輸於基準。

資源消耗方面，在使用PyTorch訓練4B資料量的BERT時，CAME消耗的記憶體資源比基準減少了近一半。

團隊簡介

新加坡國立大學HPC-AI 實驗室是尤洋教授領導的高效能運算與人工智慧實驗室。

實驗室致力於高效能運算、機器學習系統和分散式平行運算的研究和創新，並推動在大規模語言模型等領域的應用。

實驗室負責人尤洋是新加坡國立大學電腦系的校長青年教授(Presidential Young Professor)。

尤洋在2021年被選入福布斯30歲以下精英榜(亞洲)並獲得IEEE-CS超算傑出新人獎，目前的研究重點是大規模深度學習訓練演算法的分散式最佳化。

本文第一作者羅暘是該實驗室的在讀碩士生，他目前研究重點為大模型訓練的穩定性以及高效訓練。

論文網址：https://arxiv.org/abs/2307.02047

GitHub專案頁：https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/CAME

#

以上是大模型訓練成本降低近一半！新加坡國立大學最新優化器已投入使用的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

模型訓練

來源：51cto.com

上一篇：華為將於 7 月發表 AI 大模型的新款儲存產品下一篇：協助人工智慧產業高品質發展龍崗區演算法訓練基地正式啟用

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

什麼是 NullPointerException，如何修復它？

2024-10-22 09:46:29
從新手到程式設計師：您的旅程從 C 基礎知識開始

2024-10-13 13:53:41
使用 PHP 解鎖 Web 開發：初學者指南

2024-10-12 12:15:51
揭秘 C：為新程式設計師提供一條清晰簡單的道路

2024-10-11 22:47:31
釋放您的編碼潛力：絕對初學者的 C 編程

2024-10-11 19:36:51
釋放你內心的程式設計師：C 絕對初學者

2024-10-11 15:50:41
使用 C 自動化您的生活：適合初學者的腳本和工具

2024-10-11 15:07:41
PHP 變得簡單：Web 開發的第一步

2024-10-11 14:21:21
使用 Python 建立任何東西：釋放創造力的初學者指南

2024-10-11 12:59:11
編碼的關鍵：為初學者釋放 Python 的力量

2024-10-11 12:17:31

最新問題

在多個路由中聲明的workerpool是否仍然可以保持其cpu使用率而不關心閾值我希望找到一個帶有workerpool的node.js系統來處理CPU密集型任務，但是對於多條路由中的cpu使用情況，我有點困惑。一個場景是這樣的：route1.js:constw...

來自於 2024-04-06 19:54:23

0

1

444

使用MySQL SQL查詢計算另一張表中欄位的總和我有一個這樣的模式：具有屬性“user_id”和“username”的用戶表以及具有屬性“customer_id”（user_id的FK）和“finalPrice”的訂單表資料庫架...

來自於 2024-04-06 19:39:29

0

1

441

無法從網站取得輸入元素所以我試圖從Twitter獲取一個輸入元素，但當我運行它時，它不斷在節點終端中給我一個這樣的錯誤，結果，由此代碼創建的瀏覽器窗口將自行關閉，因為它找不到正確的輸入選擇器。如何取得正...

來自於 2024-04-06 18:59:57

0

1

442

在模板中使用方法中定義的變數這是我第一次使用Vue（v2而不是v3），我一直在嘗試在模板內使用變數（在方法內定義）。我的簡化程式碼：<template><divclass="con...

來自於 2024-04-06 18:10:25

0

2

513

使用SCSS產生預設值和CSS變數我正在實現網站樣式。出於遺留支援的原因，我需要支援IE11，至少一段時間。出於工作流程和我的理智原因，我想盡可能使用css變數。我已經研究過這個解決方案，它會產生一些有效的東西，但...

來自於 2024-04-06 17:46:54

0

1

355

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1422929
php入門教程之一週學會PHP

4268145
JAVA 初級入門影片教學

2533175
小甲魚零基礎入門學習Python影片教學

507230
PHP 零基礎入門教學

862354

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板