지역 사회 배우다 도구 라이브러리 여가

한국어

집 > 기술 주변기기 > 일체 포함 > ICML 2024 | 그라데이션 체크포인트가 너무 느립니까? LowMemoryBP는 속도를 늦추거나 비디오 메모리를 절약하지 않고도 역전파 비디오 메모리 효율성을 크게 향상시킵니다.

ICML 2024 | 그라데이션 체크포인트가 너무 느립니까? LowMemoryBP는 속도를 늦추거나 비디오 메모리를 절약하지 않고도 역전파 비디오 메모리 효율성을 크게 향상시킵니다.

WBOY

풀어 주다： 2024-07-18 01:39:51

원래의

694명이 탐색했습니다.

ICML 2024 | 梯度检查点太慢？不降速、省显存，LowMemoryBP大幅提升反向传播显存效率

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

이 논문의 첫 번째 저자는 난카이 대학교 통계 및 데이터 과학부 석사 2년차 학생이자 그의 고문입니다. 난카이 대학교 통계 및 데이터 과학부의 Xu Jun 부교수입니다. Xu Jun 교수 팀의 연구 초점은 컴퓨터 비전, 생성 AI 및 효율적인 기계 학습이며, 4,700개 이상의 Google Scholar 인용과 함께 최고의 컨퍼런스 및 저널에 많은 논문을 발표했습니다.

대규모 Transformer 모델이 점차 다양한 분야에서 통일된 아키텍처가 되면서 미세 조정은 사전 훈련된 대형 모델을 다운스트림 작업에 적용하는 중요한 수단이 되었습니다. 그러나 모델의 크기가 나날이 증가함에 따라 미세 조정에 필요한 비디오 메모리도 점차 증가하고 있습니다. 미세 조정 비디오 메모리를 어떻게 효율적으로 줄일 것인가가 중요한 문제가 되었습니다. 이전에는 Transformer 모델을 미세 조정할 때 그래픽 메모리 오버헤드를 절약하기 위해 일반적인 접근 방식은 그라디언트 체크포인트(활성화 재계산이라고도 함)를 사용하여 훈련 속도를 희생하면서 역전파(BP) 프로세스에 필요한 시간을 줄이는 것이었습니다. . 비디오 메모리 사용을 활성화합니다.

최근 ICML 2024에서 난카이대학교 통계 및 데이터 과학부 Xu Jun 선생님 팀이 발표한 "Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation" 논문에서는 역전파를 변경하여( BP) 프로세스에서는 계산량을 늘리지 않고도 최대 활성화 메모리 사용량이 크게 줄어듭니다.

ICML 2024 | 梯度检查点太慢？不降速、省显存，LowMemoryBP大幅提升反向传播显存效率

논문: 근사 및 메모리 공유 역전파를 통한 미세 조정 메모리 오버헤드 감소
논문 링크: https://arxiv.org/abs/2406.16282
프로젝트 링크: https:/ / /github.com/yyyyychen/LowMemoryBP

이 기사에서는 Approximate Backpropagation(Approx-BP)과 Memory-Sharing Backpropagation(MS-BP)이라는 두 가지 역전파 개선 전략을 제안합니다. Approx-BP와 MS-BP는 각각 역전파에서 메모리 효율성을 향상시키는 두 가지 솔루션을 나타내며, 이를 통칭하여 LowMemoryBP라고 합니다. 이론적이든 실제적이든 관계없이 이 기사는 보다 효율적인 역전파 훈련을 위한 획기적인 지침을 제공합니다.

이론적 메모리 분석에서 LowMemoryBP는 활성화 함수 및 정규화 레이어에서 활성화 메모리 사용량을 크게 줄일 수 있습니다. ViT 및 LLaMA를 예로 들면 ViT를 미세 조정하면 활성화 메모리를 39.47%까지 줄일 수 있고 LLaMA를 미세 조정하면 활성화를 줄일 수 있습니다. 29.19%.

ICML 2024 | 梯度检查点太慢？不降速、省显存，LowMemoryBP大幅提升反向传播显存效率

실제 실험에서 LowMemoryBP는 ViT, LLaMA, RoBERTa, BERT 및 Swin을 포함한 Transformer 모델 미세 조정의 최대 메모리 사용량을 20%~30% 효과적으로 줄일 수 있으며 훈련 처리량과 손실은 증가하지 않습니다. 테스트 정확도.

Approx-BP

기존 역전파 훈련에서 활성화 함수의 기울기 역전파는 Transformer 모델에서 일반적으로 사용되는 GELU 및 SiLU 함수의 경우 입력이 다음과 같아야 함을 의미합니다. be 기능 텐서는 활성 비디오 메모리에 완전히 저장됩니다. 이 기사의 저자는 일련의 역전파 근사 이론, 즉 Approx-BP 이론을 제안했습니다. 이 이론에 따라 저자는 조각 선형 함수를 사용하여 활성화 함수를 근사화하고 GELU/SiLU 그라데이션의 역전파를 조각 선형 함수(계단 함수)의 도함수로 대체합니다. 이 접근 방식은 ReGELU2 및 ReSiLU2라는 두 가지 비대칭 메모리 효율적인 활성화 함수로 이어집니다. 이러한 유형의 활성화 함수는 역방향 패스백을 위해 4단계 단계 함수를 사용하므로 활성화 저장소는 2비트 데이터 유형만 사용하면 됩니다.

ICML 2024 | 梯度检查点太慢？不降速、省显存，LowMemoryBP大幅提升反向传播显存效率

ICML 2024 | 梯度检查点太慢？不降速、省显存，LowMemoryBP大幅提升反向传播显存效率

MS-BP

BP 네트워크의 각 계층은 일반적으로 역전파 계산을 위해 입력 텐서를 활성화 메모리에 저장합니다. 저자는 특정 레이어의 역전파를 출력 종속 형식으로 다시 작성할 수 있다면 이 레이어와 후속 레이어가 동일한 활성화 텐서를 공유할 수 있으므로 활성화 저장의 중복이 줄어들 수 있다고 지적합니다.

기사에서는 Transformer 모델에서 흔히 사용되는 LayerNorm과 RMSNorm이 후자 레이어의 선형 레이어에 아핀 매개변수를 병합한 후 MS-BP 전략의 요구 사항을 잘 충족할 수 있다고 지적합니다. 재설계된 MS-LayerNorm 및 MS-RMSNorm은 더 이상 독립적인 활성 그래픽 메모리를 생성하지 않습니다.

ICML 2024 | 梯度检查点太慢？不降速、省显存，LowMemoryBP大幅提升反向传播显存效率

실험 결과

저자는 컴퓨터 비전과 자연어 처리 분야의 여러 대표 모델을 대상으로 미세 조정 실험을 진행했습니다. 그 중 ViT, LLaMA, RoBERTa의 미세 조정 실험에서 기사에서 제안한 방법은 훈련 효과와 훈련 속도의 손실 없이 최대 메모리 사용량을 각각 27%, 29%, 21% 줄였습니다. 비교 Mesa(8비트 활성화 압축 훈련 방법)는 훈련 속도를 약 20% 감소시키는 반면, 기사에서 제안한 LowMemoryBP 방법은 훈련 속도를 완전히 유지합니다.

ICML 2024 | 梯度检查点太慢？不降速、省显存，LowMemoryBP大幅提升反向传播显存效率

ICML 2024 | 梯度检查点太慢？不降速、省显存，LowMemoryBP大幅提升反向传播显存效率

ICML 2024 | 梯度检查点太慢？不降速、省显存，LowMemoryBP大幅提升反向传播显存效率

결론과 의의

기사에서 제안한 두 가지 혈압 개선 전략인 Approx-BP와 MS-BP는 모두 훈련 효과와 훈련을 유지하면서 비디오 메모리 활성화를 달성합니다. 속도가 크게 절약됩니다. 이는 BP 원칙을 기반으로 한 최적화가 매우 유망한 메모리 절약 솔루션임을 의미합니다. 또한 기사에서 제안된 Approx-BP 이론은 기존 신경망의 최적화 프레임워크를 깨고 짝이 없는 파생 상품을 사용하기 위한 이론적 타당성을 제공합니다. 파생된 ReGELU2 및 ReSiLU2는 이 접근 방식의 중요한 실제 가치를 보여줍니다.

알고리즘의 세부 사항을 이해하려면 논문이나 코드를 읽어보세요. 관련 모듈은 LowMemoryBP 프로젝트의 github 저장소에 오픈 소스로 공개되어 있습니다.

위 내용은 ICML 2024 | 그라데이션 체크포인트가 너무 느립니까? LowMemoryBP는 속도를 늦추거나 비디오 메모리를 절약하지 않고도 역전파 비디오 메모리 효율성을 크게 향상시킵니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨：

프로젝트

원천：jiqizhixin.com

이전 기사：WAIC 2024 체화된지능컬렉션｜최고의 셀럽들이 모인, 각종 성과 전시: 체체지능 기술의 혁신으로 AI 로봇의 새로운 시대를 열다 다음 기사：패셔너블한 AIGC 마케터들은 어떻게 'lizi'와 'face' 사이에서 윈윈(win-win) 상황을 달성할 수 있을까요?

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

저자별 최신 기사

NullPointerException은 무엇이며 어떻게 해결합니까?

2024-10-22 09:46:29
초보자에서 코더까지: C 기초로 시작되는 여정

2024-10-13 13:53:41
PHP로 웹 개발 잠금 해제: 초보자 가이드

2024-10-12 12:15:51
C에 대한 이해: 새로운 프로그래머를 위한 명확하고 간단한 길

2024-10-11 22:47:31
코딩 잠재력 발휘: 완전 초보자를 위한 C 프로그래밍

2024-10-11 19:36:51
내면의 프로그래머를 깨워보세요: 완전 초보자를 위한 C

2024-10-11 15:50:41
C로 일상을 자동화하세요: 초보자를 위한 스크립트 및 도구

2024-10-11 15:07:41
PHP가 쉬워졌습니다: 웹 개발의 첫 번째 단계

2024-10-11 14:21:21
Python으로 무엇이든 빌드하기: 창의력을 발휘하기 위한 초보자 가이드

2024-10-11 12:59:11
코딩의 핵심: 초보자를 위한 Python의 힘 활용

2024-10-11 12:17:31

최신 이슈

반환 값의 변수 형식은 무엇입니까? 저는 PHP를 처음 배우는 사람입니다. 코드 조각을 찾았습니다: if($x<time()){return[false,'error'];} 논리나 변수는 중요하지 ...

에서 2024-04-06 21:55:20

0

1

778

페이지가 갑자기 CSS나 부트스트랩을 가져올 수 없습니다. 그래서 저는 페이지를 개발 중입니다. 어제 일부 작업을 했는데 잘 작동했고, 오늘은 나머지 작업을 계속했는데 모든 것이 괜찮습니다. 일반 HTML 페이지로 열려고...

에서 2024-04-06 21:58:04

0

1

800

스도쿠 검사기가 작동하지 않나요? 오류를 식별하는 데 도움을 줄 수 있는 사람이 있나요? 온라인 편집기에서 모든 것을 시도했지만 여전히 오류가 발생합니다. 하지만 내 컴퓨터의 VSCode에서 이 작업을 수행하면 제대로 작동합니다. 혼란스러워서 버그를 ...

에서 2024-04-06 21:21:07

0

1

474

Javafx에서 인라인 CSS 스타일을 동적으로 수정합니다. 응용프로그램이 최대화되었을 때 창의 배경 이미지를 변경하려고 합니다. 내 배경은 인라인 CSS를 사용하여 설정됩니다. 스타일에 대해 두 개의 다른 변수와 if 문...

에서 2024-04-06 20:57:16

0

1

487

웹 애플리케이션에 버전 정보를 표시하는 모범 사례는 무엇입니까? 웹 애플리케이션을 개발 중입니다. 웹 애플리케이션에 버전 정보를 표시하는 모범 사례는 무엇입니까? 저는 semantic versioning을 사용하고 있고 이미 ...

에서 2024-04-06 19:13:16

0

2

476

관련 주제

더>

인기 추천

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿