> 기술 주변기기 > 일체 포함 > 대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

王林
풀어 주다: 2023-04-11 20:04:07
앞으로
1290명이 탐색했습니다.

소개

데이터 인텔리전스 시대에 컴퓨팅은 필수이자 문제점이기도 합니다. 가장 중요한 기능은 '크다'는 것입니다.

"큰"을 다음을 포함한 세 가지 특성으로 분할합니다.

  • 대규모 데이터 배치
  • 직렬 종속성 계산
  • 복잡한 계산 하이섹스

여기에는 데이터와 알고리즘의 복잡성이 포함되며, 데이터, 알고리즘, 컴퓨팅 파워는 지능형 시대의 세 가지 요소입니다. 처음 두 가지의 복잡성은 궁극적으로 컴퓨팅 파워에 의해 전달됩니다.

이로 인해 컴퓨팅 성능에 대한 업계의 수요가 쓰나미처럼 시공간적으로 급속도로 확대되었습니다.

​GPU에는 쓰나미를 공간에서 수천 개의 물방울로 세분화하고, 시간에 따라 물의 경로를 단축하고, 경로 분기를 구조적으로 합리화하고, 대규모 작업을 작은 작업으로 분할하는 방법이 있습니다. 대용량 컴퓨팅 파워는 쉽게 요구되며, 지능화 시대 컴퓨팅 파워의 기반이 됩니다.

위의 세 가지 특성에 대응하여 GPU는 병렬성, 융합, 단순화라는 세 가지 방법을 사용하여 처리량, 비디오 메모리 및 기타 지표를 기반으로 운영자 수준에서 가속합니다. ​

GPU 가속의 주요 방법론은 대형 모델의 산업화에도 적합합니다.

기본 칩, 컴퓨팅 성능, 데이터 및 기타 인프라가 개선되고 발전함에 따라 글로벌 AI 산업은 점차 계산 지능에서 지각 지능 및 인지 지능으로 전환하고 이에 따라 "칩, 컴퓨팅 성능 시설"을 형성하고 있습니다. , AI 프레임워크' 및 알고리즘 모델, 응용 시나리오' 산업 분업 및 협업 시스템. 2019년부터 AI 대형 모델은 문제 해결 일반화 능력을 크게 향상시켰으며 '대형 모델 + 소형 모델'이 점차 업계의 주류 기술 경로가 되어 글로벌 AI 산업 발전의 전반적인 가속화를 주도하고 있습니다.

얼마 전 DataFun에서 'AI 대형 모델 기술 로드맵 및 산업화 구현 사례' 공유 이벤트를 열었습니다. NVIDIA, Baidu, ByteDance Volcano Translation, Tencent WeChat 등의 전문가 6명이 모델 훈련 기술 및 추론에 대한 견해를 공유했습니다. 언어 기계 번역의 적용, 대규모 언어 모델 개발 및 구현 등은 AI 대규모 모델 기술 경로 및 산업화 구현 사례의 흥미로운 공유를 가져옵니다.

업계에서는 대규모 모델을 구현할 때 병렬성, 융합, 단순화 방법을 크게 채택했으며 훈련 및 추론 수준에서 알고리즘 모델링 수준으로 확장했습니다.

1. Parallel

병렬방식은 공간과 시간을 교환하는 방식으로 쓰나미를 물방울으로 세분화하는 방식입니다. 특히 대규모 데이터 배치가 포함된 계산의 경우 각 계산 단계에 상대적으로 오랜 시간이 걸립니다. GPU는 병렬 컴퓨팅을 활용합니다. 즉, 계산 종속성이 없는 데이터를 최대한 병렬화하고, 큰 배치를 작은 배치로 분할하여 각 계산 단계마다 GPU 유휴 대기 시간을 줄이고 컴퓨팅 처리량을 향상시킵니다.

​대형 모델의 훈련을 실제로 완료하려면 단일 GPU, 단일 노드 또는 심지어 대규모 클러스터에서도 훈련의 계산 효율성을 높이는 고효율 소프트웨어 프레임워크가 필요합니다.

그래서 NVIDIA는 Megatron 교육 프레임워크를 개발했습니다. ​

Megatron은 모델 병렬성, 시퀀스 병렬성 등의 최적화 방법을 사용하여 Transformer 대형 모델을 효율적으로 훈련하고, 수조 개의 매개변수로 모델을 훈련할 수 있습니다.

알고리즘 모델링 수준에서는 Huoshan Translation과 Baidu가 주로 MoE 모델과 같은 모델링 방법을 탐색했습니다.

1. 모델 병렬화

모델 병렬화는 파이프라인 병렬화와 텐서 병렬화로 나눌 수 있습니다.

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

파이프라인 병렬 처리는 계층 간 병렬 처리(그림 상단)로, 계산을 위해 서로 다른 레이어를 서로 다른 GPU로 나눕니다. 이 모드의 통신은 레이어 경계에서만 발생하며 통신 횟수와 통신 데이터의 양은 적지만 GPU 공간 대기 시간이 추가로 발생합니다.

Tensor 병렬 처리는 레이어 내 병렬 처리(그림의 아래쪽 부분)로, 레이어 계산을 여러 GPU로 나눕니다. 이 모드는 구현하기가 더 쉽고, 대규모 매트릭스에 더 나은 효과를 가지며, GPU 간의 로드 밸런싱을 더 잘 달성할 수 있지만 통신 횟수와 데이터 양이 상대적으로 큽니다.

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

GPU 리소스를 최대한 활용하기 위해 Megatron은 각 훈련 배치를 더 작은 마이크로 배치로 나눕니다.

서로 다른 마이크로 배치 간에는 데이터 종속성이 없으므로 서로의 대기 시간을 커버할 수 있으므로 GPU 활용도가 향상되고 전반적인 훈련 성능이 향상됩니다.

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

​Tensor는 각 연산자의 계산을 여러 GPU에 병렬로 나눕니다. 행렬 레이어의 경우 교차 절단과 수직 절단의 두 가지 방법이 있습니다.

그림과 같이 메가트론은 Transformer 블록의 Attention 및 MLP 부분에 이 두 가지 분할 방법을 도입합니다.

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

Tensor 병렬 모드에서는 각 Transformer 계층의 순방향 및 역방향 단계에 총 4개의 All-Reduce 통신이 필요합니다. All-reduce 통신의 양이 많기 때문에 Tensor 병렬 처리가 단일에 더 적합합니다. 카드 내부 사용.

파이프라인 병렬성과 Tensor 병렬성을 결합하여 Megatron은 32개의 GPU에서 1,700억 개의 매개변수 모델을 훈련하여 3072개의 GPU에서 1조 개의 매개변수 확장 모델을 훈련하도록 확장할 수 있습니다.

2. 시퀀스 병렬 처리

Tensor 병렬 처리는 실제로 Layer-norm과 Dropout을 분리하지 않으므로 이 두 연산자는 각 GPU 간에 복사됩니다.

그러나 이러한 작업 자체에는 많은 계산이 필요하지 않지만 많은 활성 비디오 메모리를 차지합니다.

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

​이를 위해 메가트론에서는 시퀀스 병렬 최적화 방법을 제안했습니다. 시퀀스 병렬화의 장점은 통신량을 늘리지 않고 메모리 사용량을 크게 줄일 수 있다는 것입니다. Layer-norm과 Dropout은 시퀀스 차원에 따라 독립적이므로 Sequence 차원에 따라 분할될 수 있습니다. ​

순차 병렬성을 사용한 후에도 대규모 모델의 경우 메모리 사용량이 여전히 매우 큽니다. 이에 메가트론은 활성화 재계산 기술을 도입했다.

Megatron의 접근 방식은 Softmax, Dropout 및 Attention의 기타 연산자와 같이 계산이 거의 필요하지 않지만 많은 양의 비디오 메모리를 차지하는 일부 연산자를 찾는 것입니다. 이러한 연산자를 활성화하고 다시 계산하면 비디오 메모리와 계산 오버헤드가 크게 줄어들 수 있습니다. 증가하다.

시퀀스 병렬성과 선택적 활성화 재계산을 결합하면 그래픽 메모리 사용량을 원본의 약 1/5로 줄일 수 있습니다. 모든 활성화를 직접 재계산하는 원래 솔루션에 비해 비디오 메모리는 그 두 배에 불과하며, 컴퓨팅 오버헤드는 크게 감소합니다. 모델 크기가 증가함에 따라 컴퓨팅 오버헤드의 비율은 점차 감소합니다. 1조 규모 모델이 도달할 때까지 재계산 비용은 전체의 약 2%에 불과하다.

3. 알고리즘 병렬성

MoE 모델은 단순한 디자인 컨셉과 강력한 확장성으로 인해 업계에서 점점 더 많은 주목을 받고 있습니다.

MoE 모델은 대형 모델을 여러 개의 소형 모델로 분할하는 디자인 아이디어를 제안합니다. 각 샘플은 계산을 위해 전문가 모델의 일부만 활성화하면 되므로 컴퓨팅 리소스가 크게 절약됩니다.

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

현재 가장 일반적으로 사용되는 Dense 대형 모델은 BERT, T5 및 GPT-3이며, 가장 일반적으로 사용되는 Sparse MoE 모델은 T5+MoE가 대형 모델 구성에서 추세가 되고 있습니다.

MoE는 알고리즘 모델링 수준에서 병렬 컴퓨팅 아이디어를 결합한다고 할 수 있습니다.

대형 모델의 다양성은 어텐션 메커니즘의 약한 귀납적 편향, 대형 모델 용량, 대형 모델 데이터 등 우리에게 이미 익숙한 점 외에도 여러 측면에서 반영됩니다. 작업에도 사용할 수 있습니다. 모델링 방법을 최적화하기 위해 MoE가 대표적인 예입니다.

화산 번역의 경우 MoE의 기본 아이디어는 너비를 깊이로 바꾸는 것입니다. 모델이 깊을수록 컴퓨팅 레이어가 많아지고 추론 시간이 길어지기 때문입니다.

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

예를 들어 4개의 인코더 레이어와 4개의 디코더 레이어가 있는 Transformer 모델의 경우 각 계산은 8개의 FFN 모두 계산을 거쳐야 합니다. 혼합 전문가 모델인 경우 FFN을 병렬로 배치하여 궁극적으로 계산 경로를 절반으로 줄여 추론 시간을 줄일 수 있습니다.

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

동일한 추론 시간, 즉 모델 깊이가 유사한 경우 MoE에서는 모델 너비를 늘릴 수 있으므로 기계 번역의 최종 효과도 향상됩니다.

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

24개 아프리카 언어와 영어 및 프랑스어의 다국어 번역 작업을 위해 Huoshan Translation은 128개 트랜스포머 레이어와 24개 전문가 레이어를 갖춘 MoE 모델을 개발했습니다. 아키텍처 번역 효과.

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

​그러나 Sparse MoE의 "전문가 모델"은 그 이름에 걸맞지 않을 수 있습니다. 예를 들어 문장의 경우 각 토큰이 통과한 전문가가 다를 수 있기 때문입니다.

Huoshan 번역은 따라서 문장을 통과한 전문가가 언어에 따라 결정되도록 Hard Gate MoE를 개발했습니다. 이로 인해 모델 구조가 더 간단해지고, 실험 결과에서도 번역 효과가 더 좋은 것으로 나타났습니다.

알고리즘 모델링의 병렬 탐색에서 Baidu는 지식 강화 교차 모달 세대 대형 모델 ERNIE-ViLG 2.0에서 하이브리드 전문가 확산 모델 프레임워크도 채택했습니다. ​

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

​확산 모델에 전문가 모델을 사용해야 하는 이유는 무엇인가요?

사실 모델 모델링 요구 사항이 세대 단계마다 다르기 때문입니다. 예를 들어, 초기 단계에서 모델은 가우시안 노이즈로부터 의미론적 이미지를 생성하는 학습에 중점을 두고, 마지막 단계에서는 모델이 노이즈 이미지에서 이미지 세부 정보를 복구하는 데 중점을 둡니다. ​

사실 ERNIE 3.0의 초기 버전에는 자동 인코딩과 자동 회귀가 통합되어 있어 특정 생성 작업과 이해 작업에 대한 일반적인 의미 표현에 두 가지 모델링 방법을 결합할 수 있습니다.

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

자동 인코딩과 자동 회귀를 통합하는 기본 아이디어는 실제로 전문가 모델의 모델링 방법론과 유사합니다.

구체적으로 보편적 표현을 기반으로 이해 작업이 자동 인코딩 네트워크 구조에 적합한지, 생성 작업이 자동 회귀 네트워크 구조에 적합한 지에 따라 모델링이 수행됩니다. 또한 이러한 종류의 모델링은 더 나은 일반 표현을 학습하는 경우가 많습니다.

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

또한 Baidu는 ERNIE-UniX2 모델에서 대조 학습 및 언어 모델과 같은 사전 학습 패러다임을 통합하여 다중 언어 및 다중 모달 이해 및 생성 작업을 결합합니다. .통합.

​MoE 모델을 학습한 후 추론 배포는 효율성을 매우 중요하게 생각하는 링크이기도 합니다.

초대규모 모델 추론을 위한 배포 솔루션을 선택할 때 먼저 모델의 매개변수 규모, 모델 구조, GPU 메모리 및 추론 프레임워크를 기반으로 단일 카드 추론을 사용할지 다중 카드를 사용할지 결정하게 됩니다. 모델 정확도와 추론 성능 간의 균형. 비디오 메모리가 부족한 경우 모델 압축 또는 다중 카드 추론 솔루션이 고려됩니다.

다중 카드 추론에는 Tensor 병렬 처리, 파이프라인 병렬 처리, Expert 병렬 처리 및 기타 모드가 포함됩니다. ​

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

MoE 초대형 모델에 다양한 모드를 사용하면 다양한 문제에 직면하게 됩니다. 그 중 MoE 모델의 Tensor 병렬 모델과 Dense 모델은 유사합니다.

전문가 병렬 모드를 선택하면 각 MoE 계층의 전문가가 서로 다른 GPU로 분할되어 로드 밸런싱 문제가 발생할 수 있으며 이로 인해 많은 수의 GPU가 유휴 상태가 되어 궁극적으로 전체 처리량이 감소합니다. 키가 큰. 이는 MoE Doka 추론에서 집중해야 할 중요한 사항이다.

텐서 병렬성과 파이프라인 병렬성의 경우 미세 조정을 통해 카드 간 통신을 줄이는 것 외에도 카드 간 대역폭을 늘리는 것이 보다 직접적인 방법입니다. MoE 모델에 Expert 병렬성을 사용하면 로드 밸런싱 문제가 발생하는 경우 프로파일링을 통해 분석하고 최적화할 수 있습니다.

멀티 카드 추론 솔루션은 통신 오버헤드를 증가시키고 모델 추론 지연에 일정한 영향을 미칩니다.

2. Fusion

Fusion은 병렬 컴퓨팅과 직렬 컴퓨팅의 두 가지 기본 컴퓨팅 모드입니다. 병렬 컴퓨팅을 적용할 때 가장 일반적인 어려움은 많은 수의 직렬 종속성과 그에 따른 중간 메모리 점유 문제이며, GPU 메모리는 일반적으로 대규모 모델 교육 및 추론에서 하드웨어 성능 병목 현상 중 하나가 됩니다.

대량 컴퓨팅에서 직렬 의존성 문제에 있어서 가장 중요한 방법은 물방울의 경로를 단축하는 것, 즉 중간 체류 과정을 줄이는 것입니다. 특히 연산자 융합은 순차적 종속성을 갖는 연산자를 병합하여 비디오 메모리 사용량을 줄이는 데 사용됩니다.

운영자 융합은 컴퓨팅 수준뿐만 아니라 운영자 설계 수준에서도 구현됩니다.

1, 1F1B

Pipeline 순방향 프로세스와 역방향 프로세스를 병렬로 분리하면 비디오 메모리 과다 사용 문제가 발생합니다.

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

따라서 메가트론은 새로운 파이프라인 병렬 모델인 1F1B를 제안했습니다. 각 GPU는 각 마이크로 배치의 순방향 프로세스와 역방향 프로세스를 교대로 실행하여 차지하는 비디오 메모리를 최대한 빨리 해제함으로써 비디오 메모리 사용량을 줄입니다.

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

1F1B는 버블 시간을 줄일 수 없습니다. 버블 시간을 더욱 줄이기 위해 Megatron에서는 인터리브 1F1B 모드를 제안했습니다. 즉, 원래 각 GPU는 연속된 4개 레이어의 계산을 담당했지만 이제는 연속된 2개 레이어의 계산을 담당하므로 버블 시간도 절반이 되었습니다. 원래의.

2. 커널 융합

GPU 계산을 수행할 때 각 계산 프로세스는 GPU 커널에 캡슐화되어 실행을 위해 GPU에 배치될 수 있으며 순차적입니다. 다양성을 위해 기존 연산자 라이브러리는 연산자를 매우 기본적으로 설계하므로 그 수가 매우 많습니다. 단점은 중간에 숨겨진 표현을 많이 저장해야 하기 때문에 비디오 메모리를 많이 차지한다는 것입니다. , 상대적으로 높은 대역폭이 필요하므로 결국 지연이나 성능 손실이 발생할 수 있습니다.

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

Volcano Translation은 Softmax, LayerNorm 등을 포함한 CuBLAS 곱셈 인터페이스를 기반으로 하는 다른 비행렬 곱셈 연산자를 통합합니다.

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

Volcano Translation은 일반 연산자의 융합을 비교하는 것 외에도 GPU 병렬성을 잘 활용하지 못하는 Beam Search와 같은 일부 특정 연산자의 컴퓨팅 종속성을 최적화하여 가속을 달성합니다.

4개의 주류 Transformer 모델에서 LightSeq 연산자 융합은 PyTorch를 기반으로 최대 8배의 가속을 달성했습니다.

3. Simplification

간소화는 상대적으로 간단하고 직관적인 가속화 방법으로 파이프라인 분기를 세부적으로 간소화합니다. 특히, 계산 복잡도가 높은 경우 성능을 보장하면서 연산자 복잡도를 단순화하여 궁극적으로 계산량을 줄입니다.

매우 큰 규모의 모델에 대한 단일 카드 추론에는 일반적으로 모델 압축이 포함됩니다.

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

일반적인 모델 압축 방식은 양자화, 증류 및 가지치기입니다. 양자화는 업계에서 가장 일반적으로 사용되는 모델 압축 방식 중 하나입니다. 정량적 계산은 낮은 정밀도를 사용하지만 모델의 매개변수 크기를 유지할 수 있으며 경우에 따라 모델의 전체 정확도를 더 잘 보장할 수 있습니다.

1. 양자화

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

현재 두 가지 양자화 방법이 있습니다. 하나는 훈련 후 양자화이고 다른 하나는 양자화 인식 훈련입니다. 일반적으로 후자는 전자보다 모델의 정확도를 더 잘 유지합니다.

양자화가 완료된 후 TensorRT 또는 FasterTransformer와 같은 추론 가속화 프레임워크를 사용하여 매우 큰 모델의 추론을 더욱 가속화할 수 있습니다.

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

LightSeq는 훈련 과정의 양자화에서 진정한 int8 양자화를 사용합니다. 즉, 양자화 연산은 행렬 곱셈 전에 수행되고 역양자화 연산은 행렬 곱셈 후에 수행됩니다. 과거의 유사 양자화와는 달리, 양자화와 역양자화 작업은 행렬 곱셈 이전에 수행되어 모델이 양자화로 인한 손실과 변동에 적응할 수 있도록 합니다. 후자는 실제 계산에 가속을 가져오지는 않지만 지연이 증가하거나 메모리 사용량이 증가할 수 있습니다. 그리고 진정한 int8 양자화는 실제 응용 프로그램에서도 좋은 가속 효과를 제공합니다.

2. 증류

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

두 번째 모델 압축 방법은 증류입니다. 증류는 다양한 전략을 사용하여 다양한 애플리케이션 시나리오에 맞게 매우 큰 모델을 압축할 수 있습니다. 어떤 경우에는 증류를 통해 매우 큰 모델에 더 나은 일반화 기능이 제공될 수 있습니다.

3. 가지치기

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

마지막 모델 압축 솔루션은 가지치기입니다. 프루닝은 전체 모델 프루닝(full model pruning)과 부분 레이어 프루닝(partial layer pruning)으로 나눌 수 있는데, 모델의 핵심 레이어를 이해하는 것이 매우 중요하며, 정확도에 가장 큰 영향을 미치는 부분을 프루닝하지 않는 것이 필요합니다. 희소 MoE 모델에도 적용 가능합니다.

4. 대형 모델의 산업화

대형 모델의 연구와 구현이 트렌드가 되었습니다. 2022년에는 대형 언어 모델과 트랜스포머에 관한 논문이 10,000편 이상 나올 것으로 예상됩니다. 이는 Transformers가 5년 전에 제안한 것보다 시간이 7배 늘어났습니다. 또한 대형 모델에는 이미지 생성, 추천 시스템, 기계 번역, 심지어 생명 과학, 코드 생성 등과 같은 광범위한 응용 프로그램도 있습니다.

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

OpenAI도 2020년에 두 개의 논문을 발표했는데, 이는 모델의 성능이 기본적으로 컴퓨팅 성능, 데이터 세트 크기 및 모델 매개변수 양이라는 세 가지 주요 요소와 연결되어 있음을 보여줍니다. 모델의 효과를 잘 예측할 수 있습니다.

대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다

Richard Sutton은 지난 70년간의 AI 개발에서 컴퓨팅 리소스를 효율적으로 활용할 수 있는 일반적인 방법이 항상 최종 승자가 된다는 것이 반복되는 추세라고 말했습니다.

Richard Sutton의 "승자의 법칙"에 따르면 딥 러닝은 지난 10년 동안 다양성 측면에서 승리했습니다.

하지만 요즘에는 대규모 모델 훈련의 어려움이 자명합니다. GPT-3를 예로 들어 훈련 중에 원래의 혼합 정밀도를 사용하는 경우 훈련 중에 매개변수 및 기울기와 FP 32의 주요 매개변수를 저장해야 합니다. Adam 옵티마이저를 사용하는 경우 운동량도 저장해야 합니다. 두 개의 옵티마이저 정보에 따르면 최종적으로 총 2.8TB의 비디오 메모리가 필요하며 이는 단일 카드의 비디오 메모리 용량을 훨씬 초과하며 이를 운반하는 데 35개 이상의 A100이 필요합니다.

​NVIDIA의 2021년 논문 "Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM"에서는 단일 반복 매개변수가 1,750억인 GPT-3 모델에 45억 1억 FLOP의 FLOP가 필요함을 나타내는 경험적 공식을 도출했습니다. 컴퓨팅 파워. 전체 훈련 주기가 95,000번의 반복으로 구성된 경우 430개의 ZettaFLOP가 필요합니다. 즉, A100이 16,000일 동안 훈련을 하게 되는데, 이는 계산 효율성과 관계없이 결론이 나는 것입니다.

즉, 대규모 모델 산업화 시대에 단순히 이 세 가지 지표를 축적하는 것은 엄청난 자원 낭비가 될 것입니다.

DeepMind는 2022년에 발표된 ChinChilla의 논문에서 실제로 GPT-3, OPT, PaLM과 같은 대형 모델은 기본적으로 과소적합 모델이라고 밝혔습니다. 동일한 컴퓨팅 리소스를 기반으로 모델 매개변수 수를 줄이고 더 많은 단계를 학습하면 최종 모델 효과가 더 좋아질 수 있습니다. 이는 WeChat이 WeLM 대규모 언어 모델에서 따르는 디자인 철학이기도 합니다.

업계의 기업들은 기본적으로 대규모 모델을 구현할 때 효율성 문제 대신 규모와 초점을 완화하기 시작했습니다.

예를 들어 전반적인 실행 효율성 측면에서 보면 Megatron에서 최적화한 거의 모든 모델의 처리량이 30% 향상되었으며, 모델 크기가 커질수록 GPU 활용도도 높아집니다. 1,750억 개의 매개변수 GPT-3 모델에서 GPU 활용도는 52.8%에 도달할 수 있습니다. 매개변수 규모가 5,300억 개가 넘는 모델에서는 활용률이 57%에 달할 수 있습니다.

즉, Richard Sutton의 “승자의 법칙”에 따르면 효율성이 대규모 모델 산업화의 주요 기조가 될 것입니다.

위 내용은 대형 모델의 산업화 방법론은 모두 GPU에 숨겨져 있다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿