2024년 대규모 언어 모델 구축을 위한 여정

百草
풀어 주다: 2024-04-18 15:04:54
원래의
2491명이 탐색했습니다.

2024년에는 연구원과 엔지니어가 자연어 처리의 한계를 계속 확장함에 따라 대형 언어 모델(LLM)의 기술적 도약이 이루어질 것입니다. 이러한 매개변수가 풍부한 LLM은 기계와 상호 작용하는 방식을 혁신하여 보다 자연스러운 대화, 코드 생성 및 복잡한 추론을 가능하게 합니다. 그러나 이러한 거대 기업을 구축하는 것은 데이터 준비의 복잡성, 고급 교육 기술 및 확장 가능한 추론과 관련된 쉬운 작업이 아닙니다. 이 검토에서는 데이터 소싱부터 교육 혁신 및 정렬 전략에 이르기까지 최근의 발전을 다루면서 LLM을 구축하는 데 필요한 기술적 세부 사항을 자세히 살펴봅니다.

2024년 대규모 언어 모델 구축을 위한 여정

2024년은 연구원과 엔지니어가 자연어 처리에서 가능한 범위를 확장함에 따라 대규모 언어 모델(LLM)의 획기적인 시대가 될 것을 약속합니다. 수십억 또는 심지어 수조 개의 매개변수를 가진 이러한 대규모 신경망은 우리가 기계와 상호 작용하는 방식을 혁신하여 보다 자연스럽고 개방적인 대화, 코드 생성 및 다중 모드 추론을 가능하게 합니다.

그러나 이렇게 큰 LL.M을 짓는 것은 간단한 문제가 아닙니다. 데이터 소싱 및 준비부터 고급 교육 기술 및 확장 가능한 추론에 이르기까지 신중하게 선별된 파이프라인이 필요합니다. 이 게시물에서는 이러한 최첨단 언어 모델을 구축하는 데 관련된 기술적 복잡성에 대해 자세히 알아보고 스택 전체의 최신 혁신과 과제를 살펴보겠습니다.

데이터 준비

1. 데이터 소스

모든 LLM의 기초는 학습된 데이터이며 최신 모델은 엄청난 양의 텍스트(종종 토큰 1조 개 이상)를 수집합니다. 이러한 텍스트는 웹에서 제공됩니다. 크롤러, 코드 저장소, 서적 등 일반적인 데이터 소스는 다음과 같습니다.

일반적으로 크롤링되는 웹 자료

GitHub 및 Software Heritage와 같은 코드 저장소

Wikipedia 및 서적과 같은 선택된 데이터 세트(공개 도메인 및 저작권 보호)

합성으로 생성된 데이터

2.

단순히 사용 가능한 모든 데이터를 얻는 것은 일반적으로 노이즈와 편향이 발생할 수 있으므로 최적이 아닙니다. 따라서 신중한 데이터 필터링 기술이 사용됩니다.

품질 필터링

길이 및 언어와 같은 문서 속성을 기반으로 한 경험적 필터링

좋은 데이터와 나쁜 데이터의 예를 사용한 분류자 기반 필터링

언어 모델 임계값의 복잡성

도메인별 필터링

도메인별 하위 집합에 대한 영향 확인

사용자 지정 규칙 및 임계값 개발

선택 전략

결정적 하드 임계값

확률적 무작위 샘플링

3 중복 제거

대규모 웹 코퍼스에는 상당한 중복이 포함되어 있습니다. 문서로 인해 모델이 너무 많은 영역을 효과적으로 "기억"할 수 있습니다. MinHash와 같은 효율적인 거의 중복 감지 알고리즘을 활용하여 이러한 중복 편향을 줄입니다.

4. 토큰화

중복이 제거된 고품질 텍스트 코퍼스가 있으면 이를 토큰화해야 합니다. 즉, 훈련 중에 신경망이 수집할 수 있는 토큰 시퀀스로 변환해야 합니다. 유비쿼터스 바이트 수준 BPE 인코딩이 선호되며 코드, 수학적 표기법 및 기타 컨텍스트를 우아하게 처리합니다. 토크나이저 자체의 과적합을 방지하려면 전체 데이터 세트를 주의 깊게 샘플링해야 합니다.

5. 데이터 품질 평가

데이터 품질을 평가하는 것은 어려운 일이지만 중요한 작업입니다. 특히 규모가 큰 경우에는 더욱 그렇습니다. 사용된 기술은 다음과 같습니다:

하위 집합 훈련 중 Commonsense QA, HellaSwag 및 OpenBook QA와 같은 신호가 높은 벤치마크 모니터링

도메인/URL 수동 검사 및 보유/삭제된 예제 검사

데이터 클러스터링 및 시각화 도구

교육 보조 자료 토큰 분석을 위한 토크나이저

Training

1. 모델 병렬성

현대 LLM의 엄청난 규모(종종 단일 GPU 또는 단일 시스템에 맞추기에는 너무 큼)에는 다양한 방식으로 결합할 수 있는 고급 병렬화 체계가 필요합니다. 여러 장치 및 기계에 걸쳐 모델 분할:

데이터 병렬 처리: 여러 장치에 배치 분산

텐서 병렬 처리: 여러 장치에 걸쳐 모델 가중치 및 활성화 분할

파이프라인 병렬 처리: 모델을 일련의 단계로 처리하고 장치 간에 파이프라인 처리

시퀀스 병렬성: 개별 입력 시퀀스를 분할하여 추가 확장

이러한 4D 병렬 전략을 결합하면 수조 개의 매개변수가 있는 모델로 확장할 수 있습니다.

2. 효율적인 주의

주요 계산 병목 현상은 Transformer 아키텍처의 핵심에 있는 셀프 어텐션 작업에 있습니다. Flash Attention 및 Factorized Kernels와 같은 방법은 전체 Attention 매트릭스를 불필요하게 구현하는 것을 방지하는 고도로 최적화된 Attention 구현을 제공합니다.

3. 안정적인 훈련

이렇게 극단적인 규모에서 안정적인 수렴을 달성하는 것은 중요한 과제입니다. 이 분야의 혁신에는 다음이 포함됩니다.

향상된 초기화 체계

MuTransfer와 같은 초매개변수 전송 방법

코사인 어닐링과 같은 최적화된 학습 속도 계획

4 아키텍처 혁신

최근 모델 아키텍처의 혁신으로 역량이 크게 향상되었습니다. LLM:

MoE(Mixture-of-Experts): 각 예는 라우팅 네트워크를 통해 활성화된 모델 매개변수의 하위 집합만 활성화합니다.

Mamba: 해시 기반 전문가 혼합 레이어의 효율적인 구현

Alliance

역량도 중요하지만 안전하고 정통하며 인간의 가치와 지침에 부합하는 LLM도 필요합니다. 이것이 인공 지능 정렬이라는 새로운 분야의 목표입니다.

인간 피드백으로부터 강화 학습(RLHF): 모델 출력에 대한 인간 선호도에서 파생된 보상 신호를 사용하여 PPO, DPO 등과 같은 모델 방법을 미세 조정합니다. 적극적으로 탐구했습니다.

Constitutional AI: Constitutional AI는 훈련 과정에서 규칙과 지침을 모델에 인코딩하여 처음부터 원하는 행동을 주입합니다.

Inference

LLM이 훈련되면 효율적인 추론을 위해 이를 최적화해야 합니다. 즉, 최소한의 지연 시간으로 사용자에게 모델 출력을 제공해야 합니다.

양자화: 큰 모델 가중치를 낮은 정밀도 형식으로 압축합니다. 예를 들어, int8은 컴퓨팅 비용이 저렴하고 메모리 집약적입니다. 일반적으로 사용되는 기술에는 GPTQ, GGML 및 NF4가 포함됩니다.

추측적 디코딩: Medusa 방법과 같이 작은 모델을 사용하여 더 큰 모델을 실행하여 추론을 가속화합니다.

시스템 최적화: JIT(Just-In-Time) 컴파일, 커널 융합 및 CUDA 그래픽 최적화를 통해 속도를 더욱 높일 수 있습니다.

결론

2024년에 대규모 언어 모델을 구축하려면 데이터 소싱 및 정리부터 확장 가능한 교육 시스템 및 효율적인 추론 배포에 이르기까지 전체 스택에 걸쳐 신중한 아키텍처와 혁신이 필요합니다. 우리는 주요 내용 중 일부만 다루었지만, 이 분야는 항상 새로운 기술과 발견이 등장하면서 놀라운 속도로 발전하고 있습니다. 데이터 품질 평가, 대규모의 안정적인 수렴, 인간 가치와의 일관성, 강력한 실제 배포를 둘러싼 과제는 여전히 열려 있는 영역입니다. 하지만 LL.M.의 잠재력은 엄청납니다. 2024년과 그 이후에도 언어 AI로 가능한 것의 한계를 넓힐 수 있도록 계속 지켜봐 주시기 바랍니다!

위 내용은 2024년 대규모 언어 모델 구축을 위한 여정의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:dzone.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿