작지만 강력한 모델이 증가하고 있습니다. TinyLlama와 LiteLlama가 인기 있는 선택이 되었습니다.-일체 포함-php.cn

작지만 강력한 모델이 증가하고 있습니다. TinyLlama와 LiteLlama가 인기 있는 선택이 되었습니다.

WBOY

풀어 주다： 2024-01-14 12:27:15

앞으로

1347명이 탐색했습니다.

현재 연구자들은 모두가 수백억, 심지어 수천억에 달하는 매개변수 척도를 가진 대형 모델을 연구하고 있지만, 작고 고성능인 소형 모델에 초점을 맞추기 시작했습니다.

소형 모델은 스마트폰, IoT 기기, 임베디드 시스템 등 엣지 기기에 널리 사용됩니다. 이러한 장치는 컴퓨팅 능력과 저장 공간이 제한되어 있어 대규모 언어 모델을 효율적으로 실행할 수 없는 경우가 많습니다. 따라서 작은 모델을 연구하는 것이 특히 중요합니다.

다음에 소개할 두 가지 연구는 소형 모델에 대한 귀하의 요구를 충족할 수 있습니다.

TinyLlama-1.1B

싱가포르 기술 디자인 대학(SUTD)의 연구원들은 최근 약 3조 개의 토큰 열차에 대해 사전 훈련된 11억 개의 매개변수를 갖춘 언어 모델인 TinyLlama를 출시했습니다.

작지만 강력한 모델이 증가하고 있습니다. TinyLlama와 LiteLlama가 인기 있는 선택이 되었습니다.

논문 주소: https://arxiv.org/pdf/2401.02385.pdf
프로젝트 주소: https://github.com/jzhang38/TinyLlama/blob/main/ README_zh-CN.md

TinyLlama는 Llama 2 아키텍처 및 토크나이저를 기반으로 하므로 Llama를 사용하는 많은 오픈 소스 프로젝트와 쉽게 통합할 수 있습니다. 또한 TinyLlama는 매개변수가 11억개에 불과하고 크기가 작기 때문에 제한된 계산 및 메모리 공간이 필요한 애플리케이션에 이상적입니다.

연구에 따르면 A100-40G GPU 16개만 90일 안에 TinyLlama 훈련을 완료할 수 있는 것으로 나타났습니다.

작지만 강력한 모델이 증가하고 있습니다. TinyLlama와 LiteLlama가 인기 있는 선택이 되었습니다.

이 프로젝트는 출시 이후 계속해서 주목을 받아 현재 별 수가 4.7K에 이르렀습니다.

작지만 강력한 모델이 증가하고 있습니다. TinyLlama와 LiteLlama가 인기 있는 선택이 되었습니다.

TinyLlama 모델 아키텍처 세부 사항은 다음과 같습니다.

작지만 강력한 모델이 증가하고 있습니다. TinyLlama와 LiteLlama가 인기 있는 선택이 되었습니다.

훈련 세부 사항은 다음과 같습니다.

작지만 강력한 모델이 증가하고 있습니다. TinyLlama와 LiteLlama가 인기 있는 선택이 되었습니다.

연구원들은 이 연구의 목적이 다음과 같다고 말했습니다. 내 사용은 더 큰 데이터 더 작은 모델을 훈련할 수 있는 가능성. 그들은 확장 법칙에서 권장하는 것보다 훨씬 더 많은 수의 토큰으로 훈련할 때 더 작은 모델의 동작을 탐색하는 데 중점을 두었습니다.

구체적으로, 이 연구에서는 1.1B 매개변수가 있는 Transformer(디코더 전용) 모델을 훈련하기 위해 약 3조 개의 토큰을 사용했습니다. 우리가 아는 한, 이는 1B 매개변수가 있는 모델을 훈련하기 위해 이렇게 많은 양의 데이터를 사용하는 첫 번째 시도입니다.

TinyLlama는 상대적으로 작은 크기에도 불구하고 다양한 다운스트림 작업에서 매우 뛰어난 성능을 발휘하여 동일한 크기의 기존 오픈 소스 언어 모델보다 훨씬 뛰어납니다. 특히 TinyLlama는 다양한 다운스트림 작업에서 OPT-1.3B 및 Pythia1.4B보다 성능이 뛰어납니다.

또한 TinyLlama는 Flash Attention 2, FSDP(Fully Sharded Data Parallel), xFormers 등과 같은 다양한 최적화 방법도 사용합니다.

이러한 기술의 지원으로 TinyLlama 교육 처리량은 A100-40G GPU당 초당 24,000개 토큰에 도달합니다. 예를 들어 TinyLlama-1.1B 모델에는 300B 토큰의 경우 A100 GPU 시간이 3,456시간만 필요한 반면, Pythia의 경우 4,830시간, MPT의 경우 7,920시간이 필요합니다. 이는 본 연구 최적화의 효율성과 대규모 모델 훈련에서 상당한 시간과 자원을 절약할 수 있는 잠재력을 보여줍니다.

TinyLlama는 24,000개 토큰/초/A100의 훈련 속도를 달성합니다. 이 속도는 사용자가 8개의 A100에서 32시간 안에 훈련할 수 있는 11억 개의 매개변수와 220억 개의 토큰을 갖춘 친칠라 최적 모델과 동일합니다. 동시에 이러한 최적화를 통해 사용자는 GPU당 배치 크기를 16,000개 토큰으로 유지하면서 11억 개의 매개변수 모델을 40GB GPU에 넣을 수 있습니다. 배치 크기를 조금 더 작게 변경하면 RTX 3090/4090에서 TinyLlama를 훈련시킬 수 있습니다.

작지만 강력한 모델이 증가하고 있습니다. TinyLlama와 LiteLlama가 인기 있는 선택이 되었습니다.

실험에서 이 연구는 주로 약 10억 개의 매개변수를 포함하는 순수 디코더 아키텍처를 갖춘 언어 모델에 중점을 두었습니다. 구체적으로 이 연구에서는 TinyLlama를 OPT-1.3B, Pythia-1.0B 및 Pythia-1.4B와 비교했습니다.

상식 추론 작업에 대한 TinyLlama의 성능은 아래와 같습니다. TinyLlama는 많은 작업에서 기준보다 뛰어난 성능을 보이며 가장 높은 평균 점수를 얻는 것을 볼 수 있습니다.

작지만 강력한 모델이 증가하고 있습니다. TinyLlama와 LiteLlama가 인기 있는 선택이 되었습니다.

또한, 연구원들은 사전 훈련 중 상식 추론 벤치마크에서 TinyLlama의 정확도를 추적했습니다. 그림 2에서 볼 수 있듯이 TinyLlama의 성능은 컴퓨팅 리소스가 증가함에 따라 향상되며 대부분의 벤치마크에서 Pythia-1.4B의 정확도.

작지만 강력한 모델이 증가하고 있습니다. TinyLlama와 LiteLlama가 인기 있는 선택이 되었습니다.

표 3을 보면 TinyLlama가 기존 모델에 비해 더 나은 문제 해결 능력을 보이는 것을 알 수 있습니다.

작지만 강력한 모델이 증가하고 있습니다. TinyLlama와 LiteLlama가 인기 있는 선택이 되었습니다.

손이 빠른 네티즌들은 이미 시작하기 시작했습니다. 달리기 효과는 놀라울 정도로 좋습니다. GTX3060에서 실행하면 초당 136톡의 속도로 달릴 수 있습니다.

작지만 강력한 모델이 증가하고 있습니다. TinyLlama와 LiteLlama가 인기 있는 선택이 되었습니다.

"정말 빠르네요!"

작지만 강력한 모델이 증가하고 있습니다. TinyLlama와 LiteLlama가 인기 있는 선택이 되었습니다.

Small Model LiteLlama

TinyLlama 출시로 인해 SLM(Small Language Model)이 시작되었습니다. 폭넓은 관심을 끌기 위해. Texas Tech와 A&M University의 Xiaotian Han이 SLM-LiteLlama를 출시했습니다. 460M 매개변수를 가지고 있으며 1T 토큰으로 훈련됩니다. 이는 Meta AI의 LLaMa 2의 오픈 소스 포크이지만 모델 크기가 훨씬 작습니다.

작지만 강력한 모델이 증가하고 있습니다. TinyLlama와 LiteLlama가 인기 있는 선택이 되었습니다.

프로젝트 주소: https://huggingface.co/ahxt/LiteLlama-460M-1T

LiteLlama-460M-1T는 RedPajama 데이터 세트로 훈련되었으며 GPT2Tokenizer를 사용하여 텍스트를 토큰화합니다. 저자는 MMLU 작업에 대해 모델을 평가했으며 그 결과는 아래 그림에 나와 있습니다. 매개 변수 수가 크게 줄어들었음에도 LiteLlama-460M-1T는 여전히 다른 모델과 비슷하거나 더 나은 결과를 얻을 수 있습니다.

작지만 강력한 모델이 증가하고 있습니다. TinyLlama와 LiteLlama가 인기 있는 선택이 되었습니다.