지역 사회 배우다 도구 라이브러리 여가

한국어

집 > 기술 주변기기 > 일체 포함 > 본문

컨텍스트 길이를 256k로 확장합니다. LongLLaMA의 무제한 컨텍스트 버전이 출시되나요?

PHPz

풀어 주다： 2023-07-11 15:05:44

앞으로

1036명이 탐색했습니다.

올해 2월 메타는 오픈소스 채팅 로봇 개발을 성공적으로 추진한 LLaMA 대규모 언어 모델 시리즈를 출시했습니다. LLaMA는 이전에 출시된 많은 대형 모델(매개변수 수는 70억 ~ 650억 개)보다 매개변수가 적지만 성능이 더 우수하기 때문에 650억 개의 매개변수를 가진 가장 큰 LLaMA 모델은 Google의 Chinchilla-70B 및 PaLM과 비슷합니다. -540B. 출시되자마자 많은 연구자들이 흥분했습니다.

그러나 LLaMA는 학술 연구자들에게만 사용 허가가 부여되어 모델의 상업적 적용이 제한됩니다.

그래서 연구자들은 상업적 목적으로 사용할 수 있는 LLaMA를 찾기 시작했습니다. UC Berkeley의 박사 과정 학생인 Hao Liu가 시작한 OpenLLaMA 프로젝트는 LLaMA의 가장 인기 있는 오픈 소스 복사본 중 하나입니다. 원래 LLaMA와 정확히 동일한 LLaMA 하이퍼파라미터 전처리 및 학습의 경우 OpenLLaMA는 LLaMA의 학습 단계를 완전히 따른다고 할 수 있습니다. 가장 중요한 것은 해당 모델이 상업적으로 이용 가능하다는 것입니다.

OpenLLaMA는 Together Company에서 출시한 RedPajama 데이터 세트를 사용하여 학습했습니다. 3B, 7B, 13B의 세 가지 모델이 있습니다. 이 모델은 1T 토큰으로 학습되었습니다. 결과는 OpenLLaMA의 성능이 여러 작업에서 원래 LLaMA의 성능과 비슷하거나 심지어 이를 능가한다는 것을 보여줍니다.

연구원들은 지속적으로 새로운 모델을 출시하는 것 외에도 모델의 토큰 처리 능력을 지속적으로 탐구하고 있습니다.

며칠 전 Tian Yuandong 팀의 최신 연구에서는 1000단계 미만의 미세 조정을 통해 LLaMA 컨텍스트를 32K로 확장했습니다. 더 거슬러 올라가면 GPT-4는 32,000개의 토큰(텍스트 50페이지에 해당)을 지원하고 Claude는 100,000개의 토큰(대략 한 번의 클릭으로 "해리포터"의 첫 번째 부분을 요약하는 것과 동일)을 처리할 수 있습니다.

이제 컨텍스트 길이를 256,000개 토큰 이상으로 확장하는 OpenLLaMA를 기반으로 하는 새로운 대규모 언어 모델이 출시됩니다. 이 연구는 IDEAS NCBR, 폴란드 과학 아카데미, 바르샤바 대학교, Google DeepMind가 공동으로 완료했습니다.

컨텍스트 길이를 256k로 확장합니다. LongLLaMA의 무제한 컨텍스트 버전이 출시되나요? Pictures

LongLLaMA는 OpenLLaMA를 기반으로 하며 미세 조정 방법은 FOT(Focused Transformer)를 사용합니다. 이 논문에서는 FOT를 사용하여 기존 대형 모델을 미세 조정하여 컨텍스트 길이를 확장할 수 있음을 보여줍니다.

이 연구에서는 OpenLLaMA-3B 및 OpenLLaMA-7B 모델을 출발점으로 사용하고 FOT를 사용하여 미세 조정합니다. LONGLLAMA라고 불리는 결과 모델은 훈련 컨텍스트의 길이(최대 256K까지)를 넘어 추정하고 짧은 컨텍스트 작업에서 성능을 유지할 수 있습니다.

프로젝트 주소: https://github.com/CstanKonrad/long_llama
논문 주소: https://arxiv.org/pdf/2307.03170.pdf

누군가가 이 연구를 다음과 같이 설명했습니다. FOT를 사용하는 OpenLLaMA의 무제한 컨텍스트 버전에서는 모델을 더 긴 시퀀스로 쉽게 추정할 수 있습니다. 예를 들어, 8K 토큰으로 훈련된 모델은 256K 창 크기로 쉽게 추정할 수 있습니다.

컨텍스트 길이를 256k로 확장합니다. LongLLaMA의 무제한 컨텍스트 버전이 출시되나요? Pictures

이 기사에서는 Transformer 모델의 플러그 앤 플레이 확장인 FOT 방법을 사용하며 새 모델을 훈련하거나 더 긴 컨텍스트로 기존 대형 모델을 미세 조정하는 데 사용할 수 있습니다.

이를 달성하기 위해 FOT는 메모리 주의 계층과 교차 배치 교육 프로세스를 사용합니다.

메모리 주의 계층을 사용하면 모델이 추론 시 외부 메모리에서 정보를 검색할 수 있으므로 컨텍스트를 효과적으로 확장할 수 있습니다.
크로스 배치 학습 프로세스를 통해 모델은 어텐션 레이어를 기억하는 데 매우 쉽게 사용할 수 있는 (키, 값) 표현을 학습하는 경향이 있습니다.

FOT 아키텍처의 개요는 그림 2를 참조하세요.

컨텍스트 길이를 256k로 확장합니다. LongLLaMA의 무제한 컨텍스트 버전이 출시되나요? Pictures

다음 표는 LongLLaMA에 대한 일부 모델 정보를 보여줍니다.

컨텍스트 길이를 256k로 확장합니다. LongLLaMA의 무제한 컨텍스트 버전이 출시되나요? Pictures

드디어, 프로젝트 또한 LongLLaMA와 원래 OpenLLaMA 모델 간의 비교 결과가 제공됩니다.

아래 그림은 LongLLaMA의 몇 가지 실험 결과를 보여줍니다. 비밀번호 검색 작업에서 LongLLaMA는 좋은 성능을 보였습니다. 특히 LongLLaMA 3B 모델은 훈련 컨텍스트 길이인 8K를 훨씬 초과하여 100,000개 토큰의 경우 94.5% 정확도, 256,000개 토큰의 경우 73% 정확도를 달성했습니다.

컨텍스트 길이를 256k로 확장합니다. LongLLaMA의 무제한 컨텍스트 버전이 출시되나요? Pictures

다음 표는 두 가지 다운스트림 작업(TREC 질문 분류 및 WebQS 질문 응답)에 대한 LongLLaMA 3B 모델의 결과를 보여줍니다. 결과는 긴 컨텍스트를 사용할 때 LongLLaMA 성능이 크게 향상된다는 것을 보여줍니다.

컨텍스트 길이를 256k로 확장합니다. LongLLaMA의 무제한 컨텍스트 버전이 출시되나요? Image

아래 표는 긴 컨텍스트가 필요하지 않은 작업에서도 LongLLaMA가 어떻게 잘 작동하는지 보여줍니다. 실험에서는 제로 샘플 설정에서 LongLLaMA와 OpenLLaMA를 비교합니다.

컨텍스트 길이를 256k로 확장합니다. LongLLaMA의 무제한 컨텍스트 버전이 출시되나요? Pictures

자세한 내용은 원본 논문과 프로젝트를 참고해주세요.

위 내용은 컨텍스트 길이를 256k로 확장합니다. LongLLaMA의 무제한 컨텍스트 버전이 출시되나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨：

ai 模型

원천：51cto.com

이전 기사：상하이, AI '모델' 도시 건설을 위한 대규모 모델 정책 발표 다음 기사：WPS AI 공식 웹사이트가 온라인에 있습니다. 체험관 자격을 신청하고 Windows 및 Android 다운로드를 지원할 수 있습니다.

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

저자별 최신 기사

코딩의 핵심: 초보자를 위한 C의 힘 활용

2024-10-13 11:44:01
PHP 및 MySQL을 사용하여 웹사이트를 데이터베이스에 연결

2024-10-13 09:56:31
Python을 사용한 문제 해결: 초보 코더로서 강력한 솔루션 잠금 해제

2024-10-11 20:58:41
단순화된 Python Power: 프로그래밍에 대한 초보자 친화적인 접근 방식

2024-10-11 16:53:11
PHP와 소셜 미디어: 귀하의 웹사이트를 전 세계와 통합하세요

2024-10-11 11:54:51
PHP를 사용한 동적 이미지 갤러리: 귀하의 작업을 온라인으로 선보이세요

2024-10-10 16:21:01
PHP로 API 및 웹 서비스 구축

2024-10-10 15:18:02
Demystifying Java: 새로운 프로그래머를 위한 명확하고 쉬운 길

2024-10-10 13:34:01
C로 게임과 그래픽 만들기: 재미있고 실용적인 소개

2024-10-10 13:26:26
Glory of Kings에서 Cheng Yaojin을 플레이하는 방법은 무엇입니까?

2024-10-10 11:38:42

최신 이슈

여러 경로에 선언된 작업자 풀이 임계값을 고려하지 않고 여전히 CPU 사용량을 유지할 수 있습니까? CPU 집약적인 작업을 처리하기 위해 작업자 풀이 있는 node.js 시스템을 찾고 있지만 여러 경로에서의 CPU 사용량에 대해 약간 혼란스럽습니다. 시나리오는 ...

에서 2024-04-06 19:54:23

0

1

444

MySQL SQL 쿼리를 사용하여 다른 테이블의 필드 합계를 계산합니다. 다음과 같은 스키마가 있습니다. "user_id" 및 "username" 속성이 있는 사용자 테이블과 "custome...

에서 2024-04-06 19:39:29

0

1

441

웹사이트에서 입력 요소를 가져올 수 없습니다. 그래서 Twitter에서 입력 요소를 가져오려고 하는데 실행하면 노드 터미널에서 계속 이런 오류가 발생하고 결과적으로 이 코드로 생성된 브라우저 창이 저절로 닫힙...

에서 2024-04-06 18:59:57

0

1

442

템플릿의 메서드에 정의된 변수 사용 Vue(v3가 아닌 v2)를 사용하는 것은 이번이 처음이고 템플릿(메소드 내부에 정의됨) 내에서 변수를 사용하려고 노력해 왔습니다. 내 단순화된 코드: <t...

에서 2024-04-06 18:10:25

0

2

513

SCSS를 사용하여 기본값 및 CSS 변수 생성 웹사이트 스타일링을 구현하고 있습니다. 레거시 지원상의 이유로 적어도 한동안은 IE11을 지원해야 합니다. 작업 흐름과 제정신의 이유로 가능할 때마다 CSS 변수...

에서 2024-04-06 17:46:54

0

1

355

관련 주제

더>

인기 추천

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿