학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.-일체 포함-php.cn

학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.

PHPz

풀어 주다： 2024-07-16 11:57:51

원래의

549명이 탐색했습니다.

2.4B 메모리³는 대형 LLM 및 RAG 모델보다 더 나은 성능을 제공합니다.

최근에는 LLM(대형 언어 모델)이 뛰어난 성능으로 전례 없는 주목을 받았습니다. 그러나 LLM은 훈련하고 추론하는 데 비용이 많이 들고, 사람들은 다양한 최적화 방법을 통해 비용을 줄이려고 노력해 왔습니다.

이 기사에서 북경대학교 상하이 알고리즘 혁신 연구소 및 기타 기관의 연구원들은 인간 두뇌의 메모리 계층 구조에서 영감을 얻었습니다. 그들은 LLM에 명시적 메모리(모델 매개변수보다 저렴한 메모리 형식)를 장착했습니다. RAG). 개념적으로 LLM은 대부분의 지식이 명시적 메모리로 외부화되므로 더 작은 매개변수 크기, 교육 비용 및 추론 비용을 누릴 수 있습니다. T 논문 주소: https: //arxiv.org/pdf/2407.01178

학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.

논문 제목: Memory

: Language Modeling with Explicit Memory
예비 개념 증명 증명으로 연구진은 2.4B LLM은 더 큰 LLM 및 RAG 모델보다 더 나은 성능을 달성하고 RAG보다 더 높은 디코딩 속도를 달성했습니다. LLM에서 명시적 메모리는 암시적 메모리(모델 매개변수)와 작업 메모리(컨텍스트 키 값)에 이어 세 번째 형태의 메모리이기 때문에 이 모델의 이름은 Memory
3

구체적으로 본 논문에서는 쓰기 비용이 상대적으로 저렴하고 읽기 비용이 상대적으로 낮은 것이 특징인 새로운 메모리 형식인 명시적 메모리를 소개합니다. 그림 1에서 볼 수 있듯이 모델은 먼저 지식 베이스(또는 텍스트 데이터 세트)를 희소 어텐션 키-값으로 구현된 명시적 메모리로 변환한 다음 추론 중에 이러한 메모리를 호출하고 이를 self-attention 레이어 중간에 통합합니다.

새로운 메모리 형식은 새로운 메모리 계층을 정의합니다.

또한 이 기사에서는 지식 외부화를 지원하는 메모리 회로 이론을 소개하고 저장을 다루기 쉬운 메커니즘과 2단계 메모리 희소성을 제안합니다. 기억 형성을 촉진하기 위한 사전 훈련 프로토콜.

요약:

Memory

추론 프로세스 중에 명시적 메모리를 활용하여 모델 매개변수에 대한 특정 지식을 기억하는 부담을 줄입니다. 희소 메모리 형식이 실제 저장 크기를 유지하는 지식 기반

연구원들은 2.4B 비임베디드 매개변수를 사용하여 Memory
3^{모델을 처음부터 훈련했으며 그 성능은 대규모 SOTA 모델의 성능을 초과했습니다. 또한 RAG보다 더 나은 성능과 더 빠른 추론을 제공합니다.}
또한 메모리
3
는 사실성을 향상하고 환각을 완화하며 전문적인 작업에 빠르게 적응할 수 있게 해줍니다.
방법 소개

기억 회로 이론은 어떤 지식이 명시적 기억으로 저장될 수 있는지, 어떤 모델 아키텍처가 명시적 기억을 읽고 쓰는 데 적합한지 결정하는 데 도움이 됩니다.

연구원들은 입출력 관계를 회로의 내부 메커니즘으로 간주하고, 지식을 입출력 관계와 그 회로로 정의합니다. 이러한 회로를 조작함으로써 기능을 그대로 유지하면서 LLM에서 많은 지식을 분리할 수 있습니다.

Memory

: 아키텍처 측면에서 이 문서의 목표는 Transformer LLM의 명시적 메모리 메커니즘을 설계하여 쓰기 비용과 읽기 비용이 상대적으로 낮도록 하는 것입니다. 또한 이 기사에서는 훈련 가능한 새로운 매개변수를 추가하지 않고 Transformer 아키텍처에 대한 수정을 가능한 가장 작은 범위로 제한하여 대부분의 기존 Transformer LLM을 미세 조정

모델 없이 메모리로 변환할 수 있기를 바랍니다. 간단한 설계 프로세스는 다음과 같습니다.

쓰기 비용: 추론 전에 LLM은 드라이브에 저장되는 명시적 메모리에 각 참조를 씁니다.기억은 self-attention 레이어의 주요 벡터에서 선택되므로 쓰기 과정에는 훈련이 필요하지 않습니다. 각 참조는 독립적으로 처리되므로 오랜 시간 동안 상황에 주의를 기울이는 데 따른 비용이 발생하지 않습니다.

읽기 비용: 추론 중에 명시적 메모리가 드라이브에서 검색되고 일반적인 컨텍스트 키 값과 함께 self-attention으로 읽혀집니다. 각 메모리는 소수의 어텐션 헤드에서 나온 매우 적은 수의 키 값으로 구성되어 추가 계산, GPU 스토리지, 드라이브 스토리지 및 로드 시간을 크게 줄입니다. 이를 통해 LLM은 디코딩 속도에 제한된 영향을 미치면서 많은 참조 자료를 자주 검색할 수 있습니다.

추론 프로세스는 그림 9에 나와 있습니다. LLM은 64개의 토큰을 생성할 때마다 현재 메모리를 버리고 이 64개의 토큰을 쿼리 텍스트로 사용하여 5개의 새로운 메모리를 검색하고 이러한 메모리를 계속해서 디코딩합니다. 마찬가지로, 큐를 처리할 때 LLM은 64개 토큰 블록마다 5개의 메모리를 검색합니다. 각 블록은 자체 메모리에 초점을 맞추며, 메모리는 블록마다 다를 수 있습니다.

기억 쓰기 및 읽기: 추론 중에 LLM은 검색된 명시적 기억을 상황별 키와 연결하여 self-attention 레이어를 통해 검색된 명시적 기억을 직접 읽을 수 있습니다(그림 9). 구체적으로, l번째 레이어의 각 어텐션 헤드 h에 대해 메모리 헤드로 선택되면 출력 Y^(l,h)가 변경됩니다.

또한 이 연구에서는 명시적 메모리가 병렬을 사용합니다. 위치 인코딩, 즉 모든 키 위치는 그림 9와 같이 길이 128의 동일한 간격에 위치합니다.

2단계 사전 훈련: 사전 훈련은 워밍업과 지속적인 훈련의 두 단계로 구성됩니다. 진행 중인 훈련 단계에만 명시적 기억이 포함되는 반면, 준비 단계에서는 일반 사전 훈련과 동일한 형식을 사용합니다.

그림 13은 준비 단계 동안의 훈련 손실 및 학습 속도 일정을 보여줍니다.

그림 14는 지속적인 훈련 단계 동안의 훈련 손실과 학습률 일정을 보여줍니다.

실험 결과

연구원들은 Memory³ 모델의 일반 능력(벤치마크 작업), 대화 능력, 전문 능력(법률 및 의학), 환각을 평가했습니다. 또한 연구원들은 Memory³의 디코딩 속도도 측정하여 유사하고 더 큰 SOTA LLM 및 RAG 모델과 비교했습니다.

일반능력 평가 결과는 아래와 같은데, 그 결과 외현기억이 평균점수를 2.51% 높인 것으로 나타났습니다. 이에 비해 Llama2-7B와 13B의 점수 차이는 4.91%입니다. 명시적 메모리는 "유효 모델 크기"를 2.51/4.91 ≒ 51.1%까지 늘릴 수 있습니다.

다음으로 저자는 Memory³의 대화 능력을 평가했으며 그 결과는 표 18에 나열되어 있으며 모델이 더 적은 매개변수로 Vicuna-7B, Falcon-40B-Instruct 및 ChatGLM2-6B보다 성능이 우수함을 보여줍니다.

현재 LLM은 여전히 환각 문제에 직면해 있습니다. 개념적으로 Memory³는 명시적 기억이 참조 텍스트와 직접적으로 일치하기 때문에 환각에 덜 민감해야 합니다. 환각을 평가하기 위해 연구원들은 평가를 위해 두 개의 영어 데이터 세트를 선택했습니다. 결과는 표 19에 나와 있습니다. Memory³는 대부분의 작업에서 가장 높은 점수를 받았습니다.

명시적 메모리 사용의 한 가지 이점은 LLM이 지식 기반을 업데이트하여 새로운 도메인 및 작업에 쉽게 적응할 수 있다는 것입니다. 간단하게 작업 관련 참조를 Memory³의 지식 기반으로 가져오고 선택적으로 웜 스타트 시 명시적 메모리로 변환할 수 있습니다.그런 다음 모델은 추론을 위해 이 새로운 지식을 활용하여 비용이 많이 들고 손실 가능성이 있는 미세 조정 프로세스를 건너뛰고 RAG보다 빠르게 실행할 수 있습니다. 이러한 비용 절감은 그림 4에서 입증되었으며 다양한 산업 분야에서 LLM의 신속한 배포를 촉진할 수 있습니다.