지역 사회 배우다 도구 라이브러리 여가

한국어

집 > 기술 주변기기 > 일체 포함 > 4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

王林

풀어 주다： 2023-10-24 20:13:01

앞으로

752명이 탐색했습니다.

창 길이가 4k에 불과한 대형 모델이라도 여전히 많은 텍스트 섹션을 읽을 수 있습니다!

프린스턴의 한 중국인 박사과정 학생이 최근 성취한 성과는 대형 모델의 창 길이 제한을 성공적으로 "돌파"한 것입니다.

다양한 질문에 답할 수 있을 뿐만 아니라, 전체 구현 과정을 추가 교육 없이도 프롬프트로 완전히 완료할 수 있습니다.

4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

연구팀은 모델 자체의 창 길이 제한을 돌파할 수 있는 MemWalker라는 트리 메모리 전략을 만들었습니다.

테스트 중에 모델이 읽은 가장 긴 텍스트에는 12,000개 이상의 토큰이 포함되어 있으며 LongChat에 비해 결과가 크게 향상되었습니다.

4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

유사한 TreeIndex에 비해 MemWalker는 일반화를 하는 대신 모든 질문에 대해 추론하고 답변할 수 있습니다.

MemWalker는 "분할과 정복"이라는 아이디어를 사용하여 개발되었습니다. 일부 네티즌은 다음과 같이 말했습니다.

대형 모델의 사고 과정을 인간과 비슷하게 만들 때마다 성능이 더 좋아질 것입니다

4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

그래서 , 트리 메모리 전략은 정확히 무엇이며 제한된 창 길이로 긴 텍스트를 읽는 방법은 무엇입니까?

한 창으로 부족하면 몇 개 더 열어보세요

모델에서 MemWalker는 Stable Beluga 2를 기본 모델로 사용하고 있는데, 이는 Llama 2-70B가 명령 튜닝 후 얻은 것입니다.

이 모델을 선택하기 전에 개발자들은 원래 Llama 2와 성능을 비교하고 최종적으로 결정했습니다.

4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

MemWalker라는 이름처럼 작업 과정은 마치 기억의 흐름을 걷는 것과 같습니다.

구체적으로는 크게 메모리 트리 구축과 탐색 검색의 두 단계로 나뉩니다.

4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

메모리 트리를 구축할 때 긴 텍스트는 여러 개의 작은 세그먼트(세그1-6)으로 나뉘고, 큰 모델은 각 세그먼트를 별도로 요약하여 "리프 노드"을 얻습니다. (리프 노드, summ1-6).

세그먼트를 분할할 때 각 세그먼트의 길이가 길수록 레벨이 적어서 후속 검색에 유리하지만, 너무 길면 정확도가 떨어지므로 길이를 결정할 때 종합적인 고려가 필요합니다. 각 세그먼트의.

저자는 각 문단의 적정 길이가 500~2000개 토큰이고, 실험에 사용된 토큰은 1000개라고 생각합니다.

4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

그런 다음 모델은 이러한 리프 노드의 내용을 다시 재귀적으로 요약하여 "비리프 노드"(비리프 노드, summ7-8)을 형성합니다.

둘 사이의 또 다른 차이점은 리프 노드에는 원래 정보가 포함되는 반면, 리프가 아닌 노드에는 로 요약된 보조 정보만 포함된다는 것입니다.

기능적으로 리프 노드가 아닌 노드는 답변이 있는 리프 노드를 탐색하고 찾는 데 사용되는 반면, 리프 노드는 답변에 대해 추론하는 데 사용됩니다.

비리프 노드는 여러 수준을 가질 수 있으며 "루트 노드"를 얻어 완전한 트리 구조를 형성할 때까지 모델이 점진적으로 요약됩니다.

기억 트리가 구축된 후 탐색 검색 단계에 들어가 답변을 생성할 수 있습니다.

4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

이 과정에서 모델은 루트 노드에서 시작하여 1차 하위 노드의 내용을 하나씩 읽은 후 이 노드에 들어갈지 돌아올지 추론합니다.

이 노드에 들어가기로 결정한 후 리프 노드를 읽을 때까지 프로세스를 다시 반복하십시오. 리프 노드의 내용이 적합하면 답변이 생성되고, 그렇지 않으면 반환됩니다.

답의 완전성을 보장하기 위해 이 프로세스의 종료 조건은 적합한 리프 노드를 찾는 것이 아니라 모델이 완전한 답을 얻었거나 최대 단계 수에 도달했다고 믿는 것입니다.

탐색 프로세스 중에 모델이 잘못된 경로를 입력했음을 발견하면 뒤로 탐색할 수도 있습니다.

또한 MemWalker는 정확성을 높이기 위해 작업 메모리 메커니즘을 도입했습니다.

4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

이 메커니즘은 방문한 노드의 콘텐츠를 현재 콘텐츠의 컨텍스트에 추가합니다.

모델이 새 노드에 진입하면 현재 노드 콘텐츠가 메모리에 추가됩니다.

이 메커니즘을 통해 모델은 중요한 정보의 손실을 방지하기 위해 모든 단계에서 방문한 노드의 콘텐츠를 활용할 수 있습니다.

실험 결과에 따르면 작업 기억 메커니즘이 MemWalker의 정확도를 약 10% 증가시킬 수 있는 것으로 나타났습니다.

또한 위에서 언급한 프로세스는 프롬프트에 의존해야만 완료할 수 있으며 추가 교육이 필요하지 않습니다.

4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

이론적으로 MemWalker는 컴퓨팅 성능이 충분하다면 무한히 긴 텍스트를 읽을 수 있습니다.

그러나 메모리 트리 구성의 시간 및 공간 복잡성은 텍스트 길이가 늘어남에 따라 기하급수적으로 증가합니다.

저자 소개

논문의 첫 번째 저자는 프린스턴 대학 NLP 연구소의 중국 박사 과정 학생인 Howard Chen입니다.

Tsinghua Yao Class 동문 Chen Danqi는 Howard의 멘토이며, 올해 ACL에 대한 그녀의 학업 보고서도 검색과 관련이 있습니다.

이 결과는 Howard가 Meta에서 인턴십을 하는 동안 완성한 것입니다. Meta AI Laboratory의 학자 세 명인 Ramakanth Pasunuru, Jason Weston 및 Asli Celikyilmaz도 이 프로젝트에 참여했습니다.

논문 주소: https://arxiv.org/abs/2310.05029

위 내용은 4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨：

ai 训练

원천：51cto.com

이전 기사：가상과 현실을 통합해 모든 산업을 지혜로 활성화 ZTE, 2023 월드 VR 컨퍼런스에 등장 다음 기사：칭화의 새로운 연구로 정보를 해독하는 누에고치방! 네이처(Nature) 하위 저널에 새로운 정보 역학 이론 게재

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

저자별 최신 기사

미래를 창조하세요: 완전 초보자를 위한 Java 프로그래밍

2024-10-13 13:32:21
당신은 혼자가 아닙니다: 지원적인 커뮤니티와 함께 Python을 마스터하세요

2024-10-12 11:58:51
초보자에서 코더까지: Python 프로그래밍의 힘을 활용하세요

2024-10-11 20:06:51
프로그래머처럼 생각하기: Java의 기본 사항 배우기

2024-10-11 18:59:31
Java Made Simple: 초보자를 위한 프로그래밍 능력 가이드

2024-10-11 18:30:51
PHP로 블로그 구축: 초보자에게 친숙한 프로젝트

2024-10-11 15:51:51
시스템 언어 말하기: 한 번에 한 줄씩 C 배우기

2024-10-11 15:42:10
C의 데이터 구조 및 알고리즘: 초보자에게 친숙한 접근 방식

2024-10-11 14:41:20
눈물 없는 코딩: 쉬운 방법으로 C 배우기

2024-10-11 14:08:31
Java를 사용한 데이터 분석: 정보 처리를 위한 초보자 가이드

2024-10-11 13:42:21

최신 이슈

function_exists()는 사용자 정의 함수를 결정할 수 없습니다. 기능 테스트() { ...

에서 2024-04-29 11:01:01

0

3

2049

Chrome 모바일 버전을 표시하는 방법 안녕하세요 선생님, Chrome을 모바일 버전으로 어떻게 변경하나요?

에서 2024-04-23 00:22:19

0

11

2204

자식 창이 부모 창을 작동하지만 출력이 응답하지 않습니다. 처음 두 문장은 실행 가능하지만 마지막 문장은 구현할 수 없습니다.

에서 2024-04-19 15:37:47

0

1

1862

상위 창에 출력이 없습니다. document.onclick = function(){ window.opener.document.write('나는 자식 창의 출력입니다.');

에서 2024-04-18 23:52:34

0

1

1749

CSS 마인드맵 코스웨어는 어디에 있나요? 코스웨어

에서 2024-04-16 10:10:18

0

0

1771

관련 주제

더>

인기 추천

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿