Chen Danqi의 ACL 학술 보고서가 나왔습니다! 대형 모델 '플러그인' 데이터베이스의 7가지 주요 방향과 3가지 주요 과제에 대한 자세한 설명, 유용한 정보가 가득한 3시간-일체 포함-php.cn

Tsinghua Yao Class 졸업생 Chen Danqi가 ACL 2023에서 최근 연설을 했습니다!

이 주제는 최근에도 여전히 매우 뜨거운 연구 방향입니다 -

GPT-3, PaLM 및 기타 (big)언어 모델과 같이 자신의 단점을 보완하기 위해 검색에 의존해야 하는지, 애플리케이션을 더 잘 구현하기 위해?

이 연설에서 그녀와 다른 세 명의 연사는 훈련 방법, 적용 및 과제를 포함하여 이 주제에 대한 몇 가지 주요 연구 방향을 공동으로 소개했습니다.

Chen Danqi의 ACL 학술 보고서가 나왔습니다! 대형 모델 플러그인 데이터베이스의 7가지 주요 방향과 3가지 주요 과제에 대한 자세한 설명, 유용한 정보가 가득한 3시간 사진

연설 중 청중들의 반응도 매우 뜨거웠습니다. 많은 네티즌들이 진지하게 질문을 제기했고, 몇몇 연사들은 그들의 질문에 최선을 다해 답변해 주었습니다.

Chen Danqi의 ACL 학술 보고서가 나왔습니다! 대형 모델 플러그인 데이터베이스의 7가지 주요 방향과 3가지 주요 과제에 대한 자세한 설명, 유용한 정보가 가득한 3시간 Pictures

이 연설의 구체적인 효과는 무엇입니까? 일부 네티즌들은 댓글창에 직접 '추천'이라는 댓글을 달기도 했다.

그럼 3시간에 걸친 연설에서 두 사람은 정확히 무슨 이야기를 나눴을까요? 또 어떤 곳에서 들을 만한 가치가 있나요?

대형 모델에 "플러그인" 데이터베이스가 필요한 이유는 무엇입니까?

이 연설의 핵심 주제는 "검색 기반 언어 모델"이며, 여기에는 검색과 언어 모델이라는 두 가지 요소가 포함됩니다.

정의에서 데이터 검색 데이터베이스를 언어 모델에 "플러그인"하고, 추론(및 기타 작업)을 수행할 때 이 데이터베이스를 검색하고, 최종적으로 검색 결과를 기반으로 출력하는 것을 의미합니다.

이러한 유형의 플러그인 데이터 저장소를 반모수적 모델 또는 비모수적 모델이라고도 합니다.

이 방향을 연구해야 하는 이유는 GPT-3, PaLM 등의 (대형)언어 모델이 좋은 결과를 보여주었지만 골치 아픈 부분도 있었기 때문입니다.", 세 가지 주요 문제가 있습니다:

1, 매개변수 수가 너무 많고, 새로운 데이터를 기반으로 재학습하면 계산 비용이 너무 높습니다.
2, 메모리가 좋지 않습니다(직면) 긴 텍스트로 인해 다음 내용을 기억하는 것을 잊어버렸습니다. 위) 시간이 지남에 따라 환각을 일으키고 데이터가 유출되기 쉽습니다.
3 현재 매개 변수의 양으로는 모든 지식을 기억하는 것이 불가능합니다.

이 경우, 대형 언어 모델용 데이터베이스를 "플러그인"하여 언제든지 정보를 검색하여 질문에 답할 수 있고 이 데이터베이스를 업데이트할 수 있는 외부 검색 코퍼스가 제안되었습니다. 언제든지 재교육 비용 문제에 대해 걱정할 필요가 없습니다.

정의와 배경을 소개한 후에는 이 연구 방향의 구체적인 아키텍처, 교육, 다중 양식, 응용 및 과제에 대해 논의할 시간입니다.

아키텍처에서는 주로 언어 모델 검색을 기반으로 한 콘텐츠, 검색 방법 및 검색 "타이밍"을 소개합니다.

구체적으로 이 유형의 모델은 주로 토큰, 텍스트 블록 및 엔터티 단어(엔티티 언급)를 검색합니다. 검색을 사용하는 방법과 시기도 매우 다양하여 매우 유연한 모델 아키텍처입니다.

훈련방법으로는 독립적 훈련(독립 훈련, 언어 모델, 검색 모델이 별도로 훈련됨), 연속 학습(순차 훈련), 다중 작업에 중점을 둡니다. 학습(합동 훈련) 및 기타 방법.

application의 경우 이러한 유형의 모델은 코드 생성, 분류, 지식 집약적 NLP 및 기타 작업에 사용될 수 있을 뿐만 아니라 미세 조정, 강화를 통해서도 사용될 수 있습니다. 학습, 검색 프롬프트 단어 등의 방법을 기반으로 사용할 수 있습니다.

롱테일 시나리오, 지식 업데이트가 필요한 시나리오, 개인 정보 보호 및 보안과 관련된 시나리오 등 애플리케이션 시나리오도 매우 유연합니다. 이러한 유형의 모델은 사용할 수 있는 곳이 있습니다.

물론 텍스트에만 국한되는 것은 아닙니다. 이러한 유형의 모델은 다중 모드 확장 가능성도 있어 텍스트 이외의 작업에도 사용할 수 있습니다.

이 유형의 모델에는 많은 장점이 있는 것처럼 들리지만 검색 기반 언어 모델을 기반으로 하는 몇 가지 도전과제도 있습니다.

마지막 "결말" 연설에서 Chen Danqi는 이 연구 방향에서 해결해야 할 몇 가지 주요 문제를 강조했습니다.

첫째, 작은 언어 모델 + (지속적 확장) 대규모 데이터베이스, 이는 본질적으로 언어 모델의 매개변수 수가 여전히 매우 크다는 것을 의미합니까? 이 문제를 해결하는 방법?

예를 들어, 이러한 유형의 모델의 매개변수 수는 매우 작아서 70억 개의 매개변수에 불과하지만 플러그인 데이터베이스는 2T에 도달할 수 있습니다...

두 번째, 유사성의 효율성 찾다. 검색 효율성을 극대화하기 위한 알고리즘을 설계하는 방법은 현재 매우 활발한 연구 방향입니다.

셋째, 복잡한 언어 작업을 완료하세요. 개방형 텍스트 생성 작업과 복잡한 텍스트 추론 작업을 포함하여 검색 기반 언어 모델을 사용하여 이러한 작업을 완료하는 방법도 지속적인 탐구가 필요한 방향입니다.

물론 Chen Danqi도 이러한 주제가 도전일 뿐만 아니라 연구 기회라고 언급했습니다. 아직도 논문 주제를 찾고 있는 친구들은 연구 목록에 추가할지 고려해 보세요~

이 연설은 "무작위" 주제가 아니라는 점을 언급할 가치가 있습니다. 네 명의 발표자가 공식에서 신중하게 언급했습니다. 웹사이트 연설에서 언급된 논문에 대한 링크가 공개되었습니다.

모델 아키텍처, 훈련 방법, 애플리케이션, 다중 양식부터 과제까지, 이러한 주제의 어느 부분에든 관심이 있다면 공식 웹사이트로 이동하여 해당 고전 논문을 찾을 수 있습니다:

현장 청중의 혼란에 답하다

이렇게 유익한 연설을 위해 4명의 기조연설자들은 연설 중에도 청중들이 제기한 질문에 인내심을 갖고 답변해 주었습니다.

먼저 강강의 연사가 누구인지부터 이야기해보겠습니다.

첫 번째는 이번 연설을 주도한 프린스턴 대학교 컴퓨터 공학과 조교수 Chen Danqi입니다.

그녀는 최근 컴퓨터 과학 분야에서 가장 인기 있는 중국 젊은 학자 중 한 명이며, 2008년 칭화 야오 클래스 졸업생이기도 합니다.

정보학 경쟁계에서 그녀는 매우 전설적입니다. CDQ 분할 정복 알고리즘은 그녀의 이름을 따서 명명되었습니다. 2008년에는 중국 대표팀을 대표해 IOI 금메달을 획득했다.

그리고 그녀의 156페이지 분량의 박사 논문 "신경 독해 및 그 너머"는 한때 큰 인기를 끌었습니다. 그 해 스탠포드 최우수 박사 논문 상을 수상했을 뿐만 아니라 지난 10년 동안 스탠포드 대학에서 가장 인기 있는 주제가 되기도 했습니다. .졸업 논문 중 하나입니다.

현재 Chen Danqi는 프린스턴 대학의 컴퓨터 과학 조교수일 뿐만 아니라 학교 NLP 팀의 공동 리더이자 AIML 팀의 멤버이기도 합니다.

그녀의 연구 방향은 주로 자연어 처리와 기계 학습에 중점을 두고 있으며, 실제 문제에서 실행 가능하고 확장 가능하며 일반화 가능한 간단하고 신뢰할 수 있는 방법에 관심이 있습니다.

또한 프린스턴 대학교 출신인 Chen Danqi의 제자인 Zhong Zexuan(Zexuan Zhong)이 있습니다.

Zhong Zexuan은 프린스턴 대학의 4년차 박사 과정 학생입니다. 저는 Xie Tao의 지도 하에 일리노이 대학교 Urbana-Champaign에서 석사 학위를 취득했으며 북경 대학교에서 컴퓨터 공학과를 학사 학위로 졸업하고 Microsoft Research Asia의 감독 하에 인턴으로 일했습니다. 니에 자이칭.

그의 최근 연구는 비정형 텍스트에서 구조화된 정보 추출, 사전 훈련된 언어 모델에서 사실 정보 추출, 밀집 검색 모델의 일반화 기능 분석, 검색 기반 언어 모델 기술을 위한 교육 개발에 중점을 두고 있습니다.

또한 기조 연설자로는 워싱턴 대학교의 Akari Asai와 Sewon Min이 포함됩니다.

Akari Asai는 워싱턴 대학에서 자연어 처리를 전공하는 4년차 박사 과정 학생입니다. 그는 일본 도쿄 대학에서 학사 학위를 받았습니다.

그녀는 정보 획득 능력을 향상시키기 위해 안정적이고 적응 가능한 자연어 처리 시스템을 개발하는 데 주로 관심이 있습니다.

최근 그녀의 연구는 주로 일반 지식 검색 시스템, 효율적인 적응형 NLP 모델 및 기타 분야에 중점을 두고 있습니다.

민세원은 워싱턴 대학 자연어 처리 그룹의 박사과정 학생입니다. 그는 박사과정 동안 Meta AI에서 연구원으로 4년 동안 일했습니다. 서울대학교에서 학사 학위를 받았습니다.

최근 그녀는 주로 언어 모델링, 검색 및 둘의 교차점에 중점을 두고 있습니다.

연설이 진행되는 동안 청중들은 왜 당황(perplexity)이 연설의 주요 지표로 사용되는지 등 많은 질문을 열성적으로 했습니다.

화자는 조심스럽게 대답했습니다.

매개변수화된 언어 모델을 비교할 때 perplexity(PPL)이 자주 사용됩니다. 그러나 복잡성의 개선이 다운스트림 애플리케이션으로 전환될 수 있는지 여부는 여전히 연구 문제로 남아 있습니다.

이제 연구 결과에 따르면 Perplexity는 다운스트림 작업 (특히 생성 작업) 과 잘 연관되어 있으며 Perplexity는 종종 매우 안정적인 결과를 제공하며 대규모 평가 데이터로 평가할 수 있습니다 (평가 데이터는 다운스트림 작업에 비해 라벨이 지정되지 않음) , 큐 민감도 및 대규모 레이블 데이터 부족으로 인해 영향을 받아 불안정한 결과가 발생할 수 있음) .

일부 네티즌들이 이 질문을 제기했습니다:

"언어 모델의 훈련 비용이 높으며 검색을 도입하면 이 문제가 해결될 수 있습니다"라는 진술에 대해 시간 복잡도를 공간으로 바꾸면 됩니다. 복잡성 (데이터 저장) ?

Chen Danqi의 ACL 학술 보고서가 나왔습니다! 대형 모델 플러그인 데이터베이스의 7가지 주요 방향과 3가지 주요 과제에 대한 자세한 설명, 유용한 정보가 가득한 3시간

화자의 답변은 Jiang 이모님의 답변입니다.

우리 토론의 초점은 언어 모델을 더 작은 크기로 줄여 시간과 공간 요구 사항을 줄이는 방법입니다. 그러나 데이터 저장은 실제로 추가 오버헤드를 추가하므로 신중하게 평가하고 연구해야 하며 이것이 현재의 과제라고 믿습니다.

100억 개가 넘는 매개변수를 가진 언어 모델을 훈련시키는 것에 비해, 지금 가장 중요한 것은 훈련 비용을 줄이는 것이라고 생각합니다.

이 연설의 PPT를 찾거나 특정 재생을 보려면 공식 웹사이트로 이동하세요~

공식 웹사이트: https://acl2023-retrieval- lm.github.io /

위 내용은 Chen Danqi의 ACL 학술 보고서가 나왔습니다! 대형 모델 '플러그인' 데이터베이스의 7가지 주요 방향과 3가지 주요 과제에 대한 자세한 설명, 유용한 정보가 가득한 3시간의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!