다양한 데이터 세트에 대한 자기 지도 학습을 기반으로 사전 훈련된 기본 모델은 지식을 다양한 다운스트림 작업으로 전달하는 탁월한 능력을 보여주었습니다. 결과적으로 이러한 모델은 장기적인 추론, 제어, 검색 및 계획과 같은 보다 복잡한 문제에도 적용되거나 대화, 자율 주행, 의료 및 로봇공학과 같은 애플리케이션에 배포됩니다. 미래에는 외부 엔터티와 에이전트에 대한 인터페이스도 제공할 것입니다. 예를 들어, 대화형 애플리케이션에서 언어 모델은 로봇 공학 분야에서 사람들과 여러 차례의 의사소통을 수행하고, 인식 제어 모델은 실제 환경에서 작업을 수행합니다.
이러한 시나리오는 1) 외부 엔터티의 피드백(예: 대화 품질에 대한 인간 평가)으로부터 학습하는 방법, 2) 대규모 언어 또는 시각적 데이터 세트에 적응하는 방법을 포함하여 기본 모델에 새로운 과제를 제기합니다. 일반적인 양식이 아닌 것(예: 로봇 동작), 3) 미래에 대한 장기적인 추론과 계획 방법.
이러한 문제는 강화 학습, 모방 학습, 계획, 검색 및 최적 제어와 같은 영역을 포괄하는 전통적인 의미의 순차적 의사 결정의 핵심이었습니다. 수십억 개의 이미지 및 텍스트 토큰으로 구성된 광범위한 데이터 세트를 사용하여 기본 모델이 사전 훈련되는 패러다임과 달리, 순차적 의사 결정에 대한 이전 작업은 주로 사전 지식이 제한된 작업별 또는 화이트보드 설정에 중점을 두었습니다.
사전 지식이 부족하거나 전혀 없어 순차적 의사결정이 어려워 보이지만, 순차적 의사결정에 대한 연구는 보드 게임, 아타리 비디오 게임, 로봇을 작동하여 탐색 및 작업 완료 등 다양한 작업에서 인간의 성능을 능가했습니다. 운영 등
그러나 이러한 방법은 비전, 언어 또는 기타 데이터 세트에 대한 광범위한 지식 없이 처음부터 작업을 해결하는 방법을 학습하기 때문에 일반화 및 샘플링 효율성 측면에서 성능이 떨어지는 경우가 많습니다. 예를 들어 하루 동안 실행하려면 7개의 GPU가 필요합니다. 아타리 게임. 직관적으로 기본 모델에서 사용되는 것과 유사한 광범위한 데이터 세트는 순차적 의사결정 모델에도 유용합니다. 예를 들어, Atari 게임을 플레이하는 방법에 대한 수많은 기사와 비디오가 인터넷에 있습니다. 물체와 장면 속성에 대한 광범위한 지식이 로봇에 유용한 것과 마찬가지로 인간의 욕구와 감정에 대한 지식은 대화 모델을 향상시킬 수 있습니다.
기본 모델과 순차적 의사결정에 대한 연구는 일반적으로 다양한 응용 분야와 관심사로 인해 분리되어 있지만 교차하는 연구가 점점 더 많아지고 있습니다. 기본 모델 측면에서 대규모 언어 모델의 출현으로 대상 응용 프로그램은 단순한 제로 샷 또는 소수 샷 작업에서 이제 장기적인 추론이나 다중 상호 작용이 필요한 문제로 확장되었습니다. 이와 대조적으로, 순차적 의사결정 분야에서는 대규모 비전 및 언어 모델의 성공에 영감을 받아 연구자들이 다중 모델, 다중 작업 및 일반 대화형 에이전트를 학습하기 위해 점점 더 큰 데이터 세트를 준비하기 시작했습니다.
두 분야 사이의 경계가 점점 흐려지고 있으며, 최근 일부 작업에서는 시각적 환경에서 부트스트랩 대화형 에이전트 교육을 위해 사전 교육된 기본 모델(예: CLIP 및 ViT)을 조사하는 반면 다른 작업에서는 기본 모델이 연구되고 있습니다. 강화 학습과 인간 피드백을 통해 최적화된 대화형 에이전트입니다. 검색 엔진, 계산기, 번역 도구, MuJoCo 시뮬레이터 및 프로그램 해석기와 같은 외부 도구와 상호 작용할 수 있도록 대규모 언어 모델을 적용하는 작업도 진행 중입니다.
최근 Google Brain팀, UC Berkeley, MIT 연구진은 기본 모델과 대화형 의사결정 연구의 결합이 서로에게 도움이 될 것이라고 썼습니다. 한편으로는 외부 엔터티와 관련된 작업에 기본 모델을 적용하면 대화형 피드백과 장기 계획의 이점을 얻을 수 있습니다. 반면에 순차적 의사결정은 기본 모델에 대한 세계적 지식을 활용하여 작업을 더 빠르게 해결하고 더 효과적으로 일반화할 수 있습니다. 이 두 분야의 교차점에서 추가 연구를 촉진하기 위해 연구자들은 의사 결정을 위한 기본 모델의 문제 공간을 제한했습니다. 또한 현재 연구를 이해하기 위한 기술 도구를 제공하고, 현재 과제와 해결되지 않은 질문을 검토하며, 이러한 과제를 해결하기 위한 잠재적 솔루션과 유망한 접근 방식을 예측합니다.
논문은 주로 다음과 같은 5개의 주요 장으로 구성됩니다.
2장에서는 순차적 의사결정과 관련된 배경을 검토하고 기본 모델과 의사결정이 함께 가장 잘 고려되는 몇 가지 예시 시나리오를 제공합니다. 그 다음에는 의사결정 시스템의 다양한 구성요소가 기본 모델을 중심으로 구축되는 방식에 대한 설명이 이어집니다.
3장에서는 기본 모델이 어떻게 행동의 생성 모델(예: 기술 발견) 및 환경의 생성 모델(예: 모델 기반 추론 수행) 역할을 하는지 살펴봅니다.
4장에서는 기본 모델이 어떻게 상태, 행동, 보상 및 전달 역학(예: 플러그 앤 플레이 비전 언어 모델, 모델 기반 표현 학습)에 대한 표현 학습자 역할을 하는지 살펴봅니다.
5장에서는 언어 기반 모델이 대화형 에이전트 및 환경 역할을 하여 순차적인 의사 결정 프레임워크(언어 모델 추론, 대화, 도구 사용) 내에서 새로운 문제와 응용 프로그램을 고려할 수 있는 방법을 탐구합니다.
마지막 장에서 연구자는 해결되지 않은 문제와 과제를 개괄적으로 설명하고 잠재적인 해결책(다양한 데이터를 어떻게 활용하는지, 환경을 어떻게 구축하는지, 기본 모델과 순차적 모델은 무엇인지 등)을 제시합니다. 의사결정 측면이 개선될 수 있습니다).
자세한 내용은 원문을 참고해주세요.
위 내용은 순차적 의사결정과 기본 모델은 어떻게 교차하고 상호작용합니까? Google, Berkeley 등은 더 많은 가능성을 탐구합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!