GPT-4를 통해 로봇은 펜을 돌리고 호두를 접시에 담는 방법을 배웠습니다.-일체 포함-php.cn

학습 측면에서 GPT-4는 훌륭한 학생입니다. 방대한 양의 인간 데이터를 소화한 뒤 다양한 지식을 터득했고, 대화 중에 수학자 테렌스 타오에게 영감을 줄 수도 있다.

동시에 책 지식을 가르치는 것뿐만 아니라 로봇에게 펜 돌리는 법을 가르치는 훌륭한 교사가 되었습니다.

GPT-4를 통해 로봇은 펜을 돌리고 호두를 접시에 담는 방법을 배웠습니다.

이 로봇은 유레카라고 불리며 NVIDIA, 펜실베니아 대학교, 캘리포니아 공과대학, 오스틴 텍사스 대학교의 연구 결과입니다. 이 연구는 대규모 언어 모델에 대한 연구와 강화 학습을 결합합니다. GPT-4는 보상 기능을 개선하는 데 사용되고 강화 학습은 로봇 컨트롤러를 훈련하는 데 사용됩니다.

GPT-4에서 코드를 작성할 수 있는 능력을 갖춘 Eureka는 83%의 작업에서 독립적으로 생성된 보상이 인간 전문가보다 우수합니다. 이 능력을 통해 로봇은 펜 돌리기, 서랍과 캐비닛 열기, 공 던지고 받기, 드리블, 가위 조작 등 이전에는 쉽지 않았던 많은 작업을 로봇이 완료할 수 있게 되었습니다. 그러나 이 모든 작업은 당분간 가상 환경에서 이루어집니다.

GPT-4를 통해 로봇은 펜을 돌리고 호두를 접시에 담는 방법을 배웠습니다.

또한 Eureka는 인간 운영자의 자연어 피드백을 통합하여 보상 기능을 안내하고 정렬할 수 있는 새로운 유형의 컨텍스트 내 RLHF를 구현합니다. 로봇 엔지니어에게 강력한 보조 기능을 제공하고 엔지니어가 복잡한 동작 동작을 설계하는 데 도움을 줄 수 있습니다. NVIDIA의 수석 AI 과학자이자 논문 저자 중 한 명인 Jim Fan은 이 연구를 "물리 시뮬레이터 API 공간의 Voyager(미국이 개발하고 제작한 외부 은하 우주 탐사선)"에 비유했습니다.

GPT-4를 통해 로봇은 펜을 돌리고 호두를 접시에 담는 방법을 배웠습니다.

이 연구가 완전히 오픈 소스라는 점을 언급할 가치가 있습니다. 오픈 소스 주소는 다음과 같습니다:

GPT-4를 통해 로봇은 펜을 돌리고 호두를 접시에 담는 방법을 배웠습니다.

논문 링크: https://arxiv.org/pdf/2310.12931 .pdf
프로젝트 링크: https://eureka-research.github.io/
코드 링크: https://github.com/eureka-research/Eureka

Paper 개요

대형 언어 모델(LLM)은 로봇 작업(예: Google의 SayCan, RT-2 로봇)에 대한 높은 수준의 의미 체계 계획에 탁월하지만 펜과 같은 복잡한 낮은 수준의 조작 작업을 배우는 데 사용할 수 있나요? -선회, 아직 공개 질문입니다. 기존 시도에는 작업 프롬프트를 구성하거나 간단한 기술만 배우기 위해 광범위한 도메인 전문 지식이 필요하므로 인간 수준의 유연성에는 훨씬 부족합니다.

GPT-4를 통해 로봇은 펜을 돌리고 호두를 접시에 담는 방법을 배웠습니다.

Google의 RT-2 로봇.

반면 강화 학습(RL)은 유연성과 기타 여러 측면(예: OpenAI의 Rubik의 큐브 플레이 로봇 손)에서 인상적인 결과를 얻었지만 인간 설계자는 보상 기능을 신중하게 구성해야 합니다. 원하는 행동에 대한 신호를 학습합니다. 많은 실제 강화 학습 작업은 학습에 사용하기 어려운 희박한 보상만 제공하므로 실제로 점진적인 학습 신호를 제공하려면 보상 형성이 필요합니다. 그 중요성에도 불구하고 보상 기능은 설계하기가 매우 어렵습니다. 최근 조사에 따르면 강화 학습 연구자 및 실무자의 92%가 보상을 설계할 때 수동 시행착오를 사용했다고 답했으며, 89%는 차선책으로 의도하지 않은 행동을 초래하는 보상을 설계했다고 답했습니다.

보상 디자인이 매우 중요하다는 점에서 우리는 묻지 않을 수 없습니다. 최첨단 코딩 LLM(예: GPT-4)을 사용하여 일반적인 보상 프로그래밍 알고리즘을 개발하는 것이 가능합니까? 이러한 LLM은 코드 작성, 제로샷 생성 및 상황 내 학습에서 탁월한 성능을 발휘하며 프로그래밍 에이전트의 성능을 크게 향상시켰습니다. 이상적으로 이러한 보상 설계 알고리즘은 인간 수준의 보상 생성 기능을 갖추고 광범위한 작업으로 확장 가능하며 인간 감독 없이 지루한 시행착오 프로세스를 자동화하는 동시에 인간 감독과 호환되어 안전과 일관성을 보장해야 합니다. .

본 논문은 LLM이 주도하는 보상 설계 알고리즘 EUREKA(풀네임은 Evolution-driven Universal REward Kit for Agent)를 제안합니다. 알고리즘은 다음과 같은 성과를 달성했습니다.

1. 보상 디자인의 성능은 10가지 로봇 형태(4족 로봇, 쿼드콥터 로봇, 이족 보행 로봇, 조작기 및 여러 로봇)를 포함하여 29가지 오픈 소스 RL 환경에서 인간 수준에 도달했습니다. 그림 1을 참조하세요. 작업별 프롬프트나 보상 템플릿이 없으면 EUREKA의 자동 생성 보상은 작업의 83%에서 인간 전문가 보상을 능가했으며 52%의 평균 정규화 개선을 달성했습니다.

GPT-4를 통해 로봇은 펜을 돌리고 호두를 접시에 담는 방법을 배웠습니다.

이전에는 수동 보상 엔지니어링을 통해 달성할 수 없었던 손재주 작업.이 경우 펜 회전 문제를 예로 들어 보겠습니다. 손은 미리 설정된 회전 구성에 따라 펜을 빠르게 회전해야 합니다. 연구진은 EUREKA를 코스 학습과 결합하여 시뮬레이션된 의인화 "Shadow Hand"에서 처음으로 빠른 펜 회전 작동을 시연했습니다(그림 1 하단 참조). 3. 다양한 형태의 인간 입력을 기반으로 보다 효율적이고 인간에 맞춰진 이미지를 생성할 수 있는 인간 피드백 기반 강화 학습을 위한 새로운 그라데이션 없는 컨텍스트 학습 방법을 제공합니다. 마찬가지로, 연구원들은 인간 텍스트 피드백을 사용하여 보상 기능을 설계하는 데 도움을 주는 EUREKA의 능력을 보여줍니다.

LLM 지원을 사용한 이전 L2R 작업과 달리. 보상 디자인에는 특정 작업 프롬프트, 보상 템플릿 및 소수의 예제가 없습니다. 실험에서 EUREKA는 자유 형식의 표현형 보상 프로그램을 생성하고 개선하는 능력의 이점을 활용하여

EUREKA의 다용성은 컨텍스트로서의 환경, 진화적 검색 및 보상 반영의 세 가지 주요 알고리즘 설계 선택에서 이점을 얻습니다.

먼저, EUREKA는 LLM(GPT-4)을 인코딩하는 백본의 제로 샘플에서 실행 가능한 보상 함수를 생성할 수 있습니다. 그런 다음 EUREKA는 진화적인 검색을 수행하여 반복적으로 보상 후보 배치를 제안하고 LLM 컨텍스트 창 내에서 가장 유망한 보상을 구체화하여 이러한 컨텍스트 내 개선을 달성합니다. 정책 훈련 통계를 기반으로 보상 품질을 텍스트로 요약한 보상 반영을 통해 자동 및 타겟 보상 편집이 가능합니다.

그림 3은 EUREKA의 제로 샘플 보상과 누적된 다양한 개선 사항의 예입니다. 최적화 과정에서 EUREKA가 보상 검색을 최대한 확장할 수 있도록 하기 위해 IsaacGym에 EUREKA가 구현되어 중간 보상을 평가하는데 사용되며 이는 정책 학습에서 최대 3배의 향상을 제공합니다. 속도를 높여 EUREKA를 계산량이 증가함에 따라 자연스럽게 확장되는 광범위한 알고리즘으로 만듭니다.

그림 2와 같습니다. 연구원들은 LLM 기반 보상 설계에 대한 추가 연구를 촉진하기 위해 모든 프롬프트, 환경 및 생성된 보상 기능을 오픈 소스화하기 위해 최선을 다하고 있습니다. GPT-4를 통해 로봇은 펜을 돌리고 호두를 접시에 담는 방법을 배웠습니다.

GPT-4를 통해 로봇은 펜을 돌리고 호두를 접시에 담는 방법을 배웠습니다. 메서드 소개

EUREKA는 보상 알고리즘을 독립적으로 작성할 수 있으며 이를 구현하는 방법을 살펴보겠습니다.

EUREKA는 세 가지 알고리즘 구성 요소로 구성됩니다. 1) 실행 가능한 보상의 제로샷 생성을 지원하는 환경 2) 보상 후보를 반복적으로 제안하고 개선하는 진화적 검색 3) 세분화된 보상 개선 지원 .

환경을 맥락으로

이 글에서는 원본 환경 코드를 컨텍스트로 직접 제공하는 것을 권장합니다. 최소한의 지침만으로 EUREKA는 샘플이 전혀 없는 다양한 환경에서 보상을 생성할 수 있습니다. EUREKA 출력의 예가 그림 3에 나와 있습니다. EUREKA는 제공된 환경 코드 내에서 기존 관찰 변수(예: 손가락 끝 위치)를 전문적으로 결합하고 유효한 보상 코드를 생성합니다. 이 모든 작업은 환경별 힌트 엔지니어링이나 보상 템플릿 없이 수행됩니다.

그러나 생성된 보상은 첫 번째 시도에서 항상 실행 가능한 것은 아니며, 실행 가능하더라도 차선책일 수 있습니다. 이는 단일 샘플 보상 생성의 차선책을 효과적으로 극복하는 방법에 대한 질문을 제기합니다.

GPT-4를 통해 로봇은 펜을 돌리고 호두를 접시에 담는 방법을 배웠습니다.

진화 검색

그리고 논문에서는 위에서 언급한 차선책의 문제를 진화 검색이 어떻게 해결할 수 있는지 소개합니다. 이는 각 반복에서 EUREKA가 LLM의 여러 독립적인 출력(알고리즘 1의 라인 5)을 샘플링하는 방식으로 개선됩니다. 각 반복(세대)은 독립적이고 동일하게 분포되므로 샘플 수가 증가함에 따라 반복의 모든 보상 함수에서 오류가 발생할 확률은 기하급수적으로 감소합니다.

GPT-4를 통해 로봇은 펜을 돌리고 호두를 접시에 담는 방법을 배웠습니다.

Reward Reflection

이 기사에서는 정책 교육 역학을 텍스트로 요약하는 자동화된 피드백 구축을 제안합니다. 특히 EUREKA 보상 기능에는 보상 프로그램의 개별 구성 요소(예: 그림 3의 보상 구성 요소)가 필요하다는 점을 고려하여 훈련 프로세스 전반에 걸쳐 중간 정책 체크포인트에서 모든 보상 구성 요소의 스칼라 값을 추적합니다.

이 보상 반영 프로세스를 구축하는 것은 매우 간단하지만 보상 최적화 알고리즘의 종속성으로 인해 이 구축 방법은 매우 중요합니다. 즉, 보상 함수가 효율적인지 여부는 RL 알고리즘의 특정 선택에 영향을 받으며, 동일한 보상은 하이퍼파라미터의 차이로 인해 동일한 최적화 프로그램에서도 매우 다르게 동작할 수 있습니다. RL 알고리즘이 개별 보상 구성 요소를 최적화하는 방법을 자세히 설명함으로써 보상 반영을 통해 EUREKA는 보다 목표화된 보상 편집을 생성하고 고정 RL 알고리즘과 더 잘 시너지 효과를 발휘하는 보상 기능을 합성할 수 있습니다.

GPT-4를 통해 로봇은 펜을 돌리고 호두를 접시에 담는 방법을 배웠습니다.

Experiment

실험 부분에서는 보상 기능을 생성하는 능력, 새로운 작업을 해결하는 능력, 다양한 인간 입력을 통합하는 능력을 포함하여 Eureka에 대한 종합적인 평가를 수행합니다.

실험 환경에는 10개의 로봇과 29개의 작업이 포함되어 있으며, 이 중 29개의 작업은 IsaacGym 시뮬레이터로 구현됩니다. 실험은 IsaacGym(Isaac)의 9가지 원래 환경을 사용하여 수행되었으며, 4족 보행, 2족 보행, 쿼드콥터, 조작기 및 로봇의 능숙한 손의 다양한 로봇 형태를 포괄합니다. 이 외에도 이 논문은 Dexterity 벤치마크의 20개 작업을 포함하여 평가의 깊이를 보장합니다.

GPT-4를 통해 로봇은 펜을 돌리고 호두를 접시에 담는 방법을 배웠습니다.

Eureka는 초인적인 수준의 보상 기능을 생성할 수 있습니다. 29개 작업 전반에 걸쳐 Eureka가 제공하는 보상 기능은 83%의 작업에 대해 전문가가 작성한 보상보다 평균 52%의 개선으로 더 나은 성능을 보였습니다. 특히 Eureka는 고차원 Dexterity 벤치마크 환경에서 더 큰 이득을 얻었습니다.

GPT-4를 통해 로봇은 펜을 돌리고 호두를 접시에 담는 방법을 배웠습니다.

Eureka는 시간이 지남에 따라 보상이 계속 향상되도록 보상 검색을 발전시킬 수 있습니다. 대규모 보상 검색과 상세한 보상 반영 피드백을 결합하여 Eureka는 점차 더 나은 보상을 생성하며 결국 인간 수준을 뛰어 넘습니다.

GPT-4를 통해 로봇은 펜을 돌리고 호두를 접시에 담는 방법을 배웠습니다.

Eureka는 또한 새로운 보상을 생성합니다. 본 논문에서는 모든 Isaac 작업에 대해 유레카 보상과 인간 보상 간의 상관관계를 계산하여 유레카 보상의 참신성을 평가합니다. 그림에서 볼 수 있듯이 Eureka는 주로 약한 상관 보상 기능을 생성하며 이는 인간 보상 기능보다 성능이 뛰어납니다. 또한 작업이 어려울수록 유레카 보상의 관련성이 떨어지는 것으로 나타났습니다. 어떤 경우에는 유레카 보상이 인간 보상과 음의 상관관계를 보였지만 훨씬 더 나은 결과를 보였습니다.

GPT-4를 통해 로봇은 펜을 돌리고 호두를 접시에 담는 방법을 배웠습니다.

로봇의 능숙한 손이 펜을 계속 돌릴 수 있다는 것을 알고 싶다면 운영 프로그램에 가능한 한 많은 사이클이 있어야 합니다. 본 논문에서는 (1) 펜을 임의의 대상 구성으로 리디렉션하는 데 사용되는 보상 함수를 생성하도록 Eureka에 지시한 다음, (2) Eureka 보상을 사용하여 사전 훈련된 정책을 미세 조정하여 원하는 펜 시퀀스 회전을 달성함으로써 이 작업을 다룹니다. 구성. . 그림에서 볼 수 있듯이 유레카 스피너는 전략에 빠르게 적응하여 여러 사이클을 연속해서 성공적으로 회전했습니다. 이와 대조적으로, 사전 훈련되거나 처음부터 학습된 정책은 단일 순환 주기를 완료할 수 없습니다.

GPT-4를 통해 로봇은 펜을 돌리고 호두를 접시에 담는 방법을 배웠습니다.

본 논문에서는 유레카가 인간 보상 함수 초기화로 시작하는 것이 유익한지 여부도 조사합니다. 표시된 것처럼 Eureka는 품질에 관계없이 인간 보상을 개선하고 이점을 얻습니다.

GPT-4를 통해 로봇은 펜을 돌리고 호두를 접시에 담는 방법을 배웠습니다.

Eureka는 또한 인간의 피드백을 결합하여 보상을 수정할 수 있는 RLHF를 구현하여 점차적으로 에이전트가 보다 안전하고 인간과 유사한 행동을 완료하도록 안내합니다. 이 예는 Eureka가 이전의 자동 보상 반사를 대체하는 일부 인간 피드백을 사용하여 휴머노이드 로봇이 직립으로 달리도록 가르치는 방법을 보여줍니다.

GPT-4를 통해 로봇은 펜을 돌리고 호두를 접시에 담는 방법을 배웠습니다.