LeCun의 신작: 계층화된 세계 모델, 데이터 기반 휴머노이드 로봇 제어-일체 포함-php.cn

대형 모델을 지능의 축복으로 삼아 휴머노이드 로봇이 새로운 트렌드가 되었습니다.

SF영화 '내가 인간이 아닌 걸 알 수 있다' 속 로봇이 점점 가까워지는 것 같아요.

그러나 로봇, 특히 휴머노이드 로봇이 인간처럼 생각하고 행동하는 것은 여전히 어려운 공학적 문제입니다.

걷기에 대한 간단한 학습을 예로 들면 강화 학습을 사용하여 훈련하는 것은 다음과 같이 발전할 수 있습니다.

LeCun의 신작: 계층화된 세계 모델, 데이터 기반 휴머노이드 로봇 제어

이론적으로는 문제가 없으며(보상 메커니즘을 따르면) 목표는 다음과 같습니다. 프로세스가 상대적으로 추상적이라는 점을 제외하면 대부분의 인간 행동 패턴과 동일하지 않을 수 있습니다.

로봇이 인간처럼 '자연스럽게' 행동하기 어려운 이유는 관찰 및 행동 공간의 고차원적 특성과 직립보행 형태의 본질적인 불안정성 때문입니다.

이런 점에서 르쿤이 참여한 작품은 데이터 기반의 새로운 솔루션을 제시했습니다.

LeCun의 신작: 계층화된 세계 모델, 데이터 기반 휴머노이드 로봇 제어

논문 주소: https://arxiv.org/pdf/2405.18418

프로젝트 소개: https://nicklashansen.com/rlpuppeteer

효능 먼저 살펴보겠습니다:

LeCun의 신작: 계층화된 세계 모델, 데이터 기반 휴머노이드 로봇 제어

오른쪽의 효과를 비교하면, 새로운 방법은 약간 "좀비"라는 의미를 가지고 있지만 적어도 기능 내에서는 추상화 수준이 많이 감소하여 인간에 더 가까운 행동을 훈련했습니다. 대부분의 인간의.

물론, 문제를 일으키기 위해 찾아온 일부 네티즌들은 "전 것이 더 재미있어 보였다"고 말했다.

LeCun의 신작: 계층화된 세계 모델, 데이터 기반 휴머노이드 로봇 제어

이 연구에서 연구자들은 단순화된 가정, 보상 설계 또는 기술 기본 요소 없이 강화 학습을 기반으로 고도로 데이터 기반의 시각적 전신 인간형 제어 접근 방식을 탐색합니다.

저자는 상위 수준과 하위 수준의 두 에이전트를 훈련하기 위한 계층적 세계 모델을 제안했습니다. 상위 수준 에이전트는 하위 수준 에이전트가 실행할 시각적 관찰을 기반으로 명령을 생성합니다.

LeCun의 신작: 계층화된 세계 모델, 데이터 기반 휴머노이드 로봇 제어

오픈 소스 코드: https://github.com/nicklashansen/puppeteer

Puppeteer라는 이 모델은 시뮬레이션된 56-DoF 휴머노이드 로봇을 활용하여 8가지 작업에서 높은 성능을 생성합니다. 성능 제어 전략 인간과 같은 자연스러운 움직임과 까다로운 지형을 횡단하는 능력을 종합합니다.

LeCun의 신작: 계층화된 세계 모델, 데이터 기반 휴머노이드 로봇 제어

고차원 제어 계층 세계 모델

실제 세계에서 범용 에이전트를 학습하고 훈련시키는 것은 항상 AI 분야 연구 목표 중 하나였습니다.

휴머노이드 로봇은 전신 제어와 인식을 통합해 다양한 작업을 수행할 수 있어 다기능 플랫폼으로 두각을 나타내고 있다.

하지만 우리와 같은 발달한 동물을 모방하는 데 드는 비용은 여전히 매우 높습니다.

예를 들어, 아래 그림에서 휴머노이드 로봇은 구덩이에 발을 들여놓지 않기 위해 다가오는 바닥 틈의 위치와 길이를 정확하게 감지하는 동시에 몸 전체의 움직임을 세심하게 조정해야 합니다. 각 간격을 넘을 수 있는 충분한 추진력과 범위가 있습니다.

LeCun의 신작: 계층화된 세계 모델, 데이터 기반 휴머노이드 로봇 제어

Puppeteer는 2022년 LeCun이 제안한 계층적 JEPA 세계 모델을 기반으로 한 데이터 기반 RL 방법입니다.

LeCun의 신작: 계층화된 세계 모델, 데이터 기반 휴머노이드 로봇 제어

두 가지 에이전트로 구성됩니다. 하나는 인식 및 추적을 담당하고, 공동 수준 제어를 통해 참조 동작을 추적하고, 다른 하나는 저차원 참조 동작을 합성하여 다운스트림 작업을 수행하는 방법을 학습합니다. 이전 추적 지원.

Puppeteer는 모델 기반 RL 알고리즘인 TD-MPC2를 사용하여 서로 다른 두 단계에서 두 에이전트를 독립적으로 훈련합니다.

(ps: 이 TD-MPC2는 기사 초반에 비교용으로 사용한 애니메이션 사진입니다. 다소 추상적인 것 같지만 사실 올해 ICLR에 게재된 이전 SOTA이며, 첫 작품은 또한 이 기사의 첫 번째 작업입니다.)

LeCun의 신작: 계층화된 세계 모델, 데이터 기반 휴머노이드 로봇 제어

첫 번째 단계에서는 추적을 위한 세계 모델이 먼저 사전 훈련되어 기존의 인간 모션 캡처 데이터를 참조로 사용하여 모션을 물리적으로 실행 가능한 동작으로 변환합니다. . 이 에이전트는 저장되어 모든 다운스트림 작업에서 재사용될 수 있습니다.

두 번째 단계에서는 시각적 관찰을 입력으로 받아들이고 지정된 다운스트림 작업에 따라 다른 에이전트가 제공한 참조 모션을 출력으로 통합하는 인형 세계 모델이 훈련됩니다.

이 프레임워크는 매우 간단해 보입니다. 두 세계 모델은 알고리즘적으로 동일하고 입력/출력만 다르며 다른 추가 기능 없이 RL을 사용하여 학습됩니다.

기존의 계층적 RL 설정과 달리 "Puppet"은 타겟의 임베딩이 아닌 엔드 이펙터 관절의 기하학적 위치를 출력합니다.

이를 통해 추적을 담당하는 에이전트가 작업 간 공유 및 일반화를 쉽게 만들어 전체 컴퓨팅 공간을 절약할 수 있습니다.

연구 방법

연구원들은 튜플(S, A, T, R, γ)을 기반으로 하는 마르코프 결정 프로세스(MDP)에 의해 제어되는 강화 학습 문제로 시각적 전신 인간형 제어를 모델링했습니다. , Δ)는 특징이며,

여기서 S는 상태, A는 동작, T는 환경 전환 함수, R은 스칼라 보상 함수, γ는 할인 요소, Δ는 종료 조건입니다.

LeCun의 신작: 계층화된 세계 모델, 데이터 기반 휴머노이드 로봇 제어

위 그림에서 볼 수 있듯이 연구원들은 RL을 사용하여 인간 MoCap 데이터에 대한 추적 에이전트를 사전 훈련시켰습니다. 이 데이터는 고유 감각 정보와 추상적인 참조 동작 입력을 얻고 낮은 수준의 동작을 합성하는 데 사용되었습니다. 참조 동작을 추적합니다.

그런 다음 온라인 상호 작용을 통해 다운스트림 작업을 담당하는 고급 인형 에이전트가 훈련됩니다. 인형은 추적 에이전트가 실행할 명령을 입력하고 출력합니다.

TD-MPC2

TD-MPC2는 환경 상호 작용으로부터 잠재 디코더가 없는 세계 모델을 학습하고 학습된 모델을 계획에 사용합니다.

LeCun의 신작: 계층화된 세계 모델, 데이터 기반 휴머노이드 로봇 제어

세계 모델의 모든 구성 요소는 원래 관찰을 디코딩하지 않고 공동 임베딩 예측, 보상 예측 및 시간적 차이 손실의 조합을 사용하여 엔드 투 엔드로 학습됩니다.

추론 중에 TD-MPC2는 MPPI(모델 예측 경로 적분)를 로컬 궤적 최적화를 위한 파생 없는(샘플링 기반) 최적화 도구로 사용하여 MPC(모델 예측 제어) 프레임워크를 따릅니다.

계획 속도를 높이기 위해 TD-MPC2는 샘플링 프로그램을 사전 시작하기 위해 모델 없는 전략도 미리 학습합니다.

두 에이전트는 모두 알고리즘이 동일하며 둘 다 다음 6가지 구성 요소로 구성됩니다.

LeCun의 신작: 계층화된 세계 모델, 데이터 기반 휴머노이드 로봇 제어

실험

방법의 효율성을 평가하기 위해 연구원들은 새로운 방법을 제안했습니다. 작업 모음은 시뮬레이션된 56을 사용합니다. -시각적 전신 제어를 위한 자유도 휴머노이드 로봇. 비교에 사용된 방법에는 SAC, DreamerV3 및 TD-MPC2가 포함됩니다.

아래 그림에는 시각 조건 전신 움직임 작업 5개와 시각적 입력이 없는 작업 3개를 포함한 8개 작업이 나와 있습니다.

LeCun의 신작: 계층화된 세계 모델, 데이터 기반 휴머노이드 로봇 제어

퀘스트는 무작위성이 높게 설계되었으며 복도 달리기, 장애물과 틈 뛰어넘기, 계단 오르기, 벽 돌아다니기 등이 포함됩니다.

5가지 시각적 제어 작업은 모두 선형 전진 속도에 비례하는 보상 기능을 사용하는 반면, 비시각적 작업은 모든 방향의 변위를 보상합니다.

LeCun의 신작: 계층화된 세계 모델, 데이터 기반 휴머노이드 로봇 제어

위 그림은 학습 곡선을 나타냅니다. 결과는 SAC와 DreamerV3가 이러한 작업에서 의미 있는 성능을 달성할 수 없음을 보여줍니다.

TD-MPC2는 보상 측면에서 우리의 방법과 동등하게 수행되지만 부자연스러운 동작을 생성합니다(아래 이미지의 추상 동작 참조).

LeCun의 신작: 계층화된 세계 모델, 데이터 기반 휴머노이드 로봇 제어

또한, Puppeteer가 생성하는 움직임이 실제로 더 "자연스럽다"는 것을 증명하기 위해 이 기사에서는 인간 선호도 실험도 수행했습니다. 46명의 참가자를 대상으로 한 테스트에서는 인간이 일반적으로 좋아하는 것으로 나타났습니다. 이 방법으로 생성된 움직임.

위 내용은 LeCun의 신작: 계층화된 세계 모델, 데이터 기반 휴머노이드 로봇 제어의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!