Google Deepmind는 로봇을 재창조하여 대규모 모델에 지능을 구현하는 미래를 구상합니다.-일체 포함-php.cn

지난해 잇따른 대형 모델이 로봇공학 연구 분야를 재편하는 획기적인 발전을 이루었습니다.

가장 발전된 대형 모델이 로봇의 '두뇌'가 되면서 로봇은 상상보다 빠르게 진화하고 있습니다.

7월 Google DeepMind는 로봇을 제어하기 위한 세계 최초의 VLA(비전-언어-동작) 모델인 RT-2 출시를 발표했습니다.

대화처럼 명령만 내리면 여러 장의 사진 속에서 스위프트를 식별해 그녀에게 "행복한 물" 한 병을 줄 수 있습니다.

Google Deepmind는 로봇을 재창조하여 대규모 모델에 지능을 구현하는 미래를 구상합니다.

'멸종할 동물 선택'부터 테이블 위의 플라스틱 공룡 잡기까지 다단계 추론 도약을 완성하는 등 적극적으로 생각할 수도 있습니다.

Google Deepmind는 로봇을 재창조하여 대규모 모델에 지능을 구현하는 미래를 구상합니다.

RT-2 이후 Google DeepMind는 Q-Transformer를 제안했고, 로봇계에도 자체 Transformer가 있습니다. Q-Transformer를 사용하면 로봇은 고품질 데모 데이터에 대한 의존성을 극복하고 독립적인 "사고"에 의존하여 경험을 축적하는 데 더 능숙해질 수 있습니다.

출시 후 불과 두 달 만에 RT-2는 로봇을 위한 또 다른 ImageNet 순간을 맞이하고 있습니다. Google DeepMind 및 기타 기관은 Open new ideas를 시작했습니다.

로봇 조수에게 "집 청소" 또는 "맛있고 건강한 식사 요리"와 같은 간단한 요청만 하면 이러한 작업을 완료할 수 있다고 상상해 보세요. 인간에게는 이러한 작업이 간단할 수 있지만 로봇에게는 세상에 대한 깊은 이해가 필요하므로 쉽지 않습니다.

로봇 트랜스포머 분야의 다년간의 연구를 바탕으로 Google은 최근 로봇이 더 빠르게 결정을 내리고 로봇을 더 잘 이해하도록 도울 수 있는 AutoRT, SARA-RT 및 RT-Trajectory라는 일련의 로봇 연구 진행 상황을 발표했습니다. 작업을 완료하도록 더 잘 안내할 수 있습니다.

Google은 AutoRT, SARA-RT, RT-Trajectory와 같은 연구 결과의 출시를 통해 실제 로봇의 데이터 수집, 속도 및 일반화 기능을 향상시킬 수 있다고 믿습니다.

다음으로 중요한 연구를 검토해 보겠습니다.

AutoRT: 대형 모델을 사용하여 로봇 교육 향상

AutoRT는 대형 기본 모델(예: 대형 언어 모델(LLM) 또는 시각적 언어 모델(VLM))과 로봇 제어 모델(RT-1 또는 RT-2)을 결합합니다. , 훈련 데이터를 수집하기 위해 새로운 환경에 로봇을 배치할 수 있는 시스템을 구축합니다. AutoRT는 비디오 카메라와 엔드 이펙터가 장착된 여러 로봇을 동시에 안내하여 다양한 환경에서 다양한 작업을 수행할 수 있습니다.

구체적으로 각 로봇은 AutoRT를 기반으로 시각적 언어 모델(VLM)을 사용하여 "주변을 둘러보고" 시야 내에 있는 환경과 물체를 이해합니다. 다음으로, 대형 언어 모델은 "테이블 위에 간식을 올려 놓기"와 같은 일련의 창의적인 작업을 제안하고 로봇이 수행할 작업을 선택하는 의사 결정자 역할을 합니다.

연구원들은 실제 세계에서 AutoRT에 대한 광범위한 7개월 평가를 실시했습니다. 실험을 통해 AutoRT 시스템은 동시에 최대 20개의 로봇, 최대 총 52개의 로봇을 안전하게 조정할 수 있다는 것이 입증되었습니다. 연구원들은 다양한 사무실 건물 내에서 다양한 작업을 수행하도록 로봇을 안내함으로써 6,650개의 고유한 작업과 함께 77,000개의 로봇 실험에 걸친 다양한 데이터 세트를 수집했습니다.

Google Deepmind는 로봇을 재창조하여 대규모 모델에 지능을 구현하는 미래를 구상합니다.

위 그림은 AutoRT 시스템의 작동 과정을 보여줍니다. (1) 자율주행 바퀴 로봇이 여러 물체가 있는 위치를 찾습니다. (2) VLM은 LLM에 장면과 객체를 설명합니다. (3) LLM은 로봇에 대한 다양한 작동 작업을 제안하고 로봇이 독립적으로 완료할 수 있는 작업, 사람의 원격 제어가 필요한 작업, 완료할 수 없는 작업을 결정한 후 선택합니다. (4) 로봇은 수행할 작업을 선택하고 실험 데이터를 수집하며 데이터의 다양성과 신선도를 평가합니다. 로봇은 이 과정을 계속 반복합니다.

AutoRT는 로봇이 실제 응용 프로그램에서 인간의 지시를 이해하는 데 중요한 대규모 기본 모델을 활용할 수 있는 잠재력을 가지고 있습니다. AutoRT는 보다 포괄적인 실험 훈련 데이터와 보다 다양한 데이터를 수집함으로써 로봇의 학습 능력을 확장하고 실제 로봇 훈련을 향상시킬 수 있습니다.

로봇이 우리 일상생활에 들어오기 위해서는 로봇의 안전이 보장되어야 하며, 이를 위해서는 연구자들이 로봇의 안전에 대해 책임감 있는 개발과 심층적인 연구를 수행해야 합니다.

AutoRT는 지금은 단순한 데이터 수집 시스템이지만, 현실 세계의 자율 로봇의 초기 단계라고 생각하세요. 여기에는 안전 가드 레일이 포함되어 있으며, 그 중 하나는 로봇이 LLM 기반 결정을 내릴 때 따라야 할 기본 규칙을 제공하는 안전 중심 프롬프트 단어 세트입니다.

이 규칙은 부분적으로 아이작 아시모프(Isaac Asimov)의 로봇 공학의 3가지 법칙에서 영감을 얻었으며, 그 중 가장 중요한 것은 로봇이 "인간에게 해를 끼치면 안 된다"는 것입니다. 안전 규칙은 또한 로봇이 인간, 동물, 날카로운 물체 또는 전기 제품과 관련된 작업을 시도하지 않도록 요구합니다.

단지 프롬프트에 따라 작업하는 것만으로는 실제 로봇 적용 시의 안전 문제를 완전히 보장할 수 없습니다. 따라서 AutoRT 시스템에는 로봇 공학의 고전적인 설계인 실용적인 안전 조치 계층도 포함되어 있습니다. 예를 들어 협동 로봇은 관절에 가해지는 힘이 주어진 임계값을 초과하면 자동으로 멈추도록 프로그래밍되어 있으며 모든 자율 제어 로봇은 물리적 비활성화 스위치를 통해 인간 감독자의 시야로 제한될 수 있습니다.

SARA-RT: 로봇 변압기(RT)를 더 빠르고 날씬하게 만듭니다.

또 다른 성과인 SARA-RT는 로봇 변압기(RT) 모델을 보다 효율적인 버전으로 변환할 수 있습니다.

Google 팀이 개발한 RT 신경망 아키텍처는 RT-2 모델을 포함한 최신 로봇 제어 시스템에 사용되었습니다. 최고의 SARA-RT-2 모델은 간략한 이미지 기록이 주어졌을 때 RT-2 모델보다 10.6% 더 정확하고 14% 더 빠릅니다. Google은 이것이 품질 저하 없이 컴퓨팅 성능을 높이는 최초의 확장 가능한 주의 메커니즘이라고 말합니다.

Transformers는 강력하지만 계산 요구 사항에 따라 제한되어 의사 결정 속도가 느려질 수 있습니다. Transformer는 주로 2차 복잡도의 주의 모듈에 의존합니다. 이는 RT 모델에 대한 입력이 두 배로 증가하면(예: 로봇에 더 많거나 더 높은 해상도의 센서 제공) 해당 입력을 처리하는 데 필요한 계산 리소스가 4배 증가하여 의사 결정 속도가 느려진다는 것을 의미합니다.

SARA-RT는 모델의 효율성을 향상시키기 위해 새로운 모델 미세 조정 방법("업 트레이닝"이라고 함)을 채택합니다. 업트레이닝은 2차 복잡성을 순수 선형 복잡성으로 변환하여 계산 요구 사항을 크게 줄입니다. 이러한 변환은 원본 모델의 속도를 향상시킬 뿐만 아니라 품질도 유지합니다.

Google은 많은 연구자와 실무자가 이 실용적인 시스템을 로봇공학 및 기타 분야에 적용하기를 바랍니다. SARA는 계산 비용이 많이 드는 사전 학습 없이 Transformer의 속도를 높이는 일반적인 방법을 제공하므로 이 접근 방식은 Transformer 기술을 대규모로 확장할 수 있는 잠재력을 가지고 있습니다. SARA-RT는 다양한 오픈 소스 선형 변형을 사용할 수 있으므로 추가 코딩이 필요하지 않습니다.

수십억 개의 매개변수가 있는 SOTA RT-2 모델에 SARA-RT를 적용하면 다양한 로봇 작업에서 더 빠른 의사 결정과 더 나은 성능이 가능해집니다.

Google Deepmind는 로봇을 재창조하여 대규모 모델에 지능을 구현하는 미래를 구상합니다.

^{조작용 SARA-RT-2 임무의 모델. 로봇의 움직임은 이미지와 텍스트 지침에 따라 결정됩니다.}

SARA-RT는 탄탄한 이론적 기반을 바탕으로 다양한 Transformer 모델에 적용할 수 있습니다. 예를 들어, 로봇 깊이 카메라의 공간 데이터를 처리하는 포인트 클라우드 Transformer에 SARA-RT를 적용하면 속도가 두 배 이상 향상될 수 있습니다.

RT-Trajectory: 로봇 일반화 지원

인간은 테이블 청소 방법을 직관적으로 이해하고 배울 수 있지만, 로봇은 지시를 실제 물리적 행동으로 변환하기 위해 가능한 많은 방법이 필요합니다.

전통적으로 로봇 팔 훈련은 추상적인 자연어(테이블 닦기)를 구체적인 동작(그리퍼 닫기, 왼쪽으로 이동, 오른쪽으로 이동)으로 매핑하는 데 의존하므로 모델을 새로운 작업으로 일반화하기가 어렵습니다. 이와 대조적으로 RT-궤적 모델을 사용하면 RT 모델이 특정 로봇 동작(예: 비디오 또는 스케치의 동작)을 해석하여 작업이 "어떻게" 수행되는지 이해할 수 있습니다.

RT-Trajectory 모델은 훈련 비디오에서 로봇 움직임을 설명하기 위해 시각적 윤곽을 자동으로 추가할 수 있습니다. RT-Trajectory는 로봇 팔이 작업을 수행할 때 그리퍼의 2D 궤적 스케치를 사용하여 훈련 데이터 세트의 각 비디오를 오버레이합니다. RGB 이미지 형태의 이러한 궤적은 모델이 로봇 제어 전략을 학습할 수 있도록 낮은 수준의 실용적인 시각적 단서를 제공합니다.

훈련 데이터에 없는 41개 작업에 대해 테스트한 결과 RT-Trajectory로 제어되는 로봇 팔은 기존 SOTA RT 모델보다 두 배 이상 성능이 향상되었습니다. 작업 성공률은 63%에 달한 반면 RT-2는 성공률을 나타냈습니다. 29%에 불과하다.

시스템은 매우 다양합니다. RT-Trajectory는 필요한 작업에 대한 사람의 시연을 관찰하여 궤적을 만들 수도 있고 손으로 그린 스케치도 허용합니다. 또한 언제든지 다양한 로봇 플랫폼에 적응할 수 있습니다.

Google Deepmind는 로봇을 재창조하여 대규모 모델에 지능을 구현하는 미래를 구상합니다. ^{왼쪽 사진: 자연어 데이터 세트만 사용하여 훈련된 RT 모델로 제어되는 로봇은 테이블을 닦는 새로운 작업을 수행할 때 좌절감을 느꼈고, RT 궤적 모델로 제어되는 로봇은 동일한 데이터 세트에서 수행되었습니다. 2D 궤적을 통해 학습 후 닦아내는 궤적이 성공적으로 계획되고 실행되었습니다. 오른쪽: 학습된 RT 궤적 모델은 새로운 작업(테이블 지우기)이 주어지면 인간의 도움을 받거나 시각적 언어 모델을 사용하여 자체적으로 다양한 방법으로 2D 궤적을 생성할 수 있습니다.}

RT 궤적은 모든 로봇 데이터세트에 존재하지만 현재 충분히 활용되지 않는 풍부한 로봇 동작 정보를 활용합니다. RT-Trajectory는 새로운 작업을 위해 효율적이고 정확하게 움직이는 로봇을 만드는 경로의 또 다른 단계를 나타낼 뿐만 아니라 기존 데이터 세트에서 지식을 발견할 수도 있습니다.

위 내용은 Google Deepmind는 로봇을 재창조하여 대규모 모델에 지능을 구현하는 미래를 구상합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!