아기처럼 학습하는 DeepMind의 새 모델은 28시간 만에 물리적 세계의 규칙을 학습합니다.-일체 포함-php.cn

Deepmind는 직관적인 물리학을 학습할 수 있는 모델을 구축하고 모델이 이러한 능력을 달성한 이유를 분석하는 것을 목표로 합니다.

AlphaFold부터 수학적 추론까지 DeepMind는 AI와 기초과학을 결합하려고 노력해 왔습니다. 이제 DeepMind는 간단한 물리적 규칙을 학습할 수 있는 새로운 모델을 만들었습니다.

발달 심리학자들은 아기들이 시선을 통해 사물의 움직임을 어떻게 따라가는지 테스트하고 분석했습니다. 예를 들어, 공이 갑자기 사라지는 영상을 재생하자 아이들은 놀라움을 표시했습니다.

DeepMind 컴퓨터 과학자 Luis Piloto와 동료들은 인공 지능(AI)에 대한 유사한 테스트를 개발하기를 희망합니다. 연구팀은 큐브, 공 등 단순한 물체의 애니메이션 영상을 활용해 신경망을 훈련했고, 대용량 데이터에서 패턴을 찾아 학습한 모델을 활용했다. 이번 연구 논문은 Nature Human Behaviour 7월 11일자에 게재되었습니다.

아기처럼 학습하는 DeepMind의 새 모델은 28시간 만에 물리적 세계의 규칙을 학습합니다.

논문 주소: https://www.nature.com/articles/s41562-022-01394-8
데이터 세트 주소: https://github.com/deepmind/physical_concepts

이 모델은 자동 인코딩 및 객체 추적을 통해 물리 학습을 수행하므로 PLATO(Physics Learning through Auto-encoding and Tracking Objects)라고 명명되었습니다. PLATO는 비디오의 원본 이미지와 장면의 각 개체의 대상을 강조하는 이미지 버전을 수신합니다. PLATO는 위치, 속도와 같은 물체의 물리적 특성에 대한 내부 표현을 개발하는 것을 목표로 합니다.

시스템은 간단한 모션 메커니즘(예: 경사면에서 굴러가는 공)을 보여주는 약 30시간의 비디오로 훈련되었으며 다양한 상황에서 이러한 개체의 동작을 예측하는 기능을 개발했습니다. 특히 PLATO는 대상의 궤적이 중단되지 않고 물체의 모양이 지속되도록 연속성과 견고성을 학습합니다. 비디오가 재생되면 모델의 예측이 더욱 정확해집니다.

물체가 갑자기 사라지는 등 '불가능한' 이벤트가 포함된 동영상을 재생할 때 PLATO는 동영상과 자체 예측 간의 차이를 측정하여 '놀라움'의 척도를 제공할 수 있습니다.

Piloto는 다음과 같이 말했습니다. "PLATO는 유아 행동 모델로 설계되지 않았지만 인간 유아가 어떻게 학습하는지에 대한 가설을 테스트할 수 있습니다. 우리는 인지 과학자들이 결국 이를 유아 행동을 시뮬레이션하는 데 사용할 수 있기를 바랍니다.

대학교 컴퓨터 브리티시 컬럼비아의 과학자 제프 클룬(Jeff Clune)은 “AI를 인간 유아의 학습 방법과 비교하는 것은 중요한 연구 방향”이라며 “PLATO 연구진은 인공지능 모델에 장점을 부여하는 많은 사전 지식을 손으로 설계했고, 다른 연구자들은 이를 구현하기 위해 노력하고 있다”고 말했다. 이 프로그램은 물리적 세계를 이해하기 위해 자신만의 알고리즘을 개발합니다.

발달 심리학 지식 활용

딥마인드 연구팀은 AI 시스템에서 보다 풍부한 신체적 직관을 추구하기 위해 발달 심리학에서 영감을 얻습니다. 연구팀은 발달 심리학의 핵심 통찰력, 즉 물리학이 개별 개체와 상호 작용 수준에서 이해된다는 핵심 통찰력을 통합한 딥 러닝 시스템을 구축했습니다.

기본적으로 직관적 물리학은 구별, 조작 및 개별적으로 감지할 수 있는 개별 개념 집합(예: 객체 지속성, 견고성, 연속성 등)에 의존합니다. 직관적인 물리학을 학습하는 AI에 대한 기존의 표준 접근 방식은 비디오 또는 상태 예측기, 이진 결과 예측, 질문 답변 성능 또는 강화 학습 작업을 통해 물리적 세계에 대해 학습합니다. 이러한 접근 방식은 직관적인 물리학의 일부 측면을 이해해야 하는 것처럼 보이지만 명확한 개념 세트를 명시적으로 조작하거나 전략적으로 탐색하지는 않습니다.

반면, 발달 심리학에서는 물리적 개념이 미래가 어떻게 전개될지에 대한 일련의 기대에 해당한다고 주장합니다. 예를 들어, 사람들은 물체가 마법처럼 갑자기 한 장소에서 다른 장소로 순간이동하는 것이 아니라 시간과 공간을 통해 연속적인 경로를 추적할 것이라고 기대하며, 이는 연속성 개념으로 이어집니다. 따라서 특정 물리적 개념에 대한 지식을 측정하는 방법인 VoE(기대 위반) 패러다임이 있습니다.

VoE 패러다임을 사용하여 특정 개념을 탐색할 때 연구자들은 물리적 개념과 일관되거나(물리적으로 가능) 일치하지 않는(물리적으로 불가능) 시각적으로 유사한 배열(프로브라고 함)을 유아에게 보여줍니다. 이 패러다임에서 "놀라움"은 시선 지속 시간으로 측정됩니다.

아기처럼 학습하는 DeepMind의 새 모델은 28시간 만에 물리적 세계의 규칙을 학습합니다.

방법 소개

먼저 DeepMind는 매우 풍부한 비디오 자료인 물리적 개념 데이터 세트를 제안했습니다. 이 데이터 세트에는 연속성, 목표 지속성 및 견고성을 포함하여 발달 심리학의 핵심 요소로 간주되는 다섯 가지 중요한 물리적 개념을 대상으로 하는 VoE 프로브 비디오가 포함되어 있습니다. 네 번째는 불변성으로, 특정 대상 속성(예: 모양)이 변경되지 않는다는 개념을 포착합니다. 다섯 번째 개념은 움직이는 객체가 관성의 원리와 일치하는 방향으로 변경될 것이라는 기대를 포함하는 방향성 관성입니다.

가장 중요한 점은 Physical Concepts 데이터 세트에는 훈련 데이터로 별도의 비디오 코퍼스도 포함되어 있다는 것입니다. 이 비디오는 절차적으로 생성된 다양한 물리 이벤트를 보여줍니다.

아기처럼 학습하는 DeepMind의 새 모델은 28시간 만에 물리적 세계의 규칙을 학습합니다.

그림 2: 모델 훈련에 사용된 비디오 데이터 세트의 예

PLATO 모델 아키텍처

Deepmind는 직관적인 물리학을 학습할 수 있는 모델을 구축하고 모델이 이러한 능력을 달성하는 이유를 분석하는 것을 목표로 합니다. AI 분야의 일부 고급 시스템은 PLATO 모델에서 인스턴스화됩니다.

첫 번째는 타겟 개인화 과정입니다.타겟 개인화 프로세스는 비전의 지속적인 감각 입력을 개별 엔터티 세트로 절단하며, 각 엔터티에는 해당 속성 세트가 있습니다. PLATO에서는 분할된 각 비디오 프레임이 지각 모듈에 의해 일련의 대상 코드(그림 3a-c)로 분해되어 시각적 입력에서 개별 대상으로의 매핑이 가능해집니다. PLATO는 장면을 분할하는 방법을 학습하지 않지만 분할 대상이 주어지면 압축된 표현을 학습합니다.

두 번째로, 타겟 추적(또는 타겟 인덱스)은 각 타겟에 인덱스를 할당하여이를 통해 시간에 따른 타겟 인식과 동적 속성 계산 간의 일치성을 달성합니다(그림 3b, c). PLATO에서는 대상 코드가 대상 버퍼의 프레임에 걸쳐 누적되고 추적됩니다(그림 3d).

마지막 구성 요소는 추적된 대상의 관계 처리입니다.이 프로세스는 발달 심리학에서 제안된 "물리적 추론 시스템"에서 영감을 얻었습니다. 이 시스템은 객체의 표현을 동적으로 처리하고 이러한 표현에 영향을 미칩니다. 객체와 다른 객체 사이의 관계와 상호 작용을 통해.

PLATO는 대상 메모리와 대상 인식 내역(그림 3d) 간의 상호 작용을 학습하여 다음 대상에 대한 예측 비디오 프레임을 생성하고 대상 기반 메모리를 업데이트합니다.

아기처럼 학습하는 DeepMind의 새 모델은 28시간 만에 물리적 세계의 규칙을 학습합니다.

그림 3: PLATO는 인식 모듈(왼쪽)과 동적 예측(오른쪽)의 두 가지 구성 요소로 구성됩니다.

실험 결과

테스트 시간에 5개의 서로 다른 무작위 시드로 훈련했을 때 PLATO는 모든 Strong VoE에서 더 나은 성능을 보였습니다. 다섯 가지 탐지 범주 모두에서 효과가 나타났습니다.

아기처럼 학습하는 DeepMind의 새 모델은 28시간 만에 물리적 세계의 규칙을 학습합니다.

그림 5: PLATO는 물리적 개념 데이터 세트를 조사하는 데 강력한 성능을 보여줍니다.

물리적 개념 데이터세트의 훈련 자료에는 총 300,000개의 비디오가 포함되어 있습니다. 보수적인 계산을 사용하면 대략 52일 간의 지속적인 시각적 경험입니다. AI 및 개발 관점에서 볼 때, 테스트에서 VoE 효과를 생성하기 위해 실제로 얼마나 많은 훈련 데이터가 필요한지에 대한 의문이 있습니다. 이를 평가하기 위해 Deepmind는 크기가 감소하는 데이터 세트(그림 6)에 대해 3개의 PLATO 동적 예측기의 무작위 시드를 훈련하여 5개 탐지 클래스 전체에 걸쳐 VoE 효과의 총 평균을 계산했습니다.

결과는 50,000개의 예시(28시간의 시각적 경험에 해당)로 훈련한 후 Deepmind 모델에서 강력한 VoE 효과를 보여줍니다.

아기처럼 학습하는 DeepMind의 새 모델은 28시간 만에 물리적 세계의 규칙을 학습합니다.