시각적 언어 모델로 공간 추론을 수행하면 Google이 다시 새로워집니다.-일체 포함-php.cn

시각 언어 모델(VLM)이 이미지 설명, 시각적 질문 답변, 구체화된 계획, 동작 인식 등 많은 작업에서 상당한 진전을 이루었지만 공간 추론에는 여전히 과제가 존재합니다. 많은 모델은 여전히 3차원 공간에서 대상의 위치나 공간 관계를 이해하는 데 어려움을 겪고 있습니다. 이는 시각적 언어 모델을 더욱 발전시키는 과정에서 복잡한 시각적 작업을 처리하는 데 있어 모델의 정확성과 효율성을 향상시키기 위해 공간 추론 문제를 해결하는 데 중점을 둘 필요가 있음을 보여줍니다.

연구원들은 종종 인간의 신체적 경험과 진화적 발달을 통해 이 문제를 탐구합니다. 인간은 복잡한 사고 과정이나 정신적 계산 없이도 물체의 상대적 위치와 같은 공간적 관계를 쉽게 결정하고 거리와 크기를 추정할 수 있는 고유한 공간 추론 능력을 가지고 있습니다.

직접적인 공간 추론 작업에 대한 이러한 능숙함은 현재의 시각적 언어 모델 기능의 한계와 대조되며 시각적 언어 모델에 인간과 같은 공간 추론 기능이 부여될 수 있는지 여부라는 강력한 연구 질문을 제기합니다.

최근 Google은 공간 추론 기능을 갖춘 시각적 언어 모델인 SpatialVLM을 제안했습니다.

시각적 언어 모델로 공간 추론을 수행하면 Google이 다시 새로워집니다.

논문 제목: SpatialVLM: 공간 추론 능력을 갖춘 비전-언어 모델 부여
논문 주소: https://arxiv.org/pdf/2 401.12168. pdf
프로젝트 홈페이지: https://spatial-vlm.github.io/

연구원들은 공간 추론 능력에 있어서 현재의 시각 언어 모델의 한계가 그러나 아키텍처의 한계로 인해 훈련에 사용되는 일반적인 데이터 세트의 한계로 인해 발생할 가능성이 더 높습니다. 많은 시각적 언어 모델은 제한된 공간 정보가 포함된 대규모 이미지-텍스트 쌍 데이터 세트에 대해 훈련됩니다. 공간적으로 정보가 풍부한 구체화된 데이터를 얻거나 고품질의 인간 주석을 수행하는 것은 어려운 작업입니다. 이러한 문제를 해결하기 위해 자동 데이터 생성 및 향상 기술이 제안된다. 그러나 이전 연구는 객체의 풍부함과 3D 관계를 무시한 채 실제 의미 주석을 사용하여 사실적인 이미지를 생성하는 데 주로 중점을 두었습니다. 따라서 향후 연구에서는 더 많은 구체화된 데이터를 도입하거나 객체 및 3D 관계 모델링에 초점을 맞추는 등 자동 생성 기술을 통해 공간 정보에 대한 모델의 이해를 향상시키는 방법을 탐구할 수 있습니다. 이는 공간 추론에서 시각적 언어 모델의 성능을 향상시켜 실제 응용 시나리오에 더 적합하게 만드는 데 도움이 됩니다.

이 연구는 실제 3D 세계의 다양성과 복잡성을 보여주기 위해 실제 데이터를 활용하여 공간 정보를 직접 추출하는 데 중점을 둡니다. 이 방법은 최신 시각적 모델링 기술에서 영감을 얻었으며 2D 이미지에서 3D 공간 주석을 자동으로 생성할 수 있습니다.

SpatialVLM 시스템의 주요 기능은 객체 감지, 깊이 추정, 의미론적 분할, 객체 중심 설명 모델과 같은 기술을 사용하여 조밀하게 주석이 달린 대규모 실제 데이터를 처리하여 시각적 언어 모델의 공간 추론 기능을 향상시키는 것입니다. . SpatialVLM 시스템은 시각적 모델에서 생성된 데이터를 설명, VQA 및 공간 추론에 사용할 수 있는 하이브리드 데이터 형식으로 변환하여 시각적 언어 모델의 데이터 생성 및 교육 목표를 달성합니다. 연구자들의 노력으로 이 시스템은 시각적 정보를 더 잘 이해하고 처리할 수 있게 되었으며, 이를 통해 복잡한 공간 추론 작업의 성능이 향상되었습니다. 이 접근 방식은 시각적 언어 모델을 훈련하여 이미지와 텍스트 간의 관계를 더 잘 이해하고 처리함으로써 다양한 시각적 작업에서 정확성과 효율성을 높이는 데 도움이 됩니다.

연구에 따르면 본 논문에서 제안한 시각적 언어 모델은 여러 분야에서 만족스러운 성능을 발휘하는 것으로 나타났습니다. 첫째, 질적 공간 문제를 처리하는 데 있어 상당한 개선이 이루어졌습니다. 둘째, 모델은 훈련 데이터에 노이즈가 있는 경우에도 정량적 추정을 안정적으로 생성할 수 있습니다. 이 능력은 목표 크기에 대한 상식적인 지식을 갖추게 할 뿐만 아니라 재배열 작업 및 공개 어휘 보상 주석을 처리하는 데에도 유용합니다. 마지막으로 강력한 대규모 언어 모델과 결합된 공간 시각적 언어 모델은 공간 추론 체인을 수행하고 자연어 인터페이스를 기반으로 복잡한 공간 추론 작업을 해결할 수 있습니다.

방법 개요

시각 언어 모델에 질적 및 양적 공간 추론 기능을 갖추기 위해 연구원들은 시각적 언어 모델 훈련을 위한 대규모 공간 VQA 데이터 세트를 생성할 것을 제안했습니다. 구체적으로, 개방형 어휘 탐지, 메트릭 깊이 추정, 의미 분할 및 대상 중심 설명 모델을 포함한 기성 컴퓨터 비전 모델을 먼저 활용하여 대상 중심 배경 정보를 추출하는 포괄적인 데이터 생성 프레임워크를 설계하는 것입니다. 그런 다음 템플릿 기반 접근 방식을 채택하여 합리적인 품질의 대규모 공간 VQA 데이터를 생성합니다. 본 논문에서 연구원들은 생성된 데이터 세트를 사용하여 SpatialVLM을 훈련하여 직접적인 공간 추론 기능을 학습한 다음 이를 LLM에 내장된 높은 수준의 상식 추론과 결합하여 연쇄 사고의 공간 추론을 잠금 해제했습니다.

시각적 언어 모델로 공간 추론을 수행하면 Google이 다시 새로워집니다.

2D 이미지에 대한 공간 벤치마크

연구원들은 공간 추론 질문이 포함된 VQA 데이터를 생성하는 프로세스를 설계했습니다. 구체적인 프로세스는 그림 2에 나와 있습니다.

시각적 언어 모델로 공간 추론을 수행하면 Google이 다시 새로워집니다.

1. 의미 필터링: 이 글의 데이터 합성 과정에서 첫 번째 단계는 CLIP 기반 개방형 어휘 분류 모델을 사용하여 모든 이미지를 분류하고 부적합한 이미지를 제외하는 것입니다.

2. 2D 이미지 추출 대상 중심 배경: 이 단계에서는 픽셀 클러스터와 개방형 어휘 설명으로 구성된 대상 중심 엔터티를 얻습니다.

3. 2D 배경 정보에서 3D 배경 정보로: 깊이 추정 후 한쪽 눈의 2D 픽셀을 미터 규모의 3D 포인트 클라우드로 업그레이드합니다. 본 논문은 인터넷 규모의 이미지를 객체 중심의 3D 포인트 클라우드로 업스케일링하고 이를 사용하여 3D 공간 추론 감독을 통해 VQA 데이터를 합성한 최초의 논문입니다.

4. 명확성: 때로는 이미지에 유사한 카테고리의 개체가 여러 개 있어서 설명 라벨이 모호해질 수 있습니다. 따라서 이러한 목표에 대해 질문하기 전에 참조 표현식에 모호함이 포함되어 있지 않은지 확인해야 합니다.

대규모 공간 추론 VQA 데이터세트

연구원들은 사전 훈련을 위해 합성 데이터를 사용하여 "직관적인" 공간 추론 기능을 VLM에 통합합니다. 따라서 합성에는 이미지에 있는 두 개 이하의 개체(A와 B로 표시)로 구성된 공간 추론 질문-답변 쌍이 포함됩니다. 여기서는 주로 다음 두 가지 유형의 질문이 고려됩니다.

1. 질적 질문: 특정 공간적 관계에 대한 판단에 대해 질문합니다. 예를 들어, "두 개의 개체 A와 B가 주어졌을 때 어느 것이 더 왼쪽에 있습니까?"

2. 정량적 질문: 숫자와 단위를 포함하여 더 자세한 답변을 요청하세요. 예를 들어, "객체 A는 객체 B에 비해 왼쪽으로 얼마나 떨어져 있나요?", "객체 A는 B에서 얼마나 떨어져 있나요?"

여기서 연구자들은 38가지 유형의 질적 및 양적 공간 추론 질문을 지정했습니다. 질문에는 약 20개의 질문 템플릿과 10개의 답변 템플릿이 포함되어 있습니다.

그림 3은 이 기사에서 얻은 합성 질문-답변 쌍의 예를 보여줍니다. 연구원들은 1천만 개의 이미지와 20억 개의 직접적인 공간 추론 질문-답변 쌍(50% 정성적, 50% 정량적)으로 구성된 대규모 데이터 세트를 만들었습니다.

시각적 언어 모델로 공간 추론을 수행하면 Google이 다시 새로워집니다.

공간 추론 학습

직접 공간 추론: 시각적 언어 모델은 공간 작업에 대한 이미지 I와 쿼리 Q를 입력으로 받아 답변 A를 출력하고 제시됩니다. 외부 도구를 사용하거나 다른 대형 모델과 상호 작용할 필요 없이 텍스트 형식으로 제공됩니다. 이 기사에서는 PaLM의 백본이 PaLM 2-S로 대체된다는 점을 제외하면 PaLM-E와 동일한 아키텍처 및 교육 프로세스를 채택합니다. 그런 다음 원본 PaLM-E 데이터 세트와 저자의 데이터 세트를 혼합하여 모델 훈련을 수행했으며, 토큰의 5%는 공간 추론 작업에 사용되었습니다.

연쇄적 사고 공간 추론: SpatialVLM은 기본 개념을 사용하여 질문을 쿼리하는 데 사용할 수 있는 자연어 인터페이스를 제공하며, 강력한 LLM과 결합하면 복잡한 공간 추론을 수행할 수 있습니다.

Socratic Models 및 LLM 코디네이터의 방법과 유사하게 이 기사에서는 LLM(text-davinci-003)을 사용하여 SpatialVLM과의 통신을 조정하여 그림 4와 같이 연쇄 사고 프롬프트의 복잡한 문제를 해결합니다.

시각적 언어 모델로 공간 추론을 수행하면 Google이 다시 새로워집니다.

실험 및 결과

연구원들은 실험을 통해 다음 질문을 증명하고 답변했습니다.

질문 1: 이 기사에서 설계한 공간 VQA 데이터 생성 및 훈련 프로세스가 전반적인 성능을 향상시키는가? VLM? 공간 추론 능력? 그리고 어떻게 작동합니까?

질문 2: 시끄러운 데이터와 다양한 훈련 전략으로 가득 찬 합성 공간 VQA 데이터가 학습 성과에 어떤 영향을 미치나요?

질문 3: "직접적인" 공간 추론 기능을 갖춘 VLM이 연쇄 사고 추론 및 구체화된 계획과 같은 새로운 기능을 잠금 해제할 수 있습니까?

연구원들은 PaLM-E 훈련 세트와 이 기사에서 설계된 공간 VQA 데이터 세트를 혼합하여 모델을 훈련했습니다. 공간 추론에서 VLM의 한계가 데이터 문제인지 확인하기 위해 현재 최첨단 시각 언어 모델을 기준으로 선택했습니다. 의미론적 설명 작업은 이 기사의 공간 VQA 데이터 세트를 훈련에 사용하는 것보다 이러한 모델의 훈련 과정에서 상당한 비율을 차지합니다.

공간 VQA 성능

질적 공간 VQA. 이 질문에 대해 사람이 주석을 추가한 답변과 VLM 출력은 모두 자유 형식 자연 언어로 되어 있습니다. 따라서 VLM의 성능을 평가하기 위해 인간 평가자를 활용하여 답변이 올바른지 확인했으며 각 VLM의 성공률은 표 1에 나와 있습니다.

시각적 언어 모델로 공간 추론을 수행하면 Google이 다시 새로워집니다.

정량적 공간 VQA. 표 2에서 볼 수 있듯이 우리 모델은 두 지표 모두에서 기준보다 더 나은 성능을 발휘하며 훨씬 앞서 있습니다.

시각적 언어 모델로 공간 추론을 수행하면 Google이 다시 새로워집니다.

공간 VQA 데이터가 일반 VQA에 미치는 영향

두 번째 질문은 대량의 공간 VQA를 사용한 공동 훈련이 다른 작업에 대한 VLM의 성능에 영향을 미칠지 여부입니다. 데이터를 줄입니다. 표 3에 요약된 것처럼 공간 VQA 데이터를 사용하지 않고 일반 VQA 벤치마크에서 훈련된 기본 PaLM 2-E와 모델을 비교함으로써 우리 모델은 제한된 공간을 포함하는 OKVQA 성능에서 PaLM 2-E와 비슷한 성능을 달성합니다. 추론 문제는 공간 추론 문제를 포함하는 VQA-v2 테스트 개발 벤치마크에서 약간 더 좋습니다.

시각적 언어 모델로 공간 추론을 수행하면 Google이 다시 새로워집니다.

ViT 인코더가 공간 추론에 미치는 영향

Frozen ViT(대조 대상에 대해 훈련됨)가 공간 추론을 위한 충분한 정보를 인코딩합니까? 이를 탐색하기 위해 연구원들의 실험은 훈련 단계 110,000에서 시작되었으며 두 개의 훈련 실행, 즉 Frozen ViT와 Unfrozen ViT로 나누어졌습니다. 두 모델을 모두 70,000단계로 훈련하여 평가 결과를 표 4에 나타내었습니다.

시각적 언어 모델로 공간 추론을 수행하면 Google이 다시 새로워집니다.

시끄러운 정량적 공간 답변의 영향

연구원들은 로봇 작동 데이터 세트를 사용하여 시각적 언어 모델을 훈련했으며 모델이 다음에서 미세한 거리 추정을 수행할 수 있음을 발견했습니다. 작업 영역(그림 5)을 통해 데이터의 정확성이 더욱 입증되었습니다.

시각적 언어 모델로 공간 추론을 수행하면 Google이 다시 새로워집니다.

표 5는 정량적 공간 VQA에서 전체 VLM 성능에 대한 다양한 가우스 잡음 표준 편차의 영향을 비교합니다.

시각적 언어 모델로 공간 추론을 수행하면 Google이 다시 새로워집니다.

공간 추론은 새로운 애플리케이션에 영감을 줍니다.

1. 조밀한 보상 주석자로서의 시각적 언어 모델

시각 언어 모델은 로봇 공학 분야에서 중요한 응용 분야를 가지고 있습니다. 최근 연구에 따르면 시각적 언어 모델과 대규모 언어 모델은 효과적인 제어 전략을 개발하는 데 사용할 수 있는 일반적인 개방형 어휘 보상 주석자 및 로봇 작업의 성공 탐지기 역할을 할 수 있는 것으로 나타났습니다. 그러나 VLM의 보상 라벨링 기능은 공간 인식이 부족하여 제한되는 경우가 많습니다. SpatialVLM은 이미지의 거리나 크기를 정량적으로 추정할 수 있는 기능으로 인해 밀도가 높은 보상 주석자로서 매우 적합합니다. 저자는 실제 로봇 실험을 수행하고, 자연어로 작업을 지정하고, SpatialVLM에 궤적의 각 프레임에 대한 보상에 주석을 달도록 요청합니다.

그림 6의 각 점은 대상의 위치를 나타내고 해당 색상은 주석이 달린 보상을 나타냅니다. 로봇이 주어진 목표를 향해 진행함에 따라 보상은 단조롭게 증가하는 것으로 나타나 SpatialVLM의 조밀한 보상 주석자로서의 기능을 보여줍니다.

시각적 언어 모델로 공간 추론을 수행하면 Google이 다시 새로워집니다.

2. 연쇄적 사고 공간 추론

연구원들은 또한 SpatialVLM이 기본적인 공간 문제를 수행하는 능력을 고려하여 다단계 추론이 필요한 작업을 수행하는 데 사용될 수 있는지 연구했습니다. 응답 능력을 향상시킵니다. 저자는 그림 1과 4에 몇 가지 예를 보여줍니다. 대형 언어 모델(GPT-4)에 공간 추론 서브 모듈로 SpatialVLM이 탑재되면 환경 내 3개의 객체가 "이등변삼각형"을 형성할 수 있는지 답하는 등 복잡한 공간 추론 작업을 수행할 수 있습니다.

자세한 기술적 내용과 실험 결과는 원본 논문을 참조하세요.

위 내용은 시각적 언어 모델로 공간 추론을 수행하면 Google이 다시 새로워집니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!