바이트 AI 연구소의 핵심 기술은 전통적인 방법과 모방 학습을 결합한 해비타트 챌린지 2022 액티브 내비게이션 챔피언십에서 우승했습니다.-일체 포함-php.cn

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

객체 탐색은 지능형 로봇의 기본 작업 중 하나입니다. 이 작업에서 지능형 로봇은 미지의 새로운 환경에서 인간이 지정한 특정 유형의 객체를 적극적으로 탐색하고 찾아냅니다. 객체 목표 탐색 작업은 미래의 홈 서비스 로봇의 응용 요구 사항에 맞춰져 있습니다. 사람들이 물 한 잔 가져오기와 같은 특정 작업을 완료하기 위해 로봇이 필요한 경우 로봇은 먼저 물컵의 위치를 찾아서 이동해야 합니다. , 그리고 사람들이 물컵을 얻도록 도와주세요.

해비타트 챌린지는 메타AI와 타 기관이 공동으로 주최하는 대회로, 2022년 기준 총 54개 팀이 참가해왔습니다. 이번 대회에서는. 대회에서 ByteDance AI Lab-Research 팀의 연구원들은 기존 방법의 단점을 해결하기 위해 새로운 객체 대상 탐색 프레임워크를 제안했습니다. 이 프레임워크는 모방 학습과 기존 방법을 교묘하게 결합하여 군중 속에서 눈에 띄고 우승을 차지합니다. 핵심 지표 SPL에서 2위 팀과 기타 참여 팀의 결과를 크게 능가하는 결과입니다. 역사적으로 이번 행사의 우승팀은 일반적으로 CMU, UC Berkerly, Facebook 등 잘 알려진 연구 기관이었습니다.

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

테스트-표준 목록

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

테스트-챌린지 목록

Habitat 챌린지 대회 공식 홈페이지: https://aihabitat.org/challenge/2022/

Habitat 챌린지 대회 리더보드: https://eval .ai/web/challenges/challenge-page/1615/leaderboard

1. 연구 동기

현재 객체 대상 탐색 방법은 크게 엔드투엔드 방법과 지도 기반 방법의 두 가지 범주로 나눌 수 있습니다. 엔드투엔드 방법은 입력 센서 데이터의 특성을 추출한 다음 이를 딥러닝 모델에 입력하여 동작을 얻습니다. 이러한 방법은 일반적으로 강화 학습 또는 모방 학습을 기반으로 합니다(그림 1 맵리스 방법 맵). 기반 방법은 일반적으로 명시적 또는 암시적 지도를 구축한 다음 강화 학습 및 기타 방법을 통해 지도에서 목표 지점을 선택하고 최종적으로 경로를 계획하고 동작을 획득합니다(그림 1 지도 기반 방법).

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

그림 1 End-to-End 방식(위)과 맵 기반 방식(아래)의 흐름도

두 가지 유형의 방법을 비교하기 위한 수많은 실험 끝에 연구자들은 두 유형 모두 방법에는 고유한 장점과 단점이 있습니다. 엔드투엔드 방법은 환경 맵을 구성할 필요가 없으므로 더 간결하고 다양한 시나리오에서 일반화 능력이 더 강력합니다. 그러나 네트워크는 환경의 공간정보를 인코딩하는 방법을 학습해야 하기 때문에 많은 양의 훈련 데이터에 의존하고, 대상 객체 근처에서 멈추는 등 몇 가지 간단한 동작을 동시에 학습하는 것은 어렵습니다. 지도 기반 방법은 래스터를 사용하여 특징이나 의미를 저장하고 명시적인 공간 정보를 가지므로 이러한 유형의 동작에 대한 학습 임계값이 낮습니다. 그러나 정확한 위치 결정 결과에 크게 의존하며 계단과 같은 일부 환경에서는 인공적인 인식 설계 및 경로 계획 전략이 필요합니다.

위의 결론을 바탕으로 ByteDance AI Lab-Research 팀의 연구원들은 두 가지 방법의 장점을 결합하기를 희망합니다. 그러나 이 두 가지 방법의 알고리즘 프로세스는 매우 다르며 직접 결합하기가 어렵고, 두 가지 방법의 출력을 직접 통합하는 전략을 설계하는 것도 어렵습니다. 이에 연구진은 두 가지 방식이 로봇의 상태에 따라 능동적 탐색과 객체 탐색을 교대로 수행할 수 있도록 함으로써 각각의 장점을 극대화할 수 있는 간단하면서도 효과적인 전략을 고안했다.

2. 경쟁 방법

알고리즘은 크게 확률 맵 기반 분기와 엔드 투 엔드 분기의 두 가지 분기로 구성됩니다. 알고리즘의 입력은 첫 번째 RGB-D 이미지와 로봇 포즈, 그리고 찾고자 하는 대상 객체 카테고리이며, 출력은 다음 동작(action)입니다. RGB 이미지는 먼저 분할되어 다른 원시 입력 데이터와 함께 두 분기에 전달됩니다. 두 분기는 각각 자체 작업을 출력하며 전환 전략에 따라 최종 출력 작업이 결정됩니다.

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

그림 2 알고리즘 흐름의 개략도

확률 맵 기반 분기

확률 맵 기반 분기는 Semantic Linking Map[2]의 아이디어를 차용하고 IROS Robot Conference에서 발표된 저자의 원본 논문[3]의 방법을 단순화합니다. . 이 분기는 입력 인스턴스 분할 결과, 깊이 맵 및 로봇 포즈를 기반으로 2D 의미 맵을 구축하는 반면, 사전 학습된 객체 간의 연관 확률을 기반으로 확률 맵을 업데이트합니다.

확률 맵 업데이트 방법에는 다음과 같은 것이 있습니다. 대상 객체가 감지되었지만 자신감이 충분하지 않은 경우(신뢰도 점수가 임계값보다 낮음) 이때 계속해서 더 자세히 관찰해야 하므로 해당 영역의 확률 값 확률 맵에서는 증가해야 하며(그림 3의 상단 참조) 마찬가지로 대상 개체와 관련된 개체가 감지되면(예: 테이블과 의자가 함께 배치될 확률이 상대적으로 높음) 확률 값이 증가해야 합니다. 해당 영역도 증가합니다(그림 3의 하단 참조). 확률이 가장 높은 영역을 대상 지점으로 선택함으로써 알고리즘은 로봇이 임계값보다 높은 신뢰 확률을 가진 대상 개체를 찾을 때까지 추가 관찰을 위해 잠재적인 대상 개체 및 관련 개체에 접근하도록 권장합니다.

Habitat Challenge 2022冠军技术：字节AI Lab提出融合传统和模仿学习的主动导航

그림 3 확률 맵 업데이트 방법의 개략도

End-to-end 브랜치

엔드-투-엔드 브랜치의 입력에는 RGB-D 이미지, 인스턴스 분할 결과, 로봇이 포함됩니다. 포즈, 대상 객체 카테고리, 액션을 직접 출력합니다. End-to-End Branch의 주요 기능은 로봇이 인간과 같은 물체를 찾도록 안내하는 것이므로 Habitat-Web[4] 방법의 모델과 훈련 과정을 채택합니다. 이 방법은 훈련 세트에서 물체를 찾는 인간의 예를 수집하여 네트워크를 훈련시키는 모방 학습을 기반으로 합니다.

전환 전략

전환 전략은 주로 확률 맵 및 경로 계획의 결과를 기반으로 확률 맵 분기와 엔드 투 엔드 분기에서 출력되는 두 가지 작업 중 하나를 최종 출력으로 선택합니다. 확률 맵에 임계값보다 큰 확률을 가진 래스터가 없는 경우 로봇은 환경을 탐색해야 합니다. 지도에서 실행 가능한 경로를 계획할 수 없는 경우 로봇은 일부 특수 환경(예: 계단)에 있을 수 있습니다. 두 경우 모두 엔드투엔드 방식을 사용하면 로봇이 충분한 환경 적응성을 가질 수 있습니다. 다른 경우에는 대상 객체를 찾는 데 있어 이점을 최대한 활용하기 위해 확률적 지도 분기가 선택됩니다.

이 전환 전략의 효과는 비디오에서 볼 수 있습니다. 로봇은 일반적으로 엔드투엔드 분기를 사용하여 환경을 효율적으로 탐색합니다. 가능한 대상 개체 또는 관련 개체가 발견되면 확률 맵 분기로 전환됩니다. 더 가까운 관찰에서는 신뢰도 확률이 임계값보다 크면 대상 개체에서 중지됩니다. 그렇지 않으면 해당 영역의 확률 값은 임계값보다 큰 확률을 가진 그리드가 없을 때까지 계속 감소합니다. , 로봇은 다시 엔드투엔드로 전환하여 탐색을 계속합니다.

영상에서 볼 수 있듯이 이 방법은 엔드 투 엔드 접근 방식과 맵 기반 접근 방식의 장점을 결합합니다. 두 분기는 각자의 임무를 수행합니다. 엔드투엔드 방식은 주로 환경 탐색을 담당하고, 확률 맵 분기는 관심 영역에 가까운 관찰을 담당합니다. 따라서 이 방법은 복잡한 장면(예: 계단)을 탐색할 수 있을 뿐만 아니라 엔드투엔드 분기의 훈련 요구 사항도 줄일 수 있습니다.

3. 요약

객체 활성 대상 탐색 작업을 위해 ByteDance AI 연구소 연구 팀은 고전적인 확률 맵과 현대적인 모방 학습을 결합한 프레임워크를 제안했습니다. 이 프레임워크는 전통적인 방법과 엔드투엔드 접근 방식을 결합하려는 성공적인 시도입니다. Habitat 대회에서는 ByteDance AI Lab-Research 팀이 제안한 방법이 2등 및 기타 참가 팀의 결과를 크게 웃돌며 알고리즘의 발전을 입증했습니다. 현재 주류인 Embodied AI end-to-end 방법에 전통적인 방법을 도입함으로써 우리는 end-to-end 방법의 일부 단점을 더욱 보완할 수 있으며, 이를 통해 지능형 로봇이 사람들을 돕고 봉사하는 길에서 더 나아갈 수 있습니다.

최근 ByteDance AI Lab-Research 팀의 로봇 공학 분야 연구는 물체 자세 추정, 물체 잡기, 표적 항법, 자동 조립 및 인간 로봇 공학을 포함하여 CoRL, IROS, ICRA와 같은 최고의 로봇 공학 컨퍼런스에도 포함되었습니다. 컴퓨터 상호 작용 및 기타 로봇의 핵심 작업.

【CoRL 2022】의미론적 프리미티브를 사용한 생성적 범주 수준 모양 및 포즈 추정

논문 주소: https://arxiv.org/abs/2210.01112

【IROS 2022】인스턴스 인코딩 변환기를 사용한 3D 부품 어셈블리 생성

논문 주소: https://arxiv.org/abs/2207.01779

【IROS 2022】거리 예측을 통해 보이지 않는 환경의 물체 탐색

논문 주소: https://arxiv.org/abs/2202.03735

【EMNLP 2022】참조 표현 생성 및 이해 통합을 향하여

논문 주소: https://arxiv.org/pdf/2210.13076

【ICRA 2022】우선순위 메모리 재설정을 통해 다양한 크기의 재료를 사용한 학습 설계 및 구성

논문 주소: https://arxiv.org/abs/2204.05509

【IROS 2021】6-DoF에 대한 동시 의미론적 및 충돌 학습 파악 자세 추정

논문 주소: https://arxiv.org/abs/2108.02425

【IROS 2021】Learning to Design and Construction Bridge Without Blueprint

논문 주소: https://arxiv.org/abs /2108.02439

4. 참고문헌

[1] Yadav, Karmesh, et al. "Habitat-Matterport 3D Semantics Dataset." arXiv 사전 인쇄 arXiv:2210.05633(2022).

[2] Zeng, Zhen, Adrian Röfer 및 Odest Chadwicke Jenkins. "활성 시각적 개체 검색을 위한 의미 연결 맵" 2020 IEEE International Conference on Robotics and Automation(ICRA), IEEE, 2020.

[3] Minzhao Zhu, Binglei Zhao 및 Tao Kong 거리 예측에 의한 보이지 않는 환경의 객체." arXiv preprint arXiv:2202.03735 (2022).

[4] Ramrakhya, Ram, et al. "Habitat-Web: 대규모 인간 시연에서 구현된 객체 검색 전략 학습" 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 회의 간행물. 2022.

5. 회사 소개

ByteDance AI Lab NLP&Research는 자연어 처리, 로봇 공학 등을 다루는 인공 지능 분야의 최첨단 기술 연구에 중점을 둡니다. 기술 연구 분야로 연구 결과를 실무에 적용하고 회사의 기존 제품 및 사업에 대한 핵심 기술 지원 및 서비스를 제공하는데 최선을 다하고 있습니다. 볼케이노 엔진을 통해 팀의 기술적 역량이 외부 세계에 공개되어 AI 혁신에 힘을 실어주고 있습니다.

ByteDance AI-Lab NLP&Research 연락처