AI 호기심은 고양이만 죽이는 것이 아닙니다! MIT의 새로운 강화학습 알고리즘, 이번에는 에이전트가 '어렵기도 하고 다 잡기 쉽다'-일체 포함-php.cn

누구나 오래된 문제에 직면해 있습니다.

금요일 밤에 식사할 레스토랑을 고르려고 하는데 예약이 없습니다. 사람들로 가득 찬 좋아하는 레스토랑에서 줄을 서서 기다리시겠습니까, 아니면 더 맛있는 놀라움을 발견하기 위해 새로운 레스토랑에 도전하시겠습니까?

후자는 놀라움을 가져올 가능성이 있지만 이러한 호기심에 기반한 행동에는 위험이 따릅니다. 새로 방문한 레스토랑의 음식은 훨씬 더 나쁠 수도 있습니다.

호기심은 AI가 세상을 탐험하는 원동력이며, 자율주행, 로봇 의사결정, 최적화된 탐지 결과 등 수많은 사례가 있습니다.

어떤 경우에는 기계가 목표를 달성하기 위해 '강화 학습'을 사용합니다. 이 과정에서 AI 에이전트는 보상을 받는 좋은 행동과 처벌을 받는 나쁜 행동을 반복적으로 학습합니다.

AI 호기심은 고양이만 죽이는 것이 아닙니다! MIT의 새로운 강화학습 알고리즘, 이번에는 에이전트가 어렵기도 하고 다 잡기 쉽다

인간이 레스토랑을 선택할 때 직면하는 딜레마와 마찬가지로 이러한 에이전트는 더 나은 행동(탐색)을 발견하는 시간과 과거에 높은 보상을 가져온 행동을 취하는 시간(착취)의 균형을 맞추려고 노력합니다.

호기심이 너무 강하면 에이전트의 주의가 산만해져서 유리한 결정을 내리지 못하게 되고, 호기심이 너무 약하면 에이전트가 결코 유리한 결정을 내릴 수 없게 됩니다.

AI 에이전트가 "적절한" 호기심을 갖도록 하기 위해 MIT 컴퓨터 과학 및 AI 연구소(CSAIL)의 연구원들은 AI가 너무 "호기심"이 있고 당면한 문제에 압도당하는 문제를 극복하는 알고리즘을 만들었습니다. 작업 방해 문제.

그들이 개발한 알고리즘은 필요할 때 자동으로 호기심을 증가시키고 에이전트가 환경으로부터 충분한 감독을 받고 무엇을 해야할지 이미 알고 있는 경우 호기심을 감소시킵니다.

AI 호기심은 고양이만 죽이는 것이 아닙니다! MIT의 새로운 강화학습 알고리즘, 이번에는 에이전트가 어렵기도 하고 다 잡기 쉽다

논문 링크: https://williamd4112.github.io/pubs/neurips22_eipo.pdf

60개 이상의 비디오 게임에서 테스트한 후 이 알고리즘은 다양한 난이도의 탐색 작업에 성공할 수 있지만 이전 알고리즘은 쉬움 또는 어려움 난이도에서만 개별적으로 해결할 수 있습니다. 이는 AI 에이전트가 의사결정 규칙을 학습하고 인센티브를 극대화하는 데 더 적은 데이터를 사용할 수 있음을 의미합니다.

"탐사-활용 트레이드오프를 잘 이해하면 올바른 결정 규칙을 더 빨리 배울 수 있지만, 그렇지 않은 경우에는 많은 데이터가 필요하므로 생성된 결과가 차선책일 수 있습니다. 의료 솔루션 , 웹 사이트 수익은 감소했으며 로봇은 올바른 일을 수행하는 방법을 배우지 못하고 있습니다.”라고 연구 리더 중 한 명이자 MIT 교수이자 Improbable AI Lab 소장인 Pulkit Agrawal이 말했습니다.

호기심은 고양이를 죽일 뿐만 아니라!

심리학적 관점에서 호기심의 심리적 기반을 설명하는 것은 어려운 것 같습니다. 우리는 아직 이러한 도전 추구 행동의 근본적인 신경학적 원리를 깊이 이해하지 못했습니다.

강화 학습을 통해 이 프로세스는 감정적으로 "가지치기"되어 문제를 가장 기본적인 수준까지 제거하지만 기술적 구현은 상당히 복잡합니다.

기본적으로 에이전트는 감독이 부족하여 다양한 것을 시도할 때만 호기심을 가져야 하고, 감독이 있으면 호기심을 조정하고 호기심을 줄여야 합니다.

테스트 게임 작업의 대부분은 보상을 찾아 환경을 뛰어다니고 특정 목표를 달성하기 위해 긴 작업 목록을 수행하는 작은 에이전트로 구성됩니다. 이는 연구원의 알고리즘에 대한 논리적 테스트베드인 것 같습니다.

AI 호기심은 고양이만 죽이는 것이 아닙니다! MIT의 새로운 강화학습 알고리즘, 이번에는 에이전트가 어렵기도 하고 다 잡기 쉽다 "Mario Kart" 및 "Montezuma's Revenge"와 같은 게임에 대한 실험에서 연구원들은 위의 게임을 두 가지 범주로 나누었습니다.

에이전트가 더 적은 지침을 받는 드물게 감독되는 환경 "하드" 탐색 게임; 다른 하나는 "쉬운" 탐색 게임인 보다 집중적으로 감독되는 환경입니다.

Mario Kart에서 모든 보상을 제거하면 적이 언제 당신을 죽일지 알 수 없다고 가정해 보겠습니다. 동전을 모으거나 파이프를 뛰어넘어도 보상을 받을 수 없습니다. 에이전트는 마지막에 수행 방법만 알립니다. 이는 감독이 부족한 환경이므로 어려운 작업입니다. 호기심을 자극하는 알고리즘은 이런 종류의 작업에 매우 효과적입니다.

그리고 에이전트가 조밀하게 감독되는 환경, 즉 파이프 점프, 코인 수집, 적을 죽이는 것에 대한 보상이 있는 경우 최고의 성능은 호기심이 전혀 없는 알고리즘입니다. 따라가는 한 과정만 따라가시면 별도의 탐색 없이도 많은 것을 얻으실 수 있습니다.

AI 호기심은 고양이만 죽이는 것이 아닙니다! MIT의 새로운 강화학습 알고리즘, 이번에는 에이전트가 어렵기도 하고 다 잡기 쉽다 호기심을 조장하는 알고리즘을 사용하면 학습 속도가 매우 느려집니다.

호기심 많은 에이전트는 다양한 방법으로 빠르게 달리고, 돌아다니고, 게임 구석구석을 방문할 수도 있기 때문입니다. 이런 것들은 재미있지만 에이전트가 게임에서 성공하고 보상을 받는 데 도움이 되지 않습니다.

앞서 언급했듯이 강화 학습에서 호기심을 자극하고 호기심을 억제하는 알고리즘은 일반적으로 각각 희박 지도(어려움) 및 지도 집중(간단) 작업에 해당하며 혼합될 수 없습니다.

이번 MIT 팀의 새로운 알고리즘은 어떤 환경에서도 항상 좋은 성능을 발휘합니다.

향후 작업에는 수년 동안 심리학자들을 기쁘게 하고 괴롭게 했던 탐구, 즉 호기심의 적절한 척도로 돌아가는 것이 포함될 수 있습니다. 실제로 호기심을 수학적으로 정의하는 올바른 방법을 아는 사람은 아무도 없습니다.

MIT CSAIL 박사과정 학생인 Zhang Weihong은 다음과 같이 말했습니다.

탐색 알고리즘을 개선하여 관심 있는 문제에 맞게 알고리즘을 조정하세요. 어려운 문제를 해결하려면 호기심이 필요하지만 일부 문제에서는 호기심이 성과를 저하시킬 수 있습니다. 우리의 알고리즘은 탐색과 활용을 조정하는 균형 잡힌 부담을 제거합니다.

해결하는 데 일주일이 걸렸던 문제를 새로운 알고리즘을 사용하면 몇 시간 만에 만족스러운 결과를 얻을 수 있습니다.

그는 MIT의 CSAIL ME인 Eric Chen '22와 함께 이 작업에 대한 새로운 논문의 공동 저자입니다.

Carnegie Mellon University의 교사인 Deepak Pathak은 다음과 같이 말했습니다.

“호기심과 같은 본질적인 보상 메커니즘은 에이전트가 유용하고 다양한 행동을 발견하도록 안내하는 기초이지만, 이것이 주어진 작업을 잘 수행하는 기초가 되어서는 안 됩니다. 이는 AI에서 중요한 문제이며, 이 논문은 이러한 접근 방식이 게임에서 실제 로봇 에이전트로 어떻게 확장되는지 보는 것이 흥미로울 것입니다. 심리학과의 저명한 교수입니다. 캘리포니아대학교 버클리캠퍼스 철학과 부교수는 현재 AI와 인지과학의 가장 큰 과제 중 하나는 '탐색과 활용'의 균형을 맞추는 것이고, 후자는 정보 검색에 관한 것이라고 지적했습니다. 보상.

「이 논문은 인상적인 신기술을 사용하여 이 작업을 자동화하고, 세상에 대한 호기심과 보상에 대한 욕구의 균형을 체계적으로 조정할 수 있는 에이전트를 설계하여 AI 에이전트가 다음과 같은 방향으로 나아갈 수 있도록 합니다. 실제 어린이를 다음과 같은 방향으로 만드는 중요한 단계입니다. 최대한 똑똑하다"고 말했다.

참고자료:

https://techxplore.com/news/2022-11-bad-ai-curious.html

https://www.csail.mit.edu/news/ensuring-ai-works-right -용량-호기심

위 내용은 AI 호기심은 고양이만 죽이는 것이 아닙니다! MIT의 새로운 강화학습 알고리즘, 이번에는 에이전트가 '어렵기도 하고 다 잡기 쉽다'의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!