동맹을 얻고 사람의 마음을 이해하는 최신 메타 에이전트는 협상의 달인입니다.-일체 포함-php.cn

체스 그랜드 마스터 Garry Kasparov에 대한 Deep Blue의 승리부터 인간을 뛰어넘는 AlphaGo의 바둑 숙달, 포커에서 최고의 플레이어를 꺾은 Pluribus에 이르기까지 게임은 오랫동안 AI 발전의 증거가 되어 왔습니다. 그러나 진정으로 유용하고 전능한 에이전트는 단지 보드 게임을 하거나 체스 말을 옮기는 것만으로는 충분하지 않습니다. 질문하지 않을 수 없습니다. 인간처럼 전략적 목표를 달성하기 위해 언어를 사용하여 사람들과 협상하고 설득하고 협력할 수 있는 보다 효과적이고 유연한 에이전트를 구축할 수 있을까요?

게임 역사상 고전 테이블탑 게임인 Diplomacy. 이 게임을 처음 접하는 사람들은 맵 스타일의 보드에 충격을 받을 것입니다. 복잡한 전쟁 게임이라고 생각하십시오. 사실은 그렇지 않습니다. 이 게임은 동맹을 얻기 위해선 의사결정과 협상이 필요합니다. 게임에서 승리하는 열쇠는 사람들 간의 상호작용에 있습니다. .

이제 Meta는 이 게임에 대한 도전을 시작했습니다. 그들이 구축한 지능형 에이전트인 CICERO는 외교 분야에서 인간 수준에 도달한 최초의 AI가 되었습니다. CICERO는 webDiplomacy.net 온라인 버전에서 이를 시연했는데, 여기서 CICERO는 평균적으로 인간 플레이어의 두 배 이상의 점수를 얻었으며 두 개 이상의 게임을 플레이한 참가자 중 상위 10%에 들었습니다.

동맹을 얻고 사람의 마음을 이해하는 최신 메타 에이전트는 협상의 달인입니다.

논문 주소: https://www.science.org/doi/10.1126/science.ade9097
홈페이지 주소: https://ai.facebook.com/research/ cicero/diplomacy/

수십년 동안 외교는 AI 분야에서 극복할 수 없는 도전으로 여겨져 왔습니다. 왜냐하면 이 게임에서는 플레이어가 다른 사람의 동기와 관점을 이해하고 복잡한 계획을 세우고 전략을 조정해야 하기 때문입니다. 기본적으로 자연어는 다른 사람과 합의에 도달하고 다른 사람을 설득하여 파트너십과 동맹을 형성하는 데 사용됩니다. 이는 에이전트에게는 여전히 어려운 일이며 CICERO는 자연어를 사용하여 외교 플레이어와 협상하는 데 여전히 매우 효과적입니다.

체스와 바둑과 달리 외교는 기물이 아닌 사람에 관한 게임입니다. 에이전트가 상대방이 허세를 부리거나 실제로 방해 행위를 하는지 알 수 없으면 게임에서 빨리 패배하게 됩니다. 마찬가지로 에이전트가 인간처럼 의사소통하고, 공감을 표시하고, 다른 사람과 관계를 구축하고, 게임에 대해 이야기할 수 없다면 이에 협력하려는 다른 플레이어를 찾을 수 없습니다.

동맹을 얻고 사람의 마음을 이해하는 최신 메타 에이전트는 협상의 달인입니다.

Meta의 연구는 전략적 추론(예: AlphaGo, Pluribus)과 자연어 처리(예: GPT-3, BlenderBot 3, LaMDA, OPT-175B)를 결합합니다. 예를 들어, 게임 후반에 CICERO는 특정 플레이어의 지원이 필요할 것이라고 추론하고 CICERO는 그 사람의 호의를 얻기 위한 전략을 개발합니다.

동맹을 얻고 사람의 마음을 이해하는 최신 메타 에이전트는 협상의 달인입니다.

CICERO 구축 방법

CICERO의 핵심은 제어 가능한 대화 모델과 전략적 추론 엔진입니다. 게임의 모든 지점에서 CICERO는 게임 보드와 대화 기록을 살펴보고 다른 플레이어가 할 수 있는 작업을 모델링합니다. 그런 다음 언어 모델을 제어하고, 그 계획을 다른 플레이어에게 전달하고, 다른 플레이어에게 자신과 잘 조화되는 합리적인 조치를 제안하기 위한 계획이 개발됩니다.

Controllable Dialogue

Meta는 제어 가능한 대화 모델을 구축하기 위해 27억 개의 매개변수가 있는 BART와 유사한 언어 모델에서 시작하여 인터넷의 텍스트와 40,000개 이상의 인간 게임에 대해 사전 훈련되었습니다. webDiplomacy.net에서 미세 조정되었습니다.

구현 과정은 크게 다음 단계로 나누어집니다.

1단계: 보드 상태와 현재 대화를 바탕으로 CICERO는 모두가 무엇을 만들 것인지에 대한 예비 예측을 제공합니다.

동맹을 얻고 사람의 마음을 이해하는 최신 메타 에이전트는 협상의 달인입니다.

2단계: CICERO는 초기 예측을 반복적으로 개선한 다음 개선된 예측을 사용하여 자신과 파트너를 위한 의도를 형성합니다.

동맹을 얻고 사람의 마음을 이해하는 최신 메타 에이전트는 협상의 달인입니다.

3단계: 보드 상태, 대화 및 의도를 기반으로 여러 후보 메시지를 생성합니다.

동맹을 얻고 사람의 마음을 이해하는 최신 메타 에이전트는 협상의 달인입니다.

4단계: 후보 메시지를 필터링하고, 가치를 극대화하고, 서로 일관된 의도를 보장합니다.

동맹을 얻고 사람의 마음을 이해하는 최신 메타 에이전트는 협상의 달인입니다.

연구원들은 대화의 품질을 더욱 향상시키기 위해 몇 가지 필터링 메커니즘을 사용했습니다. 예를 들어 훈련된 분류기를 사용하여 인간과 모델 생성 텍스트를 구별하여 대화가 합리적이고 현재와 일치하는지 확인합니다. 게임 상태 및 이전 메시지는 일관되고 전략적으로 타당합니다.

대화 인식 전략 및 계획

협력이 포함된 게임에서 에이전트는 인간을 기계로 대하고 에이전트가 지시하도록 하기보다는 인간이 실제 생활에서 실제로 무엇을 하는지 시뮬레이션하는 방법을 배워야 합니다. 완료. 따라서 Meta는 CICERO가 개발한 계획이 다른 행위자들과의 대화와 일치하기를 바랍니다.

동맹을 얻고 사람의 마음을 이해하는 최신 메타 에이전트는 협상의 달인입니다.

인간 모델링의 고전적인 방법은 지도 학습으로, 레이블이 지정된 데이터(예: 과거 게임에서 인간 플레이어의 행동 데이터베이스)를 사용하여 에이전트를 교육합니다. 그러나 과거 대화를 기반으로 행동을 선택하기 위해 지도 학습에만 의존하면 에이전트가 상대적으로 약하고 쉽게 악용될 수 있습니다. 예를 들어, 플레이어는 에이전트에게 "귀하의 군대를 파리에서 멀리 이동시키는 데 동의하게 되어 기쁘게 생각합니다!"라고 말할 수 있습니다. 유사한 정보는 합의에 도달한 경우에만 훈련 데이터에 나타나므로 에이전트는 실제로 군대를 멀리 이동할 수 있습니다. 그렇게 하는 것은 명백한 전략적 실수임에도 불구하고 파리에서 왔습니다.

이 문제를 해결하기 위해 CICERO는 대화의 일관성과 합리성의 균형을 맞추기 위해 반복 계획 알고리즘을 실행합니다. 에이전트는 먼저 다른 플레이어와의 대화를 기반으로 현재 턴에 대한 각 플레이어의 전략을 예측하고, 또한 다른 플레이어가 에이전트의 전략이 어떻게 될 것이라고 생각하는지 예측합니다. 그런 다음 "piKL"이라는 계획 알고리즘을 실행하여 다른 플레이어가 예측한 전략을 바탕으로 더 높은 기대 값을 가진 새로운 전략을 선택하고 원래 전략에 가까운 새로운 예측을 시도함으로써 이러한 예측을 반복적으로 개선합니다. 예측. 연구원들은 piKL이 순수 지도 학습보다 인간 게임을 더 잘 시뮬레이션하고 에이전트에 더 나은 전략을 제공할 수 있음을 발견했습니다.

동맹을 얻고 사람의 마음을 이해하는 최신 메타 에이전트는 협상의 달인입니다.

자연스럽고 목적이 있는 대화 생성

외교에서는 플레이어가 자신의 말을 움직이는 방법보다 서로 대화하는 방법이 훨씬 더 중요합니다. CICERO는 다른 플레이어와 전략을 세울 때 명확하고 설득력 있게 소통할 수 있습니다. 예를 들어, 한 데모에서 CICERO는 한 플레이어에게 보드의 특정 부분을 즉시 지원하도록 요청하고 다른 플레이어에게는 게임 후반에 동맹을 고려하도록 압력을 가했습니다.

동맹을 얻고 사람의 마음을 이해하는 최신 메타 에이전트는 협상의 달인입니다.

교환 중에 CICERO는 세 명의 다른 플레이어에게 행동을 제안하여 전략을 실행하려고 합니다. 두 번째 대화에서 에이전트는 다른 플레이어에게 협력해야 하는 이유와 이것이 양측 모두에게 어떻게 도움이 되는지 알려줄 수 있습니다. 이 세 번째 대화에서 CICERO는 정보를 요청하고 향후 조치를 위한 기반을 마련하고 있습니다.

단점

CICERO도 때때로 일관성 없는 대화를 만들어 목표를 달성하지 못한다는 점을 인정해야 합니다. 아래 예에서 CICERO는 오스트리아를 연기하지만 에이전트는 첫 번째 메시지와는 반대로 이탈리아에게 베니스로 이동할 것을 요청합니다.

동맹을 얻고 사람의 마음을 이해하는 최신 메타 에이전트는 협상의 달인입니다.

"외교"를 통해 인간-AI 상호작용의 샌드박스를 발전시키세요

협력과 경쟁이 모두 포함된 게임에서는 AI가 상호작용하는 데 매우 중요한 목표 지향적 대화 시스템이 등장했습니다. 이는 의도와 목표를 일치시키는 측면에서 중요한 사회적, 기술적 과제를 제시합니다. 외교는 이 문제를 연구하는 데 특히 흥미로운 환경을 제공합니다. 게임을 하려면 상충되는 목표와 씨름하고 이러한 복잡한 목표를 자연어로 번역해야 하기 때문입니다. 간단한 예로, 플레이어는 동맹국이 다음 턴에 더 나은 위치에 오르는 데 도움이 될 수 있기 때문에 동맹국과의 관계를 유지하기 위해 단기적인 이익을 타협하기로 선택할 수 있습니다.

Meta가 이 작업에서 상당한 진전을 이루었지만 언어 모델을 구체적인 의도와 강력하게 결합하는 능력은 물론 이러한 의도를 결정하는 기술적(및 규범적) 과제는 여전히 중요한 문제로 남아 있습니다. Meta는 CICERO 코드를 오픈 소스화함으로써 AI 연구자들이 책임감 있는 방식으로 이 작업을 계속해서 구축할 수 있기를 바랍니다. 팀은 “제로샷 분류를 위한 대화 모델을 사용함으로써 이 새로운 분야에서 유해한 정보를 탐지하고 제거하는 초기 단계를 밟았습니다. ‘외교’가 인간-AI 상호작용을 발전시키는 안전한 샌드박스 역할을 할 수 있기를 바랍니다. 연구. "