기계가 미리 생각할 때 : 전략 AI의 상승
Feb 26, 2025 am 03:06 AM프롤로그

뉴욕시의 아름다운 봄날이었습니다. 하늘은 깨끗했고 온도는 섭씨 20 도로 올라가고있었습니다. 양키스는 양키 스타디움에서 캔자스 시티 로열스 (Kansas City Royals)를 뛸 준비가되었고, 레인저스는 매디슨 스퀘어 가든 (Madison Square Garden)의 악마와 대결했습니다.
. 인간을 대표하는 것은 게리 카스파 로프 (Gary Kasparov)였으며 당시 세계 최고의 체스 선수로 널리 인정되었습니다. 기계를 나타내는 Deep Blue - IBM이 개발 한 체스 컴퓨터. 경기의 마지막 경기와 6 번째 경기에 들어가면 두 선수 모두 2.5 점을 얻었습니다. 오늘 우승자가 결정되었다.
Gary는 검은 색으로 시작했지만 초기 오류를 일으켜 Deep Blue의 강력하고 공격적인 공격에 직면했습니다. 단지 19 개의 움직임이 끝난 후에는 끝났습니다. 카스파 로프 (Kasparov)는 민주화되고 압력을 받고 사임하면서 자신의 입장을 견딜 수 없다고 믿었다. 상징적이고 많은 사람들이 사람과 기계 사이의 가장 중요한 순간 중 하나로 환영받는 사람들은 사실이었습니다. 이 획기적인 사건은 AI 개발의 전환점이되어 전략 AI의 잠재력과 도전을 강조했습니다.소개
전략 ai
라고 말할 때 정확히 무엇을 의미합니까? 핵심적으로 전략적 AI는 잠재적 인 행동을 고려할뿐만 아니라 다른 사람들의 반응을 예상하고 영향을 미치는 결정을 내리는 기계를 포함합니다. 복잡하고 불확실한 환경에서 예상 결과를 극대화하는 것입니다이 기사에서는 전략적 AI를 정의하고 1997 년 IBM의 Deep Blue Beat Kasparov 이후 몇 년 동안 그것이 무엇인지, 어떻게 발전했는지 탐구합니다. 우리는 일부 모델의 일반적인 아키텍처를 이해하려고 노력할 것입니다. 또한 LLM (Langues Models)이 그림에 얼마나 적합한 지 살펴보십시오. 이러한 추세와 발전을 이해함으로써 우리는 자율 AI 요원이 사회에 통합되는 세상을 더 잘 준비 할 수 있습니다.
전략의 게임 이론적 관점은 전략적 의사 결정의 본질을 포착하여 결과적으로 전략적 AI가 우리가 의미하는 바를 명확하게 정의 할 수있게 해줍니다. 정의에서 우리는 AI 시스템이나 에이전트가 전략적으로 행동 해야하는 경우 몇 가지 핵심 기능이 필요하다는 것을 알 수 있습니다. 구체적으로, 그것은 다음을 수행 할 수 있어야한다 :
모델 모델 (예측 기술 또는 확률 적 추론 사용
예상 유틸리티를 기반으로 동작을 최적화하십시오
다른 에이전트의 전략에 대한 새로운 정보를 수집 할 때 동적으로 적응 .
현재는 잘 알려진 잘 알려진 시스템이 없으며,이 시스템은 실제 세계에서 자율적 인 방식으로 이러한 모든 행동을 할 수 있습니다. 그러나 최근 AI 시스템의 발전과 변화가있을 수있는 LLM의 급속한 상승을 감안할 때! -
게임 이론의 다른 중요한 개념
전략 AI에 대한 추가 논의를 진행하기 전에 게임 이론에서 일부 개념과 아이디어를 검토하는 것이 유용 할 수 있습니다. 전략적 AI를 중심으로 한 많은 작업은 게임 이론 개념의 토대를 가지고 있으며 게임 이론의 이론을 사용하면 일부 게임과 상황이 다른 게임보다 쉽게 다룰 수있는 특정 속성의 존재를 보여줄 수 있습니다. 또한 실제 상황과 관련하여 게임 이론의 단점 중 일부를 강조하고 영감을 얻기 위해 다른 방향을 보는 것이 더 나을 수있는 곳을 강조합니다. .
게임이란 무엇입니까?
우리는 게임을 세 가지 주요 구성 요소로 구성된 수학적 모델로 정의합니다.
-
플레이어 : 개인 또는 단체가 결정을 내립니다
전략
: 각 플레이어가 채택 할 수있는 가능한 조치 또는 계획.
Payoffs
: 각 플레이어가 선택한 전략을 기반으로받는 보상 또는 결과.
이 공식적인 구조는 전략적 상호 작용 및 의사 결정 과정에 대한 체계적인 연구를 허용합니다.
유한과 무한 게임
게임에서 말할 때 유한 게임과 무한 게임의 차이점을 보는 것이 합리적입니다.
유한 게임에는 고정 된 플레이어 세트, 정의 규칙 및 명확한 엔드 포인트가 있습니다. 목표는이기는 것이며, 사례에는 체스, Go, 체커 및 대부분의 전통적인 보드 게임이 포함됩니다.
반면에 무한 게임에는 미리 정해진 엔드 포인트가 없으며 규칙은 시간이 지남에 따라 진화 할 수 있습니다. 목표는이기는 것이 아니라 계속 연주하는 것입니다. 비즈니스 경쟁이나 사회적 진화와 같은 실제 시나리오는 무한 게임으로 볼 수 있습니다. 냉전은 무한 게임의 예로 볼 수 있습니다. 그것은 미국과 동맹국들 (서부)과 소비에트 연방과 동맹국 (동아시아) 사이의 지정 학적 투쟁이었습니다. 갈등은 고정 된 종말점이 없었으며 전략과 "규칙"은 시간이 지남에 따라 진화했습니다.
서브 게임
때때로 우리는 더 큰 게임 컨텍스트에서 작은 게임을 찾을 수 있습니다. 수학적으로 서브 게임은 자체적으로 자체 포함 된 게임이며 몇 가지 다른 기준을 충족시켜야 할 필요성이 있습니다.
서브 게임은 플레이어가 게임의 위치를 정확히 알고있는 지점에서 시작됩니다.
그것은 그 시점에서 따를 수있는 모든 가능한 조치와 결과를 포함합니다. - .
그것은 그러한 행동과 관련된 모든 플레이어의 지식과 불확실성을 포함합니다.
전체 게임을 나타내는 큰 트리를 상상하면 서브 게임을 시각화 할 수 있습니다. 하위 게임은 특정 지점 (노드)에서 시작 하여이 트리의 분기를 선택하고 그로부터 확장되는 모든 것을 포함하는 동시에이 분기 내에서 불확실성이 완전히 표시되도록 보장합니다. - .
하위 게임의 핵심 아이디어는 전략 AI에 대한 토론에 유용합니다. 그 이유는 주로 플레이어들 사이의 일부 무한 게임이 매우 복잡하고 모델링하기 어려울 수 있지만, 그 게임 내에서 작은 게임을 보려면 게임 이론적 분석을 더 많이 적용 할 수 있기 때문입니다.
.
냉전으로 무한 게임으로 우리의 예로 돌아 오면 해당 컨텍스트 내에서 여러 서브 게임을 인식 할 수 있습니다. 몇 가지 예는 다음과 같습니다.
- 쿠바 미사일 위기 (1962) :
선수 : 미국과 소비에트 연방.
전략 : 미국은 외교 협상에서 군사 침공에 이르기까지 다양한 옵션을 고려한 반면, 소비에트 연방은 미사일을 제거 할 것인지 대결을 확대할지 여부를 결정해야했습니다.
지불금 : 핵전쟁을 피하고, 전 세계 이미지 유지 및 전략적 군사 포지셔닝을 피하십시오.
베를린 봉쇄와 공수 (1948–1949) :
- 선수 : 서구 동맹국과 소비에트 연방
전략 : 소비에트는 베를린을 막아 동맹국을 밀어내는 반면, 동맹국은 도시를 포기하거나 공기를 통해 공급하는 것 사이를 결정해야했습니다.
-
지불금 : 베를린을 통제하고, 정치적 결의를 보여주고, 유럽 조정에 영향을 미치는 것.
물론 다루기가 매우 어렵고 복잡하지만 두 "서브 게임"은 냉전 전체보다 분석하고 응답을 개발하기가 더 쉽습니다. 그들은 정의 된 플레이어 세트, 제한된 전략과 보수 세트, 그리고 더 명확한 기간을 가지고있었습니다. 이로 인해 게임 이론적 분석에 더 적용 할 수 있습니다.
전략 AI의 맥락에서, 이러한 하위 게임을 분석하는 것은 복잡하고 역동적 인 환경에서 최적의 결정을 내릴 수있는 지능형 시스템을 개발하는 데 중요합니다.
두 플레이어 게임
두 플레이어 게임은 단순히 두 선수 사이의 게임입니다. 이것은 예를 들어 두 체스 선수 사이의 게임이거나 냉전 예인 서쪽 대 동쪽으로 돌아올 수 있습니다. 게임에 두 명의 플레이어 만 있으면 분석이 단순화되지만 여전히 필수 경쟁 또는 협력 역학을 포착합니다. 게임 이론의 많은 결과는 두 플레이어 게임을 기반으로합니다. 제로 --섬 게임
Zero-Sum 게임은 한 선수의 이득이 다른 플레이어의 손실 인 게임의 하위 집합입니다. 총 보상은 일정하게 유지되며 플레이어는 직접 경쟁하고 있습니다.
내쉬 평형 및 최적의 동작
NASH 평형 (NE)은 다른 플레이어가 변하지 않는다고 가정 할 때 일방적으로 자신의 전략을 변경함으로써 플레이어가 추가 혜택을 얻을 수없는 일련의 전략입니다. 이 상태에서 각 플레이어의 전략은 다른 플레이어의 전략에 대한 최상의 반응으로, 어떤 플레이어도 이탈 할 인센티브가없는 안정적인 결과로 이어집니다.
.
예를 들어, 게임 록 파이퍼-가위 (RPS)에서 NE는 모든 플레이어가 무작위로 록, 종이 및 가위를 연주하는 상태입니다. 플레이어로서 NE 전략을 플레이하기로 선택한 경우 다른 플레이어가 플레이를 악용 할 수없고 두 명의 플레이어 제로섬 게임에서는 기대치를 잃지 않을 것이며 최악의 상황이라는 것을 알 수 있습니다. 파손도됩니다.
그러나, NE 전략을하는 것이 항상 최적의 전략이 아닐 수도 있습니다. 특히 상대방이 예측할 수있는 차선책으로 플레이하는 경우. 플레이어 B가 종이를 더 많이 연주하기 시작하면 플레이어 A는 이것을 인식하고 가위를 연주하는 빈도를 높일 수 있습니다. 그러나 A 와의이 편차는 다시 B에 의해 다시 악용 될 수 있으며, 이는 더 많은 바위를 바꿀 수 있습니다.
전략적 ai 에 관한 주요 테이크 아웃
게임 이론 개념을 검토하면 서브 게임의 아이디어가 전략적 AI에 특히 유용한 것 같습니다. 더 큰 맥락에서 게임을 분석하는 것이 작고 쉽게 분석 할 수있는 기능을 통해 이미 알고있는 솔루션과 솔버를 쉽게 적용 할 수 있습니다.
예를 들어, , 당신이 당신의 경력을 개발하기 위해 노력하고 있다고 가정 해 봅시다. 이는 무한 게임으로 분류되고 "해결하기 어려운"일이지만 갑자기 새로운 계약을 협상 할 수있는 기회를 얻습니다. 이 협상 프로세스는 경력 내에서 하위 게임의 기회를 제공하며 게임 이론 개념을 사용하는 전략적 AI에 훨씬 더 접근하기 쉬울 것입니다.
.
실제로, 인간은 수천 년 동안 우리 삶에서 서브 게임을 만들어 왔습니다. 약 1500 년 전 인도에서 우리는 현재 체스로 알려진 기원을 만들었습니다. 체스는 AI가 이길 수있는 과제로 판명되었지만 훨씬 더 복잡하고 어려운 전략적 상황에 사용될 수있는 더 성숙한 도구와 기술을 개발할 수있었습니다. . 게임에서 전략적 AI의 짧은 역사
게임은 전략적 AI를 개발하기위한 놀라운 입증 근거를 제공했습니다. 게임의 닫힌 특성으로 인해 개방형 시스템보다 모델을 더 쉽게 훈련시키고 솔루션 기술을 개발할 수 있습니다. 게임은 명확하게 정의됩니다. 플레이어는 알려져 있으며 보상도 마찬가지입니다. 가장 크고 초기의 이정표 중 하나는 딥 블루 (Deep Blue)였습니다.
초기 이정표 : 딥 블루
Deep Blue는 1990 년대 IBM이 개발 한 체스 플레이 슈퍼 컴퓨터였습니다. 프롤로그에서 언급 한 바와 같이, 1997 년 5 월에 6 경기 경기에서 지배하는 세계 체스 챔피언 Garry Kasparov를 물리 쳤다. Deep Blue는 초당 2 억 체스 위치를 평가할 수있는 특수 하드웨어 및 알고리즘을 사용했습니다. Brute-Force 검색 기술과 휴리스틱 평가 기능을 결합하여 이전 시스템보다 잠재적 인 이동 시퀀스를 더 깊이 검색 할 수있었습니다. Deep Blue Special을 만든 것은 체스의 조합 복잡성을 효과적으로 처리하고 인공 지능에서 중요한 이정표를 표시하는 방대한 수의 위치를 빠르게 처리하는 능력이었습니다.
그러나 Gary Kasparov가 Lex Fridman¹과의 인터뷰에서 언급했듯이 Deep Blue는 다른 어떤 것보다 무차별 인 힘 기계에 가깝기 때문에 모든 유형의 지능으로 자격을 갖추기가 어려울 수 있습니다. 검색의 핵심은 기본적으로 시행 착오입니다. 그리고 오류에 관해 말하면, 그것은 인간보다 오류가 훨씬 적으며, Kasparov에 따르면 이것은 이길 수없는 특징 중 하나입니다. .
복잡한 게임의 발전 : Alphago
체스에서 딥 푸른 승리를 거친 지 19 년이 지난 지금, 구글의 깊은 사람의 한 팀은 AI 역사상 특별한 순간에 기여할 또 다른 모델을 만들어 냈습니다. 2016 년 Alphago는 세계 챔피언 GO 선수 인 Lee Sedol을 물리 치는 최초의 AI 모델이되었습니다.
GO는 아시아에서 기원을 가진 매우 오래된 보드 게임으로, 깊은 복잡성과 수많은 가능한 직책으로 유명하며 체스에서 훨씬 더 많은 위치를 초과합니다. Alphago는 깊은 신경 네트워크와 Monte Carlo Tree 검색을 결합하여 위치를 평가하고 계획을 효과적으로 평가할 수 있습니다. Alphago가 추론에 더 많은 시간을 주었다.
AI는 인간 전문가 게임의 데이터 세트를 훈련시키고 자체 놀이를 통해 더욱 향상되었습니다. Alphago Special을 만든 것은 고급 머신 러닝 기술을 활용하여 이전에 AI Mastery에 저항하는 것으로 생각되는 도메인에서 초인간적 성능을 달성하기 위해 GO의 복잡성을 처리하는 능력이었습니다.는 보드 상태를 깊이 평가하고 움직임을 선택할 수있는 탁월한 능력을 감안할 때 Alphago가 Deep Blue보다 더 많은 지능을 전시한다고 주장 할 수 있습니다. Lee Sedol과의 2016 경기에서 37 번 이동은 전형적인 예입니다. Go에 익숙한 사람들에게는 5 번 라인에서 어깨 히트였으며 처음에는 Lee Sedol 자신을 포함한 해설자들을 당황했습니다. 그러나 나중에 분명 해지면서, 움직임은 훌륭한 플레이였으며 Alphago가 인간 플레이어가 간과하고 무시할 수있는 전략을 탐색하는 방법을 보여주었습니다. .
체스와 GO를 결합 : 알 파자로
1 년 후, Google Deepmind는 다시 헤드 라인을 만들었습니다. 이번에는 Alphago에서 많은 학습을 취하고 Alphazero를 만들었습니다. Alphazero는 체스를 마스터하는 일반 목적 AI 시스템과 Go and Shogi를 만들었습니다. 연구원들은 사전 인간의 지식이나 데이터없이 자체 놀이 및 강화 학습을 통해 전적으로 AI를 구축 할 수있었습니다. 수제 평가 기능 및 광범위한 오프닝 라이브러리에 의존하는 전통적인 체스 엔진과 달리 Alphazero는 깊은 신경망과 몬테 카를로 트리 검색을 자체 학습과 결합한 새로운 알고리즘을 사용했습니다.
시스템은 기본 규칙만으로 시작했으며 수백만의 게임 자체에 대해 최적의 전략을 배웠습니다. Alphazero Special을 특별하게 만든 것은 창의적이고 효율적인 전략을 발견하는 능력이었습니다.
속도와 전략 통합 : 스타 크래프트 II
AI 공간에서 지배를 계속하면서 Google Deepmind 팀은 인기있는 컴퓨터 게임 인 Starcraft II로 초점을 바꿨습니다. 2019 년에 그들은 Alphastar²라는 AI를 개발하여 Grandmas
Starcraft II는 DeepMind 팀에게 몇 가지 새로운 도전을 제공하는 실시간 전략 게임입니다. 이 게임의 목표는 자원을 모으고, 건물을 건설하고 상대를 물리 칠 수있는 군대를 축적함으로써 상대 선수 나 플레이어를 정복하는 것입니다. 이 게임의 주요 과제는 고려해야 할 막대한 행동 공간, 실시간 의사 결정, 전쟁의 안개로 인한 부분적 관찰 가능성 및 장기 전략 계획의 필요성, 일부 게임은 몇 시간 동안 지속될 수 있으므로 발생합니다. 자체 플레이 및 심층 신경망을 통한 강화 학습과 같은 이전 AI를 위해 개발 된 일부 기술을 구축함으로써 팀은 고유 한 게임 엔진을 만들 수있었습니다. 첫째, 그들은 감독 학습과 인간 놀이를 사용하여 신경 그물을 훈련시켰다. 그런 다음 그들은 다중 에이전트 게임 프레임 워크에서 스스로 재생할 수있는 또 다른 알고리즘을 시드하는 데 사용했습니다. DeepMind 팀은 에이전트가 서로에 대한 전략을 탐색 할 수 있고 지배적 인 전략이 보상되는 가상 리그를 만들었습니다. 궁극적으로 그들은 리그의 전략을 많은 다른 상대와 전략에 효과적 일 수있는 슈퍼 전략으로 결합했습니다. 그들 자신의 말로 :
최종 알파스타 에이전트는 리그의 NASH 분포의 구성 요소로 구성됩니다. 즉, 단일 데스크탑 GPU에서 실행되는 가장 효과적인 전략의 혼합. >
Pluribus와 Poker 로의 깊은 다이빙
나는 포커를하는 것을 좋아하고, 트론 하임에서 살고 공부할 때, 우리는 매주 현금 게임을했습니다. 전략적 AI에 의해 일식 된 마지막 이정표 중 하나는 포커 게임에있었습니다. 특히, 가장 인기있는 포커 형태 중 하나 인 6 플레이어 No-Limit Texas Hold'em. 이 게임에서 우리는 52 장의 카드를 가진 일반 카드 데크를 사용하며 연극은 다음 구조를 따릅니다.
프리 플롭 : 모든 플레이어는 2 개의 카드 (홀 카드)가 주어집니다.
플롭 : .
턴 : 다른 카드가 그려져 얼굴을 얹습니다.
강 : 마지막 5 번째 카드가 그려져 얼굴을 얹습니다.
-
모델 모델 (예측 기술 또는 확률 적 추론 사용
예상 유틸리티를 기반으로 동작을 최적화하십시오
다른 에이전트의 전략에 대한 새로운 정보를 수집 할 때 동적으로 적응 .
-
게임 이론의 다른 중요한 개념 전략 AI에 대한 추가 논의를 진행하기 전에 게임 이론에서 일부 개념과 아이디어를 검토하는 것이 유용 할 수 있습니다. 전략적 AI를 중심으로 한 많은 작업은 게임 이론 개념의 토대를 가지고 있으며 게임 이론의 이론을 사용하면 일부 게임과 상황이 다른 게임보다 쉽게 다룰 수있는 특정 속성의 존재를 보여줄 수 있습니다. 또한 실제 상황과 관련하여 게임 이론의 단점 중 일부를 강조하고 영감을 얻기 위해 다른 방향을 보는 것이 더 나을 수있는 곳을 강조합니다. .게임이란 무엇입니까?
우리는 게임을 세 가지 주요 구성 요소로 구성된 수학적 모델로 정의합니다.
- 플레이어 : 개인 또는 단체가 결정을 내립니다 전략 : 각 플레이어가 채택 할 수있는 가능한 조치 또는 계획. Payoffs
선수 : 미국과 소비에트 연방.
: 미국은 외교 협상에서 군사 침공에 이르기까지 다양한 옵션을 고려한 반면, 소비에트 연방은 미사일을 제거 할 것인지 대결을 확대할지 여부를 결정해야했습니다. 지불금 : 핵전쟁을 피하고, 전 세계 이미지 유지 및 전략적 군사 포지셔닝을 피하십시오.
베를린 봉쇄와 공수 (1948–1949) : 유한과 무한 게임
내쉬 평형 및 최적의 동작
에 관한 주요 테이크 아웃
게임 이론 개념을 검토하면 서브 게임의 아이디어가 전략적 AI에 특히 유용한 것 같습니다. 더 큰 맥락에서 게임을 분석하는 것이 작고 쉽게 분석 할 수있는 기능을 통해 이미 알고있는 솔루션과 솔버를 쉽게 적용 할 수 있습니다.
예를 들어, , 당신이 당신의 경력을 개발하기 위해 노력하고 있다고 가정 해 봅시다. 이는 무한 게임으로 분류되고 "해결하기 어려운"일이지만 갑자기 새로운 계약을 협상 할 수있는 기회를 얻습니다. 이 협상 프로세스는 경력 내에서 하위 게임의 기회를 제공하며 게임 이론 개념을 사용하는 전략적 AI에 훨씬 더 접근하기 쉬울 것입니다.
.
.
초기 이정표 : 딥 블루
.
복잡한 게임의 발전 : Alphago
체스에서 딥 푸른 승리를 거친 지 19 년이 지난 지금, 구글의 깊은 사람의 한 팀은 AI 역사상 특별한 순간에 기여할 또 다른 모델을 만들어 냈습니다. 2016 년 Alphago는 세계 챔피언 GO 선수 인 Lee Sedol을 물리 치는 최초의 AI 모델이되었습니다.
GO는 아시아에서 기원을 가진 매우 오래된 보드 게임으로, 깊은 복잡성과 수많은 가능한 직책으로 유명하며 체스에서 훨씬 더 많은 위치를 초과합니다. Alphago는 깊은 신경 네트워크와 Monte Carlo Tree 검색을 결합하여 위치를 평가하고 계획을 효과적으로 평가할 수 있습니다. Alphago가 추론에 더 많은 시간을 주었다.
AI는 인간 전문가 게임의 데이터 세트를 훈련시키고 자체 놀이를 통해 더욱 향상되었습니다. Alphago Special을 만든 것은 고급 머신 러닝 기술을 활용하여 이전에 AI Mastery에 저항하는 것으로 생각되는 도메인에서 초인간적 성능을 달성하기 위해 GO의 복잡성을 처리하는 능력이었습니다.는 보드 상태를 깊이 평가하고 움직임을 선택할 수있는 탁월한 능력을 감안할 때 Alphago가 Deep Blue보다 더 많은 지능을 전시한다고 주장 할 수 있습니다. Lee Sedol과의 2016 경기에서 37 번 이동은 전형적인 예입니다. Go에 익숙한 사람들에게는 5 번 라인에서 어깨 히트였으며 처음에는 Lee Sedol 자신을 포함한 해설자들을 당황했습니다. 그러나 나중에 분명 해지면서, 움직임은 훌륭한 플레이였으며 Alphago가 인간 플레이어가 간과하고 무시할 수있는 전략을 탐색하는 방법을 보여주었습니다. .
체스와 GO를 결합 : 알 파자로
1 년 후, Google Deepmind는 다시 헤드 라인을 만들었습니다. 이번에는 Alphago에서 많은 학습을 취하고 Alphazero를 만들었습니다. Alphazero는 체스를 마스터하는 일반 목적 AI 시스템과 Go and Shogi를 만들었습니다. 연구원들은 사전 인간의 지식이나 데이터없이 자체 놀이 및 강화 학습을 통해 전적으로 AI를 구축 할 수있었습니다. 수제 평가 기능 및 광범위한 오프닝 라이브러리에 의존하는 전통적인 체스 엔진과 달리 Alphazero는 깊은 신경망과 몬테 카를로 트리 검색을 자체 학습과 결합한 새로운 알고리즘을 사용했습니다.
시스템은 기본 규칙만으로 시작했으며 수백만의 게임 자체에 대해 최적의 전략을 배웠습니다. Alphazero Special을 특별하게 만든 것은 창의적이고 효율적인 전략을 발견하는 능력이었습니다.
속도와 전략 통합 : 스타 크래프트 II
AI 공간에서 지배를 계속하면서 Google Deepmind 팀은 인기있는 컴퓨터 게임 인 Starcraft II로 초점을 바꿨습니다. 2019 년에 그들은 Alphastar²라는 AI를 개발하여 Grandmas
Starcraft II는 DeepMind 팀에게 몇 가지 새로운 도전을 제공하는 실시간 전략 게임입니다. 이 게임의 목표는 자원을 모으고, 건물을 건설하고 상대를 물리 칠 수있는 군대를 축적함으로써 상대 선수 나 플레이어를 정복하는 것입니다. 이 게임의 주요 과제는 고려해야 할 막대한 행동 공간, 실시간 의사 결정, 전쟁의 안개로 인한 부분적 관찰 가능성 및 장기 전략 계획의 필요성, 일부 게임은 몇 시간 동안 지속될 수 있으므로 발생합니다. 자체 플레이 및 심층 신경망을 통한 강화 학습과 같은 이전 AI를 위해 개발 된 일부 기술을 구축함으로써 팀은 고유 한 게임 엔진을 만들 수있었습니다. 첫째, 그들은 감독 학습과 인간 놀이를 사용하여 신경 그물을 훈련시켰다. 그런 다음 그들은 다중 에이전트 게임 프레임 워크에서 스스로 재생할 수있는 또 다른 알고리즘을 시드하는 데 사용했습니다. DeepMind 팀은 에이전트가 서로에 대한 전략을 탐색 할 수 있고 지배적 인 전략이 보상되는 가상 리그를 만들었습니다. 궁극적으로 그들은 리그의 전략을 많은 다른 상대와 전략에 효과적 일 수있는 슈퍼 전략으로 결합했습니다. 그들 자신의 말로 :
최종 알파스타 에이전트는 리그의 NASH 분포의 구성 요소로 구성됩니다. 즉, 단일 데스크탑 GPU에서 실행되는 가장 효과적인 전략의 혼합. >
Pluribus와 Poker 로의 깊은 다이빙
나는 포커를하는 것을 좋아하고, 트론 하임에서 살고 공부할 때, 우리는 매주 현금 게임을했습니다. 전략적 AI에 의해 일식 된 마지막 이정표 중 하나는 포커 게임에있었습니다. 특히, 가장 인기있는 포커 형태 중 하나 인 6 플레이어 No-Limit Texas Hold'em. 이 게임에서 우리는 52 장의 카드를 가진 일반 카드 데크를 사용하며 연극은 다음 구조를 따릅니다.
프리 플롭 : 모든 플레이어는 2 개의 카드 (홀 카드)가 주어집니다.
플롭 : .
턴 : 다른 카드가 그려져 얼굴을 얹습니다.
강 : 마지막 5 번째 카드가 그려져 얼굴을 얹습니다.
.
자체 플레이 및 심층 신경망을 통한 강화 학습과 같은 이전 AI를 위해 개발 된 일부 기술을 구축함으로써 팀은 고유 한 게임 엔진을 만들 수있었습니다. 첫째, 그들은 감독 학습과 인간 놀이를 사용하여 신경 그물을 훈련시켰다. 그런 다음 그들은 다중 에이전트 게임 프레임 워크에서 스스로 재생할 수있는 또 다른 알고리즘을 시드하는 데 사용했습니다. DeepMind 팀은 에이전트가 서로에 대한 전략을 탐색 할 수 있고 지배적 인 전략이 보상되는 가상 리그를 만들었습니다. 궁극적으로 그들은 리그의 전략을 많은 다른 상대와 전략에 효과적 일 수있는 슈퍼 전략으로 결합했습니다. 그들 자신의 말로 :
최종 알파스타 에이전트는 리그의 NASH 분포의 구성 요소로 구성됩니다. 즉, 단일 데스크탑 GPU에서 실행되는 가장 효과적인 전략의 혼합. >
Pluribus와 Poker 로의 깊은 다이빙
나는 포커를하는 것을 좋아하고, 트론 하임에서 살고 공부할 때, 우리는 매주 현금 게임을했습니다. 전략적 AI에 의해 일식 된 마지막 이정표 중 하나는 포커 게임에있었습니다. 특히, 가장 인기있는 포커 형태 중 하나 인 6 플레이어 No-Limit Texas Hold'em. 이 게임에서 우리는 52 장의 카드를 가진 일반 카드 데크를 사용하며 연극은 다음 구조를 따릅니다.
프리 플롭 : 모든 플레이어는 2 개의 카드 (홀 카드)가 주어집니다.
플롭 : .
턴 : 다른 카드가 그려져 얼굴을 얹습니다.
강 : 마지막 5 번째 카드가 그려져 얼굴을 얹습니다.
최종 알파스타 에이전트는 리그의 NASH 분포의 구성 요소로 구성됩니다. 즉, 단일 데스크탑 GPU에서 실행되는 가장 효과적인 전략의 혼합. >
Pluribus와 Poker 로의 깊은 다이빙프리 플롭 : 모든 플레이어는 2 개의 카드 (홀 카드)가 주어집니다. 플롭 : . 턴 : 다른 카드가 그려져 얼굴을 얹습니다. 강 : 마지막 5 번째 카드가 그려져 얼굴을 얹습니다.
나는 포커를하는 것을 좋아하고, 트론 하임에서 살고 공부할 때, 우리는 매주 현금 게임을했습니다. 전략적 AI에 의해 일식 된 마지막 이정표 중 하나는 포커 게임에있었습니다. 특히, 가장 인기있는 포커 형태 중 하나 인 6 플레이어 No-Limit Texas Hold'em. 이 게임에서 우리는 52 장의 카드를 가진 일반 카드 데크를 사용하며 연극은 다음 구조를 따릅니다.
위 내용은 기계가 미리 생각할 때 : 전략 AI의 상승의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

인기 기사

인기 기사

뜨거운 기사 태그

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











MCP (Model Context Protocol) 란 무엇입니까?

Omniparser V2 및 Omnitool을 사용하여 지역 비전 에이전트 구축

활주로 ACT-One Guide : 나는 그것을 테스트하기 위해 스스로 촬영했다

Elon Musk & Sam Altman은 5 천억 달러 이상의 Stargate 프로젝트를 충돌시킵니다.

DeepSeek은 3FS 및 Smallpond 프레임 워크를 릴리스합니다

나는 Cursor AI와 함께 Vibe 코딩을 시도했는데 놀랍습니다!
