쇼기 AI는 어떻게 프로 기사를 능가했는가? 그리고 앞으로 어디로 갈 것인가? [CEDEC 2024]-게임 뉴스-php.cn

게임 개발자 회의 CEDEC 2024에서, 혼하치만 아사히 법률 사무소의 스기무라 타츠야씨와, 야네우 디자인의 이나 네우라오씨에 의한 세션「쇼기 AI의 과거·현재·미래」가 행해졌다. 급격한 성장을 이루고, 지금은 프로 기사조차 능가하는 장기 AI의 지금까지와 앞으로가 말한 세션을 리포트하자.

将棋AIはどのようにしてプロ棋士を凌駕したのか？　そしてこれからどこへ行くのか？［CEDEC 2024］

변호사인 스기무라씨는, 후지이 사토타 칠관 도 사용하는 장기 AI 「수장」의 개발자이며, 다수의 장기 AI 세계 대회에서의 우승 경험을 가진다. 개발자로서는 「타야얀」명의 쪽이 알려져 있을지도 모른다.

야네우라오씨는, 오픈 소스 장기 AI의 디팩트 스탠다드가 되고 있다「야네우라왕」의 개발자. 수장을 포함한 최근의 장기 AI의 대부분은 야네우라 왕을 어떠한 형태로 사용하고 있다.

스기무라 타츠야씨(왼쪽)와 야네우라오씨(오른쪽)

세션은, 야네우라왕 공식 채널의 캐릭터, 마사키 알지만 등장하는 동영상을 섞어 진행했다

장기 AI의 탄생과 진화

우선은, 장기 AI의 탄생으로부터, 프로 기사에게 승리하기까지의 길이 소개되었다.

세계 최초의 장기 AI는, 1974년에 당시 대학원생으로, 현재는 컴퓨터 장기 협회 부회장으로 와세다 대학 명예 교수의 타키자와 타케노부씨 가 개발한 것으로 알려져 있다.

초기 장기 AI는 간소한 「평가 함수」와 주로 「Minimax법」 등의 탐색 알고리즘이 조합된 것이었다.

평가 함수란, 장기의 국면(반면+수번+그전의 순서를 맞춘 정보)를 수치화한 「평가치」를 내는 것. 가장 심플한 곳에서는, 선수측의 조각 하나에 대해 +1, 후방측의 조각 하나에 대해-1이라고 하는 것이 되어, 거기로부터 오마마(비차나 뿔)나, 판상에서 좋은 일을 하고 있는 조각은 그 가치를 높이는 느낌으로 손이 더해진다.

Minimax법은, 평가 함수가 내는 평가치를 참조해, 수처까지의 루트 마다의 평가를 조사해 가는 것이지만, 총당적인 것은 효율이 나쁘기 때문에, 평가를 실시하는 국면을 좁히는 「αβ 탐색"가 Minimax법을 개량하는 형태로 탄생. 또한, αβ 탐색과 병용할 수 있는 다양한 "지기" 아이디어가 도입되어 갔다.

枝刈り의 예로는, 상대의 왕을 막는 손을 발견하면, 거기에 가까운 손을 우선적으로 평가하는 「키라무브」 등이 있다고 한다.

평가 함수와 탐색 알고리즘은, 장기 AI에 있어서의 「차의 양륜」에 상당하는 것이다.

초기 장기 AI에서는 평가 함수의 파라미터가 인간의 손으로 조정되고 있었다. 조각의 종류나 반상에서의 일 등에 더해, 왕의 수호의 견고함(곁에 금이나 은이 있는, 퇴로가 준비되어 있다)라고 하는 요소까지 포함해 설정해, 기준이 되는 소프트와 대전시켜 는 미조정을 반복한다고 하는 작업이 되었기 때문에, 「평가함수 만들기는 장인기」라고 불리기도 했다고 한다.

하지만, 진화를 계속하는 가운데 평가 함수는 복잡해져, 인간의 손에 지는 것은 없어져 갔다. 그런 때에 등장한 것이, 호목 쿠니히토씨 개발의 「Bonanza」였다. Bonanza는 "각 반면의 판단이 되는 평가 함수가 강한 기사가 실제로 가리키는 손과 같게 되는 파라미터를 탐색한다"라는 "보난자 메소드"를 사용하여 파라미터를 인간의 기보에서 자동 적으로 조정하는 것이 가능했습니다.

보난자 메소드는 **'최적 제어 이론'** 이라는 것을 기반으로 하고 있지만, 그 후 기계 학습에서 자주 사용되는 **'확률적 그라디언트 강하법'** 에서도 파라미터를 조정할 수 있음을 알았다

쇼기 AI는 그 후도 진화를 계속해, 2013년의 공식 대국에서 「ponanza」가 프로 기사의 사토 신이치 4단 에 승리했다. 이 ponanza도, αβ 탐색과, 기계 학습에 의한 평가 함수 파라미터의 조정을 실시하고 있었다고 한다.

덧붙여 장기에 있어서의 합법수(룰을 위반하지 않고 가리키는 손)는 평균적으로 80손이므로, 총치면 1손끝이라면 80대로, 2손끝이라면 80×80으로 6400대로에 대한 평가를 내는 것 된다. 하지만 Bonanza의 평균 분기수(1손에 대해 평가하는 수)는 초반에서 3, 종반에서 5정도까지 줄었다. 그리고 최신 AI의 평균 분기수는 2로 30개까지 평가하고 있다고 한다.

장기 AI의 현재

여기에서는, 장기 AI가 인간을 넘은 2013년부터 현재에 이르기까지 큰 임팩트가 있던 10의 사건이 다루어졌다.

●강화학습

Bonanza는 프로 기사의 기보로부터 학습을 실시하고 있었지만, 그 수는 3만 정도 밖에 존재하지 않고, Bonanza가 가지고 있는 파라미터의 수에 비해 압도적으로 적었다.
또한, 장기 AI가 프로 기사보다 강해지고 나서는 프로 기사의 기보를 사용하는 의미도 작아졌기 때문에, 개발자들은 장기 AI의 대국에 의해 생성된 기보를 학습하게 되었다.

●장기 AI의 대회

1990년부터 매년 개최되고 있던 세계 컴퓨터 장기 선수권에 더하여, 장기 전왕 토너먼트(2013년~2017년), 세계 장기 AI 전룡전(2021년~) 등이 개최되도록. 고액 상금은 개발자의 큰 동기 부여가 되었다.

●야네우라왕 오픈소스화
　
야네우라 왕은 2015년에 GitHub에서 공개되어 오픈 소스화되었다. 많은 장기 AI가 평가 함수와 탐색부가 일체화된 구조로 되어 있던 가운데, 야네우라 왕은 고도로 모듈화되어 있었기 때문에, 평가 함수를 바꾸거나 탐색부를 바꾸는 등의 형태 에서 많은 개발자가 사용할 수있게되었습니다.

●Stockfish의 진화

　 「Stockfish」는 오픈 소스의 체스 AI로 개발자 커뮤니티의 참가자가 매우 많아, 1개의 작은 개량에 수만회의 검증이 행해지고 있다고 한다. 게임이 다르다고는 해도, 탐색부는 장기에도 응용할 수 있는 부분이 많아, Stockfish의 진화는 장기 AI의 진화에도 연결되었다.

●NNUE(누에) 평가함수

　「NNUE」는 CPU만으로 고속으로 차분 계산을 할 수 있는 평가 함수로, 2018년에 등장했다. Bonanza에서 사용되고 있던 미코마 관계라는 평가 함수를 대신해 이후의 주류가 되었다.

●AlphaZero

　 「AlphaZero」는 2017년에 Google DeepMind가 개발한 바둑, 장기, 체스용 AI. 본격적으로 딥 러닝을 이용하고 있어, 지금까지의 주류였던 αβ법을 대신해 「몬테카를로목 탐색」를 채용하고 있는 것도 특징이 되고 있다.
AlphaZero의 논문을 참고로 만들어진 장기AI로서는 「dlshogi」「AobaZero」「후카우라왕」 등이 있으며, 현재의 장기AI의 대회에서는 AlphaZero형과 종래형(αβ법)의 양쪽이 활약하고 있다.

●nnue-pytorch

　 「nnue-pytorch」는 GPU를 이용한 NNUE의 기계 학습을 실현하여 학습에 걸리는 시간을 대폭 단축했다. 이것이 원동력이 되어, 작자의 노다 쿠순씨 는, 2024년 5월 개최의 세계 컴퓨터 장기 선수권에서 우승했다.

● 강한 장기 소프트를 만드는 법

　 「강한 장기 소프트의 만드는 방법」는 dlshogi의 개발자인 야마오카 타다오씨의 저서. 딥 러닝계 장기 AI의 개발에 대해 쓰여져 있고, 여기에 쓰여 있는 지식만으로 프로 기사보다 강한 장기 AI를 만들 수 있다는 것.

● 양질의 교사 데이터 공개

강한 장기 소프트의 만드는 방법을 쓴 야마오카씨와, 이 세션에서 등단하고 있는스기무라(타야얀)씨가, 교사 데이터(학습용의 데이터)를 공개했다. 장기 AI의 강화 학습은 교사 데이터 작성에 드는 비용이 학습 비용보다 높다. 그 때문에, 이 공개로 참가의 장애물이 단번에 내렸다고 한다.

스기무라씨는, 「자신만이 가지고 있어도 활용할 수 없는 경우는 있으므로, 그렇다면 누군가에게 사용해 『데이터를 사용했어요』라고 말해 주는 편이 좋다」라고 이유를 말했다.

●SNS의 상승

2013년경의 장기 AI 개발자는 대학의 연구자등이 많아, SNS를 이용하지 않은 사람이 많았다고 한다. 야네우라 왕의 오픈 소스화 이후 새롭게 이 분야에 들어오는 사람이 늘어나 세대 교체가 진행되어 현재는 X나 Discord로 개발자 간의 교류가 활발해지고 있다.

평가에서 보는 장기 AI 강화의 역사

쇼기 AI의 힘을 나타내는 것으로 '일로 레이팅' 가 사용된다. 이것은 원래 체스의 실력을 나타내기 위해 고안된 지표로 수학적으로도 뒷받침이 있는 것이다.

프로 기사도 이용하는 일본 장기 연맹 공식 온라인 장기 대전 사이트 「쇼기 클럽 24」라면, 인간의 한계는 3000~3300 정도, 아마추어 초단이라면 1000 정도가 된다고 하는 것이지만, 2005년의 Bonanza의 레이팅은 2360이었다.

2009년에 Bonanza 대 와타나베 명룡왕의 대국이 행해졌을 때는, 와타나베 용왕이 「아와야 패배인가」라는 상황을 극복해 승리했지만, 이 때의 Bonanza의 레이팅은 2815. 인간의 한계에 가까운 힘의 와타나베 용왕이기 때문에 그 승리였던 것을 알 수 있다.

2013년의 「Gikou」는 3713과 인간의 한계로 여겨지는 3300에 400이상의 차이를 붙였다. 400의 차이는 "9할 초과의 확률로 승리할 수 있다"는 것이다. 그리고 2024년의 세계 컴퓨터 장기 선수권에서 우승한 「너, CSA 회원이 되세요?」는 4914로 인간을 훨씬 넘은 힘이 되고 있다.

중요한 것은, 이것이 일반적인 노트 PC를 사용해, 5초 정도의 사고 시간으로 대전시켜의 레이팅이라고 하는 것. 스기무라씨는 슈퍼컴퓨터와 같은 것을 사용하면 7000정도가 되어도 이상하지 않다고 말했다.

여기까지 진화한 장기 AI는 프로아마를 불문하고 폭넓은 기사에 이용되고 있다. 자신이 가리키는 장기를 AI로 해석시켜 어느 손이 나빴던지를 검증하거나 대국에서 예상되는 국면을 해석시켜 그 국면의 최선수를 검토하는 등의 형태로 사용되는 경우가 많다 그렇다.

장기 AI의 미래

미래의 이야기로서 「세계 최강의 장기 AI를 어떻게 개발하는가」가 말되었다.
　
현재의 장기 AI는 αβ 탐색을 이용하는 종래형의 'NNUE형'과 본격적으로 딥 러닝을 이용하는 'DL형'으로 크게 나눌 수 있다. 그리고, 각각의 대표적인 존재인 야네우라 왕과 dlshogi는 모두 소스 코드가 공개되어 있기 때문에, 뭔가 하나의 개량을 더하는 것으로, 세계 최강의 장기 AI가 탄생할 가능성은 크게 있다 라는 것. 그럼, 여기로부터 개선할 수 있을 것 같은 곳은 무엇인가? 그것이 이하의 5개다.

●평가 함수 개선

현상의 NNUE형은 CPU에 의한 계산을 실시하는 관계상, 평가 함수의 정밀도와 탐색할 수 있는 국면수가 트레이드 오프의 관계에 있어, 조정이 매우 어려워지고 있다고 한다. 그렇다고 GPU 계산은 αβ 탐색과 궁합이 나쁘다는 것이다. 한편 DL형의 대부분에서 사용되고 있는 평가 함수의 ResNet은, ChatGPT등의 언어 모델로 사용되고 있는 transformer의 attention의 구조를 도입하면 강해지는 것을 알고 있어, 기계 학습 분야의 지견이 살려 그렇다는 것이다.

● 교사 데이터 조정

NNUE형의 장기AI는 대회 스펙의 머신이라면 1초간에 1억 국면 이상을 탐색하고 있지만, 국면의 평가 정밀도는 그다지 높지 않기 때문에 상대적으로 초반보다 종반이 더 강해진다고 한다. 그 때문에, NNUE형 장기 AI의 학습에서는, 초반의 국면에 집중하는 편이 좋다고 하는 경향이 있다고 한다. 한편, 초반의 32번째 정도까지는 정적(과거의 연구로부터 도출된 최선이 되는 가리키는 방법)으로 진행하는 것이 많기 때문에, 거기의 학습을 생략해도 문제 없다고 하는 생각도 있다.

또, 현재의 대회에서는 스윙 비행이 유효한 전술로 되어 있지 않기 때문에, 거기를 생략하는 손도 있다고 한다.

● 정적 자동 생성

정적을 수작업으로 편집하기에는 한계가 있기 때문에 상위 팀은 자동 생성에 도전하고 있다. 하지만, 정밀도가 높은 정적을 만들기 위해서는 장기 AI를 1국면에서 장시간 움직일 필요가 있기 때문에, 이쪽도 효율은 좋지 않다. 그래프 이론이나 게임 나무 탐색에 익숙한 사람은, 대량의 정적을 생성할 수 있을 가능성이 있다고 한다.

● 탐색부의 개량

NNUE형은 체스 AI의 Stockfish의 탐색부를 참고로 하고 있지만, 그와 마찬가지로, 다른 AI에서 성공하고 있는 탐색의 아이디어를 장기 AI에 가져와 강화를 실현할 가능성이 있다. 있다는 것.

● 계산 자원 확보

계산자원이란 간단히 말하면 컴퓨터를 말한다. 최근에는 교사 데이터 작성에 필요한 컴퓨터를 개인으로 확보할 수 없고, 대기업의 스폰서가 붙는 케이스가 늘고 있다. 대량의 교사 데이터를 작성할 수 있다면, 그것만으로 세계 최강이 될 가능성도 있다고 한다.

야네우라 왕 오픈 소스화 이후의 장기 AI는 개발자가 원 아이디어를 나누어 진화해 왔다. 현재도, 이번에 소개된 5개의 개선점 모두가 아니라, 1개에 손을 넣는 것만으로 세계 최강이 될 수 있는 기회는 있다고 한다.

세션의 내용은 이상이지만, 마지막으로 청강자로부터 질문이 있었다. 그것은 「운의 요소가 없는 장기에는 필승법이 있다고 생각하지만, 언젠가 거기에 도달할 수 있을까?」라고 하는 것.

스기무라씨는, 장기는 「2인 영화 유한 확정 완전 정보 게임」이며, 필승법 혹은 반드시 무승부로 하는 방법이 있다고 되어 있다고 해도, 매우 선택사항이 많기 때문에 도달하는 것은 어렵고, 만일 필승법이 확정해도 데이터로서 보존할 수단이 없는 것은 아니라고 응답했다.

위 내용은 쇼기 AI는 어떻게 프로 기사를 능가했는가? 그리고 앞으로 어디로 갈 것인가? [CEDEC 2024]의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!