Wie hat Shogi AI professionelle Shogi-Spieler übertroffen? Und wohin geht es von hier aus? [CEDEC 2024]-Gaming-Neuigkeiten-php.cn

Auf der Spieleentwicklerkonferenz CEDEC 2024 hielten Tatsuya Sugimura von der Anwaltskanzlei Motoyawata Asahi und Urao Yaneu von Yaneu Design eine Sitzung
„Vergangenheit, Gegenwart und Zukunft von Shogi AI“
ab. Lassen Sie uns über eine Sitzung berichten, in der es um die Vergangenheit und Zukunft der Shogi-KI ging, die schnell gewachsen ist und mittlerweile sogar professionelle Shogi-Spieler übertrifft.

将棋AIはどのようにしてプロ棋士を凌駕したのか？　そしてこれからどこへ行くのか？［CEDEC 2024］

Herr Sugimura, ein Anwalt, ist der Entwickler der Shogi-KI „Suisho“ , die auch von
Sota Fujii Seven Crowns
verwendet wird, und hat zahlreiche Shogi-KI-Weltturniere gewonnen. Als Entwickler ist er vielleicht besser bekannt als „Tayayan“. Herr Urao Yane ist der Entwickler von
„Yaneurao“
, das zum De-facto-Standard für Open-Source-Shogi-KI geworden ist. Viele neuere Shogi-KIs, einschließlich Suisho, verwenden Yaneuraou in irgendeiner Form. Herr Tatsuya Sugimura (links) und Herr Urao Yane (rechts) Die Sitzung ging weiter mit einem Video mit Masaki Wakaru, einer Figur aus dem offiziellen Kanal von Yaneuraou

Geburt und Entwicklung der Shogi-KI

Zunächst wurde der Weg von der Geburt der Shogi-KI bis zu ihrem Sieg über professionelle Shogi-Spieler vorgestellt. Die weltweit erste Shogi-KI soll 1974 von Takenobu Takizawa entwickelt worden sein, der damals Doktorand war und derzeit Vizepräsident der Computer Shogi Association und emeritierter Professor an der Waseda-Universität ist.

Die frühe Shogi-KI war eine Kombination aus einer einfachen „Bewertungsfunktion“ und Suchalgorithmen, hauptsächlich „Minimax-Methode“ .

Eine Bewertungsfunktion ist ein „Bewertungswert“, der die Shogi-Situation digitalisiert (Informationen auf dem Brett + Züge + vorherige Schritte). Im einfachsten Fall ist jede Figur auf der Seite des Spielers +1 und jede Figur auf der Seite des Spielers ist -1, und von da an sind große Figuren (Türme und Hörner) und Figuren, die auf dem Spielbrett gut stehen, +1 wert Es werden Änderungen vorgenommen, um den Wert zu erhöhen.

Die Minimax-Methode bezieht sich auf den von der Bewertungsfunktion ausgegebenen Bewertungswert und untersucht die Bewertung jeder Route bis zu mehreren Zügen im Voraus. Da eine Brute-Force-Methode jedoch ineffizient ist, schränkt sie die Bewertungssituationen ein entstand als Verbesserung der Minimax-Methode. Darüber hinaus wurden verschiedene „Beschneidungs“-Ideen eingeführt, die in Verbindung mit der αβ-Suche verwendet werden könnten. Ein Beispiel für das Beschneiden ist ein „Killerzug“, der, wenn ein Zug gefunden wird, der den gegnerischen König behindern würde, bei der Bewertung der Züge, die ihm am nächsten kommen, Vorrang erhält.

In der frühen Shogi-KI wurden die Parameter der Bewertungsfunktion vom Menschen angepasst. Zusätzlich zu den Figurentypen und deren Funktionen auf dem Brett haben wir auch Faktoren wie die Stabilität der Königsverteidigung (Gold und Silber in der Nähe, Rückzugswege vorbereitet) festgelegt und gegen die Standardsoftware gespielt. Da der Prozess eine wiederholte Strafe erforderte -Tuning, einige Leute sagten, dass „das Erstellen einer Bewertungsfunktion eine handwerkliche Fähigkeit ist.“

Die Bewertungsfunktion und der Suchalgorithmus entsprechen für Shogi AI den „zwei Rädern eines Autos“.

Mit der Weiterentwicklung wurden die Bewertungsfunktionen jedoch immer komplexer und entzogen sich der Kontrolle des Menschen. Zu dieser Zeit erschien „Bonanza“, entwickelt von Kunihito Hoki. Bonanza verwendet die „Bonanza-Methode“ Die

, die „nach Parametern sucht, sodass die zur Beurteilung jedes Bretts verwendete Bewertungsfunktion mit dem tatsächlichen Zug eines starken Spielers übereinstimmt“ und Parameter automatisch aus menschlichen Spielaufzeichnungen berechnet . Es war möglich, Anpassungen vorzunehmen. 将棋AIはどのようにしてプロ棋士を凌駕したのか？　そしてこれからどこへ行くのか？［CEDEC 2024］

Bonanza-Methode basiert auf der
„Optimalen Kontrolltheorie“, aber später wurde entdeckt, dass Parameter auch mithilfe des „stochastischen Gradientenabstiegs“ angepasst werden können, der häufig beim maschinellen Lernen verwendet wird

Shogi AI hat sich seitdem weiterentwickelt und in einem offiziellen Match im Jahr 2013 besiegte „Ponanza“ den professionellen Shogi-Spieler Shinichi Sato, 4-Dan . Diese Ponanza nutzte auch die αβ-Suche und die Anpassung von Bewertungsfunktionsparametern mithilfe von maschinellem Lernen.

Darüber hinaus beträgt die durchschnittliche Anzahl legaler Züge im Shogi (Züge, die ohne Verstoß gegen die Regeln ausgeführt werden können) 80. Wenn Sie also einen Zug ausführen, können Sie insgesamt 80 Wege auswerten, und wenn Sie zwei Züge ausführen , können Sie 6400 Wege (80 x 80) auswerten. Allerdings verringerte sich die durchschnittliche Anzahl der Zweige von Bonanza (die Anzahl der Bewertungen pro Zug) von 3 in der Anfangsphase auf etwa 5 in der Spätphase. Die durchschnittliche Anzahl der Zweige der neuesten KI beträgt 2, und es wird gesagt, dass sie bis zu 30 Züge im Voraus auswerten kann.

Aktuelle Shogi-KI

Hier werden 10 Ereignisse hervorgehoben, die seit 2013, als die Shogi-KI den Menschen überholte, bis heute große Auswirkungen hatten.

●Verstärkendes Lernen

Bonanza lernte aus den Spielaufzeichnungen professioneller Spieler, aber es gab nur etwa 30.000 davon, was im Vergleich zu der Anzahl der Parameter, die Bonanza hatte, überwältigend klein war.
Da Shogi AI außerdem stärker geworden ist als professionelle Spieler, hat die Verwendung der Spielaufzeichnungen professioneller Spieler weniger Sinn gemacht, sodass Entwickler damit begonnen haben, Shogi AI aus Spielen generierte Spielaufzeichnungen lernen zu lassen.

●Shogi AI-Turnier

Neben der Computer-Shogi-Weltmeisterschaft, die seit 1990 jedes Jahr stattfindet, finden nun auch das Shogi Den-O-Turnier (2013–2017), das World Shogi AI Denryu-Turnier (ab 2021) usw. statt. Das hohe Preisgeld war eine große Motivation für die Entwickler.

●Yaneuraou Open Source

„Yaneuraou wurde 2015 auf GitHub veröffentlicht und wurde Open Source. Während viele Shogi-KIs eine Struktur haben, in der die Bewertungsfunktion und der Suchabschnitt integriert sind, war Yaneuraoh hochgradig modular, sodass es möglich war, die Bewertungsfunktion oder den Suchabschnitt zu ersetzen. Es wurde von vielen Entwicklern verwendet.

●Entwicklung des Stockfisches

„Stockfish“ ist eine Open-Source-Schach-KI mit einer großen Anzahl von Teilnehmern in der Entwickler-Community, und eine kleine Verbesserung soll zehntausende Male getestet worden sein. Obwohl das Spiel anders ist, bietet der Erkundungsteil viele Anwendungen, die auf Shogi angewendet werden können, und die Entwicklung von Stockfish hat auch zur Entwicklung der Shogi-KI geführt.

●NNUE-Bewertungsfunktion

``NNUE'' ist eine Bewertungsfunktion, die schnelle Differenzberechnungen nur mit der CPU durchführen kann und 2018 eingeführt wurde. Von da an wurde es zum Mainstream und ersetzte die in Bonanza verwendete Bewertungsfunktion namens „dreiteilige Beziehung“.

●Alpha Null

„AlphaZero“ ist eine KI für Go, Shogi und Schach, die 2017 von Google DeepMind entwickelt wurde. Es nutzt Deep Learning voll aus und zeichnet sich außerdem durch die Einführung der „Monte-Carlo-Baumsuche“ anstelle der zuvor gängigen αβ-Methode aus. Zu den Shogi-KIs, die auf der Grundlage des Artikels von AlphaZero erstellt wurden, gehören „dlshogi“, „AobaZero“ und „Fukauraou“. In aktuellen Shogi-KI-Turnieren werden sowohl der AlphaZero-Typ als auch der konventionelle Typ (αβ-Methode) verwendet ist aktiv.

●nnue-pytorch

``nnue-pytorch'' realisiert maschinelles Lernen für NNUE mithilfe der GPU und reduziert so die für das Lernen erforderliche Zeit erheblich. Dies wurde für den Autor
Hisjun Noda
zur treibenden Kraft, die Computer-Shogi-Weltmeisterschaft zu gewinnen, die im Mai 2024 stattfinden wird.

●So erstellen Sie eine starke Shogi-Software

„How to Create Strong Shogi Software“ ist ein Buch von
Tadao Yamaoka
, dem Entwickler von dlshogi. Es wird über die Entwicklung einer auf Deep Learning basierenden Shogi-KI geschrieben, und es wird gesagt, dass es allein mit dem hier beschriebenen Wissen möglich ist, eine Shogi-KI zu erstellen, die stärker ist als ein professioneller Shogi-Spieler.

●Veröffentlichung hochwertiger Lehrerdaten

Herr Yamaoka, der darüber geschrieben hat, wie man starke Shogi-Software erstellt, und Herr Tayan Sugimura, der in dieser Sitzung spricht, haben Lehrerdaten (Daten zum Lernen) veröffentlicht. Beim verstärkenden Lernen für Shogi-KI sind die Kosten für die Erstellung von Trainingsdaten höher als die Lernkosten. Daher scheint es, dass die Eintrittsbarriere mit dieser Offenlegung plötzlich gesunken ist. Herr Sugimura erklärte den Grund: „Selbst wenn Sie der Einzige sind, der es hat, können Sie es möglicherweise nicht verwenden. In diesem Fall ist es also besser, es von jemand anderem verwenden zu lassen und zu sagen: „Ich habe das verwendet.“ Daten.''''

Um das Jahr 2013 herum waren viele Shogi-KI-Entwickler Universitätsforscher und viele nutzten kein SNS. Seit der Open-Source-Version von King Yaneura ist die Zahl neuer Leute, die dieses Feld betreten, gestiegen, und ein Generationswechsel hat stattgefunden, und es gibt jetzt viel Interaktion zwischen Entwicklern auf X und Discord.

●Aufstieg von SNS 将棋AIはどのようにしてプロ棋士を凌駕したのか？　そしてこれからどこへ行くのか？［CEDEC 2024］

Geschichte der Shogi-KI-Verbesserung, gesehen durch Bewertungen

„Iro-Bewertung“ wird verwendet, um die Stärke der Shogi-KI auszudrücken. Hierbei handelt es sich um einen Index, der ursprünglich zur Darstellung von Schachfähigkeiten entwickelt wurde und auch durch Mathematik untermauert wird.

Laut Shogi Club 24, der offiziellen Online-Shogi-Wettkampfseite der Japan Shogi Federation, die auch von Profispielern genutzt wird, liegt die menschliche Grenze bei etwa 3000 bis 3300, bei First-Dan-Amateuren bei etwa 1000. Allerdings Bonanzas Wertung im Jahr 2005 waren es 2360.

Im Jahr 2009, als Bonanza gegen Mei Ryuo Watanabe antrat, überwand Ryuo Watanabe eine Situation, in der er dachte, er könnte besiegt werden und gewann, aber Bonanzas Elo lag zu diesem Zeitpunkt bei 2815. Es ist ersichtlich, dass Ryuo Watanabe, dessen Kraft nahe an der menschlichen Grenze liegt, diesen Sieg erringen konnte.

Im Jahr 2013 lag „Gikou“ bei 3713, mehr als 400 Punkte über dem menschlichen Grenzwert von 3300. Anscheinend bedeutet eine Differenz von 400, dass man mit einer Wahrscheinlichkeit von über 90 % gewinnen kann. Und der Gewinner der Computer-Shogi-Weltmeisterschaft 2024 „Möchten Sie CSA-Mitglied werden?“ hat eine Punktzahl von 4914, die weit über der von Menschen liegt.

Wichtig ist, dass es sich um eine Bewertung handelt, die auf einem typischen Laptop-PC basiert, über den man etwa fünf Sekunden nachdenken muss. Herr Sugimura sagte, dass es nicht verwunderlich wäre, wenn man so etwas wie einen Supercomputer verwenden würde, wenn die Zahl etwa 7.000 erreichen könnte.

Shogi AI hat sich bis zu diesem Punkt entwickelt und wird von einer Vielzahl von Spielern, sowohl Profis als auch Amateuren, verwendet. Es wird häufig dazu verwendet, dass die KI den von Ihnen gespielten Shogi analysiert und überprüft, welcher Zug schlecht war, oder dass sie die erwartete Situation in einem Spiel analysiert und den besten Zug für diese Situation erwägt.

Die Zukunft der Shogi-KI

Was die Zukunft betrifft, sprachen sie darüber, wie man die stärkste Shogi-KI der Welt entwickeln könne.

Die aktuelle Shogi-KI kann grob in den herkömmlichen „NNUE-Typ“, der die αβ-Suche verwendet, und den „DL-Typ“, der umfassendes Deep Learning nutzt, unterteilt werden. Und da der Quellcode von Yaneuraou und dlshogi, die jeweils repräsentativ sind, veröffentlicht wurde, besteht eine hohe Wahrscheinlichkeit, dass durch eine einzige Verbesserung die stärkste Shogi-KI der Welt geschaffen wird. Was kann hier also verbessert werden? Das sind die folgenden fünf.

●Verbesserte Bewertungsfunktion

Da der aktuelle NNUE-Typ die CPU zur Durchführung von Berechnungen verwendet, besteht ein Kompromiss zwischen der Genauigkeit der Bewertungsfunktion und der Anzahl der durchsuchbaren Szenarien, was die Anpassung äußerst schwierig macht. GPU-Berechnungen sollen jedoch nicht mit der αβ-Suche kompatibel sein. Andererseits ist bekannt, dass ResNet, die in vielen DL-Typen verwendete Bewertungsfunktion, durch die Einführung des Aufmerksamkeitsmechanismus des in Sprachmodellen wie ChatGPT verwendeten Transformators gestärkt werden kann, und es ist möglich, Wissen aus dem zu nutzen Bereich des maschinellen Lernens.

●Anpassung der Lehrerdaten

Die Shogi-KI vom Typ NNUE durchsucht mehr als 100 Millionen Positionen pro Sekunde auf einer Turniermaschine, aber die Genauigkeit der Positionsbewertung ist nicht sehr hoch, sodass sie in der Endphase relativ stärker sein soll als in der Anfangsphase. Daher scheint es beim Erlernen der Shogi-KI vom NNUE-Typ eine Tendenz zu geben, sich besser auf die frühen Stadien zu konzentrieren. Andererseits gibt es auch die Idee, dass es kein Problem darstellt, das Lernen wegzulassen, da die frühen Stadien, bis etwa zum 32. Zug, oft auf die festgelegte Art und Weise fortgeführt werden (die beste Art der Bewegung, basierend auf früheren Forschungen). dieser Punkt.

Da schwingende Türme im aktuellen Turnier nicht als effektive Taktik gelten, scheint es außerdem eine Möglichkeit zu geben, sie wegzulassen.

●Automatische Generierung von Fixmarken

Da der manuellen Bearbeitung der festen Markierungen Grenzen gesetzt sind, versuchen Spitzenteams, diese automatisch zu generieren. Um jedoch hochpräzise Schachzüge zu erstellen, muss die Shogi-KI eine lange Zeit in einer Partie laufen, was auch nicht sehr effizient ist. Es scheint, dass Personen, die mit der Graphentheorie und der Suche nach Spielbäumen vertraut sind, möglicherweise eine große Anzahl von Spuren generieren können.

●Verbesserung des Suchbereichs

Der NNUE-Typ basiert auf dem Suchbereich der Schach-KI Stockfish, es ist jedoch möglich, dass er gestärkt werden könnte, indem Suchideen, die in anderen KIs erfolgreich waren, in die Shogi-KI eingebracht werden Ist.

●Sichere Computerressourcen

Einfach ausgedrückt sind Rechenressourcen Computer. In den letzten Jahren ist es für Einzelpersonen immer schwieriger geworden, die für die Erstellung von Lehrerdaten erforderlichen Computer zu sichern, und die Zahl der Fälle, in denen große Unternehmen die Computer sponsern, nimmt zu. Es scheint, dass Sie der Stärkste der Welt werden könnten, wenn Sie eine große Menge an Trainingsdaten erstellen könnten.

„Shogi AI hat sich weiterentwickelt, seit es von Yaneurao als Open Source bereitgestellt wurde, und die Entwickler haben Ideen entwickelt. Selbst jetzt scheint es eine Chance zu geben, der Stärkste der Welt zu werden, indem man nur Änderungen an einer der fünf diesmal eingeführten Verbesserungen vornimmt und nicht an allen.

Der Inhalt der Sitzung ist oben aufgeführt, am Ende gab es jedoch Fragen aus dem Publikum. Die Frage ist: „Ich denke, es gibt einen todsicheren Weg, im Shogi zu gewinnen, bei dem es nicht um Glück geht, aber werden wir jemals diesen Punkt erreichen?“

Herr Sugimura sagt, dass Shogi ein „Nullsummenspiel mit endlicher, definitiver, perfekter Information für zwei Spieler“ ist , und obwohl es einen todsicheren Weg zum Gewinn oder ein garantiertes Unentschieden gibt, gibt es so viele Optionen, dass es schwierig ist, das zu erreichen Ziel Die Antwort war, dass es schwierig sein würde und dass es selbst dann keine Möglichkeit gäbe, sie als Daten zu speichern, wenn eine erfolgreiche Methode ermittelt würde.

Das obige ist der detaillierte Inhalt vonWie hat Shogi AI professionelle Shogi-Spieler übertroffen? Und wohin geht es von hier aus? [CEDEC 2024]. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!