Er kann Menschen in zwei Stunden übertreffen! Die neueste KI von DeepMind führt 26 Atari-Spiele im Speedrun aus-KI-php.cn

Er kann Menschen in zwei Stunden übertreffen! Die neueste KI von DeepMind führt 26 Atari-Spiele im Speedrun aus

WBOY

Freigeben： 2023-07-03 20:57:17

nach vorne

1114 Leute haben es durchsucht

Der KI-Agent von DeepMind neckt sich wieder selbst!

Schauen Sie sich diesen Kerl namens BBF an. Er hat 26 Atari-Spiele in nur 2 Stunden gemeistert. Seine Effizienz ist mit der von Menschen vergleichbar und übertrifft alle seine Vorgänger.

Sie müssen wissen, dass KI-Agenten bei der Lösung von Problemen durch verstärkendes Lernen schon immer effektiv waren, aber das größte Problem besteht darin, dass diese Methode sehr ineffizient ist und lange Zeit zum Erkunden benötigt.

Er kann Menschen in zwei Stunden übertreffen! Die neueste KI von DeepMind führt 26 Atari-Spiele im Speedrun aus Bilder

Der Durchbruch von BBF liegt gerade in der Effizienz.

Kein Wunder, dass der vollständige Name Bigger, Better oder Faster lauten kann.

Und es kann das Training auf nur einer einzigen Karte absolvieren, und auch der Bedarf an Rechenleistung wird deutlich reduziert.

BBF wurde gemeinsam von Google DeepMind und der Universität Montreal vorgeschlagen. Die Daten und der Code sind derzeit Open Source.

Kann bis zu fünfmal mehr Leistung als Menschen erzielen

Der Wert, der zur Bewertung der Leistung von BBF-Spielen verwendet wird, wird als IQM bezeichnet.

IQM ist eine umfassende Bewertung der vielschichtigen Spielleistung. Die IQM-Bewertungen in diesem Artikel basieren auf Menschen.

Verglichen mit mehreren früheren Ergebnissen erreichte BBF den höchsten IQM-Wert im Atari 100K-Testdatensatz mit 26 Atari-Spielen.

Und in den 26 Spielen, in denen es trainiert wurde, hat die Leistung von BBF die von Menschen übertroffen.

Im Vergleich zu Eff.Zero, das eine ähnliche Leistung erbringt, verbraucht BBF fast die Hälfte der GPU-Zeit.

Was SPR und SR-SPR betrifft, die ähnlich viel GPU-Zeit verbrauchen, liegt ihre Leistung weit hinter BBF.

Er kann Menschen in zwei Stunden übertreffen! Die neueste KI von DeepMind führt 26 Atari-Spiele im Speedrun aus Bild

In wiederholten Tests blieb der Anteil der BBF, die einen bestimmten IQM-Wert erreichten, immer auf einem hohen Niveau.

Selbst in mehr als 1/8 der gesamten Testläufe erreichte es die 5-fache Leistung des Menschen.

Er kann Menschen in zwei Stunden übertreffen! Die neueste KI von DeepMind führt 26 Atari-Spiele im Speedrun aus Bilder

Selbst mit der Hinzunahme anderer Atari-Spiele ohne Training kann BBF mehr als die Hälfte des IQM-Scores eines Menschen erreichen.

Wenn man sich allein diese 29 untrainierten Spiele anschaut, beträgt die Punktzahl von BBF 40 bis 50 % der Punktzahl von Menschen.

Er kann Menschen in zwei Stunden übertreffen! Die neueste KI von DeepMind führt 26 Atari-Spiele im Speedrun aus Bilder

Modifiziert basierend auf SR-SPR

Das Problem, das die BBF-Forschung antreibt, besteht darin, wie man tiefe Verstärkungslernnetzwerke erweitern kann, wenn die Stichprobengröße gering ist.

Um dieses Problem zu untersuchen, konzentrierte sich DeepMind auf den Atari 100K-Benchmark.

Aber DeepMind stellte bald fest, dass eine einfache Vergrößerung der Modellgröße die Leistung nicht verbesserte.

Er kann Menschen in zwei Stunden übertreffen! Die neueste KI von DeepMind führt 26 Atari-Spiele im Speedrun aus Bilder

Beim Design von Deep-Learning-Modellen ist die Anzahl der Aktualisierungen pro Schritt (Replay Ratio, RR) ein wichtiger Parameter.

Speziell bei Atari-Spielen gilt: Je höher der RR-Wert, desto höher ist die Leistung des Modells im Spiel.

Schließlich verwendet DeepMind SR-SPR als Basismotor und der RR-Wert von SR-SPR kann bis zu 16 erreichen.

Nach umfassender Überlegung wählte DeepMind 8 als RR-Wert von BBF.

Da einige Benutzer nicht bereit sind, die Rechenkosten von RR=8 auszugeben, hat DeepMind auch die RR=2-Version von BBF entwickelt

Er kann Menschen in zwei Stunden übertreffen! Die neueste KI von DeepMind führt 26 Atari-Spiele im Speedrun aus Bilder

Nachdem DeepMind viele Inhalte in SR-SPR geändert hatte, übernahm es seine eigenen Die von BBF erworbene Supervisionsausbildung umfasst hauptsächlich die folgenden Aspekte:

Höhere Rücksetzstärke der Faltungsschicht: Durch Erhöhen der Rücksetzstärke der Faltungsschicht kann die Störungsamplitude für zufällige Ziele erhöht werden, sodass das Modell eine bessere Leistung erbringt und Verluste reduziert werden. Nachdem die Rücksetzstärke von BBF erhöht wurde, ändert sich die Störungsamplitude von SR zu SR . -SPR von 20 % auf 50 % erhöht
Größere Netzwerkgröße: Erhöhen Sie die Anzahl der neuronalen Netzwerkschichten von 3 auf 15 Schichten und erhöhen Sie die Breite um das Vierfache.
Reduzierung des Aktualisierungsbereichs (n): Möchten Sie das Modell verbessern? Die Leistung erfordert die Verwendung nicht fester Werte von n. BBF wird alle 40.000 Gradientenschritte zurückgesetzt. In den ersten 10.000 Gradientenschritten jedes Zurücksetzens nimmt n exponentiell von 10 auf 3 ab. Die Abklingphase macht 25 % des BBF-Trainingsprozesses aus.
Größerer Abklingfaktor (γ): Bei manchen Menschen festgestellt, dass eine Erhöhung des γ-Werts während des Lernprozesses die Modellleistung verbessern kann. Der γ-Wert von BBF steigt von traditionell 0,97 auf 0,997.
Gewichtungsdämpfung: Um das Auftreten einer Überanpassung zu vermeiden, beträgt die Dämpfung von BBF etwa 0,1 : NoisyNet, das im ursprünglichen SR-SPR enthalten ist, kann die Modellleistung nicht verbessern
Ablationsexperimentelle Ergebnisse zeigen, dass unter den Bedingungen von 2 und 8 Aktualisierungen pro Schritt die oben genannten Faktoren unterschiedliche Auswirkungen auf die Leistung von BBF haben.

Bilder Er kann Menschen in zwei Stunden übertreffen! Die neueste KI von DeepMind führt 26 Atari-Spiele im Speedrun aus Unter diesen sind die Auswirkungen eines Hard-Resets und einer Verringerung der Update-Reichweite am bedeutendsten.

Bilder Er kann Menschen in zwei Stunden übertreffen! Die neueste KI von DeepMind führt 26 Atari-Spiele im Speedrun aus Für NoisyNet, das in den beiden obigen Abbildungen nicht erwähnt wird, ist der Einfluss auf die Modellleistung nicht signifikant.

Bilder Er kann Menschen in zwei Stunden übertreffen! Die neueste KI von DeepMind führt 26 Atari-Spiele im Speedrun aus Papieradresse:

https://arxiv.org/abs/2305.19452GitHub-Projektseite: https://github.com/google-research/google-research/tree/master/bigger_better_faster

Referenzlink: [1]

//m.sbmmt.com/link/69b4fa3be19bdf400df34e41b93636a4

[2]https://www.marktechpost.com/2023/06/12/superhuman-performance-on-the -atari-100k-benchmark-the-power-of-bbf-a-new-value-based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/

– Ende –

Das obige ist der detaillierte Inhalt vonEr kann Menschen in zwei Stunden übertreffen! Die neueste KI von DeepMind führt 26 Atari-Spiele im Speedrun aus. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!