Wie überschneiden sich sequenzielle Entscheidungsfindung und zugrunde liegende Modelle und wirken sich gegenseitig aus? Google, Berkeley und andere erkunden weitere Möglichkeiten

王林
Freigeben: 2023-05-27 21:52:41
nach vorne
1363 Leute haben es durchsucht

Das vorab trainierte Basismodell, das auf selbstüberwachtem Lernen anhand einer Vielzahl von Datensätzen basiert, hat eine hervorragende Fähigkeit gezeigt, Wissen auf verschiedene nachgelagerte Aufgaben zu übertragen. Daher werden diese Modelle auch auf komplexere Probleme wie langfristiges Denken, Kontrolle, Suche und Planung angewendet oder in Anwendungen wie Dialog, autonomem Fahren, Gesundheitswesen und Robotik eingesetzt. Zukünftig werden sie auch Schnittstellen zu externen Einheiten und intelligenten Agenten bereitstellen. Beispielsweise führen Sprachmodelle im Bereich der Robotik mehrere Kommunikationsrunden mit Menschen durch, Wahrnehmungskontrollmodelle führen Aktionen in realen Umgebungen durch.

Diese Szenarien stellen das Basismodell vor neue Herausforderungen, darunter: 1) wie man aus dem Feedback externer Einheiten lernt (z. B. menschliche Bewertungen der Gesprächsqualität), 2) Wie man sich an ungewöhnliche Modalitäten (z. B. Roboteraktionen) in großen Sprach- oder visuellen Datensätzen anpasst, 3) Wie man langfristig argumentiert und plant.

Wie überschneiden sich sequenzielle Entscheidungsfindung und zugrunde liegende Modelle und wirken sich gegenseitig aus? Google, Berkeley und andere erkunden weitere Möglichkeiten

Diese Themen waren schon immer der Kern der sequentiellen Entscheidungsfindung in der im traditionellen Sinn, der Bereiche wie Verstärkungslernen, Nachahmungslernen, Planung, Suche und optimale Kontrolle abdeckt. Im Gegensatz zum Paradigma, bei dem Basismodelle mithilfe umfangreicher Datensätze aus Milliarden von Bild- und Text-Tokens vorab trainiert werden, konzentrierten sich frühere Arbeiten zur sequentiellen Entscheidungsfindung hauptsächlich auf aufgabenspezifische oder Whiteboard-Einstellungen mit begrenztem Vorwissen.

Obwohl fehlende oder fehlende Vorkenntnisse die sequentielle Entscheidungsfindung schwierig erscheinen lassen, hat die Forschung zur sequentiellen Entscheidungsfindung die menschliche Leistung bei mehreren Aufgaben, wie z. B. dem Spielen von Brettspielen, übertroffen. Atari-Videospiele und Bedienroboter zur Vervollständigung der Navigation und Bedienung usw.

Da diese Methoden jedoch lernen, die Aufgabe von Grund auf zu lösen, ohne umfassende Kenntnisse aus Vision, Sprache oder anderen Datensätzen, leiden sie häufig unter der Generalisierung und Stichprobeneffizienz Die Leistung ist schlecht, zum Beispiel sind 7 GPUs erforderlich, die einen Tag lang laufen, um ein einzelnes Atari-Spiel zu lösen. Intuitiv sollten umfangreiche Datensätze, die denen des Basismodells ähneln, auch für sequentielle Entscheidungsmodelle nützlich sein. Beispielsweise gibt es im Internet unzählige Artikel und Videos darüber, wie man Atari-Spiele spielt. Ebenso wie umfassendes Wissen über Objekt- und Szeneneigenschaften für Roboter nützlich ist, kann Wissen über menschliche Wünsche und Emotionen Konversationsmodelle verbessern.

Obwohl die Forschung zu Grundmodellen und sequenzieller Entscheidungsfindung aufgrund unterschiedlicher Anwendungen und Anliegen im Allgemeinen unzusammenhängend ist, gibt es immer mehr sich überschneidende Studien. In Bezug auf Basismodelle haben sich mit dem Aufkommen großer Sprachmodelle die Zielanwendungen von einfachen Zero-Shot- oder Fence-Shot-Aufgaben zu Problemen ausgeweitet, die nun langfristige Überlegungen oder mehrere Interaktionen erfordern. Im Gegensatz dazu begannen Forscher im Bereich der sequentiellen Entscheidungsfindung, inspiriert durch den Erfolg großer Visions- und Sprachmodelle, immer größere Datensätze für das Lernen von Multi-Modell-, Multi-Task- und allgemeinen interaktiven Agenten vorzubereiten.

Die Grenzen zwischen den beiden Bereichen verschwimmen zunehmend, und einige neuere Arbeiten haben die Verwendung vorab trainierter Basismodelle (wie CLIP und ViT) in der visuellen Darstellung untersucht Kontexte fördern das Training interaktiver Agenten, während in anderen Arbeiten Basismodelle als Konversationsagenten untersucht wurden, die durch verstärkendes Lernen und menschliches Feedback optimiert wurden. Es wird auch daran gearbeitet, große Sprachmodelle für die Interaktion mit externen Tools wie Suchmaschinen, Taschenrechnern, Übersetzungstools, MuJoCo-Simulatoren und Programminterpretern anzupassen.

Kürzlich schrieben Forscher des Google Brain-Teams, der UC Berkeley und des MIT, dass die Kombination von Basismodellen und interaktiver Entscheidungsforschung sich gegenseitig begünstigen wird. Einerseits kann die Anwendung des zugrunde liegenden Modells auf Aufgaben, an denen externe Einheiten beteiligt sind, von interaktivem Feedback und einer langfristigen Planung profitieren. Sequentielle Entscheidungsfindung hingegen kann das Weltwissen des zugrunde liegenden Modells nutzen, um Aufgaben schneller zu lösen und besser zu verallgemeinern.

Wie überschneiden sich sequenzielle Entscheidungsfindung und zugrunde liegende Modelle und wirken sich gegenseitig aus? Google, Berkeley und andere erkunden weitere Möglichkeiten

Papieradresse: https://arxiv.org /pdf/2303.04129v1.pdf

Um weitere Forschung an der Schnittstelle dieser beiden Bereiche zu fördern, begrenzten die Forscher den Problemraum des Basismodells . Es stellt außerdem technische Hilfsmittel zum Verständnis aktueller Forschungsergebnisse bereit, gibt einen Überblick über aktuelle Herausforderungen und unbeantwortete Fragen und prognostiziert mögliche Lösungen und vielversprechende Ansätze zur Bewältigung dieser Herausforderungen.

Papierübersicht

Das Papier ist hauptsächlich in die folgenden 5 Hauptkapitel unterteilt.

Kapitel 2 gibt einen Überblick über den relevanten Hintergrund zur sequenziellen Entscheidungsfindung und bietet einige Beispielszenarien, in denen zugrunde liegende Modelle und Entscheidungsfindung am besten zusammen betrachtet werden. Anschließend wird beschrieben, wie die verschiedenen Komponenten eines Entscheidungssystems um das zugrunde liegende Modell herum aufgebaut sind.

Wie überschneiden sich sequenzielle Entscheidungsfindung und zugrunde liegende Modelle und wirken sich gegenseitig aus? Google, Berkeley und andere erkunden weitere Möglichkeiten

In Kapitel 3 wird untersucht, wie grundlegende Modelle als generative Verhaltensmodelle (z. B. zur Entdeckung von Fähigkeiten) und als generative Modelle der Umgebung (z. B. zur Durchführung modellbasierten Denkens) dienen.

Wie überschneiden sich sequenzielle Entscheidungsfindung und zugrunde liegende Modelle und wirken sich gegenseitig aus? Google, Berkeley und andere erkunden weitere Möglichkeiten

In Kapitel 4 wird untersucht, wie grundlegende Modelle als Repräsentationslerner für Zustands-, Aktions-, Belohnungs- und Transferdynamiken dienen (z. B. Plug-and-Play-Vision-Sprachmodelle, modellbasiertes Repräsentationslernen).

Wie überschneiden sich sequenzielle Entscheidungsfindung und zugrunde liegende Modelle und wirken sich gegenseitig aus? Google, Berkeley und andere erkunden weitere Möglichkeiten

Kapitel 5 untersucht, wie sprachbasierte Modelle als interaktive Agenten und Umgebungen dienen und es ermöglichen, neue Probleme und Anwendungen innerhalb eines sequentiellen Entscheidungsrahmens zu berücksichtigen (Sprachmodellbegründung, Dialog, Werkzeugnutzung).

Wie überschneiden sich sequenzielle Entscheidungsfindung und zugrunde liegende Modelle und wirken sich gegenseitig aus? Google, Berkeley und andere erkunden weitere Möglichkeiten

Im letzten Kapitel skizziert der Forscher die ungelösten Probleme und Herausforderungen und schlägt mögliche Lösungen vor (z. B. wie man ein breites Datenspektrum nutzt, wie man die Umgebung aufbaut und welche Grundmodelle und Sequenzen es gibt). Entscheidungsaspekte können verbessert werden).

Wie überschneiden sich sequenzielle Entscheidungsfindung und zugrunde liegende Modelle und wirken sich gegenseitig aus? Google, Berkeley und andere erkunden weitere Möglichkeiten

Weitere Einzelheiten finden Sie im Originalpapier.

Das obige ist der detaillierte Inhalt vonWie überschneiden sich sequenzielle Entscheidungsfindung und zugrunde liegende Modelle und wirken sich gegenseitig aus? Google, Berkeley und andere erkunden weitere Möglichkeiten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!