Neuigkeiten vom 8. März: Am Montag startete eine Gruppe von Forschern für künstliche Intelligenz von Google und der Technischen Universität Berlin das größte visuelle Sprachmodell der Geschichte – PaLM-E, mit einem Parametervolumen von bis zu 562 Milliarden (GPT-3 hat ein Parametervolumen von 1750 100 Millionen).
PaLM-E ist das größte bisher bekannte VLM (Visual Language Model). Als multimodaler verkörperter VLM kann er nicht nur Bilder verstehen, sondern auch Sprache verstehen, generieren und verschiedene komplexe Roboteranweisungen ohne Umschulung ausführen. Es weist auch starke Emergenzfähigkeiten auf (Modelle, die sich unvorhersehbar verhalten).
Laut Google kann PaLM-E bei einem übergeordneten Befehl wie „Bring mir die Reisflocken in der Schublade“ einen Aktionsplan für eine mobile Roboterplattform mit einem Arm (entwickelt von Google Robots) erstellen. und Führen Sie diese Aktionen selbst durch.
PaLM-E erreicht dies durch die Analyse der Daten der Kamera des Roboters, ohne die Szene vorzuverarbeiten. Dadurch entfällt die Notwendigkeit, dass Menschen die Daten vorverarbeiten oder kommentieren, wodurch die Robotersteuerung autonomer wird.
PaLM-E ist außerdem flexibel und in der Lage, auf die Umgebung zu reagieren. Das PaLM-E-Modell kann beispielsweise einen Roboter anleiten, eine Tüte Kartoffelchips aus der Küche zu holen. Da PaLM-E in den Regelkreis integriert ist, ist es resistent gegen Unterbrechungen, die während der Aufgabe auftreten können. In einem Videobeispiel nahm ein Forscher Kartoffelchips aus den Händen des Roboters und bewegte sie, aber der Roboter fand die Chips und schnappte sie sich erneut.
Darüber hinaus kann das PaLM-E-Modell den Roboter auch so steuern, dass er selbständig komplexe Aufgaben erledigt, die ursprünglich eine menschliche Führung erfordern. Zusätzlich zur Robotik beobachteten Google-Forscher auch mehrere interessante Effekte der Verwendung großer Sprachmodelle als Kern von PaLM-E. Einer davon ist, dass PaLM-E einen „Vorwärtstransfer“ aufweisen kann, was bedeutet, dass es aus einer Aufgabe lernen kann. Die erworbenen Kenntnisse und Fähigkeiten können auf eine andere Aufgabe übertragen werden, die eine bessere Leistung erbringen kann als das Einzelaufgaben-Robotermodell.
Google-Forscher planen, in Zukunft weitere reale Anwendungen von PaLM-E zu erforschen, wie z. B. Heimautomatisierung oder Industrieroboter, und hoffen, dass PaLM-E weitere Anwendungen multimodaler KI inspirieren kann.
IT House hat berichtet, dass Microsoft, ein starker Rivale von Google AI, kürzlich auch einen Artikel „ChatGPT for Robotics“ veröffentlicht hat, der visuelle Daten und große Sprachmodelle verwendet, um Roboter auf ähnliche Weise zu steuern.
Das obige ist der detaillierte Inhalt von562 Milliarden Parameter! Google veröffentlicht PaLM-E, das größte „generalistische' KI-Modell in der Geschichte, das es Robotern ermöglicht, eine Vielzahl von Aufgaben autonom auszuführen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!