Wohin ist die „verkörperte Intelligenz', auf die sich Li Feifei konzentrierte, gelangt?-KI-php.cn

Im Jahr 2009 leitete Li Feifei, ein damals an der Princeton University tätiger Informatiker, die Erstellung eines Datensatzes, der die Geschichte der künstlichen Intelligenz veränderte – ImageNet. Es enthält Millionen beschrifteter Bilder, mit denen komplexe maschinelle Lernmodelle trainiert werden können, um Objekte in Bildern zu identifizieren.

Im Jahr 2015 übertrafen die maschinellen Erkennungsfähigkeiten die des Menschen. Li Feifei wandte sich bald einem neuen Ziel zu und suchte nach einem weiteren „Nordstern“, wie sie es nannte (der „Polaris“ bezieht sich hier auf das zentrale wissenschaftliche Problem, auf dessen Lösung sich Forscher konzentrieren und das ihre Forschungsbegeisterung wecken und bahnbrechende Fortschritte erzielen kann).

Wohin ist die „verkörperte Intelligenz', auf die sich Li Feifei konzentrierte, gelangt?

Sie fand Inspiration, indem sie 530 Millionen Jahre auf die kambrische Explosion des Lebens zurückblickte, als viele Landtierarten zum ersten Mal auftauchten. Eine einflussreiche Theorie besagt, dass die Explosion neuer Arten teilweise durch die Entstehung von Augen vorangetrieben wurde, die es den Lebewesen ermöglichten, die Welt um sie herum zum ersten Mal zu sehen. Li Feifei glaubt, dass das Sehen von Tieren nicht isoliert entsteht, sondern „tief in ein Ganzes eingebettet ist, das sich in einer sich schnell verändernden Umgebung bewegen, navigieren, überleben, manipulieren und verändern muss“, sagte sie Heute konzentriert sich Li Feifeis Arbeit auf KI-Agenten, die nicht nur statische Bilder aus Datensätzen empfangen, sondern auch dreidimensionale Virtualisierungen durchführen können.

Dies ist das allgemeine Ziel eines neuen Feldes namens „verkörperte KI“. Es gibt Überschneidungen mit der Robotik, da Roboter als physisches Äquivalent zu verkörperten KI-Agenten und verstärktem Lernen in der realen Welt angesehen werden können. Wohin ist die „verkörperte Intelligenz', auf die sich Li Feifei konzentrierte, gelangt? Li Feifei und andere glauben, dass die verkörperte KI uns einen großen Wandel bescheren kann, von der einfachen Fähigkeit des maschinellen Lernens, wie das Erkennen von Bildern, bis hin zum Erlernen, wie man komplexe, menschenähnliche Aufgaben in mehreren Schritten ausführt, wie zum Beispiel die Zubereitung eines Omeletts.

Heutzutage umfasst die Arbeit der verkörperten KI jeden Agenten, der seine eigene Umgebung erkennen und verändern kann. In der Robotik leben KI-Agenten immer in Roboterkörpern, während Agenten in realen Simulationen einen virtuellen Körper haben oder die Welt durch eine sich bewegende Kameraposition wahrnehmen und mit der Umgebung interagieren können. „Die Bedeutung der Verkörperung ist nicht der Körper selbst, sondern die allgemeinen Bedürfnisse und Funktionen der Interaktion mit der Umwelt und des Tuns von Dingen in der Umwelt“, erklärte Li Feifei.

Diese Interaktivität bietet Agenten eine neue – und in vielen Fällen bessere – Möglichkeit, die Welt zu verstehen. Dies entspricht der Tatsache, dass Sie zuvor nur die mögliche Beziehung zwischen zwei Objekten beobachtet haben, jetzt aber experimentieren und diese Beziehung selbst verwirklichen können. Mit diesem neuen Verständnis werden Ideen in die Praxis umgesetzt und es entsteht größere Weisheit. Mit der Einrichtung neuer virtueller Welten haben verkörperte KI-Agenten begonnen, dieses Potenzial zu erkennen und in ihren neuen Umgebungen erhebliche Fortschritte zu machen.

„Im Moment haben wir keine Beweise für die Existenz von Intelligenz, die nicht durch Interaktion mit der Welt lernt“, sagte Viviane Clay, Forscherin für verkörperte KI an der Universität Osnebrück in Deutschland.

Auf dem Weg zur perfekten Simulation

Obwohl Forscher schon lange reale virtuelle Welten schaffen wollten, die KI-Agenten erkunden können, werden sie erst seit etwa fünf Jahren geschaffen. Diese Fähigkeit ergibt sich aus Verbesserungen der Grafik in der Film- und Videospielindustrie. Im Jahr 2017 können KI-Agenten Innenräume so realistisch darstellen, als wären sie in einem Zuhause – einem virtuellen, aber wörtlichen „Zuhause“. Informatiker am Allen Institute for Artificial Intelligence haben einen Simulator namens AI2-Thor entwickelt, mit dem Agenten durch natürliche Küchen, Badezimmer, Wohnzimmer und Schlafzimmer herumlaufen können. Agenten können dreidimensionale Ansichten erlernen, die sich während ihrer Bewegung ändern, wobei der Simulator neue Blickwinkel zeigt, wenn sie sich für einen genaueren Blick entscheiden.

Diese neue Welt gibt intelligenten Agenten auch die Möglichkeit, über Veränderungen in einer neuen Dimension „Zeit“ nachzudenken. „Das ist eine große Veränderung“, sagte Manolis Savva, ein Computergrafikforscher an der Simon Fraser University. „In einer verkörperten KI-Umgebung gibt es diese zeitlich kohärenten Informationsflüsse, die Sie steuern können.“ gut genug, dass Agenten für völlig neue Aufgaben geschult werden können. Sie können ein Objekt nicht nur erkennen, sondern auch mit ihm interagieren, es aufnehmen und um es herum navigieren. Diese scheinbar kleinen Schritte sind notwendig, damit jeder Agent seine Umgebung versteht. Im Jahr 2020 haben virtuelle Agenten die Möglichkeit, über das Sehen hinauszugehen und die von virtuellen Dingen erzeugten Geräusche zu hören, was eine neue Perspektive auf das Verständnis von Objekten und ihre Funktionsweise in der Welt bietet.

Verkörperte KI-Agenten, die in einer virtuellen Welt (ManipulaTHOR-Umgebung) laufen können, lernen auf andere Weise und eignen sich möglicherweise besser für komplexere, menschenähnliche Aufgaben.

Der Simulator hat jedoch auch seine eigenen Einschränkungen. „Selbst die besten Simulatoren sind weitaus weniger realistisch als die reale Welt“, sagt Daniel Yamins, Informatiker an der Stanford University. Yamins hat ThreeDWorld gemeinsam mit Kollegen am MIT und IBM entwickelt, ein Projekt, das sich auf die Simulation realer Physik in virtuellen Welten konzentriert, beispielsweise auf das Verhalten von Flüssigkeiten und darauf, wie manche Objekte in einem Bereich starr und in einem anderen wieder flexibel sind .

Dies ist eine sehr herausfordernde Aufgabe, die erfordert, dass die KI auf neue Weise lernt.

Vergleich mit neuronalen Netzen

Eine einfache Möglichkeit, den bisherigen Fortschritt der verkörperten KI zu messen, besteht darin, die Leistung verkörperter Agenten mit Algorithmen zu vergleichen, die auf einfachere statische Bildaufgaben trainiert wurden. Die Forscher stellen fest, dass diese Vergleiche nicht perfekt sind, aber erste Ergebnisse deuten darauf hin, dass verkörperte KI anders und manchmal besser lernt als ihre Vorgänger.

In einer aktuellen Arbeit („Interactron: Embodied Adaptive Object Detection“) fanden Forscher heraus, dass ein verkörperter KI-Agent bestimmte Objekte genauer erkennen konnte, fast 12 % besser als herkömmliche Methoden. „Es hat mehr als drei Jahre gedauert, bis der Bereich der Objekterkennung diesen Grad der Verbesserung erreicht hat“, sagte der Co-Autor der Studie, Roozbeh Mottaghi, ein Informatiker am Allen Institute for Artificial Intelligence. „Und wir haben allein durch die Interaktion so viel erreicht.“ „Andere Arbeiten haben gezeigt, dass Objekterkennungsalgorithmen Fortschritte machen, wenn man die Form einer verkörperten KI annimmt und sie einen virtuellen Raum einmal erkunden lässt oder herumläuft und mehrere Ansichten eines Objekts sammelt.“

Forscher fanden außerdem heraus, dass verkörperte Algorithmen und traditionelle Algorithmen völlig unterschiedlich lernen. Um dies zu demonstrieren, betrachten wir neuronale Netze, den Grundbestandteil der Lernfähigkeiten jedes verkörperten Algorithmus und vieler körperloser Algorithmen. Neuronale Netzwerke bestehen aus vielen Schichten miteinander verbundener künstlicher Neuronenknoten und sind den Netzwerken im menschlichen Gehirn lose nachempfunden. In zwei separaten Arbeiten stellten Forscher fest, dass in neuronalen Netzwerken verkörperter Agenten weniger Neuronen auf visuelle Informationen reagieren, was bedeutet, dass jedes einzelne Neuron selektiver reagiert. Körperlose Netzwerke sind viel weniger effizient und erfordern die meiste Zeit mehr Neuronen, um aktiv zu bleiben. Ein Forschungsteam (unter der Leitung der neuen NYU-Professorin Grace Lindsay) verglich sogar verkörperte und nicht verkörperte neuronale Netze mit der neuronalen Aktivität in einem lebenden Gehirn (dem visuellen Kortex von Mäusen) und stellte fest, dass verkörperte neuronale Netze dem Leben am nächsten kommen Körper.

Lindsay weist schnell darauf hin, dass dies nicht unbedingt bedeutet, dass die verkörperten Versionen besser sind, sie sind einfach nur anders. Im Gegensatz zum Artikel zur Objekterkennung vergleicht die Studie von Lindsay et al. die potenziellen Unterschiede desselben neuronalen Netzwerks und ermöglicht es den Agenten, völlig unterschiedliche Aufgaben zu erledigen, sodass sie möglicherweise neuronale Netzwerke benötigen, die unterschiedlich funktionieren, um ihre Ziele zu erreichen.

Während der Vergleich verkörperter neuronaler Netze mit nicht verkörperten neuronalen Netzen eine Möglichkeit ist, Verbesserungen zu messen, wollen Forscher in Wirklichkeit nicht die Leistung verkörperter Agenten bei bestehenden Aufgaben verbessern, sondern vielmehr die Leistung verkörperter Agenten verbessern Das Ziel besteht darin, komplexere, menschenähnliche Aufgaben zu erlernen. Das ist es, was die Forscher am meisten begeistert und sie sehen beeindruckende Fortschritte, insbesondere bei Navigationsaufgaben. Bei diesen Aufgaben muss sich der Agent an die langfristigen Ziele seines Ziels erinnern und gleichzeitig einen Plan formulieren, um dorthin zu gelangen, ohne sich zu verlaufen oder mit Gegenständen zusammenzustoßen.

In nur wenigen Jahren hat ein Team unter der Leitung des Georgia Tech-Informatikers Dhruv Batra, einem Forschungsdirektor bei Meta AI, große Fortschritte bei einer bestimmten Navigationsaufgabe namens „Punkt-Ziel-Navigation“ gemacht. Bei dieser Aufgabe wird der Agent in eine völlig neue Umgebung versetzt und muss ohne Karte zu einer bestimmten Koordinate gehen (z. B. „Gehe zu dem Punkt, der 5 Meter nördlich und 10 Meter östlich liegt“).

Batra sagte, dass sie den Agenten in einer virtuellen Meta-Welt namens „AI Habitat“ trainiert und ihm ein GPS und einen Kompass gegeben hätten. Sie stellten fest, dass er bei Standarddatensätzen eine Genauigkeit von mehr als 99,9 % erreichen konnte. In jüngerer Zeit haben sie ihre Ergebnisse erfolgreich auf ein schwierigeres und realistischeres Szenario ausgeweitet – ohne Kompass oder GPS. Dadurch erreichte der Agent eine Genauigkeit von 94 % bei der Schätzung seiner Position, indem er nur den Pixelstrom nutzte, den er während der Bewegung sah.

Wohin ist die „verkörperte Intelligenz', auf die sich Li Feifei konzentrierte, gelangt?

Die virtuelle Welt „AI Habitat“, erstellt vom Meta AI Dhruv Batra-Team. Sie hoffen, die Geschwindigkeit von Simulationen zu erhöhen, bis die verkörperte KI 20 Jahre Simulationserfahrung in nur 20 Minuten Arbeitszeit erreichen kann.

Mottaghi sagte: „Das ist eine große Verbesserung, aber es bedeutet nicht, dass das Navigationsproblem vollständig gelöst wurde. Denn viele andere Arten von Navigationsaufgaben erfordern die Verwendung komplexerer Sprachanweisungen, wie zum Beispiel „Geh durch die Küche.“ Um die Gegenstände auf den Nachttisch im Schlafzimmer zu bringen, beträgt die Genauigkeit immer noch nur etwa 30 % bis 40 %.

Aber die Navigation bleibt eine der einfachsten Aufgaben in der verkörperten KI, da der Agent nichts manipulieren muss, während er sich durch die Umgebung bewegt. Bisher sind verkörperte KI-Agenten weit davon entfernt, überhaupt objektbezogene Aufgaben zu meistern. Ein Teil der Herausforderung besteht darin, dass ein Agent bei der Interaktion mit neuen Objekten viele Fehler machen und sich die Fehler häufen können. Derzeit gehen die meisten Forscher dieses Problem an, indem sie Aufgaben mit nur wenigen Schritten auswählen. Die meisten menschenähnlichen Aktivitäten wie Backen oder Geschirrspülen erfordern jedoch lange Aktionssequenzen an mehreren Objekten. Um dieses Ziel zu erreichen, müssen KI-Agenten noch größere Fortschritte machen.

Fei-Fei Li könnte in dieser Hinsicht wieder an vorderster Front stehen, da ihr Team einen simulierten Datensatz – BEHAVIOR – entwickelt hat, in der Hoffnung, zur verkörperten KI beizutragen, was ihr ImageNet-Projekt für die Objekterkennung geleistet hat.

Wohin ist die „verkörperte Intelligenz', auf die sich Li Feifei konzentrierte, gelangt?

Dieser Datensatz enthält mehr als 100 menschliche Aktivitäten, die Agenten ausführen müssen, und Tests können in jeder virtuellen Umgebung durchgeführt werden. Der neue Datensatz des Teams von Fei-Fei Li wird es der Community ermöglichen, den Fortschritt virtueller KI-Agenten besser einzuschätzen, indem Metriken erstellt werden, die Agenten, die diese Aufgaben ausführen, mit echten Videos von Menschen vergleichen, die dieselben Aufgaben ausführen.

Sobald der Agent diese komplexen Aufgaben erfolgreich abschließt, glaubt Li Feifei, dass der Zweck der Simulation darin besteht, für den endgültigen betriebsfähigen Raum zu trainieren – die reale Welt.

„Meiner Meinung nach ist Simulation einer der wichtigsten und spannendsten Bereiche in der Robotikforschung.“

Die neue Grenze der Robotikforschung

Roboter sind im Wesentlichen verkörperte Intelligenz. Sie bewohnen eine Art physischen Körper in der realen Welt und stellen die extremste Form eines verkörperten KI-Agenten dar. Doch viele Forscher haben herausgefunden, dass auch solche Agenten von der Ausbildung in virtuellen Welten profitieren können.

Mottaghi sagte, dass die fortschrittlichsten Algorithmen in der Robotik, wie zum Beispiel Reinforcement Learning, oft Millionen von Iterationen erfordern, um etwas Sinnvolles zu lernen. Daher kann es Jahre dauern, echte Roboter für die Ausführung schwieriger Aufgaben zu trainieren.

Wohin ist die „verkörperte Intelligenz', auf die sich Li Feifei konzentrierte, gelangt?

Roboter können in der realen Welt durch unsicheres Gelände navigieren. Neue Forschungsergebnisse zeigen, dass das Training in virtuellen Umgebungen Robotern dabei helfen kann, diese und andere Fähigkeiten zu erlernen.

Aber wenn man sie zuerst in der virtuellen Welt trainiert, geht es viel schneller. Tausende Agenten können gleichzeitig in Tausenden unterschiedlichen Räumen geschult werden. Darüber hinaus ist virtuelles Training sowohl für Roboter als auch für Menschen sicherer.

Im Jahr 2018 zeigten OpenAI-Forscher, dass von einem Agenten in der virtuellen Welt erlernte Fähigkeiten auf die reale Welt übertragen werden können, sodass viele Robotikexperten begannen, Simulatoren mehr Aufmerksamkeit zu schenken. Sie brachten einer Roboterhand bei, einen Würfel zu manipulieren, der bisher nur in Simulationen zu sehen war. Zu den jüngsten Forschungen gehört auch, Drohnen in die Lage zu versetzen, Kollisionen in der Luft zu vermeiden, selbstfahrende Autos in städtischen Umgebungen auf zwei verschiedenen Kontinenten einzusetzen und einem vierbeinigen Roboterhund zu ermöglichen, eine einstündige Wanderung in den Schweizer Alpen (und Italien) zu absolvieren dauert genauso lange wie der Mensch).

In Zukunft könnten Forscher auch Menschen über Virtual-Reality-Headsets in den virtuellen Raum schicken und so die Lücke zwischen Simulation und realer Welt schließen. Dieter Fox, leitender Direktor für Robotikforschung bei Nvidia und Professor an der University of Washington, wies darauf hin, dass ein Hauptziel der Robotikforschung darin besteht, Roboter zu bauen, die für Menschen in der realen Welt hilfreich sind. Dazu müssen sie jedoch zunächst mit Menschen in Berührung kommen und lernen, mit ihnen umzugehen.

Fox sagt, es wäre ein sehr wirkungsvoller Ansatz, mithilfe der Virtual-Reality-Technologie Menschen in diese simulierten Umgebungen zu versetzen und sie dann Präsentationen halten und mit Robotern interagieren zu lassen.

Ob in der Simulation oder in der realen Welt, verkörperte KI-Agenten lernen, mehr wie Menschen zu sein und Aufgaben zu erledigen, die eher menschlichen Aufgaben ähneln. Das Feld schreitet in allen Aspekten voran, einschließlich neuer Welten, neuer Aufgaben und neuer Lernalgorithmen.

„Ich sehe die Verschmelzung von Deep Learning, Roboterlernen, Vision und sogar Sprache“, sagte Li Feifei. „Jetzt denke ich, dass wir durch diesen ‚Mondschuss‘ oder ‚Nordstern‘ für verkörperte KI die Grundlagen der Intelligenz erlernen werden.“ „Technologie, das kann wirklich zu großen Durchbrüchen führen“

Wohin ist die „verkörperte Intelligenz', auf die sich Li Feifei konzentrierte, gelangt?

Li Feifeis Artikel über das „North Star“-Problem der Computer Vision. Link: https://www.amacad.org/publication/searching-computer-vision-north-stars

Das obige ist der detaillierte Inhalt vonWohin ist die „verkörperte Intelligenz', auf die sich Li Feifei konzentrierte, gelangt?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!