Mehr als 80 Artikel verstehen den Forschungsfortschritt von „Robot + 3D“.
Vor einiger Zeit berichteten mehrere Medien, dass World Labs, ein Startup-Unternehmen, das vom berühmten KI-Wissenschaftler und Stanford-Universitätsprofessor Li Feifei gegründet wurde, in nur drei Monaten zwei Finanzierungsrunden abgeschlossen hatte Finanzierung Nachdem das Unternehmen etwa 100 Millionen US-Dollar eingeworben hatte, überstieg die Bewertung 1 Milliarde US-Dollar, was es zu einem neuen Einhorn macht. Die Entwicklungsrichtung von World Labs konzentriert sich auf „räumliche Intelligenz“, also auf die Entwicklung von Modellen, die die dreidimensionale physische Welt verstehen und die physikalischen Eigenschaften, die räumliche Lage und Funktionen von Objekten simulieren können. Li Feifei glaubt, dass „räumliche Intelligenz“ ein zentraler Bestandteil der Entwicklung von KI ist. Ihr Team trainiert im Labor der Stanford University Computer und Roboter, um Aktionen in der dreidimensionalen Welt zu ermöglichen ein Roboterarm, der Türen öffnet und Dinge gemäß mündlicher Anweisungen erledigt. Sandwiches und andere Aufgaben. (Einzelheiten finden Sie unter „Li Feifei erklärt die unternehmerische Ausrichtung der „räumlichen Intelligenz“, die es der KI ermöglicht, die Welt wirklich zu verstehen“ ) Um das Konzept der „räumlichen Intelligenz“ zu erklären, erläutert Li Feifei zeigte ein Bild einer Katze, die ihre Pfoten ausstreckte, ein Bild, auf dem ein Glas an die Tischkante geschoben wurde. Im Bruchteil einer Sekunde, sagt sie, kann das menschliche Gehirn „die Geometrie dieses Glases, seine Position im dreidimensionalen Raum, seine Beziehung zum Tisch, zur Katze und all diesen anderen Dingen“ beurteilen und dann vorhersagen, was passieren wird Ergreifen Sie Maßnahmen, um das Problem zu verhindern. Tatsächlich achten neben Li Feifei mittlerweile auch viele Forschungsteams auf die Richtung 3D-Vision + Roboter. Diese Teams glauben, dass viele der Einschränkungen der aktuellen KI auf Modelle zurückzuführen sind, denen ein tiefes Verständnis der 3D-Welt fehlt. Wenn wir dieses Rätsel lösen wollen, müssen wir mehr Forschungsenergie in Richtung 3D-Vision investieren. Darüber hinaus ermöglicht 3D-Vision eine Tiefenwahrnehmung und ein räumliches Verständnis der Umgebung, was für die Navigation, den Betrieb und die Entscheidungsfindung von Robotern in einer komplexen dreidimensionalen Welt von entscheidender Bedeutung ist. Gibt es also systematische Forschungsinformationen, auf die sich Forscher in dieser Richtung beziehen können? Diese Seite hat kürzlich eines gefunden: Projektlink: https://github.com/zubair-irshad/Awesome-Robotics-3DDieses heißt „Awesome-Robotics-3D“ Das GitHub-Repository hat insgesamt mehr als 80 Artikel in der Richtung „3D Vision + Robotics“ gesammelt. Die meisten Artikel enthalten entsprechende Artikel, Projekte und Code-Links. Diese Arbeiten können in die folgenden Themen unterteilt werden:
-
- Simulation, Daten Set und Benchmarks
Diese Beiträge umfassen arXiv-Preprints sowie Beiträge von Top-Robotikkonferenzen wie RSS, ICRA, IROS und CORL sowie Top-Konferenzbeiträge in den Bereichen Computer Vision und maschinelles Lernen wie CVPR, ICLR und ICML Sie sind sehr wertvoll.The list of papers for each part is as follows: 5. Simulation, data set and benchmarkIn addition, the author also provides two review papers that can be referenced:
- Paper 1: When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models
- Paper link: https://arxiv.org/pdf/2405.10255
Paper Introduction: This paper provides a comprehensive overview of the methodologies that enable LLM to process, understand and generate 3D data, and highlights the unique advantages of LLM such as in-context learning, step-by-step reasoning, open vocabulary capabilities and broad world knowledge, these advantages are expected to significantly advance spatial understanding and interaction in embodied artificial intelligence systems. The research covers various 3D data representation methods from point clouds to Neural Radiation Fields (NeRF), and examines their integration with LLM for 3D scene understanding, description generation, question answering and dialogue, as well as LLM-based agents for spatial tasks such as reasoning, planning, and navigation. In addition, the paper briefly reviews other methods for integrating 3D and language. Through a meta-analysis of these studies, the paper reveals the significant progress achieved and highlights the need to develop new methods to fully exploit the potential of 3D-LLM. To support this investigation, the author has established a project page to organize and list papers related to the topic: https://github.com/ActiveVisionLab/Awesome-LLM-3D
- Paper 2: A Comprehensive Study of 3-D Vision-Based Robot Manipulation
- Paper link: https://ieeexplore.ieee.org/document/9541299
Paper introduction: This article is comprehensive The latest progress of 3D vision in the field of robot control is analyzed, especially in imitating human intelligence and giving robots more flexible working capabilities. The article discusses the 2D vision system that traditional robot control usually relies on and its limitations, and points out the challenges faced by 3D vision systems in the open world, such as general object recognition in cluttered backgrounds, occlusion estimation, and human-like flexible control. The article covers key technologies such as 3D data acquisition and representation, robot vision calibration, 3D object detection/recognition, 6-degree-of-freedom pose estimation, grasp estimation and motion planning. Additionally, some public datasets, evaluation criteria, comparative analysis, and current challenges are introduced. Finally, the article explores the related application fields of robot control and discusses future research directions and open issues. Interested readers can click on the project link to start learning. Das obige ist der detaillierte Inhalt vonMöchten Sie die unternehmerische Ausrichtung von Li Feifei verstehen? Hier ist eine Liste von Artikeln zum Thema Robotik + 3D. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!