Es kann Glasfragmente und transparente Unterwasserobjekte greifen. Tsinghua hat ein universelles Rahmenwerk zum Greifen transparenter Objekte mit einer sehr hohen Erfolgsquote vorgeschlagen.-KI-php.cn

Wahrnehmung und Erfassung transparenter Objekte in komplexen Umgebungen sind anerkannte Probleme im Bereich Robotik und Computer Vision. Kürzlich schlugen ein Team und Mitarbeiter der Shenzhen International Graduate School der Tsinghua-Universität ein transparentes Rahmenwerk zum Greifen von Objekten mit visueller und taktiler Fusion vor, das auf einer RGB-Kamera und einer mechanischen Klaue TaTa mit taktilen Sensorfunktionen basiert und sim2real verwendet, um die Erkennung der Greifposition zu realisieren von transparenten Objekten. Dieses Framework kann nicht nur das Problem des Erfassens unregelmäßiger transparenter Objekte wie Glassplitter lösen, sondern auch das Problem des Ergreifens überlappender, gestapelter, unebener Sandhaufen und sogar hochdynamischer transparenter Unterwasserobjekte.

Es kann Glasfragmente und transparente Unterwasserobjekte greifen. Tsinghua hat ein universelles Rahmenwerk zum Greifen transparenter Objekte mit einer sehr hohen Erfolgsquote vorgeschlagen. Bilder

Transparente Objekte werden aufgrund ihrer Schönheit, Einfachheit und anderer Eigenschaften häufig im Leben verwendet. Man findet sie beispielsweise in Küchen, Geschäften und Fabriken. Obwohl transparente Objekte weit verbreitet sind, ist das Ergreifen transparenter Objekte für Roboter ein sehr schwieriges Problem. Dafür gibt es drei Hauptgründe:

Es kann Glasfragmente und transparente Unterwasserobjekte greifen. Tsinghua hat ein universelles Rahmenwerk zum Greifen transparenter Objekte mit einer sehr hohen Erfolgsquote vorgeschlagen. Bilder

1 Es hat keine eigenen Texturattribute. Die Informationen auf der Oberfläche transparenter Objekte ändern sich mit der Änderung der Umgebung, und die erzeugte Textur wird hauptsächlich durch Lichtbrechung und -reflexion verursacht, was die Erkennung transparenter Objekte stark erschwert.

2. Die Annotation transparenter Datensätze ist schwieriger als die Annotation gewöhnlicher Objekte. In tatsächlichen Szenen ist es für Menschen manchmal schwierig, transparente Objekte wie Glas zu unterscheiden, geschweige denn Bilder von transparenten Objekten zu beschriften.

3. Die Oberfläche transparenter Objekte ist glatt. Schon eine kleine Abweichung in der Greifposition kann zum Scheitern der Greifaufgabe führen.

Daher ist die Lösung des Problems, transparente Objekte in verschiedenen komplexen Szenen mit möglichst geringen Kosten zu erfassen, zu einem sehr wichtigen Thema im Bereich der transparenten Objektforschung geworden. Kürzlich hat das Intelligent Perception and Robotics Team der Tsinghua University Shenzhen International Graduate School ein transparentes Objekterfassungs-Framework vorgeschlagen, das auf visueller und taktiler Fusion basiert, um die Erkennung und Erfassung transparenter Objekte zu realisieren. Diese Methode weist nicht nur eine sehr hohe Erfolgsquote beim Greifen auf, sondern kann auch zum Greifen transparenter Objekte in verschiedenen komplexen Szenen angepasst werden.

Es kann Glasfragmente und transparente Unterwasserobjekte greifen. Tsinghua hat ein universelles Rahmenwerk zum Greifen transparenter Objekte mit einer sehr hohen Erfolgsquote vorgeschlagen. Bilder

Bitte überprüfen Sie den folgenden Papierlink: https://ieeexplore.ieee.org/document/10175024

Assoziierter Professor Ding Wenbo von der Shenzhen International Graduate School der Tsinghua-Universität, korrespondierender Autor In dem Papier heißt es: „Roboter haben im Bereich der häuslichen Dienstleistungen einen großen Anwendungswert gezeigt, aber die meisten aktuellen Roboter konzentrieren sich auf einen einzigen Bereich. Der Vorschlag eines universellen Roboter-Greifmodells wird eine enorme Förderung für die Förderung mit sich bringen.“ und Anwendung der Robotertechnologie. Obwohl wir transparente Objekte als Forschungsobjekt verwenden, kann dieser Rahmen leicht auf das Erfassen von Aufgaben alltäglicher Objekte im Leben ausgeweitet werden und der Tsinghua University Shenzhen International Graduate School, sagten: „In Familienszenen. Die unstrukturierte Umgebung bringt große Herausforderungen für die praktische Anwendung von Robotern mit sich. Wir integrieren Vision und Tastwahrnehmung, um den Wahrnehmungsprozess weiter zu simulieren, wenn Menschen mit der Außenwelt interagieren, und bieten so mehr.“ Stabilität für Roboteranwendungen in komplexen Szenarien. Das von uns vorgeschlagene Framework kann auch auf weitere Modalitäten wie das Hören ausgeweitet werden Für diese Aufgabe sollten neben der Erfassung der Position des Objekts während des Greifvorgangs auch die Greifposition und der Greifwinkel berücksichtigt werden. Gegenwärtig werden die meisten Arbeiten zum Erfassen transparenter Objekte auf einer Ebene mit einem einfachen Hintergrund ausgeführt, aber im wirklichen Leben werden die meisten Szenen nicht so ideal sein wie unsere experimentelle Umgebung. Einige spezielle Szenen wie Glassplitter, Pfähle, Überlappungen, Wellen, Sand und Unterwasserszenen sind anspruchsvoller.

Glasfragmente sind zunächst einmal Objekte ohne festes Modell. Aufgrund ihrer zufälligen und veränderlichen Form stellen sie hohe Anforderungen an die Vielseitigkeit des Greifnetzwerks und der Greifwerkzeuge.
Zweitens ist das Ergreifen transparenter Objekte auf welligen Ebenen ebenfalls eine Herausforderung. Wie in der folgenden Abbildung dargestellt, ist es einerseits schwierig, die Tiefeninformationen transparenter Objekte genau zu erhalten, und andererseits weist die wellenförmige Szene einige Schatten, Überlappungen und Reflexionsbereiche auf, was die Erkennung schwieriger macht von transparenten Objekten.
Drittens ist aufgrund der ähnlichen optischen Eigenschaften von Wasser und transparenten Objekten auch das Erfassen transparenter Objekte in Unterwasserszenen eine Herausforderung. Selbst mit einer Tiefenkamera können transparente Objekte im Wasser nicht genau erkannt werden, und die Situation wird noch schlimmer, wenn sie von Licht aus verschiedenen Richtungen beleuchtet werden.

Wir haben die oben genannten Algorithmen integriert, um das Greifen transparenter Objekte in verschiedenen Szenarien abzuschließen, was die Greifstrategie der oberen Ebene unseres Visual-Touch-Fusion-Frameworks darstellt. Wir zerlegen eine Greifaufgabe in drei Teilaufgaben, nämlich Objektklassifizierung, Erkennung der Greifposition und Erkennung der Greifhöhe. Jede Teilaufgabe kann durch Sehen, Berühren oder Sicht-Berührungs-Fusion erledigt werden.

Es kann Glasfragmente und transparente Unterwasserobjekte greifen. Tsinghua hat ein universelles Rahmenwerk zum Greifen transparenter Objekte mit einer sehr hohen Erfolgsquote vorgeschlagen. Ähnlich wie beim menschlichen Verhalten beim Greifen können wir, wenn das Sehen direkt die genaue Position eines Objekts ermitteln kann, die Hand steuern, um das Objekt direkt zu erreichen und den Griff abzuschließen, wie in der Abbildung unten (A) gezeigt. Wenn das Sehen die Positionsinformationen eines Objekts nicht genau ermitteln kann, verwenden wir nach dem Abschätzen der Position des Objekts mithilfe des Sehvermögens die taktile Erfassungsfunktion der Hand, um die Greifposition langsam anzupassen, bis das Objekt berührt wird und die geeignete Greifposition erreicht ist erreicht, wie unten (B) dargestellt. Beim Greifen von Objekten unter eingeschränkten Sehbedingungen, wie in der Abbildung unten (C) gezeigt, verwenden wir die reichen Tastnerven der Hand, um innerhalb der möglichen Reichweite des Ziels zu suchen, obwohl dies sehr ineffizient ist , Aber es ist eine effektive Methode, um das Objekt-Grabbing in diesen speziellen Szenarien zu lösen.

Bilder

Inspiriert von menschlichen Greifstrategien unterteilen wir die Greifaufgaben transparenter Objekte in drei Typen: Ebenen mit komplexem Hintergrund, unregelmäßige Szenen und Szenen, die visuell nicht erkannt werden können, wie unten gezeigt. Beim ersten Typ spielt das Sehen eine Schlüsselrolle, und wir definieren die Erfassungsmethode in diesem Szenario als eine Erfassungsmethode, bei der das Sehen zuerst im Vordergrund steht. Beim zweiten Typ können Sehen und Fühlen zusammenarbeiten, und wir definieren die Greifmethode in diesem Szenario als visuell-taktiles Greifen. Beim letzten Typ kann das Sehen versagen und die Berührung wird in der Aufgabe dominant. Wir definieren die Greifmethode in diesem Szenario als eine Greifmethode, bei der die Berührung zuerst erfolgt.

Bilder

Der Prozess der Vision-First-Greifmethode ist in der folgenden Abbildung dargestellt. Zuerst wird TGCNN verwendet, um die Greifposition und -höhe zu ermitteln, und dann werden die taktilen Informationen verwendet, um die Greifposition zu kalibrieren und schließlich wird der visuell-taktile Fusionsalgorithmus zur Klassifizierung verwendet. Das visuell-taktile Erfassen basiert auf dem vorherigen und fügt das THS-Modul hinzu, das den Tastsinn nutzen kann, um die Höhe des Objekts zu ermitteln. Der haptisch-erste Greifansatz wurde durch ein TPE-Modul ergänzt, das den Tastsinn nutzt, um die Position transparenter Objekte zu ermitteln.

Experimentelle Verifizierung

Um die Wirksamkeit unseres vorgeschlagenen Frameworks und Algorithmus zu überprüfen, haben wir eine große Anzahl von Verifizierungsexperimenten durchgeführt.

Um die Wirksamkeit unseres vorgeschlagenen transparenten Objektdatensatzes, der Annotationsmethode und des Erfassungsnetzwerks zur Erfassung der Position zu testen, führten wir zunächst Experimente zur Erkennung synthetischer Daten und Experimente zur Erfassung der Position transparenter Objekte unter verschiedenen Hintergründen und Helligkeiten durch. Zweitens haben wir zur Überprüfung der Wirksamkeit des visuell-taktilen Fusions-Erfassungsrahmens ein transparentes Objektklassifizierungsexperiment und ein transparentes Fragment-Erfassungsexperiment entworfen. Drittens haben wir ein Experiment zum Erfassen transparenter Objekte in unregelmäßigen und visuell eingeschränkten Szenen entworfen, um die Wirksamkeit des Frameworks nach dem Hinzufügen des THS-Moduls und des TPE-Moduls zu testen.

Zusammenfassung

Um das anspruchsvolle Problem der Erkennung, Erfassung und Klassifizierung transparenter Objekte zu lösen, schlägt diese Studie ein visuell-haptisches Fusionsrahmenwerk vor, das auf synthetischen Datensätzen basiert. Erstens wird die Blender-Simulations-Engine zum Rendern synthetischer Datensätze anstelle manuell kommentierter Datensätze verwendet.

Darüber hinaus wird die Gaußsche Maske anstelle der herkömmlichen binären Annotationsmethode verwendet, um die Generierung von Greifpositionen genauer zu machen. Um die Greifposition transparenter Objekte zu ermitteln, schlug der Autor einen Algorithmus namens TGCNN vor und führte mehrere Vergleichsexperimente durch. Die Ergebnisse zeigen, dass der Algorithmus auch bei unterschiedlichen Hintergründen und Lichtverhältnissen gute Ergebnisse erzielen kann Voraussetzungen für eine gute Erkennung.

Angesichts der Greifschwierigkeiten, die durch die Einschränkungen der visuellen Erkennung verursacht werden, schlägt diese Studie eine taktile Kalibrierungsmethode in Kombination mit dem weichen Greifer TaTa vor, um die Erfolgsquote beim Greifen zu verbessern, indem die Greifposition mit taktilen Informationen angepasst wird. Im Vergleich zum rein visuellen Greifen verbessert diese Methode die Greiferfolgsquote um 36,7 %.

Um das Problem der Klassifizierung transparenter Objekte in komplexen Szenen zu lösen, schlägt diese Studie eine Klassifizierungsmethode für transparente Objekte vor, die auf der Vision-Tast-Fusion basiert und die Genauigkeit im Vergleich zur Klassifizierung allein auf der Grundlage des Sehens um 39,1 % verbessert.

Um das Erfassen transparenter Objekte in unregelmäßigen und visuell nicht erkennbaren Szenen zu erreichen, schlägt diese Studie außerdem THS- und TPE-Module vor, die das Problem des Erfassens transparenter Objekte ohne visuelle Informationen kompensieren können. Die Forscher konzipierten systematisch eine große Anzahl von Experimenten, um die Wirksamkeit des vorgeschlagenen Rahmenwerks in komplexen Szenen wie verschiedenen Überlagerungen, Überlappungen, Wellen, Sandgebieten und Unterwasserszenen zu überprüfen. Die Studie geht davon aus, dass der vorgeschlagene Rahmen auch auf die Objekterkennung in Umgebungen mit schlechten Sichtverhältnissen wie Rauch und trübem Wasser angewendet werden kann, wo die taktile Wahrnehmung den Mangel an visueller Erkennung ausgleichen und die Klassifizierungsgenauigkeit durch visuell-taktile Fusion verbessern kann.

Über den Autor

Es kann Glasfragmente und transparente Unterwasserobjekte greifen. Tsinghua hat ein universelles Rahmenwerk zum Greifen transparenter Objekte mit einer sehr hohen Erfolgsquote vorgeschlagen.

Der Dozent des Visual-Touch-Fusion-Projekts zum Erfassen transparenter Objekte ist Ding Wenbo. Derzeit ist er außerordentlicher Professor an der Shenzhen International Graduate School der Tsinghua-Universität und leitet die intelligente Wahrnehmung und Robotik-Forschungsgruppe. Seine Forschungsinteressen umfassen hauptsächlich Signalverarbeitung, maschinelles Lernen, tragbare Geräte, flexible Mensch-Computer-Interaktion und maschinelle Wahrnehmung. Zuvor schloss er sein Studium an der Fakultät für Elektrotechnik der Tsinghua-Universität mit einem Bachelor-Abschluss und einem Doktortitel ab und arbeitete als Postdoktorand am Georgia Institute of Technology, wo er bei Akademiker Wang Zhonglin studierte. Er hat zahlreiche Auszeichnungen gewonnen, darunter den Sonderpreis der Tsinghua-Universität, die Goldmedaille der 47. Internationalen Erfindungsausstellung in Genf, den IEEE Scott Helt Memorial Award, den zweiten Preis des Natural Science Award der China Electronics Society usw. und hat in den Bereichen Naturkommunikation, wissenschaftliche Fortschritte, Energie- und Umweltwissenschaften sowie fortgeschrittene Energie gearbeitet. Er hat mehr als 70 Artikel in maßgeblichen Fachzeitschriften in den Bereichen Materialien, IEEE TRO/RAL und anderen Bereichen veröffentlicht und wurde mehr als 6.000 Mal von Google zitiert Wissenschaftler und Autor von mehr als 10 Patenten in China und den Vereinigten Staaten. Er ist Mitherausgeber der renommierten internationalen Signalverarbeitungszeitschrift Digital Signal Processing, Chefgastredakteur der IEEE JSTSP Special Issue on Robot Perception und Mitglied des Applied Signal Processing Systems Technical Committee der IEEE Signal Processing Society.

Homepage der Forschungsgruppe: http://ssr-group.net/.

Es kann Glasfragmente und transparente Unterwasserobjekte greifen. Tsinghua hat ein universelles Rahmenwerk zum Greifen transparenter Objekte mit einer sehr hohen Erfolgsquote vorgeschlagen.

Von links nach rechts: Shoujie Li, Haixin Yu, Houde Liu

Die Co-Autoren des Artikels sind Shoujie Li (Doktorand an der Tsinghua-Universität) und Haixin Yu (Masterstudent an der Tsinghua-Universität). Zu den weiteren Autoren gehören Linqi Ye (Shanghai-Universität). Chongkun Xia (Tsinghua-Universität), Xueqian Wang (Tsinghua-Universität), Xiao-Ping Zhang (Tsinghua-Universität). Zu den Hauptforschungsrichtungen von Shoujie Li gehören das Greifen von Robotern, die taktile Wahrnehmung und das tiefe Lernen. Als Erstautor hat er zahlreiche Artikel in renommierten Fachzeitschriften und Konferenzen für Robotik und Steuerung wie Soft Robotics, TRO, RAL, ICRA, IROS usw. veröffentlicht ., und hat 10 Erfindungspatente genehmigt. Die relevanten Forschungsergebnisse wurden als erster Autor in den „ICRA 2022 Outstanding Mechanisms and Design Paper Finalists“ ausgewählt Zukunftsstipendium der Tsinghua-Universität und nationales Stipendium.

Das obige ist der detaillierte Inhalt vonEs kann Glasfragmente und transparente Unterwasserobjekte greifen. Tsinghua hat ein universelles Rahmenwerk zum Greifen transparenter Objekte mit einer sehr hohen Erfolgsquote vorgeschlagen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!