Pasukan Li Xi Universiti Zhejiang: Kaedah baharu untuk merujuk kepada pemahaman ungkapan, ScanFormer berulang daripada kasar kepada halus untuk menghapuskan lebihan visual-AI-php.cn

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Penulis kertas ini semuanya daripada pasukan Profesor Li Xi dari Universiti Zhejiang Wei, dan pengarang yang sepadan ialah Li Profesor Xi (Fellow IET, Cendekiawan Muda Terbilang Negara). Dalam beberapa tahun kebelakangan ini, pasukan Profesor Li Xi telah menerbitkan lebih daripada 180 kerja penyelidikan berkaitan CV/AIGC dalam jurnal antarabangsa yang berwibawa (seperti TPAMI, IJCV, dll.) dan persidangan akademik antarabangsa terkemuka (ICCV, CVPR, ECCV, dll.), dan telah bekerjasama dengan universiti dalam dan luar negara yang terkenal dan Institusi penyelidikan saintifik bekerjasama secara meluas.

Sebagai tugas bahasa visual asas, kefahaman ungkapan merujuk (REC) mengesan sasaran yang dirujuk dalam imej berdasarkan penerangan bahasa semula jadi. Model RKM biasanya terdiri daripada tiga bahagian: pengekod visual, pengekod teks dan interaksi rentas mod, yang digunakan untuk mengekstrak ciri visual, ciri teks dan interaksi ciri rentas modal dan peningkatan masing-masing.

Kebanyakan penyelidikan semasa memfokuskan pada mereka bentuk modul interaksi silang mod yang cekap untuk meningkatkan ketepatan tugasan dan kurang penerokaan pengekod visual. Pendekatan biasa ialah menggunakan pengekstrak ciri yang telah dilatih mengenai tugas pengelasan dan pengesanan, seperti ResNet, DarkNet, Swin Transformer atau ViT, dsb. Model ini merentasi semua lokasi spatial imej untuk mengekstrak ciri dalam tetingkap gelongsor atau cara tampalan dibahagikan, dan kerumitan pengiraan mereka akan meningkat dengan cepat dengan resolusi imej, yang lebih jelas dalam model berasaskan Transformer.

Disebabkan ciri redundansi spatial imej, terdapat sejumlah besar kawasan latar belakang dengan kandungan maklumat yang rendah dan kawasan yang tidak berkaitan dengan ungkapan rujukan dalam imej Mengekstrak ciri dalam kawasan ini dengan cara yang sama akan meningkatkan jumlahnya pengiraan tetapi tidak berkesan untuk pengekstrakan ciri yang berkesan. Cara yang lebih cekap ialah meramalkan perkaitan teks dan kekayaan kandungan kawasan imej terlebih dahulu, mengekstrak sepenuhnya ciri daripada kawasan latar depan yang berkaitan dengan teks dan mengekstrak ciri secara kasar daripada kawasan latar belakang. Untuk ramalan serantau, cara yang lebih intuitif ialah menggunakan piramid imej untuk mengenal pasti kawasan latar belakang terlebih dahulu dalam imej berbutir kasar di bahagian atas piramid, dan kemudian menambah kawasan latar depan berbutir halus resolusi tinggi secara beransur-ansur.

Berdasarkan analisis di atas, kami mencadangkan rangka kerja persepsi berulang kasar ke halus ScanFormer, yang mengimbas lapisan demi lapisan dalam piramid imej, bermula daripada imej berskala kasar resolusi rendah dan menapis keluar secara beransur-ansur ungkapan rujukan / kawasan latar belakang yang tidak relevan untuk mengurangkan pembaziran pengiraan dan membolehkan model memfokus lebih pada latar depan/kawasan berkaitan tugas.

Pasukan Li Xi Universiti Zhejiang: Kaedah baharu untuk merujuk kepada pemahaman ungkapan, ScanFormer berulang daripada kasar kepada halus untuk menghapuskan lebihan visual

Papiertitel: ScanFormer: Referring Expression Comprehension by Iteratively Scanning
Papierlink: https://arxiv.org/pdf/2406.18048

Einführung in die Methode

eins , Grob-zu-fein iteratives Wahrnehmungsgerüst

Um die Struktur zu vereinfachen, übernehmen wir das ViLT-Modell [1], das Text und visuelle Modalitäten vereint und es entlang der Tiefendimension in zwei Teile unterteilt: Encoder1 und Encoder2 für verschiedene Aufgaben.

Zuerst Extrahieren Sie Textmerkmale und speichern Sie sie im KV-Cache. Erstellen Sie dann eine Bildpyramide und iterieren Sie in jeder Iteration den ausgewählten Patch im aktuellen Maßstab prognostizieren Sie jeweils die Auswahl feinkörniger Patches der nächsten Skala, die jedem Patch entsprechen. Insbesondere werden alle Patches des Bildes der obersten Ebene ausgewählt, um sicherzustellen, dass das Modell grobkörnige Vollbildinformationen erhalten kann. Encoder2 extrahiert weitere Features und sagt den Begrenzungsrahmen in diesem Maßstab basierend auf dem [cls]-Token des aktuellen Maßstabs voraus.

Gleichzeitig werden die Zwischenfunktionen von Encoder1 und Encoder2 im KV-Cache gespeichert, um die spätere Skalierungsnutzung zu erleichtern. Mit zunehmender Skalierung werden feinkörnigere Merkmale eingeführt und die Positionsvorhersage wird genauer, während die meisten irrelevanten Patches verworfen werden, um viel Rechenaufwand zu sparen.

Darüber hinaus verfügen die Patches innerhalb jeder Skala über eine bidirektionale Aufmerksamkeit, wobei alle Patch- und Textfunktionen in der vorherigen Skala berücksichtigt werden. Diese skalenübergreifende kausale Aufmerksamkeit kann den Rechenaufwand weiter reduzieren.

Pasukan Li Xi Universiti Zhejiang: Kaedah baharu untuk merujuk kepada pemahaman ungkapan, ScanFormer berulang daripada kasar kepada halus untuk menghapuskan lebihan visual

2. Dynamische Patch-Auswahl

Die Auswahl jedes Patches wird durch den durch die vorherige Skala generierten Auswahlfaktor bestimmt. Es gibt zwei Optionen für den Anwendungsort. Eine davon gilt für jede Schicht von MHSA Unter allen Köpfen ist es jedoch für den N-Schicht-H-Kopf-Encoder schwierig, effektive Gradienteninformationen zu erhalten, sodass der erlernte Auswahlfaktor nicht direkt für die Eingabe des Encoders verwendet wird. Das heißt, die Patch-Einbettung wird nur in dieser einen Position verwendet und ist einfacher zu erlernen. Diese Lösung wurde letztendlich in diesem Artikel übernommen.

Darüber hinaus ist zu beachten, dass selbst wenn die Eingabe-Patch-Einbettung auf 0 gesetzt ist, aufgrund der Existenz von MHSA und FFN die Eigenschaften des Patches in nachfolgenden Schichten immer noch ungleich 0 werden und sich auf das auswirken Eigenschaften der übrigen Patches. Wenn die Token-Sequenz viele identische Token enthält, kann die Berechnung von MHSA glücklicherweise vereinfacht und eine tatsächliche Inferenzbeschleunigung erreicht werden. Um die Flexibilität des Modells zu erhöhen, wird in diesem Artikel außerdem die Patch-Einbettung nicht direkt auf 0 gesetzt, sondern durch ein lernbares Konstanten-Token ersetzt.

Daher wird das Patch-Auswahlproblem in ein Patch-Ersatzproblem umgewandelt. Der Prozess der Patch-Auswahl kann in zwei Schritte unterteilt werden: ständiger Token-Ersatz und Token-Zusammenführung. Nicht ausgewählte Patches werden durch dasselbe konstante Token ersetzt. Da diese nicht ausgewählten Token gleich sind, können diese Token gemäß der Berechnungsmethode der skalierten Skalarproduktaufmerksamkeit zu einem Token kombiniert und mit der Gesamtzahl multipliziert werden, was einer Addition der Dimension entspricht, also der Skalarproduktaufmerksamkeitsmethode berechnet. Keine Änderung, gängige Beschleunigungsmethoden sind weiterhin verfügbar.

Pasukan Li Xi Universiti Zhejiang: Kaedah baharu untuk merujuk kepada pemahaman ungkapan, ScanFormer berulang daripada kasar kepada halus untuk menghapuskan lebihan visual

Experimentelle Ergebnisse

Diese Methode erzielt bei vier Datensätzen eine Leistung, die dem Stand der Technik ähnelt: RefCOCO, RefCOCO+, RefCOCOg und ReferItGame. Durch Vortraining an großen Datensätzen und Feinabstimmung an bestimmten Datensätzen kann die Leistung des Modells weiter erheblich verbessert werden und ähnliche Ergebnisse wie vorab trainierte Modelle wie MDETR [2] und OFA [3] erzielt werden.

Pasukan Li Xi Universiti Zhejiang: Kaedah baharu untuk merujuk kepada pemahaman ungkapan, ScanFormer berulang daripada kasar kepada halus untuk menghapuskan lebihan visual

In Bezug auf die Denkgeschwindigkeit erreicht die vorgeschlagene Methode eine Denkgeschwindigkeit in Echtzeit und gewährleistet gleichzeitig eine hohe Aufgabengenauigkeit.

Pasukan Li Xi Universiti Zhejiang: Kaedah baharu untuk merujuk kepada pemahaman ungkapan, ScanFormer berulang daripada kasar kepada halus untuk menghapuskan lebihan visual

De plus, la partie expérimentale a également réalisé des statistiques sur la sélection des patchs du modèle et la répartition de la précision de positionnement à chaque échelle (échelle1 et échelle2).

Comme le montre la figure de gauche, à mesure que l'échelle augmente, des caractéristiques d'image à grain fin sont ajoutées et la précision du modèle s'améliore progressivement. Par conséquent, vous pouvez essayer d'ajouter un mécanisme de sortie anticipée pour sortir à temps lorsque la précision de positionnement répond aux exigences, évitant ainsi d'autres calculs sur des images haute résolution et obtenant l'effet de sélection adaptative d'une résolution appropriée en fonction d'échantillons. Cet article a également fait quelques tentatives préliminaires, notamment l'ajout de branches de prédiction telles que l'IoU, le GIoU et l'incertitude, et le retour d'indicateurs de sortie précoce. Cependant, il a été constaté que l'effet n'était pas idéal. Comment concevoir des indicateurs de sortie précoces appropriés et précis. continué à explorer.

L'image de droite montre la situation de sélection des patchs à différentes échelles. À toutes les échelles, la proportion de patchs sélectionnés est relativement faible, et la plupart d'entre elles. les correctifs peuvent être éliminés, économisant ainsi efficacement les ressources informatiques. Pour chaque échantillon (image + expression référentielle), le nombre de patchs réellement sélectionnés est relativement faible, peut-être 65 % du total.

Pasukan Li Xi Universiti Zhejiang: Kaedah baharu untuk merujuk kepada pemahaman ungkapan, ScanFormer berulang daripada kasar kepada halus untuk menghapuskan lebihan visual

Enfin, la partie expérimentale montre quelques résultats de visualisation Au fur et à mesure que l'échelle augmente (rouge → vert → bleu), la précision de positionnement du modèle s'améliore progressivement. . De plus, selon l'image reconstruite à partir du patch sélectionné, on peut voir que le modèle ne prête attention qu'aux informations à grande échelle pour la zone d'arrière-plan, et pour la zone de premier plan concernée, le modèle peut prêter attention aux informations détaillées à grain fin. information.

Pasukan Li Xi Universiti Zhejiang: Kaedah baharu untuk merujuk kepada pemahaman ungkapan, ScanFormer berulang daripada kasar kepada halus untuk menghapuskan lebihan visual

^{Littérature connexe :}

^{[1].Kim W, Son B, Kim I. Vilt : Transformateur de vision et de langage sans convolution ni supervision de région [C]//Conférence internationale sur l'apprentissage automatique PMLR, 2021 : 5583-5594.}

. ^{[2].Kamath A, Singh M, LeCun Y, et al. Détection modulée par Mdetr pour une compréhension multimodale de bout en bout [C]//Actes de la conférence internationale IEEE/CVF sur la vision par ordinateur 2021 : 1780-1790.}

^{[3].Wang P, Yang A, Men R, et al. cadre d'apprentissage simple séquence à séquence [C]//Conférence internationale sur l'apprentissage automatique PMLR, 2022 : 23318-23340.}

Atas ialah kandungan terperinci Pasukan Li Xi Universiti Zhejiang: Kaedah baharu untuk merujuk kepada pemahaman ungkapan, ScanFormer berulang daripada kasar kepada halus untuk menghapuskan lebihan visual. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!