La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com
Pi Renjie, le premier auteur de cet article, est un doctorant de troisième année à l'Université des sciences et technologies de Hong Kong, étudiant sous Professeur Zhang Tong et professeur Zhou Xiaofang. Auparavant, il a obtenu un baccalauréat en génie informatique de l'Université de Hong Kong. Ses intérêts de recherche incluent les grands modèles de langage multimodaux, l’intelligence artificielle centrée sur les données et l’apprentissage automatique automatisé. Avec l'avancement des grands modèles de langage (LLM), les grands modèles de langage multimodaux (MLLM) se développent rapidement. Ils utilisent des encodeurs visuels pré-entraînés pour traiter les images et entrent des images dans les LLM sous forme d'intégrations de jetons avec des informations textuelles, étendant ainsi les capacités conversationnelles du modèle pour le traitement des entrées d'images. Cette amélioration des capacités ouvre des possibilités dans divers domaines d’application potentiels tels que la conduite autonome et les assistants médicaux.
Bien que les MLLM aient d'excellentes capacités de compréhension d'images et de textes, ils souffrent toujours d'erreurs ou d'hallucinations, générant des réponses qui ne correspondent pas à l'image d'entrée, comme répondre à des objets inexistants ou identifier des attributs de manière erronée. Nous pensons que le déséquilibre entre le volume de données et le temps de formation dans les différentes étapes de formation des grands modèles multimodaux est l'une des principales raisons de ce type de biais. Les modules linguistiques des grands modèles multimodaux utilisent souvent des données textuelles massives pour la pré-formation, tandis que l'étape d'alignement modal utilise des données de plus petite taille et un temps de formation plus court. Afin de résoudre les problèmes ci-dessus, nous proposons une méthode d'alignement des préférences - Bootstrapped Preference Optimization (BPO), qui peut atténuer le phénomène d'hallucination des grands modèles multimodaux tout en améliorant la capacité de compréhension visuelle du modèle.
- Titre de l'article : Renforcement du modèle multimodal de grand langage avec l'optimisation des préférences bootstrapées
- Lien de l'article : https://arxiv.org/pdf/2403.08730
- Lien du code : https://github. com/pipilurj/bootstrapped-preference-optimization-BPO-
Konkret haben wir zwei Methoden entwickelt, um automatisch negative Stichproben für das Präferenzlernen zu erstellen und so die übermäßige Abhängigkeit multimodaler Modelle vom Training aufzudecken. Anschließend verwenden wir die Originaldatenanmerkungen als positive Stichproben, um die Präferenzen des multimodalen Modells zu verfeinern. Insgesamt sind unsere Hauptbeiträge: 1 Wir schlagen eine neue Perspektive vor, die das Problem der multimodalen Ausrichtung in eine Präferenzlernaufgabe umwandelt, bei der Voreingenommenheit und visuelle Verständnisfähigkeit als alte und neue Präferenzen behandelt werden 2. Wir stellen eine Methode zur Automatisierung der Erstellung umfangreicher Präferenzdatensätze vor. Durch diese Methode kann eine große Anzahl negativer Stichproben mit Vor-Training-Bias-Informationen erstellt werden. 3 Eine große Anzahl von Experimenten hat gezeigt, dass unsere Methode die kognitiven Fähigkeiten multimodaler großer Modelle effektiv verbessern kann Bilder, Training Das letztgenannte Modell hat in mehreren Benchmarks eine verbesserte Leistung erzielt. Skalierbare Präferenzdatensatzkonstruktion Als positive Beispiele für Präferenzdatensätze gibt es bereits viele vorgefertigte Datensätze, die für die überwachte Feinabstimmung konzipiert sind, wie z. B. hochwertige kommentierte Fragenbeantwortungen, die von LlaVA und MiniGPT4 generiert wurden Data,ShareGPTV nutzt das leistungsstarke GPT4-V als Tool zur Generierung hochwertiger Bildunterschriften. Wir verwenden diese annotierten öffentlichen Datensätze als positive Antworten im Präferenzdatensatz, um teure manuelle Annotationen zu vermeiden und gleichzeitig qualitativ hochwertige Datenpaare sicherzustellen. Um negative Antwortdaten zu sammeln, die die Verzerrung vor dem Training widerspiegeln, schlagen wir zwei Methoden vor. a. Bildaufforderungen schwächen: Wir fügen den Bilddaten im Präferenzdatensatz Rauschen hinzu, um die Bildmerkmale zu zerstören und das multimodale große Modell bei der Beantwortung stärker zur ursprünglichen vorab trainierten Verteilung zu neigen Fehlerantworten enthalten die inhärente Voreingenommenheit des LLM-Moduls. Wie aus der Abbildung ersichtlich ist, ist durch das Hinzufügen unterschiedlicher Rauschpegel zum Bild die Wahrscheinlichkeit, dass die richtige Antwort erscheint, geringer und die Wahrscheinlichkeit, dass die Antwort mit einem Vor-Training-Bias erscheint, größer.
b Fehlerinjektion: Wir benötigen das große Sprachmodell, das dem multimodalen großen Modell entspricht, um die Antwort direkt neu zu schreiben, und verlangen, dass das Modell eine falsche Antwort generiert, die der Antwort ähnelt, aber nicht genau mit ihr übereinstimmt . Als nächstes verwenden wir die direkte Präferenzoptimierung (DPO), um das multimodale Modell zu optimieren:
Wir verwenden das LLaVA-Modell (LLaVA-7B), das von optimiert wurde BPO -BPO und LLaVA-13B-BPO) getestet auf MM-Vet, LLaVA-Wild und Object HalBench. MM-Vet und LlaVA-Bench sind Listen, die speziell zur Messung der umfassenden Fähigkeiten von Modellen verwendet werden, während Object HalBench zur Bewertung der visuellen Glaubwürdigkeit multimodaler großer Modelle verwendet wird. Experimentelle Ergebnisse zeigen, dass das von BPO verfeinerte Modell bei allen Aufgaben der drei Benchmark-Listen die Nase vorn hat. Bei den meisten Aufgaben übertrifft LLaVA-7B-BPO sogar das ungetunte Modell LLaVa1.5-13B.
Wir vergleichen BPO auch mit überwachtem Fine-Tuning-Training (SFT). Wir optimieren das Modell, indem wir positive Stichproben aus dem Datensatz direkt als überwachte Daten verwenden. Experimente zeigen, dass multimodale große Modelle, die durch BPO feinabgestimmt wurden, bei verschiedenen Kategorien von Unteraufgaben eine bessere Leistung erbringen als die SFT-Feinabstimmung.
In Bezug auf qualitative Ergebnisse haben wir die Leistung multimodaler großer Modelle vor und nach der BPO-Feinabstimmung verglichen. Wir fanden heraus, dass das BPO-feinabgestimmte Modell Antworten lieferte, die der Bildeingabe besser entsprachen und weniger fehlerhafte Informationen enthielten.
Weitere Forschungsdetails finden Sie im Originalpapier. Das obige ist der detaillierte Inhalt vonECCV 2024|Haben Sie es wirklich gesehen oder dachten Sie, Sie hätten es gesehen? Die übermäßige Abhängigkeit großer multimodaler Modelle vom Textwissen vor dem Training sollte behoben werden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!