Die Tsinghua-Universität übernimmt die Führung bei der Veröffentlichung der multimodalen Bewertung MultiTrust: Wie zuverlässig ist GPT-4?-KI-php.cn

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Diese Arbeit wurde vom Grundlagentheorie-Innovationsteam unter der Leitung von Professor Zhu Jun von der Tsinghua-Universität initiiert. Das Team beschäftigt sich seit langem mit den aktuellen Engpassproblemen in der Entwicklung künstlicher Intelligenz, erforscht ursprüngliche Theorien und Schlüsseltechnologien der künstlichen Intelligenz und ist international führend in der Forschung zu kontradiktorischen Sicherheitstheorien und Methoden intelligenter Algorithmen. Es wurden auch eingehende Untersuchungen zur kontradiktorischen Robustheit und Wirksamkeit von Deep Learning durchgeführt. Grundlegende häufige Probleme wie die Effizienz der Datennutzung. Relevante Arbeiten gewannen den ersten Preis des Wu Wenjun Artificial Intelligence Natural Science Award, veröffentlichten mehr als 100 CCF-Klasse-A-Artikel und entwickelten die Open-Source-Plattform für Gegenangriffsangriffe und Verteidigungsalgorithmen ARES (https://github.com/thu-ml/ares). und einige patentierte Produkte realisiert. Lernen und Forschung in die praktische Anwendung umsetzen.

Multimodale große Sprachmodelle (MLLMs), die durch GPT-4o repräsentiert werden, haben aufgrund ihrer hervorragenden Leistung in mehreren Modalitäten wie Sprache und Bildern viel Aufmerksamkeit erregt. Sie sind nicht nur zu den rechten Assistenten des Anwenders bei der täglichen Arbeit geworden, sondern sind auch nach und nach in wichtige Anwendungsbereiche wie autonomes Fahren und medizinische Diagnose vorgedrungen und haben eine technologische Revolution ausgelöst.

Sind multimodale Großmodelle jedoch sicher und zuverlässig?

Wie in Abbildung 1 gezeigt, wird GPT-4o durch die Änderung der Bildpixel durch gegnerische Angriffe die Löwenstatue mit dem Schwanz fälschlicherweise als Eiffelturm in Paris oder Big Ben in London identifizieren . Der Inhalt solcher Fehlerziele kann beliebig angepasst werden, auch über die sicheren Grenzen der Modellanwendung hinaus.

Obwohl Claude im Jailbreak-Angriffsszenario die böswillige Anfrage in Textform erfolgreich zurückwies, gab das Modell falsche Nachrichten entsprechend der Anfrage des Benutzers aus, wenn der Benutzer ein zusätzliches einfarbiges, nicht zusammenhängendes Bild eingab. Das bedeutet, dass große multimodale Modelle mehr Risiken und Herausforderungen bergen als große Sprachmodelle.

Zusätzlich zu diesen beiden Beispielen weisen multimodale große Modelle auch verschiedene Sicherheitsbedrohungen oder soziale Risiken wie Illusion, Voreingenommenheit und Datenschutzverlust auf, die ihre Zuverlässigkeit und Glaubwürdigkeit in praktischen Anwendungen ernsthaft beeinträchtigen. Treten diese Sicherheitslücken zufällig auf oder sind sie weit verbreitet? Welche Unterschiede gibt es in der Glaubwürdigkeit verschiedener multimodaler Großmodelle und woher kommen sie?

Kürzlich haben Forscher der Tsinghua-Universität, der Beihang-Universität, der Shanghai Jiao Tong-Universität und Ruilai Intelligence gemeinsam einen hundertseitigen Artikel geschrieben und einen umfassenden Benchmark namens MultiTrust veröffentlicht, der erstmals die gängigen multimodalen Modi umfassend bewertete Mehrere Dimensionen und Perspektiven Die Glaubwürdigkeit des großen Modells zeigt mehrere potenzielle Sicherheitsrisiken und inspiriert die nächste Entwicklung multimodaler großer Modelle.

Titel des Papiers: Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study
Link zum Papier: https://arxiv.org/pdf/2406.07057
Homepage des Projekts: https:// multi-trust.github.io/
Code-Repository: https://github.com/thu-ml/MMTrustEval In seiner groß angelegten Modellbewertungsarbeit hat MultiTrust fünf Glaubwürdigkeitsbewertungsdimensionen verfeinert – Wahrhaftigkeit, Sicherheit, Robustheit, Es wird eine Sekundärklassifizierung durchgeführt und Aufgaben, Indikatoren und Datensätze gezielt aufgebaut, um eine umfassende Bewertung zu ermöglichen.

Aufgabenszenarien umfassen Diskriminierungs- und Generierungsaufgaben und umfassen reine Textaufgaben und multimodale Aufgaben. Die den Aufgaben entsprechenden Datensätze werden nicht nur auf der Grundlage öffentlicher Text- oder Bilddatensätze transformiert und angepasst, sondern es werden auch einige komplexere und anspruchsvollere Daten durch manuelle Sammlung oder Algorithmussynthese erstellt.

Abbildung 5 MultiTrust-Aufgabenliste

Die Tsinghua-Universität übernimmt die Führung bei der Veröffentlichung der multimodalen Bewertung MultiTrust: Wie zuverlässig ist GPT-4?

^{Anders als die vertrauenswürdige Bewertung großer Sprachmodelle (LLMs) bringt ML die multimodalen Funktionen von LM vielfältigere und komplexere Risikoszenarien mit sich Möglichkeiten. Um eine systematische Bewertung besser durchführen zu können, geht der MultiTrust-Benchmark nicht nur von der traditionellen Dimension der Verhaltensbewertung aus, sondern führt auch auf innovative Weise die beiden Bewertungsperspektiven des multimodalen Risikos und der modalübergreifenden Auswirkungen ein und deckt so umfassend die neuen Probleme ab, die die neuen Modalitäten mit sich bringen . neue Herausforderung.险 Abbildung 6 Das Risiko des Multi-Mode-Risikos und der modulübergreifenden Auswirkungen}

Insbesondere bezieht sich das Multi-Mode-Risiko auf die neuen Risiken, die durch Multi-Mode-Szenen entstehen, wie z. B. mögliche falsche Antworten, wenn das Modell visuelle Prozesse verarbeitet irreführende Informationen sowie Fehleinschätzungen beim multimodalen Denken im Zusammenhang mit Sicherheitsfragen. Obwohl das Modell den Alkohol auf dem Bild korrekt identifizieren kann, sind sich einige Modelle darüber hinaus nicht des potenziellen Risikos bewusst, das mit der gemeinsamen Nutzung von Alkohol mit Cephalosporin-Medikamenten verbunden ist.

涉 Abbildung 7 Modelle in der Argumentation mit Sicherheitsproblemen haben Fehleinschätzungen

Cross-modale Effekte beziehen sich auf die Auswirkungen der Hinzufügung neuer Modi auf die Glaubwürdigkeit des ursprünglichen Modus, z. B. die Eingabe irrelevanter Bilder. Es kann sich ändern Das vertrauenswürdige Verhalten des Backbone-Netzwerks des großen Sprachmodells in Klartextszenarien führt zu unvorhersehbareren Sicherheitsrisiken. Bei Jailbreaking-Angriffen und kontextbezogenen Datenschutzverletzungsaufgaben, die üblicherweise zur Glaubwürdigkeitsbewertung großer Sprachmodelle verwendet werden, kann das ursprüngliche Sicherheitsverhalten zerstört werden, wenn das Modell mit einem Bild versehen wird, das nichts mit dem Text zu tun hat (Abbildung 2).

Ergebnisanalyse und wichtige Schlussfolgerungen

‐ bis

^{----- ein Echtzeit-Update der Glaubwürdigkeitsliste (Teil)}

Die Forscher Pflege einer regelmäßig aktualisierten multimodalen Datenbank. Die neuesten Modelle wie GPT-4o und Claude3.5 wurden zur Modellglaubwürdigkeitsliste hinzugefügt. Insgesamt sind kommerzielle Closed-Source-Modelle sicherer und zuverlässiger als gängige Open-Source-Modelle. Unter ihnen rangierten GPT-4 von OpenAI und Claude von Anthropic am höchsten in der Glaubwürdigkeit, während Microsoft Phi-3, das Sicherheitsausrichtung hinzufügte, unter den Open-Source-Modellen am höchsten rangierte, aber es gibt immer noch eine gewisse Lücke zum Closed-Source-Modell.

Kommerzielle Modelle wie GPT-4, Claude und Gemini haben viele Verstärkungstechnologien für Sicherheit und Vertrauenswürdigkeit implementiert, es bestehen jedoch immer noch einige Sicherheits- und Vertrauenswürdigkeitsrisiken. Beispielsweise sind sie immer noch anfällig für gegnerische Angriffe, multimodale Jailbreak-Angriffe usw., was die Benutzererfahrung und das Vertrauen erheblich beeinträchtigt.

gleichwertig oder sogar besser als GPT-4. Bei Vertrauenstests zeigten diese Modelle in verschiedenen Aspekten immer noch Schwächen und Lücken. Beispielsweise führt die Betonung allgemeiner Funktionen (z. B. OCR) während der Trainingsphase dazu, dass die Einbettung von Text mit Jailbreak und vertraulichen Informationen in die Bildeingabe zu einer bedrohlicheren Risikoquelle wird.

Basierend auf den experimentellen Ergebnissen modalübergreifender Effekte stellte der Autor fest, dass multimodales Training und Inferenz den sicheren Ausrichtungsmechanismus großer Sprachmodelle schwächen. Viele multimodale große Modelle verwenden ausgerichtete große Sprachmodelle als Backbone-Netzwerk und führen während des multimodalen Trainingsprozesses eine Feinabstimmung durch. Die Ergebnisse zeigen, dass diese Modelle immer noch große Sicherheitslücken und glaubwürdige Risiken aufweisen. Gleichzeitig hat die Einführung von Bildern während der Argumentation bei mehreren reinen Text-Vertrauenswürdigkeitsbewertungsaufgaben auch Auswirkungen und Störungen auf das vertrauenswürdige Verhalten des Modells.

后 Nachdem das Bild in Abbildung 10 eingeführt wurde, neigt das Modell eher dazu, den Datenschutzinhalt im Text durchsickern zu lassen. Experimente haben gezeigt, dass die Glaubwürdigkeit des Multi-Mode- und des großen Modells mit seiner universellen Fähigkeit zusammenhängt, aber es gibt immer noch Unterschiede in der Modellleistung in verschiedenen Glaubwürdigkeitsbewertungsdimensionen. Derzeit gängige multimodale, große modellbezogene Algorithmen, wie z. B. die Feinabstimmung von Datensätzen, die mit Hilfe von GPT-4V, RLHF für Halluzinationen usw. generiert wurden, reichen nicht aus, um die Glaubwürdigkeit des Modells vollständig zu verbessern. Die vorliegenden Schlussfolgerungen zeigen auch, dass multimodale große Modelle einzigartige Herausforderungen haben, die sich von großen Sprachmodellen unterscheiden, und dass für weitere Verbesserungen innovative und effiziente Algorithmen erforderlich sind.

Detaillierte Ergebnisse und Analysen finden Sie im Papier.

Zukünftige Richtungen

Die Forschungsergebnisse zeigen, dass die Verbesserung der Glaubwürdigkeit multimodaler großer Modelle besondere Aufmerksamkeit von Forschern erfordert. Durch die Nutzung umfangreicher Sprachmodellausrichtungslösungen, diversifizierter Trainingsdaten und -szenarien sowie Paradigmen wie Retrieval Enhanced Generation (RAG) und Constitutional AI (Constitutional AI) können bis zu einem gewissen Grad Verbesserungen erzielt werden. Die Glaubwürdigkeitsverbesserung multimodaler Großmodelle geht jedoch darüber hinaus. Auch die Abstimmung zwischen den Modalitäten und die Robustheit visueller Encoder sind wichtige Einflussfaktoren. Darüber hinaus ist die Verbesserung der Leistung von Modellen in praktischen Anwendungen durch kontinuierliche Bewertung und Optimierung in dynamischen Umgebungen auch eine wichtige Richtung für die Zukunft.

Mit der Veröffentlichung des MultiTrust-Benchmarks hat das Forschungsteam auch das Toolkit zur Bewertung der Vertrauenswürdigkeit multimodaler großer Modelle veröffentlicht. Seine Modellintegrations- und Bewertungsmodularitätsmerkmale liefern wichtige Informationen für die Glaubwürdigkeitsforschung multimodaler großer Modelle . Basierend auf dieser Arbeit und diesem Toolkit organisierte das Team einen multimodalen Wettbewerb für sicherheitsrelevante Daten und Algorithmen für große Modelle [1,2], um vertrauenswürdige Forschung an großen Modellen zu fördern. Mit der kontinuierlichen Weiterentwicklung der Technologie werden multimodale Großmodelle in Zukunft ihr Potenzial in mehr Bereichen zeigen, aber die Frage ihrer Glaubwürdigkeit erfordert weiterhin kontinuierliche Aufmerksamkeit und eingehende Forschung.

Referenzlink:

^{[1] CCDM2024 Multimodal Large Language Model Red Team Security Challenge http://116.112.3.114:8081/sfds-v1-html/main}

^{[2] Der 3. Pazhou-Algorithmus-Wettbewerb – Multimodaler Großmodellalgorithmus, Sicherheitsverstärkungstechnologie https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000}

Das obige ist der detaillierte Inhalt vonDie Tsinghua-Universität übernimmt die Führung bei der Veröffentlichung der multimodalen Bewertung MultiTrust: Wie zuverlässig ist GPT-4?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!