Universiti Tsinghua menerajui dalam mengeluarkan penilaian pelbagai modal MultiTrust: Sejauh manakah GPT-4 boleh dipercayai?-AI-php.cn

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Diese Arbeit wurde vom Grundlagentheorie-Innovationsteam unter der Leitung von Professor Zhu Jun von der Tsinghua-Universität initiiert. Das Team beschäftigt sich seit langem mit den aktuellen Engpassproblemen in der Entwicklung künstlicher Intelligenz, erforscht ursprüngliche Theorien und Schlüsseltechnologien der künstlichen Intelligenz und ist international führend in der Forschung zu kontradiktorischen Sicherheitstheorien und Methoden intelligenter Algorithmen. Es wurden auch eingehende Untersuchungen zur kontradiktorischen Robustheit und Wirksamkeit von Deep Learning durchgeführt. Grundlegende häufige Probleme wie die Effizienz der Datennutzung. Relevante Arbeiten gewannen den ersten Preis des Wu Wenjun Artificial Intelligence Natural Science Award, veröffentlichten mehr als 100 CCF-Klasse-A-Artikel und entwickelten die Open-Source-Plattform für Gegenangriffsangriffe und Verteidigungsalgorithmen ARES (https://github.com/thu-ml/ares). und einige patentierte Produkte realisiert. Lernen und Forschung in die praktische Anwendung umsetzen.

Multimodale große Sprachmodelle (MLLMs), die durch GPT-4o repräsentiert werden, haben aufgrund ihrer hervorragenden Leistung in mehreren Modalitäten wie Sprache und Bildern viel Aufmerksamkeit erregt. Sie sind nicht nur zu den rechten Assistenten des Anwenders bei der täglichen Arbeit geworden, sondern sind auch nach und nach in wichtige Anwendungsbereiche wie autonomes Fahren und medizinische Diagnose vorgedrungen und haben eine technologische Revolution ausgelöst.

Sind multimodale Großmodelle jedoch sicher und zuverlässig?

Wie in Abbildung 1 gezeigt, wird GPT-4o durch die Änderung der Bildpixel durch gegnerische Angriffe die Löwenstatue mit dem Schwanz fälschlicherweise als Eiffelturm in Paris oder Big Ben in London identifizieren . Der Inhalt solcher Fehlerziele kann beliebig angepasst werden, auch über die sicheren Grenzen der Modellanwendung hinaus.

Obwohl Claude im Jailbreak-Angriffsszenario die böswillige Anfrage in Textform erfolgreich zurückwies, gab das Modell falsche Nachrichten entsprechend der Anfrage des Benutzers aus, wenn der Benutzer ein zusätzliches einfarbiges, nicht zusammenhängendes Bild eingab. Das bedeutet, dass große multimodale Modelle mehr Risiken und Herausforderungen bergen als große Sprachmodelle.

Zusätzlich zu diesen beiden Beispielen weisen multimodale große Modelle auch verschiedene Sicherheitsbedrohungen oder soziale Risiken wie Illusion, Voreingenommenheit und Datenschutzverlust auf, die ihre Zuverlässigkeit und Glaubwürdigkeit in praktischen Anwendungen ernsthaft beeinträchtigen. Treten diese Sicherheitslücken zufällig auf oder sind sie weit verbreitet? Welche Unterschiede gibt es in der Glaubwürdigkeit verschiedener multimodaler Großmodelle und woher kommen sie?

Kürzlich haben Forscher der Tsinghua-Universität, der Beihang-Universität, der Shanghai Jiao Tong-Universität und Ruilai Intelligence gemeinsam einen hundertseitigen Artikel geschrieben und einen umfassenden Benchmark namens MultiTrust veröffentlicht, der erstmals die gängigen multimodalen Modi umfassend bewertete Mehrere Dimensionen und Perspektiven Die Glaubwürdigkeit des großen Modells zeigt mehrere potenzielle Sicherheitsrisiken und inspiriert die nächste Entwicklung multimodaler großer Modelle.

Titel des Papiers: Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study
Link zum Papier: https://arxiv.org/pdf/2406.07057
Homepage des Projekts: https:// multi-trust.github.io/
Code-Repository: https://github.com/thu-ml/MMTrustEval In seiner groß angelegten Modellbewertungsarbeit hat MultiTrust fünf Glaubwürdigkeitsbewertungsdimensionen verfeinert – Wahrhaftigkeit, Sicherheit, Robustheit, Es wird eine Sekundärklassifizierung durchgeführt und Aufgaben, Indikatoren und Datensätze gezielt aufgebaut, um eine umfassende Bewertung zu ermöglichen.

Aufgabenszenarien umfassen Diskriminierungs- und Generierungsaufgaben und umfassen reine Textaufgaben und multimodale Aufgaben. Die den Aufgaben entsprechenden Datensätze werden nicht nur auf der Grundlage öffentlicher Text- oder Bilddatensätze transformiert und angepasst, sondern es werden auch einige komplexere und anspruchsvollere Daten durch manuelle Sammlung oder Algorithmussynthese erstellt.

Abbildung 5 MultiTrust-Aufgabenliste

Universiti Tsinghua menerajui dalam mengeluarkan penilaian pelbagai modal MultiTrust: Sejauh manakah GPT-4 boleh dipercayai?

^{Anders als die vertrauenswürdige Bewertung großer Sprachmodelle (LLMs) bringt ML die multimodalen Funktionen von LM vielfältigere und komplexere Risikoszenarien mit sich Möglichkeiten. Um eine systematische Bewertung besser durchführen zu können, geht der MultiTrust-Benchmark nicht nur von der traditionellen Dimension der Verhaltensbewertung aus, sondern führt auch auf innovative Weise die beiden Bewertungsperspektiven des multimodalen Risikos und der modalübergreifenden Auswirkungen ein und deckt so umfassend die neuen Probleme ab, die die neuen Modalitäten mit sich bringen . neue Herausforderung.险 Abbildung 6 Das Risiko des Multi-Mode-Risikos und der modulübergreifenden Auswirkungen}

Insbesondere bezieht sich das Multi-Mode-Risiko auf die neuen Risiken, die durch Multi-Mode-Szenen entstehen, wie z. B. mögliche falsche Antworten, wenn das Modell visuelle Prozesse verarbeitet irreführende Informationen sowie Fehleinschätzungen beim multimodalen Denken im Zusammenhang mit Sicherheitsfragen. Obwohl das Modell den Alkohol auf dem Bild korrekt identifizieren kann, sind sich einige Modelle darüber hinaus nicht des potenziellen Risikos bewusst, das mit der gemeinsamen Nutzung von Alkohol mit Cephalosporin-Medikamenten verbunden ist.

涉 Rajah 7 Model dalam alasan yang melibatkan isu keselamatan mempunyai salah penilaian

Kesan silang modal merujuk kepada kesan penambahan mod baharu terhadap kredibiliti mod asal, seperti input imej yang tidak berkaitan Ia mungkin berubah gelagat dipercayai rangkaian tulang belakang model bahasa besar dalam senario teks biasa, yang membawa kepada lebih banyak risiko keselamatan yang tidak dapat diramalkan. Dalam serangan jailbreaking dan tugas kebocoran privasi kontekstual yang biasa digunakan untuk penilaian kredibiliti model bahasa yang besar, jika model disediakan dengan gambar yang tiada kaitan dengan teks, tingkah laku keselamatan asal mungkin dimusnahkan (Rajah 2).

analisis analisis dan kesimpulan utama

-to

^{----- kemas kini masa nyata senarai kredibiliti (bahagian)}

mengekalkan pangkalan data berbilang mod yang dikemas kini secara kerap Model terkini seperti GPT-4o dan Claude3.5 telah ditambahkan pada senarai kredibiliti model Secara keseluruhannya, model komersial sumber tertutup adalah lebih selamat dan lebih dipercayai daripada model sumber terbuka arus perdana. Antaranya, OpenAI's GPT-4 dan Anthropic's Claude menduduki tempat yang paling tinggi dalam kredibiliti, manakala Microsoft Phi-3, yang menambah penjajaran keselamatan, menduduki tempat tertinggi dalam kalangan model sumber terbuka, tetapi masih terdapat jurang tertentu dengan model sumber tertutup.

Model komersial seperti GPT-4, Claude dan Gemini telah melaksanakan banyak teknologi pengukuhan untuk keselamatan dan kebolehpercayaan, tetapi masih terdapat beberapa risiko keselamatan dan kebolehpercayaan. Contohnya, mereka masih menunjukkan kerentanan kepada serangan musuh, serangan jailbreak berbilang mod, dsb., yang sangat mengganggu pengalaman dan kepercayaan pengguna.

senarai adalah bersamaan atau lebih baik daripada GPT-4, Dalam ujian peringkat amanah, model ini masih menunjukkan kelemahan dan kelemahan dalam aspek yang berbeza. Sebagai contoh, penekanan pada keupayaan umum (seperti OCR) semasa fasa latihan menjadikan penyisipan teks jailbreak dan maklumat sensitif ke dalam input imej sebagai sumber risiko yang lebih mengancam.

Berdasarkan keputusan eksperimen kesan silang modal, penulis mendapati bahawa latihan dan inferens pelbagai mod akan melemahkan mekanisme penjajaran selamat model bahasa besar. Banyak model besar berbilang modal akan menggunakan model bahasa besar yang dijajarkan sebagai rangkaian tulang belakang dan memperhalusi semasa proses latihan berbilang modal. Keputusan menunjukkan bahawa model ini masih mempamerkan kelemahan keselamatan yang besar dan risiko yang boleh dipercayai. Pada masa yang sama, dalam berbilang tugas penilaian kebolehpercayaan teks tulen, memperkenalkan imej semasa penaakulan juga akan memberi kesan dan gangguan pada tingkah laku model yang boleh dipercayai.

后 Nachdem das Bild in Abbildung 10 eingeführt wurde, neigt das Modell eher dazu, den Datenschutzinhalt im Text durchsickern zu lassen. Experimente haben gezeigt, dass die Glaubwürdigkeit des Multi-Mode- und des großen Modells mit seiner universellen Fähigkeit zusammenhängt, aber es gibt immer noch Unterschiede in der Modellleistung in verschiedenen Glaubwürdigkeitsbewertungsdimensionen. Derzeit gängige multimodale, große modellbezogene Algorithmen, wie z. B. die Feinabstimmung von Datensätzen, die mit Hilfe von GPT-4V, RLHF für Halluzinationen usw. generiert wurden, reichen nicht aus, um die Glaubwürdigkeit des Modells vollständig zu verbessern. Die vorliegenden Schlussfolgerungen zeigen auch, dass multimodale große Modelle einzigartige Herausforderungen haben, die sich von großen Sprachmodellen unterscheiden, und dass für weitere Verbesserungen innovative und effiziente Algorithmen erforderlich sind.

Detaillierte Ergebnisse und Analysen finden Sie im Papier.

Zukünftige Richtungen

Die Forschungsergebnisse zeigen, dass die Verbesserung der Glaubwürdigkeit multimodaler großer Modelle besondere Aufmerksamkeit von Forschern erfordert. Durch die Nutzung umfangreicher Sprachmodellausrichtungslösungen, diversifizierter Trainingsdaten und -szenarien sowie Paradigmen wie Retrieval Enhanced Generation (RAG) und Constitutional AI (Constitutional AI) können bis zu einem gewissen Grad Verbesserungen erzielt werden. Die Glaubwürdigkeitsverbesserung multimodaler Großmodelle geht jedoch darüber hinaus. Auch die Abstimmung zwischen den Modalitäten und die Robustheit visueller Encoder sind wichtige Einflussfaktoren. Darüber hinaus ist die Verbesserung der Leistung von Modellen in praktischen Anwendungen durch kontinuierliche Bewertung und Optimierung in dynamischen Umgebungen auch eine wichtige Richtung für die Zukunft.

Mit der Veröffentlichung des MultiTrust-Benchmarks hat das Forschungsteam auch das Toolkit zur Bewertung der Vertrauenswürdigkeit multimodaler großer Modelle veröffentlicht. Seine Modellintegrations- und Bewertungsmodularitätsmerkmale liefern wichtige Informationen für die Glaubwürdigkeitsforschung multimodaler großer Modelle . Basierend auf dieser Arbeit und diesem Toolkit organisierte das Team einen multimodalen Wettbewerb für sicherheitsrelevante Daten und Algorithmen für große Modelle [1,2], um vertrauenswürdige Forschung an großen Modellen zu fördern. Mit der kontinuierlichen Weiterentwicklung der Technologie werden multimodale Großmodelle in Zukunft ihr Potenzial in mehr Bereichen zeigen, aber die Frage ihrer Glaubwürdigkeit erfordert weiterhin kontinuierliche Aufmerksamkeit und eingehende Forschung.

Referenzlink:

^{[1] CCDM2024 Multimodal Large Language Model Red Team Security Challenge http://116.112.3.114:8081/sfds-v1-html/main}

^{[2] Der 3. Pazhou-Algorithmus-Wettbewerb – Multimodaler Großmodellalgorithmus, Sicherheitsverstärkungstechnologie https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000}

Atas ialah kandungan terperinci Universiti Tsinghua menerajui dalam mengeluarkan penilaian pelbagai modal MultiTrust: Sejauh manakah GPT-4 boleh dipercayai?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!