Out-of-Distribution (OOD)-Erkennung ist für den zuverlässigen Betrieb offener intelligenter Systeme von entscheidender Bedeutung, aktuelle objektorientierte Erkennungsmethoden leiden jedoch unter dem Problem der „Bewertungsinkonsistenzen“.
Frühere Arbeiten OpenOOD v1 vereinheitlicht die Auswertung der OOD-Erkennung, weist jedoch immer noch Einschränkungen in der Skalierbarkeit und Benutzerfreundlichkeit auf.
Kürzlich hat das Entwicklungsteam erneut OpenOOD v1.5 vorgeschlagen. Im Vergleich zur Vorgängerversion wurde die Bewertung der neuen OOD-Erkennungsmethode erheblich verbessert, um Genauigkeit, Standardisierung und Benutzerfreundlichkeit zu gewährleisten.
Bilder
Papier: https://arxiv.org/abs/2306.09301
OpenOOD-Codebasis: https://github.com/Jingkang50/OpenOOD
OpenOOD-Bestenliste: https://zjysteven. github.io/OpenOOD/
Bemerkenswert ist, dass OpenOOD v1.5 seine Auswertungsmöglichkeiten auf große Datensätze wie ImageNet erweitert, die wichtige, aber noch unerschlossene Vollspektrum-OOD-Erkennung untersucht und neue Funktionen einführt, einschließlich Online-Bestenlisten und einfach -zu verwendender Evaluator.
Diese Arbeit trägt auch zu tiefgreifenden Analysen und Erkenntnissen aus umfassenden experimentellen Ergebnissen bei und bereichert so die Wissensbasis über OOD-Nachweismethoden.
Mit diesen Verbesserungen zielt OpenOOD v1.5 darauf ab, den Fortschritt der OOD-Forschung voranzutreiben und einen leistungsfähigeren und umfassenderen Bewertungsmaßstab für die OOD-Erkennungsforschung bereitzustellen.
Für einen gut trainierten Bildklassifikator ist die Erkennung unbekannter Proben außerhalb der Verteilung (OOD) eine Schlüsselfunktion, die es ihm ermöglicht, zuverlässig in der offenen Welt zu arbeiten.
Zum Beispiel haben wir einen Katzen- und Hundeklassifikator anhand einer Reihe von Katzen- und Hundefotos trainiert. Bei In-Distribution-(ID-)Proben, hier also Katzen- und Hundebildern, erwarten wir natürlich, dass der Klassifikator sie genau in die entsprechenden Kategorien einordnet.
Für nicht im Handel erhältliche OOD-Proben, also alle Bilder außer Katzen und Hunden (wie Flugzeuge, Früchte usw.), hoffen wir, dass das Modell erkennen kann, dass es sich um unbekannte und neuartige Objekte/Konzepte handelt und können sie daher keiner Kategorie von Katzen oder Hunden innerhalb der Verteilung zuordnen.
Bei diesem Problem handelt es sich um die Out-of-Distribution-Erkennung (OOD-Erkennung), die in den letzten Jahren große Aufmerksamkeit erregt hat, und nach und nach entstehen neue Arbeiten. Obwohl sich das Feld rasch ausdehnt, ist es aus verschiedenen Gründen schwierig geworden, den Entwicklungsstatus des Feldes zu verfolgen und zu messen.
Die schnelle Entwicklung verschiedener Deep-Learning-Aufgaben ist untrennbar mit einem einheitlichen Testdatensatz verbunden (genau wie CIFAR, ImageNet zur Bildklassifizierung, PASCAL VOC, COCO zur Objekterkennung).
Allerdings fehlte im Bereich der OOD-Erkennung immer ein einheitlicher und weit verbreiteter OOD-Datensatz. Dies führt zu der obigen Abbildung. Wenn wir auf die experimentellen Einstellungen bestehender Arbeiten zurückblicken, werden wir feststellen, dass die verwendeten OOD-Daten sehr inkonsistent sind (z. B. werden für CIFAR-10, bei dem es sich um ID-Daten handelt, MNIST und SVHN verwendet). als OOD, einige Werke verwenden CIFAR-100, Tiny ImageNet als OOD). Unter solchen Umständen ist ein direkter und fairer Vergleich aller Methoden mit erheblichen Schwierigkeiten verbunden.
Neben der OOD-Erkennung tauchen in der Literatur auch häufig andere Begriffe wie „Open-Set Recognition (OSR)“ und „Novelty Detection“ auf.
Sie konzentrieren sich im Wesentlichen auf dasselbe Problem, mit nur geringfügigen Unterschieden in den Details einiger experimenteller Einstellungen. Unterschiedliche Terminologien können jedoch zu unnötigen Verzweigungen zwischen den Methoden führen. Beispielsweise wurden OOD-Erkennung und OSR früher als zwei unabhängige Aufgaben betrachtet, und es gab nur sehr wenige Methoden zwischen verschiedenen Zweigen (obwohl sie das gleiche Problem gemeinsam lösten).
In vielen Arbeiten verwenden Forscher häufig direkt Proben im OOD-Testsatz, um Parameter anzupassen oder sogar Modelle zu trainieren. Ein solcher Vorgang würde die OOD-Erkennungsfähigkeit der Methode überschätzen.
Die oben genannten Probleme beeinträchtigen offensichtlich die ordnungsgemäße Entwicklung des Fachgebiets. Wir benötigen dringend einen einheitlichen Benchmark und eine einheitliche Plattform, um bestehende und zukünftige OOD-Erkennungsmethoden zu testen und zu bewerten.
OpenOOD entstand unter solchen Herausforderungen. Die erste Version hat einen wichtigen Schritt gemacht, weist jedoch Probleme hinsichtlich des geringen Umfangs und der Benutzerfreundlichkeit auf, die verbessert werden müssen.
Deshalb haben wir OpenOOD v1.5 in der neuen Version weiter gestärkt und aktualisiert und versucht, eine umfassende, genaue und benutzerfreundliche Testplattform für die Mehrheit der Forscher zu schaffen.
Zusammenfassend verfügt OpenOOD über die folgenden wichtigen Funktionen und Beiträge:
Diese Codebasis versteht und modularisiert Modellstruktur, Datenvorverarbeitung, Nachverarbeitung, Schulung, Tests usw., um die Wiederverwendung und Entwicklung zu erleichtern. Derzeit implementiert OpenOOD fast 40 hochmoderne OOD-Erkennungsmethoden für Bildklassifizierungsaufgaben.
Bilder
Wie in der Abbildung oben gezeigt, kann der Evaluator von OpenOOD mit nur wenigen Codezeilen die OOD-Erkennungstestergebnisse des bereitgestellten Klassifikators und Postprozessors für den angegebenen ID-Datensatz liefern.
Die entsprechenden OOD-Daten werden intern vom Gutachter ermittelt und bereitgestellt, was die Konsistenz und Fairness des Tests gewährleistet. Der Evaluator unterstützt auch Szenarien für die Standard-OOD-Erkennung (Standard-OOD-Erkennung) und die Vollspektrum-OOD-Erkennung (Vollspektrum-OOD-Erkennung) (mehr dazu später).
Mit OpenOOD haben wir die Leistung von fast 40 OOD-Erkennungsmethoden anhand von vier ID-Datensätzen verglichen: CIFAR-10, CIFAR-100, ImageNet-200 und ImageNet-1K, und die Ergebnisse in ein öffentliches Ranking umgewandelt. Wir hoffen, jedem jederzeit dabei zu helfen, die effektivsten und vielversprechendsten Methoden auf diesem Gebiet zu verstehen.
Basierend auf den umfassenden experimentellen Ergebnissen von OpenOOD liefern wir in der Arbeit viele neue Erkenntnisse. Obwohl es beispielsweise wenig mit der OOD-Erkennung zu tun zu haben scheint, kann die Datenerweiterung tatsächlich die Leistung der OOD-Erkennung effektiv verbessern, und diese Verbesserung ist orthogonal und komplementär zu der Verbesserung, die durch bestimmte OOD-Erkennungsmethoden erzielt wird.
Darüber hinaus haben wir festgestellt, dass die Leistung bestehender Methoden bei der Vollspektrum-OOD-Detektion nicht zufriedenstellend ist, was auch ein wichtiges Problem sein wird, das in Zukunft gelöst werden muss.
In diesem Teil werden kurz und allgemein die Ziele der Standard- und Vollspektrum-OOD-Detektion beschrieben. Für eine detailliertere und formalere Beschreibung können Sie gerne unser Papier lesen.
Bilder
Zuerst ein paar Hintergrundinformationen. In dem von uns betrachteten Bildklassifizierungsszenario werden die In-Distribution-Daten (ID) durch die entsprechende Klassifizierungsaufgabe definiert. Beispielsweise entspricht bei der CIFAR-10-Klassifizierung die ID-Verteilung ihren 10 semantischen Kategorien.
Das Konzept von OOD wird relativ zur ID gebildet: Bilder, die einer anderen semantischen Kategorie als der ID-Semantikkategorie entsprechen und sich von der ID-Kategorie unterscheiden, sind nicht verbreitete OOD-Bilder. Gleichzeitig müssen wir die folgenden zwei Arten von Verteilungsverschiebungen diskutieren.
Semantische Verschiebung: Verteilungsänderungen auf der tiefen semantischen Ebene, entsprechend der horizontalen Achse der obigen Abbildung. Beispielsweise sind die semantischen Kategorien beim Training Katzen und Hunde und beim Testen sind die semantischen Kategorien Flugzeuge und Früchte.
Kovariatenverschiebung: Verteilungsänderungen auf statistischer Oberflächenebene (während die Semantik unverändert bleibt), entsprechend der vertikalen Achse der obigen Abbildung. Während des Trainings gibt es beispielsweise klare und natürliche Fotos von Katzen und Hunden, während es beim Testen verrauschte oder handgezeichnete Bilder von Katzen und Hunden gibt.
Mit dem obigen Hintergrund und dem obigen Bild können Sie die Standard- und Vollspektrum-OOD-Erkennung leicht verstehen.
Ziel (1): Einen Klassifizierer auf die ID-Verteilung trainieren, damit er ID-Daten genau klassifizieren kann. Hierbei wird davon ausgegangen, dass es keine Kovariatenverschiebung zwischen den Test-ID-Daten und den Trainings-ID-Daten gibt.
Ziel (2): Entwerfen Sie basierend auf dem trainierten Klassifikator eine OOD-Erkennungsmethode, mit der jede Probe in zwei Kategorien klassifiziert werden kann: ID/OOD. Die entsprechende Sache in der obigen Abbildung besteht darin, (a) von (c) + (d) zu unterscheiden.
Ziel (1): Ähnlich wie bei der Standard-OOD-Erkennung, der Unterschied besteht jedoch darin, dass die Kovariatenverschiebung berücksichtigt wird, d. h. der Klassifikator muss unabhängig davon verwendet werden, ob eine vorhanden ist Kovariatenverschiebung im Test-ID-Bild im Vergleich zum Trainingsbild. Der Katzen- und Hundeklassifikator sollte beispielsweise nicht nur „saubere“ Katzen- und Hundebilder genau klassifizieren, sondern auch in der Lage sein, diese zu verallgemeinern verrauschte und verschwommene Katzen- und Hundebilder).
Ziel (2): Berücksichtigen Sie auch kovariatenverschobene ID-Stichproben, die von OOD-Stichproben zusammen mit normalen (keine Kovariatenverschiebung) ID-Stichproben unterschieden werden müssen. Entspricht der Unterscheidung zwischen (a) + (b) und (c) + (d) in der obigen Abbildung.
Vertraute Freunde haben möglicherweise entdeckt, dass Ziel (1) bei der Vollspektrum-OOD-Detektion tatsächlich einem anderen sehr wichtigen Forschungsthema entspricht – der Out-of-Distribution-Generalisierung (OOD-Generalisierung).
Es muss klargestellt werden, dass sich der OOD in der OOD-Generalisierung auf die Stichproben mit Kovariatenverschiebung bezieht, während sich der OOD in der OOD-Erkennung auf die Stichproben mit semantischer Verschiebung bezieht.
Beide Arten von Verschiebungen kommen in der realen Welt sehr häufig vor. Die bestehende OOD-Generalisierung und die standardmäßige OOD-Erkennung berücksichtigen jedoch nur eine davon und ignorieren die andere.
Im Gegensatz dazu berücksichtigt die Vollspektrum-OOD-Erkennung natürlich beide Offsets im selben Szenario und spiegelt so genauer unsere Erwartungen an die Leistung eines idealen Klassifikators in der offenen Welt wider.
In Version 1.5 vergleicht OpenOOD fast 40 Methoden anhand von 6 Benchmark-Datensätzen (4 für die Standard-OOD-Erkennung, 2 für die Vollspektrum-OOD-Erkennung). Es wurde ein einheitlicher und umfassender Test durchgeführt.
Die implementierten Methoden und Datensätze sind im Papier beschrieben, und jeder ist herzlich eingeladen, es sich anzusehen. Alle Experimente können auch in der OpenOOD-Codebasis reproduziert werden. Hier diskutieren wir direkt die aus den Vergleichsergebnissen abgeleiteten Erkenntnisse.
Bilder
In der obigen Tabelle ist es nicht schwer zu erkennen, dass keine Methode bei allen Benchmark-Datensätzen konstant eine hervorragende Leistung erbringen kann.
Zum Beispiel funktionieren die Post-hoc-Inferenzmethoden ReAct und ASH gut auf dem großen Datensatz ImageNet, haben aber keinen Vorteil gegenüber anderen Methoden auf CIFAR.
Im Gegensatz dazu sind einige Trainingsmethoden, die dem Training Einschränkungen hinzufügen, wie RotPred und LogitNorm, bei kleinen Datensätzen besser als Nachbearbeitungsmethoden, bei ImageNet jedoch nicht herausragend.
Wie in der Tabelle oben gezeigt, sind Datenverbesserungen zwar nicht speziell für die OOD-Erkennung konzipiert, können aber die Leistung der OOD-Erkennung effektiv verbessern. Noch überraschender ist, dass sich die durch die Datenerweiterung erzielten Verbesserungen und die durch bestimmte OOD-Nachbearbeitungsmethoden erzielten Verbesserungen gegenseitig verstärken.
Hier ist AugMix als Beispiel. In Kombination mit dem einfachsten MSP-Postprozessor erreicht es eine nahezu OOD-Erkennungsrate von ImageNet-1K, was nur geringer ist als der Kreuzentropieverlust ohne Datenverbesserung (korrespondierend). Entropieverlust) hat das Training eine Erkennungsrate von 77,38 %, was 1,47 % höher ist.
Wenn AugMix jedoch mit dem fortschrittlicheren ASH-Postprozessor kombiniert wird, ist die entsprechende Erkennungsrate 3,99 % höher als die Kreuzentropie-Basislinie und erreicht den höchsten Wert in unseren Tests von 82,16 %. Solche Ergebnisse zeigen, dass die Kombination aus Datenverbesserung und Nachbearbeitung großes Potenzial hat, die OOD-Erkennungsfähigkeiten in Zukunft weiter zu verbessern.
Aus der obigen Abbildung ist deutlich ersichtlich, dass beim Wechsel der Szene von der Standard-OOD-Erkennung zur Vollspektrum-OOD-Erkennung (d. h. Kovariaten-verschobene ID-Bilder werden zu den Test-ID-Daten hinzugefügt) die Leistung am meisten beeinträchtigt wird Alle Methoden zeigen eine erhebliche Verschlechterung (mehr als 10 % Rückgang der Erkennungsrate).
Das bedeutet, dass die aktuelle Methode dazu neigt, kovariatenverschobene ID-Bilder, deren tatsächliche Semantik sich nicht geändert hat, als OOD zu kennzeichnen.
Dieses Verhalten widerspricht der menschlichen Wahrnehmung (und ist auch das Ziel der Vollspektrum-OOD-Erkennung): Angenommen, ein menschlicher Etikettierer beschriftet Katzen- und Hundebilder und ihm/ihr werden zu diesem Zeitpunkt verrauschte und verschwommene Katzen- und Katzenbilder angezeigt Bei Bildern von Hunden sollte er/sie immer noch erkennen, dass es sich um eine Katze/einen Hund handelt und dass es sich um In-Distribution-ID-Daten und nicht um unbekannte Out-of-Distribution-OOD-Daten handelt.
Im Allgemeinen können aktuelle Methoden den Vollspektrum-OOD-Nachweis nicht effektiv lösen, und wir glauben, dass dies in Zukunft ein wichtiges Thema auf diesem Gebiet sein wird.
Darüber hinaus gibt es viele Erkenntnisse, die hier nicht aufgeführt sind, wie zum Beispiel, dass die Datenerweiterung für die Vollspektrum-OOD-Erkennung immer noch wirksam ist usw. Auch hier ist jeder herzlich willkommen, unsere Zeitung zu lesen.
Wir hoffen, dass die Codebasis, Tester, Rankings, Benchmark-Datensätze und detaillierten Testergebnisse von OpenOOD Forscher aus allen Lebensbereichen zusammenbringen können, um die Entwicklung des Fachgebiets voranzutreiben. Ich freue mich darauf, dass jeder OpenOOD nutzt, um die OOD-Erkennung zu entwickeln und zu testen.
Wir freuen uns auch über jede Form von Beiträgen zu OpenOOD, einschließlich, aber nicht beschränkt auf die Bereitstellung von Feedback, das Hinzufügen der neuesten Methoden zur OpenOOD-Codebasis und den Bestenlisten, die Erweiterung zukünftiger Versionen von OpenOOD usw.
Referenz: https://arxiv.org/abs/2306.09301
Das obige ist der detaillierte Inhalt vonOpenOOD-Update v1.5: umfassende und genaue Bibliothek und Testplattform zur Erkennung von Out-of-Distribution-Codes, die Online-Rankings und One-Click-Tests unterstützt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!