Segmentfunktionen können durch die Kennzeichnung eines einzelnen Videobilds erlernt werden, wodurch eine vollständig überwachte Leistung erreicht wird! Huake gewinnt neues SOTA für sequentielle Verhaltenserkennung-KI-php.cn

Wie finde ich interessante Clips aus einem Video? Temporal Action Localization (TAL) ist eine gängige Methode.

Nachdem Sie den Videoinhalt zum Modellieren verwendet haben, können Sie das gesamte Video frei durchsuchen.

Das gemeinsame Team der Huazhong University of Science and Technology und der University of Michigan hat kürzlich neue Fortschritte bei dieser Technologie erzielt –

In der Vergangenheit erfolgte die Modellierung in TAL auf Segment- oder sogar Instanzebene, aber jetzt dauert es nur noch

Ein Bild im Video Es kann erreicht werden und der Effekt ist vergleichbar mit einer vollständigen Überwachung.

Ein Team der Huazhong University of Science and Technology schlug ein neues Framework namens HR-Pro für die durch Punktannotation überwachte zeitliche Verhaltenserkennung vor.

Durch die mehrstufige Zuverlässigkeitsverbreitung kann HR-Pro online mehr diskriminierende Merkmale auf Fragmentebene und zuverlässigere Grenzen auf Instanzebene lernen.

HR-Pro besteht aus zwei zuverlässigkeitsbewussten Phasen, die hochzuverlässige Hinweise aus Punktanmerkungen auf Segment- und Instanzebene effektiv verbreiten können, sodass das Netzwerk differenziertere Segmentdarstellungen und ein besseres Solid-Angebot lernen kann.

Experimente mit mehreren Benchmark-Datensätzen zeigen, dass HR-Pro bestehende Methoden mit modernsten Ergebnissen übertrifft und seine Wirksamkeit und sein Potenzial für Punktannotationen unter Beweis stellt.

Leistung vergleichbar mit Vollüberwachungsmethode

Die folgende Abbildung zeigt den Leistungsvergleich von HR-Pro und LACP bei der zeitlichen Verhaltenserkennung im THUMOS14-Testvideo.

HR-Pro zeigt eine genauere Erkennung von Aktionsinstanzen, insbesondere:

Auch die Testergebnisse am Datensatz bestätigen dieses intuitive Gefühl.

Nach der Visualisierung der Erkennungsergebnisse im THUMOS14-Datensatz kann beobachtet werden, dass nach dem Integritätslernen auf Instanzebene der Unterschied zwischen Vorhersagen hoher Qualität und Vorhersagen niedriger Qualität deutlich zunimmt.

(Die linke Seite ist das Ergebnis vor dem Integritätslernen auf Instanzebene und die rechte Seite ist das Ergebnis nach dem Lernen. Die horizontale und vertikale Achse stellen jeweils Zeit- und Zuverlässigkeitswerte dar.)

Insgesamt im Allgemeinen In den 4 Datensätzen übertrifft die Leistung von HR-Pro die hochmoderne Punktüberwachungsmethode deutlich. Der durchschnittliche mAP im THUMOS14-Datensatz erreicht 60,3 %, was einer Verbesserung von 6,5 % im Vergleich zur vorherigen SoTA-Methode entspricht (53,7 %) und kann mit einigen vollständig überwachten Methoden vergleichbare Ergebnisse erzielen.

Im Vergleich zu den bisherigen State-of-the-Art-Methoden in der Tabelle unten auf dem THUMOS14-Testset erreicht HR-Pro einen durchschnittlichen mAP von 60,3 % für IoU-Schwellenwerte zwischen 0,1 und 0,7, was 6,5 % höher ist als der vorherige modernste Methode CRRC-Net .

Und HR-Pro ist in der Lage, eine vergleichbare Leistung mit konkurrierenden vollständig überwachten Methoden wie AFSD zu erzielen (durchschnittlicher mAP beträgt 51,1 % gegenüber 52,0 % für IoU-Schwellenwerte zwischen 0,3 und 0,7).

△Vergleich von HR-Pro und früheren SOTA-Methoden am THUMOS14-Datensatz

HR-Pro ist auch in Bezug auf Vielseitigkeit und Überlegenheit an verschiedenen Benchmark-Datensätzen deutlich besser als bestehende Methoden und wurde in GTEA, BEOID und ActivityNet 1.3 erreicht Verbesserungen von 3,8 %, 7,6 % bzw. 2,0 %.

△Vergleich von HR-Pro und früheren SOTA-Methoden auf GTEA und anderen Datensätzen

Wie wird HR-Pro implementiert?

Das Lernen erfolgt in zwei Phasen.

Das Forschungsteam schlug eine mehrstufige zuverlässige Ausbreitungsmethode vor, indem es ein zuverlässiges Fragmentspeichermodul auf Fragmentebene einführte und die Kreuzaufmerksamkeitsmethode zur Ausbreitung auf andere Fragmente verwendete und die Generierung von Vorschlägen vorschlug Basierend auf der Punktüberwachung auf Instanzebene werden Fragmente und Instanzen verknüpft, um Vorschläge mit unterschiedlichen Zuverlässigkeitsstufen zu generieren und die Zuverlässigkeit und Grenzen von Vorschlägen auf Instanzebene weiter zu optimieren.

Die Modellstruktur von HR-Pro ist in der folgenden Abbildung dargestellt: Die zeitliche Verhaltenserkennung ist in einen zweistufigen Lernprozess unterteilt, nämlich

Diskriminatives Lernen auf Fragmentebene und Integritätslernen auf Instanzebene.

Phase 1: Diskriminatives Lernen auf Segmentebene

Das Forschungsteam führt zuverlässigkeitsbewusstes diskriminierendes Lernen auf Segmentebene ein, schlägt vor, zuverlässige Prototypen für jede Kategorie zu speichern und ein hohes Vertrauen in diese Prototypen durch Intra-Video und Inter- zu kombinieren. Videomethoden Grad-Hinweise werden auf andere Fragmente übertragen.

Zuverlässige Prototypenkonstruktion auf Fragmentebene

Um einen zuverlässigen Prototyp auf Fragmentebene zu erstellen, erstellte das Team einen online aktualisierten Prototypenspeicher, um zuverlässige Prototypen mc verschiedener Verhaltensweisen zu speichern (wobei c = 1, 2, …, C ), um die Merkmalsinformationen des gesamten Datensatzes nutzen zu können.

Das Forschungsteam wählte Segmentmerkmale mit Punktanmerkungen aus, um den Prototyp zu initialisieren:

Als nächstes verwendeten die Forscher pseudo-beschriftete Verhaltenssegmentmerkmale, um die Prototypen jeder Kategorie zu aktualisieren, die konkret wie folgt ausgedrückt wurden:

Zuverlässigkeitsbewusste Optimierung auf Fragmentebene

Um die Funktionsinformationen zuverlässiger Prototypen auf Fragmentebene auf andere Fragmente zu übertragen, hat das Forschungsteam einen zuverlässigkeitsbewussten Aufmerksamkeitsblock (RAB) entworfen, um die Zuverlässigkeit im Prototyp durch Kreuz zu erreichen -Aufmerksamkeit Informationen werden in andere Segmente eingespeist, wodurch die Robustheit der Segmentmerkmale erhöht und die Aufmerksamkeit auf weniger diskriminierende Segmente erhöht wird.

Um mehr diskriminierende Segmentmerkmale zu lernen, hat das Team auch einen zuverlässigkeitsbewussten Segmentvergleichsverlust erstellt:

Phase 2: Integritätslernen auf Instanzebene

Um die Instanzebene vollständig zu erkunden Verhalten Um die vorgeschlagenen Bewertungsrankings zeitlich zu strukturieren und zu optimieren, führte das Team Aktionsintegritätslernen auf Instanzebene ein.

Dieser Ansatz zielt darauf ab, die Konfidenzwerte und -grenzen von Vorschlägen durch Feature-Learning auf Instanzebene zu verfeinern, geleitet von zuverlässigen Instanzprototypen.

Zuverlässige Prototypenkonstruktion auf Instanzebene

Um die vorherigen Informationen der Punktannotation auf Instanzebene während des Trainingsprozesses zu nutzen, schlug das Team eine auf Punktannotationen basierende Methode zur Angebotserstellung vor, um Vorschläge mit unterschiedlicher Zuverlässigkeit zu generieren.

Basierend auf ihren Zuverlässigkeitswerten und den relativen zeitlichen Positionen der Punktanmerkungen können diese Vorschläge in zwei Typen unterteilt werden:

Zuverlässige Vorschläge (RP): Für jeden Punkt in jeder Kategorie enthält der Vorschlag: Dieser Punkt wurde erreicht und wurde erreicht höchste Zuverlässigkeit;
Positive Vorschläge (PP): alle verbleibenden Kandidatenvorschläge.

Zuverlässigkeitsbewusste Optimierung auf Instanzebene

Um die Vollständigkeitsbewertung jedes Vorschlags vorherzusagen, gibt das Forschungsteam die Vorschlagsmerkmale sensibler Grenzen in den Bewertungsvorhersagekopf φs:

Segmentfunktionen können durch die Kennzeichnung eines einzelnen Videobilds erlernt werden, wodurch eine vollständig überwachte Leistung erreicht wird! Huake gewinnt neues SOTA für sequentielle Verhaltenserkennung ein und verwendet dann positiv/negativ Beispielvorschläge mit Die IoU zuverlässiger Vorschläge wird als Leitfaden zur Überwachung der Vorhersage der Vollständigkeitsbewertung des Vorschlags verwendet:

Segmentfunktionen können durch die Kennzeichnung eines einzelnen Videobilds erlernt werden, wodurch eine vollständig überwachte Leistung erreicht wird! Huake gewinnt neues SOTA für sequentielle Verhaltenserkennung Um einen genaueren Vorschlag für das Grenzverhalten zu erhalten, gibt der Forscher die Merkmale der Startregion und die Merkmale der Endregion ein des Vorschlags in jedem PP in die Regression Versetzen Sie im Vorhersagekopf φr die Start- und Endzeit des vorhergesagten Vorschlags.

Berechnen Sie die verfeinerten Vorschläge weiter und hoffen Sie, dass die verfeinerten Vorschläge mit den zuverlässigen Vorschlägen übereinstimmen.

Kurz gesagt, HR-Pro kann mit nur wenigen Anmerkungen großartige Ergebnisse erzielen, wodurch die Kosten für die Beschaffung von Etiketten erheblich gesenkt werden, und verfügt gleichzeitig über starke Generalisierungsfähigkeiten, sodass es für den tatsächlichen Einsatz geeignet ist Bewerbungen Es werden günstige Konditionen angeboten.

Dementsprechend prognostiziert der Autor, dass HR-Pro breite Anwendungsaussichten in den Bereichen Verhaltensanalyse, Mensch-Computer-Interaktion und Fahranalyse haben wird.

Papieradresse: https://arxiv.org/abs/2308.12608

Das obige ist der detaillierte Inhalt vonSegmentfunktionen können durch die Kennzeichnung eines einzelnen Videobilds erlernt werden, wodurch eine vollständig überwachte Leistung erreicht wird! Huake gewinnt neues SOTA für sequentielle Verhaltenserkennung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!