Maison > Périphériques technologiques > IA > le corps du texte

Analyse des expressions faciales : intégration d'informations multimodales avec Transformer

WBOY
Libérer: 2024-01-23 10:24:05
avant
1073 Les gens l'ont consulté

Transformer-based Multimodal Information Fusion for Facial  Expression Analysis

Paper Introduction

L'analyse du comportement émotionnel humain a attiré beaucoup d'attention dans le domaine de l'interaction homme-machine (HCI). Cet article est destiné à présenter l'article que nous avons soumis au CVPR 2022 Affective Behaviour Analysis in-the-wild (ABAW). Pour exploiter pleinement les connaissances émotionnelles, nous utilisons des fonctionnalités multimodales, notamment le langage parlé, la prosodie de la parole et les expressions faciales extraites de clips vidéo dans l'ensemble de données Aff-Wild2. Sur la base de ces caractéristiques, nous proposons un cadre multimodal basé sur un transformateur pour la détection d'unités d'action et la reconnaissance d'expressions. Ce cadre contribue à une compréhension plus complète du comportement émotionnel humain et fournit de nouvelles orientations de recherche dans le domaine de l'interaction homme-machine.

Pour l'image du cadre actuel, nous l'encodons d'abord pour extraire les caractéristiques visuelles statiques. Dans le même temps, nous utilisons également des fenêtres coulissantes pour recadrer les images adjacentes et extraire trois caractéristiques multimodales des séquences d'images, d'audio et de texte. Ensuite, nous introduisons un module de fusion basé sur un transformateur pour fusionner des fonctionnalités visuelles statiques et des fonctionnalités multimodales dynamiques. Le module d'attention croisée de ce module de fusion permet de concentrer les fonctionnalités intégrées de sortie sur les éléments clés utiles pour les tâches de détection en aval. Afin d'améliorer encore les performances du modèle, nous avons adopté certaines techniques d'équilibrage des données, des techniques d'augmentation des données et des méthodes de post-traitement. Lors des tests officiels de l'ABAW3 Competition, notre modèle s'est classé premier sur les pistes EXPR et AU. Nous démontrons l’efficacité de notre méthode proposée grâce à des études approfondies d’évaluation quantitative et d’ablation sur l’ensemble de données Aff-Wild2.

Lien papier

https://arxiv.org/abs/2203.12367

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:163.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!