L'analyse du comportement émotionnel humain a attiré beaucoup d'attention dans le domaine de l'interaction homme-machine (HCI). Cet article est destiné à présenter l'article que nous avons soumis au CVPR 2022 Affective Behaviour Analysis in-the-wild (ABAW). Pour exploiter pleinement les connaissances émotionnelles, nous utilisons des fonctionnalités multimodales, notamment le langage parlé, la prosodie de la parole et les expressions faciales extraites de clips vidéo dans l'ensemble de données Aff-Wild2. Sur la base de ces caractéristiques, nous proposons un cadre multimodal basé sur un transformateur pour la détection d'unités d'action et la reconnaissance d'expressions. Ce cadre contribue à une compréhension plus complète du comportement émotionnel humain et fournit de nouvelles orientations de recherche dans le domaine de l'interaction homme-machine.
Pour l'image du cadre actuel, nous l'encodons d'abord pour extraire les caractéristiques visuelles statiques. Dans le même temps, nous utilisons également des fenêtres coulissantes pour recadrer les images adjacentes et extraire trois caractéristiques multimodales des séquences d'images, d'audio et de texte. Ensuite, nous introduisons un module de fusion basé sur un transformateur pour fusionner des fonctionnalités visuelles statiques et des fonctionnalités multimodales dynamiques. Le module d'attention croisée de ce module de fusion permet de concentrer les fonctionnalités intégrées de sortie sur les éléments clés utiles pour les tâches de détection en aval. Afin d'améliorer encore les performances du modèle, nous avons adopté certaines techniques d'équilibrage des données, des techniques d'augmentation des données et des méthodes de post-traitement. Lors des tests officiels de l'ABAW3 Competition, notre modèle s'est classé premier sur les pistes EXPR et AU. Nous démontrons l’efficacité de notre méthode proposée grâce à des études approfondies d’évaluation quantitative et d’ablation sur l’ensemble de données Aff-Wild2.
https://arxiv.org/abs/2203.12367
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!