Basé sur la technologie d'étalonnage de la théorie de l'information, CML rend l'apprentissage automatique multimodal plus fiable-IA-php.cn

L'apprentissage automatique multimodal a fait des progrès impressionnants dans divers scénarios. Cependant, la fiabilité des modèles d’apprentissage multimodaux manque de recherches approfondies. "L'information est l'élimination de l'incertitude." L'intention initiale de l'apprentissage automatique multimodal est cohérente avec cela : des modalités supplémentaires peuvent rendre les prédictions plus précises et plus fiables. Cependant, l'article « Calibrating Multimodal Learning » récemment publié à l'ICML2023 a révélé que les méthodes d'apprentissage multimodales actuelles violent cette hypothèse de fiabilité et a effectué une analyse et des corrections détaillées.

Basé sur la technologie détalonnage de la théorie de linformation, CML rend lapprentissage automatique multimodal plus fiable Photos

Papier Arxiv : https://arxiv.org/abs/2306.01265
Code GitHub https://github.com /QingyangZhang/CML

La méthode de classification multimodale actuelle a une confiance peu fiable, c'est-à-dire que lorsque certains modes sont supprimés, le modèle peut produire une confiance plus élevée, ce qui viole la théorie de l'information « l'information est éliminée ». le principe de base. Pour résoudre ce problème, cet article propose la méthode Calibrating Multimodal Learning. Cette méthode peut être déployée dans différents paradigmes d’apprentissage multimodal pour améliorer la rationalité et la crédibilité des modèles d’apprentissage multimodaux.

Basé sur la technologie détalonnage de la théorie de linformation, CML rend lapprentissage automatique multimodal plus fiable Pictures

Ce travail souligne que les méthodes d'apprentissage multimodal actuelles ont des problèmes de confiance de prédiction peu fiables, et que les modèles d'apprentissage automatique multimodaux existants ont tendance à s'appuyer sur des modalités partielles pour estimer la confiance. L’étude a notamment révélé que la confiance dans les estimations du modèle actuel augmente lorsque certains modes sont endommagés. Pour résoudre ce problème déraisonnable, les auteurs proposent un principe d’apprentissage multimodal intuitif : lorsque la modalité est supprimée, la confiance dans la prédiction du modèle ne devrait pas augmenter. Cependant, les modèles actuels ont tendance à croire et à se laisser influencer par un sous-ensemble de modalités, plutôt que de considérer toutes les modalités de manière équitable. Cela affecte encore davantage la robustesse du modèle, c'est-à-dire que le modèle est facilement affecté lorsque certains modes sont endommagés.

Basé sur la technologie détalonnage de la théorie de linformation, CML rend lapprentissage automatique multimodal plus fiable

Pour résoudre les problèmes ci-dessus, certaines méthodes adoptent actuellement des méthodes d'étalonnage d'incertitude existantes, telles que l'échelle de température ou les méthodes d'apprentissage bayésien. Ces méthodes peuvent construire des estimations de confiance plus précises que les méthodes traditionnelles de formation/inférence. Cependant, ces méthodes ne font correspondre que l'estimation de la confiance du résultat final de la fusion avec la précision et ne prennent pas explicitement en compte la relation entre la quantité d'informations modales et la confiance. Par conséquent, elles ne peuvent pas essentiellement améliorer la crédibilité du modèle d'apprentissage multimodal.

L'auteur propose une nouvelle technique de régularisation appelée « Calibrating Multimodal Learning (CML) ». Cette technique renforce la relation de correspondance entre la confiance des prédictions du modèle et le contenu de l'information en ajoutant un terme de pénalité pour assurer la cohérence entre la confiance de la prédiction et le contenu de l'information. Cette technique est basée sur l’intuition naturelle selon laquelle lorsqu’une modalité est supprimée, la confiance dans la prédiction devrait diminuer (au moins elle ne devrait pas augmenter), ce qui peut intrinsèquement améliorer l’étalonnage de la confiance. Plus précisément, un terme de régularisation simple est proposé pour forcer le modèle à apprendre une relation d'ordre intuitive en ajoutant une pénalité aux échantillons dont la confiance de prédiction augmente lorsqu'une modalité est supprimée :

Basé sur la technologie détalonnage de la théorie de linformation, CML rend lapprentissage automatique multimodal plus fiable

La contrainte ci-dessus est une perte régulière, qui apparaît comme une pénalité lorsque l'information modale est supprimée et que la confiance augmente.

Les résultats expérimentaux montrent que la régularisation CML peut améliorer considérablement la fiabilité de la confiance de prédiction des méthodes d'apprentissage multimodales existantes. De plus, CML peut améliorer la précision de la classification et la robustesse du modèle.

Basé sur la technologie détalonnage de la théorie de linformation, CML rend lapprentissage automatique multimodal plus fiable

L'apprentissage automatique multimodal a fait des progrès significatifs dans divers scénarios, mais la fiabilité des modèles d'apprentissage automatique multimodal reste un problème qui doit être résolu. Grâce à des recherches empiriques approfondies, cet article révèle que les méthodes de classification multimodales actuelles présentent le problème d'une confiance de prédiction peu fiable et violent les principes de la théorie de l'information. Pour résoudre ce problème, les chercheurs ont proposé la technique de régularisation CML, qui peut être déployée de manière flexible sur les modèles existants et améliorer les performances en termes d'étalonnage de la confiance, d'exactitude de la classification et de robustesse du modèle. On pense que cette nouvelle technologie jouera un rôle important dans le futur apprentissage multimodal et améliorera la fiabilité et la praticité de l’apprentissage automatique.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Php8, je viens aussi

Apprenez la mise en page d'un site Web en 30 minutes

Tutoriel vidéo Shangguan Oracle débutant à compétent

Votre première ligne de code UNI-APP

Flutter de zéro au lancement de l'application

Brother Lian Nouveau didacticiel vidéo Linux

Tutoriel vidéo AXURE 9 (convient à l'interface utilisateur interactive de conception de produits du chef de produit)

Tutoriel vidéo PS Zero Basic Proficiency

Tutoriel vidéo de 16 jours sur l'interface utilisateur pour vous aider à démarrer

Tutoriel vidéo sur les techniques PS et les techniques de découpage

Tutoriel vidéo sur la construction et le lancement de projets d'Alibaba Cloud Environment

Présentation des réseaux informatiques - Connaissances de base que les programmeurs doivent maîtriser

Tutoriel essentiel pour les programmeurs - Explication du protocole HTTP

Tutoriel vidéo Websocket

Basé sur la technologie d'étalonnage de la théorie de l'information, CML rend l'apprentissage automatique multimodal plus fiable