Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source-IA-php.cn

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

Linda Hamilton

Libérer： 2025-03-12 13:12:02

original

236 Les gens l'ont consulté

Grande recommandation: Visual-RFT - Une amélioration visuelle et un projet open source ajusté pour autonomiser les modèles de langage visuel!

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

La colonne AIXIV continue de se concentrer sur la recherche sur l'IA dans le monde et a publié plus de 2 000 articles académiques et techniques. Bienvenue à contribuer à partager vos réalisations en cours! Courriel de soumission: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Le projet Visual-RFT (visual de renforcement final) applique avec succès le paradigme d'apprentissage et de renforcement du renforcement (RFT) basé sur les récompenses de règles aux grands modèles du langage visuel (LVLM), percant les limites des méthodes précédentes limitées au texte, aux mathématiques et autres domaines. En concevant des récompenses de règles spécifiques pour des tâches telles que la sous-catégorisation visuelle et la détection d'objets, Visual-RFT fournit une nouvelle idée pour la formation LVLM!

La figure 1 montre la puissante capacité de généralisation de Visual-RFT: le modèle ne nécessite qu'une petite quantité de données pour identifier avec précision un Pokémon spécifique dans l'Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source et localiser ses coordonnées.

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

^{Figure 1. Visual-RFT étend un réglage fin amélioré au multimodal, avec seulement 10-1000 de données pour améliorer considérablement les performances du modèle.}

De RFT à Visual-RFT: percées dans l'apprentissage du renforcement dans le champ multimodal

La technologie de réglage fin améliorée d'OpenAI permet de réaliser la migration des capacités du modèle par un petit nombre d'échantillons. Deepseek-R1 révèle que ses puissantes capacités de raisonnement découlent des stratégies d'apprentissage du renforcement basées sur des récompenses vérifiables. Cependant, cette stratégie était auparavant principalement utilisée dans des domaines tels que le texte et les mathématiques. Visual-RFT a réussi à élargir cette stratégie au champ visuel.

L'instruction visuelle traditionnelle du réglage fin (SFT) nécessite une grande quantité de données, et la capacité d'apprentissage du petit échantillon de Visual-RFT le rend plus avantageux dans les scénarios rares de données.

Afin de vérifier la capacité de généralisation du Visual-RFT, l'équipe de recherche a effectué des tests sur plusieurs tâches visuelles telles que la détection d'objets, la classification et la mise à la terre. Les résultats montrent que Visual-RFT peut réaliser des améliorations de performances significatives sous un vocabulaire ouvert, un petit échantillon d'apprentissage et d'autres paramètres, et est meilleur que la méthode SFT. En particulier dans les tâches de positionnement de l'inférence, Visual-RFT montre d'excellentes capacités de raisonnement visuel. (Voir le journal pour plus de détails)

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

^{Figure 2. Visual-RFT dépasse considérablement la SFT sur plusieurs tâches visuelles.}

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

^{Figure 3. Diagramme du cadre Visual-RFT, mise à jour des paramètres du modèle à l'aide des récompenses IOU et CLS et des stratégies d'apprentissage de renforcement.}

L'équipe de recherche a utilisé des récompenses vérifiables basées sur l'IOU pour les tâches de détection et de mise à la terre, et des récompenses CLS basées sur l'exactitude de la classification pour les tâches de classification. (comme le montre la figure 3)

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

^{Figure 4. Les résultats de positionnement inférentiels montrent que Visual-RFT dépasse la SFT pour localiser plus précisément les objets.}

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

^{Figure 5. Les résultats de classification à grains fins inférentis montrent que Visual-RFT dépasse la SFT pour localiser les objets plus précisément.}

Les figures 4 et 5 montrent les résultats de sortie du modèle.

Résultats expérimentaux Visual-RFT

Sur la base du modèle QWEN2-VL 2B / 7B, Visual-RFT dépasse complètement la SFT dans la détection d'objets ouverts, la détection de petits échantillons, la classification à grains fins et les tâches de positionnement d'inférence. Les données expérimentales couvrent des scènes communes telles que CoCo et LVIS et des scènes ouvertes telles que les personnages de dessins animés Internet. Avec juste une petite quantité de données, Visual-RFT peut atteindre la migration des capacités, montrant d'excellentes performances et une robustesse.

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source