Les systèmes de génération (RAG) de la récupération multimodale (RAG) révolutionnent l'IA en intégrant divers types de données - texte, images, audio et vidéo - pour des réponses plus nuancées et consacrées au contexte. Cela dépasse le chiffon traditionnel, qui se concentre uniquement sur le texte. Un progrès clé est les intégres de vision nomique, créant un espace unifié pour les données visuelles et textuelles, permettant une interaction inter-modale transparente. Les modèles avancés génèrent des intérêts de haute qualité, améliorant la récupération des informations et combler l'écart entre les différentes formes de contenu, enrichissant finalement les expériences des utilisateurs.
* Cet article fait partie du Blogathon de la science des données *** .
RAG multimodal représente une progression importante de l'IA, s'appuyant sur un chiffon traditionnel en incorporant divers types de données. Contrairement aux systèmes conventionnels qui gèrent principalement le texte, les processus de chiffon multimodal et intègrent simultanément plusieurs formulaires de données. Cela conduit à une compréhension plus complète et à des réponses au contexte entre différentes modalités.
Composants de chiffon multimodaux clés:
Les incorporations de vision nomiques sont une innovation clé, créant un espace d'incorporation unifié pour les données visuelles et textuelles. Nomic Embed Vision V1 et V1.5, développé par nomique AI, partagent le même espace latent que leurs homologues de texte (Nomic Embed Text V1 et V1.5). Cela les rend idéaux pour les tâches multimodales comme la récupération du texte à l'image. Avec un nombre de paramètres relativement faible (92 m), la vision intégrée nomique est efficace pour les applications à grande échelle.
Adresse des limitations du modèle de clip:
Alors que le clip excelle en capacités de tirs zéro, ses encodeurs de texte sous-performent dans les tâches au-delà de la récupération d'image (comme indiqué dans les repères MTEB). Nomic Embed Vision aborde cela en alignant son encodeur de vision avec l'espace latent de texte intégré.
La vision de l'intégration nomique a été formée aux côtés du texte intégré nomique, gelant le codeur de texte et formation de l'encodeur de vision sur les paires de texte d'image. Cela garantit des résultats optimaux et une compatibilité arrière avec des incorporations de texte intégrées nomiques.
Les modèles de clip, bien que impressionnants dans les capacités zéro-shot, montrent des faiblesses dans les tâches unimodales comme la similitude sémantique (références MTEB). Nomic Embed Vision surmonte cela en alignant son encodeur de vision avec l'espace latente de texte intégré nomique, entraînant de fortes performances à travers l'image, le texte et les tâches multimodales (Imagenet Zero-shot, MTEB, Benchmarks de Datacomp).
Ce tutoriel construit un système de chiffon multimodal récupérant des informations à partir d'un PDF contenant du texte et des images (en utilisant Google Colab avec un GPU T4).
Installez les bibliothèques Python nécessaires: Openai, Qdrant, Transformers, Torch, PYMUPDF, etc. (Code omis pour la concision, mais présent dans l'original.)
Définissez la clé API OpenAI et importez les bibliothèques requises (PYMUPDF, PIL, Langchain, OpenAI, etc.). (Code omis pour la concision.)
Extraire les images du PDF à l'aide de PYMUPDF et les enregistrer dans un répertoire. (Code omis pour la concision.)
Extraire le texte de chaque page PDF à l'aide de PYMUPDF. (Code omis pour la concision.)
Enregistrer les images et le texte extraits. (Code omis pour la concision.)
Divisez le texte extrait en morceaux plus petits en utilisant Langchain RecursiveCharacterTextSplitter
. (Code omis pour la concision.)
Chargez des modèles d'intégration du texte et de la vision de la vision en utilisant les transformateurs de Hugging Face. (Code omis pour la concision.)
Générer des incorporations de texte et d'image. (Code omis pour la concision.)
Stocker des intérêts de texte dans une collection QDRANT. (Code omis pour la concision.)
Stockez les intégres d'image dans une collection QDRANT séparée. (Code omis pour la concision.)
Créez une fonction pour récupérer des incorporations de texte et d'image pertinentes basées sur une requête. (Code omis pour la concision.)
Utilisez Langchain pour traiter les données récupérées et générer des réponses à l'aide d'un modèle de langue (par exemple, GPT-4). (Code omis pour la concision.)
L'exemple de requêtes démontre la capacité du système à récupérer des informations à partir du texte et des images dans le PDF. (Exemple de requêtes et de sorties omises pour la concision, mais présente dans l'original.)
Les intérêts de vision nomique améliorent considérablement le chiffon multimodal, permettant une interaction transparente entre les données visuelles et textuelles. Cela traite des limites de modèles comme Clip, offrant un espace d'intégration unifié et des performances améliorées sur diverses tâches. Cela conduit à des expériences d'utilisateurs plus riches et plus compatibles dans les environnements de production.
(FAQs omis pour la concision, mais présents dans l'original.)
Remarque: Les extraits de code ont été omis pour la concision, mais la fonctionnalité de base et les étapes restent avec précision. L'entrée d'origine contenait un code étendu; L'inclusion de tout rendrait cette réponse excessivement longue. Reportez-vous à l'entrée d'origine pour l'implémentation complète du code.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!