Couvrant les tâches de texte, de positionnement et de segmentation, Zhiyuan et les Chinois de Hong Kong ont proposé conjointement le premier grand modèle médical multimodal 3D multifonctionnel-IA-php.cn

Couvrant les tâches de texte, de positionnement et de segmentation, Zhiyuan et les Chinois de Hong Kong ont proposé conjointement le premier grand modèle médical multimodal 3D multifonctionnel

Auteur | Bai Fan, Université chinoise de Hong Kong

Éditeur | ScienceAI

Récemment, l'Université chinoise de Hong Kong et Zhiyuan ont proposé conjointement la série de travaux M3D, comprenant M3D-Data, M3D-LaMed et M3D. -Bench, à partir d'ensembles de données, de modèles et d'évaluation pour favoriser le développement de l'analyse d'images médicales 3D sous tous ses aspects.

(1) M3D-Data est actuellement le plus grand ensemble de données d'images médicales 3D, comprenant M3D-Cap (120 000 paires d'images et de textes 3D), M3D-VQA (510 000 paires de questions et réponses), M3D-Seg (150 000 paires de textes 3D) , M3D-RefSeg (segmentation d'inférence 3K) comporte quatre sous-ensembles de données.

(2) M3D-LaMed est actuellement le grand modèle médical multimodal 3D le plus polyvalent, capable de résoudre du texte (diagnostic de maladie, récupération d'images, questions et réponses visuelles, génération de rapports, etc.), de positionnement (détection de cible, visualisation positionnement, etc.) et segmentation (segmentation sémantique, segmentation de référence, segmentation par inférence, etc.) trois types de tâches d'analyse médicale.

(3) M3D-Bench peut évaluer de manière complète et automatique 8 tâches, couvrant trois aspects du texte, du positionnement et de la segmentation, et fournit des données de test vérifiées manuellement.

Nous publierons l'ensemble de données, le modèle et le code dès avril 2024.

Récemment, nous avons fourni un modèle M3D-LaMed-Phi-3-4B plus petit et plus puissant, et ajouté une démo en ligne pour que tout le monde puisse en faire l'expérience !

Veuillez prêter attention aux mises à jour de la bibliothèque GitHub pour connaître les derniers progrès. Si vous avez des questions ou des suggestions, vous pouvez nous contacter à temps. Tout le monde est invité à discuter et à soutenir notre travail.

Couvrant les tâches de texte, de positionnement et de segmentation, Zhiyuan et les Chinois de Hong Kong ont proposé conjointement le premier grand modèle médical multimodal 3D multifonctionnel

Lien papier :https://arxiv.org/abs/2404.00578
Code :https://github.com/BAAI-DCAI/M3D
Modèle :https:// huggingface.co/GoodBaiBai88/M3D-LaMed-Phi-3-4B
Dataset:https://github.com/BAAI-DCAI/M3D?tab=readme-ov-file#data
Démo en ligne : https://baai.rpailab.xyz/

Que pouvons-nous apporter aux chercheurs en lien avec les images médicales ?

M3D-Data, le plus grand ensemble de données médicales multimodales 3D ;
M3D-Seg, qui intègre presque tous les ensembles de données de segmentation médicale 3D open source, un total de 25
M3D-LaMed, prend en charge le texte, positionnement et Le grand modèle médical multimodal 3D segmenté avec le plus de fonctions fournit un cadre de code concis et clair, et les chercheurs peuvent facilement modifier les paramètres de chaque module
M3D-CLIP, basé sur des paires d'images et de textes 3D M3D-Cap ; , nous nous entraînons Nous avons développé un modèle M3D-CLIP pour l'apprentissage contrastif d'images et de textes, et fournissons le poids visuel de pré-entraînement 3DViT
M3D-Bench, un plan et un code d'évaluation complets et clairs.
Toutes les ressources impliquées dans cet article sont ouvertes au public, dans l'espoir d'aider les chercheurs à promouvoir conjointement le développement de l'analyse d'images médicales 3D.

Couvrant les tâches de texte, de positionnement et de segmentation, Zhiyuan et les Chinois de Hong Kong ont proposé conjointement le premier grand modèle médical multimodal 3D multifonctionnel

Vidéo de démonstration en ligne.

L'analyse d'images médicales est essentielle au diagnostic et au traitement cliniques, et les grands modèles multimodaux de langage (MLLM) le soutiennent de plus en plus. Cependant, les recherches antérieures se sont principalement concentrées sur les images médicales 2D, et bien que les images 3D contiennent des informations spatiales plus riches, elles n’ont pas été suffisamment étudiées et explorées.

Cet article vise à faire progresser l'analyse d'images médicales 3D à l'aide de MLLM. À cette fin, nous proposons un ensemble de données médicales multimodales 3D à grande échelle, M3D-Data, qui contient 120 000 paires image-texte et 662 000 paires instruction-réponse, spécifiquement adaptées à diverses tâches médicales 3D, telles que la récupération image-texte, la génération de rapports, réponse visuelle aux questions, localisation et segmentation.

De plus, nous proposons M3D-LaMed, un modèle multimodal polyvalent en grand langage pour l'analyse d'images médicales 3D.

Nous introduisons également un nouveau benchmark médical multimodal 3D, M3D-Bench, qui facilite l'évaluation automatique en huit tâches. Grâce à une évaluation complète, notre approche s’est avérée être un modèle d’analyse d’images médicales 3D robuste qui surpasse les solutions existantes. Tous les codes, données et modèles sont accessibles au public sur .

Dataset

M3D-Data comprend un total de 4 sous-ensembles de données, à savoir M3D-Cap (paires d'images et de texte), M3D-VQA (paire de questions et réponses visuelles), M3D-RefSeg (segmentation d'inférence) et M3D. -Seg (intégration de 25 jeux de données de segmentation 3D).

Couvrant les tâches de texte, de positionnement et de segmentation, Zhiyuan et les Chinois de Hong Kong ont proposé conjointement le premier grand modèle médical multimodal 3D multifonctionnel

Modèle

La structure du modèle M3D-LaMed est présentée dans la figure ci-dessous. (a) L'encodeur d'image 3D est pré-entraîné à partir de données d'image et de texte via une perte d'apprentissage contrastive intermodale et peut être directement appliqué aux tâches de récupération d'images et de texte. (b) Dans le modèle M3D-LaMed, les images médicales 3D sont entrées dans l'encodeur d'images 3D pré-entraîné et le perceptron de pooling spatial 3D efficace, et le jeton visuel est inséré dans le LLM, et la sortie [SEG] est utilisée comme un invite à piloter le module de segmentation.

Expériences

Récupération de graphiques et de textes

Dans la récupération de graphiques et de textes 3D, les modèles visent à faire correspondre les images et le texte d'un ensemble de données en fonction de la similarité, impliquant généralement deux tâches : la récupération de texte à image (TR ) et la récupération d'image en texte (IR).

Couvrant les tâches de texte, de positionnement et de segmentation, Zhiyuan et les Chinois de Hong Kong ont proposé conjointement le premier grand modèle médical multimodal 3D multifonctionnel

Génération de rapports

Dans la génération de rapports, le modèle génère des rapports textuels basés sur des informations extraites d'images médicales 3D.

Couvrant les tâches de texte, de positionnement et de segmentation, Zhiyuan et les Chinois de Hong Kong ont proposé conjointement le premier grand modèle médical multimodal 3D multifonctionnel

Réponse aux questions visuelles fermées

Dans la réponse aux questions visuelles fermées, le modèle doit être fourni avec des candidats à réponse fermée, tels que A, B, C, D, et le modèle doit sélectionner la bonne réponse des candidats.

Couvrant les tâches de texte, de positionnement et de segmentation, Zhiyuan et les Chinois de Hong Kong ont proposé conjointement le premier grand modèle médical multimodal 3D multifonctionnel

Question et réponse visuelles ouvertes

Dans les questions et réponses visuelles ouvertes, le modèle génère des réponses ouvertes sans aucun indice de réponse ni candidat.

Couvrant les tâches de texte, de positionnement et de segmentation, Zhiyuan et les Chinois de Hong Kong ont proposé conjointement le premier grand modèle médical multimodal 3D multifonctionnel

Nous avons constaté que le M3D-LaMed surpasse le GPT-4V général dans le domaine médical. Cependant, il convient de noter que GPT-4V limite actuellement les réponses aux questions médicales.

Positionnement

Le positionnement est crucial dans les tâches de langage visuel, en particulier celles impliquant des zones d'entrée et de sortie. Les tâches de la zone de sortie, telles que la compréhension de l'expression référente (REC), visent à localiser un objet cible dans une image sur la base d'une représentation référente. En revanche, les tâches de zone de saisie, telles que la génération d'expressions référentes (REG), nécessitent que le modèle génère une description d'une région spécifique basée sur une image et une zone de localisation.

Couvrant les tâches de texte, de positionnement et de segmentation, Zhiyuan et les Chinois de Hong Kong ont proposé conjointement le premier grand modèle médical multimodal 3D multifonctionnel

Segmentation

La tâche de segmentation est cruciale dans l'analyse d'images médicales 3D en raison de ses capacités de reconnaissance et de localisation. Pour répondre à divers indices textuels, la segmentation est divisée en segmentation sémantique et segmentation d'expression référentielle. Pour la segmentation sémantique, le modèle génère des masques de segmentation basés sur des étiquettes sémantiques. La segmentation des expressions référentielles nécessite une segmentation cible basée sur la description de l'expression en langage naturel, ce qui nécessite que le modèle ait certaines capacités de compréhension et de raisonnement.

Couvrant les tâches de texte, de positionnement et de segmentation, Zhiyuan et les Chinois de Hong Kong ont proposé conjointement le premier grand modèle médical multimodal 3D multifonctionnel

Étude de cas de problèmes hors distribution (OOD)

Nous avons testé le modèle M3D-LaMed sur une conversation OOD, ce qui signifie que tous les problèmes ne sont pas pertinents pour nos données de formation. Nous avons constaté que M3D-LaMed possède de fortes capacités de généralisation et peut produire des réponses raisonnables aux problèmes OOD plutôt que du charabia. Dans chaque série de conversations, l'avatar et les questions à gauche proviennent de l'utilisateur, et l'avatar et les réponses à droite proviennent de M3D-LaMed.

Notre dernier modèle M3D-LaMed-Phi-3-4B plus petit et formé a de meilleures performances, tout le monde est invité à l'utiliser ! GoodBaiBai88/M3D-LaMed-Phi-3-4B · Hugging Face

Résultats des tests VQA fermés

Résumé

Notre série d'études M3D promeut l'utilisation du MLLM pour l'analyse d'images médicales 3D. Plus précisément, nous construisons un ensemble de données médicales multimodales 3D à grande échelle, M3D-Data, qui contient 120 000 paires image-texte 3D et 662 000 paires instruction-réponse, adaptées aux tâches médicales 3D. De plus, nous proposons M3D-LaMed, un modèle général qui gère la récupération de texte d'image, la génération de rapports, la réponse visuelle aux questions, la localisation et la segmentation. De plus, nous introduisons un benchmark complet, M3D-Bench, soigneusement conçu pour huit tâches.

Notre approche pose une base solide pour que MLLM comprenne la vision et le langage des scènes médicales 3D. Nos données, notre code et nos modèles faciliteront une exploration et une application plus approfondies du MLLM médical 3D dans les recherches futures. Nous espérons que nos travaux pourront être utiles aux chercheurs dans le domaine, et tout le monde est invité à les utiliser et à en discuter.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!