178 pages, 128 cas, évaluation complète du GPT-4V dans le domaine médical, encore loin de l'application clinique et de la prise de décision pratique-IA-php.cn

L'Université Jiao Tong de Shanghai et le Shanghai AI Lab ont publié une étude de cas médical de 178 pages sur le GPT-4V, révélant pour la première fois de manière exhaustive les performances visuelles du GPT-4V dans le domaine médical. Poussé par des modèles de base à grande échelle, le développement de l'intelligence artificielle a fait de grands progrès récemment, en particulier le GPT-4 d'OpenAI. Ses puissantes capacités de questions-réponses et de connaissances ont illuminé le moment Eureka dans le domaine de l'IA, provoquant un large public. préoccupation. GPT-4V (ision) est le dernier modèle de base multimodal d'OpenAI. Par rapport à GPT-4, il ajoute des capacités de saisie d’images et de voix. Cette étude vise à évaluer les performances du GPT-4V (ision) dans le domaine du diagnostic médical multimodal à travers l'analyse de cas. Au total, 128 (92 cas d'évaluation radiologique, 20 cas d'évaluation pathologique et 16 cas de positionnement) ont été affichés et analysés. . Case) Exemple de questions et réponses GPT-4V avec un total de 277 images (Remarque : cet article n'impliquera pas l'affichage du cas, veuillez vous référer au document original pour l'affichage et l'analyse du cas spécifique).

178 pages, 128 cas, évaluation complète du GPT-4V dans le domaine médical, encore loin de lapplication clinique et de la prise de décision pratique

Évaluation d'image médicale GPT-4V

Lien ArXiv : https://arxiv.org/abs/2310.09909

Adresse de téléchargement du cloud Baidu : https://pan.baidu.com/s/11xV8MkUfmF3emJQH9awtcw?pwd=krk2

Adresse de téléchargement Google Drive : https://drive.google.com/file/d/1HPvPDwhgpOwxi2sYH3_xrcaoXjBGWhK9/view?usp=sharing

Capacités d'évaluation :

Identification des modalités d'image et de l'emplacement d'imagerie : identifier les rayons X, la tomodensitométrie, l'IRM Imagerie par résonance, images échographiques et pathologiques, et localisation des emplacements d'imagerie.
Localisation des structures anatomiques : identifiez des structures anatomiques spécifiques dans les images.
Détection et localisation des anomalies : Détectez et localisez des anomalies telles que des tumeurs, des fractures ou des infections.
Diagnostic complet multi-images : combinez des informations provenant de différentes modalités d'imagerie ou vues pour le diagnostic.
Rédaction de rapports médicaux : décrire les conditions anormales et les résultats normaux associés.
Intégration des antécédents du patient : tenez compte des informations de base et des antécédents médicaux du patient dans l'interprétation des images.
Cohérence et mémoire dans plusieurs cycles d'interaction : maintenir la continuité dans la cognition des données.

Système d'évaluation :

Système nerveux central
Tête et cou
Coeur
Poitrine
Sang
Foie et vésicule biliaire
Anorectale
Urologie
Gynécologie
Obstétrique
Département du sein
Musculo-squelettique Département
Département de la colonne vertébrale
Département vasculaire
Département d'oncologie
Département de traumatologie
Pédiatrie

Modalité d'image :

Rayons X
Tomodensitométrie (CT)
Imagerie par résonance magnétique (IRM)
Positif Tomographie par émission électronique (TEP)
Angiographie par soustraction numérique (DSA)
Mammographie
Échographie
Pathologie
Sélection de cas de test

Les questions et réponses sur la radiologie pour l'article original proviennent de Radiopaedia, les images sont téléchargées directement à partir de la page Web. , les cas de positionnement proviennent de plusieurs ensembles de données de segmentation médicale publique et les images de pathologie proviennent de PathologyOutlines. Lors de la sélection des cas, les auteurs ont pris en compte de manière exhaustive les aspects suivants :

Date de publication : étant donné que les données d'entraînement de GPT-4V sont très probablement extrêmement volumineuses, afin d'éviter que les cas de test sélectionnés n'apparaissent dans l'ensemble d'entraînement, le les auteurs n'ont sélectionné que les derniers cas publiés en 2023.
Credibilité de l'annotation : Le diagnostic médical lui-même est controversé et ambigu. Sur la base du taux de complétion des cas fourni par Radiopaedia, l'auteur tente de sélectionner les cas avec un taux de complétion supérieur à 90 % pour garantir la crédibilité de l'annotation ou du diagnostic.
Diversité des modalités d'image : lors de la sélection des cas, l'auteur a fait de son mieux pour montrer la réponse du GPT-4V à plusieurs modalités d'imagerie.

Lors du traitement de l'image, l'auteur a également effectué la normalisation suivante pour garantir la qualité de l'image d'entrée :

Sélection d'images multiples : étant donné que la limite maximale d'entrée d'images prise en charge par GPT-4V est de 4, mais que certains cas auront plus de 4 images associées, tout d'abord, l'auteur essaiera d'éviter cette situation lors de la sélection des cas, et d'autre part , si cela est inévitable. Lorsqu'il est confronté à un tel cas, l'auteur sélectionnera les images les plus pertinentes sur la base des annotations de cas fournies par Radiopaedia.
Sélection de section : Une grande quantité de données d'images radiologiques est sous forme de 3D (images bidimensionnelles multi-images continues) et ne peut pas être directement saisie dans GPT-4V. Une section la plus représentative doit être sélectionnée pour remplacer la 3D complète. image et être entrée dans GPT-4V. Selon les spécifications de téléchargement de cas de Radiopaedia, les radiologues sont invités à sélectionner la section la plus pertinente lors du téléchargement d'images 3D. Les auteurs en ont profité et ont choisi les coupes axiales recommandées par Radiopaedia pour la saisie au lieu des données 3D.
Standardisation de l'image : conception standardisée des images médicales, sélection de la largeur de la fenêtre et du niveau de la fenêtre. Différentes fenêtres mettront en évidence différents tissus. Les auteurs ont utilisé le cas Radiopaedio pour télécharger la largeur de la fenêtre et le niveau de la fenêtre sélectionnés par le radiologue pour saisir l'image. Pour l'ensemble de données segmentées, l'article d'origine utilise une fenêtre de [-300 300] et effectue une normalisation au niveau du cas de 0-1.

Les tests de l'article original ont tous utilisé la version Web de GPT-4V Lors de la première série de questions-réponses, les utilisateurs saisiront des images, puis lanceront plusieurs séries de questions-réponses. Afin d'éviter toute influence mutuelle du contexte, pour chaque nouveau cas, une nouvelle fenêtre de questions-réponses sera créée pour les questions-réponses.

178 pages, 128 cas, évaluation complète du GPT-4V dans le domaine médical, encore loin de lapplication clinique et de la prise de décision pratique

Cas de questions et réponses GPT-4V. Dans l'image, le rouge représente l'erreur, le jaune représente l'incertitude et le vert représente l'exactitude. La couleur dans la référence représente la base du jugement correspondant. Les phrases sans marque de couleur doivent être jugées par les lecteurs. eux-mêmes. Plus de cas Veuillez vous référer à l'article original pour l'analyse de cas
Dans l'évaluation pathologique, toutes les images subiront deux tours de dialogue.

Le premier tour demande si un rapport peut être généré uniquement sur la base des images d'entrée.
Le but de ce cycle est d'évaluer si GPT-4V peut identifier la modalité d'image et l'origine des tissus sans fournir d'indices médicaux pertinents.
Au deuxième tour, l'utilisateur fournira la bonne source de tissu et demandera à GPT-4V s'il peut établir un diagnostic basé sur l'image pathologique et ses informations sur la source de tissu, en espérant que GPT-4V pourra modifier le rapport et fournir une réponse claire. résultat du diagnostic.
Affichage de cas d'image pathologique

Évaluation de l'emplacement

Reconnaissance d'objet : Déterminez s'il y a une cible dans l'image.
Génération de boîte englobante : Générez les coordonnées de la boîte englobante pour la cible, où le coin supérieur gauche est (0, 0) et le coin inférieur droit est (w, h).
Calcul de l'IOU : Calculez le rapport d'intersection sur union (IOU) entre le cadre de délimitation prédit et le véritable cadre de délimitation.
Performances plafonnées : Sélectionnez la zone de délimitation prévue avec le score IOU le plus élevé.
Performance moyenne : Calculez le score IOU du cadre de délimitation moyen.
Limites de l'évaluation
Bien sûr, l'auteur original a également mentionné certaines lacunes et limites de l'évaluation :
Évaluation uniquement qualitative plutôt que quantitative
Étant donné que GPT-4V ne fournit qu'une interface Web en ligne, les cas de test ne peuvent être téléchargés que manuellement, ce qui entraîne Le rapport d'évaluation initial était limité dans son évolutivité et ne pouvait donc fournir qu'une évaluation qualitative.
Biais d'échantillonnage
Les échantillons sélectionnés proviennent tous de sites Web en ligne et peuvent ne pas refléter la distribution des données dans les cliniques ambulatoires quotidiennes. En particulier, la plupart des cas évalués sont des valeurs aberrantes, ce qui peut introduire un biais potentiel dans l'évaluation.
Les annotations ou les réponses de référence sont incomplètes
Les descriptions de référence obtenues sur les sites Web Radiopaedia ou PathologyOutlines n'ont pour la plupart aucune structure ni aucun format standardisé de rapport de radiologie/pathologie. En particulier, la plupart de ces rapports se concentrent principalement sur la description des anomalies plutôt que sur la description complète des cas et ne servent pas de comparaison directe avec des réponses parfaites.
Entrée de tranche 2D uniquement
Dans les contextes cliniques réels, les images radiologiques, y compris les tomodensitométries et les IRM, sont généralement au format DICOM 3D. Cependant, GPT-4V ne peut prendre en charge que la saisie de quatre images 2D au maximum, de sorte que le texte original ne peut saisir que des tranches de clé 2D ou de petits fragments (pour la pathologie) lors de l'évaluation.
En conclusion, même si l'évaluation n'est peut-être pas exhaustive, les auteurs originaux estiment que cette analyse peut encore fournir des informations précieuses aux chercheurs et aux professionnels de la santé. Elle révèle les capacités actuelles des modèles de base multimodaux et pourrait inspirer de futurs travaux sur la construction de modèles de base. de médecine.
Observations importantes
Le rapport d'évaluation original résume plusieurs caractéristiques de performance observées du GPT-4V sur la base des cas d'évaluation :
Section des cas de radiologie
Les auteurs ont fait les observations suivantes sur la base de 92 cas d'évaluation de radiologie et de 20 cas de positionnement :
GPT-4V peut identifier la modalité et la position d'imagerie des images médicales
GPT4-V a montré de bonnes capacités de traitement pour des tâches telles que la reconnaissance modale, la détermination des parties d'imagerie et la détermination des catégories de plan d'image pour la plupart des contenus d'images. Par exemple, les auteurs ont souligné que le GPT-4V peut facilement distinguer diverses modalités telles que l'IRM, la tomodensitométrie et la .
GPT-4V est presque impossible de poser des diagnostics précis
Les auteurs ont constaté que : d'une part, OpenAI semble avoir mis en place un mécanisme de sécurité qui limite strictement le GPT-4V de faire des diagnostics directs, d'autre part ; cas de diagnostic très évidents, le GPT-4V a de faibles capacités analytiques et se limite à lister une série de maladies possibles, mais ne peut pas donner un diagnostic plus précis.
GPT-4V peut générer des rapports structurés, mais la plupart du contenu est incorrect
GPT-4V peut générer des rapports plus standards dans la plupart des cas, mais les auteurs estiment qu'il est plus intégré que les rapports manuscrits avec un contenu plus flexible ont tendance à être décrits image par image et manquent de capacités complètes lors du ciblage d’images multimodales ou multi-images. Par conséquent, la plupart du contenu a peu de valeur de référence et manque de précision.
GPT-4V peut reconnaître les marques et les annotations de texte dans les images médicales, mais il ne peut pas comprendre la signification de leur apparition dans l'image.
GPT-4V affiche une forte reconnaissance de texte, de reconnaissance de marques et d'autres capacités, et essaiera d'utiliser ces marques. pour analyse. Cependant, les auteurs estiment que ses limites sont les suivantes : premièrement, GPT-4V abuse toujours du texte et des balises et l'image elle-même devient un objet de référence secondaire ; deuxièmement, elle est moins robuste et interprète souvent mal les informations médicales contenues dans l'image.
GPT-4V peut identifier les dispositifs médicaux implantés et leurs positions dans les images
Dans la plupart des cas, GPT4-V peut identifier correctement les dispositifs médicaux implantés dans le corps humain et localiser leurs positions de manière relativement précise. Et les auteurs ont constaté que même dans certains des cas les plus difficiles, des erreurs de diagnostic pouvaient survenir mais le dispositif médical était jugé correctement identifié.
GPT-4V rencontrera des obstacles d'analyse lorsqu'il sera confronté à plusieurs entrées d'images
Les auteurs ont découvert que face à des images sous différentes perspectives dans la même modalité, GPT-4V affichera de meilleures performances que la saisie d'une seule image, avec de meilleures capacités d'analyse, mais néanmoins. a tendance à effectuer une analyse séparée sur chaque vue ; face à une entrée mixte d'images provenant de différentes modalités, il est plus difficile pour GPT-4V de dériver une analyse raisonnable qui intègre des informations provenant de différentes modalités.
Les prédictions du GPT-4V sont facilement guidées par les antécédents pathologiques du patient
Les auteurs ont constaté que le fait que les antécédents pathologiques du patient soient fournis ou non a un plus grand impact sur les réponses du GPT-4V. Lorsqu'un historique de la maladie est fourni, GPT-4V l'utilise souvent comme point clé pour tirer des conclusions sur des anomalies potentielles dans l'image ; lorsqu'un historique de la maladie n'est pas fourni, GPT-4V est plus susceptible de traiter l'image comme un point clé. Les cas normaux sont analysés.
GPT-4V ne peut pas localiser les structures anatomiques et les anomalies dans les images médicales
Les auteurs pensent que le mauvais effet de positionnement du GPT-4V se manifeste principalement par : Premièrement, le GPT-4V obtient toujours des images loin de la limite réelle pendant le processus de positionnement. boîte de prédiction ; deuxièmement, il montre un caractère aléatoire significatif dans plusieurs séries de prédictions répétées pour la même image ; troisièmement, GPT-4V montre un biais évident, par exemple : dans les images IRM cérébrales, le cervelet doit être situé en bas.
GPT-4V peut modifier ses réponses existantes en fonction de plusieurs séries d'interactions utilisateur.
GPT-4V peut modifier sa réponse pour qu'elle soit correcte au cours d'une série d'interactions.Par exemple, dans l’exemple présenté dans l’article, les auteurs ont saisi des images IRM de l’endométriose. GPT-4V a initialement classé à tort une IRM pelvienne comme une IRM du genou, ce qui a entraîné un résultat incorrect. Mais l’utilisateur l’a corrigé grâce à plusieurs cycles d’interaction avec GPT-4V et a finalement établi un diagnostic précis.
GPT-4V a un sérieux problème d'hallucinations, notamment la tendance à décrire les patients comme normaux même si les signaux anormaux sont extrêmement évidents.
GPT-4V génère toujours des rapports qui semblent très complets et détaillés dans leur structure, mais le contenu est souvent incorrect, il considérera toujours le patient comme normal même si les zones anormales de l'image sont évidentes.
GPT-4V n'est pas assez stable pour répondre à des questions médicales
GPT-4V présente une énorme différence de performances entre les images courantes et les images rares, et montre également des différences de performances évidentes dans différents systèmes corporels. De plus, l'analyse de la même image médicale peut produire des résultats incohérents en raison de l'évolution des invites. Par exemple, GPT-4V juge initialement une image donnée comme anormale sous l'invite « Quel est le diagnostic pour ce scanner cérébral ? » rapport considérant la même image comme normale. Cette incohérence met en évidence que les performances du GPT-4V dans le diagnostic clinique peuvent être instables et peu fiables.
GPT-4V a des restrictions de sécurité strictes dans le domaine médical
Les auteurs ont découvert que GPT-4V a établi des mesures de protection de sécurité pour éviter toute utilisation abusive lors des questions-réponses dans le domaine médical afin de garantir que les utilisateurs peuvent l'utiliser en toute sécurité. Par exemple, lorsqu'il est demandé à GPT-4V d'établir un diagnostic « Veuillez fournir le diagnostic de cette radiographie pulmonaire. », il peut refuser de donner une réponse ou souligner « Je ne remplace pas l'avis d'un médecin professionnel ». Dans la plupart des cas, GPT-4V préférera utiliser des expressions contenant « semble être » ou « pourrait être » pour exprimer une incertitude.
Section de cas pathologiques
De plus, afin d'explorer les capacités du GPT-4V dans la génération de rapports et le diagnostic médical d'images pathologiques, les auteurs ont effectué des tests au niveau des blocs d'images sur 20 images pathologiques de tumeurs malignes provenant de différents tissus et ont conclu comme suit Conclusion :
GPT-4V est capable d'une reconnaissance précise des modalités
Dans tous les cas de test, GPT-4V peut identifier correctement la modalité de toutes les images pathologiques (images histopathologiques colorées H&E).
GPT-4V est capable de générer des rapports structurés
À partir d'une image pathologique sans aucune indication médicale, GPT-4V peut générer un rapport structuré et détaillé décrivant les caractéristiques de l'image. Dans 7 des 20 cas, ils ont pu énumérer clairement leurs observations, voire correctement, en utilisant des termes tels que « structure tissulaire », « caractéristiques cellulaires », « stroma », « structure glandulaire », « noyau », etc.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Php8, je viens aussi

Apprenez la mise en page d'un site Web en 30 minutes

Tutoriel vidéo Shangguan Oracle débutant à compétent

Votre première ligne de code UNI-APP

Flutter de zéro au lancement de l'application

Brother Lian Nouveau didacticiel vidéo Linux

Tutoriel vidéo AXURE 9 (convient à l'interface utilisateur interactive de conception de produits du chef de produit)

Tutoriel vidéo PS Zero Basic Proficiency

Tutoriel vidéo de 16 jours sur l'interface utilisateur pour vous aider à démarrer

Tutoriel vidéo sur les techniques PS et les techniques de découpage

Tutoriel vidéo sur la construction et le lancement de projets d'Alibaba Cloud Environment

Présentation des réseaux informatiques - Connaissances de base que les programmeurs doivent maîtriser

Tutoriel essentiel pour les programmeurs - Explication du protocole HTTP

Tutoriel vidéo Websocket

178 pages, 128 cas, évaluation complète du GPT-4V dans le domaine médical, encore loin de l'application clinique et de la prise de décision pratique