GPT-4 et LLM : léquipe Microsoft explore limpact des découvertes scientifiques, un article de 230 pages couvrant 5 domaines scientifiques majeurs

Lors de la réécriture du contenu, le texte original doit être réécrit en chinois et la phrase originale en anglais n'a pas besoin d'apparaître

Il n'y a pas si longtemps, l'équipe Microsoft DeepSpeed a lancé un nouveau programme appelé DeepSpeed4Science, visant à optimiser la technologie grâce aux systèmes d’IA Permettre la découverte scientifique.

Le 13 novembre, l'équipe Microsoft a publié un article intitulé "L'impact des grands modèles de langage sur la découverte scientifique : une étude préliminaire utilisant GPT-4" sur la plateforme de prépublication arXiv

La longueur de cet article a atteint 230 pages

GPT-4 et LLM : léquipe Microsoft explore limpact des découvertes scientifiques, un article de 230 pages couvrant 5 domaines scientifiques majeurs

Lien papier : https://arxiv.org/abs/2311.07361

Ces dernières années, des progrès révolutionnaires dans le domaine du traitement du langage naturel ont abouti à l'émergence de puissants grands modèles de langage (LLM). Ces modèles ont démontré des capacités extraordinaires capacités dans de nombreux domaines, y compris la compréhension, la génération et la traduction du langage naturel, s'étendant même à des tâches au-delà du traitement du langage.

Dans ce rapport, les chercheurs de Microsoft examinent en profondeur les performances du LLM dans le contexte de la découverte/recherche scientifique, en se concentrant sur le modèle de langage de pointe GPT-4. La recherche couvre plusieurs domaines scientifiques, notamment la découverte de médicaments, la biologie, la chimie computationnelle (DFT et MD), la conception de matériaux et les équations aux dérivées partielles (PDE).

Pour la mission scientifique d'évaluation de GPT-4, il est important d'exploiter son potentiel dans divers domaines de recherche, de valider l'expertise dans des domaines spécifiques, d'accélérer les progrès scientifiques, d'optimiser l'allocation des ressources, d'orienter le développement futur de modèles et de promouvoir la recherche interdisciplinaire. Les méthodes d'exploration comprennent principalement une évaluation de cas menée par des experts, qui peut fournir des informations qualitatives pour aider le modèle à comprendre des concepts et des relations scientifiques complexes, ainsi qu'une analyse comparative occasionnelle pour évaluer quantitativement la capacité du modèle à résoudre des problèmes spécifiques à un domaine bien défini

. L'exploration préliminaire montre que GPT-4 a un grand potentiel dans diverses applications scientifiques, démontrant sa capacité à gérer des tâches complexes de résolution de problèmes et d'intégration des connaissances. Les chercheurs ont analysé les performances du GPT-4 dans les domaines mentionnés ci-dessus (tels que la découverte de médicaments, la biologie, la chimie computationnelle, la conception de matériaux, etc.), soulignant ses avantages et ses limites. La base de connaissances de GPT-4, sa capacité de compréhension scientifique, sa capacité de calcul numérique scientifique et diverses capacités de prédiction scientifique sont évaluées de manière exhaustive. GPT-4 possède des connaissances approfondies dans le domaine de la biologie et de la conception de matériaux pour aider à répondre à des exigences spécifiques. Dans d’autres domaines tels que la découverte de médicaments, GPT-4 a démontré de solides capacités de prédiction des propriétés. Cependant, dans des domaines de recherche tels que la chimie computationnelle et les équations aux dérivées partielles, même si GPT-4 devrait aider les chercheurs à faire des prédictions et des calculs, des efforts supplémentaires sont nécessaires pour améliorer sa précision. Malgré ses capacités impressionnantes, GPT-4 offre toujours des améliorations pour les tâches de calcul quantitatif telles que la nécessité d'un réglage fin pour améliorer la précision

Les chercheurs espèrent que ce rapport sera utile aux chercheurs qui cherchent à tirer parti du LLM pour la recherche et les applications scientifiques et aux praticiens, ainsi que ceux intéressés à faire progresser un domaine spécifique du traitement du langage naturel. Il est important de souligner que le domaine du LLM et de l’apprentissage automatique à grande échelle évolue rapidement et que les futures générations de LLM pourraient disposer de capacités supplémentaires non mentionnées dans ce rapport. Notamment, l'intégration du LLM avec des outils et des modèles scientifiques professionnels et le développement de modèles scientifiques fondamentaux représentent deux directions de recherche prometteuses.

Découverte de médicaments

La découverte de médicaments est une partie importante de l'industrie pharmaceutique dans l'avancement de la science médicale et joue un rôle essentiel. La découverte de médicaments implique un processus multidisciplinaire complexe, comprenant l'identification de cibles, l'optimisation des pistes et les tests précliniques, conduisant finalement au développement de médicaments sûrs et efficaces.

GPT-4 a un grand potentiel dans la découverte de médicaments, comme accélérer le processus de découverte, réduire les coûts de recherche et de conception, améliorer la créativité, etc. Ce chapitre étudie d'abord les connaissances de GPT-4 en matière de découverte de médicaments grâce à des tests qualitatifs, puis étudie ses capacités prédictives grâce à des tests quantitatifs sur plusieurs tâches clés, notamment la prédiction de l'interaction médicament-cible/de l'affinité de liaison, la prédiction des propriétés moléculaires et la prédiction rétrosynthétique

Contenu réécrit : Le premier exemple consiste à générer la formule chimique, le nom IUPAC et les SMILES d'un nom de médicament donné, qui est la conversion du nom en d'autres représentations du médicament. L'afatinib a été utilisé comme médicament d'entrée. GPT-4 a généré avec succès la formule chimique correcte C24H25ClFN5O3 et le nom IUPAC correct, indiquant que GPT-4 connaît le médicament Afatinib. Cependant, les SMILES générés sont incorrects. Par conséquent, les chercheurs ont donné des conseils pour laisser GPT-4 régénérer les SMILES. Malheureusement, malgré l'exigence explicite que GPT-4 « fasse attention au nombre d'atomes de chaque type d'atome » et génère des SMILES basés sur des formules IUPAC et chimiques correctes, les séquences SMILES générées dans plusieurs expériences étaient toujours incorrectes

GPT-4 et LLM : léquipe Microsoft explore limpact des découvertes scientifiques, un article de 230 pages couvrant 5 domaines scientifiques majeurs

La première image montre la traduction des noms de médicaments et d'autres représentations de médicaments. (Cité de l'article)

Biologie

Dans ce chapitre, les chercheurs approfondissent les capacités du GPT-4 dans le domaine de la recherche biologique, en se concentrant sur sa capacité à comprendre le langage biologique, à raisonner à l'aide des connaissances biologiques intégrées et à concevoir biologique Expériences moléculaires et biologiques. Les observations indiquent que GPT-4 présente un grand potentiel pour contribuer au domaine de la biologie en démontrant sa capacité à traiter des langages biologiques complexes, à effectuer des tâches bioinformatiques et même à servir d'assistant scientifique dans la conception biologique. La vaste compréhension des concepts biologiques par GPT-4 et son grand potentiel en tant qu'assistant scientifique dans les tâches de conception mettent en évidence son rôle important dans l'avancement du domaine de la biologie.

Première évaluation de la capacité de GPT-4 à traiter les symboles de séquence biologique et les symboles textuels.

Les chercheurs ont demandé à GPT-4 de convertir entre les séquences biologiques et leur notation textuelle : 1) Afficher le nom de la protéine pour une séquence protéique donnée. 2) Affichez la séquence protéique avec le nom donné. Avant chaque tâche, la session est redémarrée pour éviter les fuites d'informations. Il s'avère que GPT-4 connaît la conversion de symboles séquence en texte, mais il ne peut pas rechercher directement lui-même (également appelées séquences BLAST). Pendant ce temps, GPT-4 préfère les balises textuelles pour les séquences biologiques (y compris les protéines et l'ADN, ce dernier non représenté). Lorsque des symboles textuels sont donnés, ils fournissent des informations plus riches, probablement en raison de leur philosophie de conception. Il est important de noter qu’il a également été noté que la génération de séquences pourrait conduire à un comportement catastrophique du GPT-4. Comme le montre l'image ci-dessous, bien que GPT-4 ait renvoyé l'ID UniProt correct, il a rencontré des difficultés pour générer la séquence. La génération de séquence plante avec plusieurs invites différentes essayées.

GPT-4 et LLM : léquipe Microsoft explore limpact des découvertes scientifiques, un article de 230 pages couvrant 5 domaines scientifiques majeurs

Figure 2 : Conversion entre symboles de séquence et symboles de texte. (Source : Thèse)

Chimie computationnelle

Le calcul chimique est un domaine interdisciplinaire qui utilise des méthodes et des techniques informatiques pour résoudre des problèmes complexes en chimie. Les calculs chimiques sont depuis longtemps un outil indispensable dans l’étude des systèmes moléculaires, fournissant non seulement une compréhension approfondie des interactions au niveau atomique, mais guidant également les travaux expérimentaux. Les calculs chimiques jouent un rôle essentiel dans la compréhension des structures moléculaires, des réactions chimiques et des phénomènes physiques aux niveaux micro et macro. Ce chapitre se concentrera sur la fonction de GPT-4 dans le domaine de la chimie computationnelle. Nous explorerons son application dans les méthodes de structure électronique et les simulations de dynamique moléculaire, et démontrerons les capacités de service de GPT-4 sous différentes perspectives en montrant deux exemples pratiques. En résumé, GPT-4 peut aider les chercheurs en chimie computationnelle de diverses manières

L’étude a commencé par évaluer la capacité de GPT-4 à expliquer les concepts de chimie et de physique quantiques. L'évaluation couvre les méthodes couramment utilisées dans le domaine, telles que la théorie fonctionnelle de la densité (DFT) et la théorie de la fonction d'onde (WFT).

GPT-4 et LLM : léquipe Microsoft explore limpact des découvertes scientifiques, un article de 230 pages couvrant 5 domaines scientifiques majeurs Figure 3 : Test conceptuel de la théorie fonctionnelle de la densité. (Source : article)

Dans l'exemple ci-dessus, GPT-4 fournit une bonne compréhension des concepts de théorie fonctionnelle de densité, de théorie fonctionnelle de densité de KohnSham et de théorie fonctionnelle de densité sans orbite.

Conception de matériaux

Dans ce chapitre, les capacités de GPT-4 dans le domaine de la conception de matériaux sont étudiées. Les chercheurs ont conçu un ensemble complet de tâches couvrant tous les aspects du processus de conception des matériaux, de la conceptualisation initiale à la validation et à la synthèse ultérieures. L'objectif est d'évaluer l'expertise de GPT-4 et sa capacité à générer des informations et des solutions significatives dans des applications réelles. Les tâches conçues couvrent divers aspects, notamment les connaissances de base, les principes de conception, l'identification des candidats, la génération de structures candidates, la prédiction des attributs et la prédiction des conditions synthétiques. En abordant l'ensemble du processus de conception, l'objectif est de fournir une évaluation globale des compétences de GPT-4 en matière de conception de matériaux, en particulier pour les matériaux plus complexes tels que les matériaux inorganiques cristallins, les polymères organiques et les structures métallo-organiques (MOF).

Il convient de noter que l'évaluation s'est principalement concentrée sur une évaluation qualitative des capacités de GPT-4 dans ce domaine spécialisé, les scores statistiques étant attribués uniquement lorsque cela est possible.

Les chercheurs ont d'abord étudié la façon dont les électrolytes solides actuels sont classés, qui ont des exigences différentes, telles que la classification basée sur la chimie générale et le type d'anion. De plus, ils ont demandé des exemples basés sur ces critères de classification. Comme le montre la figure 4, toutes les réponses sont factuelles et la plupart sont correctes. Étant donné que ces critères de classification ne sont pas bien représentés dans la littérature, GPT-4 devrait avoir une compréhension relativement claire de ce que signifie la chimie

GPT-4 et LLM : léquipe Microsoft explore limpact des découvertes scientifiques, un article de 230 pages couvrant 5 domaines scientifiques majeurs

Selon l'article source, ce qui doit être réécrit est : Figure 4 : Classification inorganique des solides Électrolytes

Équations aux dérivées partielles

Les équations aux dérivées partielles (EDP) constituent un domaine de recherche important et très actif en mathématiques, avec des applications de grande envergure dans diverses disciplines telles que la physique, l'ingénierie, la biologie et la finance. Les équations aux dérivées partielles jouent un rôle crucial dans la modélisation et la compréhension d'un large éventail de phénomènes, de la dynamique des fluides et du transfert de chaleur aux champs électromagnétiques et à la dynamique de groupe.

Dans ce chapitre, les compétences de GPT-4 dans plusieurs aspects des équations aux dérivées partielles sont étudiées : comprendre les bases des équations aux dérivées partielles, résoudre des équations aux dérivées partielles et aider l'IA dans la recherche d'équations aux dérivées partielles. Les chercheurs évaluent des modèles sur différentes formes d’EDP, telles que les équations linéaires, les équations non linéaires et les EDP stochastiques. La recherche montre que GPT-4 peut aider les chercheurs de diverses manières.

La première question concerne la définition et la forme des équations aux dérivées partielles. GPT-4 fournit une bonne explication des équations aux dérivées partielles, comme le montre la figure 5. Aux invites de l'utilisateur, GPT-4 donne un concept clair d'équations aux dérivées partielles et de catégories linéaires ou non linéaires, elliptiques, paraboliques ou hyperboliques. Les nouveaux arrivants dans le domaine bénéficieront de ces concepts et classifications.

GPT-4 et LLM : léquipe Microsoft explore limpact des découvertes scientifiques, un article de 230 pages couvrant 5 domaines scientifiques majeurs

Figure 5 : Introduction aux concepts de base du PDE. (Source : article)

Future Outlook

Dans cette étude, nous explorons les capacités et les limites du LLM dans divers domaines des sciences naturelles et couvrons une variété de tâches. Notre objectif principal est de fournir une évaluation préliminaire du LLM GPT-4 de pointe et de son potentiel de découverte scientifique, et de fournir des ressources et des outils précieux aux chercheurs dans divers domaines.

Grâce à une analyse approfondie, l'étude met en évidence le potentiel de GPT-4 dans la maîtrise de nombreuses tâches scientifiques, de la synthèse de la littérature à la prédiction de propriétés et à la génération de codes. Malgré ses capacités impressionnantes, il est important de reconnaître les limites de GPT-4 (et des LLM similaires), telles que les difficultés liées à la gestion de formats de données spécifiques, les incohérences dans les réponses et les hallucinations occasionnelles.

Les chercheurs estiment que cette exploration constitue une première étape essentielle dans la compréhension et la reconnaissance du potentiel du GPT-4 dans les sciences naturelles. En fournissant un aperçu détaillé de ses avantages et inconvénients, il vise à aider les chercheurs à prendre des décisions éclairées lors de l'intégration de GPT-4 (ou d'autres LLM) dans leur travail quotidien, garantissant une application optimale tout en étant conscient de ses limites.

De plus, l'exploration et le développement ultérieurs de GPT-4 et d'autres LLM sont encouragés, dans le but d'améliorer leurs capacités de découverte scientifique. Cela peut impliquer d’affiner les processus de formation, de fusionner des données et une architecture spécifiques à un domaine et d’intégrer une expertise adaptée à différentes disciplines scientifiques.

À mesure que le domaine de l'intelligence artificielle continue de se développer, l'intégration de modèles complexes comme GPT-4 jouera un rôle de plus en plus important dans l'accélération de la recherche scientifique et de l'innovation

Enfin, l'étude résume ce que LLM doit améliorer dans les aspects de la recherche scientifique, et discuter des orientations potentielles pour renforcer le LLM ou promouvoir les percées scientifiques sur cette base.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!