Combinant des caractéristiques quantiques et 20 000 simulations de dynamique moléculaire, un nouvel ensemble de données ML complexe protéine-ligand a été publié dans la sous-journal Nature-IA-php.cn

Combinant des caractéristiques quantiques et 20 000 simulations de dynamique moléculaire, un nouvel ensemble de données ML complexe protéine-ligand a été publié dans la sous-journal Nature

WBOY

Libérer： 2024-06-01 18:20:09

original

446 Les gens l'ont consulté

Combinant des caractéristiques quantiques et 20 000 simulations de dynamique moléculaire, un nouvel ensemble de données ML complexe protéine-ligand a été publié dans la sous-journal Nature

Éditeur | Dry Leaf Butterfly

Les modèles linguistiques à grande échelle ont considérablement amélioré la capacité des scientifiques à comprendre la biologie et la chimie, mais les méthodes fiables pour la découverte de médicaments basés sur la structure, la chimie quantique et la biologie structurale restent rares. Des ensembles de données précis sur l’interaction biomolécule-ligand sont nécessaires de toute urgence pour les grands modèles de langage.

Afin de résoudre ce problème, des chercheurs de l'Institut de biologie du Centre de recherche Helmholtz de Munich et de l'Université technique de Munich ont proposé MISATO. Il s'agit d'un ensemble de données qui combine les propriétés de mécanique quantique (QM) de petites molécules avec des simulations de dynamique moléculaire (MD) associées d'environ 20 000 complexes expérimentaux protéine-ligand et une validation approfondie des données expérimentales.

À partir de structures expérimentales existantes, les chercheurs ont systématiquement amélioré ces structures en utilisant la mécanique quantique semi-empirique. Il s'agit notamment de simulations de dynamique moléculaire d'un grand nombre de complexes protéine-ligand dans l'eau pure, avec des temps d'accumulation dépassant 170 microsecondes.

L'équipe fournit un exemple de modèle de base d'apprentissage automatique (ML) démontrant une précision améliorée grâce à l'utilisation de cet ensemble de données. Fournit aux experts en apprentissage automatique un point d’entrée simple pour mettre en œuvre des modèles d’intelligence artificielle de nouvelle génération pour la découverte de médicaments.

L'étude s'intitulait « MISATO : ensemble de données d'apprentissage automatique de complexes protéine-ligand pour la découverte de médicaments basée sur la structure » et a été publiée dans « Nature Computational Science » le 10 mai 2024.

Combinant des caractéristiques quantiques et 20 000 simulations de dynamique moléculaire, un nouvel ensemble de données ML complexe protéine-ligand a été publié dans la sous-journal Nature

Ces dernières années, la technologie de prédiction de l'IA a déclenché une révolution dans le domaine scientifique. Par exemple, AlphaFold peut prédire avec précision la structure des protéines. Bien que la découverte de médicaments guidée par la structure reste un énorme défi, l’application de l’IA dans ce domaine est encore superficielle. Les méthodes actuelles sont confrontées à des défis tels que la précision, le coût de calcul et la dépendance expérimentale, et se concentrent principalement sur des solutions simples et un traitement de données unidimensionnel. La complexité des complexes tridimensionnels protéine-ligand a été négligée.

Bien qu'il existe une variété de bases de données, aucun modèle d'IA ne s'est avéré capable de faire progresser la découverte de médicaments en raison des limitations du volume de données et du manque d'informations thermodynamiques. Contrairement aux réalisations d'AlphaFold dans le domaine de la prédiction de la structure des protéines, le modèle d'IA est également limité en ignorant des problèmes tels que la dynamique et la complexité chimique, qui affectent son potentiel dans l'analyse des biomolécules et la chimie quantique.

Ici, des chercheurs de l'Institut de biologie structurale du Centre de recherche Helmholtz de Munich et de l'Université technique de Munich ont proposé une base de données de structures protéine-ligand basée sur des structures protéine-ligand expérimentales, MISATO (Molecular Interactions Are Structurally Optimized).

Les chercheurs ont montré que la base de données peut aider à mieux former des modèles dans des domaines liés à la découverte de médicaments et au-delà. Cela comprend la chimie quantique, la biologie structurale générale et la bioinformatique.

Combinant des caractéristiques quantiques et 20 000 simulations de dynamique moléculaire, un nouvel ensemble de données ML complexe protéine-ligand a été publié dans la sous-journal Nature

Illustration : MISATO combine les données QM avec la dynamique des ligands protéiques dérivés du MD. (Source : article)

L'équipe assure la gestion et le raffinement des structures basées sur la chimie quantique, y compris la régularisation des géométries des ligands. Les chercheurs ont enrichi cette base de données avec des informations dynamiques et chimiques manquantes, notamment des MD sur des échelles de temps, permettant la détection d'états transitoires et mystérieux de certains systèmes. Ce dernier point est très important pour une conception réussie de médicaments.

Combinant des caractéristiques quantiques et 20 000 simulations de dynamique moléculaire, un nouvel ensemble de données ML complexe protéine-ligand a été publié dans la sous-journal Nature

Illustration : Base de données PDBbind optimisée selon les protocoles de chimie quantique. (Source : article)

Par conséquent, les chercheurs ont complété les données expérimentales avec le nombre maximum de paramètres physiques. Cela soulage le modèle d'IA du fardeau de l'apprentissage implicite de toutes ces informations, lui permettant de se concentrer sur la tâche d'apprentissage principale. La base de données MISATO fournit un format convivial qui peut être importé directement dans le code d'apprentissage automatique.

Combinant des caractéristiques quantiques et 20 000 simulations de dynamique moléculaire, un nouvel ensemble de données ML complexe protéine-ligand a été publié dans la sous-journal Nature

Illustration : Validation expérimentale des modèles QM, MD et IA. (Source : Paper)

L'équipe fournit également divers scripts de prétraitement pour filtrer et visualiser l'ensemble de données. En outre, des exemples de modèles de base d'IA sont fournis pour calculer les propriétés chimiques quantiques (dureté chimique et affinité électronique), les calculs d'affinité de liaison et prédire la flexibilité des protéines ou les caractéristiques d'ajustement induit, permettant ainsi de simplifier les données. De plus, les modèles QM, MD et AI ont été largement validés sur des données expérimentales.

Les chercheurs espèrent transformer MISATO en un projet communautaire bénéfique qui bénéficiera à l'ensemble du domaine de la découverte de médicaments.

Lien papier :https://www.nature.com/articles/s43588-024-00627-2

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!