Formation avec des millions de données cristallines pour résoudre le problème de la phase cristallographique, la méthode d'apprentissage profond PhAI est publiée dans Science-IA-php.cn

Maison

Formation avec des millions de données cristallines pour résoudre le problème de la phase cristallographique, la méthode d'apprentissage profond PhAI est publiée dans Science

王林

Aug 08, 2024 pm 09:22 PM

théorie

Formation avec des millions de données cristallines pour résoudre le problème de la phase cristallographique, la méthode dapprentissage profond PhAI est publiée dans Science

Éditeur | KX

À ce jour, les détails structurels et la précision déterminés par cristallographie, des métaux simples aux grandes protéines membranaires, sont inégalés par aucune autre méthode. Cependant, le plus grand défi, appelé problème de phase, reste la récupération des informations de phase à partir d'amplitudes déterminées expérimentalement.

Des chercheurs de l'Université de Copenhague, au Danemark, ont développé une méthode d'apprentissage en profondeur appelée PhAI pour résoudre les problèmes de phase cristalline. Un réseau neuronal d'apprentissage en profondeur formé à l'aide de millions de structures cristallines artificielles et de leurs données de diffraction synthétique correspondantes peut générer des cartes de densité électronique précises. .

La recherche montre que cette méthode de solution de structure ab initio basée sur l'apprentissage profond peut résoudre le problème de phase avec une résolution de seulement 2 angströms, ce qui équivaut à seulement 10 à 20 % des données disponibles à une résolution atomique, alors que l'ab initio traditionnel les méthodes nécessitent généralement une résolution atomique.

La recherche pertinente s'intitulait « PhAI : Une approche d'apprentissage en profondeur pour résoudre le problème de la phase cristallographique » et a été publiée dans « Science » le 1er août.

Formation avec des millions de données cristallines pour résoudre le problème de la phase cristallographique, la méthode dapprentissage profond PhAI est publiée dans Science

Lien papier : https://www.science.org/doi/10.1126/science.adn2777

La cristallographie est l'une des principales techniques analytiques des sciences naturelles. La cristallographie aux rayons X offre une vue unique sur la structure tridimensionnelle des cristaux.

Afin de reconstruire la carte de densité électronique, il faut connaître suffisamment de facteurs de structure complexes $F$ des réflexions de diffraction. Dans une expérience traditionnelle, seule l'amplitude $|F|$ est obtenue, tandis que la phase $phi$ est perdue. Il s'agit d'un problème de phase cristallographique.

Formation avec des millions de données cristallines pour résoudre le problème de la phase cristallographique, la méthode dapprentissage profond PhAI est publiée dans Science

Illustration : Organigramme standard de détermination de la structure cristalline. (Source : article)

Une avancée majeure a eu lieu dans les années 1950 et 1960, lorsque Karle et Hauptmann** ont développé des méthodes dites directes pour résoudre les problèmes de phase. Mais la méthode directe nécessite des données de diffraction à résolution atomique. Cependant, l’exigence de résolution atomique est une observation empirique.

Ces dernières années, les méthodes directes traditionnelles ont été complétées par des méthodes à double espace. Les méthodes ab initio actuellement disponibles semblent avoir atteint leurs limites. Une solution générale au problème de phase reste inconnue.

Mathématiquement parlant, toute combinaison d'amplitude et de phase du facteur de structure peut être soumise à une transformée de Fourier inverse. Cependant, les exigences physiques et chimiques (comme avoir une distribution de densité électronique de type atomique) imposent des règles sur les combinaisons possibles de phases cohérentes avec un ensemble d'amplitudes. Les progrès de l’apprentissage profond permettent d’explorer cette relation, peut-être de manière plus approfondie que les méthodes ab initio actuelles.

Ici, des chercheurs de l'Université de Copenhague ont adopté une approche basée sur les données, utilisant des millions de structures cristallines artificielles et leurs données de diffraction correspondantes, dans le but de résoudre les problèmes de phase en cristallographie.

Une étude montre que cette méthode de solution de structure ab initio basée sur l'apprentissage profond peut être réalisée avec une résolution de seulement la distance minimale du plan de réseau (dmin) = 2,0 Å en utilisant uniquement les données requises par la méthode directe de 10 % à 20 % .

Conception et formation du réseau neuronal

Le réseau neuronal artificiel construit est appelé PhAI, qui accepte l'amplitude du facteur de structure |F| et génère la valeur de phase correspondante ϕ. L'architecture de PhAI est présentée dans la figure ci-dessous.

Formation avec des millions de données cristallines pour résoudre le problème de la phase cristallographique, la méthode dapprentissage profond PhAI est publiée dans Science

Illustration : La méthode du réseau neuronal PhAI résout le problème de phase. (Source : article) Le nombre de facteurs de structure dans une structure cristalline dépend de la taille de la cellule unitaire. En fonction des ressources informatiques, des limites sont imposées à la taille des données d'entrée. Les amplitudes des facteurs de structure d'entrée sont choisies en fonction des indices de Miller (h, k, l) obéissant à la réflexion

Formation avec des millions de données cristallines pour résoudre le problème de la phase cristallographique, la méthode dapprentissage profond PhAI est publiée dans Science

1.
C'est-à-dire des structures limitées à des dimensions de cellule unitaire d'environ 10 Å à une résolution atomique. De plus, le groupe spatial centrosymétrique le plus courant, P21/c, a été choisi. La symétrie centrale limite les valeurs de phase possibles à zéro ou π rad.

Recherche sur la formation de réseaux de neurones utilisant des structures cristallines artificielles contenant principalement des molécules organiques. Environ 49 000 000 de structures ont été créées, dont 94,29 % étaient des structures cristallines organiques, 5,66 % étaient des structures cristallines organométalliques et 0,05 % étaient des structures cristallines inorganiques.
L'entrée du réseau neuronal se compose d'amplitude et de phase, qui sont traitées par un bloc d'entrée convolutif, ajoutées et introduites dans une série de blocs convolutifs (Conv3D), suivis d'une série de blocs de perceptron multicouche (MLP). La phase prédite du classificateur linéaire (classificateur de phase) parcourt le réseau Nc fois. Les données de formation ont été générées en insérant des atomes métalliques et des molécules organiques de la base de données GDB-13 dans des cellules unitaires. Les structures résultantes sont organisées en données d'entraînement à partir desquelles les véritables amplitudes de phase et de facteur de structure aux facteurs de température, à la résolution et à l'intégrité échantillonnés peuvent être calculées.
Résolvez de vrais problèmes structurels
Les réseaux de neurones entraînés fonctionnent sur des ordinateurs standard avec des exigences de calcul modérées. Il accepte en entrée une liste d’indices hkl et les amplitudes des facteurs de structure correspondants. Aucune autre information d'entrée n'est requise, pas même les paramètres de cellule unitaire de la structure. Ceci est fondamentalement différent de toutes les autres méthodes ab initio modernes. Le réseau peut prédire et générer des valeurs de phase à la volée.
Les chercheurs ont testé les performances du réseau neuronal en utilisant des données de diffraction calculées à partir de structures cristallines réelles. Au total, 2 387 cas de test ont été obtenus. Pour toutes les structures collectées, plusieurs valeurs de résolution de données allant de 1,0 à 2,0 Å ont été prises en compte. À titre de comparaison, une méthode d’inversion de charge a également été utilisée pour récupérer les informations de phase.
Illustration : Histogramme du coefficient de corrélation r entre la phase et la véritable carte de densité électronique.
(Source : article)

Le réseau neuronal entraîné fonctionne bien ; Il peut résoudre toutes les structures testées (N = 2387) si les données de diffraction correspondantes sont de bonne résolution, et est plus efficace pour résoudre des structures à partir de données basse résolution. Performance excellente. Bien qu’un réseau neuronal soit rarement formé sur des structures inorganiques, il peut parfaitement résoudre de telles structures.

La méthode d'inversion de charge fonctionne bien lors du traitement de données haute résolution, mais sa capacité à produire des solutions raisonnablement correctes diminue progressivement à mesure que la résolution des données diminue. Cependant, elle résout toujours environ 32 pixels à une résolution de 1,6Å % de structure ; Le nombre de structures identifiées par inversion de charge peut être amélioré par des expérimentations supplémentaires et par la modification des paramètres d'entrée tels que les seuils d'inversion.

Dans l'approche PhAI, cette méta-optimisation est réalisée lors de l'entraînement et n'a pas besoin d'être réalisée par l'utilisateur. Ces résultats suggèrent que la notion courante en cristallographie selon laquelle les données de résolution atomique sont nécessaires pour calculer les phases ab initio pourrait être brisée. La PhAI ne nécessite que 10 à 20 % de données de résolution atomique.

Ce résultat montre clairement que la résolution atomique n'est pas nécessaire pour les méthodes ab initio et ouvre de nouvelles voies pour la détermination de structure basée sur l'apprentissage profond.

Le défi de cette approche d'apprentissage en profondeur est de faire évoluer le réseau neuronal, c'est-à-dire que les données de diffraction pour des cellules unitaires plus grandes nécessiteront une grande quantité de données d'entrée et de sortie ainsi que des coûts de calcul pendant la formation. À l’avenir, des recherches supplémentaires seront nécessaires pour étendre cette méthode au cas général.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undress AI Tool

Images de déshabillage gratuites

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Comment signaler un compte d'identité sur Instagram

3 Il y a quelques semaines By 下次还敢

Meilleures alternatives 123movies en 2025 (options de streaming gratuites et légales)

1 Il y a quelques mois By DDD

Comment changer la personnalité de Chatgpt dans les paramètres (cynique, robot, auditeur, nerd)

2 Il y a quelques semaines By DDD

Comment combattre Eris dans les abîmes néon

3 Il y a quelques semaines By Jack chen

Wuchang: Fallen Feathers - Empereur de dragon Zhu Youjian Boss Fight Guide

3 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel PHP

1596

276

Afficher plus

Related knowledge

Repoussant les limites de la détection de défauts traditionnelle, « Defect Spectrum » permet pour la première fois une détection de défauts industriels d'une ultra haute précision et d'une sémantique riche. Jul 26, 2024 pm 05:38 PM

Dans la fabrication moderne, une détection précise des défauts est non seulement la clé pour garantir la qualité des produits, mais également la clé de l’amélioration de l’efficacité de la production. Cependant, les ensembles de données de détection de défauts existants manquent souvent de précision et de richesse sémantique requises pour les applications pratiques, ce qui rend les modèles incapables d'identifier des catégories ou des emplacements de défauts spécifiques. Afin de résoudre ce problème, une équipe de recherche de premier plan composée de l'Université des sciences et technologies de Hong Kong, Guangzhou et de Simou Technology a développé de manière innovante l'ensemble de données « DefectSpectrum », qui fournit une annotation à grande échelle détaillée et sémantiquement riche des défauts industriels. Comme le montre le tableau 1, par rapport à d'autres ensembles de données industrielles, l'ensemble de données « DefectSpectrum » fournit le plus grand nombre d'annotations de défauts (5 438 échantillons de défauts) et la classification de défauts la plus détaillée (125 catégories de défauts).

Le modèle de dialogue NVIDIA ChatQA a évolué vers la version 2.0, avec la longueur du contexte mentionnée à 128 Ko Jul 26, 2024 am 08:40 AM

La communauté ouverte LLM est une époque où une centaine de fleurs fleurissent et s'affrontent. Vous pouvez voir Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 et bien d'autres. excellents interprètes. Cependant, par rapport aux grands modèles propriétaires représentés par le GPT-4-Turbo, les modèles ouverts présentent encore des lacunes importantes dans de nombreux domaines. En plus des modèles généraux, certains modèles ouverts spécialisés dans des domaines clés ont été développés, tels que DeepSeek-Coder-V2 pour la programmation et les mathématiques, et InternVL pour les tâches de langage visuel.

Formation avec des millions de données cristallines pour résoudre le problème de la phase cristallographique, la méthode d'apprentissage profond PhAI est publiée dans Science Aug 08, 2024 pm 09:22 PM

Editeur | KX À ce jour, les détails structurels et la précision déterminés par cristallographie, des métaux simples aux grandes protéines membranaires, sont inégalés par aucune autre méthode. Cependant, le plus grand défi, appelé problème de phase, reste la récupération des informations de phase à partir d'amplitudes déterminées expérimentalement. Des chercheurs de l'Université de Copenhague au Danemark ont développé une méthode d'apprentissage en profondeur appelée PhAI pour résoudre les problèmes de phase cristalline. Un réseau neuronal d'apprentissage en profondeur formé à l'aide de millions de structures cristallines artificielles et de leurs données de diffraction synthétique correspondantes peut générer des cartes précises de densité électronique. L'étude montre que cette méthode de solution structurelle ab initio basée sur l'apprentissage profond peut résoudre le problème de phase avec une résolution de seulement 2 Angströms, ce qui équivaut à seulement 10 à 20 % des données disponibles à la résolution atomique, alors que le calcul ab initio traditionnel

Afin de fournir un nouveau système de référence et d'évaluation de questions-réponses scientifiques et complexes pour les grands modèles, l'UNSW, Argonne, l'Université de Chicago et d'autres institutions ont lancé conjointement le cadre SciQAG. Jul 25, 2024 am 06:42 AM

L'ensemble de données ScienceAI Question Answering (QA) joue un rôle essentiel dans la promotion de la recherche sur le traitement du langage naturel (NLP). Des ensembles de données d'assurance qualité de haute qualité peuvent non seulement être utilisés pour affiner les modèles, mais également évaluer efficacement les capacités des grands modèles linguistiques (LLM), en particulier la capacité à comprendre et à raisonner sur les connaissances scientifiques. Bien qu’il existe actuellement de nombreux ensembles de données scientifiques d’assurance qualité couvrant la médecine, la chimie, la biologie et d’autres domaines, ces ensembles de données présentent encore certaines lacunes. Premièrement, le formulaire de données est relativement simple, et la plupart sont des questions à choix multiples. Elles sont faciles à évaluer, mais limitent la plage de sélection des réponses du modèle et ne peuvent pas tester pleinement la capacité du modèle à répondre aux questions scientifiques. En revanche, les questions et réponses ouvertes

Google AI a remporté la médaille d'argent de l'Olympiade mathématique de l'OMI, le modèle de raisonnement mathématique AlphaProof a été lancé et l'apprentissage par renforcement est de retour. Jul 26, 2024 pm 02:40 PM

Pour l’IA, l’Olympiade mathématique n’est plus un problème. Jeudi, l'intelligence artificielle de Google DeepMind a réalisé un exploit : utiliser l'IA pour résoudre la vraie question de l'Olympiade mathématique internationale de cette année, l'OMI, et elle n'était qu'à un pas de remporter la médaille d'or. Le concours de l'OMI qui vient de se terminer la semaine dernière comportait six questions portant sur l'algèbre, la combinatoire, la géométrie et la théorie des nombres. Le système d'IA hybride proposé par Google a répondu correctement à quatre questions et a marqué 28 points, atteignant le niveau de la médaille d'argent. Plus tôt ce mois-ci, le professeur titulaire de l'UCLA, Terence Tao, venait de promouvoir l'Olympiade mathématique de l'IA (AIMO Progress Award) avec un prix d'un million de dollars. De manière inattendue, le niveau de résolution de problèmes d'IA s'était amélioré à ce niveau avant juillet. Posez les questions simultanément sur l'OMI. La chose la plus difficile à faire correctement est l'OMI, qui a la plus longue histoire, la plus grande échelle et la plus négative.

PRO | Pourquoi les grands modèles basés sur le MoE méritent-ils davantage d'attention ? Aug 07, 2024 pm 07:08 PM

En 2023, presque tous les domaines de l’IA évoluent à une vitesse sans précédent. Dans le même temps, l’IA repousse constamment les limites technologiques de domaines clés tels que l’intelligence embarquée et la conduite autonome. Sous la tendance multimodale, le statut de Transformer en tant qu'architecture dominante des grands modèles d'IA sera-t-il ébranlé ? Pourquoi l'exploration de grands modèles basés sur l'architecture MoE (Mixture of Experts) est-elle devenue une nouvelle tendance dans l'industrie ? Les modèles de grande vision (LVM) peuvent-ils constituer une nouvelle avancée dans la vision générale ? ...Dans la newsletter des membres PRO 2023 de ce site publiée au cours des six derniers mois, nous avons sélectionné 10 interprétations spéciales qui fournissent une analyse approfondie des tendances technologiques et des changements industriels dans les domaines ci-dessus pour vous aider à atteindre vos objectifs dans le nouveau année. Cette interprétation provient de la Week50 2023

Le taux de précision atteint 60,8 %. Le modèle de prédiction de rétrosynthèse chimique de l'Université du Zhejiang basé sur Transformer a été publié dans la sous-journal Nature. Aug 06, 2024 pm 07:34 PM

Editeur | KX La rétrosynthèse est une tâche essentielle dans la découverte de médicaments et la synthèse organique, et l'IA est de plus en plus utilisée pour accélérer le processus. Les méthodes d’IA existantes ont des performances insatisfaisantes et une diversité limitée. En pratique, les réactions chimiques provoquent souvent des modifications moléculaires locales, avec un chevauchement considérable entre les réactifs et les produits. Inspirée par cela, l'équipe de Hou Tingjun de l'Université du Zhejiang a proposé de redéfinir la prédiction rétrosynthétique en une seule étape en tant que tâche d'édition de chaînes moléculaires, en affinant de manière itérative la chaîne moléculaire cible pour générer des composés précurseurs. Et un modèle rétrosynthétique basé sur l'édition, EditRetro, est proposé, qui permet d'obtenir des prédictions diverses et de haute qualité. Des expériences approfondies montrent que le modèle atteint d'excellentes performances sur l'ensemble de données de référence standard USPTO-50 K, avec une précision top 1 de 60,8 %.

Les performances de SOTA, la méthode d'IA de prédiction d'affinité protéine-ligand multimodale de Xiamen, combinent pour la première fois des informations sur la surface moléculaire Jul 17, 2024 pm 06:37 PM

Editeur | KX Dans le domaine de la recherche et du développement de médicaments, il est crucial de prédire avec précision et efficacité l'affinité de liaison des protéines et des ligands pour le criblage et l'optimisation des médicaments. Cependant, les études actuelles ne prennent pas en compte le rôle important des informations sur la surface moléculaire dans les interactions protéine-ligand. Sur cette base, des chercheurs de l'Université de Xiamen ont proposé un nouveau cadre d'extraction de caractéristiques multimodales (MFE), qui combine pour la première fois des informations sur la surface des protéines, la structure et la séquence 3D, et utilise un mécanisme d'attention croisée pour comparer différentes modalités. alignement. Les résultats expérimentaux démontrent que cette méthode atteint des performances de pointe dans la prédiction des affinités de liaison protéine-ligand. De plus, les études d’ablation démontrent l’efficacité et la nécessité des informations sur la surface des protéines et de l’alignement des caractéristiques multimodales dans ce cadre. Les recherches connexes commencent par "S

See all articles