Editor | Radish Skin
딥러닝의 발전으로 단백질 설계와 엔지니어링은 전례 없는 속도로 발전하고 있습니다. 그러나 현재 모델은 설계 과정에서 비단백질 개체를 자연스럽게 설명할 수 없습니다.
여기서 스위스 EPFL(Ecole Polytechnique Fédérale de Lausanne)의 연구원들은 원자 좌표와 요소 이름의 기하학적 변환기를 전적으로 기반으로 하는 딥 러닝 방법을 제안했습니다. 이는 다양한 분자 환경에 의해 부과된 제약 조건을 기반으로 골격을 형성할 수 있으며 단백질을 예측할 수 있습니다. 시퀀스.
이 방법을 사용하면 연구자들은 열 안정성과 촉매 활성이 높은 효소를 높은 성공률로 생산할 수 있습니다. 이는 원하는 기능을 달성하기 위해 단백질 설계 파이프라인의 다양성을 높일 것으로 예상됩니다.
이 연구의 제목은 "단백질 서열 설계를 위한 상황 인식 기하학적 딥 러닝"이며 2024년 7월 25일 "Nature Communications"에 게재되었습니다.
기능적 작업을 달성하기 위해 단백질을 설계하는 것은 주요 생물학, 의학, 생명공학 및 재료과학에 영향을 미치는 과제입니다. 주요 응용 분야는 단백질 치료제의 설계로, 특정 질병을 정확하게 표적으로 삼는 단백질을 맞춤화하는 것이 소분자 약물보다 더 경쟁력이 있을 수 있습니다. 이러한 접근 방식은 자가면역 질환부터 암까지 다양한 건강 문제의 치료에 혁명을 일으켜 보다 효과적이고 개인화된 치료법을 제공할 수 있습니다.
또한 효소 기능을 설계하는 것도 단백질 설계의 또 다른 중요한 과제입니다. 효소는 천연 촉매 역할을 하며 생물학적 과정에서 중요한 역할을 합니다. 새로운 효소를 설계하거나 기존 효소를 변형함으로써 드물거나 자연에 존재하지 않는 반응을 촉진하는 촉매를 만드는 것이 가능합니다. 이는 복잡한 약물 분자 합성이나 오염 물질 및 플라스틱 분해와 같은 제약 및 환경 기술을 포함한 여러 산업에 광범위한 영향을 미칩니다.
딥 러닝 방법은 단백질 디자인의 성공률과 다양성을 크게 가속화합니다. 그러나 현재의 단백질 설계 모델은 여러 단백질 사슬을 처리할 수 있지만 비단백질 개체를 처리할 때는 성능이 좋지 않아 적용 범위가 제한됩니다.
이 문제를 해결하기 위해 EPFL 연구팀은 원자점 구름에서 작동하는 기하학적 변환기 아키텍처인 PeSTo(단백질 구조 변환기)라는 딥 러닝 모델을 도입한 적이 있습니다.
PeSTo는 스칼라 및 벡터 상태를 활용하여 원자를 표현하고 단백질, 핵산, 지질, 이온, 작은 리간드, 보조 인자 또는 탄수화물을 포함한 거의 모든 분자-단백질 인터페이스에서 상호 작용을 예측할 수 있는 변환기 주의 메커니즘을 통합합니다.
최근 연구에서 팀은 이 모델의 고유한 기능을 활용하여 PeSTo 기반 단백질 서열 생성기 모델 CARBonAra(백본 원자 및 헤테로원자에서 컨텍스트 인식 아미노산 회수)를 도입했습니다.
CARBonAra는 특정 백본 스캐폴드의 모든 위치에 대한 아미노산 신뢰도를 예측하기 위해 PDB에서 사용할 수 있는 구조 데이터에 대해 고유하게 훈련되었으며, 이는 단독으로 제공되거나 서열 설계 분자 복합체를 구동하는 데 도움이 되는 모든 종류 및 수의 도구와 함께 제공될 수 있습니다.
CARBonAra의 구성 및 성능
CARBonAra는 기하 변환기로 구성된 딥 러닝 모델을 사용하여 입력 백본 스캐폴드의 단백질 서열 각 위치에서 특정 아미노산을 찾을 가능성을 예측합니다. CARBonAra는 골격 원자(Cα, C, N, O)의 좌표와 요소를 입력으로 사용하고 이상적인 결합 각도와 결합 길이를 사용하여 가상 Cβ 원자를 추가합니다. 기하학은 각 원자 사이의 거리와 정규화된 상대 변위 벡터를 사용하여 설명됩니다.
기하학적 변환기 연산은 인접한 모든 원자의 상호 작용을 인코딩하고 변환기를 사용하여 스칼라 및 벡터 정보를 처리하고 각 원자의 상태를 업데이트합니다. 마지막으로 연구진은 원자 수준에서 잔류물 수준까지 원자 상태를 집계하여 위치별 채점 매트릭스 형태로 단백질 서열의 각 위치에 대한 아미노산 신뢰도를 예측하도록 모델을 훈련했습니다.
실제로 이러한 신뢰도는 각 아미노산 유형에 대한 예측 신뢰도를 고려하여 올바른 예측의 확률을 특성화함으로써 확률로 해석되고 매핑될 수 있습니다.
다른 모델과 마찬가지로 CARBonAra는 원-핫 인코딩을 사용하여 특정 아미노산에 대한 이전 서열 정보를 백본 원자에 각인함으로써 자동 회귀 예측을 지원합니다.
가장 중요한 점은 CARBonAra가 광범위한 매개변수화 없이 요소 이름과 원자 좌표만 사용하는 PeSTo의 기능을 계승하여 다양한 시나리오에 쉽게 적응할 수 있다는 것입니다.
Ainsi, CARBonAra peut analyser et traiter toute entité moléculaire située à proximité du squelette protéique en cours de conception, y compris une gamme d'intrants tels que d'autres protéines, petites molécules, acides nucléiques, lipides, ions et molécules d'eau.
Ensembles de données
Grâce à la flexibilité inhérente de CARBonnAra, les chercheurs sont en mesure d'incorporer tous les assemblages biologiques de la PDB RCSB dans leurs ensembles de données de formation.
Cela inclut les protéines complexées avec d'autres entités moléculaires telles que des ions, des ligands, des acides nucléiques, etc. L'ensemble de données de formation comprenait environ 370 000 sous-unités, et 100 000 sous-unités supplémentaires ont été utilisées dans l'ensemble de données de validation, toutes dérivées de l'assemblage biologique RCSB PDB et annotées du mieux possible.
Suite à un protocole légèrement plus strict par rapport aux méthodes établies précédemment, l'ensemble de données de test comprenait environ 70 000 sous-unités, différait de l'ensemble d'entraînement sans domaine CATH partagé et a été réalisé avec un filtre d'identité de séquence inférieur à 30 %.
Ce critère de sélection garantit la robustesse du test car il exclut les plis et séquences similaires présents dans l'ensemble de données d'entraînement.
Pour la conception de séquences qui sépare les protéines ou les complexes protéiques des structures du squelette qui ne contiennent pas de molécules non protéiques, CARBonAra fonctionne à égalité avec les méthodes de prédiction de séquence de pointe telles que ProteinMPNN et ESM-IF1. à un coût de calcul compétitif (environ 3 fois plus rapide que ProteinMPNN sur GPU et 10 fois plus rapide que ESM-IF1).
Reconstruire la séquence protéique à partir de la structure de la chaîne principale
Lorsque cette méthode reconstruit la séquence protéique à partir de la structure de la chaîne principale, le taux médian de récupération de séquence de la conception du monomère protéique est de 51,3 % et le taux de récupération médian de la séquence de la conception du dimère est de 51,3 %. 56,0%. Malgré des taux de récupération similaires, l'identité médiane des séquences entre les meilleures séquences des trois méthodes variait de 54 % à 58 %.
De plus, les chercheurs ont observé que CARBonnAra peut générer des séquences de haute qualité qui se plient comme prévu avec des scores TM supérieurs à 0,9 lorsqu'ils sont prédits en utilisant AlphaFold en mode séquence unique.
CARBonAra apprend un emballage plus serré des acides aminés au niveau du noyau protéique, ce qui entraîne des récupérations plus élevées et reflète une tolérance plus faible pour les substitutions d'acides aminés enfouies typiques tout en permettant une plus grande variabilité à la surface des protéines à moins de fournir des contraintes fonctionnelles ou structurelles supplémentaires.
Les méthodes de prédiction de séquence à partir d'échafaudages de squelette sont principalement formées sur des données expérimentales avec des géométries de squelette idéales, ce qui entraîne une dégradation des performances lorsqu'elles sont appliquées aux squelettes générés. L'ajout de bruit à la géométrie pendant l'entraînement peut atténuer ce problème.
Les chercheurs ont caractérisé la robustesse de la méthode en appliquant CARBonnAra à des trajectoires structurelles issues de simulations de dynamique moléculaire (MD). Le taux de récupération de séquence (53 ± 10 %) n'a pas diminué de manière significative par rapport à la prévision consensuelle (54 ± 7 %) en raison de changements conformationnels du squelette et d'une augmentation du nombre de cas qui présentaient auparavant de faibles taux de récupération.
Dans le même temps, les chercheurs ont observé une diminution générale du nombre d’acides aminés prédits possibles par position, ce qui suggère que l’exploration de l’espace conformationnel contraint l’espace des séquences, permettant la conception de conformations structurelles ciblées.
A des implications au-delà de la conception des protéines elle-même
Les chercheurs ont mené des expériences sur un système performant, la sérine bêta-lactamase TEM-1, pour démontrer comment CARBonAra relève les défis de l'ingénierie enzymatique, en concevant de véritables protéines qui se plier à haute température et conserver son activité catalytique. De plus, les chercheurs ont exploré des stratégies ciblées pour échantillonner l’espace des séquences protéiques à partir du résultat de CARBonnAra.
Puisqu'il ne peut pas être déterminé si la séquence protéique résultant de l'acide aminé ayant obtenu le score le plus élevé est fonctionnelle, une stratégie d'échantillonnage est nécessaire pour générer des protéines stables et fonctionnelles qui peuvent être exprimées de manière recombinante in vitro.
Cela n’a pas été testé de manière approfondie jusqu’à présent. L’équipe montre ici que des stratégies d’échantillonnage appropriées peuvent non seulement générer des informations riches pour générer des protéines fonctionnelles, mais également générer des multiséquences synthétiques qui reflètent la variation naturelle observée dans les séquences naturelles ou échantillonnées expérimentalement par mutagenèse et comparaison de sélection.
Cela a des implications au-delà de la conception des protéines en soi, et ouvre en particulier une fenêtre sur la façon dont les protéines évoluent dans le cadre de modèles d’évolution des protéines biophysiquement cohérents.
Fondamentalement, améliorer le taux de réussite de la conception informatique est important pour véritablement maîtriser ce domaine, et plus concrètement, pour réduire les coûts lors des tentatives d'expression et de purification réelles en laboratoire.
Taux de réussite très élevé
Maintenant que les méthodes basées sur l’IA commencent à se stabiliser, cela devient un point de discussion important. Différentes méthodes et rapports montrent des taux de réussite très variables, mais il est souvent difficile de savoir comment évaluer chaque méthode.
Chroma fait une évaluation très conservatrice, fixant son taux de réussite à environ 3 %, tandis que l'article RoseTTAFold/ProteinMPNN rapporte un taux de réussite moyen de 15 % pour plusieurs protéines.
En utilisant le modèle de bêta-lactamase TEM-1 rapporté dans cette étude, le taux de réussite a atteint 40 %. De même, les taux de réussite du pliage du baril TIM et du NTF2 atteignent 40 à 55 %, bien au-dessus de la moyenne précédente de 15 %.
Convient pour améliorer la stabilité thermique des protéines
En plus de son application directe dans la conception de nouvelles protéines et le réglage de la fonction des protéines, CARBonAra semble être bien adapté pour améliorer la stabilité thermique, car d'autres méthodes de conception de protéines produisent également des protéines robustes et hautement stables thermiquement. protéine.
Un aspect intéressant révélé par cette observation concerne les droits de propriété intellectuelle des séquences conçues d'enzymes utilisées pour stabiliser les processus de fabrication et industriels : en règle générale, les enzymes conçues sont protégées d'une manière qui couvre une gamme plus petite mais plutôt large de similarité de séquence. .
Historiquement, cela a été assez complet ; cependant, les méthodes modernes de conception de protéines, y compris CARBonnAra, peuvent concevoir des protéines beaucoup moins similaires qui conservent leur fonctionnalité et sont très stables.
Conclusion
Pour l'avenir, CARBonAra présente certains avantages par rapport à d'autres méthodes de conception de protéines, principalement liés à son fonctionnement interne basé uniquement sur les noms et coordonnées des éléments, sans nécessiter de paramétrage supplémentaire ou de calculs intermédiaires.
Ainsi, CARBonAra semble plus flexible que les autres alternatives. Puisqu’il peut résoudre pratiquement n’importe quel type de système moléculaire, il peut être entraîné sur d’autres types de biomolécules (telles que les acides nucléiques, les petites molécules, les ions et même l’eau) ou sur des molécules introuvables dans les assemblages biologiques (telles que les matériaux et les surfaces). Le principe est qu'il y a suffisamment de données.
En résumé, CARBonAra est uniquement basé sur des données structurelles et constitue une approche conceptuellement différente de la prédiction et de la conception de séquences protéiques, avec la flexibilité supplémentaire nécessaire pour relever les défis futurs en matière de conception moléculaire et de biologie synthétique.
Lien papier :https://www.nature.com/articles/s41467-024-50571-y
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!