수백만 개의 결정 데이터로 훈련하여 결정학적 위상 문제를 해결하는 딥러닝 방법인 PhAI가 Science에 게재되었습니다.-일체 포함-php.cn

수백만 개의 결정 데이터로 훈련하여 결정학적 위상 문제를 해결하는 딥러닝 방법인 PhAI가 Science에 게재되었습니다.

Editor | KX

오늘날까지 단순한 금속부터 큰 막 단백질까지 결정학에 의해 결정되는 구조적 세부 사항과 정밀도는 다른 어떤 방법과도 비교할 수 없습니다. 그러나 가장 큰 과제인 소위 위상 문제는 실험적으로 결정된 진폭에서 위상 정보를 검색하는 것입니다.

덴마크 코펜하겐 대학의 연구원들은 결정 위상 문제를 해결하기 위해 PhAI라는 딥 러닝 방법을 개발했습니다. 수백만 개의 인공 결정 구조와 그에 상응하는 합성 회절 데이터를 사용하여 훈련된 딥 러닝 신경망은 정확한 전자 밀도 지도를 생성할 수 있습니다.

연구에 따르면 이 딥 러닝 기반 ab initio 구조 솔루션 방법은 단 2옹스트롬의 분해능으로 위상 문제를 해결할 수 있는 것으로 나타났습니다. 이는 원자 분해능에서 사용 가능한 데이터의 10~20%에 해당하는 반면 기존 Ab initio는 방법은 일반적으로 원자 분해능이 필요합니다.

관련 연구는 "PhAI: A deep-learning Approach to 해결할 the crystallographic Phase 문제"라는 제목으로 "Science" 8월 1일자에 게재되었습니다.

수백만 개의 결정 데이터로 훈련하여 결정학적 위상 문제를 해결하는 딥러닝 방법인 PhAI가 Science에 게재되었습니다.

논문 링크: https://www.science.org/doi/10.1126/science.adn2777

결정학은 자연과학의 핵심 분석 기술 중 하나입니다. X선 결정학은 결정의 3차원 구조에 대한 독특한 시각을 제공합니다.

전자 밀도 맵을 재구성하려면 회절 반사의 복잡한 구조 인자 $F$를 충분히 알아야 합니다. 기존 실험에서는 진폭 $|F|$만 얻고 위상 $phi$는 손실됩니다. 이것은 결정학적 위상 문제입니다.

수백만 개의 결정 데이터로 훈련하여 결정학적 위상 문제를 해결하는 딥러닝 방법인 PhAI가 Science에 게재되었습니다.

그림: 표준 결정 구조 결정 흐름도. (출처: Paper)

1950년대와 1960년대에Karle과Hauptmann**이 위상 문제를 해결하기 위한 소위 직접적인 방법을 개발하면서 획기적인 발전이 이루어졌습니다. 그러나 직접 방법에는 원자 분해능 회절 데이터가 필요합니다. 그러나 원자 분해능의 요구 사항은 경험적 관찰입니다.

최근에는 전통적인 직접 방식이 이중 공간 방식으로 보완되었습니다.현재 사용 가능한 ab initio 방법은 한계에 도달한 것 같습니다. 위상 문제에 대한 일반적인 해결책은 아직 알려지지 않았습니다.

수학적으로 말하면, 구조 인자 진폭과 위상의 모든 조합은 역푸리에 변환의 대상이 될 수 있습니다.그러나 물리적, 화학적 요구 사항(예: 원자와 유사한 전자 밀도 분포)은 일련의 진폭과 일치하는 가능한 위상 조합에 규칙을 적용합니다. 딥 러닝의 발전으로 인해 현재의 ab initio 방법보다 더 깊이 있게 이러한 관계를 탐색할 수 있게 되었습니다.

여기서 코펜하겐 대학의 연구원들은 결정학의 위상 문제를 해결하는 것을 목표로 수백만 개의 인공 결정 구조와 해당 회절 데이터를 사용하는 데이터 기반 접근 방식을 취했습니다.

연구에 따르면 이 딥러닝 기반 ab initio 구조 해결 방법은 직접 방법에서 필요한 데이터만 사용하여 최소 격자 평면 거리(dmin) = 2.0Å의 분해능 10~20%에서 수행할 수 있는 것으로 나타났습니다. .

Neural Network Design and Training

구성된 인공 신경망은PhAI라고 하며, 구조 인자 진폭 |F|을 받아 해당 위상 값ф을 출력합니다.PhAI의 아키텍처는 아래 그림과 같습니다.

수백만 개의 결정 데이터로 훈련하여 결정학적 위상 문제를 해결하는 딥러닝 방법인 PhAI가 Science에 게재되었습니다.

그림: PhAI 신경망 방법은 위상 문제를 해결합니다. (출처: 논문) 결정 구조의 구조 인자 수는 단위 셀 크기에 따라 달라집니다. 컴퓨팅 리소스에 따라 입력 데이터의 크기에 제한이 있습니다. 입력 구조 인자 진폭은

수백만 개의 결정 데이터로 훈련하여 결정학적 위상 문제를 해결하는 딥러닝 방법인 PhAI가 Science에 게재되었습니다.

1을 준수하는 밀러 지수(h, k, l)를 기반으로 선택됩니다.
즉, 구조는 원자 분해능에서 약 10Å의 단위 셀 크기로 제한됩니다. 또한 가장 일반적인 중심대칭 공간 그룹 P21/c가 선택되었습니다. 중앙 대칭은 가능한 위상 값을 0 또는 π rad로 제한합니다.

研究使用主要包含有机分子的人工晶体结构训练神经网络。创建了大约 49,000,000 个结构，其中有机晶体结构占 94.29%，金属有机晶体结构占 5.66%，无机晶体结构占 0.05%。
神经网络的输入由振幅和相位组成，它们由卷积输入块处理，添加并输入到一系列卷积块（Conv3D）中，然后是一系列多层感知器（MLP）块。来自线性分类器（相位分类器）的预测相位通过网络循环 Nc 次。训练数据是通过将 GDB-13 数据库中的金属原子和有机分子插入到晶胞中生成的。生成的结构被组织成训练数据，从中可以计算出在采样温度因子、分辨率和完整性时的真实相位和结构因子振幅。
解决真实结构问题
经过训练的神经网络在标准计算机上运行，计算需求适中。它接受 hkl 索引列表和相应的结构因子振幅作为输入。不需要其他输入信息，甚至不需要结构的晶胞参数。这与所有其他现代从头算方法有着根本区别。网络可以即时预测并输出相位值。
研究人员使用计算得出的真实晶体结构的衍射数据测试了神经网络的性能。共获得 2387 个测试用例。对于所有收集的结构，考虑了多个数据分辨率值，范围从 1.0 到 2.0 Å。为了进行比较，还使用了电荷翻转方法来检索相位信息。
图示：相位和真实电子密度图之间的相关系数 r 的直方图。
（来源：论文）