結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載-AI-php.cn

ホームページ

テクノロジー周辺機器

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載

王林

Aug 08, 2024 pm 09:22 PM

理論

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載

編集者 | KX

今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。

デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するために、数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練されたディープラーニングニューラルネットワークを使用して、正確な電子密度マップを生成できることを開発しました。

研究によると、この深層学習ベースの非経験的構造解析手法は、わずか 2 オングストロームの解像度で位相問題を解決できます。これは、原子解像度で利用可能なデータのわずか 10% ～ 20% に相当しますが、従来の非経験的構造解析手法では、位相問題を解決できます。通常、この方法では原子レベルの分解能が必要です。

関連研究は「PhAI: 結晶相問題を解決するための深層学習アプローチ」と題され、8月1日付けの「Science」誌に掲載されました。

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載

論文リンク: https://www.science.org/doi/10.1126/science.adn2777

結晶学は、自然科学の中核となる分析手法の 1 つです。 X 線結晶構造解析は、結晶の 3 次元構造についての独自の見解を提供します。

電子密度マップを再構成するには、回折反射の複雑な構造因子 $F$ が十分にわかっていなければなりません。従来の実験では、振幅 $|F|$ のみが取得され、位相 $phi$ は失われます。これは結晶相の問題です。

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載

図: 標準的な結晶構造決定のフローチャート。 (出典: 論文)

大きな進歩は 1950 年代と 1960 年代に起こり、Karle と Hauptmann** が位相問題を解決するためのいわゆる直接法を開発しました。ただし、直接法では原子分解能の回折データが必要です。ただし、原子分解能の要件は経験的な観察です。

近年、伝統的な直接法はデュアルスペース法によって補完されています。 現在利用可能な ab initio メソッドは限界に達しているようです。位相問題に対する一般的な解決策は依然として不明です。

数学的に言えば、構造因子の振幅と位相の任意の組み合わせを逆フーリエ変換することができます。 ただし、物理的および化学的要件 (原子に似た電子密度分布を持つなど) により、一連の振幅と一致する位相の可能な組み合わせにルールが課されます。深層学習の進歩により、おそらく現在の ab initio 手法よりもさらに深く、この関係を調査できるようになります。

ここで、コペンハーゲン大学の研究者らは、結晶学における位相問題を解決することを目的として、何百万もの人工結晶構造とそれに対応する回折データを使用してデータ駆動型のアプローチを採用しました。

研究によると、この深層学習ベースの非経験的構造解法手法は、直接法で必要なデータのみを使用して、最小格子面距離 (dmin) = 2.0 Å のみの解像度で 10% ～ 20% 実行できることが示されています。。

ニューラルネットワークの設計とトレーニング

構築された人工ニューラルネットワークはPhAIと呼ばれ、構造因子振幅|F|を受け取り、対応する位相値ϕを出力します。 PhAIのアーキテクチャを以下の図に示します。

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載

図: PhAI ニューラルネットワーク手法は位相問題を解決します。 (出典: 論文) 結晶構造における構造因子の数は単位胞サイズに依存します。コンピューティングリソースに応じて、入力データのサイズに制限が設けられます。入力構造因子の振幅は、

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載

1 の反射に従うミラー指数 (h、k、l) に基づいて選択されます。
つまり、構造は原子分解能で約 10 Å の単位格子寸法に制限されます。さらに、最も一般的な中心対称空間群 P21/c が選択されました。中心対称性により、可能な位相値は 0 または π ラジアンに制限されます。

주로 유기 분자를 포함하는 인공 결정 구조를 이용한 신경망 훈련 연구. 약 49,000,000개의 구조가 생성되었으며, 그 중 94.29%는 유기 결정 구조, 5.66%는 금속-유기 결정 구조, 0.05%는 무기 결정 구조였습니다.
신경망에 대한 입력은 진폭과 위상으로 구성되며, 이는 컨벌루션 입력 블록에 의해 처리되고 일련의 컨벌루션 블록(Conv3D)에 추가 및 공급된 다음 일련의 다층 퍼셉트론(MLP) 블록으로 구성됩니다. 선형 분류기(Phase Classifier)에서 예측된 위상은 Nc번 네트워크를 통해 순환됩니다. 훈련 데이터는 GDB-13 데이터베이스의 금속 원자와 유기 분자를 단위 셀에 삽입하여 생성되었습니다. 결과 구조는 샘플링된 온도 요인, 분해능 및 무결성에서 실제 위상 및 구조 요인 진폭을 계산할 수 있는 훈련 데이터로 구성됩니다.
실제 구조적 문제를 해결하세요
훈련된 신경망은 적당한 계산 요구 사항을 갖춘 표준 컴퓨터에서 실행됩니다. 이는 hkl 지수 목록과 해당 구조 인자 진폭을 입력으로 받아들입니다. 다른 입력 정보는 필요하지 않으며 구조의 단위 셀 매개변수도 필요하지 않습니다. 이는 다른 모든 현대 ab initio 방법과 근본적으로 다릅니다. 네트워크는 즉석에서 위상 값을 예측하고 출력할 수 있습니다.
연구원들은 실제 결정 구조에서 계산된 회절 데이터를 사용하여 신경망의 성능을 테스트했습니다. 총 2387개의 테스트 케이스가 획득되었습니다. 수집된 모든 구조에 대해 1.0~2.0Å 범위의 다중 데이터 해상도 값이 고려되었습니다. 비교를 위해 위상 정보를 검색하기 위해 전하 플립 방법도 사용되었습니다.
그림: 위상과 실제 전자 밀도 맵 사이의 상관 계수 r의 히스토그램.
(출처: 논문)

훈련된 신경망은 잘 작동합니다. 해당 회절 데이터의 해상도가 좋으면 테스트된 모든 구조(N = 2387)를 해결할 수 있으며 저해상도의 구조를 더 잘 해결할 수 있습니다. 데이터 뛰어난 성능. 신경망은 무기 구조에 대해 거의 훈련되지 않지만 이러한 구조를 완벽하게 해결할 수 있습니다.

전하 반전 방법은 고해상도 데이터를 처리할 때 잘 작동하지만 데이터 해상도가 감소함에 따라 합리적으로 정확한 솔루션을 생성하는 능력이 점차 감소하지만 여전히 1.6Å의 해상도에서 약 32픽셀을 해결합니다. 구조. 전하 뒤집기로 식별된 구조의 수는 추가 실험과 임계값 뒤집기와 같은 입력 매개변수 변경을 통해 개선될 수 있습니다.

PhAI 접근 방식에서 이 메타 최적화는 훈련 중에 수행되며 사용자가 수행할 필요가 없습니다. 이러한 결과는 원자 분해능 데이터가 처음부터 위상을 계산하는 데 필요하다는 결정학의 일반적인 개념이 깨질 수 있음을 시사합니다. PhAI에는 10~20%의 원자 분해능 데이터만 필요합니다.

이 결과는 ab initio 방법에는 원자 분해능이 필요하지 않으며 딥 러닝 기반 구조 결정을 위한 새로운 길을 열어준다는 것을 명확하게 보여줍니다.

이 딥 러닝 접근 방식의 과제 는 신경망을 확장하는 것입니다. 즉, 더 큰 단위 셀에 대한 회절 데이터에는 훈련 중에 많은 양의 입력 및 출력 데이터와 계산 비용이 필요합니다. 향후에는 이 방법을 일반적인 경우로 확장하기 위한 추가 연구가 필요하다.

以上が結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

ホットツール

ホットトピック

Related knowledge

「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 Jul 26, 2024 pm 05:38 PM

現代の製造において、正確な欠陥検出は製品の品質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データセットと比較して、「DefectSpectrum」データセットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています Jul 26, 2024 am 08:40 AM

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープンモデルが開発されています。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データセットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データセットがありますが、これらのデータセットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Jul 26, 2024 pm 02:40 PM

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 Aug 08, 2024 pm 09:22 PM

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラルネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ～ 20% に相当します。

PRO | なぜ MoE に基づく大規模モデルがより注目に値するのでしょうか? Aug 07, 2024 pm 07:08 PM

2023 年には、AI のほぼすべての分野が前例のない速度で進化しています。同時に、AI は身体化されたインテリジェンスや自動運転などの主要な分野の技術的限界を押し広げています。マルチモーダルの流れのもと、AI大型モデルの主流アーキテクチャとしてのTransformerの状況は揺るがされるだろうか？ MoE (専門家混合) アーキテクチャに基づく大規模モデルの検討が業界の新しいトレンドになっているのはなぜですか?ラージビジョンモデル (LVM) は、一般的な視覚における新たなブレークスルーとなる可能性がありますか? ...過去 6 か月間にリリースされたこのサイトの 2023 PRO メンバーニュースレターから、上記の分野の技術トレンドと業界の変化を詳細に分析し、新しい分野での目標を達成するのに役立つ 10 の特別な解釈を選択しました。準備してください。この解釈は 2023 年の Week50 からのものです

Transformer に基づく浙江大学の化学逆合成予測モデルは、Nature サブジャーナルで 60.8% に達しました。 Aug 06, 2024 pm 07:34 PM

編集者 | KX 逆合成は創薬や有機合成において重要なタスクであり、そのプロセスを高速化するために AI の使用が増えています。既存の AI 手法はパフォーマンスが不十分で、多様性が限られています。実際には、化学反応は多くの場合、反応物と生成物の間にかなりの重複を伴う局所的な分子変化を引き起こします。これに触発されて、浙江大学のHou Tingjun氏のチームは、単一ステップの逆合成予測を分子列編集タスクとして再定義し、標的分子列を反復的に改良して前駆体化合物を生成することを提案した。そして、高品質かつ多様な予測を実現できる編集ベースの逆合成モデルEditRetroを提案する。広範な実験により、このモデルが標準ベンチマークデータセット USPTO-50 K で優れたパフォーマンスを達成し、トップ 1 の精度が 60.8% であることが示されました。

Deepseekの生物学的バージョンの隠された競争、中国のモデルはより強い相手と見なされており、Sanofiは10億ドルに賭けています！ Mar 12, 2025 pm 01:18 PM

中国のAIは世界をリードしています。BaituBiotechXtrimov3 Biological Modelは、Stanford UniversityとNvidiaが共同でリリースしたEVO2の生物学的AIモデルを上回っていますが、その論文の詳細は、中国のAI：Baitu Biotechのシリーズの台頭を強調しています。米国市場による生命科学の基本モデルの先駆者と見なされている企業であるBaitu Biotechは、2020年以来、この分野での努力を深め続けています。 2024年10月、Xtrimov3のフルモーダル生物学的モデルが発売され、2100億パラメーターを備えた世界最大の基本ライフサイエンスAIモデルの新しい記録を樹立しました。 Xtrimov3のブレークスルーは、最初にあります

See all articles

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載

ホットAIツール

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

ArtGPT

Stock Market GPT

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック