분자는 100% 효과적이며 리간드는 처음부터 설계되었으며 후난 대학교는 단편 기반 분자 특성화 프레임워크를 제안합니다.-일체 포함-php.cn

분자는 100% 효과적이며 리간드는 처음부터 설계되었으며 후난 대학교는 단편 기반 분자 특성화 프레임워크를 제안합니다.

Editor | KX

분자 설명자의 응용 및 과제

분자 설명자는 분자 모델링에 널리 사용됩니다. 그러나 AI 지원 분자 발견 분야에서는 자연적으로 적용 가능하고 완전하며 독창적인 분자 표현이 부족하여 모델 성능과 해석 가능성에 영향을 미칩니다.

t-SMILES 프레임워크 제안

조각 기반 다중 규모 분자 특성화 프레임워크 t-SMILES는 분자 특성화 문제를 해결합니다. 프레임워크는 SMILES 유형 문자열을 사용하여 분자를 설명하고 시퀀스 모델을 생성 모델로 지원합니다.

t-SMILES의 코드 알고리즘

t-SMILES에는 TSSA, TSDY 및 TSID의 세 가지 코드 알고리즘이 있습니다.

실험 결과

실험에 따르면 t-SMILES 모델에 의해 생성된 분자는 100% 이론적 타당성과 높은 신규성을 갖고 있어 SOTA SMILES 기반 모델보다 우수합니다.

또한 t-SMILES 모델은 과적합을 방지하고 레이블이 지정된 저자원 데이터 세트에 대한 유사성을 유지하면서 더 높은 참신함을 달성합니다.

게시 정보

"t-SMILES: 새로운 리간드 설계를 위한 단편 기반 분자 표현 프레임워크"라는 제목의 이 연구는 6월 11일 "Nature Communications"에 게재되었습니다.

분자는 100% 효과적이며 리간드는 처음부터 설계되었으며 후난 대학교는 단편 기반 분자 특성화 프레임워크를 제안합니다.

논문 링크: https://www.nature.com/articles/s41467-024-49388-6

SMILES를 기반으로 한 분자 표현 방법 연구

분자의 효과적인 특성화는 인공 지능의 성능에 영향을 미치는 핵심 요소입니다. 지능 모델.

GNN(Graph Neural Networks)은 100% 효율적인 분자를 생성하는 능력으로 유명하지만 표현 능력은 제한되어 있습니다.

간소화된 분자 선형 입력 사양(SMILES)은 선형 표현으로서 화학적으로 유효하지 않은 문자열을 생성하는 경향이 있습니다. DeepSMILES 및 SELFIES는 대안으로 개선되었지만 여전히 문제가 있습니다.

또한 연구에 따르면 언어 모델(LM)은 크고 복잡한 분자를 학습하는 데 있어 대부분의 GNN보다 성능이 뛰어날 수 있습니다. 최근 Transformers를 기반으로 한 LM은 인간의 글쓰기와 매우 유사한 텍스트를 생성하는 능력을 입증했습니다.

이러한 아이디어에서 영감을 받아 연구원들은 조각 설명의 시작 선택으로 SMILES를 선택하고 고급 자연어 처리 기술과 결합하여 조각 기반 분자 모델링 작업을 처리합니다. 이는 그래프 모델을 융합하여 분자 토폴로지 및 LM 학습능력이 탄탄한 게 장점이다.

SOTA보다 나은 100% 효과적인 새로운 분자 생성

따라서 후난대학교 팀은 조각난 분자를 기반으로 하는 새로운 분자 설명 프레임워크인 t-SMILES(트리 기반 SMILES)를 제안했습니다. 프레임워크에는 TSSA(공유 원자가 있는 t-SMILES), TSDY(ID가 아닌 가상 원자가 있는 t-SMILES) 및 TSID(ID와 가상 원자가 있는 t-SMILES)의 세 가지 t-SMILES 인코딩 알고리즘이 포함되어 있습니다.

분자는 100% 효과적이며 리간드는 처음부터 설계되었으며 후난 대학교는 단편 기반 분자 특성화 프레임워크를 제안합니다.

그림: t-SMILES 알고리즘 개요 (출처: 논문)

새로 제안된 t-SMILES 프레임워크

는 조각난 분자를 나타내는 AMT(비환식 분자 나무)를 생성합니다.
AMT를 FBT(완전 이진 트리)로 변환합니다.
FBT에서 너비 우선 순회를 수행하여 t-SMILES 문자열을 얻습니다.

SMILES와 비교

t-SMILES는 다중 규모 및 계층적 분자 토폴로지를 인코딩하기 위해 두 개의 새로운 기호 "&"와 "^"만 도입합니다.

t-SMILES 알고리즘

은 이론적으로 광범위한 하위 구조 체계를 지원할 수 있는 확장 가능하고 적응 가능한 프레임워크를 제공합니다.

t-SMILES 기반 모델

은 상세한 하위 구조 정보를 처리하면서 상위 수준의 토폴로지 구조 정보를 학습할 수 있습니다.

다중 코드 시스템

t-SMILES 알고리즘은 분자 설명을 위한 다중 코드 시스템을 구축할 수 있습니다. 여기서:

Classic SMILES는 t-SMILES(TS_Vanilla)의 특별한 경우로 통합될 수 있습니다.
여러 설명을 공동으로 사용하여 전반적인 성능을 향상할 수 있습니다.
그림: TSSA 코드, SMILES 및 SELFIES용 토큰 배포. (출처: 논문)

먼저, 연구진은 t-SMILES의 독특한 특성을 탐구하여 체계적으로 평가했습니다. 그 후, 두 개의 레이블이 지정된 저자원 데이터 세트 JNK332 및 AID170633에 대해 TSSA 및 TSDY를 사용하여 실험을 수행했습니다.

이 연구는 표준, 데이터 확대 및 사전 훈련된 미세 조정 모델을 활용하여 달성되는 t-SMILES와 그 대안의 한계에 중점을 둡니다. ChEMBL의 20개 목표 지향 작업은 TSDY, TSSA 및 TSID를 사용하여 병렬로 평가되었습니다. 비슷한 설정을 사용하여 t-SMILES와 그 대안을 비교하기 위해 ChEMBL, Zinc 및 QM9에 대해서도 철저한 실험을 수행했습니다. 또한 다양한 조각 기반 기준 모델과 SOTA GNN 모델을 비교합니다.

마지막으로 재구성을 통해 SMILES를 기반으로 한 생성 모델의 유효성을 확인하기 위해 절제 연구가 수행됩니다. t-SMILES 알고리즘의 적응성과 유연성을 평가하기 위해 이전에 발표된 4개의 조각화 알고리즘을 사용하여 JTVAE, BRICS, MMPA 및 Scaffold를 포함한 분자를 분해했습니다. 다양한 실험에서는 분산 학습 벤치마크, 목표 지향 벤치마크, 물리화학적 특성에 대한 Wasserstein 거리 측정법 등 세 가지 측정항목이 사용되었습니다.

자세한 비교 실험에 따르면 t-SMILES 모델에 의해 생성된 새로운 분자는 이론적으로 100% 타당하며 SOTA SMILES 기반 모델보다 우수합니다. SMILES, DSMILES 및 SELFIES와 비교하여 t-SMILES의 전체 솔루션은 데이터 확대 또는 사전 훈련 후 미세 조정된 모델을 사용하여 과적합 문제를 피하고 저자원 데이터 세트에서 균형 잡힌 성능을 크게 향상시킬 수 있습니다.

분자는 100% 효과적이며 리간드는 처음부터 설계되었으며 후난 대학교는 단편 기반 분자 특성화 프레임워크를 제안합니다.

그래픽: GPT를 사용한 ZINC의 분산 학습 벤치마크 결과. (출처: 논문)

또한 t-SMILES 모델은 분자의 물리화학적 특성을 능숙하게 포착할 수 있어 생성된 분자가 훈련 분자 분포와 유사성을 유지하도록 보장합니다. 이는 기존 조각 기반 및 그래프 기반 기준 모델에 비해 성능을 크게 향상시킵니다. 특히, 목표 지향 재구성 알고리즘을 갖춘 t-SMILES 모델은 목표 지향 작업에서 SMILES, DSMILES, SELFIES 및 SOTA CReM에 비해 분명한 이점을 보여줍니다.

제한 사항 및 개선 분야

LLM은 올바른 형식의 영어 문법을 이해할 수 있습니다. 따라서 t-SMILES의 트리 구조를 학습할 수 있는지 여부와 LM이 표면의 통계적 상관 관계를 넘어 분자의 화학적 지식을 학습할 수 있는 방법은 여전히 심층적으로 탐구되어야 합니다.
이 연구는 단편화된 분자를 서열로 인코딩하는 데 중점을 두고 있으므로 공개된 단편화 알고리즘만 "화학 단어"를 생성하는 예로 사용됩니다. 향후 연구에서는 t-SMILES를 활용하여 다른 단편화 알고리즘을 탐색하여 화학적 문장과 의미를 더 깊이 해석할 수 있는데, 이는 실제로 NLP보다 더 어렵습니다.
t-SMILES는 분자 설명 성능을 향상하고 SMILES의 한계를 우회하도록 설계되었지만 더 복잡한 분자를 실험하지는 않았습니다. 이는 향후 연구 주제가 될 것이다.
마지막으로, 이는 조각난 분자를 SMILES 유형 문자열로 인코딩하기 위한 유망한 시작입니다. 추가 연구에서는 분자 재구성 및 최적화를 위한 고급 알고리즘, 향상된 생성 모델 및 진화 기술을 탐구할 수 있습니다. 또한 연구는 특성, 역합성 및 반응 예측 작업에 중점을 둘 수 있습니다.

참고: 표지는 인터넷에서 가져온 것입니다

위 내용은 분자는 100% 효과적이며 리간드는 처음부터 설계되었으며 후난 대학교는 단편 기반 분자 특성화 프레임워크를 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!