약물 발견은 화학과 생물학의 여러 하위 분야가 교차하는 복잡한 다단계 프로세스입니다. 인간 의약화학자들은 다년간 축적된 전문 지식을 바탕으로 이 과정에서 중요한 역할을 합니다
그렇다면 인공지능(AI)이 신약 발굴에서 의약화학자의 역할을 대신할 수 있을까요? 대답은 '예'일 수 있습니다.
최근 노바티스 생명의학연구소(NIBR)와 마이크로소프트 과학지능연구소(AI4Science) 연구팀은 전문 화학자들이 축적한 집단지식을 업무에서 부분적으로 재현할 수 있는 머신러닝 모델을 공동 제안했다. , 이러한 유형의 지식을 종종 "화학적 직관"이라고 합니다.
연구팀은 이 방법이 분자 모델링을 보완하여 향후 약물 개발의 효율성을 향상시킬 수 있다고 믿습니다
'선호 머신러닝을 통한 의약화학 직관 추출'이라는 연구 논문이 네이처(Nature) 부저널 네이처 커뮤니케이션스(Nature Communications)에 게재되었습니다
머신러닝으로 의약화학자의 전문지식 재현
습식 연구실 및 전산 분야의 의약 화학자는 약물 발견의 "리드 최적화" 단계에서 중요한 역할을 합니다. 왜냐하면 어떤 화합물을 합성해야 하며 후속 최적화 평가 단계에서 사용해야 하는지 결정하라는 요청을 자주 받기 때문입니다.
이를 위해 의약화학자는 일반적으로 활성, ADMET2 또는 표적 구조 정보와 같은 화합물 특성을 포함한 데이터를 검토합니다. 따라서 프로젝트의 성공 여부는 생성된 실험 데이터의 품질뿐만 아니라 의약화학 팀이 내리는 결정의 견고성과 합리성에 달려 있습니다.
의약화학자는 종종 전문 지식을 활용하여 초기 단계 약물 발견의 다양한 반복에서 무엇이 성공하는지 직관적으로 이해하기 때문에 보다 효율적으로 결정을 내릴 수 있습니다.
규칙 기반 접근 방식이나 간단한 화학정보 타당성 점수를 사용하여 이 지식을 공식화하려는 이전 시도가 있었지만, 의약 화학자의 점수 매기기와 관련된 미묘함과 복잡성을 포착하는 것은 여전히 근본적인 과제로 남아 있습니다.
이 목표를 달성하기 위해 연구의 목표는 전문 지식을 기계 학습 모델의 일부로 변환하는 것입니다. 이 모델은 업계에서 보고된 다른 추천 시스템과 마찬가지로 보조 도구로 사용하여 리드 최적화 또는 기타 약물 발견 측면에서 의사 결정 프로세스를 배포할 수 있습니다
현재 의약화학이 주로 수작업에 의존하고 있다는 점을 고려하면 주관적 편견의 영향을 받을 수밖에 없습니다. 일부 연구에서는 의약화학자 내에서뿐만 아니라 의약화학자 사이에서도 등급에 대한 동의가 낮다고 보고했습니다. 이 연구에서 연구자들은 멀티플레이어 게임의 전략을 빌려서 몇 가지 문제를 해결하려고 합니다.
그들은 선호도 학습 문제로 분자 집합의 순위를 매기는 작업을 처리한 다음 간단한 신경망을 사용하여 개인 선호도를 모델링했습니다
그림 | 연구의 주요 아이디어에 대한 전체 개략도(출처: 논문)
구체적으로, 위 그림에서 볼 수 있듯이 분자는 경쟁 게임의 참가자로 간주되며, 한쪽이 승리할 확률은 화학자가 제공한 피드백에 따라 결정됩니다. 이를 위해 의약화학자는 웹 애플리케이션에 미리 지정된 질문 프롬프트에 답하고 두 분자 중 하나를 선택합니다. 총 35명의 노바티스 의약화학자가 이 과정에 참여하여 5,000개 이상의 주석이 수집되었습니다.
이 피드백은 두 개의 독립적인 신경망 구조가 있는 모델을 사용하는 암시적 채점 모델로 이어졌습니다. 각 가지에는 고정된 가중치가 있으며 분자는 일반적인 화학정보학 설명자를 사용하여 특성화됩니다. 훈련 중에 모델의 매개변수는 분자 쌍의 기본 점수 차이와 화학자가 제공한 피드백에 따라 달라지는 이진 교차 엔트로피 손실(BCE 손실)을 통해 최적화됩니다
훈련이 완료되면 임의의 분자에 대한 점수를 추론할 수 있으며, 이는 다운스트림 화학정보학 작업에 사용될 수 있습니다.
또한 모델은 다양한 약물 간의 유사성을 더 정확하게 판단할 수 있습니다. 연구에서 제안한 학습 채점 기능은 기존 약물 유사성 평가 지수(QED)보다 더 정확합니다
특히, 연구의 재현성과 해당 분야의 추가 발전을 촉진하기 위해 연구원들은 모델과 익명화된 응답 데이터를 포함하는 "MolSkill"이라는 소프트웨어 패키지도 제공합니다.
의약화학 분야 머신러닝의 문제점과 응용
그러나 이 모델은 의약화학자들이 축적한 지식을 업무에 재현할 수 있지만 몇 가지 한계도 있습니다. 첫째, 화학적 직관을 포착하기 위해 데이터 수집 시 묻는 질문은 항상 모호했습니다.
또한 제안된 연구 설계는 이전 연구에 비해 참가자 간의 더 큰 합의를 가져왔지만 쌍별 비교 방법은 완벽하지 않습니다.
또한 "평지 오류"는 인간이 고차원 문제를 인지적으로 추적할 수 있는 작은 변수 집합으로 단순화하는 경향이 있게 하며, 이러한 단순화는 각 의약화학자의 개인적 특성에 영향을 받을 수 있습니다
그러나 연구팀은 이번 연구에서 제안한 모델이 현재 연구의 적용 범위에 국한되지 않는다고 밝혔습니다. 구체적으로 논의된 프레임워크는 약물 발견 분야에서 정량화 가능하지만 비용이 많이 드는 다른 관찰 가능 항목으로 확장될 수 있습니다. 또한 아직 탐험되지 않은 화학 공간 영역에 대한 통찰력을 제공할 수 있습니다.
이를 염두에 두고 연구팀은 일부 인기 있는 규칙 기반 필터가 인위적으로 생성된 훈련 데이터로부터 학습하도록 함으로써 유사한 아키텍처를 구축할 수 있다고 믿습니다. 이 모델은 추론을 하기 전에 화합물을 수동으로 필터링해야 하는 주요 한계를 극복할 수 있습니다
기존 규칙 기반 방법을 사용하여 자연적인 신규성으로 인한 스크리닝이 어려운 합성 화학 라이브러리에서 조합의 우선 순위를 지정하여 화합물 점수를 생성하는 데에도 동일한 접근 방식을 사용할 수 있습니다.
다시 표현해야 할 또 다른 사항은 특정 대상에 대한 전향적, 1차 최적화 시나리오에서 다양한 정보 소스(예: 생물학적 특성, ADMET 등)를 종합적으로 고려하여 실용성을 테스트해야 한다는 것입니다. 연구 프레임워크
연구팀은 논문에서 다음과 같이 썼습니다. "기계 학습 방법은 수천 개의 화합물을 설계할 수 있으며, 고처리량 스크리닝과 같은 기술은 약물 발견 과정의 초기 단계에서 많은 수의 후보 화합물을 강조할 수 있습니다. 채점 방법은 이를 제안했습니다. 이 애플리케이션은 앞으로 몇 년 동안 방법 채택과 신뢰를 가속화할 것으로 예상됩니다.”
위 내용은 AI 약물 연구원이 Nature 하위 저널에 합류: 전문 지식을 사용하여 약물 개발 가속화의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!