首页 科技周边 人工智能 准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

Aug 06, 2024 pm 07:34 PM
理论

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

编辑 | KX

逆合成是药物发现和有机合成中的一项关键任务,AI 越来越多地用于加快这一过程。

现有 AI 方法性能不尽人意,多样性有限。在实践中,化学反应通常会引起局部分子变化,反应物和产物之间存在很大重叠。

受此启发,浙江大学侯廷军团队提出将单步逆合成预测重新定义为分子串编辑任务,迭代细化目标分子串以生成前体化合物。并提出了基于编辑的逆合成模型 EditRetro,该模型可以实现高质量和多样化的预测。

大量实验表明,模型在标准基准数据集 USPTO-50 K 上取得了出色的性能,top-1 准确率达到 60.8%。

结果表明,EditRetro 表现出良好的泛化能力和稳健性,凸显了其在 AI 驱动的化学合成规划领域的潜力。

相关研究以「Retrosynthesis prediction with an iterative string editing model」为题,于 7 月 30 日发布在《Nature Communications》上。

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

论文链接:https://www.nature.com/articles/s41467-024-50617-1

分子合成路径设计是有机合成的一项重要任务,对生物医学、制药和材料工业等各个领域都具有重要意义。

逆合成分析是开发合成路线最广泛使用的方法。它包括使用已建立的反应将分子迭代分解为更简单、更易于合成的前体。

近年来,AI 驱动的逆合成促进了对更复杂分子的探索,大大减少了设计合成实验所需的时间和精力。单步逆合成预测是逆合成规划的重要组成部分,目前已有几种基于深度学习的方法,且效果优异。这些方法大致可分为三类:基于模板的方法、无模板的方法和半基于模板的方法。

在此,研究人员专注于无模板逆合成预测。提出将问题重新定义为分子字符串编辑任务,并提出基于编辑的逆合成模型 EditRetro,可以实现高质量和多样化的预测。

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

图示:所提出的基于分子串的逆合成的 EditRetro 方法的示意图。(来源:论文)

该研究的核心概念是,通过使用 Levenshtein 操作的迭代编辑过程生成反应物字符串。该方法从基于编辑的序列生成模型的最新进展中汲取灵感。具体来说,采用了 EDITOR 中的操作,EDITOR 是一种基于编辑的 Transformer,专为神经机器翻译而设计。

EditRetro 概述

EditRetro 模型包含三种编辑操作,即序列重新定位、占位符插入和标记插入,以生成反应物字符串。它由一个 Transformer 模型实现,该模型由一个编码器和三个解码器组成,两者都由堆叠的 Transformer 块组成。

  • 重新定位解码器:重新定位操作包括基本的 token 编辑操作,例如保留、删除和重新排序。它可以与识别反应中心的过程进行比较,包括重新排序和删除原子或基团以获得合成子。
  • 占位符解码器:占位符插入策略(分类器)预测要在相邻 token 之间插入的占位符数量。它在确定反应物的结构方面起着至关重要的作用,类似于识别从序列重新定位阶段获得的中间合成子中添加原子或基团的位置。
  • Token 解码器:token 插入策略(分类器),负责为每个占位符生成候选 token。这对于确定可用于合成目标产品的实际反应物至关重要。该过程可以看作是合成子完成的类似过程,结合占位符插入操作。

EditRetro 模型通过其非自回归解码器提高了生成效率。尽管结合了额外的解码器来迭代预测编辑操作,但 EditRetro 在每个解码器内并行执行编辑操作(即非自回归生成)。

当给定一个目标分子时,编码器将其字符串作为输入并生成相应的隐藏表示,然后将其用作解码器交叉注意模块的输入。类似地,解码器也在第一次迭代时将产品字符串作为输入。在每次解码迭代期间,三个解码器依次执行。

优于基线、生成准确反应物

研究人员在公共基准数据集 USPTO-50K 和 USPTO-FULL 上评估了所提方法。大量实验结果表明,该方法在预测准确度方面优于其他基线,包括最先进的基于序列的方法 R-SMILES 和基于图编辑的方法 Graph2Edits。

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

EditRetro 在基准逆合成数据集 USPTO-50K 上进行的大量实验表明,EditRetro 取得了优越的性能,top-1 精确匹配准确率达到 60.8%。

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

此外,在更大的 USPTO-FULL 数据集上,其中 top-1 精确匹配准确率达到 52.2%,证明了其在更多样化和更具挑战性的化学反应中是有效的。

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

EditRetro 在 RoundTrip 和 MaxFrag 准确率方面也表现出优于基线方法的性能。这证明了 EditRetro 能够有效地学习化学规则。

此外,EditRetro 通过精心设计的推理模块提供多样化的预测。该模块结合了重新定位采样和序列增强,有助于生成多样化和变化的预测。重新定位采样对重新定位动作的预测进行采样,从而能够识别不同的反应位点。序列增强从不同的产品变体到反应物生成不同的编辑途径,从而提高了预测的准确性和多样性。这两种策略共同作用,提高了预测的准确性和多样性。

进一步的实验验证了 EditRetro 在一些更复杂的反应中的优越性,包括手性、开环和成环反应。结果证实了 EditRetro 在这些具有挑战性的场景中的优越性,证明了它能够处理不同类型的化学转化。

在多步合成规划中的实用性

特别是,EditRetro 在四个多步骤逆合成规划场景中的成功应用证明了其实用性。

为了评估 EditRetro 在合成规划中的实用性,通过连续的逆合成预测设计完整的化学途径。研究人员选择了四种具有重要药用价值的目标化合物进行评估:非布司他、奥希替尼、GPX4 的变构激活剂和 DDR1 激酶抑制剂 INS015_037。

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

图示:EditRetro 的多步逆合成预测。(来源:论文)

所有四个示例都产生了与文献中报道的途径非常一致的逆合成途径,大多数预测排名在前两位。在考虑的 16 个单独步骤中,有 10 个步骤的预测准确率为 1。这些结果证明了 EditRetro 在实际逆合成预测中的实际潜力。

通过提供有价值的见解并促进高效合成路线的设计,该方法有望在逆合成规划领域得到实际应用。

以上是准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

Rimworld Odyssey温度指南和Gravtech
1 个月前 By Jack chen
Rimworld Odyssey如何钓鱼
1 个月前 By Jack chen
我可以有两个支付帐户吗?
1 个月前 By 下次还敢
初学者的Rimworld指南:奥德赛
1 个月前 By Jack chen
PHP变量范围解释了
3 周前 By 百草

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Laravel 教程
1603
29
PHP教程
1506
276
突破传统缺陷检测的界限,\'Defect Spectrum\'首次实现超高精度丰富语义的工业缺陷检测。 突破传统缺陷检测的界限,\'Defect Spectrum\'首次实现超高精度丰富语义的工业缺陷检测。 Jul 26, 2024 pm 05:38 PM

在现代制造业中,精准的缺陷检测不仅是保证产品质量的关键,更是提升生产效率的核心。然而,现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性,导致模型无法识别具体的缺陷类别或位置。为了解决这一难题,由香港科技大学广州和思谋科技组成的顶尖研究团队,创新性地开发出了“DefectSpectrum”数据集,为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示,相比其他工业数据集,“DefectSpectrum”数据集提供了最多的缺陷标注(5438张缺陷样本),最细致的缺陷分类(125种缺陷类别

英伟达对话模型ChatQA进化到2.0版本,上下文长度提到128K 英伟达对话模型ChatQA进化到2.0版本,上下文长度提到128K Jul 26, 2024 am 08:40 AM

开放LLM社区正是百花齐放、竞相争鸣的时代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等许多表现优良的模型。但是,相比于以GPT-4-Turbo为代表的专有大模型,开放模型在很多领域依然还有明显差距。在通用模型之外,也有一些专精关键领域的开放模型已被开发出来,比如用于编程和数学的DeepSeek-Coder-V2、用于视觉-语言任务的InternVL

数百万晶体数据训练,解决晶体学相位问题,深度学习方法PhAI登Science 数百万晶体数据训练,解决晶体学相位问题,深度学习方法PhAI登Science Aug 08, 2024 pm 09:22 PM

编辑|KX时至今日,晶体学所测定的结构细节和精度,从简单的金属到大型膜蛋白,是任何其他方法都无法比拟的。然而,最大的挑战——所谓的相位问题,仍然是从实验确定的振幅中检索相位信息。丹麦哥本哈根大学研究人员,开发了一种解决晶体相问题的深度学习方法PhAI,利用数百万人工晶体结构及其相应的合成衍射数据训练的深度学习神经网络,可以生成准确的电子密度图。研究表明,这种基于深度学习的从头算结构解决方案方法,可以以仅2埃的分辨率解决相位问题,该分辨率仅相当于原子分辨率可用数据的10%到20%,而传统的从头算方

谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back 谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back Jul 26, 2024 pm 02:40 PM

对于AI来说,奥数不再是问题了。本周四,谷歌DeepMind的人工智能完成了一项壮举:用AI做出了今年国际数学奥林匹克竞赛IMO的真题,并且距拿金牌仅一步之遥。上周刚刚结束的IMO竞赛共有六道赛题,涉及代数、组合学、几何和数论。谷歌提出的混合AI系统做对了四道,获得28分,达到了银牌水平。本月初,UCLA终身教授陶哲轩刚刚宣传了百万美元奖金的AI数学奥林匹克竞赛(AIMO进步奖),没想到7月还没过,AI的做题水平就进步到了这种水平。IMO上同步做题,做对了最难题IMO是历史最悠久、规模最大、最负

为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架 为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架 Jul 25, 2024 am 06:42 AM

编辑|ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choicequestions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答

PRO | 为什么基于 MoE 的大模型更值得关注? PRO | 为什么基于 MoE 的大模型更值得关注? Aug 07, 2024 pm 07:08 PM

2023年,几乎AI的每个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下,Transformer作为AI大模型主流架构的局面是否会撼动?为何探索基于MoE(专家混合)架构的大模型成为业内新趋势?大型视觉模型(LVM)能否成为通用视觉的新突破?...我们从过去的半年发布的2023年本站PRO会员通讯中,挑选了10份针对以上领域技术趋势、产业变革进行深入剖析的专题解读,助您在新的一年里为大展宏图做好准备。本篇解读来自2023年Week50

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊 准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊 Aug 06, 2024 pm 07:34 PM

编辑|KX逆合成是药物发现和有机合成中的一项关键任务,AI越来越多地用于加快这一过程。现有AI方法性能不尽人意,多样性有限。在实践中,化学反应通常会引起局部分子变化,反应物和产物之间存在很大重叠。受此启发,浙江大学侯廷军团队提出将单步逆合成预测重新定义为分子串编辑任务,迭代细化目标分子串以生成前体化合物。并提出了基于编辑的逆合成模型EditRetro,该模型可以实现高质量和多样化的预测。大量实验表明,模型在标准基准数据集USPTO-50 K上取得了出色的性能,top-1准确率达到60.8%。

SOTA性能,厦大多模态蛋白质-配体亲和力预测AI方法,首次结合分子表面信息 SOTA性能,厦大多模态蛋白质-配体亲和力预测AI方法,首次结合分子表面信息 Jul 17, 2024 pm 06:37 PM

编辑|KX在药物研发领域,准确有效地预测蛋白质与配体的结合亲和力对于药物筛选和优化至关重要。然而,目前的研究没有考虑到分子表面信息在蛋白质-配体相互作用中的重要作用。基于此,来自厦门大学的研究人员提出了一种新颖的多模态特征提取(MFE)框架,该框架首次结合了蛋白质表面、3D结构和序列的信息,并使用交叉注意机制进行不同模态之间的特征对齐。实验结果表明,该方法在预测蛋白质-配体结合亲和力方面取得了最先进的性能。此外,消融研究证明了该框架内蛋白质表面信息和多模态特征对齐的有效性和必要性。相关研究以「S

See all articles