• 中国中文核心期刊
  • 中国科学引文数据库核心期刊
  • 中国科技核心期刊
  • 中国高校百佳科技期刊
高级检索

基于人工智能的药物研发:目前的进展和未来的挑战

余泽浩, 张雷明, 张梦娜, 戴智琦, 彭成斌, 郑四鸣

余泽浩, 张雷明, 张梦娜, 戴智琦, 彭成斌, 郑四鸣. 基于人工智能的药物研发:目前的进展和未来的挑战[J]. 中国药科大学学报, 2023, 54(3): 282-293. DOI: 10.11665/j.issn.1000-5048.2023041003
引用本文: 余泽浩, 张雷明, 张梦娜, 戴智琦, 彭成斌, 郑四鸣. 基于人工智能的药物研发:目前的进展和未来的挑战[J]. 中国药科大学学报, 2023, 54(3): 282-293. DOI: 10.11665/j.issn.1000-5048.2023041003
YU Zehao, ZHANG Leiming, ZHANG Mengna, DAI Zhiqi, PENG Chengbin, ZHENG Siming. Artificial intelligence-based drug development: current progress and future challenges[J]. Journal of China Pharmaceutical University, 2023, 54(3): 282-293. DOI: 10.11665/j.issn.1000-5048.2023041003
Citation: YU Zehao, ZHANG Leiming, ZHANG Mengna, DAI Zhiqi, PENG Chengbin, ZHENG Siming. Artificial intelligence-based drug development: current progress and future challenges[J]. Journal of China Pharmaceutical University, 2023, 54(3): 282-293. DOI: 10.11665/j.issn.1000-5048.2023041003

基于人工智能的药物研发:目前的进展和未来的挑战

基金项目: 浙江省中医药科技计划资助项目(No.2022ZB323);浙江省医药卫生科技计划资助项目(No.2022KY1114);宁波市自然科学基金资助项目(No.2021J268)

Artificial intelligence-based drug development: current progress and future challenges

Funds: This study was supported by the TCM Science and Technology Plan Project of Zhejiang Province (No.2022ZB323); the Medical and Health Science and Technology Plan Project of Zhejiang Province (No.2022KY1114); and the Natural Science Foundation of Ningbo (No.2021J268)
  • 摘要: 近年来,人工智能在药物研发领域得到了广泛的应用。特别是自然语言处理技术在预训练模型的出现后有了非常显著的提高,在此基础上,图神经网络的引入也使得药物研发变得更加准确和高效。为了使药物研发者更加系统全面地了解人工智能在药物研发中的应用,本文介绍了人工智能中的前沿算法,同时阐述了人工智能在药物小分子设计、虚拟筛选、药物再利用以及药物性质预测等多方面的应用场景,最后探讨它在未来药物研发中的机遇与挑战。
    Abstract: In recent years, artificial intelligence (AI) has been widely applied in the field of drug discovery and development.In particular, natural language processing technology has been significantly improved after the emergence of the pre-training model.On this basis, the introduction of graph neural network has also made drug development more accurate and efficient.In order to help drug developers more systematically and comprehensively understand the application of artificial intelligence in drug discovery, this article introduces cutting-edge algorithms in AI, and elaborates on the various applications of AI in drug development, including drug small molecule design, virtual screening, drug repurposing, and drug property prediction, finally discusses the opportunities and challenges of AI in future drug development.
  • 癌症作为危及人类健康的重大疾病之一,至今仍未出现彻底攻克的有效手段。近年来兴起的基因治疗是一类有前景的、精确的治疗手段,以特定核酸序列的方式靶向致病基因。核酸成药正在开创新药研发的新领域,有望治疗癌症等各种基因特异性疾病[1]。核酸药物能够针对传统小分子或蛋白质/抗体药物无法作用的靶点,这一独特的特性使得核酸药物在近些年被广泛开发利用,且相较于小分子或蛋白质/抗体药物,核酸药物具有更短的研发周期和更广阔的治疗领域,在治疗人类疾病如癌症、病毒感染和遗传性疾病方面拥有巨大潜力。与此同时,以机器学习(machine learning, ML)、深度学习(deep learning, DL)为代表的人工智能在近几年有了极大的发展。本文首次以核酸药物研发领域的人工智能算法、数据库、表征等基础作为切入点,详细阐述了人工智能在核酸结构预测、小核酸药物设计等核酸药物研发环节中的应用和进展。

    在当前核酸药物研发领域,人工智能算法的应用呈现出多样化的特征,包括ML、DL等。ML算法包括监督学习(supervised learning, SL)、无监督学习(unsupervised learning, UL)和强化学习(reinforcement learning, RL)。其中,SL通过建立模型识别数据中的关联模式,以k-近邻算法和决策树算法为代表算法,常用于解决分类问题,当用于解决回归问题时则多用线性回归和逻辑回归;UL可以在数据未标记的情况下探索数据的内在结构和特征,多用于解决降维、聚类问题;RL主要用于解决决策问题,通过智能体与环境的交互学习来最大化累积奖励。DL算法的技术基础是深度神经网络(deep neural networks, DNN),包括卷积神经网络(convolutional neural networks, CNN),由卷积层、池化层、激活函数和全连接层组成,多用于二维结构图像的分割分类;循环神经网络(recurrent neural network, RNN),可以分为双向、深度循环神经网络和长短期记忆网络(long short-term memory, LSTM);Transformer,序列建模任务中的主流算法,可用于自然语言处理,进而可以进行交互式核酸药物设计。深度强化学习(deep reinforcement learning, DRL)融合了RL和DL,包括动态规划、蒙特卡洛、时间差分学习等基于值函数的算法, 以及基于执行器评价器和深度确定性的策略梯度算法。此外,还有深度生成模型(deep generative model, DGM),包括变分自编码器、生成式对抗网络和流生成模型,能够学习数据分布并生成新数据样本,为核酸药物发现和设计提供思路方法。

    高质量的数据是人工智能的生命。随着新技术新方法在生物医药研究中的不断应用,生物大分子序列、结构等数据量高速增长,越来越多的数据库也应运而生。现有核酸数据库可以按核酸序列、碱基对相互作用、三维空间构象等核酸结构层级分为一级、二级、三级核酸数据库,表1对常用核酸数据库进行了总结。

    表  1  常用核酸数据库
    类 别 名 称 特 点 地 址
    一级核酸数据库 GenBank 最高频核酸数据库,常用Entrez id检索访问,或用BLAST等工具对比序列[6] ncbi.nlm.nih.gov/genbank
    ENA 提供全球核苷酸测序信息记录,涵盖原始测序数据、序列组装信息和功能注释[7] ebi.ac.uk/ena/browser/home
    DDBJ 数据主要通过Sakura和MST工具完成[8] ddbj.nig.ac.jp/index-e.html
    二级核酸数据库 RefSeq 包含基因组、转录本和蛋白质的全面、非冗余、注释良好的参考序列和相关信息[9] ncbi.nlm.nih.gov/refseq
    miRBase microRNA数据库,可以分析microRNA基因组定位和挖掘microRNA序列间关系[10] mirbase.org
    dbEST GenBank分支之一,表达序列标签[6] ncbi.nlm.nih.gov/genbank/dbest
    RNAcentral 非编码RNA序列数据库,整合了Ensembl、GENCODE、HGNC、lncRNAdb等51个数据库[11] rnacentral.org
    三级核酸数据库 NDB 专门收录核酸、核酸-蛋白质复合物等核酸相关结构数据和注释信息,提供特征分析工具和几何序列搜索、结构可视化等工具[12] ndb-archive.rcsb.rutgers.edu
    NAKB 将NDB中的信息与附加序列、结构、功能和基于相互作用的注释集成到含核酸的三级结构,包括对所有核酸类型的等价计算,能够进行更精确的检索[13] nakb.org
    wwPDB 管理归档了生物大分子结构数据,由RCSB PDB、PDBe、PDBj、BMRB等子数据库组成 wwpdb.org
    NPIDB 蛋白-核酸复合物结构数据库,侧重相互作用模式分类、相互作用界面水分子保守性信息[14] ngdc.cncb.ac.cn/databasecommons/database/id/369
    PDIdb 蛋白-核酸复合物结构数据库,侧重高质量复合物结构、蛋白质-DNA界面间残基相互作用[15] melolab.org/pdidb/web/content/home
    DNAproDB 蛋白-核酸复合物结构数据库,侧重生化特征[16] dnaprodb.usc.edu
    PRIDB 蛋白-核酸复合物结构数据库,侧重非冗余蛋白-RNA相互作用界面综合性数据[17] ngdc.cncb.ac.cn/databasecommons/database/id/614
    下载: 导出CSV 
    | 显示表格

    其中,世界三大一级核酸数据库 GenBank、ENA(European Nucleotide Archive)、DDBJ(DNA Data Bank of Japan),每日交换、同步数据,构成国际核酸序列数据库合作联盟(INSDC)[2]。三级核酸数据库包括专门核酸结构数据库、包含核酸结构的大分子数据库、蛋白-核酸复合物结构数据库。全球蛋白质数据库组织(wwPDB)管理归档了现有生物大分子结构数据,主要由RCSB PDB、PDBe、PDBj、BMRB组成,RCSB PDB中包含了通过X射线单晶衍射得到的DNA和RNA结构数据[3]、BMRB中包含了核酸大分子的核磁共振实验数据[4]等。

    此外,根据核酸研究(nucleic acids research, NAR)数据库统计报告[5],2023年有90个新数据库上线、82个数据库更新。还有许多核酸数据库未详细介绍,如DNA酶数据库DNAmoreDB、mRNA数据库mirDIP和UTRdb、原核生物基因组数据库ECDC和NRSub等。

    数据决定人工智能的上限,而精准的数据表征可以最大程度发挥数据的价值。在当前人工智能算法大多是向量处理算法的背景下,核酸表征都是从核酸的结构特征或性质特征出发,将核酸数据转化为向量的同时尽量保留原始信息。目前,核酸数据表征可以分为基于序列信息,理化性质和二级、三级结构的特征表征,下文对每类表征中最常用的1~2种表征进行重点介绍。

    独热(one-hot)编码是一种常用的特征编码方式,尤其适用于纯数据驱动的DL模型,表征核酸序列时可以不依赖先验生物学知识。核酸序列原始数据中的“A”“C”“G”“T”可以转换为二进制向量,它们可以分别被编码为(1,0,0,0)∶(0,1,0,0)∶(0,0,1,0)∶(0,0,0,1),随后长度为n的核酸序列就可以被表征为4×n的矩阵,如图1所示。经过转换,核酸序列就可以作为DL模型的输入层。基于CNN预测蛋白质核酸相互作用偏好的DeepBind[18]是第一个使用one-hot编码表征核酸序列的DL模型。基于CNN和RNN预测蛋白质和RNA相互作用的iDeepS[19]更进一步,使用one-hot编码表征核酸的序列和预测所得二级结构,用于后续卷积操作。

    图  1  独热(one-hot)编码示意图

    开放阅读框(open reading frame, ORF)也可以用作核酸特征表征。“阅读框”指双链基因序列翻译氨基酸的不同种可能性;“开放”指完整基因序列中用于翻译氨基酸的区域。ORF有3种不同定义,Sieber等[20]将不同定义研究比较,认为“长度能被3整除、以终止密码子为界”的定义更适用于真核和原核生物,如图2所示,ORF的这种定义对剪切位点没有影响。ORF表征核酸的特征包括最长开放阅读框的长度,最长开放阅读框在整个序列中的占比,序列是否完整包含起始和终止密码子等。

    图  2  开放阅读框(ORF)定义示意图

    此外,还有多种基于序列信息的核酸表征,例如基于核苷酸出现频率的k-mer特征表征[21],基于RNA序列短基序频率和自然语言信息熵理论描述核酸序列的熵密度分布特征表征[22],终止密码子特征表征和GC含量特征表征等。

    稀疏编码通过与核酸理化性质联系,实现核酸特征表征。Meher等[23]把核苷酸编码为三维向量(x, y, z),3个坐标分别根据核苷酸是嘌呤或嘧啶、是胺衍生物或酮衍生物、是强氢键或弱氢键相互作用,用1或0表示,即编码A、T、G、C的三维向量分别是(1,1,1)∶(0,0,1)∶(1,0,0)∶(0,1,0)。

    伪蛋白是指,针对非编码RNA,根据氨基酸翻译规则人为翻译的非自然肽链。Yang等[24]研究表明,伪蛋白序列和理化性质与构成真实蛋白的肽链有一定差异,据此伪蛋白特征可以对核酸进行表征。Cock等[25]研究揭示,伪蛋白表征核酸的特征包括:相对分子质量、等电点、等电点与相对分子质量比值的对数、氨基酸亲水平均值、不稳定指数等。

    另外,常见的基于理化性质的核酸表征还有双核苷酸自相关性特征表征、伪二核苷酸组成特征表征、电子-离子相互作用赝势特征表征等。

    One-hot编码策略也可以用于编码RNA二级结构特征实现核酸表征[26]。Danaee等[27]开发的工具bpRNA就可以通过解析RNA二级结构特征信息得到通用注释,其解析的二级结构包括:茎(S)、段(X)、凸起(B)、发夹环(H)、内部环(I)、外部环(E)、多环(M)等。基于此,one-hot编码策略就可以编码二级结构[28],例如茎(S)编码为(1,0,0,0,0,0,0)T,而后就可以将RNA编码为7行多列的矩阵。此外,还有多种基于二级结构特征的表征方法。例如,基于二级结构的保守性,对RNA与其同家族RNA存在同源结构的情况进行打分和表征[24];根据转录本的最小自由能、或根据配对碱基数量和未配对碱基数量等二级结构描述符进行特征表征[28];Han等[29]还综合上述多种特征,提出了多尺度的二级结构信息表征核酸,包括基于稳定性的低层次特征、基于碱基配对情况的中层次特征和基于结构-核苷酸序列的高层次特征;另外,还有基于DL方法的RNA结构预测工具UFold[30]也使用二级结构进行核酸表征[31]

    当前基于核酸三级结构的表征方法较少,大多从蛋白质结构表征方法迁移而来,它们在核酸三级结构表征中同样适用,主要有以下几种:(1)距离矩阵,通过三级结构中各个核苷酸之间的物理距离进行特征表征;(2)拓扑协同特征,三级结构具有环状结构、折叠等复杂的空间关系,可以通过计算环系统的数量和类型等不同级别的拓扑特征来进行核酸表征;(3)嵌入技术,利用自编码器等DL模型,可以直接从三级结构数据中学习得到低维表示,这种表征方法可以自动捕捉数据中的复杂模式,不需要手动设计特征。随着人工智能技术的全面发展以及对蛋白结构领域相对成熟的表征方法的经验借鉴,核酸三级结构表征方法必将有所突破。

    目前,人工智能在核酸药物研发领域的应用重点集中在核酸结构预测和小核酸药物设计方面。人工智能先进的算法和模型推进了核酸基础研究进程,加速了小核酸药物的发现,极大地提高了研发效率。

    核酸结构预测是指,通过已知核酸序列,预测其二级、三级,甚至四级结构。自1978年第1个核酸分子晶体结构被解出到现在,由于核酸骨架动态变化的灵活性和带负电磷酸基团在结晶中的互斥作用[32],解析核酸晶体结构仍比解析蛋白质困难得多,因此,推进核酸结构预测研究具有极高必要性。当前,核酸结构预测方法可以分为经典计算方法和基于ML的人工智能方法。

    基于经典计算的方法可以分为核酸二级结构预测方法和三级结构预测方法。

    (1)二级结构预测

    核酸二级结构预测的最底层原理是碱基互补配对和碱基堆积力。由于生物体内核酸的碱基互补配对原则,DNA普遍形成双螺旋结构,RNA则会形成茎环、假结、三叶草结构等更复杂多样的二级结构。因此,现有研究侧重于RNA二级结构的精准预测,主要分为单序列预测和多序列对比预测。

    当前单序列预测方法主要有最小自由能方法、动态规划算法和基于抽样统计的方法。最小自由能方法[33]认为真实世界的核酸二级结构必定拥有最小的或偶尔次最小的吉布斯自由能,例如基于Zuker-Stiegle算法的RNAfold和Mfold,其中Mfold还加入了酶切位点、化学反应性等数据来提高预测准确性,这一类算法的缺点是在处理长序列核酸时耗费较大。动态规划算法[34]利用递归和记忆化技术来预测核酸序列碱基配对最大化的结构,例如pknotsRG,这类算法不用穷举序列总长度的所有可能结构,只需从最短片段出发,确定所有可能结构中自由能最低的构象然后保存,继而逐步延伸到更长片段,但这类算法在预测假结结构时会受限。抽样统计方法[35]将输入核酸序列的所有二级结构经过Bolzmann分布处理后,使用分配函数条件概率随机抽样并进行聚类,最后得到代表性结构,例如Sfold,这类方法也可以用于小核酸药物的理性设计。

    多序列对比法的开发是为了解决单序列方法中的热力学参数不完全符合真实体内环境、忽略核酸碱基的化学修饰、未包含核酸共进化信息等[36]局限性问题。多序列对比法基于客观事实:生物体进化过程中,核酸的二级、三级结构保守程度大于一级序列[37]。当一个碱基突变时,这个区域势必进一步再次突变补偿互作体系,维持结构稳定性。因此多序列对比法需要多条同源核酸序列的数据集。这类方法可以根据对比和预测的顺序进行分类。其中,先对比后预测的方法先通过多序列对比产生多条核酸对比结果,之后寻找保守序列,再使用单序列方法将其折叠成共有结构,这类方法包括结合最小自由能和共进化信息的RNAalifold、基于随机上下文无关文法的Pfold、基于随机上下文无关文法和热力学的PETfold、结合热力学和交互信息内容打分的ILM;同时对比和预测的方法大多基于限制性Sankoff算法,由序列对比和动态规划算法结合而成,这类方法包括Foldalign、Dynalign、PMcomp;先预测后对比的方法使用相对并不广泛,使用场景大多是在序列保守性信息完全缺失时,先使用单序列方法预测核酸结构,再运用简单树匹配算法对齐结构,这类方法首先需要确保单序列预测的结构足够准确,才能再进行后续分析,包括RNA forester、MARNA等[37]

    (2)三级结构预测

    三级结构预测方法主要在二级结构的基础上预测双螺旋以外区域的结构,目前可以分为使用同源模板的方法、仅基于量子力学的方法和基于片段拼合的方法。同源建模方法[38]认为同源核酸分子虽然序列有差异,但都生成相似的三级结构,因此找到同源模板即可进行建模预测,这种方法包括ModeRNA、SWISS-MODEL等,它们的优点是方便引入用户自定义的各种限制。从头建模方法[39]则不需要模板,这种方法仅依靠最基础的量子力学等物理学定律来模拟核酸构象变化,也因此在构象采样和计算能量等步骤中具有耗费大量计算资源的缺点,这种方法包括NAST、Vfold、DMD、SimRNA等。片段拼合方法[40]从已知的三级结构中切割片段,在二级结构等信息的指导下对片段进行组合,最后还可以使用基于物理或统计的打分函数评价组合的结构,这种方法包括RNA2D3D、RNA Composer等。

    在过去的二十年中,预测计算精度和速度并没有显著提高。直到近年来RNA序列数据的爆炸式增长以及ML技术的进步,最新的基于ML的方法在准确性和适用性方面超越了经典计算方法[41]。根据参与核酸结构预测环节的不同,基于ML的核酸结构预测方法可以分为基于ML的打分方案,基于ML的预处理和后处理,以及基于ML的全过程预测。其中所有基于ML的方法都以SL的方式训练模型[42],根据已知的成对的输入输出,通过调整模型参数来学习,将输入的特征映射到输出的函数。其中许多算法使用自由能参数、编码的RNA序列、序列模式或进化信息作为关键特征,其结果可以是输出碱基是否成对的分类标签或自由能的连续值[42]

    基于ML的方法通常训练一个ML模型,生成新的评分方案取代传统方法中的评分方案,方法框架如图3所示。根据得分含义,基于ML的评分方案可以分为自由能参数优化方法、加权方法、概率方法。其中自由能参数优化方法是当前最流行的方法[41]。近几年一些ML技术已经对能量模型中的参数进行了细化,利用已知的热力学数据或RNA二级结构数据,得到更丰富准确的特征表示。Xia等[43]首先使用已知的热力学数据训练了一个线性回归模型INN-HB,来推断一些热力学参数。然而这种方法会导致在计算其他参数之前,一些结构元素的范围已经被固定,限制了参数集整体考虑的可能性范围。为了克服这个问题,Andronescu 等[44]提出了约束生成方法来估计自由能参数,使用不同类型约束确保参考结构比同一序列的备选方案能量更低。该方法获得的F-score比标准Turner参数高7%。随后他们进一步改进方法,使用更大的数据集[45]提出了一个损失增强的LAM-CG模型和Boltzmann-likelihood模型,能够做到对参数施加约束,当结构越不准确,其自由能与训练集中参考结构自由能之间的差值越大。此外,自由能参数优化方法所确定的参数是热力学性质的,可以直接嵌入其他能量模型的算法中,如miRNA靶标预测算法[46]和RNA折叠动力学模拟算法[47]

    图  3  基于ML打分方案的核酸二级结构预测方法框架。可以使用湿实验室数据、核酸序列数据或核酸结构数据来训练ML模型以获得打分方案

    ML也可用于预处理或后处理,方法框架如图4所示,预处理时可以用于选择合适预测方法或参数。Hor等[48]提出了一种基于支持向量机的工具,选择预测方法的依据是:不同RNA序列具有不同特征,每种预测方法在特定不同的RNA物种中效果最好。Zhu等[49]假设不同RNA序列遵循不同折叠规则,提出一种基于随机上下文无关文法的模型,用于在RNA二级结构预测之前识别最可能的折叠规则。由于不同预测方法会返回不同结构,ML模型用于后处理可以确定预测结果中最可能的结构。Andrews等[50]结合图论使用决策树方法表示RNA图形结构,而后使用图形不变量作为输入特征,训练了一个多层感知器判断其是否为RNA-like结构。

    图  4  基于ML预处理或后处理的核酸二级结构预测方法框架。在核酸二级结构预测中,由序列数据训练得到的ML模型可用于预处理,用来选择合适的预测方法或一组合适的参数;由结构数据训练得到的ML模型也可以提供一种方法来确定预测结果中最可能的结构

    ML还可以直接参与核酸结构的预测过程,实现从序列到结构的端到端(end-to-end)预测,预测方法框架如图5所示。Singh等[51]开发的SPOT-RNA是第一个预测RNA二级结构的基于DL的end-to-end模型,将RNA 序列接触矩阵作为输入,采用CNN、二维双向LSTM、全连接层模块组成的混合深度网络,先经过14565个非冗余RNA数据集训练,而后在226个高精度RNA 结构上进行迁移学习。多个外部测试集的测试表明,SPOT-RNA的RNA结构预测性能显著优于基于评分的方法,且能用于预测非经典、非嵌套碱基配对。SPOT-RNA2[52]使用进化驱动的序列数据和突变耦合作为网络输入,同样使用迁移学习策略,得到比第一代更好的性能。序列信息之外,核酸的形状数据、共进化数据等也可以融入DL模型[5354]

    图  5  基于ML全过程预测的核酸二级结构预测方法框架。通过湿实验数据、核酸序列数据或核酸结构数据进行训练ML模型以端到端的方式直接用于预测核酸二级结构,还可以加入过滤器或优化器获得最优的核酸二级结构。

    在基于ML的核酸三级结构预测中,Townshend等[55]仅从18个RNA结构出发,构建旋转和平移等变性DNN模型,训练得到的原子旋转等变评分器大幅提升了RNA结构全盲预测的准确性。由于输入参数仅仅是原子坐标和原子类型,不包含RNA结构其他信息,此方法可以推广到结构生物学、化学和材料学等领域。Wang等[56]开发的3dRNA使用最小二级元素,通过模板方法从RNA序列和二级结构中建模RNA三级结构。Wang等[57]开发的trRosettaRNA 包括两个主要步骤,通过Transformer网络进行一维二维几何形状预测,以及通过能量最小化进行的三维结构折叠。还有其他模型如MELD-DNA[58]和 RoseTTAFoldNA[59]实现了核酸和蛋白质复合物结构的准确预测。

    小核酸药物由治疗特定疾病、诱导特定功能的核苷酸序列构成,通常是核苷酸数小于30的短链RNA,通过与靶标mRNA形成相互作用来调节基因或抑制沉默基因。根据小核酸药物设计模式,可以分为靶向核酸设计、靶向蛋白质设计和编码蛋白质设计[1]

    针对靶向核酸进行设计的小核酸药物主要有单链反义寡核苷酸(antisense oligonucleotides, ASOs)和小干扰RNA(small interfering RNA, siRNA)。ASOs是人工合成的寡核苷酸,通常长度为12~30个核苷酸。ASOs作用机制主要有两种[1]:与靶mRNA结合,使靶mRNA 更容易被核酸水解酶识别和降解;调节RNA剪接,与靶mRNA高特异性结合,通过空间位阻效应调控基因转录过程,影响靶mRNA正常剪接过程。siRNA则是双链RNA,比ASOs更难进入细胞,通常有20~27个碱基对,有抑制基因表达的作用[1]。RNA干扰分为3个阶段:起始阶段dsRNA被RNA酶Dicer等切割成siRNA;效应阶段siRNA和内切核酸酶一起形成RNA诱导沉默复合物(RNA-induced silencing complex, RISC),siRNA解链,正义链降解,反义链与靶mRNA结合,而后RISC的切割蛋白Ago-2降解靶mRNA;扩增阶段siRNA作为RNA引物在RNA聚合酶作用下再次形成dsRNA,循环往复。

    靶向蛋白质的小核酸药物设计使用核酸适配体。核酸适配体由20~50个核苷酸组成,可与蛋白质特定位点结合,调节其功能。核酸适配体起效快速、作用可逆,能够辅助麻醉调节凝血,有望在外科手术和急诊科室中发挥作用。

    mRNA作为小核酸药物可以生成需要的蛋白质。mRNA 注射进体内被细胞吸收识别后,会启动蛋白质合成程序,生成所需蛋白质[60]。目前这类小核酸药物主要应用在疫苗领域,例如预防传染病的mRNA 疫苗表达感染性病原体抗原,诱导强效细胞体液免疫应答;癌症mRNA疫苗用来表达肿瘤相关抗原,刺激细胞免疫清除癌细胞。

    目前共有15款小核酸药物上市,但由于小核酸药物主要作用于细胞内靶点,其设计具有许多挑战,包括:易被非特异性RNA酶水解;常带负电荷,很难穿过细胞膜;易被生物体防御系统识别,导致急性免疫反应,甚至炎症因子风暴等。因此,开发安全高效的小核酸药物设计方法需要人工智能的助力。基于人工智能的小核酸药物设计方法主要分为:基于ML的设计方法和基于DL的设计方法,后者又可以分为基于DNN的方法、基于DRL的方法和基于DGM的方法。

    基于ML的设计方法主要包括动态探索、模拟退火、约束规划、多目标元启发式算法、支持向量机等方法。

    动态探索属于初始算法之一。Churkin等[61]开发的RNAInverse模型使用简单的自适应游走,通过比较变异RNA序列的最小能量折叠与目标结构来计算碱基对之间的距离,实现碱基对距离的最小化。Andronescu等[62]开发的RNA-SSD算法首先将结构分为子结构再进行自适应游走,以便减小搜索空间的大小。Hampson等[63]提出新的动态探索策略,在算法早期减少折叠次数,尝试不增加运行时间,探索更多样的设计空间,这种方法的缺点是没有特定的最佳参数集。Busch等[64]研发的INFO-RNA首先使用动态规划生成序列,估计目标结构的最小能量序列,然后使用模拟退火执行随机搜索。Taneda等[65]的MODENA使用遗传算法生成初始集合,然后使用交叉移动,同一位置的两个候选解相互交换,或单点突变执行随机搜索,最后使用对所得序列的结构稳定性和相似性打分的目标函数判断集合。百度公司研发的LinearDesign[66]是mRNA序列优化模型,通过动态规划算法,联合优化序列稳定性和密码子翻译效率指标,设计具有最佳折叠稳定性和密码子的mRNA。LinearDesign突破了高稳定性设计瓶颈,可以优化编码单克隆抗体等所有治疗性蛋白的mRNA。Zhao等[67]使用LinearDesign设计具有最佳折叠稳定性和密码子使用的mRNA,开发了一种用于CHB治疗的编码乙型肝炎表面抗原的LNP-mRNA疫苗,兼具强免疫原性和持续抗病毒作用。

    模拟退火是一种概率优化算法,适用于具有大量局部最优解的复杂优化问题。设计核酸序列的模拟退火方法包括SIMARD[68]、ERD[69]和RNAPredict[70],这些方法都旨在返回折叠后接近目标结构的RNA序列。这类方法有以下特点[71]:缺点包括只使用单一模拟退火冷却,最多只涵盖两个模拟退火变体的四个RNA设计问题,几何调度参数的不敏感;优点包括对数冷却调度可以解决其他调度无法解决的RNA 设计问题,可以识别RNA设计自适应和非自适应调度中的常见问题等。

    Minuesa等[72]开发了基于约束编程的核酸设计算法MoiRNAiFold,包括新变量类型、启发式和大邻域搜索的重启策略,可以处理数十种设计约束和质量措施,并改进了如翻译效率计算等基因表达的核糖核酸调节控制功能,但不能预测趾扣开关结构的功效。MoiRNAiFold专注于RNA 核糖调节体,所设计的RNA序列在体外和体内都具有功能,为从头生成复杂RNA设计提供了一个强大工具。

    Rubio-Largo等[73]设计了多目标元启发式算法m2dRNAs,考虑了目标和预测结构之间的相似性作为约束,以及3个目标函数:系综自由能配分函数;整体多样性函数;核苷酸组成函数。因此m2dRNAs可以提供稳定的RNA序列,并确保结构预测的可靠性,避免过度偏差。m2dRNAs与RNAinverse、RNA-SSD、INFO-RNA、MODENA、NUPACK、fRNAkenstein、RNAiFOLD等其他已发表的RNA逆折叠方法进行了比较,发现其性能优于当前其他方法。

    Chiba等[74]开发了目前最大的反义核酸药物数据库eSkip-Finder,首个基于ML方法预测外显子跳跃效率的工具,使用了支持向量回归器,为抗肌萎缩蛋白mRNA 靶外显子的相对跳跃功效构建了一个预测模型。eSkip-Finder收集了外显子跳跃药物的序列、活性等信息数据,目的是研发外显子跳跃治疗遗传神经和肌肉疾病的新药。

    基于DNN的设计方法包括CNN、深度卷积去噪神经网络(deep convolutionary denosing neural network, DCDNN)、CNN与LSTM结合、LSTM等方法。

    Han等[75]利用DL算法CNN开发了一种预测器用于siRNA设计,并探索不同基序对基因沉默的影响,在CNN模型的卷积层中,将卷积核设计为基序检测器,自动学习siRNA多模基序的潜在特征模式。这一类特征更抽象,对分类更有利。测试结果表明该模型的Pearson相关系数为0.717,比Biopredsi、DSIR和siRNApred算法分别高出13.81%、16.78%和5.91%。因此,模型可以探索siRNA 多模基序对疗效的贡献,并获取序列局部特征中有价值信息的特征模式。

    Chuai等[76]提出了一个计算平台DeepCRISPR,基于DCDNN的自动编码器设计向导RNA(small guide RNA, sgRNA)。DeepCRISPR 将 sgRNA 靶上预测和靶外预测进行统一,自动化识别可能影响sgRNA敲除效果的序列和表观遗传特征。CRISPR可用于同时预测sgRNA靶向敲除效果和全基因组脱靶谱;DeepCRISPR则可以解释和优化CRISPR的目标内、外设计。

    Tasdelen等[77]提出了一种基于pre-miRNA顺序结构和空间结构的混合DL方法,通过集成CNN和LSTM这两种不同的神经网络,来实现pre-miRNA的分类任务。CNN自动从输入数据中提取特征,从而解决了手动特征提取的问题。在卷积输入数据的CNN层之后,LSTM层则用于执行时间建模。该方法使用Keras库在Python中实现,模型后端为TensorFlow。

    Im等[78]开发了一个生成模型,利用LSTM构建与目标蛋白结合的单链核酸,其生成的多个目标蛋白的DNA和RNA序列具有很高的特异性,生成序列中的基序与已知的蛋白质结合基序相似。此方法可用于生成与靶蛋白结合的核酸序列,特别是还可以用于构建具有高亲和力和特异性的与目标蛋白结合的潜在适配体初始池,有助于设计高效体外实验。

    基于DRL的设计方法当前也有所进展。RNA结构特性决定功能,因此小核酸药物设计挑战之一是识别RNA中导致其折叠成特定结构的模式和序列,此过程称为RNA反向折叠。Runge等[79]采用DRL算法LEARNA,使用奖励机制驱动算法。在给定目标结构的情况下,算法按顺序设计整个RNA序列,在20个CPU核上对65000个不同RNA设计任务进行1 h的Meta学习后,可以得到扩展程序Meta-LEARNA。Meta-LEARNA学习了许多RNA设计问题的单一策略,通过使用贝叶斯优化方法解决架构搜索和超参数优化问题,在神经结构空间中对策略网络、训练过程中的超参数和决策过程中的制定来进行联合优化,可以适用于新的RNA设计。Eastman等[80]设计了一种RL算法,给定目标的二级结构,在算法内部设计一个可以折叠到该结构的新序列。它采用了一种高级图卷积架构,允许将单个模型应用于任意长度的任意目标结构,在对随机生成的目标进行训练后,在Eterna100基准上进行了测试,发现它的性能优于目前所有其他算法。

    目前,相较于基于DGM的小分子药物设计方法,基于DGM的小核酸药物设计方法还相对较少。Iwano等[81]开发了RaptGen,一种用于生成核酸适配体的变分自编码器模型。RaptGen利用一个轮廓隐藏的马尔可夫模型解码器来有效地表示motif序列,在motif信息的基础上将模拟序列数据嵌入到低维潜在空间中,并使用两个独立的核酸适配体数据集进行了序列嵌入,成功地从潜在空间生成了适配体,RaptGen还可以生成一个截断的适配体,并且可以根据贝叶斯优化应用于活性引导的适配体生成。此外,在更广泛的核酸研究领域,DGM的应用也在逐渐增多。Sumi等[82]开发了RfamGen,一种利用变分自编码器框架结合协变模型架构的DGM模型,可以高效地设计RNA家族序列。Gupta等[83]提出了一个基于生成式对抗网络的产生DNA序列的反馈-循环机制,可以生成编码抗菌肽的合成基因,以及优化合成基因的二级结构。Linder等[84]开发了Fast SeqProp,它通过可微适应度预测器进行高效通用序列优化,可以结合变异自动编码器等多种正则化技术,保持序列设计的置信度。这些更广泛的核酸研究可以为开发新的小核酸药物设计方法提供启发。

    人工智能正在赋能核酸药物研发越来越多的环节,但总体仍处于起步阶段,还面临着许多挑战。例如对于核酸二级结构预测模型,过拟合是一个非常重要的问题。过拟合模型在与训练数据相似的测试RNA上表现良好,但泛化能力较差。模型只记住了训练集核酸的二级结构,并没有学习折叠机制。Sato等[85]的研究表明,E2Efold在新发现的RNA家族上表现不佳,可能存在严重过拟合现象。同样,Rivas等[86]报道,在与训练集结构不相似的一组RNA上测试时,ContextFold的F-score也降低了24%。又如siRNA药物设计有一个环节是siRNA脱靶效应的预测,即规避siRNA对非靶基因的影响。但当前siRNA设计模型中进行脱靶预测工作的最常用的基于序列对比原理的工具BLAST会不可避免地忽略部分潜在脱靶情况。尽管一直以来有许多基于热力学等其他原理的siRNA脱靶效应预测模型被开发,如Picky[87]、RIsearch2[88]、Batch RNAi selector[89]等,但它们的预测性能并没有显著超越BLAST,目前仍有待进一步开发性能更好、预测全面的集成模型。

    挑战与机遇并存。例如在核酸药物递送领域,人工智能的应用就相对较少。可电离脂质纳米颗粒(lipid nanoparticles, LNP)是核酸递送的主流技术,已经在mRNA新冠疫苗研发中得到产业化验证。Xu等[90]开发了AI-Guided Ionizable Lipid Engineering(AGILE)平台,首次利用DL和组合化学的协同来探索可离子化脂质分子搜索空间,通过预训练的DNN方法学习大量小分子化合物的结构知识,利用自我监督的方法学习辨别区分脂质结构。经过微调和高通量筛选,AGILE能够准确识别具有较高mRNA转染效力的新型脂质结构。这项研究首次证明了DL在加速和定制化LNP开发方面的潜力。同时,核酸药物治疗领域的蛋白替代疗法、再生疗法等新疗法正在带来丰富的研究需求,有待应用人工智能技术实现突破性进展。

    随着人工智能新技术、生物实验新数据、核酸表征新方法的发展,人工智能与核酸药物研发这个新兴交叉领域一定能释放巨大潜能,成为新药研发的重要支柱和核心技术。

  • [1] Gupta R, Srivastava D, Sahu M, et al. Artificial intelligence to deep learning: machine intelligence approach for drug discovery[J]. Mol Divers, 2021, 25(3): 1315-1360.
    [2] Jayatunga MKP, Xie W, Ruder L, et al. AI in small-molecule drug discovery: a coming wave[J]? Nat Rev Drug Discov, 2022, 21(3): 175-176.
    [3] Koromina M, Pandi MT, Patrinos GP. Rethinking drug repositioning and development with artificial intelligence, machine learning, and omics[J]. OMICS, 2019, 23(11): 539-548.
    [4] Yang X, Wang YF, Byrne R, et al. Concepts of artificial intelligence for computer-assisted drug discovery[J]. Chem Rev, 2019, 119(18): 10520-10594.
    [5] Hornik K, Stinchcombe M, White H. Multilayer feedforward networks are universal approximators[J]. Neural Netw, 1989, 2(5): 359-366.
    [6] LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
    [7] Bengio Y, Courville A, Vincent P. Representation learning: a review and new perspectives[J]. IEEE Trans Pattern Anal Mach Intell, 2013, 35(8): 1798-1828.
    [8] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Commun ACM, 2020, 63(11): 139-144.
    [9] ?ztürk H, ?zgür A, Schwaller P, et al. Exploring chemical space using natural language processing methodologies for drug discovery[J]. Drug Discov Today, 2020, 25(4): 689-705.
    [10] Kriegeskorte N, Golan T. Neural network models and deep learning[J]. Curr Biol, 2019, 29(7): R231-R236.
    [11] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM, 2017: 6000-6010.
    [12] Bagal V, Aggarwal R, Vinod PK, et al. MolGPT: molecular generation using a transformer-decoder model[J]. J Chem Inf Model, 2022, 62(9): 2064-2076.
    [13] Hu J, Gao J, Fang XM, et al. DTSyn: a dual-transformer-based neural network to predict synergistic drug combinations[J]. Brief Bioinform, 2022, 23(5): bbac302.
    [14] Zaikis D, Vlahavas I. TP-DDI: transformer-based pipeline for the extraction of drug-drug interactions[J]. Artif Intell Med, 2021, 119: 102153.
    [15] Jiang LK, Jiang CZ, Yu XY, et al. DeepTTA: a transformer-based model for predicting cancer drug response[J]. Brief Bioinform, 2022, 23(3): bbac100.
    [16] Zhang ZH, Chen LF, Zhong FS, et al. Graph neural network approaches for drug-target interactions[J]. Curr Opin Struct Biol, 2022, 73: 102327.
    [17] Yang ZD, Zhong WH, Zhao L, et al. MGraphDTA: deep multiscale graph neural network for explainable drug-target binding affinity prediction[J]. Chem Sci, 2022, 13(3): 816-833.
    [18] Jorgensen WL. Challenges for academic drug discovery[J]. Angew Chem Int Ed Engl, 2012, 51(47): 11680-11684.
    [19] Yan JL, Bhadra P, Li A, et al. Deep-AmPEP30: improve short antimicrobial peptides prediction with deep learning[J]. Mol Ther Nucleic Acids, 2020, 20: 882-894.
    [20] Zhavoronkov A, Ivanenkov YA, Aliper A, et al. Deep learning enables rapid identification of potent DDR1 kinase inhibitors[J]. Nat Biotechnol, 2019, 37(9): 1038-1040.
    [21] Yoshimori A, Bajorath J. Deep SAR matrix: SAR matrix expansion for advanced analog design using deep learning architectures[J]. Future Drug Discov, 2020. doi:10.4155/fdd-2020-0005.
    [22] Yoshimori A, Miljkovi? F, Bajorath J. Approach for the design of covalent protein kinase inhibitors via focused deep generative modeling[J]. Molecules, 2022, 27(2): 570.
    [23] Kennedy K, Cal R, Casey R, et al. The anti-ageing effects of a natural peptide discovered by artificial intelligence[J]. Int J Cosmet Sci, 2020, 42(4): 388-398.
    [24] Rein D, Ternes P, Demin R, et al. Artificial intelligence identified peptides modulate inflammation in healthy adults[J]. Food Funct, 2019, 10(9): 6030-6041.
    [25] Casey R, Adelfio A, Connolly M, et al. Discovery through machine learning and preclinical validation of novel anti-diabetic peptides[J]. Biomedicines, 2021, 9(3): 276.
    [26] Al-Khdhairawi A, Sanuri D, Akbar R, et al. Machine learning and molecular simulation ascertain antimicrobial peptide against Klebsiella pneumoniae from public database[J]. Comput Biol Chem, 2023, 102: 107800.
    [27] Yuan QT, Chen KY, Yu YM, et al. Prediction of anticancer peptides based on an ensemble model of deep learning and machine learning using ordinal positional encoding[J]. Brief Bioinform, 2023, 24(1): bbac630.
    [28] Huang JJ, Xu YC, Xue YF, et al. Identification of potent antimicrobial peptides via a machine-learning pipeline that mines the entire space of peptide sequences[J]. Nat Biomed Eng, 2023.doi:10.1038/s41551-022-00991-2.
    [29] Krishnan K, Kassab R, Agajanian S, et al. Interpretable machine learning models for molecular design of tyrosine kinase inhibitors using variational autoencoders and perturbation-based approach of chemical space exploration[J]. Int J Mol Sci, 2022, 23(19): 11262.
    [30] Kleandrova VV, Scotti MT, Scotti L, et al. Multi-target drug discovery via PTML modeling: applications to the design of virtual dual inhibitors of CDK4 and HER2[J]. Curr Top Med Chem, 2021, 21(7): 661-675.
    [31] Xing GM, Liang L, Deng CL, et al. Activity prediction of small molecule inhibitors for antirheumatoid arthritis targets based on artificial intelligence[J]. ACS Comb Sci, 2020, 22(12): 873-886.
    [32] Lien ST, Lin TE, Hsieh JH, et al. Establishment of extensive artificial intelligence models for kinase inhibitor prediction: identification of novel PDGFRB inhibitors[J]. Comput Biol Med, 2023, 156: 106722.
    [33] Goh GB, Hodas NO, Vishnu A. Deep learning for computational chemistry[J]. J Comput Chem, 2017, 38(16): 1291-1307.
    [34] Arul Murugan N, Ruba Priya G, Narahari Sastry G, et al. Artificial intelligence in virtual screening: models versus experiments[J]. Drug Discov Today, 2022, 27(7): 1913-1923.
    [35] Serafim MSM, Kronenberger T, Oliveira PR, et al. The application of machine learning techniques to innovative antibacterial discovery and development[J]. Expert Opin Drug Discov, 2020, 15(10): 1165-1180.
    [36] Arcon JP, Modenutti CP, Avenda?o D, et al. AutoDock Bias: improving binding mode prediction and virtual screening using known protein-ligand interactions[J]. Bioinformatics, 2019, 35(19): 3836-3838.
    [37] Arcon JP, Defelipe LA, Lopez ED, et al. Cosolvent-based protein pharmacophore for ligand enrichment in virtual screening[J]. J Chem Inf Model, 2019, 59(8): 3572-3583.
    [38] Zhang HP, Liao LB, Cai YT, et al. IVS2vec: a tool of Inverse Virtual Screening based on word2vec and deep learning techniques[J]. Methods, 2019, 166: 57-65.
    [39] Gong JN, Zhao L, Chen GX, et al. A novel artificial intelligence protocol to investigate potential leads for diabetes mellitus[J]. Mol Divers, 2021, 25(3): 1375-1393.
    [40] Beck BR, Shin B, Choi Y, et al. Predicting commercially available antiviral drugs that may act on the novel coronavirus (SARS-CoV-2) through a drug-target interaction deep learning model[J]. Comput Struct Biotechnol J, 2020, 18: 784-790.
    [41] Lamontagne F, Agarwal A, Rochwerg B, et al. A living WHO guideline on drugs for covid-19[J]. BMJ, 2020, 370: m3379.
    [42] Roessler HI, Knoers NVAM, van Haelst MM, et al. Drug repurposing for rare diseases[J]. Trends Pharmacol Sci, 2021, 42(4): 255-267.
    [43] Brasil S, Allocca M, Magrinho SCM, et al. Systematic review: drug repositioning for congenital disorders of glycosylation (CDG)[J]. Int J Mol Sci, 2022, 23(15): 8725.
    [44] Ancuceanu R, Hovanet MV, Anghel AI, et al. Computational models using multiple machine learning algorithms for predicting drug hepatotoxicity with the DILIrank dataset[J]. Int J Mol Sci, 2020, 21(6): 2114.
    [45] Chen MM, Yang ZY, Gao YX, et al. Fast identification of adverse drug reactions (ADRs) of digestive and nervous systems of organic drugs by in silico models[J]. Molecules, 2021, 26(4): 930.
    [46] Gong XJ, Hu M, Liu JZ, et al. Decoding kinase-adverse event associations for small molecule kinase inhibitors[J]. Nat Commun, 2022, 13(1): 4349.
    [47] Nguyen M, Long SW, McDermott PF, et al. Using machine learning to predict antimicrobial MICs and associated genomic features for nontyphoidal Salmonella[J]. J Clin Microbiol, 2019, 57(2): e01260-e01218.
    [48] Weis C, Cuénod A, Rieck B, et al. Direct antimicrobial resistance prediction from clinical MALDI-TOF mass spectra using machine learning[J]. Nat Med, 2022, 28(1): 164-174.
    [49] Yang ZY, Ye ZF, Xiao YJ, et al. SPLDExtraTrees: robust machine learning approach for predicting kinase inhibitor resistance[J]. Brief Bioinform, 2022, 23(3): bbac050.
    [50] Sui QH, Chen ZC, Hu ZY, et al. Cisplatin resistance-related multi-omics differences and the establishment of machine learning models[J]. J Transl Med, 2022, 20(1): 171.
    [51] Yu T, Fu Y, He JT, et al. Identification of antibiotic resistance in ESKAPE pathogens through plasmonic nanosensors and machine learning[J]. ACS Nano, 2023, 17(5): 4551-4563.
    [52] Chandrasekaran S, Cokol-Cakmak M, Sahin N, et al. Chemogenomics and orthology-based design of antibiotic combination therapies[J]. Mol Syst Biol, 2016, 12(5): 872.
    [53] Ma SY, Jaipalli S, Larkins-Ford J, et al. Transcriptomic signatures predict regulators of drug synergy and clinical regimen efficacy against tuberculosis[J]. mBio, 2019, 10(6): e02627-e02619.
    [54] Li XB, Dowling EK, Yan GH, et al. Precision combination therapies based on recurrent oncogenic coalterations[J]. Cancer Discov, 2022, 12(6): 1542-1559.
    [55] Zhang TY, Zhang LW, Payne PRO, et al. Synergistic drug combination prediction by integrating multiomics data in deep learning models[J]. Methods Mol Biol, 2021, 2194: 223-238.
    [56] Bate A. Bayesian confidence propagation neural network[J]. Drug Saf, 2007, 30(7): 623-625.
    [57] Wu ZX, Zhu MF, Kang Y, et al. Do we need different machine learning algorithms for QSAR modeling? A comprehensive assessment of 16 machine learning algorithms on 14 QSAR data sets[J]. Brief Bioinform, 2021, 22(4): bbaa321.
    [58] Lugagne JB, Dunlop MJ. Anticipating antibiotic resistance[J]. Science, 2022, 375(6583): 818-819.
    [59] Li S, Zhang B. Traditional Chinese medicine network pharmacology: theory, methodology and application[J]. Chin J Nat Med, 2013, 11(2): 110-120.
    [60] Ren SJ, Wu SL, Weng QH. Physics-informed machine learning methods for biomass gasification modeling by considering monotonic relationships[J]. Bioresour Technol, 2023, 369: 128472.
计量
  • 文章访问数:  1017
  • HTML全文浏览量:  30
  • PDF下载量:  433
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-04-09
  • 修回日期:  2023-06-11
  • 刊出日期:  2023-06-24

目录

/

返回文章
返回
x 关闭 永久关闭