使用Chrome浏览器效果最佳，继续浏览，你可能不会看到最佳的展示效果，

确定继续浏览么?

复制成功，请在其他浏览器进行阅读

基于人工智能的药物研发：目前的进展和未来的挑战

- ORCID：
余泽浩 ^1,2
- ORCID：
张雷明 ¹
- ORCID：
张梦娜 ²
- ORCID：
戴智琦 ^1,2
- ORCID：
彭成斌 ³
✉
- ORCID：
郑四鸣 ²

1. 宁波大学医学部，宁波 315211； 2. 宁波大学附属第一医院，宁波 315000； 3. 宁波大学信息科学与工程学院，宁波 315211

中图分类号： TP181； R914

最近更新：2023-07-03

DOI：10.11665/j.issn.1000-5048.2023041003

摘要

近年来，人工智能在药物研发领域得到了广泛的应用。特别是自然语言处理技术在预训练模型的出现后有了非常显著的提高，在此基础上，图神经网络的引入也使得药物研发变得更加准确和高效。为了使药物研发者更加系统全面地了解人工智能在药物研发中的应用，本文介绍了人工智能中的前沿算法，同时阐述了人工智能在药物小分子设计、虚拟筛选、药物再利用以及药物性质预测等多方面的应用场景，最后探讨它在未来药物研发中的机遇与挑战。

关键词

人工智能; 专家系统; 机器学习; 自然语言处理; 图神经网络; 药物设计; 药物研发

药物研发和应用是制药公司及生物医学研究领域中的一个重要方向。但由于药物研发与应用效果的影响因素繁杂，且各因素之间存在交互作用，因此使该领域有着周期长、成本高、成功率低等问题^［

1］。作为现代医学的一个分支，药学在发展过程中必须处理好“如何获取信息”“如何分析信息”以及“如何应用信息”等问题。这些挑战使得传统药物研发难以跟上当前疾病快速变化的趋势，由此导致很多疾病仍无法治愈。

人工智能（artificial intelligence，AI）凭借其自动化处理各类数据的能力，在各个研究领域中崭露头角。在药物研发领域主要包括基于知识的专家系统（expert system，ES）和基于数据的机器学习（machine learning，ML）。相比传统药物研发模式，与AI相结合的研发模式花费的时间和成本更低。与此同时，AI能够激发药物研发的潜能，推动制药行业的现代化进程。目前，越来越多的传统制药公司已经与AI公司建立了合作关系，以加速药物的研发进程^［

2］。

1 人工智能的发展

1.1　基于知识的人工智能——专家系统

ES的本质是把当前人类专家关于某些特定领域的知识浓缩输入电脑，以及让电脑学习其决策过程，使其对输入的情况提供指导性意见^［

3］（图1）。1976年，费根鲍姆等人开发的MYCIN系统首次应用于医药领域。它不仅可以帮助医生诊断脓毒症患者，还能为抗菌药物治疗的选择提供建议。

Figure 1 Expert system workflow diagram

Knowledge base: The expert's knowledge base; Database: Stores the initial evidence and various information obtained during the reasoning process; Inference engine: Controls and coordinates the whole system, which is the core of the expert system; Knowledge acquisition module: Modifies and expands the original knowledge in the knowledge base; Interpretation interface: Gives the necessary interpretation of the reasoning

然而，由于现代社会数据量的激增，人工提取信息的效率有限，使得多数ES未能普及。同时，ES仅试图复制专家现有的知识，而不是借助计算机所特有的学习能力去获得新知识。因此，“机器中的专家”仍存在较大的缺陷。

1.2　基于数据的人工智能——机器学习

区别于ES这一基于知识的AI技术，ML是运用算法对输入的数据进行学习，以此来确定规律和进行预测，所以也被称为基于数据的AI。

根据训练模式的不同，ML分为监督学习和无监督学习。监督学习是以任务为驱动，侧重于分类和回归。它能建立输入数据和输出结果之间的相关性，从而预测同类的输入数据所对应的输出结果。相比之下，无监督学习则是以数据为驱动的模型，它无须预测输出结果，通常是分析一些没有标签的数据，从中提取和描述其相应的特征^［

4］。在以往药物开发和应用的研究中，通常以监督学习为主。

根据算法的不同，ML可分为不同的模型（图2）。目前，ML使用较为广泛的是人工神经网络（artificial neural network，ANN）。ANN是一种非线性、自适应信息处理系统，它包括大量相互关联的处理单元。这些处理单元被称为人工神经元，是此类学习模型最基本的结构和功能单位^［

5］。

Figure 2 Machine learning tools introduction

A: Tools for solving classification and regression problems simultaneously. SVM: Support vector machine; DT: Decision trees; k-NN: k-nearest neighbors; ANN: Artificial neural network; M-P: M-P model; MLP: Multi-layer perceptron; DL: Deep learning; CNN: Convolutional neural network; RNN: Recurrent neural network; LSTM: Long short-term memory; GAN: Generative adversarial network; VAE: Variational autoencoders

在深度学习（deep learning，DL）问世之后，ANN再次掀起了高潮。卷积神经网络（convolutional neural network，CNN）作为DL的一个典型代表，有着以往ANN所不具备的4个特征：局部连接、共享权值、池化以及使用多层神经网络^［

6］。CNN中特有的卷积层能够通过对每个局部区域进行卷积运算，从而检测出图像中的各种特征。卷积层可以通过不同大小的卷积核来获得不同大小的特征，这些特征的组合可用于进行分类、分割等任务（图3）。近年来，计算机硬件的升级使模型拥有了更多的隐藏层。同时，研究者们提出的逐层初始化的理念，使得DL模型可以更精准高效地自动进行特征学习^{［参考文献 7

百度学术}7］。逐层初始化的提出意味着，在一定程度上，模型的层数越多，其预测结果越准确。

Figure 3 Diagram of convolutional layer of CNN

在DL领域，除了CNN之外，生成对抗网络（generative adversarial network， GAN）的出现也让人们眼前一亮。该网络最早是Goodfellow等^［

8］于2014年提出来的，它包含了一个生成模型以及一个与之抗衡的判别模型（图4）。GAN通过互相对抗的方式进行训练，过程中可以不断学习并进化，最终生成高质量的数据样本。在此基础上也出现了用于药物分子设计的LatentGAN和DruGAN等模型。同样的生成模型还包括变微分自动编码器、流模型以及扩散模型。其中，扩散模型已逐渐取代GAN成为生成模型中最前沿的图片处理技术。

Figure 4 Diagram of GAN model

1.3　机器学习的应用类型

1.3.1　自然语言处理

自然语言处理（natural language processing，NLP）是一种融合了语言学、计算机科学、数学等多学科的应用，旨在利用计算机来理解和解释人类的语言。通常，计算机可以通过自然语言、领域特定语言、结构化形式语言3种类别的语言进行研究^［

9］。目前，简化分子线性输入规范（simplified molecular input line entry system， SMILES）作为一种化合物结构化形式语言被广泛运用于药物研发中，除此之外还包括IUPAC名称以及InChI等^{［参考文献 9

百度学术}9］。

递归神经网络（recurrent neural networks，RNN）是早期NLP中最常用的模型之一，可以用于对文本或时间序列数据进行建模。它在序列中学习新信息的同时保留了过去的信息，从而使输出可以在下一时间段直接作用到本身^［

10］（图5）。

Figure 5 Diagram of RNN model

2017年Transformer模型的出现再次提升了NLP的效能，这是第一个完全基于注意力的序列转换模型^［

11］（图6）。相较于RNN来说，Transformer模型引入了一个“位置编码”（positional encoding）信息，使模型可以运用全局信息进行分析，这种算法对于NLP来说是个较大的提升。近年来，研究者尝试在医药领域探索Transformer模型的应用，并且取得了不少的成果。目前基于Transformer模型所建立的几款药物研发工具见表1。

Figure 6 Diagram of Transformer model

Table 1 Summary of drug development tools built on Transformer model

Tool	Objective	Quality performance	Website
MolGPT^{[参考文献 12 百度学术}12]	Generation of molecules	Validity:0.981 FCD:0.907 KL divergence:0.992	https://github.com/devalab/molgpt
DTSyn^{[参考文献 13 百度学术}13]	Drug combination therapy	AUC in four different tasks:0.73, 0.78, 0.82 and 0.81	https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/drug_drug_synergy/DTSyn
TP-DDI^{[参考文献 14 百度学术}14]	Drug-Drug Interaction	P:0.864 R:0.788 F1:0.824	/
DeepTTA^{[参考文献 15 百度学术}15]	Drug response prediction	RMSE:0.952 Spearman:0.914 Pearson:0.941	https://github.com/jianglikun/DeepTTC

FCD: Frechet ChemNet distance; F1:F1-score; RMSE: Root mean squared error; Spearman: Spearman's rank correlation coefficient; Pearson: Pearson correlation coefficient

Transformer模型的出现，标志着NLP从深度学习时代开始向预训练模型时代过渡。这些进步随着更加高级的算法出现而继续，诸如BERT，GPT 2等模型。这些预训练模型以更灵活的方式去探索在数据中上下文可能的相关性。这不仅对药物的发现产生重大影响，同时也通过尝试解决蛋白质折叠问题而对预测蛋白质伴侣的结构特征至关重要。目前利用Transformer模型进行药物研发时，仍需要有更多的实验验证和标杆测试去证明其可行性。

1.3.2　图结构数据分析

目前，大多数药物研发中预测模型的输入数据均为基于其分子描述符进行计算或编码。图神经网络（graph neural network，GNN）是一种直接利用DL分析图结构数据的方法。这里的图并非指单纯的图像，而是一种非欧几里得（non-Euclidean）的形式。 GNN将这些类型的数据作为图，即对象（节点）及其关系（边）的集合，以学习低维节点嵌入^［

16］（图7）。这些嵌入可以更好地处理和分析节点之间的关系和相似性，从而根据节点之间的关系来推断节点的性质和行为。同时这种图数据也是以最直观和简洁的方式来表示药物分子。图数据具有高度复杂的结构，可能存在大量未被发现的信息，可供研究者挖掘。因此，与CNN和RNN相比，GNN可能更适合从化学结构中提取信息。

Figure 7 Diagram of non-Euclidean and graph neural network (GNN)

目前，研究者们已经开始探索将GNN应用于药物开发领域，并取得了一些初步成果。Yang等^［

17］为了预测药物靶点亲和力（drug-target aﬃnity，DTA），基于GNN的原理设计了一个具有27个卷积层的超深度预测工具——MGraphDTA。这种工具区别于以往的预测工具，它引入的密集连接技术可以完整地捕获化合物的全局结构和局部结构从而对输出进行预测，这种技术可以极大程度地提高模型的泛化能力。同时为了能够使模型具有良好的解释能力，团队成员开发了一种视觉解释方法，即梯度加权激活映射。这种方式对模型的解释程度能够达到与药理学专家一致的水平，可以突破自身的感知能力，去获得化合物数据中的有效知识。

在过去几年中，GNN已经成为药物预测的强大的工具，这很大程度上归功于其对非欧几里得形式数据的应用以及近年来爆炸性增长的AI理论研究。直至今日，即使分子描述符在药物研究中仍为主流数据，但GNN的兴起在某些情况下获得了远超传统模型的结果。

2 药物的开发

以往，研究者常使用高通量筛选（high throughput screening，HTS）作为药物发现的一种有效途径。尽管HTS在药物发现中发挥了重要作用，但在当前大量药物数据面前，仅通过实验筛选所有可能的候选药物是低效的。随着计算机算法的完善和硬件设施的升级，计算和药物设计相结合的研究领域便孕育而生，即计算机辅助药物设计（computer-aided drug design，CADD）^［

18］。CADD是对现有基于分子相互作用关系的传统药物发现方法的改进和补充。在该领域中，计算机可用于药物分子的设计、虚拟筛选（virtual screening，VS）和药物再利用（drug repurposing，DR）。

2.1　药物分子设计

在药物开发中，多肽、激酶以及其他小分子化合物已占据重要地位。尤其是多肽，它因为具有跨越细胞屏障、作用于目标靶点的能力，现已成为目前药物开发研究的热点。Yan等^［

19］基于CNN开发了一款名为Deep-AmPEP30的短长度抗菌肽（antimicrobial peptides，AMPs）预测平台。该平台能够识别和筛选生物体内的DNA序列，搜索全新且有效的短AMPs。AMPs是多数生物体自然抗击微生物的先天免疫反应产物，相当于是一种抗菌药物。这是首个设计用于从基因组DNA序列中预测和开发AMPs的平台，并且成功地从肠道共生真菌C.glabrate的基因组中发现了新的AMPs。

除了多肽，激酶也是药学领域和制药公司主要的目标之一。有文献表明在美国本土的AI药物开发企业里，有超过60%的研究目标是激酶，其在癌症的治疗方向达到了36%^［

2］。在这个精准医疗概念开始流行的时代，通过研究这些激酶及其抑制剂，可以极大程度地推进靶向治疗和新辅助化疗在肿瘤人群中治疗效果。Zhavoronkov等^{［参考文献 20

百度学术}20］设计了一个名为GENTRL的工具，其主要基于强化学习模型建立。研究人员利用这个小分子设计工具，仅用不到2个月的时间，就完成了从设计、合成到最后的实验验证，成功开发了一种靶向DDR1激酶抑制剂，并且其成本仅为传统药物发现方法的小部分。Yoshimori等^{［参考文献 21-22}21-22］基于ML开发了一款名为DeepSARM的工具，该工具能够系统地学习相关靶标的化合物信息，对给定的一组活性化合物的模拟物的设计进行补充，并对感兴趣的靶标进行微调的设计。针对布鲁顿酪氨酸激酶（Bruton's tyrosine kinase，BTK），研究人员通过DeepSARM工具获得了近1 500个符合设计约束的候选抑制剂。随后，该团队成员基于BTK的数据结构，设计出34种共价BTK抑制剂。近年来在小分子药物设计领域的部分研究成果见表2。

Table 2 Summary of designing small molecules of drugs using machine learning methods

Type	Objective	Classification method	Quality performance/Conclusion	Reference
Polypeptide	AMPs	CNN	ACC: 0.77; AUC-ROC: 0.82, AUC-PR: 0.80; Kappa: 0.53; MCC: 0.54	[19]
	pep_RTE62G	DL, NLP	In vitro evaluations	[23]
	Four bioactive peptides	DL	In vitro and in vivo evaluations	[24]
	Anti-diabetic peptides	DL, NLP	In vitro evaluations	[25]
	AMPs	SVM, RF, ANN, DA	Percentage of positive: 0.871(APD dataset), 0.616(UniProtKB's dataset)	[ 26]
	ACPs	CNN, BiLSTM, LightGBM	ACC: 0.789 5; Sn: 0.815 3; Sp: 0.767 6	[27]
	Three antimicrobial hexapeptides	Boosting, RF, CNN, LSTM	In vitro and in vivo evaluations	[28]
Kinase	DDR1 kinase inhibitor	GENTRL	In vitro evaluations	[20]
	Tyrosine Kinase Inhibitor	VAE	Likelihood probability values (P > 0.75), Tanimoto coefficient > 0.6	[29]
	Bruton's tyrosine kinase (BTK) inhibitor	DL, PCA	Obtained nearly 1 500 candidate inhibitors	[22]
	Dual inhibitors of CDK4 and HER2	ANN	ACC = 0.84; Sn and Sp are higher than 0.75; MCC(training) = 0.683; MCC(test) = 0.616	[30]
	Dual-target inhibitors of SYK/JAK or BTK/JAK	XGBoost, SVM, DNN	Recall rate: 0.97(single-target); Recall rate: 0.54(dual-target)	[31]
	Platelet-derived growth factor receptor-β (PDGFRB) Inhibitor	RF, k-NN, SVM, Naïve Bayes	ACC: 0.852 AUC: 0.905	[32]

NLP: Natural language processing; RF: Random forest; DA: Discriminant analysis; BiLSTM: Bi-directional long short-term memory; LightGBM: Light gradient boosting machine; PCA: Principal components analysis; XGBoost: Extreme gradient boosting; DNN: Deep neural networks; ACC:Accuracy; AUC: Area under curve; MCC: Matthews correlation coefficient; Sn: Sensitivity; Sp: Specificity

2.2　虚拟筛选

虚拟筛选（VS）一般可分为两种：基于配体的虚拟筛选（ligand-based virtual screening，LBVS）和基于结构的虚拟筛选（structure-based virtual screening，SBVS）^［

33］。LBVS仅适用于寻找同一靶点的先导化合物。该模型通过计算配体的各种描述符和分子指纹，并将其与抑制数据相结合，主要利用配体信息生成药效团，从而对模型进行训练^{［参考文献 34

百度学术}34］。同时运用ML的模型，可以有效解释描述符和结合位点之间的非线性关系，使其结果优于经验性筛选^{［参考文献 35

百度学术}35］。SBVS则是利用各种蛋白质靶点结构和结合亲和力数据库，并借助互补技术来训练模型^{［参考文献 34-35}34-35］。相比较而言，SBVS可以更准确地获取蛋白质-配体之间的相互作用。同时，为确定预测结果的可靠性，通常需要使用评分函数进行评价，其中得分越高表示预测结果越可信。通常，SBVS的评分函数要比LBVS的评分函数更高，这意味着SBVS的结果更加可信^{［参考文献 34

百度学术}34］。

VS过程中搜索适当化合物数据库通常能改善模型预测结果。目前，已有数个公开数据库被研究者广泛运用，包括BindingDB、ChEMBL、Zinc、PubChem、DrugBank等。其中较流行的公开数据库是BindingDB和ChEMBL。这些公开化合物数据库仍在不断更新中。对于选用哪个数据库，则完全取决于研究者的研究方向，以及各个数据库的数据特征和更新情况。目前，一些大型的AI公司拥有自己的数据库，但这些数据库并不向外界共享。未来AI的快速发展往往取决于整个行业从业人员的支持，然而，这些数据库是公司的牟利工具，因此让AI公司共享数据库往往并不现实。

在实际应用方面，Arcon等^［

36-37］建立了一种通过AutoDock Bias方法进行的SBVS。团队在AutoDock Bias的引导下，完成了AutoDock4的对接计算，这是一种基于不同溶剂位点的偏置对接方案，也是第一个利用配体构象搜索算法和最终亲和评分来完成VS的方法。这项研究论证了在混合溶剂中使用药效团进行偏置对接的潜力，以增加VS中真正的配体的富集。同时，AutoDock是一款开源的分子对接软件，也是进行SBVS的传统软件。研究者们对比了AutoDock Bias和传统的AutoDock，结果显示通过AutoDock Bias预测的结果准确性远远高于传统的AutoDock。

Zhang等^［

38］利用NLP中的Word2vec技术处理化合物数据，并使用密集全连接神经网络算法构建了预测模型——IVS2vec。这是第1个基于Word2vec技术的反向VS模型，它既可以查询分子结合性高的潜在靶标，也可以查询分子结合可能性低的蛋白质。并且该研究还表明IVS2vec不仅可以用于预测，还有可能找到潜在的治疗靶点，为药物研发进步作出贡献。

近年来，CADD在中医药领域的VS应用越来越广泛。Gong等^［

39］运用分子对接技术先对中药数据库中的大量化合物进行过滤筛选，然后利用多种ML算法预测候选分子与蛋白质的反应和亲和力，并建立了3D-QSAR模型。结果证明化合物2007_4105是一种有效的DPP4抑制剂，从而表明窄果异木细辛可能是治疗糖尿病的一种潜在中药。由此可见，AI对中医药发展具有重要意义，它将是今后药物研发的一个重要发展趋势。

2.3　药物再利用

在面对一些突发公共卫生危机时，从零开始的药物研发并不能满足治疗疾病的需求，而DR的出现则恰好解决了这一棘手问题。DR不仅可以省去前期的药物靶点研究和先导化合物筛选，还可以免去已上市药物的安全性和毒性预测。

在COVID-19全球大流行期间，AI在DR中的应用变得更加广泛。因在短期内很少能找到新药，引进AI算法实现DR是一种合适的选择。Beck等^［

40］结合NLP和DL算法，建立了一个药物-靶点相互作用模型——MT-DTI，利用该模型鉴定了能对SARS-CoV-2病毒蛋白产生影响的药物。在他们的研究中，阿塔扎那韦、瑞德西韦和依非韦伦是治疗SARS-CoV-2感染的前3位药物，同时还找到了另外几种抗病毒药物，如卡莱拉（洛匹那韦/利托那韦）。特别是利托那韦的发现，在后来寻找SARS-CoV-2特效药物进程中具有重要的参考意义。辉瑞公司推出的奈玛特韦片/利托那韦片是世界卫生组织认可的抗SARS-CoV-2病毒药物^{［参考文献 41

百度学术}41］。

目前，人类还有大量的疾病需要用新药来治疗。以罕见病为例，全球目前有7 000多种罕见病需要研究，仅不到6%的疾病有针对性的药物治疗方案^［

42］。而AI的应用为罕见病患者带来了更多的希望。例如，先天性糖基化障碍（congenital disorders of glycosylation， CDG）是一组由糖基化反应的异常导致人体无法产生正常的糖蛋白而引起的罕见遗传疾病。Brasil等^{［参考文献 43

百度学术}43］整理了一篇系统性的综述，收集了2017年至2022年共计322篇关于先天性糖基化障碍治疗的文章。综述涉及意外发现以及通过系统方法（包括AI）发现的CDG药物，文中对AI在CDG治疗方面的应用提出了积极评价。

总的来说，药物再利用的决策确实可以给患者、医院甚至企业带来较好的收益。然而，不能忽视一个事实，即在DR的过程中，若需改变药物剂量，则可能会提高药物毒性。尽管这些药物已通过了治疗其原始适应证时的毒性预测，但不能因此忽略药物在新用法下的潜在危险性，以避免给患者带来不必要的伤害。

3 药物性质预测

在药物开发的过程中，药物本身的特性，即药物的毒性、耐药性、药物之间的相互作用等，也值得关注。药物的特性并非随意产生，而是有一定规律可循。若利用AI自动化提取疗效一致药物其结构中存在的一些共性，则AI极有可能对药物自身的某些性质进行预测，从而解决人们所面临的难题。近年来部分利用ML进行药物特性预测的研究见表3。

Table 3 Summary of the relevant information of machine learning in predicting ADR,resistance and combination therapy

Type	Objective	Database	Classification method	Quality performance/Conclusion	Reference
ADR/toxicity	Drug-induced liver injury	DILIrank	SVM, AdaBoosting, k-NN, RF	Sn: over 80% and up to 95%, Sp: around 50% and up to 60%	[44]
	Digestive and nervous systems	SIDER	LDA, SVM, DL	AUC: over 0.695 and up to 0.989	[45]
	Kinase-adverse event	SMKIs	ML	C-index(the population level): 0.776(grade 4), 0.724(grade 5); C-index(the patient level): 0.701	[46]
Resistance	Antimicrobial resistance	PATRIC	XGBoost	ACC: 0.95; major error rate: 0.001	[47]
	Antimicrobial resistance	DRIAMS	LR, LightGBM, DNN	AUC(three types of bacteria): 0.80,0.74, 0.74	[48]
	Kinase inhibitor resistance	TKI dataset	ML	RMSE = 0.73; Pearson = 0.54; AUPRC = 0.50	[49]
	Cisplatin resistance	CCLE; TCGA	LR, DT	In vitro and in vivo evaluations	[50]
	antimicrobial resistance	SPR spectra	RF	ACC: 0.89	[51]
Combination	Combination antibiotic therapies	Date from experimental measurement	RF	AUC for synergy: 0.79; AUC for antagonism: 0.8	[52]
	Combined antibiotic therapies	Date from the literature	RF	AUC for synergy: 0.89 AUC for antagonism: 0.91	[53]
	Combined anti-tumor drug therapy	CCLE; COSMIC;MDACC; MCLP	LASSO	In vitro and in vivo evaluations	[54]
	Combined anti-tumor drug therapy	CCLE, TCGA, COSMIC	DNN	Rank correlation: 0.73, MSE:241.12, RMSE: 15.46 Pearson correlation: 0.74	[55]

AdaBoosting: Adaptive boosting; LDA: Latent dirichlet allocation; LR: Logistic regression; LASSO: Least absolute shrinkage and selection operator regression; MSE: Mean square error

3.1　药物不良反应和毒性

药物的毒性预测和优化是药物开发的临床前阶段最耗费资金和时间且失败率极高的任务。早在1998年，基于贝叶斯算法的AI被世界卫生组织认可用于挖掘药物不良反应（adverse drug reactions，ADR）的数据^［

56］。如今，在计算能力与数据可用性飞速发展的背景下，更多AI算法开始用于ADR预测。相对于用动物研究药物毒性这一传统方法，AI的应用受到较少的经费、时间和伦理问题的限制，并且许多计算机算法已被证明在预测药物毒性方面表现出色。

计算机通常根据药物的结构特征来预测其毒性，其中最常用的方法是建立定量构效关系（quantitative structure-activity relationship，QSAR）。QSAR模型可以通过线性和非线性算法将化学结构与特定性质相关联。目前，多种类型的ML算法已用于QSAR进行建模^［

57］。例如，Ancuceanu等^{［参考文献 44

百度学术}44］利用DILIrank数据集中的药物，通过多种ML算法建立了数个预测肝毒性的QSAR模型。他们处理了超过10万种化合物的性质，并从中筛选出约2万种无肝毒性的化合物。

此外，研究人员们建立了许多基于互联网的开源工具来方便人们进行药物毒性预测。从较早的Toxtree到较新的ADMETlab2.0预测平台，现在可用的工具已达数十种之多。在这些工具中，DeepTox和PrOCTOR是最常用的软件。DeepTox主要基于一种DL算法，凭借其在美国国家卫生研究院（NIH）、美国环保局（EPA）和美国食品药品监督管理局（FDA）合作举办的“21世纪毒理学”中的良好表现，受到了许多药物化学家和公司的青睐。后人在DeepTox的基础上进行算法优化，从而产生了SMILES2Vec和deepAOT等软件，以预测药物毒性。PrOCTOR则使用RF模型进行训练，并通过药物分子或靶点特征生成“PrOCTOR评分”，以预测药物在临床试验中的毒性概率。由于列入更多的评估特征，因此其预测能力比早期Toxtree更好。

3.2　药物耐药性

在临床实践中，抗生素和抗肿瘤药物的耐药事件是最普遍的。这些耐药事件经常导致严重的临床问题。为了深入了解菌群和肿瘤的耐药机制，研究者需要从其基因特征入手。传统的基因组学研究只针对单基因靶点的窄谱测定，但耐药性的产生实际上是多种基因靶点突变的结果，因此传统方法的预测结果往往不够准确。为了提高预测的准确性，现在越来越多的研究者将目光投向了AI。

Nguyen等^［

47］使用基于XG Boost的ML模型在5 278个非伤寒沙门氏菌基因组中进行建模。其预测了15种抗生素在非伤寒沙门氏菌中的最低抑菌浓度（minimum inhibitory concentration，MIC），其结果的总体平均准确度高达95%，这是当时发表的最大的MIC建模研究之一。对于抗生素耐药性的研究，一些学者还利用ML从临床数据入手。Lugagne等^{［参考文献 58

百度学术}58］在Science杂志上分享了一种算法，只需要通过临床病史分析就能预测药物耐药性。这开拓了研究者们探索AI预测药物的另一种思路。

肿瘤多重耐药的出现往往是肿瘤化疗失败、导致患者最终走向死亡的主要原因。肿瘤出现耐药的表现，很大一部分是因为肿瘤细胞系的基因发生突变，从而导致与药物结合相关的蛋白质发生突变。因此，很多研究人员从肿瘤的基因靶点或是蛋白靶点的突变入手，对肿瘤的耐药性进行研究。Yang等^［

49］通过建立一个全新的ML框架——SPLDExtraTrees。这个模型克服以往一些ML的缺点，如因为样本容量不足以及一些严重的噪声引起的过拟合和泛化问题，准确地预测癌症靶点蛋白质突变时配体结合亲和力发生改变，从而识别耐药的突变。但该模型目前只能分析基因替换导致的单点突变，而不能处理插入和缺失等导致的多位点突变。尽管该模型还存在一些不足之处，但它仍为未来肿瘤耐药研究提供了有益指导。

3.3　药物联合治疗

药物联合治疗（combination therapy，CT）是治疗癌症、感染性疾病的一种有效策略。CT可以产生协同作用从而通过多种途径攻击疾病。除此之外，还可以通过药物之间的叠加效应降低药物原本的毒性。相反，CT也可能增加药物的毒性，从而为治疗带来一些未知风险。随着新药的不断研发，需要建立一种高效的计算方法以帮助药学专家进行药物间反应的预测，这有助于选择效果最佳且毒性最小的治疗方案。

面对抗生素耐药危机，CT成为较有前景的方法之一。目前已经存在多种基于ML的方法预测抗菌药物之间的联合治疗效果。根据输入数据的不同，这些方法大致可以分为两类：基于药物信息的方法和基于病原体反应的方法。在基于药物信息的方法中，目前有两种方法比较出众：CoSynE和NLLSS。这两种方法采用不同的算法，以药物结构数据或药物靶点相互作用信息为输入数据，开展协同药物组合的预测研究。然而，这种基于药物信息的方法通常无法解释药物之间相互协作的作用机制或病原体反应的信息。因此，学者们开发了一些基于病原体反应的预测方法。INDIGO是一种首次基于病原体反应进行抗菌药物协同作用预测方法^［

52］。INDIGO处理来自模式生物化学基因组学数据作为模型输入，利用RF算法进行模型分析，以预测药物联合治疗的相互作用评分。INDIGO能够成功预测药物相互协同和拮抗作用，并且在排名前20的结果中，有13种结果已通过实验验证其真实性。后来，该方法得到了改进和创新，从而建立了INDIGO-MTB模型，用于预测抗结核药物相互作用以治疗结核分枝杆菌感染，并得到高度评价^{［参考文献 53

百度学术}53］。

同样的，在面对肿瘤耐药性时，医生们通常也采用多种药物联合的治疗方法。Li等^［

54］针对肿瘤复发人群建立了一个用于联合治疗的复发特征（recurrent features leveraged for combination therapy，REFLECT），并且将REFLECT联合ML算法，将患者体内肿瘤基因的共同改变特征映射到药物的联合治疗中。通过患者来源的异种移植、体外药物筛选和联合治疗临床试验等方式验证了推荐的药物联合方案确实能够改善患者预后。与以往基于蛋白质组学数据来预测药物联合治疗的方式不同，这种方法避免了研究者只针对单个基因突变从而限制其训练范围，同时也不会因为只集中在单一的治疗方式而降低治疗效果。除此之外它具有一个全面的训练数据集支撑着该算法的准确性。

中药因为存在大量潜在活性成分，且存在大量化学成分之间的协同作用，使其具有“多成分、多靶点、多途径”的治疗特点^［

59］。AI技术在预测药物相互作用方面的优势已被大量学者所证实，但基于AI的中医药研究一直受到业界质疑。目前多数是基于网络的方法去寻找中药之间的协同作用，而基于ML模型的预测方法却很少见。一方面，中药治疗的关键在于其根据患者的证候进行药物的搭配，往往不是一种药方治疗一种疾病，这无疑极大地提高AI预测的难度。另一方面，中药作为一种天然植物，即使是相同的中药在中国这样占地面积极大、气候多样的国家，在不同的地区也往往具有不同的功效。这导致了许多中医学派系的存在，不同学派间的治疗方案也存在较大的差异。目前，医疗行业并没有一个标准化的中药治疗方案，因此中药的药效学机制是当前生物医学研究的主要问题和挑战。

4 AI在药物研发中的展望

纵观AI漫长的发展过程，基于知识的AI因为其局限性限制了它的应用范围。相比之下，以ANN为代表的基于数据的AI是现阶段的主流。它通过收集数据集，并经过大量训练，可达到甚至超过人类的知识水平。尽管其拥有强大的计算能力，但是其“黑箱”特性也让许多学者望而却步。其具体机制类似人脑，存在很多谜团。目前，AI模型日益复杂，导致其可解释性差。在某种程度上，基于知识的AI和基于数据的AI是互补的。目前已有部分学者开始研究将基于知识的AI整合到基于数据的AI中，例如将物理信息融入ML的模型中，建立一种全新的物理信息神经网络，该模型能够凭借物理知识来指导ML，使模型具有更好的通用性和科学的解释性^［

60］。同样的，如果将更加专业的药理学知识整合到其中，由“知识”去指导和监督模型的建立，那很可能在该领域会有新的突破。

AI本质上仅是一种工具，其使用者和开发者之间存在着壁垒。开发者需掌握计算机科学、数学和统计学等专业知识。这就很容易出现“医疗工作者不懂ML，工程师不懂医学”的现象。在建立一个新预测模型时就容易出现信息的分离，从而大大增加工作量。希望AI在未来发展中，在提高训练结果准确性的同时，减少算法上不必要的复杂性，以拓宽其开放、共享的广度。同时，AI给出的结果并不是唯一的答案，同样一个数据库，研究者们用不同算法进行研究，很可能会得到不同结果。因此，过度依赖AI的分析是不可取的，需要结合已有知识和需求进行筛选，总结出最适合研究者的一种算法。

在AI迅速进入医药行业的同时，许多制药公司主动向AI公司提供资金进行药物研发。尽管大多数AI公司成立不到10年，但他们筛选出的进入临床前试验的药物在制药公司中占有相当大的比例，足以证明AI确实可以缩短药物研发的时间和成本。目前，AI在药物发现方面仍处于上升阶段，随着AI公司的发展，药物发现的速度可能会进一步加快。然而，令人遗憾的是，目前尚未出现由AI衍生的药物成功进入临床的案例。一些药物进入临床试验失败的主要原因之一是AI药物开发过程是在封闭环境下进行，而现实世界比我们认为的更加复杂。正是现实世界的这种复杂性和随机性，对AI的自适应性或鲁棒性提出了极大的挑战。然而，基于当前的研究成果，AI在驱动药物发现方面依然有望成为制药行业研发规则的改变者。

References

Gupta R, Srivastava D, Sahu M, et al. Artificial intelligence to deep learning: machine intelligence approach for drug discovery[J]. Mol Divers, 2021, 25(3): 1315-1360. [百度学术]

Jayatunga MKP, Xie W, Ruder L, et al. AI in small-molecule drug discovery: a coming wave[J]? Nat Rev Drug Discov, 2022, 21(3): 175-176. [百度学术]

Koromina M, Pandi MT, Patrinos GP. Rethinking drug repositioning and development with artificial intelligence, machine learning, and omics[J]. OMICS, 2019, 23(11): 539-548. [百度学术]

Yang X, Wang YF, Byrne R, et al. Concepts of artificial intelligence for computer-assisted drug discovery[J]. Chem Rev, 2019, 119(18): 10520-10594. [百度学术]

Hornik K, Stinchcombe M, White H. Multilayer feedforward networks are universal approximators[J]. Neural Netw, 1989, 2(5): 359-366. [百度学术]

LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444. [百度学术]

Bengio Y, Courville A, Vincent P. Representation learning: a review and new perspectives[J]. IEEE Trans Pattern Anal Mach Intell, 2013, 35(8): 1798-1828. [百度学术]

Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Commun ACM, 2020, 63(11): 139-144. [百度学术]

Öztürk H, Özgür A, Schwaller P, et al. Exploring chemical space using natural language processing methodologies for drug discovery[J]. Drug Discov Today, 2020, 25(4): 689-705. [百度学术]

Kriegeskorte N, Golan T. Neural network models and deep learning[J]. Curr Biol, 2019, 29(7): R231-R236. [百度学术]

Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM, 2017: 6000-6010. [百度学术]

Bagal V, Aggarwal R, Vinod PK, et al. MolGPT: molecular generation using a transformer-decoder model[J]. J Chem Inf Model, 2022, 62(9): 2064-2076. [百度学术]

Hu J, Gao J, Fang XM, et al. DTSyn: a dual-transformer-based neural network to predict synergistic drug combinations[J]. Brief Bioinform, 2022, 23(5): bbac302. [百度学术]

Zaikis D, Vlahavas I. TP-DDI: transformer-based pipeline for the extraction of drug-drug interactions[J]. Artif Intell Med, 2021, 119: 102153. [百度学术]

Jiang LK, Jiang CZ, Yu XY, et al. DeepTTA: a transformer-based model for predicting cancer drug response[J]. Brief Bioinform, 2022, 23(3): bbac100. [百度学术]

Zhang ZH, Chen LF, Zhong FS, et al. Graph neural network approaches for drug-target interactions[J]. Curr Opin Struct Biol, 2022, 73: 102327. [百度学术]

Yang ZD, Zhong WH, Zhao L, et al. MGraphDTA: deep multiscale graph neural network for explainable drug-target binding affinity prediction[J]. Chem Sci, 2022, 13(3): 816-833. [百度学术]

Jorgensen WL. Challenges for academic drug discovery[J]. Angew Chem Int Ed Engl, 2012, 51(47): 11680-11684. [百度学术]

Yan JL, Bhadra P, Li A, et al. Deep-AmPEP30: improve short antimicrobial peptides prediction with deep learning[J]. Mol Ther Nucleic Acids, 2020, 20: 882-894. [百度学术]

Zhavoronkov A, Ivanenkov YA, Aliper A, et al. Deep learning enables rapid identification of potent DDR1 kinase inhibitors[J]. Nat Biotechnol, 2019, 37(9): 1038-1040. [百度学术]

Yoshimori A, Bajorath J. Deep SAR matrix: SAR matrix expansion for advanced analog design using deep learning architectures[J]. Future Drug Discov, 2020. doi:10.4155/fdd-2020-0005. [百度学术]

Yoshimori A, Miljković F, Bajorath J. Approach for the design of covalent protein kinase inhibitors via focused deep generative modeling[J]. Molecules, 2022, 27(2): 570. [百度学术]

Kennedy K, Cal R, Casey R, et al. The anti-ageing effects of a natural peptide discovered by artificial intelligence[J]. Int J Cosmet Sci, 2020, 42(4): 388-398. [百度学术]

Rein D, Ternes P, Demin R, et al. Artificial intelligence identified peptides modulate inflammation in healthy adults[J]. Food Funct, 2019, 10(9): 6030-6041. [百度学术]

Casey R, Adelfio A, Connolly M, et al. Discovery through machine learning and preclinical validation of novel anti-diabetic peptides[J]. Biomedicines, 2021, 9(3): 276. [百度学术]

Al-Khdhairawi A, Sanuri D, Akbar R, et al. Machine learning and molecular simulation ascertain antimicrobial peptide against Klebsiella pneumoniae from public database[J]. Comput Biol Chem, 2023, 102: 107800. [百度学术]

Yuan QT, Chen KY, Yu YM, et al. Prediction of anticancer peptides based on an ensemble model of deep learning and machine learning using ordinal positional encoding[J]. Brief Bioinform, 2023, 24(1): bbac630. [百度学术]

Huang JJ, Xu YC, Xue YF, et al. Identification of potent antimicrobial peptides via a machine-learning pipeline that mines the entire space of peptide sequences[J]. Nat Biomed Eng, 2023.doi:10.1038/s41551-022-00991-2. [百度学术]

Krishnan K, Kassab R, Agajanian S, et al. Interpretable machine learning models for molecular design of tyrosine kinase inhibitors using variational autoencoders and perturbation-based approach of chemical space exploration[J]. Int J Mol Sci, 2022, 23(19): 11262. [百度学术]

Kleandrova VV, Scotti MT, Scotti L, et al. Multi-target drug discovery via PTML modeling: applications to the design of virtual dual inhibitors of CDK4 and HER2[J]. Curr Top Med Chem, 2021, 21(7): 661-675. [百度学术]

Xing GM, Liang L, Deng CL, et al. Activity prediction of small molecule inhibitors for antirheumatoid arthritis targets based on artificial intelligence[J]. ACS Comb Sci, 2020, 22(12): 873-886. [百度学术]

Lien ST, Lin TE, Hsieh JH, et al. Establishment of extensive artificial intelligence models for kinase inhibitor prediction: identification of novel PDGFRB inhibitors[J]. Comput Biol Med, 2023, 156: 106722. [百度学术]

Goh GB, Hodas NO, Vishnu A. Deep learning for computational chemistry[J]. J Comput Chem, 2017, 38(16): 1291-1307. [百度学术]

Arul Murugan N, Ruba Priya G, Narahari Sastry G, et al. Artificial intelligence in virtual screening: models versus experiments[J]. Drug Discov Today, 2022, 27(7): 1913-1923. [百度学术]

Serafim MSM, Kronenberger T, Oliveira PR, et al. The application of machine learning techniques to innovative antibacterial discovery and development[J]. Expert Opin Drug Discov, 2020, 15(10): 1165-1180. [百度学术]

Arcon JP, Modenutti CP, Avendaño D, et al. AutoDock Bias: improving binding mode prediction and virtual screening using known protein-ligand interactions[J]. Bioinformatics, 2019, 35(19): 3836-3838. [百度学术]

Arcon JP, Defelipe LA, Lopez ED, et al. Cosolvent-based protein pharmacophore for ligand enrichment in virtual screening[J]. J Chem Inf Model, 2019, 59(8): 3572-3583. [百度学术]

Zhang HP, Liao LB, Cai YT, et al. IVS2vec: a tool of Inverse Virtual Screening based on word2vec and deep learning techniques[J]. Methods, 2019, 166: 57-65. [百度学术]

Gong JN, Zhao L, Chen GX, et al. A novel artificial intelligence protocol to investigate potential leads for diabetes mellitus[J]. Mol Divers, 2021, 25(3): 1375-1393. [百度学术]

Beck BR, Shin B, Choi Y, et al. Predicting commercially available antiviral drugs that may act on the novel coronavirus (SARS-CoV-2) through a drug-target interaction deep learning model[J]. Comput Struct Biotechnol J, 2020, 18: 784-790. [百度学术]

Lamontagne F, Agarwal A, Rochwerg B, et al. A living WHO guideline on drugs for covid-19[J]. BMJ, 2020, 370: m3379. [百度学术]

Roessler HI, Knoers NVAM, van Haelst MM, et al. Drug repurposing for rare diseases[J]. Trends Pharmacol Sci, 2021, 42(4): 255-267. [百度学术]

Brasil S, Allocca M, Magrinho SCM, et al. Systematic review: drug repositioning for congenital disorders of glycosylation (CDG)[J]. Int J Mol Sci, 2022, 23(15): 8725. [百度学术]

Ancuceanu R, Hovanet MV, Anghel AI, et al. Computational models using multiple machine learning algorithms for predicting drug hepatotoxicity with the DILIrank dataset[J]. Int J Mol Sci, 2020, 21(6): 2114. [百度学术]

Chen MM, Yang ZY, Gao YX, et al. Fast identification of adverse drug reactions (ADRs) of digestive and nervous systems of organic drugs by in silico models[J]. Molecules, 2021, 26(4): 930. [百度学术]

Gong XJ, Hu M, Liu JZ, et al. Decoding kinase-adverse event associations for small molecule kinase inhibitors[J]. Nat Commun, 2022, 13(1): 4349. [百度学术]

Nguyen M, Long SW, McDermott PF, et al. Using machine learning to predict antimicrobial MICs and associated genomic features for nontyphoidal Salmonella[J]. J Clin Microbiol, 2019, 57(2): e01260-e01218. [百度学术]

Weis C, Cuénod A, Rieck B, et al. Direct antimicrobial resistance prediction from clinical MALDI-TOF mass spectra using machine learning[J]. Nat Med, 2022, 28(1): 164-174. [百度学术]

Yang ZY, Ye ZF, Xiao YJ, et al. SPLDExtraTrees: robust machine learning approach for predicting kinase inhibitor resistance[J]. Brief Bioinform, 2022, 23(3): bbac050. [百度学术]

Sui QH, Chen ZC, Hu ZY, et al. Cisplatin resistance-related multi-omics differences and the establishment of machine learning models[J]. J Transl Med, 2022, 20(1): 171. [百度学术]

Yu T, Fu Y, He JT, et al. Identification of antibiotic resistance in ESKAPE pathogens through plasmonic nanosensors and machine learning[J]. ACS Nano, 2023, 17(5): 4551-4563. [百度学术]

Chandrasekaran S, Cokol-Cakmak M, Sahin N, et al. Chemogenomics and orthology-based design of antibiotic combination therapies[J]. Mol Syst Biol, 2016, 12(5): 872. [百度学术]

Ma SY, Jaipalli S, Larkins-Ford J, et al. Transcriptomic signatures predict regulators of drug synergy and clinical regimen efficacy against tuberculosis[J]. mBio, 2019, 10(6): e02627-e02619. [百度学术]

Li XB, Dowling EK, Yan GH, et al. Precision combination therapies based on recurrent oncogenic coalterations[J]. Cancer Discov, 2022, 12(6): 1542-1559. [百度学术]

Zhang TY, Zhang LW, Payne PRO, et al. Synergistic drug combination prediction by integrating multiomics data in deep learning models[J]. Methods Mol Biol, 2021, 2194: 223-238. [百度学术]

Bate A. Bayesian confidence propagation neural network[J]. Drug Saf, 2007, 30(7): 623-625. [百度学术]

Wu ZX, Zhu MF, Kang Y, et al. Do we need different machine learning algorithms for QSAR modeling? A comprehensive assessment of 16 machine learning algorithms on 14 QSAR data sets[J]. Brief Bioinform, 2021, 22(4): bbaa321. [百度学术]

Lugagne JB, Dunlop MJ. Anticipating antibiotic resistance[J]. Science, 2022, 375(6583): 818-819. [百度学术]

Li S, Zhang B. Traditional Chinese medicine network pharmacology: theory, methodology and application[J]. Chin J Nat Med, 2013, 11(2): 110-120. [百度学术]

Ren SJ, Wu SL, Weng QH. Physics-informed machine learning methods for biomass gasification modeling by considering monotonic relationships[J]. Bioresour Technol, 2023, 369: 128472. [百度学术]

基于人工智能的药物研发：目前的进展和未来的挑战

摘要

关键词

1 人工智能的发展

1.1 基于知识的人工智能——专家系统

1.2 基于数据的人工智能——机器学习

1.3 机器学习的应用类型

2 药物的开发

2.1 药物分子设计

2.2 虚拟筛选

2.3 药物再利用