摘要
近年来,人工智能在药物研发领域得到了广泛的应用。特别是自然语言处理技术在预训练模型的出现后有了非常显著的提高,在此基础上,图神经网络的引入也使得药物研发变得更加准确和高效。为了使药物研发者更加系统全面地了解人工智能在药物研发中的应用,本文介绍了人工智能中的前沿算法,同时阐述了人工智能在药物小分子设计、虚拟筛选、药物再利用以及药物性质预测等多方面的应用场景,最后探讨它在未来药物研发中的机遇与挑战。
药物研发和应用是制药公司及生物医学研究领域中的一个重要方向。但由于药物研发与应用效果的影响因素繁杂,且各因素之间存在交互作用,因此使该领域有着周期长、成本高、成功率低等问
人工智能(artificial intelligence,AI)凭借其自动化处理各类数据的能力,在各个研究领域中崭露头角。在药物研发领域主要包括基于知识的专家系统(expert system,ES)和基于数据的机器学习(machine learning,ML)。相比传统药物研发模式,与AI相结合的研发模式花费的时间和成本更低。与此同时,AI能够激发药物研发的潜能,推动制药行业的现代化进程。目前,越来越多的传统制药公司已经与AI公司建立了合作关系,以加速药物的研发进
ES的本质是把当前人类专家关于某些特定领域的知识浓缩输入电脑,以及让电脑学习其决策过程,使其对输入的情况提供指导性意

Figure 1 Expert system workflow diagram
Knowledge base: The expert's knowledge base; Database: Stores the initial evidence and various information obtained during the reasoning process; Inference engine: Controls and coordinates the whole system, which is the core of the expert system; Knowledge acquisition module: Modifies and expands the original knowledge in the knowledge base; Interpretation interface: Gives the necessary interpretation of the reasoning
然而,由于现代社会数据量的激增,人工提取信息的效率有限,使得多数ES未能普及。同时,ES仅试图复制专家现有的知识,而不是借助计算机所特有的学习能力去获得新知识。因此,“机器中的专家”仍存在较大的缺陷。
区别于ES这一基于知识的AI技术,ML是运用算法对输入的数据进行学习,以此来确定规律和进行预测,所以也被称为基于数据的AI。
根据训练模式的不同,ML分为监督学习和无监督学习。监督学习是以任务为驱动,侧重于分类和回归。它能建立输入数据和输出结果之间的相关性,从而预测同类的输入数据所对应的输出结果。相比之下,无监督学习则是以数据为驱动的模型,它无须预测输出结果,通常是分析一些没有标签的数据,从中提取和描述其相应的特
根据算法的不同,ML可分为不同的模型(

Figure 2 Machine learning tools introduction
A: Tools for solving classification and regression problems simultaneously. SVM: Support vector machine; DT: Decision trees; k-NN: k-nearest neighbors; ANN: Artificial neural network; M-P: M-P model; MLP: Multi-layer perceptron; DL: Deep learning; CNN: Convolutional neural network; RNN: Recurrent neural network; LSTM: Long short-term memory; GAN: Generative adversarial network; VAE: Variational autoencoders
在深度学习(deep learning,DL)问世之后,ANN再次掀起了高潮。卷积神经网络(convolutional neural network,CNN)作为DL的一个典型代表,有着以往ANN所不具备的4个特征:局部连接、共享权值、池化以及使用多层神经网

Figure 3 Diagram of convolutional layer of CNN
在DL领域,除了CNN之外,生成对抗网络(generative adversarial network, GAN)的出现也让人们眼前一亮。该网络最早是Goodfellow

Figure 4 Diagram of GAN model
自然语言处理(natural language processing,NLP)是一种融合了语言学、计算机科学、数学等多学科的应用,旨在利用计算机来理解和解释人类的语言。通常,计算机可以通过自然语言、领域特定语言、结构化形式语言3种类别的语言进行研
递归神经网络(recurrent neural networks,RNN)是早期NLP中最常用的模型之一,可以用于对文本或时间序列数据进行建模。它在序列中学习新信息的同时保留了过去的信息,从而使输出可以在下一时间段直接作用到本

Figure 5 Diagram of RNN model
2017年Transformer模型的出现再次提升了NLP的效能,这是第一个完全基于注意力的序列转换模

Figure 6 Diagram of Transformer model
Tool | Objective | Quality performance | Website |
---|---|---|---|
MolGP | Generation of molecules |
Validity:0.981 FCD:0.907 KL divergence:0.992 | https://github.com/devalab/molgpt |
DTSy | Drug combination therapy | AUC in four different tasks:0.73, 0.78, 0.82 and 0.81 | https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/drug_drug_synergy/DTSyn |
TP-DD | Drug-Drug Interaction |
P:0.864 R:0.788 F1:0.824 |
/ |
DeepTT | Drug response prediction |
RMSE:0.952 Spearman:0.914 Pearson:0.941 | https://github.com/jianglikun/DeepTTC |
FCD: Frechet ChemNet distance; F1:F1-score; RMSE: Root mean squared error; Spearman: Spearman's rank correlation coefficient; Pearson: Pearson correlation coefficient
Transformer模型的出现,标志着NLP从深度学习时代开始向预训练模型时代过渡。这些进步随着更加高级的算法出现而继续,诸如BERT,GPT 2等模型。这些预训练模型以更灵活的方式去探索在数据中上下文可能的相关性。这不仅对药物的发现产生重大影响,同时也通过尝试解决蛋白质折叠问题而对预测蛋白质伴侣的结构特征至关重要。目前利用Transformer模型进行药物研发时,仍需要有更多的实验验证和标杆测试去证明其可行性。
目前,大多数药物研发中预测模型的输入数据均为基于其分子描述符进行计算或编码。图神经网络(graph neural network,GNN)是一种直接利用DL分析图结构数据的方法。这里的图并非指单纯的图像,而是一种非欧几里得(non-Euclidean)的形式。 GNN将这些类型的数据作为图,即对象(节点)及其关系(边)的集合,以学习低维节点嵌

Figure 7 Diagram of non-Euclidean and graph neural network (GNN)
目前,研究者们已经开始探索将GNN应用于药物开发领域,并取得了一些初步成果。Yang
在过去几年中,GNN已经成为药物预测的强大的工具,这很大程度上归功于其对非欧几里得形式数据的应用以及近年来爆炸性增长的AI理论研究。直至今日,即使分子描述符在药物研究中仍为主流数据,但GNN的兴起在某些情况下获得了远超传统模型的结果。
以往,研究者常使用高通量筛选(high throughput screening,HTS)作为药物发现的一种有效途径。尽管HTS在药物发现中发挥了重要作用,但在当前大量药物数据面前,仅通过实验筛选所有可能的候选药物是低效的。随着计算机算法的完善和硬件设施的升级,计算和药物设计相结合的研究领域便孕育而生,即计算机辅助药物设计(computer-aided drug design,CADD
在药物开发中,多肽、激酶以及其他小分子化合物已占据重要地位。尤其是多肽,它因为具有跨越细胞屏障、作用于目标靶点的能力,现已成为目前药物开发研究的热点。Yan
除了多肽,激酶也是药学领域和制药公司主要的目标之一。有文献表明在美国本土的AI药物开发企业里,有超过60%的研究目标是激酶,其在癌症的治疗方向达到了36
Type | Objective | Classification method | Quality performance/Conclusion | Reference |
---|---|---|---|---|
Polypeptide | AMPs | CNN |
ACC: 0.77; AUC-ROC: 0.82, AUC-PR: 0.80; Kappa: 0.53; MCC: 0.54 |
[ |
pep_RTE62G | DL, NLP | In vitro evaluations |
[ | |
Four bioactive peptides | DL | In vitro and in vivo evaluations |
[ | |
Anti-diabetic peptides | DL, NLP | In vitro evaluations |
[ | |
AMPs
|
SVM, RF, ANN, DA
|
Percentage of positive: 0.871(APD dataset), 0.616(UniProtKB's dataset) |
[
| |
ACPs | CNN, BiLSTM, LightGBM | ACC: 0.789 5; Sn: 0.815 3; Sp: 0.767 6 |
[ | |
Three antimicrobial hexapeptides | Boosting, RF, CNN, LSTM | In vitro and in vivo evaluations |
[ | |
Kinase | DDR1 kinase inhibitor | GENTRL | In vitro evaluations |
[ |
Tyrosine Kinase Inhibitor | VAE |
Likelihood probability values (P > 0.75), Tanimoto coefficient > 0.6 |
[ | |
Bruton's tyrosine kinase (BTK) inhibitor | DL, PCA | Obtained nearly 1 500 candidate inhibitors |
[ | |
Dual inhibitors of CDK4 and HER2 | ANN |
ACC = 0.84; Sn and Sp are higher than 0.75; MCC(training) = 0.683; MCC(test) = 0.616 |
[ | |
Dual-target inhibitors of SYK/JAK or BTK/JAK | XGBoost, SVM, DNN |
Recall rate: 0.97(single-target); Recall rate: 0.54(dual-target) |
[ | |
Platelet-derived growth factor receptor-β (PDGFRB) Inhibitor | RF, k-NN, SVM, Naïve Bayes |
ACC: 0.852 AUC: 0.905 |
[ |
NLP: Natural language processing; RF: Random forest; DA: Discriminant analysis; BiLSTM: Bi-directional long short-term memory; LightGBM: Light gradient boosting machine; PCA: Principal components analysis; XGBoost: Extreme gradient boosting; DNN: Deep neural networks; ACC:Accuracy; AUC: Area under curve; MCC: Matthews correlation coefficient; Sn: Sensitivity; Sp: Specificity
虚拟筛选(VS)一般可分为两种:基于配体的虚拟筛选(ligand-based virtual screening,LBVS)和基于结构的虚拟筛选(structure-based virtual screening,SBVS
VS过程中搜索适当化合物数据库通常能改善模型预测结果。目前,已有数个公开数据库被研究者广泛运用,包括BindingDB、ChEMBL、Zinc、PubChem、DrugBank等。其中较流行的公开数据库是BindingDB和ChEMBL。这些公开化合物数据库仍在不断更新中。对于选用哪个数据库,则完全取决于研究者的研究方向,以及各个数据库的数据特征和更新情况。目前,一些大型的AI公司拥有自己的数据库,但这些数据库并不向外界共享。未来AI的快速发展往往取决于整个行业从业人员的支持,然而,这些数据库是公司的牟利工具,因此让AI公司共享数据库往往并不现实。
在实际应用方面,Arcon
Zhang
近年来,CADD在中医药领域的VS应用越来越广泛。Gong
在面对一些突发公共卫生危机时,从零开始的药物研发并不能满足治疗疾病的需求,而DR的出现则恰好解决了这一棘手问题。DR不仅可以省去前期的药物靶点研究和先导化合物筛选,还可以免去已上市药物的安全性和毒性预测。
在COVID-19全球大流行期间,AI在DR中的应用变得更加广泛。因在短期内很少能找到新药,引进AI算法实现DR是一种合适的选择。Beck
目前,人类还有大量的疾病需要用新药来治疗。以罕见病为例,全球目前有7 000多种罕见病需要研究,仅不到6%的疾病有针对性的药物治疗方
总的来说,药物再利用的决策确实可以给患者、医院甚至企业带来较好的收益。然而,不能忽视一个事实,即在DR的过程中,若需改变药物剂量,则可能会提高药物毒性。尽管这些药物已通过了治疗其原始适应证时的毒性预测,但不能因此忽略药物在新用法下的潜在危险性,以避免给患者带来不必要的伤害。
在药物开发的过程中,药物本身的特性,即药物的毒性、耐药性、药物之间的相互作用等,也值得关注。药物的特性并非随意产生,而是有一定规律可循。若利用AI自动化提取疗效一致药物其结构中存在的一些共性,则AI极有可能对药物自身的某些性质进行预测,从而解决人们所面临的难题。近年来部分利用ML进行药物特性预测的研究见
Type | Objective | Database | Classification method | Quality performance/Conclusion | Reference |
---|---|---|---|---|---|
ADR/toxicity | Drug-induced liver injury | DILIrank |
SVM, AdaBoosting, k-NN, RF |
Sn: over 80% and up to 95%, Sp: around 50% and up to 60% |
[ |
Digestive and nervous systems | SIDER | LDA, SVM, DL | AUC: over 0.695 and up to 0.989 |
[ | |
Kinase-adverse event | SMKIs | ML |
C-index(the population level): 0.776(grade 4), 0.724(grade 5); C-index(the patient level): 0.701 |
[ | |
Resistance | Antimicrobial resistance | PATRIC | XGBoost | ACC: 0.95; major error rate: 0.001 |
[ |
Antimicrobial resistance | DRIAMS | LR, LightGBM, DNN | AUC(three types of bacteria): 0.80,0.74, 0.74 |
[ | |
Kinase inhibitor resistance | TKI dataset | ML | RMSE = 0.73; Pearson = 0.54; AUPRC = 0.50 |
[ | |
Cisplatin resistance | CCLE; TCGA | LR, DT | In vitro and in vivo evaluations |
[ | |
antimicrobial resistance | SPR spectra | RF | ACC: 0.89 |
[ | |
Combination |
Combination antibiotic therapies | Date from experimental measurement | RF |
AUC for synergy: 0.79; AUC for antagonism: 0.8 |
[ |
Combined antibiotic therapies | Date from the literature | RF |
AUC for synergy: 0.89 AUC for antagonism: 0.91 |
[ | |
Combined anti-tumor drug therapy | CCLE; COSMIC;MDACC; MCLP | LASSO | In vitro and in vivo evaluations |
[ | |
Combined anti-tumor drug therapy | CCLE, TCGA, COSMIC | DNN |
Rank correlation: 0.73, MSE:241.12, RMSE: 15.46 Pearson correlation: 0.74 |
[ |
AdaBoosting: Adaptive boosting; LDA: Latent dirichlet allocation; LR: Logistic regression; LASSO: Least absolute shrinkage and selection operator regression; MSE: Mean square error
药物的毒性预测和优化是药物开发的临床前阶段最耗费资金和时间且失败率极高的任务。早在1998年,基于贝叶斯算法的AI被世界卫生组织认可用于挖掘药物不良反应(adverse drug reactions,ADR)的数
计算机通常根据药物的结构特征来预测其毒性,其中最常用的方法是建立定量构效关系(quantitative structure-activity relationship,QSAR)。QSAR模型可以通过线性和非线性算法将化学结构与特定性质相关联。目前,多种类型的ML算法已用于QSAR进行建
此外,研究人员们建立了许多基于互联网的开源工具来方便人们进行药物毒性预测。从较早的Toxtree到较新的ADMETlab2.0预测平台,现在可用的工具已达数十种之多。在这些工具中,DeepTox和PrOCTOR是最常用的软件。DeepTox主要基于一种DL算法,凭借其在美国国家卫生研究院(NIH)、美国环保局(EPA)和美国食品药品监督管理局(FDA)合作举办的“21世纪毒理学”中的良好表现,受到了许多药物化学家和公司的青睐。后人在DeepTox的基础上进行算法优化,从而产生了SMILES2Vec和deepAOT等软件,以预测药物毒性。PrOCTOR则使用RF模型进行训练,并通过药物分子或靶点特征生成“PrOCTOR评分”,以预测药物在临床试验中的毒性概率。由于列入更多的评估特征,因此其预测能力比早期Toxtree更好。
在临床实践中,抗生素和抗肿瘤药物的耐药事件是最普遍的。这些耐药事件经常导致严重的临床问题。为了深入了解菌群和肿瘤的耐药机制,研究者需要从其基因特征入手。传统的基因组学研究只针对单基因靶点的窄谱测定,但耐药性的产生实际上是多种基因靶点突变的结果,因此传统方法的预测结果往往不够准确。为了提高预测的准确性,现在越来越多的研究者将目光投向了AI。
Nguyen
肿瘤多重耐药的出现往往是肿瘤化疗失败、导致患者最终走向死亡的主要原因。肿瘤出现耐药的表现,很大一部分是因为肿瘤细胞系的基因发生突变,从而导致与药物结合相关的蛋白质发生突变。因此,很多研究人员从肿瘤的基因靶点或是蛋白靶点的突变入手,对肿瘤的耐药性进行研究。Yang
药物联合治疗(combination therapy,CT)是治疗癌症、感染性疾病的一种有效策略。CT可以产生协同作用从而通过多种途径攻击疾病。除此之外,还可以通过药物之间的叠加效应降低药物原本的毒性。相反,CT也可能增加药物的毒性,从而为治疗带来一些未知风险。随着新药的不断研发,需要建立一种高效的计算方法以帮助药学专家进行药物间反应的预测,这有助于选择效果最佳且毒性最小的治疗方案。
面对抗生素耐药危机,CT成为较有前景的方法之一。目前已经存在多种基于ML的方法预测抗菌药物之间的联合治疗效果。根据输入数据的不同,这些方法大致可以分为两类:基于药物信息的方法和基于病原体反应的方法。在基于药物信息的方法中,目前有两种方法比较出众:CoSynE和NLLSS。这两种方法采用不同的算法,以药物结构数据或药物靶点相互作用信息为输入数据,开展协同药物组合的预测研究。然而,这种基于药物信息的方法通常无法解释药物之间相互协作的作用机制或病原体反应的信息。因此,学者们开发了一些基于病原体反应的预测方法。INDIGO是一种首次基于病原体反应进行抗菌药物协同作用预测方
同样的,在面对肿瘤耐药性时,医生们通常也采用多种药物联合的治疗方法。Li
中药因为存在大量潜在活性成分,且存在大量化学成分之间的协同作用,使其具有“多成分、多靶点、多途径”的治疗特
纵观AI漫长的发展过程,基于知识的AI因为其局限性限制了它的应用范围。相比之下,以ANN为代表的基于数据的AI是现阶段的主流。它通过收集数据集,并经过大量训练,可达到甚至超过人类的知识水平。尽管其拥有强大的计算能力,但是其“黑箱”特性也让许多学者望而却步。其具体机制类似人脑,存在很多谜团。目前,AI模型日益复杂,导致其可解释性差。在某种程度上,基于知识的AI和基于数据的AI是互补的。目前已有部分学者开始研究将基于知识的AI整合到基于数据的AI中,例如将物理信息融入ML的模型中,建立一种全新的物理信息神经网络,该模型能够凭借物理知识来指导ML,使模型具有更好的通用性和科学的解释
AI本质上仅是一种工具,其使用者和开发者之间存在着壁垒。开发者需掌握计算机科学、数学和统计学等专业知识。这就很容易出现“医疗工作者不懂ML,工程师不懂医学”的现象。在建立一个新预测模型时就容易出现信息的分离,从而大大增加工作量。希望AI在未来发展中,在提高训练结果准确性的同时,减少算法上不必要的复杂性,以拓宽其开放、共享的广度。同时,AI给出的结果并不是唯一的答案,同样一个数据库,研究者们用不同算法进行研究,很可能会得到不同结果。因此,过度依赖AI的分析是不可取的,需要结合已有知识和需求进行筛选,总结出最适合研究者的一种算法。
在AI迅速进入医药行业的同时,许多制药公司主动向AI公司提供资金进行药物研发。尽管大多数AI公司成立不到10年,但他们筛选出的进入临床前试验的药物在制药公司中占有相当大的比例,足以证明AI确实可以缩短药物研发的时间和成本。目前,AI在药物发现方面仍处于上升阶段,随着AI公司的发展,药物发现的速度可能会进一步加快。然而,令人遗憾的是,目前尚未出现由AI衍生的药物成功进入临床的案例。一些药物进入临床试验失败的主要原因之一是AI药物开发过程是在封闭环境下进行,而现实世界比我们认为的更加复杂。正是现实世界的这种复杂性和随机性,对AI的自适应性或鲁棒性提出了极大的挑战。然而,基于当前的研究成果,AI在驱动药物发现方面依然有望成为制药行业研发规则的改变者。

References
Gupta R, Srivastava D, Sahu M, et al. Artificial intelligence to deep learning: machine intelligence approach for drug discovery[J]. Mol Divers, 2021, 25(3): 1315-1360. [百度学术]
Jayatunga MKP, Xie W, Ruder L, et al. AI in small-molecule drug discovery: a coming wave[J]? Nat Rev Drug Discov, 2022, 21(3): 175-176. [百度学术]
Koromina M, Pandi MT, Patrinos GP. Rethinking drug repositioning and development with artificial intelligence, machine learning, and omics[J]. OMICS, 2019, 23(11): 539-548. [百度学术]
Yang X, Wang YF, Byrne R, et al. Concepts of artificial intelligence for computer-assisted drug discovery[J]. Chem Rev, 2019, 119(18): 10520-10594. [百度学术]
Hornik K, Stinchcombe M, White H. Multilayer feedforward networks are universal approximators[J]. Neural Netw, 1989, 2(5): 359-366. [百度学术]
LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444. [百度学术]
Bengio Y, Courville A, Vincent P. Representation learning: a review and new perspectives[J]. IEEE Trans Pattern Anal Mach Intell, 2013, 35(8): 1798-1828. [百度学术]
Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Commun ACM, 2020, 63(11): 139-144. [百度学术]
Öztürk H, Özgür A, Schwaller P, et al. Exploring chemical space using natural language processing methodologies for drug discovery[J]. Drug Discov Today, 2020, 25(4): 689-705. [百度学术]
Kriegeskorte N, Golan T. Neural network models and deep learning[J]. Curr Biol, 2019, 29(7): R231-R236. [百度学术]
Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM, 2017: 6000-6010. [百度学术]
Bagal V, Aggarwal R, Vinod PK, et al. MolGPT: molecular generation using a transformer-decoder model[J]. J Chem Inf Model, 2022, 62(9): 2064-2076. [百度学术]
Hu J, Gao J, Fang XM, et al. DTSyn: a dual-transformer-based neural network to predict synergistic drug combinations[J]. Brief Bioinform, 2022, 23(5): bbac302. [百度学术]
Zaikis D, Vlahavas I. TP-DDI: transformer-based pipeline for the extraction of drug-drug interactions[J]. Artif Intell Med, 2021, 119: 102153. [百度学术]
Jiang LK, Jiang CZ, Yu XY, et al. DeepTTA: a transformer-based model for predicting cancer drug response[J]. Brief Bioinform, 2022, 23(3): bbac100. [百度学术]
Zhang ZH, Chen LF, Zhong FS, et al. Graph neural network approaches for drug-target interactions[J]. Curr Opin Struct Biol, 2022, 73: 102327. [百度学术]
Yang ZD, Zhong WH, Zhao L, et al. MGraphDTA: deep multiscale graph neural network for explainable drug-target binding affinity prediction[J]. Chem Sci, 2022, 13(3): 816-833. [百度学术]
Jorgensen WL. Challenges for academic drug discovery[J]. Angew Chem Int Ed Engl, 2012, 51(47): 11680-11684. [百度学术]
Yan JL, Bhadra P, Li A, et al. Deep-AmPEP30: improve short antimicrobial peptides prediction with deep learning[J]. Mol Ther Nucleic Acids, 2020, 20: 882-894. [百度学术]
Zhavoronkov A, Ivanenkov YA, Aliper A, et al. Deep learning enables rapid identification of potent DDR1 kinase inhibitors[J]. Nat Biotechnol, 2019, 37(9): 1038-1040. [百度学术]
Yoshimori A, Bajorath J. Deep SAR matrix: SAR matrix expansion for advanced analog design using deep learning architectures[J]. Future Drug Discov, 2020. doi:10.4155/fdd-2020-0005. [百度学术]
Yoshimori A, Miljković F, Bajorath J. Approach for the design of covalent protein kinase inhibitors via focused deep generative modeling[J]. Molecules, 2022, 27(2): 570. [百度学术]
Kennedy K, Cal R, Casey R, et al. The anti-ageing effects of a natural peptide discovered by artificial intelligence[J]. Int J Cosmet Sci, 2020, 42(4): 388-398. [百度学术]
Rein D, Ternes P, Demin R, et al. Artificial intelligence identified peptides modulate inflammation in healthy adults[J]. Food Funct, 2019, 10(9): 6030-6041. [百度学术]
Casey R, Adelfio A, Connolly M, et al. Discovery through machine learning and preclinical validation of novel anti-diabetic peptides[J]. Biomedicines, 2021, 9(3): 276. [百度学术]
Al-Khdhairawi A, Sanuri D, Akbar R, et al. Machine learning and molecular simulation ascertain antimicrobial peptide against Klebsiella pneumoniae from public database[J]. Comput Biol Chem, 2023, 102: 107800. [百度学术]
Yuan QT, Chen KY, Yu YM, et al. Prediction of anticancer peptides based on an ensemble model of deep learning and machine learning using ordinal positional encoding[J]. Brief Bioinform, 2023, 24(1): bbac630. [百度学术]
Huang JJ, Xu YC, Xue YF, et al. Identification of potent antimicrobial peptides via a machine-learning pipeline that mines the entire space of peptide sequences[J]. Nat Biomed Eng, 2023.doi:10.1038/s41551-022-00991-2. [百度学术]
Krishnan K, Kassab R, Agajanian S, et al. Interpretable machine learning models for molecular design of tyrosine kinase inhibitors using variational autoencoders and perturbation-based approach of chemical space exploration[J]. Int J Mol Sci, 2022, 23(19): 11262. [百度学术]
Kleandrova VV, Scotti MT, Scotti L, et al. Multi-target drug discovery via PTML modeling: applications to the design of virtual dual inhibitors of CDK4 and HER2[J]. Curr Top Med Chem, 2021, 21(7): 661-675. [百度学术]
Xing GM, Liang L, Deng CL, et al. Activity prediction of small molecule inhibitors for antirheumatoid arthritis targets based on artificial intelligence[J]. ACS Comb Sci, 2020, 22(12): 873-886. [百度学术]
Lien ST, Lin TE, Hsieh JH, et al. Establishment of extensive artificial intelligence models for kinase inhibitor prediction: identification of novel PDGFRB inhibitors[J]. Comput Biol Med, 2023, 156: 106722. [百度学术]
Goh GB, Hodas NO, Vishnu A. Deep learning for computational chemistry[J]. J Comput Chem, 2017, 38(16): 1291-1307. [百度学术]
Arul Murugan N, Ruba Priya G, Narahari Sastry G, et al. Artificial intelligence in virtual screening: models versus experiments[J]. Drug Discov Today, 2022, 27(7): 1913-1923. [百度学术]
Serafim MSM, Kronenberger T, Oliveira PR, et al. The application of machine learning techniques to innovative antibacterial discovery and development[J]. Expert Opin Drug Discov, 2020, 15(10): 1165-1180. [百度学术]
Arcon JP, Modenutti CP, Avendaño D, et al. AutoDock Bias: improving binding mode prediction and virtual screening using known protein-ligand interactions[J]. Bioinformatics, 2019, 35(19): 3836-3838. [百度学术]
Arcon JP, Defelipe LA, Lopez ED, et al. Cosolvent-based protein pharmacophore for ligand enrichment in virtual screening[J]. J Chem Inf Model, 2019, 59(8): 3572-3583. [百度学术]
Zhang HP, Liao LB, Cai YT, et al. IVS2vec: a tool of Inverse Virtual Screening based on word2vec and deep learning techniques[J]. Methods, 2019, 166: 57-65. [百度学术]
Gong JN, Zhao L, Chen GX, et al. A novel artificial intelligence protocol to investigate potential leads for diabetes mellitus[J]. Mol Divers, 2021, 25(3): 1375-1393. [百度学术]
Beck BR, Shin B, Choi Y, et al. Predicting commercially available antiviral drugs that may act on the novel coronavirus (SARS-CoV-2) through a drug-target interaction deep learning model[J]. Comput Struct Biotechnol J, 2020, 18: 784-790. [百度学术]
Lamontagne F, Agarwal A, Rochwerg B, et al. A living WHO guideline on drugs for covid-19[J]. BMJ, 2020, 370: m3379. [百度学术]
Roessler HI, Knoers NVAM, van Haelst MM, et al. Drug repurposing for rare diseases[J]. Trends Pharmacol Sci, 2021, 42(4): 255-267. [百度学术]
Brasil S, Allocca M, Magrinho SCM, et al. Systematic review: drug repositioning for congenital disorders of glycosylation (CDG)[J]. Int J Mol Sci, 2022, 23(15): 8725. [百度学术]
Ancuceanu R, Hovanet MV, Anghel AI, et al. Computational models using multiple machine learning algorithms for predicting drug hepatotoxicity with the DILIrank dataset[J]. Int J Mol Sci, 2020, 21(6): 2114. [百度学术]
Chen MM, Yang ZY, Gao YX, et al. Fast identification of adverse drug reactions (ADRs) of digestive and nervous systems of organic drugs by in silico models[J]. Molecules, 2021, 26(4): 930. [百度学术]
Gong XJ, Hu M, Liu JZ, et al. Decoding kinase-adverse event associations for small molecule kinase inhibitors[J]. Nat Commun, 2022, 13(1): 4349. [百度学术]
Nguyen M, Long SW, McDermott PF, et al. Using machine learning to predict antimicrobial MICs and associated genomic features for nontyphoidal Salmonella[J]. J Clin Microbiol, 2019, 57(2): e01260-e01218. [百度学术]
Weis C, Cuénod A, Rieck B, et al. Direct antimicrobial resistance prediction from clinical MALDI-TOF mass spectra using machine learning[J]. Nat Med, 2022, 28(1): 164-174. [百度学术]
Yang ZY, Ye ZF, Xiao YJ, et al. SPLDExtraTrees: robust machine learning approach for predicting kinase inhibitor resistance[J]. Brief Bioinform, 2022, 23(3): bbac050. [百度学术]
Sui QH, Chen ZC, Hu ZY, et al. Cisplatin resistance-related multi-omics differences and the establishment of machine learning models[J]. J Transl Med, 2022, 20(1): 171. [百度学术]
Yu T, Fu Y, He JT, et al. Identification of antibiotic resistance in ESKAPE pathogens through plasmonic nanosensors and machine learning[J]. ACS Nano, 2023, 17(5): 4551-4563. [百度学术]
Chandrasekaran S, Cokol-Cakmak M, Sahin N, et al. Chemogenomics and orthology-based design of antibiotic combination therapies[J]. Mol Syst Biol, 2016, 12(5): 872. [百度学术]
Ma SY, Jaipalli S, Larkins-Ford J, et al. Transcriptomic signatures predict regulators of drug synergy and clinical regimen efficacy against tuberculosis[J]. mBio, 2019, 10(6): e02627-e02619. [百度学术]
Li XB, Dowling EK, Yan GH, et al. Precision combination therapies based on recurrent oncogenic coalterations[J]. Cancer Discov, 2022, 12(6): 1542-1559. [百度学术]
Zhang TY, Zhang LW, Payne PRO, et al. Synergistic drug combination prediction by integrating multiomics data in deep learning models[J]. Methods Mol Biol, 2021, 2194: 223-238. [百度学术]
Bate A. Bayesian confidence propagation neural network[J]. Drug Saf, 2007, 30(7): 623-625. [百度学术]
Wu ZX, Zhu MF, Kang Y, et al. Do we need different machine learning algorithms for QSAR modeling? A comprehensive assessment of 16 machine learning algorithms on 14 QSAR data sets[J]. Brief Bioinform, 2021, 22(4): bbaa321. [百度学术]
Lugagne JB, Dunlop MJ. Anticipating antibiotic resistance[J]. Science, 2022, 375(6583): 818-819. [百度学术]
Li S, Zhang B. Traditional Chinese medicine network pharmacology: theory, methodology and application[J]. Chin J Nat Med, 2013, 11(2): 110-120. [百度学术]
Ren SJ, Wu SL, Weng QH. Physics-informed machine learning methods for biomass gasification modeling by considering monotonic relationships[J]. Bioresour Technol, 2023, 369: 128472. [百度学术]