使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

基于人工智能的药物人体肠道吸收性质预测

  • 濮澄韬
  • 顾灵茜
  • 陈兴晔
  • 张艳敏
中国药科大学理学院,医药大数据与人工智能研究院,南京 211198

中图分类号: TP18R911

最近更新:2023-07-03

DOI:10.11665/j.issn.1000-5048.2023032102

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

人体肠道吸收性(human intestinal absorption,HIA)是衡量药物口服生物利用度的重要标志之一。利用人工智能方法在药物发现早期对药物的HIA进行预测评估,能够加速药物发现过程并且降低成本。本研究分别使用分子模拟软件MOE(molecular operating environment)的2D、3D描述符和ECFP4(extended connectivity fingerprints)对分子进行表征,针对2 061条HIA数据建立支持向量机(SVM)、随机森林(RF)、深度神经网络(DNN)等8种模型。结果表明,基于2D、3D描述符和ECFP4指纹的组合描述符构建的SVM模型在各项评价指标上进行综合评价后是最优的,最优模型的受试者工作特征曲线下面积(AUC)、马修斯系数和Kappa系数分别为0.94,0.75及0.74。综上,本研究建立一个鲁棒性高、泛化能力强的预测HIA性质的机器学习模型,该模型可以用于为药物药代动力学性质研究提供指导及早期的分子筛选。

药物设计过程中除了需要考虑小分子对靶点的生物活性外,也需要关注药物的吸收、分布、代谢和排泄(ADME)等药代动力学(pharmacokinetics,PK)性

1,而以PK性质参数作为选择候选药物的标准可提高药物研发的成功率。口服吸收是最常用的给药方法,而人体小肠吸收是影响药物口服生物利用度的重要因素之2,小肠吸收常用人体肠道吸收性(human intestinal absorption,HIA)表示,HIA为口服药物到达肝门静脉的剂量百分3-4,即药物在体内吸收的总量除以给药剂量。如何高效准确地评估化合物的小肠吸收速率已成为新药研发的一大挑战。通过传统的实验方法进行药物肠道吸收性质的评价既费时费力又昂贵,因此,研究人员希望找到一种能在新药研发的早期就能对药物的HIA等AMDE性质进行评价的有效方法。

随着人工智能在近些年来的快速发展,各种机器学习算法和模型已经渗透到药物研发的各个阶段,其中就包括药物的药代动力学性质预测。Fu

5收集了2 452个临床化合物的血浆蛋白结合率的信息,构建了极端梯度提升和随机森林两种模型,同时分析了与血浆蛋白结合率密切相关的一些药物理化性质。Wang6建立了针对药物半数期、稳态分布容积、清除率和血浆蛋白结合率的机器学习模型,并且取得了优异的性能。对于本研究关注的HIA性质,相关的预测模型已有报道,例如,Hou3利用支持向量机(SVM)方法对包含578条HIA数据建立的定量结构—性质关系(quantitative structure-property relationship,QSPR)分类预测模型;Yang7使用包含734条HIA数据构建的自适应集成分类框架(adaptive ensemble classification framework,AECF)模型。这些模型虽然预测性能较为良好,但存在数据集的数据量过小且尚待更新等问题。本研究从在线化合物数据库Ochem数据集中收集了2 061条数据,从药物的2D、3D性质和结构着手,建立了SVM、随机森林(random forest,RF)和深度神经网络(deep neural network,DNN)等一系列机器学习模型。同时在模型评价阶段,本研究采用了多个评价指标,旨在全面地评估模型的鲁棒性和泛化能力,从而挑选出最优的HIA预测模型,为药物的早期发现阶段提供一定的指导。

  

Figure 1  Flowchart of predicting human intestinal absorption properties based on machine learning

HIA: Human intestinal absorption; SVM: Support vector machine; RF: Random forest; XGB: XGBoost; KNN: k-nearest neighbors; GBT: Gradient boosting tree; ET: Extremly randomized trees; DNN: Deep neural network

1 研究方法

1.1 传统的机器学习方法

本研究采用的传统机器学习方法包括支持向量机(support vector machine,SVM),k近邻(k-nearest neighbors,KNN),两种基于决策树的算法随机森林(random forest,RF)和极端随机树(extremly randomized trees,ET)及3种Boosting算法(XGBoost、AdaBoost和GBT)。上述机器学习算法的特点见表1

Table 1  Comparison of different machine learning algorithms
Learning algorithmBenefits/featuresLimitations/challengesRef
SVM Effective in high-dimensional spaces and can model non-linear relationships using kernel functions. It is robust to outliers and focus on margin maximization for better generalization Require careful selection of kernel and parameters, and are sensitive to feature scaling [8]
KNN A simple and easy-to-understand algorithm that can model non-linear relationships without training Sensitivity to the choice of k and distance metric, also high memory usage [9]
RF Reduces overfitting compared to single decision trees and can model complex relationships Not as interpretable as single decision trees and requires careful tuning of hyperparameters [10]
ET Faster training due to random feature splits and could be parallelized training Could be slow to train on large datasets [11]
GBT A gradient boosting framework and provides regularization to reduce overfitting Slower to train than Random Forest due to sequential nature of boosting [12]
XGBoost An optimized version of GBT, offering regularization and additional features Require careful tuning of hyperparameters(e.g. tree depth, learning rate) [13]
AdaBoost Focuses on misclassified instances and could be use with various base learners Sensitive to noisy data and outliers [14]

总的来说,上述提到的7种传统机器学习算法可以广泛应用到各种回归、分类任务中,并且能够获得较为准确的结果。

1.2 深度神经网络方法

深度神经网络(DNN

15是一类功能强大的深度学习模型,能够从数据中学习复杂的模式和表示。其通常由一个输入层、一个或多个隐藏层和一个输出层组成。每层包含多个神经元,这些神经元连接到相邻层中的神经元。每层中的神经元对输入数据执行线性变换,然后执行非线性激活函数,这使得神经网络能够捕获数据中复杂的非线性关系。DNN的训练通常是通过调整神经元的权重和偏差以最小化损失函数来实现的,其中损失函数用来衡量预测输出与真实标签之间的差异。优化过程通常使用基于梯度的反向传播实现。

1.3 人工智能模型的评价

针对本研究建立的HIA性质的二分类模型,选取了多种常见的统计学参数进行评估验

16,即精度(precision)、召回率(recall)、准确度(accuracy)、AUC(受试者工作特征曲线下面积)、Kappa系数、马修斯系数(MCC)、F1分数(F1-score)以及几何平均分数(G_mean score)。

其中,精度是正确预测的正样本数量在所有预测为正样本中所占的比例;召回率是正确预测的正样本数量占所有真实正例样本的比例;准确度是模型预测正确的结果占总样本的百分率,虽然其可以判断总的正确率,但在数据样本分布不平衡的情况下并不能客观地反映模型的预测能力。

AUC是以真阳性率为纵坐标,假阳性率为横坐标绘制而得的曲线下面积,可衡量分类模型的性能优劣,取值范围为0.5 ~ 1,越接近于1,分类模型表现的真实性越高,取值为0.5,表示分类模型无预测价值。

Kappa系数可用于衡量分类的效果,即模型预测结果与实际分类结果的一致性,其基于混淆矩阵进行计算,取值范围为-1 ~ 1,但通常大于0,Kappa系数越大意味着模型表现越好。

MCC系数是实际分类与预测分类之间的相关系数,综合考虑了真阳性、真阴性、假阳性、假阴性,通常被认为是比较均衡的二分类性能的统计学指标,即使是在正负两类样本含量差别很大时也能得到合理有效的评价结果,其取值范围是-1 ~ 1,取值为1表示完美的分类预测,取值为0表示分类预测的结果甚至不如随机分类的结果,而取值为-1则表示预测分类与实际分类完全不一致。

F1分数,又称平衡F分数,是模型召回率和准确度的调和平均数,是衡量二分类模型精确度的统计学指标,取值范围为0 ~ 1,值越大意味着模型性能越好。

G_mean是分类任务中常用的指标,特别是在每个类别中的样本数量不相等的不平衡数据集中。它是灵敏度(真阳性率)和特异性(真阴性率)的调和平均值,考虑了分类器在所有类别中的性能。

2 模型构建

2.1 小分子人体肠道吸收数据集的准备

在该研究中,从在线化合物数据库(https://ochem.eu/)中搜集具有 HIA实验数据的化合物分子,用Pipeline Pilot

17去除重复的化合物及HIA为空值、不确定值的化合物,如果一个分子有两条或多条数据,则采用这些值的算术平均值来减少随机误差。经一系列处理后,共得到2 061个化合物用来构建和验证模型。本研究中将30%设定为划分HIA性质优劣的阈3-4,当HIA小于30%时认定该化合物吸收性质较差,反之,当HIA大于30%时则认为吸收性质较好。将整个数据集以8∶1∶1的比例随机划分为训练集、测试集及验证集(表2)。

Table 2  Detailed information of the dataset
CategoryActiveInactiveTotal
Training 1 337 311 1 648
Test 167 40 207
External 162 44 206
Total 1 666 395 2 061

此外,本研究使用了主成分分析(principal component analysis,PCA

18和t-分布随机近邻嵌入(t-distributed stochastic neighbor embedding,t-SNE19两种降维方法来可视化数据。

2.2 基于分子结构和理化性质的描述符计算

分子的 2D 和 3D 描述符是捕捉分子结构和特性各个方面的数值表示。2D描述符源自分子的二维平面表示,主要捕获原子类型、键类型和分子图特征等信息。常见的二维描述符包括:相对分子质量、氢键供受体数和拓扑极性表面积等。3D描述符考虑了分子的三维结构,包括其构象和原子的空间排列。这些描述符提供有关分子形状、大小和静电特征等信息。常见的三维描述符包括:分子体积,分子能量和部分电荷分布等。本研究将2 061个分子导入MOE软件中,使用Calculate Descriptors模块分别计算了206个二维(2D)描述符和146个三维(3D)描述符,共352个描述符以识别HIA与化学分子结构之间的关系。

扩展连通性指纹(extended connectivity fingerprints,ECFPs

20是化学信息学中广泛使用的分子指纹算法,它对分子的结构信息进行编码。该算法通过生成一系列直径增加的圆形指纹来编码分子中化学子结构的连通性和距离关系。每个指纹代表距中心原子一定距离内的一组子结构,这些子结构的存在或不存在使用哈希函数进行编码。ECFPs已被证明在捕获分子结构信息方面非常有效,并广泛用于各种化学信息学应用当21。本研究通过调用python的RDKit库来获取分子的ECFPs指纹,设置计算半径为2,最终得到1 024位的ECFP4指纹。

为了探究不同描述符对模型的影响,分别考虑了二维特征、三维特征、ECFP4指纹以及两两组合的6种不同特征组合。

尽管计算得到了大量的描述符,但并非所有特征都是对建模有用的,不相关、不必要的描述符的存在会使模型泛化能力不佳,并导致过度拟合。因此为建立可靠的分类模型,减少描述符的数量,本研究通过两步预处理过程清洗数据集,以去除无用的描述符:(1)低方差过滤,删除自身方差变化小于0.1的特征,清除区别很小的特征。(2)高相关过滤,如果任意两个描述符之间的相关系数高于0.9,则仅保留一个,删除包含相同信息的特征。通过低方差过滤删除了1 058个特征变量,随后的高相关过滤删除了99个特征变量,最终输入模型的特征变量数为221个。

2.3 肠道吸收性质预测模型的实现和参数调优

本研究主要采用了SVM,RF,GBT,ET,Ada,KNN,XGBoost和DNN算法。各机器学习算法模型的构建通过开源的Scikit-learn(https://scikit-learn.org/stable/)标准库来实现,参数优化采用其中的模型选择GridSearchCV模块来完成;深度学习算法的实现是使用了Keras深度学习库,其后端为Tensorflow(http://www.tensorflow.org/),是Google开源的基于数据流图的机器学习框架。以上全部模型的构建、参数调节、结果验证等一系列步骤均通过Python软件来实现。

3 结 果

3.1 人体肠道吸收小分子数据集的划分

为了验证数据集随机划分的合理性,分别对训练集和测试集中的分子计算了5个常见的属性:原子数目、脂水分配系数、极性表面积、水溶性以及相对分子质量,然后通过PCA和t-SNE算法降维到二维,直观地表示训练集和测试集在化学空间上的分布。图2 即为得到的数据空间分布图,横纵坐标分别表示由降维得到的二维特征。由图可见,该分类模型的训练集和测试集具有相似的空间分布,在横纵坐标上PCA降维后主要分布在-200 ~ 200以及-100 ~ 100范围内,t-SNE降维后主要分布在-50 ~ 50及-45 ~ 40范围内,且两个数据集的分布相似。这表明对训练集与测试集的随机划分是合理的。

  

Figure 2  Spatial distributions of training sets (green dots) and test sets(red dots)

A: PCA method;B:t-SNE method

3.2 人体肠道吸收性质预测模型的选择及验证

基于训练集使用不同的机器学习方法以及不同的描述符组合建立模型以后,利用包含207 条数据的测试集对各模型的HIA分类能力进行评估。

针对8种模型同6种描述符的组合共建立了48个模型,模型在召回率、精度、准确度、F1分数和G_mean这5个指标变动较为稳定(召回率为0.96 ~ 0.99,精度为0.89 ~ 0.94,准确度为0.89 ~ 0.93,F1分数为0.94 ~ 0.96,G_mean为0.85 ~ 0.94);而AUC、MCC系数、Kappa系数等指标变动较大(AUC为0.81 ~ 0.94,MCC为0.63 ~ 0.77,Kappa为0.61 ~ 0.76),表明不同的描述符组合及算法对建立的模型有一定的影响。

本研究通过小提琴图对不同算法、描述符组合进行分析,直观地表现数据的概率分布情况(对应的图形越宽则说明该值出现的概率越大),以便能更好地比较不同因子对模型的影响。图3为不同算法、不同描述符组合在参数最优时对应的F1分数、Kappa系数、MCC系数的分布情况。选择这3个统计学指标的原因是本研究所使用的数据集正负比例较为不平衡,而上述3个指标能够在数据集不平衡的情况下也能够对模型的预测能力有一个客观合理的评估。

  

Figure 3  Probability distribution of F1-score, Kappa, Matthews correlation coeffient (MCC) based on different algorithms (A) and different descriptors (B)

首先,对不同算法进行分析研究,从图3-A中可以看到无论是F1分数、Kappa系数还是MCC系数,KNN、GBT、ET模型对应的分布图均狭窄而长,表明数据分布极为分散,进而表明KNN、GBT、ET模型受描述符组合影响较大,模型表现效果不稳定;RF、AdaBoost、DNN模型分布图在8个模型中表现趋于中间,但RF模型的F1分数、Kappa系数、MCC系数都是8个模型中分布最为偏下的,表明RF模型性能虽然比较稳定但整体性能略差,而AdaBoost和DNN模型分布图较RF模型略长,表明其性能稳健性不好;SVM、XGBoost模型在所有算法中表现略胜一筹,对应的分布图形最为宽短,表明这两个算法受描述符影响较小,不同组合得到的结果较为类似,稳定性强。而SVM相对于XGBoost的图形宽度主要集中在F1分数、Kappa系数、MCC系数较高的位置,因此,SVM模型表现最佳。

其次,对不同描述符组合进行分析探讨,从图3-B中可知相同的描述符组合的F1分数、Kappa系数、MCC系数的分布在不同算法上表现有一定的差异,尤其是3D、2D + 3D、2D + 3D + ECFP4。在F1分数中,2D + 3D + ECFP4组合得到的分布图最为宽短,其次是2D、3D,而在Kappa系数、MCC系数中,2D + 3D的分布图最优,其次是2D,这表明同一描述符组合受模型算法的影响较大。2D + ECFP4表现一直很稳定,无论是F1分数、Kappa系数还是MCC系数分布图都最狭窄而长,整体数据极为分散;3D + ECFP4的分布图的长宽比较稳定,但很明显其Kappa系数、MCC系数表现差于F1分数。因此,相对来说2D、2D + 3D + ECFP4的描述符组合在F1分数、Kappa系数、MCC系数的表现较为接近且分布区域较广。

为了更清楚地观察结果,绘制了雷达图(图4),可以看出2D + ECFP4、3D + ECFP4组合模型变化大主要是RF、KNN模型表现的统计学指标过低,尤其是AUC、MCC系数、Kappa系数;对于2D、3D、2D + 3D的描述符组合,不同模型之间的AUC、MCC系数、Kappa系数也有一定的差距;而2D + 3D + ECFP4的描述符组合各模型的表现相对较为接近。综上所述,SVM模型及2D + 3D + ECFP4的描述符组合,在测试集上的整体表现优于其他模型。

  

Figure 4  Radar charts of precision, recall, F1-score, accuracy, G_mean, MCC, AUC and Kappa values in terms of different descriptors combination

为了进一步评估模型的准确性和稳定性,对最优模型SVM的训练集进行了十折交叉验证评估。如图5-A所示为SVM模型2D + 3D + ECFP4描述符组合的十折交叉验证的ROC曲线图,其平均ROC AUC为0.89,为确保SVM模型的稳定性,还对其他组合的描述符所得的模型进行了十折交叉验证,其平均ROC AUC区间为0.85 ~ 0.89,与最优的2D + 3D + ECFP4描述符组合区别很小,表明了该算法的可靠性与稳健性。

  

Figure 5  Performance of SVM model

A:Receiver operating characteristic (ROC) curve of 10 fold cross validation using SVM model (2D + 3D + ECFP4); B: Results on the external validation set

另外,通过事先划分出来的外部验证集对SVM模型作进一步验证。用基于训练集建立的模型对外部验证集进行预测,图5-B为该模型的具体预测结果数据,且所得F1分数、Kappa系数、MCC系数和AUC分别为0.94、0.67、0.69和0.90,数值都比较高,展现出本研究所构建模型的优秀预测能力。

3.3 药物人体肠道吸收性质预测模型的比较

通过查阅文献资料,寻找目前已发表的HIA分类的预测模型,并与本研究中选择的最优SVM模型的预测性能进行比较,本模型的构建选用的数据集最大,且计算了多种类型的描述符及分子指纹,极大地提高了模型的普适性。利用SVM算法构建的模型预测能力较好,且选择了多种验证模型性能的方法和指标,增加了模型的可信度(表3)。

Table 3  Comparison with published HIA prediction models
ModelDatasetDescriptorsMethodSensitivityAUCMCCKappaRef.
1 578 2D SVM 0.97 - 0.88 - [3]
2 734 2D, molecular fingerprint AECF 0.96 0.92 0.79 0.79 [7]
3 1 253 2D, 3D, molecular fingerprint SVM 0.99 0.94 0.75 0.74 This study

4 小 结

在这项工作中,主要是针对药物设计过程中ADME性质的预测及优化改善,本研究选用包含2 061条药物HIA的数据集,并采用8种机器学习算法对人体肠道吸收百分率这一参数建立QSPR预测分类模型,并比较了不同算法、不同描述符组合条件下,在测试集、外部验证集上的表现。当选择SVM模型并使用2D + 3D + ECFP4的描述符组合时显示出比其他模型更好的性能。此外,采用十折交叉验证、AUC、MCC、Kappa、F1分数等统计学参数进一步验证了这些模型的稳健性与鲁棒性。最后,将该模型与其他已发表模型的表现进行比较,其展现了较好的预测分类能力,为后续的药物设计及结构优化改造提供有效的研究指导,也有利于推动药物设计筛选工作的进行。

References

1

Pillai N, Dasgupta A, Sudsakorn S, et al. Machine Learning guided early drug discovery of small molecules[J]. Drug Discov Today, 2022, 27(8): 2209-2215. [百度学术] 

2

Basant N, Gupta S, Singh KP. Predicting human intestinal absorption of diverse chemicals using ensemble learning based QSAR modeling approaches[J]. Comput Biol Chem, 2016, 61: 178-196. [百度学术] 

3

Hou TJ, Wang JM, Li YY. ADME evaluation in drug discovery. 8. The prediction of human intestinal absorption by a support vector machine[J]. J Chem Inf Model, 2007, 47(6): 2408-2415. [百度学术] 

4

Kumar R, Sharma A, Siddiqui MH, et al. Prediction of human intestinal absorption of compounds using artificial intelligence techniques[J]. Curr Drug Discov Technol, 2017, 14(4): 244-254. [百度学术] 

5

Fu MY, Zhu YY, Wu CY, et al. Prediction of plasma protein binding rate based on machine learning[J]. J China Pharm Univ (中国药科大学学报), 2021, 52(6): 699-706. [百度学术] 

6

Wang YC, Liu HC, Fan YR, et al. In silico prediction of human intravenous pharmacokinetic parameters with improved accuracy[J]. J Chem Inf Model, 2019, 59(9): 3968-3980. [百度学术] 

7

Yang M, Chen JL, Xu LW, et al. A novel adaptive ensemble classification framework for ADME prediction[J]. RSC Adv, 2018, 8(21): 11661-11683. [百度学术] 

8

Xing GM, Liang L, Deng CL, et al. Activity prediction of small molecule inhibitors for antirheumatoid arthritis targets based on artificial intelligence[J]. ACS Comb Sci, 2020, 22(12): 873-886. [百度学术] 

9

Jadhav SD, Channe HP.. Comparative study of K-NN, naive Bayes and decision tree classification techniques[J]. Int J Sci Res, 2016, 5(1): 1842-1845. [百度学术] 

10

Wang MWH, Goodman JM, Allen TEH. Machine learning in predictive toxicology: recent applications and future directions for classification models[J]. Chem Res Toxicol, 2021, 34(2): 217-239. [百度学术] 

11

Geurts P, Ernst D, Wehenkel L. Extremely randomized trees[J]. Mach Learn, 2006, 63(1): 3-42. [百度学术] 

12

Ke GL, Meng Q, Finley T, et al. LightGBM: a highly efficient gradient boosting decision tree[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM, 2017: 3149-3157. [百度学术] 

13

Chen TQ, Guestrin C. XGBoost: a scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016: 785-794. [百度学术] 

14

Dou LJ, Li XL, Zhang LC, et al. iGlu_AdaBoost: identification of lysine glutarylation using the AdaBoost classifier[J]. J Proteome Res, 2021, 20(1): 191-201. [百度学术] 

15

Ciregan D, Meier U, Schmidhuber J. Multi-column deep neural networks for image classification[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence. IEEE, 2012: 3642-3649. [百度学术] 

16

Tharwat A. Classification assessment methods[J].Appl Comput Inform, 2018, 12(1): 1-13. [百度学术] 

17

Warr WA. Scientific workflow systems: pipeline pilot and KNIME[J]. J Comput Aided Mol Des, 2012, 26(7): 801-804. [百度学术] 

18

Tipping ME, Bishop CM. Probabilistic principal component analysis[J]. J R Stat Soc, 1999, 61(3): 611-622. [百度学术] 

19

Maaten L, Hinton GE. Visualizing data using t-SNE[J]. J Mach Learn Res, 2008, 9: 2579-2605. [百度学术] 

20

Rogers D, Hahn M. Extended-connectivity fingerprints[J].J Chem Inf Model, 2010, 50(5): 742-754. [百度学术] 

21

Carracedo-Reboredo P, Liñares-Blanco J, Rodríguez-Fernández N, et al. A review on machine learning approaches and trends in drug discovery[J].Comput Struct Biotechnol J, 2021, 19: 4538-4558. [百度学术]