摘要
人体肠道吸收性(human intestinal absorption,HIA)是衡量药物口服生物利用度的重要标志之一。利用人工智能方法在药物发现早期对药物的HIA进行预测评估,能够加速药物发现过程并且降低成本。本研究分别使用分子模拟软件MOE(molecular operating environment)的2D、3D描述符和ECFP4(extended connectivity fingerprints)对分子进行表征,针对2 061条HIA数据建立支持向量机(SVM)、随机森林(RF)、深度神经网络(DNN)等8种模型。结果表明,基于2D、3D描述符和ECFP4指纹的组合描述符构建的SVM模型在各项评价指标上进行综合评价后是最优的,最优模型的受试者工作特征曲线下面积(AUC)、马修斯系数和Kappa系数分别为0.94,0.75及0.74。综上,本研究建立一个鲁棒性高、泛化能力强的预测HIA性质的机器学习模型,该模型可以用于为药物药代动力学性质研究提供指导及早期的分子筛选。
药物设计过程中除了需要考虑小分子对靶点的生物活性外,也需要关注药物的吸收、分布、代谢和排泄(ADME)等药代动力学(pharmacokinetics,PK)性
随着人工智能在近些年来的快速发展,各种机器学习算法和模型已经渗透到药物研发的各个阶段,其中就包括药物的药代动力学性质预测。Fu

Figure 1 Flowchart of predicting human intestinal absorption properties based on machine learning
HIA: Human intestinal absorption; SVM: Support vector machine; RF: Random forest; XGB: XGBoost; KNN: k-nearest neighbors; GBT: Gradient boosting tree; ET: Extremly randomized trees; DNN: Deep neural network
本研究采用的传统机器学习方法包括支持向量机(support vector machine,SVM),k近邻(k-nearest neighbors,KNN),两种基于决策树的算法随机森林(random forest,RF)和极端随机树(extremly randomized trees,ET)及3种Boosting算法(XGBoost、AdaBoost和GBT)。上述机器学习算法的特点见
Learning algorithm | Benefits/features | Limitations/challenges | Ref |
---|---|---|---|
SVM | Effective in high-dimensional spaces and can model non-linear relationships using kernel functions. It is robust to outliers and focus on margin maximization for better generalization | Require careful selection of kernel and parameters, and are sensitive to feature scaling |
[ |
KNN | A simple and easy-to-understand algorithm that can model non-linear relationships without training | Sensitivity to the choice of k and distance metric, also high memory usage |
[ |
RF | Reduces overfitting compared to single decision trees and can model complex relationships | Not as interpretable as single decision trees and requires careful tuning of hyperparameters |
[ |
ET | Faster training due to random feature splits and could be parallelized training | Could be slow to train on large datasets |
[ |
GBT | A gradient boosting framework and provides regularization to reduce overfitting | Slower to train than Random Forest due to sequential nature of boosting |
[ |
XGBoost | An optimized version of GBT, offering regularization and additional features | Require careful tuning of hyperparameters(e.g. tree depth, learning rate) |
[ |
AdaBoost | Focuses on misclassified instances and could be use with various base learners | Sensitive to noisy data and outliers |
[ |
总的来说,上述提到的7种传统机器学习算法可以广泛应用到各种回归、分类任务中,并且能够获得较为准确的结果。
深度神经网络(DNN
针对本研究建立的HIA性质的二分类模型,选取了多种常见的统计学参数进行评估验
其中,精度是正确预测的正样本数量在所有预测为正样本中所占的比例;召回率是正确预测的正样本数量占所有真实正例样本的比例;准确度是模型预测正确的结果占总样本的百分率,虽然其可以判断总的正确率,但在数据样本分布不平衡的情况下并不能客观地反映模型的预测能力。
AUC是以真阳性率为纵坐标,假阳性率为横坐标绘制而得的曲线下面积,可衡量分类模型的性能优劣,取值范围为0.5 ~ 1,越接近于1,分类模型表现的真实性越高,取值为0.5,表示分类模型无预测价值。
Kappa系数可用于衡量分类的效果,即模型预测结果与实际分类结果的一致性,其基于混淆矩阵进行计算,取值范围为-1 ~ 1,但通常大于0,Kappa系数越大意味着模型表现越好。
MCC系数是实际分类与预测分类之间的相关系数,综合考虑了真阳性、真阴性、假阳性、假阴性,通常被认为是比较均衡的二分类性能的统计学指标,即使是在正负两类样本含量差别很大时也能得到合理有效的评价结果,其取值范围是-1 ~ 1,取值为1表示完美的分类预测,取值为0表示分类预测的结果甚至不如随机分类的结果,而取值为-1则表示预测分类与实际分类完全不一致。
F1分数,又称平衡F分数,是模型召回率和准确度的调和平均数,是衡量二分类模型精确度的统计学指标,取值范围为0 ~ 1,值越大意味着模型性能越好。
G_mean是分类任务中常用的指标,特别是在每个类别中的样本数量不相等的不平衡数据集中。它是灵敏度(真阳性率)和特异性(真阴性率)的调和平均值,考虑了分类器在所有类别中的性能。
在该研究中,从在线化合物数据库(https://ochem.eu/)中搜集具有 HIA实验数据的化合物分子,用Pipeline Pilo
Category | Active | Inactive | Total |
---|---|---|---|
Training | 1 337 | 311 | 1 648 |
Test | 167 | 40 | 207 |
External | 162 | 44 | 206 |
Total | 1 666 | 395 | 2 061 |
此外,本研究使用了主成分分析(principal component analysis,PCA
分子的 2D 和 3D 描述符是捕捉分子结构和特性各个方面的数值表示。2D描述符源自分子的二维平面表示,主要捕获原子类型、键类型和分子图特征等信息。常见的二维描述符包括:相对分子质量、氢键供受体数和拓扑极性表面积等。3D描述符考虑了分子的三维结构,包括其构象和原子的空间排列。这些描述符提供有关分子形状、大小和静电特征等信息。常见的三维描述符包括:分子体积,分子能量和部分电荷分布等。本研究将2 061个分子导入MOE软件中,使用Calculate Descriptors模块分别计算了206个二维(2D)描述符和146个三维(3D)描述符,共352个描述符以识别HIA与化学分子结构之间的关系。
扩展连通性指纹(extended connectivity fingerprints,ECFPs
为了探究不同描述符对模型的影响,分别考虑了二维特征、三维特征、ECFP4指纹以及两两组合的6种不同特征组合。
尽管计算得到了大量的描述符,但并非所有特征都是对建模有用的,不相关、不必要的描述符的存在会使模型泛化能力不佳,并导致过度拟合。因此为建立可靠的分类模型,减少描述符的数量,本研究通过两步预处理过程清洗数据集,以去除无用的描述符:(1)低方差过滤,删除自身方差变化小于0.1的特征,清除区别很小的特征。(2)高相关过滤,如果任意两个描述符之间的相关系数高于0.9,则仅保留一个,删除包含相同信息的特征。通过低方差过滤删除了1 058个特征变量,随后的高相关过滤删除了99个特征变量,最终输入模型的特征变量数为221个。
本研究主要采用了SVM,RF,GBT,ET,Ada,KNN,XGBoost和DNN算法。各机器学习算法模型的构建通过开源的Scikit-learn(https://scikit-learn.org/stable/)标准库来实现,参数优化采用其中的模型选择GridSearchCV模块来完成;深度学习算法的实现是使用了Keras深度学习库,其后端为Tensorflow(http://www.tensorflow.org/),是Google开源的基于数据流图的机器学习框架。以上全部模型的构建、参数调节、结果验证等一系列步骤均通过Python软件来实现。
为了验证数据集随机划分的合理性,分别对训练集和测试集中的分子计算了5个常见的属性:原子数目、脂水分配系数、极性表面积、水溶性以及相对分子质量,然后通过PCA和t-SNE算法降维到二维,直观地表示训练集和测试集在化学空间上的分布。

Figure 2 Spatial distributions of training sets (green dots) and test sets(red dots)
A: PCA method;B:t-SNE method
基于训练集使用不同的机器学习方法以及不同的描述符组合建立模型以后,利用包含207 条数据的测试集对各模型的HIA分类能力进行评估。
针对8种模型同6种描述符的组合共建立了48个模型,模型在召回率、精度、准确度、F1分数和G_mean这5个指标变动较为稳定(召回率为0.96 ~ 0.99,精度为0.89 ~ 0.94,准确度为0.89 ~ 0.93,F1分数为0.94 ~ 0.96,G_mean为0.85 ~ 0.94);而AUC、MCC系数、Kappa系数等指标变动较大(AUC为0.81 ~ 0.94,MCC为0.63 ~ 0.77,Kappa为0.61 ~ 0.76),表明不同的描述符组合及算法对建立的模型有一定的影响。
本研究通过小提琴图对不同算法、描述符组合进行分析,直观地表现数据的概率分布情况(对应的图形越宽则说明该值出现的概率越大),以便能更好地比较不同因子对模型的影响。

Figure 3 Probability distribution of F1-score, Kappa, Matthews correlation coeffient (MCC) based on different algorithms (A) and different descriptors (B)
首先,对不同算法进行分析研究,从
其次,对不同描述符组合进行分析探讨,从
为了更清楚地观察结果,绘制了雷达图(

Figure 4 Radar charts of precision, recall, F1-score, accuracy, G_mean, MCC, AUC and Kappa values in terms of different descriptors combination
为了进一步评估模型的准确性和稳定性,对最优模型SVM的训练集进行了十折交叉验证评估。如

Figure 5 Performance of SVM model
A:Receiver operating characteristic (ROC) curve of 10 fold cross validation using SVM model (2D + 3D + ECFP4); B: Results on the external validation set
另外,通过事先划分出来的外部验证集对SVM模型作进一步验证。用基于训练集建立的模型对外部验证集进行预测,
通过查阅文献资料,寻找目前已发表的HIA分类的预测模型,并与本研究中选择的最优SVM模型的预测性能进行比较,本模型的构建选用的数据集最大,且计算了多种类型的描述符及分子指纹,极大地提高了模型的普适性。利用SVM算法构建的模型预测能力较好,且选择了多种验证模型性能的方法和指标,增加了模型的可信度(
Model | Dataset | Descriptors | Method | Sensitivity | AUC | MCC | Kappa | Ref. |
---|---|---|---|---|---|---|---|---|
1 | 578 | 2D | SVM | 0.97 | - | 0.88 | - |
[ |
2 | 734 | 2D, molecular fingerprint | AECF | 0.96 | 0.92 | 0.79 | 0.79 |
[ |
3 | 1 253 | 2D, 3D, molecular fingerprint | SVM | 0.99 | 0.94 | 0.75 | 0.74 | This study |
在这项工作中,主要是针对药物设计过程中ADME性质的预测及优化改善,本研究选用包含2 061条药物HIA的数据集,并采用8种机器学习算法对人体肠道吸收百分率这一参数建立QSPR预测分类模型,并比较了不同算法、不同描述符组合条件下,在测试集、外部验证集上的表现。当选择SVM模型并使用2D + 3D + ECFP4的描述符组合时显示出比其他模型更好的性能。此外,采用十折交叉验证、AUC、MCC、Kappa、F1分数等统计学参数进一步验证了这些模型的稳健性与鲁棒性。最后,将该模型与其他已发表模型的表现进行比较,其展现了较好的预测分类能力,为后续的药物设计及结构优化改造提供有效的研究指导,也有利于推动药物设计筛选工作的进行。
References
Pillai N, Dasgupta A, Sudsakorn S, et al. Machine Learning guided early drug discovery of small molecules[J]. Drug Discov Today, 2022, 27(8): 2209-2215. [百度学术]
Basant N, Gupta S, Singh KP. Predicting human intestinal absorption of diverse chemicals using ensemble learning based QSAR modeling approaches[J]. Comput Biol Chem, 2016, 61: 178-196. [百度学术]
Hou TJ, Wang JM, Li YY. ADME evaluation in drug discovery. 8. The prediction of human intestinal absorption by a support vector machine[J]. J Chem Inf Model, 2007, 47(6): 2408-2415. [百度学术]
Kumar R, Sharma A, Siddiqui MH, et al. Prediction of human intestinal absorption of compounds using artificial intelligence techniques[J]. Curr Drug Discov Technol, 2017, 14(4): 244-254. [百度学术]
Fu MY, Zhu YY, Wu CY, et al. Prediction of plasma protein binding rate based on machine learning[J]. J China Pharm Univ (中国药科大学学报), 2021, 52(6): 699-706. [百度学术]
Wang YC, Liu HC, Fan YR, et al. In silico prediction of human intravenous pharmacokinetic parameters with improved accuracy[J]. J Chem Inf Model, 2019, 59(9): 3968-3980. [百度学术]
Yang M, Chen JL, Xu LW, et al. A novel adaptive ensemble classification framework for ADME prediction[J]. RSC Adv, 2018, 8(21): 11661-11683. [百度学术]
Xing GM, Liang L, Deng CL, et al. Activity prediction of small molecule inhibitors for antirheumatoid arthritis targets based on artificial intelligence[J]. ACS Comb Sci, 2020, 22(12): 873-886. [百度学术]
Jadhav SD, Channe HP.. Comparative study of K-NN, naive Bayes and decision tree classification techniques[J]. Int J Sci Res, 2016, 5(1): 1842-1845. [百度学术]
Wang MWH, Goodman JM, Allen TEH. Machine learning in predictive toxicology: recent applications and future directions for classification models[J]. Chem Res Toxicol, 2021, 34(2): 217-239. [百度学术]
Geurts P, Ernst D, Wehenkel L. Extremely randomized trees[J]. Mach Learn, 2006, 63(1): 3-42. [百度学术]
Ke GL, Meng Q, Finley T, et al. LightGBM: a highly efficient gradient boosting decision tree[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM, 2017: 3149-3157. [百度学术]
Chen TQ, Guestrin C. XGBoost: a scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016: 785-794. [百度学术]
Dou LJ, Li XL, Zhang LC, et al. iGlu_AdaBoost: identification of lysine glutarylation using the AdaBoost classifier[J]. J Proteome Res, 2021, 20(1): 191-201. [百度学术]
Ciregan D, Meier U, Schmidhuber J. Multi-column deep neural networks for image classification[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence. IEEE, 2012: 3642-3649. [百度学术]
Tharwat A. Classification assessment methods[J].Appl Comput Inform, 2018, 12(1): 1-13. [百度学术]
Warr WA. Scientific workflow systems: pipeline pilot and KNIME[J]. J Comput Aided Mol Des, 2012, 26(7): 801-804. [百度学术]
Tipping ME, Bishop CM. Probabilistic principal component analysis[J]. J R Stat Soc, 1999, 61(3): 611-622. [百度学术]
Maaten L, Hinton GE. Visualizing data using t-SNE[J]. J Mach Learn Res, 2008, 9: 2579-2605. [百度学术]
Rogers D, Hahn M. Extended-connectivity fingerprints[J].J Chem Inf Model, 2010, 50(5): 742-754. [百度学术]
Carracedo-Reboredo P, Liñares-Blanco J, Rodríguez-Fernández N, et al. A review on machine learning approaches and trends in drug discovery[J].Comput Struct Biotechnol J, 2021, 19: 4538-4558. [百度学术]