摘要
人体细胞色素P450(CYP)受到抑制会导致药物-药物相互作用,从而产生严重的不良反应。因此,准确预测给定化合物对特定CYP亚型的抑制能力至关重要。本研究基于不同的分子表征,比较了11种机器学习方法和2种深度学习模型,实验结果表明,基于RDKit_2d + Morgan的CatBoost机器学习模型在准确率和马修斯系数方面优于其他模型,甚至优于先前发表的模型。此外,实验结果还显示,CatBoost模型不仅性能佳,而且计算资源消耗较低。最后,本文将表现较好的前3名模型结合为co_model,其在性能方面稍微优于单独使用CatBoost模型。
人体细胞色素P450(CYP)广泛存在于细菌、真菌、植物和动物中。CYP超家族有57种血红蛋白亚型,主要存在于肝细
各种基于结构和配体的药物设计方法已经被用于预测CYP底物的模
目前,由于现有的CYP数据不足以产生良好的且广泛适用的回归模型,因此大多数已开发的模型为分类模
然而,目前CYP数据集存在不平衡的问题,这使得建立的模型无法很好地应对这一关键问题,导致训练出的模型准确率无法达到最佳,并且评价指标过于依赖ACC和受试者工作特征曲线下面积(AUC)等,对MCC的衡量没有充分重视,特别是在存在不平衡的二分类问题中,这往往无法客观反映模型的性能。
本研究通过Pubchem上的大数据集,并基于不同的分子表征方法,建立了深度学习和机器学习模型,比较了针对CYP活性预测的最佳模型和其最佳描述符,并主要使用MCC作为重要指标来评估模型的优劣。
本实验使用的所有数据集均从Pubchem生物分析数据库中(https://Pubchem.ncbi.nlm.nih.gov/bioassay)下载而来。每个数据集都包含了化合物的活性评分、效价、曲线描述、拟合对数IC50和拟合
在每个数据集中,样本标记分为3种不同的类别,包括“active”(活性)、“inactive”(非活性)和“inconclusive”(不确定)。首先,本研究排除了标记为“inconclusive”的数据,只有标记为“active”或“inactive”的化合物进行进一步处理。然后,根据IC5
Criteria | Inhibitor | Non-inhibitor |
---|---|---|
IC50 | ≤10 μmol/L | >57 μmol/L |
Score | ≥40 | 0 |
Curve class | -1.1, -1.2, -2.1 | 4 |
Isoform | Dataset | |||
---|---|---|---|---|
Class | Train | Test | Total | |
CYP1A2 |
Noninhibitor Inhibitor Total |
6 575 4 364 10 939 |
325 91 416 |
6 904 4 455 11 355 |
CYP2C9 |
Noninhibitor Inhibitor Total |
7 852 2 958 10 810 |
1 039 96 1 135 |
8 891 3 054 11 945 |
CYP2C19 |
Noninhibitor Inhibitor Total |
6 722 4 925 11 647 |
940 230 1 170 |
7 662 5 155 12 817 |
CYP2D6 |
Noninhibitor Inhibitor Total |
10 459 1 473 11 932 |
1 346 130 1 476 |
11 805 1 603 13 407 |
CYP3A4 |
Toninhibitor Inhibitor Total |
6 909 3 460 10 366 |
2 524 558 3 082 |
9 433 4 018 13 448 |
SVM是一种广义线性分类器,通过监督学习的方式对数据进行二元分类。它在特征空间中寻找一个超平面作为决策边界,使得不同类别样本点之间的间隔最大化,从而提高分类的准确性和泛化能
KNN是一种简单直观的机器学习算法,可用于分类和回归问题。它基于邻居之间的距离来确定样本的类别或输出值。KNN通过计算待分类样本与训练集样本之间的距离,并选择最近的k个邻居,根据它们的类别进行投票或计算平均值来预测样本的类别或输出
DT是一种分层决策结构,可用于分类和回归。它通过建立一棵树状结构来对数据进行划分和预测。决策树的每个节点代表一个特征,根据该特征对数据进行划分,直到达到叶子节点,叶子节点代表数据的类别或输出值。决策树具有推理速度快且可解释性强的特点,是一种应用非常广泛的算
RF是一种非线性的基于决策树的集成方法,是决策树的Bagging扩展变体,它通过在决策树的训练过程中引入随机特征选择,提高最终集成模型的泛化能力。RF具有高预测精度,对异常值和噪声的容忍度高,不易过拟合的特点。此外,它能够处理具有高维特征的输入样本,无需降维,因此成为QSAR建模中最流行的算法之
LightGBM是一种实现GBDT算法的框架,GBDT是机器学习中长期存在的模型,其主要思想是使用弱分类器(决策树)迭代训练获得最优模型。该模型具有训练效果好、过拟合可能性较小的优点。LightGBM支持高效的并行训练,具有更快的训练速度、更低的内存消耗、更好的准确性以及分布式支持快速处理大量数据等优
GBDT也称为多元加性回归树,是一种迭代决策树算法。与传统的Boosting方法不同,GBDT的每次计算都是为了减少先前构建的树学习器的残差,而不是专注于重新加权错误分类的样本。为了最小化残差,GBDT构建了一个决策树学习器以及残差梯度的方向。GBDT通过累加所有树的预测结果来得出预测结果,而累加过程是通过回归而不是分类来完成。因此,与RF不同,GBDT的树是CART回归树,而不是分类树,并且这些树只能串行生
XGBoost是一种强大的机器学习算法,属于集成学习中的梯度提升方法。它通过迭代构建多个弱学习器,并将它们组合成一个强大的预测模型。XGBoost通过优化目标函数,使用梯度提升算法逐步提高模型的性能,并提供正则化选项,包括L1和L2正则化,用于控制模型的复杂度,降低模型的方差,防止过拟
AdaBoost是由Freund和Schapire于1995年首次提出的迭代算法,是Boosting家族的成员之一,也是最常用的机器学习方法之一。Ada的核心思想是为同一个训练集训练多个不同的弱分类器,然后将这些弱分类器集合到一个强分类器中。该分类器具有简单、检测速度快、分类准确率高和不易过拟合等优
CatBoost算法是俄罗斯搜索巨头Yandex于2017年开源的机器学习库,是一种Boosting系列算法。CatBoost、XGBoost和LightGBM模型也被称为GBDT的三大主流工具,都是基于GBDT算法框架进行改进实
LR是一种用于解决二元分类问题的机器学习方法。LR算法的核心思想是通过对输入特征的线性组合应用逻辑函数,将输入映射到一个介于0和1之间的概率。这个概率可以被解释为样本属于某个类别的概率。在训练阶段,LR通过最大似然估计或梯度下降等优化算法来学习模型参数,使得模型能够最大程度地拟合训练数
ET算法采用了类似决策树的结构,通过组合多个弱分类器来构建一个强分类器。它通过迭代训练,每一轮都基于前一轮的结果调整样本的权重,使得前一轮分类错误的样本在下一轮中得到更多关注。最终的预测结果是基于所有弱分类器的加权组合
DNN是深度学习的一种框架,由多层计算节点组成,按照不同层的位置,内部神经网络可以分为输入层、隐藏层和输出层。神经元和神经元层的数量取决于数据集中描述符的数量、化合物的数量和输出的类
Hyperparameter | Setting | Hyperparameter | Setting |
---|---|---|---|
Optimizer | Adam (lr = 1e - 3) | Share layer | 520 (1 250, 256) |
Dropout rate | 0.3 (0.2, 0.4, 0.5) | Tower_1 | 168 (520, 256, 168) |
Sampling | RUS (ROS, SMOT) | Tower_2 | 168 (520, 256, 168) |
Epoch | 250 (150, 250, 500) | Tower_3 | 64 (256, 168, 64) |
Loss | Crossentropy | Output layer | 2 |
本研究采用马修斯相关系数(Matthews correlation coefficient,MCC)作为模型性能的度量。MCC是一种综合考虑真阳性(true positive,TP)、真阴性(true negative,TN)、假阳性(false positive,FP)和假阴性(false negative,FN)预测数量的测量方法,因此被认为是一种稳健的度量,适用于评价不平衡数据的模
(1) |
MCC的范围从-1到+1,其中-1为负相关,0为无相关,+1为完美相关。根据经验,获得MCC大于0.5的模型通常被认为是性能良好的模型。
本研究还使用了准确率(accuracy,ACC)作为第二个性能指标,它能直观地反映模型预测正确样本的比例。其他在本研究中使用的性能指标包括敏感性(sensitivity,Se),特异性(specificity,Sp),精确度(precision,Pr),受试者工作特征曲线下面积(area under curve,AUC)。
本研究计算了3种类型的特征,包括所有化合物的二维分子描述符(2D)、Morgan指纹和MACCS指纹,并将它们作为建模的分子表征。此外,合并2D描述符和Morgan指纹合并为第4个分子表征。所有类型的分子表征都是使用RDKit库(http://www.RDKit.org/)在Python中计算生成的。尽管本实验计算了大量的描述符,但并非所有的描述符都对模型都有帮助。存在不相关的和冗余的描述符变量会影响模型的泛化性能,并可能导致过度拟合。为了建立一个可靠的模型,在进行特征选择之前,本研究对已生成的分子描述符和分子指纹做了3次预处理。预处理步骤如下:(1)填充空值:使用相应描述符的平均值来填充缺失值;(2)低方差过滤:删除方差为0或接近于0的描述符,这些描述符的变量对于不同分子具有相同值,因此可以清除;(3)高相关过滤:利用SelectKBest方法过滤具有相关性的特征。选择与标签最相关的特征的最优超参数k,生成与统计量相匹配的新特征矩阵。这种方法可以过滤掉模型的噪声值,提高模型特征的相关性和有效性。
Isoform | MACCS | Morgan | RDKit_2d | RDKit_2d+Morgan |
---|---|---|---|---|
CYP1A2 | 118 | 604 | 170 | 813 |
CYP2C9 | 107 | 594 | 171 | 740 |
CYP2C19 | 110 | 582 | 172 | 750 |
CYP2D6 | 109 | 549 | 158 | 716 |
CYP3A4 | 107 | 597 | 164 | 714 |

Figure 1 Overall workflow of CYP dataset processing
MACCS: Molecular access system
特征选择方面,本研究采用互信息来筛选描述符并评估两个随机变
(2) |
其中p(x,y)是X和Y的联合概率分布函数,p(x)和p(y)分别是X和Y的边际概率分布函数。只有在两个随机变量是独立的情况下,互信息为零,数值越大表示依赖性越强。
归一化是指以均值μ为中心,然后以标准差σ为尺度对数据进行处理,最终使数据呈现出均值μ = 0、标准差σ = 1的正态分布。其
(3) |
使用了Morgan指纹作为特征,并采用了11种不同的机器学习方法来建立CYP1A2、CYP2C9、CYP2C19、CYP2D6和CYP3A4的二分类模型。这些方法包括7种代表性的集成学习方法(CatBoost、LightGBM、AdaBoost、XGBoost、ET、RF、GBDT)和4种单一学习器(KNN、DT、LR和SVM)。通过对5个训练集进行5折交叉验证,评估了不同模型在5个测试集上的预测精度,具体结果如

Figure 2 Cross-validated the accuracy (ACC) of different models for the training set of 5 CYP isoforms
XGBoost: Extreme gradient boosting; SVM: Support vector machine; RF: Ranadom forest; GBDT: Gradient Boosting decision tree; ET: Extreme random trees; LightGBM: Light gradient boosting machine; LR: Logistic regression; DT: Decision tree; KNN: k-nearest neighbor

Figure 3 Cross-validated the Matthews correlation coefficient (MCC) of different models for the training set of 5 CYP isoforms
根据前面的实验结果,得出了有3种性能较佳的机器学习模型,但无法具体突出某个模型的优势。因此,本研究进一步比较这3种模型在资源利用方面的差异。本研究关注的是在有限的资源下如何获得较好的结果。为了扩大比较范围,还加入了在上述实验中指标仅次于最佳模型的SVM和AdaBoost模型。将使用CYP1A2亚型的数据集作为代表,分别运行这5种表现较优的模型,并计算在相同核数(本次实验为10核)情况下的运行时间,通过模型的运行时长来评估其资源占用情况(即如果一个模型的运行时间是另一个模型的2倍,则可以推导出在相同时间内,该模型运行所占用的核数是另一个模型的2倍)。在计算各个模型的运行时间之前,本实验都会在封装好的模型前后加上开始计时和结束计时的代码,以准确计算各模型的运行时长。
实验结果显示(

Figure 4 Time required to train each model based on the CYP1A2 dataset
XGB: Extreme gradient boosting; LGB: Light gradient boosting machine; Ada: AdaBoost; Cat: CatBoost
(1)特定优化技术:CatBoost模型使用了一些特定的优化技术,如对称树布局和特征直方图近似算法等,以加速模型的训练和预测过程。这些技术可以减少内存使用并提高计算效率。
(2)类别特征处理:CatBoost模型在处理类别特征时采用了一种基于特征哈希技术的编码方式。这种编码方式能够在不引入过多的内存开销的情况下,有效地将类别特征转换为数值表示,提高了训练和预测的速度。
(3)多线程支持:CatBoost模型支持多线程训练,可以同时利用多个CPU核心进行并行计算。这样可以加快模型训练的速度,尤其是在处理大规模数据集时更为明显。
综上所述,尽管CatBoost模型与XGBoost模型表现性能相当,各项指标相差无几,但是从资源利用的角度来看,CatBoost模型远远优于XGBoost模型。同样,它也优于与之性能相当的LightGBM模型,以及附加的AdaBoost模型和SVM模型。
在QSAR建模中,分子的结构通过分子描述符进行编码,因此选择合适的描述符对于开发可靠的QSAR模型至关重要。本实验的重点是确定最适合CatBoost模型的分子表示方式。首先,比较了仅使用单一分子描述符(RDKit_2d)或任何一套分子指纹(MACCS和Morgan)的CatBoost模型的预测能力。然后,又结合了Morgan指纹和RDKit_2d描述符来开发CatBoost模型,以比较基于单一的描述符或指纹与结合二者开发的CatBoost模型的优劣。实验结果如

Figure 5 Accuracy (ACC) values (A) and MCC values (B) of the CatBoost models based on different sets of descriptors for the 5 CYP isoform test sets
Isoform | MACCS | RDKit_2d | Morgan | RDKit_2d+Morgan |
---|---|---|---|---|
CYP1A2 | 0.88 | 0.95 | 0.94 | 0.95 |
CYP2C9 | 0.90 | 0.92 | 0.93 | 0.92 |
CYP2C19 | 0.83 | 0.86 | 0.83 | 0.86 |
CYP2D6 | 0.94 | 0.89 | 0.93 | 0.94 |
CYP3A4 | 0.90 | 0.90 | 0.89 | 0.91 |
Average | 0.89 | 0.904 | 0.904 | 0.916 |
Isoform | MACCS | RDKit_2d | Morgan | RDKit_2d+Morgan |
---|---|---|---|---|
CYP1A2 | 0.66 | 0.85 | 0.82 | 0.85 |
CYP2C9 | 0.4 | 0.46 | 0.44 | 0.46 |
CYP2C19 | 0.48 | 0.57 | 0.43 | 0.58 |
CYP2D6 | 0.6 | 0.65 | 0.46 | 0.58 |
CYP3A4 | 0.4 | 0.65 | 0.59 | 0.67 |
Average | 0.508 | 0.636 | 0.548 | 0.628 |
Isoform | Sp | Se | Pr | ACC | MCC | AUC |
---|---|---|---|---|---|---|
CYP1A2 | 0.97 | 0.86 | 0.89 | 0.94 | 0.84 | 0.98 |
CYP2C9 | 0.96 | 0.48 | 0.53 | 0.92 | 0.46 | 0.88 |
CYP2C19 | 0.9 | 0.68 | 0.65 | 0.86 | 0.58 | 0.89 |
CYP2D6 | 0.98 | 0.52 | 0.72 | 0.94 | 0.58 | 0.92 |
CYP3A4 | 0.97 | 0.62 | 0.84 | 0.91 | 0.67 | 0.95 |
Sp: Specificity; Se: Sensitivity; Pr: Precision
基于前面的实验结果,在机器学习领域中,基于Morgan+RDKit_2d的CatBoost模型表现最佳。因此,本研究进一步将机器学习中的CatBoost模型与深度学习中的单任务DNN模型与多任务DNN模型进行比较。实验结果如
Isoforms | Method | ACC | MCC | AUC | Sp | Se | Pr |
---|---|---|---|---|---|---|---|
CYP1A2 | DNN | 0.91 | 0.74 | 0.96 | 0.94 | 0.8 | 0.79 |
Mul_DNN | 0.91 | 0.75 | 0.96 | 0.94 | 0.82 | 0.78 | |
CatBoost | 0.94 | 0.84 | 0.98 | 0.97 | 0.86 | 0.89 | |
CYP2C9 | DNN | 0.9 | 0.38 | 0.8 | 0.94 | 0.45 | 0.42 |
Mul_DNN | 0.86 | 0.36 | 0.86 | 0.89 | 0.58 | 0.32 | |
CatBoost | 0.92 | 0.46 | 0.88 | 0.96 | 0.48 | 0.53 | |
CYP2C19 | DNN | 0.83 | 0.46 | 0.84 | 0.90 | 0.55 | 0.57 |
Mul_DNN | 0.84 | 0.51 | 0.87 | 0.90 | 0.61 | 0.60 | |
CatBoost | 0.86 | 0.58 | 0.89 | 0.90 | 0.68 | 0.65 | |
CYP2D6 | DNN | 0.83 | 0.46 | 0.84 | 0.90 | 0.55 | 0.57 |
Mul_DNN | 0.92 | 0.47 | 0.86 | 0.96 | 0.5 | 0.53 | |
CatBoost | 0.94 | 0.58 | 0.92 | 0.98 | 0.52 | 0.72 | |
CYP3A4 | DNN | 0.91 | 0.66 | 0.93 | 0.96 | 0.64 | 0.80 |
Mul_DNN | 0.89 | 0.60 | 0.92 | 0.95 | 0.61 | 0.73 | |
CatBoost | 0.91 | 0.67 | 0.95 | 0.97 | 0.62 | 0.84 |
DNN: Deep neural networks; Mul_DNN: Multitask deep neural networks
考虑到不同算法的原理可能会对同一分子产生完全相反的预
Item | CYP1A2 | CYP2C9 | CYP2C19 | CYP2D6 | CYP3A4 | Difference | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Cat | Co | Cat | Co | Cat | Co | Cat | Co | Cat | Co | |||||||
ACC | 0.94 | 0.96 | 0.96 | 0.97 | 0.9 | 0.91 | 0.98 | 0.99 | 0.97 | 0.98 | 0.01 | |||||
MCC | 0.84 | 0.87 | 0.48 | 0.45 | 0.68 | 0.7 | 0.52 | 0.41 | 0.62 | 0.61 | -0.02 | |||||
AUC | 0.98 | 0.96 | 0.53 | 0.62 | 0.65 | 0.67 | 0.72 | 0.83 | 0.84 | 0.85 | 0.04 | |||||
Sp | 0.97 | 0.98 | 0.92 | 0.93 | 0.86 | 0.87 | 0.94 | 0.94 | 0.91 | 0.91 | 0.01 | |||||
Se | 0.86 | 0.88 | 0.46 | 0.49 | 0.58 | 0.6 | 0.58 | 0.56 | 0.67 | 0.67 | 0.01 | |||||
Pr | 0.89 | 0.92 | 0.88 | 0.88 | 0.89 | 0.9 | 0.92 | 0.92 | 0.95 | 0.9 | 0.00 |
Cat: CatBoost; Co: co_model
本实验对比了CatBoost模型与之前报道的Li

Figure 6 Performance of the 5 CYP isoforms in the CatBoost model compared to previously published models
本研究旨在解决CYP抑制剂的二分类问题,通过建立了11种机器学习模型和2种深度学习模型。研究结果表明,在使用不同机器学习算法创建的模型中,CatBoost、LightGBM和XGBoost模型的性能相当。进一步比较这3种模型所需的计算资源,实验结果显示CatBoost模型消耗的资源远少于LightGBM和XGBoost模型,仅占用了XGBoost模型资源的1.7%,却能获得相当甚至更好的预测结果。接下来比较了基于不同分子表征的CatBoost模型,结果显示基于RDKit_2d+Morgan的CatBoost模型性能最优。随后,将该模型与基于DNN的单任务和多任务学习算法进行比较,CatBoost模型仍然表现优于深度学习模型。因此,基于RDKit_2d+Morgan的CatBoost模型在预测CYP小分子活性方面表现更佳。此外,本研究将表现相当的CatBoost、LightGBM和XGBoost模型集成成一个co_model,其预测准确率略优于单个CatBoost模型。将CatBoost模型和co_model与已发表的模型进行比较,除了CYP1A2亚型的数据集外,在其他亚型的数据集中,CatBoost模型和co_model的准确率均优于已发表的模型。
综上所述,本研究认为基于RDKit_2d+Morgan的CatBoost模型在预测CYP小分子活性方面表现出色,并且在计算资源成本上迈出了重要的一步。利用训练好的CatBoost模型,可以预测任何化合物,判断其是否为人体内CYP的底物,是抑制剂还是诱导剂。这对于早期药物活性预测提供了巨大的帮助。未来将进一步优化模型性能,提高预测的准确性和可靠性,并将其应用于更广泛的化合物库和药物研发中。

References
Evans WE, Relling MV. Pharmacogenomics: translating functional genomics into rational therapeutics[J]. Science, 1999, 286(5439): 487-491. [百度学术]
Feiters MC, Rowan AE, Nolte R. ChemInform abstract: from simple to supramolecular cytochrome P450 mimics[J]. Chem Soc Rev, 2000, 29(6): 375-384. [百度学术]
du Souich P. In human therapy, is the drug-drug interaction or the adverse drug reaction the issue[J]? J Can De Pharmacol Clin, 2001, 8(3): 153-161. [百度学术]
Williams JA, Hyland R, Jones BC, et al. Drug-drug interactions for UDP-glucuronosyltransferase substrates: a pharmacokinetic explanation for typically observed low exposure (AUCi/AUC) ratios[J]. Drug MeTable Dispos, 2004, 32(11): 1201-1208. [百度学术]
Khakar PS. Two-dimensional (2D) in silico models for absorption, distribution, metabolism, excretion and toxicity (ADME/T) in drug discovery[J]. Curr Top Med Chem, 2010, 10(1): 116-126. [百度学术]
Dai H, Xu Q, Xiong Y, et al. Improved prediction of Michaelis constants in CYP450-mediated reactions by resilient back propagation algorithm[J]. Curr Drug Metab, 2016, 17(7): 673-680. [百度学术]
Kato H. Computational prediction of cytochrome P450 inhibition and induction[J]. Drug MeTable Pharmacokinet, 2020, 35(1): 30-44. [百度学术]
Leach AG, Kidley NJ. Cytochrome P450 substrate recognition and binding[M]// Drug Metabolism Prediction. Weinheim: Wiley-VCH Verlag GmbH & Co. KGaA,2014: 103-132. [百度学术]
Oostenbrink C. Structure-based methods for predicting the sites and products of metabolism[M]// Drug Metabolism Prediction. Weinheim: Wiley-VCH Verlag GmbH & Co. KGaA,2014: 243-264. [百度学术]
Kirchmair J, Williamson MJ, Tyzack JD, et al. Computational prediction of metabolism: sites, products, SAR, P450 enzyme dynamics, and mechanisms[J]. J Chem Inf Model, 2012, 52(3): 617-648. [百度学术]
Shan XQ, Wang XG, Li CD, et al. Prediction of CYP450 enzyme-substrate selectivity based on the network-based label space division method[J]. J Chem Inf Model, 2019, 59(11): 4577-4586. [百度学术]
Xiong Y, Qiao YH, Kihara D, et al. Survey of machine learning techniques for prediction of the isoform specificity of cytochrome P450 substrates[J]. Curr Drug Metab, 2019, 20(3): 229-235. [百度学术]
Tyzack JD, Hunt PA, Segall MD. Predicting regioselectivity and lability of cytochrome P450 metabolism using quantum mechanical simulations[J]. J Chem Inf Model, 2016, 56(11): 2180-2193. [百度学术]
Gleeson MP, Davis AM, Chohan KK, et al. Generation of in-silico cytochrome P450 1A2, 2C9, 2C19, 2D6, and 3A4 inhibition QSAR models[J]. J Comput Aided Mol Des, 2007, 21(10/11): 559-573. [百度学术]
Cheng FX, Yu Y, Shen J, et al. Classification of cytochrome P450 inhibitors and noninhibitors using combined classifiers[J]. J Chem Inf Model, 2011, 51(5): 996-1011. [百度学术]
Pan XC, Chao L, Qu SJ, et al. An improved large-scale prediction model of CYP1A2 inhibitors by using combined fragment descriptors[J]. RSC Adv, 2015, 5(102): 84232-84237. [百度学术]
Wu ZX, Lei TL, Shen C, et al. ADMET evaluation in drug discovery. 19. reliable prediction of human cytochrome P450 inhibition using artificial intelligence approaches[J]. J Chem Inf Model, 2019, 59(11): 4587-4601. [百度学术]
Li X, Xu YJ, Lai LH, et al. Prediction of human cytochrome P450 inhibition using a multitask deep autoencoder neural network[J]. Mol Pharm, 2018, 15(10): 4336-4345. [百度学术]
Inglese J, Auld DS, Jadhav A, et al. Quantitative high-throughput screening: a titration-based approach that efficiently identifies biological activities in large chemical libraries[J]. Proc Natl Acad Sci U S A, 2006, 103(31): 11473-11478. [百度学术]
Zhao XW, Ma ZQ, Yin MH. Using support vector machine and evolutionary profiles to predict antifreeze protein sequences[J]. Int J Mol Sci, 2012, 13(2): 2196-2207. [百度学术]
Hu LY, Huang MW, Ke SW, et al. The distance function effect on k-nearest neighbor classification for medical datasets[J]. Springerplus, 2016, 5(1): 1304. [百度学术]
Tong WD, Hong HX, Fang H, et al. Decision forest: combining the predictions of multiple independent decision tree models[J]. J Chem Inf Comput Sci, 2003, 43(2): 525-531. [百度学术]
Breiman L. Random Forests[J]. Mach Learn , 2001, 45: 5-32. [百度学术]
Ke G, Meng Q, Finley T, et al. LightGBM: a highly efficient gradient Boosting decision tree[C]// Advances in Neural Information Processing Systems 30. Long Beach:Curran Associates Inc.,2017: 3149-3157. [百度学术]
Friedman JH. Greedy function approximation: a gradient Boosting machine[J]. Ann Statist, 2001, 29(5): 1189-1232. [百度学术]
Chen TQ, Guestrin C. XGBoost: a scalable tree Boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: Association for Computing Machinery, 2016: 785-794. [百度学术]
Xing HJ, Liu WT. Robust AdaBoost based ensemble of one-class support vector machines[J]. Inf Fusion, 2020, 55: 45-58. [百度学术]
Prokhorenkova L, Gusev G, Vorobev A, et al. CatBoost: unbiased Boosting with categorical features[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. New York: Curran Associates Inc., 2018:6639-6649. [百度学术]
Connelly L. Logistic regression[J]. Med Surg Nurs, 2020, 29(5): 353-354. [百度学术]
Geurts P, Ernst D, Wehenkel L. Extremely randomized trees[J]. Mach Learn, 2006, 63(1): 3-42. [百度学术]
Moon T, Chi MH, Kim DH, et al. Quantitative structure-activity relationships (QSAR) study of flavonoid derivatives for inhibition of cytochrome P450 1A2[J]. Quant Struct Act Relatio, 2000, 19(3): 257-263. [百度学术]
Powers DMW. Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation[J]. arXiv,2020:010.16061. [百度学术]
Vergara JR, Estévez PA. A review of feature selection methods based on mutual information[J]. Neural Comput Applic, 2014, 24(1): 175-186. [百度学术]
Bachman P, Hjelm RD, Buchwalter W. Learning representations by maximizing mutual information across views[C]//Proceedings of the 33rd International Conference on Neural Information Processing Systems, New York: Curran Associates Inc, 2019:15535-15545. [百度学术]
Kwak N, Choi CH. Input feature selection by mutual information based on Parzen window[J]. IEEE Trans Pattern Anal Mach Intell, 2002, 24(12): 1667-1671. [百度学术]
Cai CP, Guo PF, Zhou YD, et al. Deep learning-based prediction of drug-induced cardiotoxicity[J]. J Chem Inf Model, 2019, 59(3): 1073-1084. [百度学术]
Xing GM, Liang L, Deng CL, et al. Activity prediction of small molecule inhibitors for antirheumatoid arthritis targets based on artificial intelligence[J]. ACS Comb Sci, 2020, 22(12): 873-886. [百度学术]
Su BH, Tu YS, Lin C, et al. Rule-based prediction models of cytochrome P450 inhibition[J]. J Chem Inf Model, 2015, 55(7): 1426-1434. [百度学术]
Sun HM, Veith H, Xia MH, et al. Predictive models for cytochrome P450 isozymes based on quantitative high throughput screening data[J]. J Chem Inf Model, 2011, 51(10): 2474-2481. [百度学术]