使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

基于机器学习的药物血浆蛋白结合率的预测

  • 付洺宇 1
  • 朱一阳 1
  • 吴春勇 2
  • 侯凤贞 1
  • 关媛 1
1. 中国药科大学理学院,南京 211198; 2. 中国药科大学药物分析系,南京 211198

中图分类号: R911

最近更新:2021-12-28

DOI:10.11665/j.issn.1000-5048.20210607

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

预测药物在血浆中的蛋白结合率,有助于了解药物的药代动力学特征,对药物发现的早期研究有重要的参考价值。本研究收集了2 452个临床药物的血浆蛋白结合率信息,用Molecular Operating Environment(MOE)和Mordred两种软件计算分子描述符,将算得的分子描述符作为模型的输入特征。使用极端梯度提升(extreme gradient boosting, XGBoost)算法和随机森林(random forest,RF)算法构建机器学习模型。结果表明,与MOE相比,将Mordred计算的分子描述符作为模型的输入,构建的模型预测性能更优。使用XGBoost算法和RF算法构建模型的预测性能结果相近,最优模型的R2均为0.715。此外,根据研究结果得出药物血浆蛋白结合率与药物分子的一些理化性质参数,如水溶性,辛醇/水分配系数以及共轭双键密切相关。通过这些参数预测药物血浆蛋白结合率具有方便快捷的优点,可以为相关药代动力学研究提供参考依据。

药物发现是一个漫长的过程,主要包括4个阶段:目标选择和验证、化合物筛选和优化、临床前研究、临床试

1。在大多数情况下,关于药物发现的研究最终都无法达到临床试验阶段,其中药代动力学的不良性质是导致研究中断的主要原2。由此可见,充分研究先导化合物早期的药代动力学性质对减少临床失败造成的经济损失具有重要意义。药物的血浆蛋白结合率(plasma protein binding,PPB)反映了药物与血浆蛋白的结合程度,它影响药物在体内的分布、代谢与排泄,与药物的相互作用及作用机制等密切相关。药物在血浆中未结合的部分通常用fu(the fraction unbound in plasma)表示。通过预测药物的fu,有助于了解药物的药代动力学特性,从而在药物发现的早期阶段选择合适的候选药3

近年来,人工智能算法被越来越多的应用在计算人体药代动力学特性的研究中,为研究者在新药发现和优化阶段选择合适的化合物提供了帮

4-10。目前已有几种商业软件可通过软件自身的算法直接预测fu,如ADMET Predictor和BIOVIA Discovery Studio。然而,与真实值相比,这些软件预测的结果普遍不高。一些研究使用机器学习方法通过构建药物血浆蛋白结合率的定量结构-药物动力学关系(quantitative structure-pharmacokinetic relationship,QSPR)模型预测fu。Votano11在由808个药物构成的训练集上使用Molconn-Z软件计算分子描述符,用人工神经网络、多元线性回归(multiple linear regression,MLR)、支持向量机(support vector machines,SVM)、K-近邻(k nearest neighbors,KNN)4种方法来预测fu,预测模型的R²普遍在0.61左右。Ingle12构建了包含1045个药物的数据集,利用Molecular Operating Environment(MOE)计算分子描述符,用KNN、SVM和RF 3种机器学习算法建了定量结构-活性关系(QSAR)模型,使用200个独立的药物数据集和来自ToxCast的406种化合物数据集作为外部测试集对模型进行评估,预测模型R²为0.45 ~ 0.62。Watanabe13构建了包含了2 738个药物的数据集,通过开源软件Mordred和PaDEL-Descriptor计算分子描述符,并使用多种机器学习算法构建预测模型。结果表明,在已知的方法中,RF模型取得了最优性能,R²的最高值达到了0.691。该结果展示了使用开源软件在计算分子描述符上的优点,为本研究提供了参考。

本研究从文献[

13-14]中收集了共2 452个药物构建数据集,将分子描述符作为训练模型的输入向量,采用机器学习算法训练模型,通过比较模型的评价指标以评估模型的预测性能。此外,本研究还比较了不同方法(软件)算得的分子描述符作为特征输入空间对预测模型的影响,以探究在构建药物血浆蛋白结合率预测模型中合适的特征提取方法。

1 实验方法

人工智能是一种利用计算机高速处理和分布式计算实现快速地分析和解决问题的先进技术,它能使计算机模拟人脑的信息处理和学习过

15。机器学习作为人工智能研究的一个重要领域而备受关注,该方法通过计算机来学习数据中的内在规律性信息,从而获得新的经验和知识,提高计算机的智能性,使机器能够像人一样做出决16。在构建预测模型方面,机器学习主要有分类和回归两种类型。对于预测药物血浆蛋白结合率来说,需要构建的是一种回归模型,整个过程主要包括以下3个步骤:(1)数据的收集与整理;(2)将数据集划分为训练集和测试集,使用训练集根据机器学习算法训练模型;(3)用测试集预测已训练的模型,评估模型的预测能力。

2 构建血浆蛋白结合率预测模型的实验过程与结果分析

2.1 数据采集与特征提取

本研究从文献[

13-14]中分别搜集了2 319和670个药物,每个药物由药品通用名和对应的fu组成。其中,文献[13]提供了2 738个药物,这些药物来源于健康成年人的数据记录,由于隐私要求的限制,只从中下载得到2 319个。文献[14]包括670个专门用于静脉注射的药物数据,且不包含口服、肌肉注射或其他给药途径的数据。将这两批数据整合后,先去掉重复的药物,随后通过PubChem网站(https://pubchem.ncbi.nlm.nih.gov/)下载药物结构信息,用于计算分子描述符。如果一个药物在该网站查不到其结构信息,则删去。最终整理得到共计2 452条包含fu及结构信息的药物,作为本研究的数据集。该数据集涵盖了药物广泛的理化性质和化学结构,且包含全面的fu,数据集fu的分布如图1-A所示,可以发现,超过50%的化合物fu集中在0 ~ 0.1。文献[13]指出,在构建回归模型中,对分布不均匀的数据集采用对数化操作能缓解fu的强偏置分布,从而提高模型在低值范围内的预测准确率。为此,将fu以2为底取对数,记为log2 fu。数据集的log2 fu的分布如图1-B所示。

Figure 1 Distribution histogram of the fraction unbound in plasma (fu) (A) and the logarithm of fu.(log2 fu)(B)

分别使用商业软件MOE(2014版)和Python开源库Mordred(1.2.0版

17通过药物的结构信息计算分子描述符,以此作为特征提取方法。对于每个药物,使用MOE可以得到365个分子描述符。由于机器学习中的输入特征只支持数值型,因此将显示为非数值类型或空值的分子描述符去除,最终保留了278个分子描述符。使用Mordred可以得到1 613个分子描述符,对显示为非数值类型或空值的分子描述符做相同处理,最终保留了882个分子描述符。分别将两种方法计算得到的分子描述符作为模型的特征输入空间。

2.2 数据集的划分与交叉验证方法

机器学习算法需要独立的训练集和测试集来进行模型训练和性能评估。将数据随机划分训练集和测试集,其中测试集占比为10%。同时,本文在训练预测模型阶段使用十折交叉验证方法。该方法将整体数据平均分成10份,依次将其中的一份作为测试集,剩下的作为训练集。这个过程重复10次,得到10个训练模型,最终的结果取10个模型预测结果的平均值。十折交叉验证方法的特点是,数据中的每个样本都有机会作为测试集参与模型的预测,从而使模型具有更好的泛化能力。十折交叉验证方法如图2所示。

Figure 2 Workflow of 10-fold cross validationD: Represents the entire dataset; D1-D10: Represent the sub-datasets divided into ten parts

2.3 机器学习方法构建模型的参数调优

模型参数调优的方法一般采用网格搜索的方法。网格搜索是一种指定参数值的穷举搜索方法,通过将参数交叉验证的方法进行优化来得到最优的学习算

18。即将各个参数可能的取值进行排列组合,列出所有可能的组合结果形成“网格”,然后将各组合用机器学习的方法进行训练。在拟合函数尝试了所有的参数组合后,返回一个预测结果最优的模型,该模型下的参数组合即为最佳参数组合。在数据预处理阶段,本研究使用MOE和Mordred计算分子描述符作为特征提取方法,构建了两个特征输入空间,所以相应地构建了基于MOE的预测模型和基于Mordred的预测模型。

2.4 实验结果及分析

本研究采用决定系数(coefficient of determination,)和均方误差(mean squared error, MSE)来评估模型的预测精度。R2用于衡量回归方程整体的拟合程度,可以体现因变量和自变量之间的拟合关系。本研究通过比较数据中原始fu和由模型预测得到的fu间的拟合关系得到R2。MSE表示数据估计值与数据真值之差平方的期望值,即误差平方和的平均数。该值可以评价数据估计偏离真实值的程度,MSE越小,说明预测模型描述的实验数据具有更好的精确度。

表1展示了分别使用MOE和Mordred特征提取方法在选择全部特征作为输入时,用XGBoost算法和RF算法构建模型的性能。通过观察结果发现,构建的模型中使用Mordred提取特征的效果优于MOE方法。当联合使用Mordred和XGBoost算法时,构建的预测模型有最高的R2(0.654)。但与RF算法相比,XGBoost算法构建模型表现出的MSE往往更高,这表示基于XGBoost算法的模型预测精度较低。使用不同的特征提取方法,基于RF算法的模型MSE低,反映了RF算法能更好地利用特征,也避免了一定程度的过拟合。

Table 1 Performance of the model constructed by selecting all the features as the input space. R2 is the coefficient of determination and MSE is the mean square error
ModelFeature extraction method
MOEMordred
R2MSER2MSE
XGBoost 0.574 0.422 0.654 0.248
RF 0.625 0.207 0.629 0.202

为了改进模型性能,本研究对由分子描述符构成的特征输入空间进行重构。首先,通过XGBoost算法和RF算法分别计算两种特征提取方法得到的输入特征的重要性。以F1评分作为评价标准,选择重要性排前200的特征。之后在特征数量2 ~ 200的范围内,以2为步长依次改变特征数量,训练由不同特征数量构建的预测模型。图3展示了不同特征数量构建的模型在预测集上的R2变化。图中分别展示了十折交叉验证的平均结果以及表现最优一折(第7折)的结果。通过观察图中不同方法构建模型的R2曲线,发现特征数量在200以内可以满足模型的收敛条件。当特征数量在75 ~ 160时,模型在预测集上的R2趋于稳定。图中标出了特征数量在此区间范围内,不同数量特征构建的模型十折交叉验证结果的平均值以及最优一折结果的平均值。根据图3可发现,使用相同的特征提取方法,XGBoost算法构建的模型有更高的R2,表现出更好的预测能力。相较于使用MOE,使用Mordred作为特征提取方法训练的模型在预测集上的R2更高。当联合使用Mordred和XGBoost算法时,在特征数量为75 ~ 160之间构建模型的平均R2最高,最优一折的R2达到了0.701。

Figure 3 Performance comparison of models with different number of featuresA: MOE was used to extract features and RF was used to build the model; B: MOE was used to extract features and XGBoost was used to build the model; C: Mordred was used to extract features and RF was used to build the model; D: Mordred was used to extract features and XGBoost was used to build the model

随后,本研究探究了在特征数量为75 ~ 160之间,不同方法构建模型的最优性能,结果如表2所示。对于两种特征提取方法,使用Mordred构建模型的预测性能比使用MOE更高。在选择Mordred的基础上,通过XGBoost算法和RF算法构建的模型在测试集上的最高R2都达到了0.715。其中,RF算法构建模型的MSE更低,为0.199。这说明相较于XGBoost算法,基于RF算法构建的模型预测精度更高。各模型的拟合效果如图4所示。可以发现,XGBoost算法构建的模型(图4-A、4-C)发生了明显的过拟合,模型在训练集的预测效果表现极佳,而测试集的预测效果一般。RF算法构建的模型(图4-B、4-D)没有明显过拟合现象。各模型对于log2 fu高的药物有着良好的预测性能,但在预测log2 fu低的药物上表现不佳。

Table 2 Optimal performance of models constructed by different methods
MethodNumber of featureR2MSEParameter
MOE+XGBoost 152 0.702 0.240 learning_rate: 0.0105, max_depth: 10, min_child_weight: 2, gamma: 0, subsample: 0.8
Mordred +XGBoost 148 0.715 0.230 learning_rate: 0.0055, max_depth: 16, min_child_weight: 4, gamma: 0, subsample: 0.8
MOE+RF 116 0.675 0.213 n_estimators: 140, max_features: 19, max_depth: 17, min_samples_split:3
Mordred + RF 176 0.715 0.199 n_estimators: 148, max_features: 23, max_depth: 29, min_samples_split:3

Figure 4 Best prediction results obtained by building models with different methodsA: MOE was used to extract features and RF was used to build the model; B: MOE was used to extract features and XGBoost was used to build the model; C: Mordred was used to extract features and RF was used to build the model; D: Mordred was used to extract features and XGBoost was used to build the model

对于模型的构建,在XGBoost模型中,主要调试的参数有学习率(learning_rate)、树的最大深度(max_depth)、树的最小节点(min_child_weight)、预剪枝程度(gamma)、随机采样比例(subsample)。在RF模型中,主要调试的参数有分类器个数(n_estimators)、最大特征数(max_features)、树的最大深度(max_depth)、节点可分最小样本数(min_samples_split)。在最优结果中,XGBoost模型和RF模型的参数设置如表2所示。

分析药物数据集中的主要特征有助于进一步了解药物性质与fu之间的关系。本研究分别使用XGBoost算法和RF算法对特征的重要性进行排序。对于通过MOE和Mordred两种方法构建的特征,本研究分别取前5个特征做进一步分析,结果如表3所示。其中,SlogP和logP(o/w)表示辛醇/水分配系数的对数,其值用来确定药物能否从膜上通过并接近靶点。logS表示水溶性值的对数,FilterItLogS表示通过Filter it软件计算的logS,AATS1v表示共轭双键的性能。SlogP和logS这两个分子描述符在3种方法选出的特征中有着很高的权重,这说明药物的辛醇/水分配系数和水溶性值对于预测血浆蛋白结合率有重要意义。logP(o/w)在MOE中有着重要的占比,而AATS1v在Mordred中有着与SlogP相同重要的地位,这两个分子描述符对预测药物血浆蛋白结合率也显示出一定程度的作用。

Table 3 Top 5 features sorted by feature importance
Feature extractionAlgorithmTop 5 most influential features
MOE XGBoost logS, SlogP, logP(o/w), GCUT_PEOE_0, SlogP_VSA7
MOE RF logS, SlogP, Q_VSA_NEG, logP(O/W), SlogP_VSA7
Mordred XGBoost AATS1v, SlogP, FilterItLogS, n8FaHRing, n8FaRing
Mordred RF SLogP, AATS1v, FilterItLogS, nBondsM, nBase

3 小 结

本研究以2 452条药物信息作为数据集,使用MOE和Mordred计算分子描述符,采用XGBoost算法和RF算法,建立了预测药物fu的回归模型。结果表明,使用开源的描述符计算工具构建的模型,显示出与使用商业软件构建的模型相当的性能。同时,本研究的最佳回归模型显示出比之前的研究(包括使用商业软件)更好的性能。

在大多数模型中,对于预测fu影响较大的几个特征是较为统一的,常见的有亲脂性和共轭双键的相关特征(如SlogP、AATS1v)。通常,亲脂性高的药物更倾向与血浆蛋白结合,而电负性或极化性会影响分子的酸碱

19。从特征重要性来看,本研究构建的预测模型成功捕获了这些影响fu的关键因素。在构建的预测模型中,使用全部分子描述符作为输入特征时,使用RF算法构建的模型表现出更好的性能。在确定特征数量阶段,使用两种算法构建的模型性能相近,用XGBoost算法构建模型的平均结果更高。

表4展示了近几年关于药物的血浆蛋白结合率预测模型的研究。在现有的研究中,Watanabe

13使用的数据集规模最大,有2 738个药物信息。对于特征提取,大多数研究使用商业软件计算分子描述符作为模型的输入特征。通过比较不同的机器学习算法,可以发现RF算法在各研究中展示出良好的性能,该算法对于构建药物血浆蛋白结合率的预测模型有良好的应用价值。另外,XGBoost算法作为一种新兴的算法,所构建的预测模型同样显示出良好的性能。

Table 4 Comparison of model performance between the proposed method and previous works
AuthorsDataset sizeFeature extraction(software)Algorithm
Zhivkova et al[20] 220 ACD,MDL-QSAR MLR 0.532
Votano et al[11] 1 008 ChemSilico MLR 0.611
SVM 0.624
KNN 0.623
Ingle et al[12] 1 245 MOE KNN 0.520
SVM 0.500
RF 0.590
Watanabe et al[13] 2 738 Mordred, PaDEL-Descriptor RF 0.699
Proposed method 2 452 Mordred XGBoost 0.715
RF 0.715

数据集的质量对模型的构建有着重要的作用,由临床实验得到的药物信息对模型构建更具有实际价值。本研究整理得到的药物信息均是从实际的临床实验中的来的,虽然数据集的规模比现有大多数同类型研究使用的数据集更大,但随着临床实验数据量的增加,本研究所使用的方法有望取得预测性能更高的回归模型。

References

1

Ding BXHu JWang JF. Progress in the application of artificial intelligence in drug development[J]. Shandong Chem(山东化工)20194822):70-73. [百度学术

2

Kola ILandis J. Can the pharmaceutical industry reduce attrition rates[J]. Nat Rev Drug Discov200438):711-715. [百度学术

3

Zhang LJiang CChen SMet al. Determination of plasma protein binding of peptide drug candidates by dextran-coated charcoal[J]. J China Pharm Univ(中国药科大学学报)2020515):522-529. [百度学术

4

Chen YWu HGe WHet al. Research on entity relation extraction of Chinese adverse drug reaction reports based on deep learning method[J]. J China Pharm Univ(中国药科大学学报)2019506):753-759. [百度学术

5

Ghafourian TBarzegar JDastmalchi Set al. QSPR models for the prediction of apparent volume of distribution[J]. Int J Pharm20063191/2):82-97. [百度学术

6

Gleeson MPWaters NJPaine SWet al. In silico human and rat vss quantitative structure-activity relationship models[J]. Med Chem2006496):1953-1963. [百度学术

7

Lombardo FObach RSDiCapua FMet al. A hybrid mixture discriminant analysis-random forest computational model for the prediction of volume of distribution in human[J]. Med Chem2006497):2262-2267. [百度学术

8

Gleeson MP. Plasma protein binding affinity and its relationship to molecular structure:an in-silico analysis[J]. Med Chem2007501):101-112. [百度学术

9

Gunturi SBNarayanan R. In silico ADME modeling 3:computational models to predict human intestinal absorption using sphere exclusion and kNN QSAR methods[J]. QSAR Combinat Sci200726653-668. [百度学术

10

Norinder UBergstroem CA. Prediction of ADMET properties[J]. Med Chem200619):920-937. [百度学术

11

Votano JRParham MHall LMet al. QSAR modeling of human serum protein binding with several modeling techniques utilizing structure information representation[J]. Med Chem20064924):7169-7181. [百度学术

12

Ingle LVeber BCNichols JWet al. Informing the human plasma protein binding of environmental chemicals by machine learning in the pharmaceutical space:applicability domain and limits of predictability[J]. Chem Inf Model20165611):2243-2252. [百度学术

13

Watanabe REsaki TKawashima Het al. Predicting fraction unbound in human plasma from chemical structure:improved accuracy in the low value ranges[J]. Mol Pharm20181511):5302-5311. [百度学术

14

Obach RSLombardo FWaters NJ. Trend analysis of a database of intravenous pharmacokinetic parameters in humans for 670 drug compounds[J]. Drug Metab Dispos2008367):1385-1405. [百度学术

15

Zhang RWang YB. Research on machine learning with algorithm and development[J]. Comm Univ China (中国传媒大学学报)2016232):10-18. [百度学术

16

Liu BYWang QXu LYet al. Application of artificial intelligence technology in medicine research and development[J]. Chin J New Drugs (中国新药杂志)20202917):1979-1986. [百度学术

17

Moriwaki HTian YSKawashita Net al. Mordred:a molecular descriptor calculator[J]. Cheminform2018101):4. [百度学术

18

Bergstra JBengio Y. Random search for hyper-parameter optimization[J]. Machine Learning201213281-305. [百度学术

19

Nagle K. Atomic polarizability and electronegativity[J]. Am Chem Soc199011212),4741-4747. [百度学术

20

Zhivkova ZDoytchinova I. Quantitative structure-plasma protein binding relationships of acidic drugs[J]. Pharm Scim 201210112):4627-4641. [百度学术