使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

基于机器学习和分子对接的潜在ATR激酶抑制剂虚拟筛选

  • 严迎潮
  • 曾晨
  • 陈亚东
中国药科大学理学院,医药大数据与人工智能研究院,南京 211198

中图分类号: TP181R914

最近更新:2023-07-03

DOI:10.11665/j.issn.1000-5048.2023022802

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

从分子库中筛选出潜在活性化合物,是药物发现常用的方法。然而,随着化学空间的不断探索,目前已有超过数十亿分子的化合物库,仅仅依靠分子对接已不足以从超大化合物库中对特定靶点抑制剂进行快速筛选。本研究提出了一种筛选潜在活性化合物的方法,通过计算物理化学性质相似性、构建机器学习预测模型以及分子对接等步骤,对含有55亿分子的候选化合物库进行过滤筛选,最终得到51个具有共济失调毛细血管扩张突变基因和Rad3相关蛋白(ataxia telangiectasia-mutated and Rad3-related,ATR)激酶潜在抑制活性的化合物。该方法为从超大库中快速筛选新颖潜在活性分子提供了有效途径。

共济失调毛细血管扩张突变基因和Rad3相关蛋白(ataxia telangiectasia-mutated and rad3-related,ATR)激酶,属于磷脂酰肌醇3激酶样激酶(PIKK)家族,是丝氨酸/苏氨酸蛋白激酶家族当中的重要成员之一。ATR是DNA 损伤修复(DDR)过程中的一个关键蛋白,其主要作为复制应力(replication stress,RS)的传感器,参与介导DNA复制和有丝分裂。由于癌细胞高度依赖细胞周期中的S和G2/M检查点,这使得靶向ATR抑制剂成为抗肿瘤药物的研发重

1。目前进入临床研究阶段且结构已知的ATR抑制剂如图1所示。M-17442-3、M-43444和M-66205-6由Vertex Pharmaceuticals最初开发,其中M-6620的ATR IC50 = 19 nmol/L,M-4344的ATR IC50 = 8 nmol/L。AZD-67387-8由AstraZeneca公司开发,ATR IC50 = 74 nmol/L。BAY-18953449-10由Bayer公司开发,ATR IC50 = 7 nmol/L。RP-350011是最新进入临床的新型口服ATR抑制剂,ATR IC50 = 1 nmol/L。虽然ATR靶向抑制剂已经略有成果,但是ATR抑制剂的开发落后于其他DDR蛋白,包括PARP和ATR本身的下游靶标CHK11。因而,ATR抑制剂的研究还有较大的开发空间。

  

Figure 1  Ataxia telangiectasia-mutated and Rad3-related (ATR) inhibitors entering the clinic

本研究提出了一种基于人工智能从超大库中筛选ATR活性分子的方法。如图2所示,通过计算已知ATR活性分子与候选化合物中的分子在物理化学性质方面的相似性、构建极端梯度提升树(XGBoost)、图神经网络(GNN)等5种机器学习预测模型预测候选化合物的活性及分子对接和基于经验的人工筛选方法逐步过滤REAL库,从而寻找潜在的ATR活性化合物。

  

Figure 2  Workflow of ATR drug screening based on machine learning and molecular docking

1 材 料

1.1 ATR活性数据库

分别从BindingDB数据库(http://www.bindingdb.org/bind/index.jsp)、ChEMBL数据库(https://www.ebi.ac.uk/chembl)和科睿唯安(Clarivate)的Cortellis Drug Discovery Intelligence数据库(https://www.cortellis.com/drugdiscovery)中收集已知IC50活性的化合物数据作为ATR活性数据库。

1.2 化合物数据库

Enamine公司的REAL (readily available for synthesis)是目前最广泛应用的虚拟化合物库之一,是典型的枚举结构数据库。目前发布的REAL数据库包含超过55亿个符合Lipinski五规

12和Veber规13的分子。REAL库按照重原子数量将化合物进行分类排序,方便人们能在指定的化学空间中查找所需化合物。

1.3 蛋白质数据库

蛋白质数据库PDB(http://www1.rcsb.org/)中共包含4个人类ATR蛋白晶体结构,其一为通过冷冻电镜(Cryo-EM)获得的人类ATR-ATRIP蛋白晶体结构,ID为5YZ0,分辨率为4.7 Å。另外3个皆为模仿ATR设计的与ATR同源的PI3K-α突变体,ID分别为5UL1,5UKJ,5UK8。鉴于5YZ0相较于其他3个晶体结构,分辨率低,包含的蛋白序列繁多,且不包含配体分子进而无法很好地得到配体的结合位置,本研究忽略5YZ0晶体结构。

2 方 法

2.1 物理化学性质过滤方法

重原子数是指化合物中所含的重原子的数量,通常指C、N等非H的原子数量。对于特定的靶点蛋白,落在其蛋白口袋的重原子数通常在一定的范围内,因而可以结合蛋白口袋形状以及已知活性小分子的重原子分布来缩小化合物库。

AlogP是计算所得的脂水分配系数,能反映化合物在水(脂)溶性的大小。相对分子质量是指化合物中各个原子的相对原子质量的总和,通过12C原子质量的1/12对比计算所得。氢键是氢原子与电负性大、半径小的原子所形成的一种特殊的分子内或者分子间的相互作用力。可旋转键通常是指sp3杂化的C-C单键,原子在单键周围自由旋转会使化合物形成不同的构象。环系统是化合物中的关键支架,是当今市场上大多数药物的基本组成部

14。分子极性表面积(polar surface area,PSA)通常指由氧原子和氮原子以及与氧原子或氮原子相连的氢原子产生的分子的表面积,分子表面的相互作用可以决定化合物的物理和化学性质。以上的这些性质都与化合物在体内的作用息息相关,故而可以通过与已知活性分子计算这些性质的相似性来进一步缩小候选化合物库。

2.2 机器学习过滤方法

本研究使用了5种不同的机器学习算法建立了ATR IC50预测回归模型,分别是梯度提升决策树(gradient boosted decision trees,GBDT

15,极端梯度提升树(extreme gradient boosting,XGBoost),类别特征梯度提升树(categorical boosting,CatBoost17,多层感知机(multilayer perceptron,MLP)以及图神经网络(graph neural networks,GNNs)。本研究使用收集的ATR活性数据库来对回归模型进行训练和测试,并选择最优模型来预测化合物库的活性。根据活性阈值进一步缩小化合物库。

2.3 模型验证的方法

对于“2.2”项提出的5种机器学习回归模型,本研究通过决定系数(coefficient of determination,R2),均方误差(mean-square error,MSE),折合误差(fold error,FE),平均折合误差 (average fold error,AFE)来综合评估QSAR模型的预测性能和泛化能力,进而挑选出最优模型。

为了更好地对模型进行评估,本研究根据Tropsha

18、Kar19和Ojha20的建议,即QSAR模型满足以下条件时,可以将其视为实用的预测模型:

1) Q2> 0.5

2) R2> 0.6

3) r2-r02r2< 0.1或r2-r0'2r2< 0.1

4) 0.85 ≤ k ≤1.15或0.85 ≤ k' ≤1.15

5) rm2>0.5rm'2>0.5

6)Δrm2<0.2

其中Q2是交叉验证的决定系数,R2r2均表示决定系数,r02r0'2分别是根据最小二乘回归线没有截距时预测值与实际值以及实际值与预测值的决定系数,由计算公

18可得。kk'是通过原点的回归线的斜率,由计算公19可得。rm2rm'2Δrm2r02r0'2计算所得,计算公式见文献[20-23]。

折合误差FE和平均折合误差AFE也可以用来评价模型预测的正确性。对于FE而言,若FE小于2,模型预测值得信

24。对于AFE而言,其AFE越接近1则说明模型的预测值偏离实际值两侧的程度较小。此外,本研究还计算了预测值在实验值2倍误差范围内的化合物占总数的百分率。FE和AFE计算公式见文献[25]。

2.4 分子对接过滤方法

本研究在机器学习模型缩小化合物库的基础上,通过使用Schrödinger软件中的高通量虚拟筛选(high throughput virtual screening,HTVS)模块进行虚拟筛选来获得对接打分较低的分子,即潜在的活性分子。对接后保留对接得分排名前0.1%的构象,并根据关键氨基酸再次筛选。在进行虚拟筛选以及关键氨基酸筛选前,还需要获取最优蛋白、关键氨基酸以及进行蛋白准备、配体准备。

在最优蛋白方面,本研究采用交叉对接的方法来从剩余的3个晶体复合物中进行挑选。交叉对接是将每个共晶的配体准备后依次与每个蛋白受体进行Glide对接,通过计算均方根误差(root mean square error,RMSE)来衡量受体与配体的结合情况的方

26-27。在关键氨基酸方面,本研究通过MOE软28的蛋白-配体相互作用指纹(protein-ligand interaction fingerprint,PLIF)模块结合FTMAP(http://ftmap.bu.edu)来挑选。PLIF是蛋白质-配体复合物三维结构的二进制一维表示方法,用于编码结合口袋氨基酸和配体之间特定相互作用的存在或不存29。FTMAP是通过包括乙醇、异丙醇等16种小分子探针对数十亿个位置进行采样,并使用详细的能量表达式对探针的构象进行评分的方30。在蛋白和配体准备方面,本研究均使用Schrödinger软件中OPLS2005力场进行优化。配体准备过程包括加氢、加电荷和能量优化等,蛋白准备过程包括加氢、去水、处理金属离子以及优化结构等。

2.5 分子评价方法

2.5.1 多样性分析方法

化合物库的多样性与骨架的多样性呈正相关。本研究采用文献[

31]所述方法来表示分子骨架,利用RDKit(http://www.rdkit.org/)对各个化合物库的骨架进行计数并记录原始分子的数量(Mraw)、产生骨架的数量(Nraw)、独特骨架的数量(N)和仅出现一次的骨架的数量(Ns)。通过对各指标进行分析可以评价化合物库骨架的多样性。

2.5.2 相似性分析方法

化合物库的相似性与骨架的相似性呈正相关。本研究采用骨架的余弦相似度(cosine similarity)来计算化合物库之间的相似性。余弦相似度可以通过计算公

32所得,越接近1,则说明两个数据集含有共同骨架的比例越一致,数据集越相似,若余弦相似度为0,则说明两个数据集不含有共同骨架。

2.5.3 化学空间分布分析方法

通过计算每个分子的相对分子质量、拓扑极性表面积、可旋转键数、氢键供体数、氢键受体数和脂水分配系数这6种物理化学性质,结合主成分分析算

33(principal component analysis,PCA)将这6个属性简化为二维,以观察不同分子数据集之间的化学空间分布。

3 结果与讨论

3.1 ATR活性数据库构建结果

收集的化合物结构及活性数据都经过统一处理,即先删除缺乏单位和SMILES无法被RDKit规范化的数据,然后针对同一个分子具有多个IC50的情况,取其平均值。为了缩小模型的预测范围,提高模型的预测精确度,将抑制剂的单位先统一规范到摩尔后再从IC50转化为pIC50,即将IC50为1 × 10-10 ~ 1 × 100 mol/L转化为pIC50为0 ~ 10。经过上述处理,最终获得866条数据,其中IC50小于等于100 nmol/L的有556条。图3是这556条数据的重原子数的频率分布图,从图中可以看出IC50小于等于100 nmol/L的分子其重原子数通常分布在24 ~ 43范围内。

  

Figure 3  Frequency distribution of heavy atom count in known active ATR inhibitors

为训练和测试5种机器学习模型,本研究还对866条数据进行基于4∶1随机划分,共获得训练集692条,测试集174条。为了验证基于4∶1随机划分方法的合理性,本研究通过PCA降维来观察训练集和测试集之间的化学空间分布以及通过ECFP4分子指纹来计算相似度。由图4-A可知,训练集和测试集具有相似的空间分布,且在水平和垂直坐标上分别主要分布在PCA-1的-200 ~ 150之间和PCA-2的-40 ~ 50之间,都比较集中。由图4-B可知,训练集和测试集之间的总体相似度很低,颜色相对较浅,对于绝大部分测试集分子而言,其只对不到1/5甚至不到1/10的训练集分子具有较高的相似性。因此,训练集和测试集在相似度方面较大的差异可以表明该方法划分下的测试集对模型的评估是科学合理的。

  

Figure 4  Comparison between training set and test set data

A: Comparison of chemical spatial distribution of principal component analysis (PCA); B: Comparison of similarity between training set and test set data, with darker colors (range: 0-1) representing higher similarity

3.2 物理化学性质过滤结果

首先,本研究通过重原子数进行过滤,REAL数据库中化合物的重原子分布在6 ~ 38范围内。根据图3的结果,ATR IC50在100 nmol/L及以下的分子中绝大部分重原子数都大于等于24,因而本研究只考虑重原子数为24 ~ 38的化合物(约47.5亿)。然后,将556个IC50小于等于100 nmol/L的化合物与这47.5亿化合物计算相似性。通过计算AlogP、相对分子质量等物理化学性质的相似性,保留前0.25%相似的化合物,约1 200万个。

3.3 机器学习模型验证结果

5个回归模型在训练集和测试集上的表现如表1所示。由表1可知,XGBoost、CatBoost、GBDT、GNN 4个模型相差不大,其中CatBoost在测试集的表现略优于其他模型。其R2Test最高,达到了0.622,MSETest最低,达到了0.293,训练集十折交叉验证的Q210-fold最高,达到了0.625。MLP模型预测最差,其R2Test仅为0.117。图5展示了5个模型在ATR pIC50上的实验值和预测值散点图,从图中可知,XGBoost、CatBoost、GBDT、GNN 4个模型的预测结果均能较好地分布在对角线两侧,其中,CatBoost的预测结果从整体来看最接近对角线。此外,虽然XGBoost、GBDT、CatBoost和GNN均在训练集上与对角线重合较好,但在测试集上散落在对角线较远的两侧的点较多,这表明了这些模型都存在一定的过拟合。MLP的预测结果与对角线重合较差,模型对不同实验值的化合物甄别能力差。

Table 1  Performance of the five regression models on the training set and test seta
MethodsQ210-foldR2TrainMSETrainR2TestMSETest
XGBoost 0.557 0.971 0.021 0.611 0.301
CatBoost 0.625 0.966 0.025 0.622 0.293
GBDT 0.586 0.918 0.059 0.621 0.294
MLP 0.072 0.062 0.678 0.117 0.683
GNN 0.601 0.968 0.023 0.614 0.299

a Inspection standards are Q2>0.5; R2>0.6. XGBoost: Extreme gradient boosting; CatBoost:Categorical boosting;GBDT:Gradient boosted decision trees;MLP:Multilayer perceptron;GNN:Graph neural networks

  

Figure 5  Comparison of experimental and predicted values for the five regression models

表2是5个回归模型在测试集上的评价指标结果,能进一步地评价模型的性能。除MLP外的其余4个模型在每个指标上的差异均较小。这5个模型的AFE均极为接近1,且FE均小于2,说明模型的预测都在可信赖的范围内且预测值偏离实际值两侧的程度相当。此外,根据文献[

18-20]的建议,只有GNN模型均能满足“2.3”项中提到的所有的检验标准,XGBoost、CatBoost、GBDT 3个模型不满足rm2小于0.2。因此本研究将该GNN模型作为最优预测模型。

Table 2  Five regression models were tested for statistical indicators on the test seta
Methodskk'(r2-r02)/r2(r2-r0'2)/r2rm2rm'2Δrm2AFE<2-fold
XGBoost 1.003 0.992 0.001 0.344 0.599 0.331 0.268 0.999 100%
CatBoost 1.002 0.992 0.000 0.332 0.614 0.339 0.275 1.001 100%
GBDT 1.010 0.989 0.000 0.326 0.613 0.342 0.271 0.998 100%
MLP 1.002 0.985 0.384 4.939 0.138 0.005 0.133 0.999 100%
GNN 0.991 1.003 0.011 0.198 0.574 0.405 0.169 1.010 100%

aInspection standards are 0.85 ≤ k ≤ 1.15 or 0.85 ≤ k' ≤ 1.15; (r2-r02)/r2< 0.1 or (r2-r0'2)/r2< 0.1; rm2>0.5 or rm'2>0.5; Δrm2<0.2

3.4 机器学习模型过滤结果

在基于物理化学性质过滤获得的约1 200万化合物的基础上,通过最优GNN模型进行活性预测。其预测结果如图6所示,绝大部分分子的预测活性都分布在5 ~ 8之间,即IC50分布在10 ~ 10 000 nmol/L之间。活性抑制剂通常以100 nmol/L即pIC50 = 7作为活性较好的阈值,共有约120万分子符合条件,占比为10.44%。

  

Figure 6  GNN model -pIC50 activity prediction results

3.5 分子对接方法过滤结果

在最优蛋白方面,5UKJ 的交叉对接结果的RMSD均值仅为2.12 Å,低于5UK8的3.45 Å和5UL1的4.58 Å,说明5UKJ在重现性方面较其余两个结构更好。此外在5UKJ的RMSD中位数为3.11 Å,也低于5UK8的3.71 Å和5UL1的4.21 Å,这说明了5UKJ对于不同结构的配体分子对接结果更稳定,可信度更高。故而,本研究将PDB ID为5UKJ的蛋白晶体复合物结构选择为最优蛋白晶体复合物结构。

图7展示了3个ATR蛋白晶体复合物的PLIF和FTMAP关键氨基酸分析。由图7-A可见,配体与Val851的结合出现在了3个蛋白晶体结构中,此外,Trp850和Thr856也在两个蛋白晶体结构中出现了氢键相互作用。由图7-B可见,在激酶结合域Arg765-Lys966

34中的Cys838、Arg818、Glu821和Val851等纵坐标较高,表明了其形成的氢键相互作用较为重要,更有可能形成关键氨基酸。据Lu34对ATR及3个同源突变体晶体结构的了解,Arg818和Glu821离结合口袋较远很难形成氢键相互作用力;Cys838的突变在结合和选择性方面没有显著改善;Val851主链上的NH通常会在腺嘌呤口袋与吗啉、吡唑等结构形成氢键相互作用;Thr856位于口袋底部的核糖体结合位点,通常会与砜的氧原子形成氢键相互作用力。故而,结合PLIF、FTMAP和文献综合分析,本研究将Trp850、Val851、Thr856作为关键氨基酸。

  

Figure 7  Key amino acid analysis by protein-ligand interaction fingerprint (PLIF, A) and FTMAP (B)

本研究将经过机器学习模型过滤后的约120万分子进行配体准备,共生成约292万构象分子,然后通过5UKJ最优蛋白晶体结构进行虚拟筛选,根据对接打分保留前0.1%的构象分子,共计2 916个。进而通过是否跟关键氨基酸Trp850、Val851、Thr856形成氢键相互作用进行过滤,以进一步筛选对接结果,共计获得2 561个构象分子。在比对对接分子与原配体的叠合情况以及观察对接分子在蛋白口袋的相互作用模式等基于经验的人工挑选下,得到51个具有潜在ATR抑制活性的化合物,其中对接得分排名前6的化合物如表3所示。这6个结构其Glide Score均低于5UKJ共晶的自对接得分-9.21 kcal/mol (1 cal = 4.184 J),这表明在对接打分方面,这6个结构均好于原配体。

Table 3  Display of screening results
IDStructurePredicted binding mode

Docking score/

(kcal/mola)

Predicted values/

(nmol/L)

Hit-1 -10.790 80.619
Hit-2 -10.762 19.704
Hit-3 -10.588 12.779
Hit-4 -10.493 50.586
Hit-5 -10.322 22.122
Hit-6 -10.205 9.491

a 1 cal = 4.184 J

3.6 分子评价

为验证本研究方法的合理性,本研究做了进一步分析。即将最终得到的51个分子命名为Data1,将已知活性在100 nmol/L以内的556个分子命名为Data2,并比较两个数据集在结构新颖性和化学空间分布上的表现。

3.6.1 多样性分析结果

表4所示的是两个数据集的骨架多样性分析结果。由该表可知,本研究最终过滤所得的Data1数据集的51个结构均为非重复骨架。其N/Nraw即非重复骨架数占比较Data2数据集有较大的提高,说明Data1数据集骨架多样性较好。在单例骨架方面,Data1数据集全为单例骨架,Data2数据集单例骨架占比仅0.27,说明Data1数据集在单例骨架上较为丰富。

Table 4  Molecular scaffold diversity analysis
DatabaseMrawNrawNN/NrawNsNs/Nraw
Data1 51 51 51 1 51 1
Data2 556 556 225 0.40 151 0.27

Mraw: Number of nonrepetitive molecules; Nraw: Number of scaffolds; N: Number of nonrepetitive scaffolds; Ns: Number of skeletons that occur only once.Data1: Resulting 51 molecules were screened; Data2: 556 molecules with known activity within 100 nmol/L

3.6.2 相似性分析结果

由骨架的余弦相似度计算可知,Data1数据集和Data2数据集的余弦相似度仅为0.005 8,说明Data1中含有部分Data2的骨架,但这些共同骨架在两个数据集中的占比有较大差异,这表明Data1数据集具有较高的骨架新颖性。

综合以上的多样性和相似性分析结果,可以说明本研究从超大库中筛选获得的Data1数据集具有丰富的骨架且与Data2数据集骨架相似度极低,即说明了Data1数据集在结构上是新颖性的。

3.6.3 化学空间分布分析结果

图8是两个数据集的化学空间分布图。由图可知,Data2数据集在水平和垂直坐标上分别主要分布在PCA-1的-100 ~ 150之间和PCA-2的-40 ~ 40之间,都比较集中。而Data1数据集在水平和垂直坐标上分别主要分布在PCA-1的-100 ~ 0之间和PCA-2的-40 ~ 40之间,含在了Data2的分布范围里,即说明了Data1数据集在化学空间分布上与Data2数据集是相似的。

  

Figure 8  Comparison of chemical spatial distribution of principal componelt analysis (PCA)

4 结 论

在活细胞中,以内源性诱导的DNA损伤在高速形成

1,因而细胞对DNA损伤的反应至关重要。ATR是DNA损伤修复机制中的关键激酶,是肿瘤药物开发的重点。本研究结合了物理化学性质、机器学习和分子对接的虚拟筛选方法,从含有55亿分子的REAL库中逐步过滤,最终共筛选出51个新颖的潜在苗头化合物。先根据重原子数过滤,再通过AlogP、相对分子质量等性质计算已知ATR活性化合物与候选化合物的相似性,保留约1 200万个化合物。此外,构建了5个ATR IC50机器学习回归模型,通过在测试集上进一步指标分析,只有GNN满足文献[18-20]的建议,其R2Test为0.614,Q210-fold为0.601,Δrm2为0.169。随后使用最优的GNN模型对候选化合物库进行ATR IC50活性预测,保留活性值在100 nmol/L以下的化合物。最终,基于分子对接的方法,通过FTMAP、PLIF和文献的结合寻找关键氨基酸Trp850、Val851、Thr856以作为进一步过滤的条件,共计筛得2 561个分子。在基于经验的人工挑选下得到51个潜在ATR活性的化合物,其在重原子数、物理化学性质、机器学习模型预测以及分子对接上均表现较好。本研究不仅筛选出既与已知ATR活性分子性质相似,又与受体蛋白结合较好的分子,还为从超大库中筛选新颖潜在活性分子提供了合理有效的途径。

References

1

Bradbury A, Hall S, Curtin N, et al. Targeting ATR as Cancer Therapy: a new era for synthetic lethality and synergistic combinations [J]? Pharmacol Ther, 2020, 207: 107450. [百度学术] 

2

Zimmermann A, Dahmen H, Grombacher T, et al. Abstract 2588: M1774, a novel potent and selective ATR inhibitor, shows antitumor effects as monotherapy and in combination[J]. Cancer Res, 2022, 82(12_Suppl): 2588. [百度学术] 

3

Yap Timothy A, Tolcher Anthony W, Ruth PE, et al. A first-in-human phase I study of ATR inhibitor M1774 in patients with solid tumors[J]. J Clin Oncol, 2021, 39(15_suppl): TPS3153. [百度学术] 

4

Zenke FT, Zimmermann A, Dahmen H, et al. Antitumor activity of M4344, a potent and selective ATR inhibitor, in monotherapy and combination therapy [J]. Cancer Res, 2019, 79(13_Suppl): 369. [百度学术] 

5

Fokas E, Prevo R, Pollard JR, et al. Targeting ATR in vivo using the novel inhibitor VE-822 results in selective sensitization of pancreatic tumors to radiation[J]. Cell Death Dis, 2012, 3(12): e441. [百度学术] 

6

Knegtel R, Charrier JD, Durrant S, et al. Rational design of 5-(4-(isopropylsulfonyl) phenyl)-3-(3-(4-((methylamino) methyl) phenyl) isoxazol-5-yl) pyrazin-2-amine (VX-970, M6620): optimization of intra- and intermolecular polar interactions of a new ataxia telangiectasia mutated and Rad3-related (ATR) kinase inhibitor[J]. J Med Chem, 2019, 62(11): 5547-5561. [百度学术] 

7

Foote KM, Nissink JWM, McGuire T, et al. Discovery and characterization of AZD6738, a potent inhibitor of ataxia telangiectasia mutated and Rad3 related (ATR) kinase with application as an anticancer agent[J]. J Med Chem, 2018, 61(22): 9889-9907. [百度学术] 

8

Foote KM, Lau A. Drugging ATR: progress in the development of specific inhibitors for the treatment of cancer[J]. Future Med Chem, 2015, 7(7): 873-891. [百度学术] 

9

Luecking U, Lefranc J, Wengner A, et al. Abstract 983: identification of potent, highly selective and orally available ATR inhibitor BAY 1895344 with favorable PK properties and promising efficacy in monotherapy and combination in preclinical tumor models[J]. Cancer Res, 2017, 77(13_Suppl): 983. [百度学术] 

10

Wengner AM, Siemeister G, Lücking U, et al. The novel ATR inhibitor BAY 1895344 is efficacious as monotherapy and combined with DNA damage-inducing or repair-compromising therapies in preclinical cancer models[J]. Mol Cancer Ther, 2020, 19(1): 26-38. [百度学术] 

11

Roulston A, Zimmermann M, Papp R, et al. RP-3500: a novel, potent, and selective ATR inhibitor that is effective in preclinical models as a monotherapy and in combination with PARP inhibitors[J]. Mol Cancer Ther, 2022, 21(2): 245-256. [百度学术] 

12

Lipinski CA, Lombardo F, Dominy BW, et al. Experimental and computational approaches to estimate solubility and permeability in drug discovery and development settings[J]. Adv Drug Deliv Rev, 2001, 46(1/2/3): 3-26. [百度学术] 

13

Veber DF, Johnson SR, Cheng HY, et al. Molecular properties that influence the oral bioavailability of drug candidates[J]. J Med Chem, 2002, 45(12): 2615-2623. [百度学术] 

14

Taylor RD, MacCoss M, Lawson AD. Rings in drugs: miniperspective [J]. J Med Chem, 2014, 57(14): 5845-5859. [百度学术] 

15

Friedman JH. Greedy function approximation: a gradient boosting machine[J]. Ann Statist, 2001, 29(5): 1189-1232. [百度学术] 

16

Chen TQ, Guestrin C. XGBoost: a scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016: 785-794. [百度学术] 

17

Dorogush AV, Ershov V, Gulin A. CatBoost: gradient boosting with categorical features support[J]. arXiv, 2018: 1810.11363. [百度学术] 

18

Tropsha A, Gramatica P, Gombar V. The importance of being earnest: validation is the absolute essential for successful application and interpretation of QSPR models[J]. QSAR Comb Sci, 2003, 22(1): 69-77. [百度学术] 

19

Kar S, Roy K. First report on development of quantitative interspecies structure—carcinogenicity relationship models and exploring discriminatory features for rodent carcinogenicity of diverse organic chemicals using OECD guidelines[J]. Chemosphere, 2012, 87(4): 339-355. [百度学术] 

20

Ojha P, Mitra I, Das R, et al. Further exploring rm2 metrics for validation of QSPR models[J]. Chemom Intell Lab Syst, 2011, 107: 194-205. [百度学术] 

21

Roy PP, Leonard JT, Roy K. Exploring the impact of size of training sets for the development of predictive QSAR models[J]. Chemom Intell Lab Syst, 2008, 90(1): 31-42. [百度学术] 

22

Pratim Roy P, Paul S, Mitra I, et al. On two novel parameters for validation of predictive QSAR models[J]. Molecules, 2009, 14(5): 1660-1701. [百度学术] 

23

Mitra I, Roy PP, Kar S, et al. On further application of r as a metric for validation of QSAR models[J]. J Chemom, 2010, 24(1): 22-33. [百度学术] 

24

Brian Houston J, Carlile DJ. Prediction of hepatic clearance from microsomes, hepatocytes, and liver slices[J]. Drug Metab Rev, 1997, 29(4): 891-922. [百度学术] 

25

Tang HD, Hussain A, Leal M, et al. Interspecies prediction of human drug clearance based on scaling data from one or two animal species[J]. Drug Metab Dispos, 2007, 35(10): 1886-1893. [百度学术] 

26

Friesner RA, Banks JL, Murphy RB, et al. Glide: a new approach for rapid, accurate docking and scoring. 1. Method and assessment of docking accuracy[J]. J Med Chem, 2004, 47(7): 1739-1749. [百度学术] 

27

Friesner RA, Murphy RB, Repasky MP, et al. Extra precision glide: docking and scoring incorporating a model of hydrophobic enclosure for protein-ligand complexes[J]. J Med Chem, 2006, 49(21): 6177-6196. [百度学术] 

28

Vilar S, Cozza G, Moro S. Medicinal chemistry and the molecular operating environment (MOE): application of QSAR and molecular docking to drug discovery[J]. Curr Top Med Chem, 2008, 8(18): 1555-1572. [百度学术] 

29

Vass M, Kooistra AJ, Ritschel T, et al. Molecular interaction fingerprint approaches for GPCR drug discovery[J]. Curr Opin Pharmacol, 2016, 30: 59-68. [百度学术] 

30

Kozakov D, Grove LE, Hall DR, et al. The FTMap family of web servers for determining and characterizing ligand-binding hot spots of proteins[J]. Nat Protoc, 2015, 10(5): 733-755. [百度学术] 

31

Bemis GW, Murcko MA. The properties of known drugs. 1. molecular frameworks[J]. J Med Chem, 1996, 39(15): 2887-2893. [百度学术] 

32

Polykovskiy D, Zhebrak A, Sanchez-Lengeling B, et al. Molecular sets (MOSES): a benchmarking platform for molecular generation models[J]. Front Pharmacol, 2020, 11: 565644. [百度学术] 

33

Fearn T. Probabilistic principal component analysis[J]. NIR News, 2014, 25(3): 23. [百度学术] 

34

Lu YP, Knapp M, Crawford K, et al. Rationally designed PI3Kα mutants to mimic ATR and their use to understand binding specificity of ATR inhibitors[J]. J Mol Biol, 2017, 429(11): 1684-1704. [百度学术]