• 中国中文核心期刊
  • 中国科学引文数据库核心期刊
  • 中国科技核心期刊
  • 中国高校百佳科技期刊
高级检索

机器学习在合成大麻素识别鉴定中的应用进展

许情, 吕敏, 邓虹霄, 胡驰, 向平, 陈航

许情,吕敏,邓虹霄,等. 机器学习在合成大麻素识别鉴定中的应用进展[J]. 中国药科大学学报,2024,55(3):316 − 325. DOI: 10.11665/j.issn.1000-5048.2023113003
引用本文: 许情,吕敏,邓虹霄,等. 机器学习在合成大麻素识别鉴定中的应用进展[J]. 中国药科大学学报,2024,55(3):316 − 325. DOI: 10.11665/j.issn.1000-5048.2023113003
XU Qing, LYU Min, DENG Hongxiao, et al. Advances in the application of machine learning in the identification and authentication of synthetic cannabinoids[J]. J China Pharm Univ, 2024, 55(3): 316 − 325. DOI: 10.11665/j.issn.1000-5048.2023113003
Citation: XU Qing, LYU Min, DENG Hongxiao, et al. Advances in the application of machine learning in the identification and authentication of synthetic cannabinoids[J]. J China Pharm Univ, 2024, 55(3): 316 − 325. DOI: 10.11665/j.issn.1000-5048.2023113003

机器学习在合成大麻素识别鉴定中的应用进展

基金项目: 国家重点研发计划项目(No.2022YFC3300903);中央级科研院所社会公益研究专项(No.GY2022D-1); 上海市法医学重点实验室资助项目(No.21DZ2270800)
详细信息
    作者简介:

    陈航,司法鉴定科学研究院副主任法医师,硕士生导师,国际法医毒理家协会(The International Association of Forensic Toxicologists, TIAFT)会员,入选上海市青年科技英才计划。主要从事法医毒物学研究及基于应用研究的司法鉴定公共法律服务。主持或参与含“十二五”“十三五”国家重点研发专项在内的多项国家级、省部级科研项目,曾作为学术秘书参与编制“十三五”国家规划高等院校教材《法医毒物学》及配套材料,参编《法医毒物学手册》《法医毒物鉴定理论与实践》《滥用物质分析与应用》《毛发分析基础及应用》《新精神活性物质分析与应用》等专著,开发并登记包括《司法鉴定材料管理信息化系统(FSMS V1.0)》《法医毒物学化合物知识库系统V2.0》《法医毒物数字化平台V2.0》等数字化软件

    通讯作者:

    陈航: Tel:021-52352955 E-mail:chenh@ssfjd.cn

  • 中图分类号: TP181;R917

Advances in the application of machine learning in the identification and authentication of synthetic cannabinoids

Funds: This study was supported by the National Key Research and Development Program of China (No.2022YFC3300903), the Social Welfare Research Projects of Centralized Research Institutes(No.GY2022D-1), and the Project of Shanghai Key Laboratory of Forensic Medicine(No.21DZ2270800)
  • 摘要:

    合成大麻素是一种人工合成的可以引起公共健康风险的精神活性物质,且合成大麻素结构多变,容易被结构修饰,结构未知的合成大麻素的快速出现使得对其鉴识面临了新的挑战。近年来,机器学习已取得很大的进展,已经广泛应用到其他领域,也为结构未知合成大麻素的鉴识以及可能的来源推断提供了新的策略。本文阐述了常用机器学习方法的原理以及机器学习技术在合成大麻素类物质的质谱分析、拉曼光谱分析、代谢组学以及定量构效关系等方面的应用,以期为未知合成大麻素的鉴识提供新的思路。

    Abstract:

    Synthetic cannabinoids (SCs) are synthetic psychoactive substances that can pose a public health risk. The SCs are structurally variable and susceptible to structural modification. The rapid emergence of structurally unknown synthetic cannabinoids has led to new challenges in their identification. In recent years, machine learning has made great progress and has been widely applied to other fields, providing new strategies for the identification of unknown synthetic cannabinoids and the inference of possible sources. This paper describes the principles of commonly used machine learning methods and the application of machine learning techniques to mass spectrometry, Raman spectroscopy, metabolomics and quantitative conformational relationships of synthetic cannabinoids, aiming to provide new ideas for the identification of unknown synthetic cannabinoids.

  • 合成大麻素[1]是一类新精神活性物质,与Δ9-四氢大麻酚和内源性大麻素类似,靶向大麻素受体1和2(CB1和CB2)[2]。自2006年第一代合成大麻素产品在国际上出现以来,合成大麻素逐渐成为世界上滥用最广泛的药物之一。合成大麻素通常比天然大麻产生更强的不良作用[3-4],这可能是由于其在CB1上的结合亲和力更高。为了逃避检查,许多不法分子将合成大麻素溶解在有机溶剂中,并喷洒在香料和草药上出售。因此,合成大麻素通常被称为“草药”“香料”和“小枝”。合成大麻素具有较大结构多样性,尽管它们的化学异质性,但大多数都被一个通用的Markush结构[5]所包围,该结构由4个亚基组成:母核(蓝色)、链接(橙色)、取代基 (绿色)和侧链(红色),其总体结构如图1所示。合成大麻素是临床上常用的高效镇痛药,滥用此类药物可引起心率加快、时间幻觉、恶心、呕吐、注意力难以集中、神经元破坏导致妄想症状等[67]。随着相关技术的快速发展,该类药物的吸食载体越来越多样化,种类越来越多,并且在外观和形态上与合法产品越来越相似,这给该类药物的监管增加了难度。另外,近年来不法分子通过对合成大麻素进行结构修饰,改变官能团来逃避监管,因此,如何更高效地识别和筛选合成大麻素已成为亟待解决的问题。

    图  1  合成大麻素结构

    目前合成大麻素的鉴识多基于靶向筛查策略,将检出的未知成分质谱图与标准品质谱图比对分析,确认查获样本中的主要化学成分;或者与自建或者公开的数据库中已知的合成大麻素的谱图进行比对,而对于未知的合成大麻素的鉴识却束手无策。机器学习是一种算法模型的总称,能借助计算机强大的算力支持从大量数据中发现隐含的规律并将其应用于数据的分类和预测。近年来机器学习算法在药物研发领域已经得到较为广泛的应用。借助机器学习算法可以自动对量生物数据以及化学数据进行处理,以更高效地发现潜在有效药物[8]。在药物发现过程中,也极大地促进了计算机辅助药物设计的发展,计算机辅助药物设计基于分子相互作用关系高效用于前期药物靶点研究和先导化合物筛选[9],也可对药物毒性、耐药性、药物之间相互作用进行预测,许多机器学习算法已被证明根据药物结构特征预测药物性质方面表现出色[10]。同时,机器学习算法可以处理来自基因组学、蛋白质组学等多组学和临床试验中大量复杂的数据,找出潜在的通路、蛋白和机制等与疾病的相关性,以发现新机制和新靶点。

    机器学习算法在医药领域中的广泛应用也为未知合成大麻素的鉴识以及可能的来源推断提供了新的策略。本文对机器学习技术在合成大麻素类物质的质谱分析、拉曼光谱分析、代谢组学以及定量构效关系等方面的研究进行了综述。

    机器学习是一类算法模型的总称,是通过利用数据训练模型,使用模型进行预测的一种方法[11]。本文简要介绍毒品分析中目前最常用的算法,根据训练数据是否有标记信息,机器学习算法可分为“无监督学习”和“有监督学习”两类,其优缺点如表1所示。

    表  1  常用机器学习算法模型优缺点
    算法名称优 点缺 点
    主成分分析降低数据维度,去除噪声,便于数据可视化和进一步处理,提高计算效率对异常值敏感,受到样本量和变量个数限制
    K-均值聚类算法简单,容易实现对数据类型要求较高,适合数值型数据;须事先确定K
    层次聚类可解释性强,无须事先确定聚类数量计算复杂度高,对噪声和异常值敏感。
    K最近邻算法理论成熟,可用于非线性分类计算量大,需要大量内存;不适合样本不平衡数据
    逻辑回归实现简单,分类时计算量较小,速度快容易欠拟合;只能处理二分类问题
    支持向量机泛化能力强,可以解决高维问题数据样本较大时,计算复杂度升高,训练时长大幅增加
    决策树易于理解和解释,可以可视化分析;比较适合有缺失属性的样本处理缺失数据困难,容易出现过拟合问题
    随机森林可以用来处理较高维度数据,且不用降维;可以判断特征的重要程度;不容易过拟合;对于不平衡的数据集可以平衡误差在噪音较大的分类问题上会过拟合
    神经网络算法具有较高非线性拟合能力,可以映射复杂的非线性关系,呈现较高的鲁棒性和自学习能力数据量较少的情况下,预测准确性降低;缺乏解释模型推理过程和推理能力的能力
    下载: 导出CSV 
    | 显示表格

    无监督学习的样本没有任何标记,无监督算法需要自动找到这些没有标记的数据里面的数据结构和特征。在这种情况下,训练数据不需要任何手工标注的标签,其中的代表算法包括主成分分析、K-均值聚类和层次聚类。

    PCA算法[12]是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中,并期望在所投影的维度上数据的信息量最大(方差最大),以使用较少的数据维度,同时保留住较多的原数据的特性。该算法常和其他的机器学习算法相结合,用于数据前处理过程。

    K-均值聚类是一种常见的聚类算法,其算法的思想大致为:先从样本集中随机选取K个样本作为簇中心,计算所有样本与这K个“簇中心”的距离,对于每一个样本,将其划分到与其距离最近的“簇中心”所在的簇中,对于新的簇计算各个簇的新的“簇中心”,分别计算到簇内其他点距离均值最小的点作为质心。

    层次聚类是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。对于给定的样本集合,首先将每个样本分到一个类,然后按照一定规则,例如类间距离最小,将最满足规则条件的两个类进行合并如此反复进行,每次减少一个类,直到满足停止条件。该算法已应用在新精神活性物质谱图分类研究中,如Gilbert等[13]通过对54种芬太尼类似物的质谱数据进行PCA,并结合层次聚类的算法将其分为9类,该模型能够根据化学修饰的性质和位置,对67种不包括在模型中的芬太尼类似物进行准确分类。

    在有监督学习中,提供算法一组训练数据,该数据包括输入特征和对应的标签。算法通过对这组训练数据的分析来学习特征与标签之间的关系,并使用此学到的关系来预测新数据的标签。常见的监督学习算法有K最邻近算法、线性回归和逻辑回归、支持向量机、决策树和随机森林和神经网络算法。

    KNN是一个众所周知的简单算法,主要用于判断未知样本的类别[14],该模型的输入为预先标记类别的数据集,以所有已知样本作为参照,计算未知样本与已知样本的距离,从中选取与未知样本距离最近的K个已知样本,根据少数服从多数的投票原则,将未知样本与K个最近邻样本中所属类别占比较多的归为一类。

    线性回归为最为基础的机器学习算法之一,该算法利用大量的样本,通过有监督的学习,学习由xy的映射f,利用该映射关系对未知的数据进行预估,寻找参数wb,使得对训练集的预测值和真实的回归目标值y之间的均方误差最小,因为y为连续值,所以是回归问题;线性回归可以预测连续值,但是不能解决分类问题,需要根据预测的结果判定其属于正类还是负类。逻辑回归是一种广义上的线性回归模型,实际上逻辑回归就是将线性回归的结果,通过sigmoid函数映射到(0,1)之间。线性回归得到大于0的输出,逻辑回归就会得到(0.5,1)的输出,线性回归得到小于0的输出,逻辑回归就会得到(0,0.5)的输出。总的来说,线性回归解决的是回归的问题,逻辑回归相当于是在线性回归的基础上来解决分类的问题。

    SVM算法主要用来执行分类任务,该算法基本原理是:找到一条最佳分割超平面,使得两类数据点尽量分开,同时间距离分割超平面最近的数据点距离最远[15]。该算法适用于数据高维小样本的情况,Broséus等[16]基于非大麻素和大麻素叶子成分,构建SVM模型,用以区分纤维型和药物型大麻幼苗,整个样本集的分类率在99%以上,假阳性率小于2%。

    决策树[17]是一个属性结构的预测模型,代表对象属性和对象值之间的一种映射关系。它由节点和有向边组成,其节点有两种类型:内节点和叶节点,内部节点表示一个特征或属性,叶节点表示一个类。RF是一种分类算法,该算法是通过自助法(bootstrap)重采样技术,从原始数据中以有放回的方式随机取样得到n个训练数据集,从每个训练数据集中随机选择k个特征。反复根据这k个特征建立起来m棵决策树,应用每个决策树来预测结果,并且保存所有预测的结果。对分类模型进行投票,计算每个预测结果的得票数,选择得票数最高的模型作为最终决策,该方法可以通过平均决策树,可降低过拟合的风险。RF在分类可解释性及缺失值容忍程度上具有无可比拟的优势。

    ANN类似于人类大脑解决问题的方式。神经网络最基本的构成元素是神经元,每个神经元都具有输入、数值处理以及输出的能力。在最简单的情况下,神经网络[18]由输入层、隐藏层和输出层组成。神经元从输入层通过一个或多个隐藏层链接到输出层,各层神经元通过激活函数和权重系数相连。样本数据中每个特征属性对应模型输入层中的一个神经元。神经网络模型中可根据实际问题需求包含多个隐藏层。经过隐藏层计算和处理信息,在输出层输出最终分类或回归分析结果。使用较多的是反向传播神经网络(back propagation,BP),即通过输入数据的反复训练,不断修改变量之间影响的系数,最终达到最优输出结果,适合解决内部复杂的数据问题。

    质谱是新精神活性物质检测最有力的工具之一。作为经典的识别策略,通常依赖于质谱数据库和标准品。机器学习具有阅读并理解质谱分析数据结果的能力,有望成为质谱分析中合成大麻素类物质识别的重要辅助工具。

    RF、SVM、ANN目前常于质谱结合用于合成大麻素类物质的识别。其原理主要为质谱能获得化合物碎片离子质荷比及其丰度,碎片离子的相对丰度与分子结构有密切关系,机器学习可以建立起质谱数据与化学结构之间的特征向量关系。主要是基于这种被学习出来的特征向量关系,定量的对化合物结构存在的可能性进行预测。目前已有不少研究将机器学习与质谱结合应用于合成大麻素类物质的识别。

    Yang等[19]使用包含567个LC-MS 和732个GC-MS的数据集生成并评估了4种分类模型——KNN、SVM、RF和gcForest来快速筛查新精神活性物质。该研究将收集到的1299个物质质谱数据整合到数据库中,每种物质用4位数字编码(0000~9999),其中第1位数字代表类别最后3位数字代表序列号。在用机器学习模型训练前,对数据进行了预处理,实现数据的离散化。通过等宽分箱实现峰对齐,每个箱位置处的特征值对应丰度,当箱缺失时默认值为零。此外,为了避免极端特征值并减少由不同碎裂电压引起的偏差,对丰度特征进行平方根和L1正则化。特征空间在m/z 1~600范围内构建,质谱数据的主要特征包含每个m/z对应的丰度和二级碎片离子的丰度。按照8∶2的比例划分训练集和测试集。使用4种算法KNN、SVM、RF和gcForest,基于该数据集生成分类模型,模型使用具有5倍交叉验证的网格搜索进行优化,以实现每个模型的最佳学习超参数。4个模型对两个数据集的芬太尼类物质均达到了较高的准确率和召回率,说明芬太尼类物质的预警信号具有较高的可信度。对于合成大麻素类物质的识别,gcForest的表现优于其他3个模型。此外,gcForest对合成卡西酮类物质和阴性样品也具有良好的识别能力。这些模型为合成大麻素、合成卡西酮和芬太尼提供了警告信号。成功建立了一个预警系统,为识别新精神活性物质提供了一种有用的方法,实现了未知样品的分类任务,从而为未知化合物的结构鉴定提供了依据,并且在几个实际查获的样品上使用了该方法,已被证明能够快速有效地筛选未知样品中的新精神活性物质。从这个实际应用中,看到了机器学习技术在合成大麻素结构识别领域的潜力。

    Wong等[20]开发了机器学习模型训练GC-MS数据识别未知新精神活性物质。该研究训练和评估多个监督机器学习分类器,即ANN、卷积神经网络(CNN)和平衡随机森林(BRF)。能够将6个新精神活性物质类别合成卡西酮、合成大麻素、苯乙胺、哌嗪、色胺和芬太尼和其他化合物进行有效地分类。其中BRF是表现最好的模型,该模型的准确性优于经典的库匹配。

    Lee等[21]构建了基于高分辨率液相色谱串联质谱的机器学习模型,以解决识别已列管物质和未知新型精神活性物质的分析挑战。利用770个高分辨率液相色谱串联质谱条形码光谱组成的训练集,生成并评估了3种分类机器学习模型。这3种模型分别是ANN、SVM和KNN模型。在这些模型中,已列管物质和新精神活性物质被划分为13个亚组(苯基哌嗪、阿片类药物、苯二氮䓬类药物、安非他明、可卡因、甲卡西酮、经典大麻素、芬太尼、2C系列、茚唑羰基化合物、吲哚羰基化合物、苯环利定等)。以193个LC-MS-MS条码光谱作为外部测试集,ANN、SVM和KNN模型的准确率分别为72.5%、90.0%和94.3%,其中KNN模型取得了最高的分类准确性,能够识别数据库中没有数据的新精神活性物质。

    此外,还有一些基于机器学习技术结合质谱用于芬太尼类物质结构推断的研究,其研究方法具有扩展到合成大麻素类物质的潜力。如Koshute等[22]提出有监督的机器学习分类模型作为库匹配的补充方法,用于从质谱中检测芬太尼类似物。从质谱中提取出了24个基于峰值和基于相似性的输入特征。质谱峰相关特征峰包含基峰,平均峰强度和出现最频繁的质谱峰对质量差等。而相似度相关特征主要计算谱图与几种代表性的芬太尼类物质的谱图相似性。考察了3种不同的机器学习模型——逻辑回归、ANN和RF,模型的选择基于交叉验证集的性能,遵循10倍交叉验证策略。Moorthy等[23]通过与已知结构的芬太尼类物质计算谱图相似度来确定与可疑芬太尼类物质最为相近的芬太尼类物质化学结构,通过阈值设定判断其为 1型或者2型芬太尼类物质;接着用构建的多维尺度聚类模型判断该可疑芬太尼类物质可能的结构修饰位点。最终综合这两项结果给出关于该可疑芬太尼类物质的化学结构预测。该研究验证了无监督的聚类模型对于未知化合物结构自动归属的可行性。

    随着越来越多的新精神活性物质进入非法药物市场,需要强有力且有效的异构体识别方法。机器学习技术,如RF分类器,可能最适合通过有效地利用质谱中的微小差异来分配正确的同分异构体形式来处理这一分析问题。机器学习技术已用于区分其他新精神活性物质的同分异构体,区分合成大麻素异构体的研究却还未见报道。

    Setser等[24]建立了基于质谱特征的线性判别分析模型,对合成苯乙胺和色胺进行区分,并对其进行了验证。并比较了采用两种方法选择特征变量。首先,选择已知的每种化合物类别的特征离子,从而产生用于开发LDA模型的总共13个变量。通过对模型的交叉验证,对苯乙胺和色胺的测试集进行分类,分类成功率为93%。在第2种方法中,PCA被用作更客观的变量选择方法。该方法共选取了9个变量,得到的LDA模型分类成功率为86%。虽然每个LDA模型的分类成功率相似,但与需要探测质谱以获取特征的更详细方法相比,PCA方法用于变量选择的时间要少得多。这里报道的分类模型对于尚未获得参考材料的新兴类似物的类别表征具有潜在的实用性。此外,Bonetti等[25]将DART-TOF的数据结合RF来区分3种位置异构体:氟安非他明、氟甲基安非他明和甲基甲卡西酮,分类成功率达到93.9%,错误率始终保持在5%以下,为法医实验室区分同分异构体提供了一种快速可靠的方法。

    研究人员可以通过非法药物特征分析来确定不同缉获的样品之间的联系,以获取贩运路线的信息和收集关于样品来源的背景资料。一些非法药物可以通过评估特征外部参数,如颜色、形状和标志来进行分析。然而,当处理视觉上难以区分的样品时,对样品的化学特性进行更广泛的研究是必要的,在秘密合成过程中形成的杂质是检获的非法药物样本中最重要的鉴别化学特征。在制造过程中,通常除了所需的主要活性成分外,还会产生各种固有杂质,这些杂质是所应用的合成途径及其条件所特有的。研究的目的是确定样品是否可以根据其特征杂质谱分组或区分,以及可以从这些数据中提取哪些来源和生产信息,例如不同的合成途径,反应批次和批次大小。机器学习的引入为这一领域的研究带来新的思路,能帮助研究人员探查各种合成大麻素的地下生产方式。如,Münster-Müller等[26]将4个缉获的含有合成大麻素Cumyl - 5F - PINACA电子烟油样本和11个市售烟油样本共15个样品处理后,使用超高效液相色谱-质谱测量每个样品的混合杂质分数,通过HCA分析目标副产物的相对含量,根据杂质特征的相对距离对15个电子烟油样品进行分组。聚类的结果表明,购买日期、在线商店的身份和品牌名称是样品聚类的关键因素。

    无监督算法PCA,有监督算法人工神经网络、RF、SVM、最近邻算法常结合拉曼光谱用于合成大麻素识别。拉曼光谱可以同时测量多种化合物,但在用其分析复杂的混合物样品时,会产生庞大的数据,很难用肉眼可视化,机器学习算法可以被训练来提取复杂光谱数据中的相关特征,并预测新化合物的类别,从而改进检测、鉴定和分类。目前已有研究将曼光谱获得的拉曼特征峰的峰位和峰强度,作为特征输入到机器学习分类预测模型中进行训练从而实现对未知合成大麻素进行分类识别。

    在合成大麻素类物质的检测方面,Lee等[27]结合PCA和ANN对吲哚和吲唑酰胺合成大麻素进行分类。该研究基于25个吲哚/吲唑类合成大麻素的标准品的拉曼光谱数据,根据拉曼特征峰的峰位和峰强度的差异,首先对样品进行人工分成两类。采用Fisher判别分析(FDA)和PCA对实验数据进行分析。采用FDA,制定两个分类函数对人工分类结果进行判别,分类总体准确率达到88%。采用PCA对实验数据进行降维处理,减少冗余数据对实验结果的影响。将原始数据、FDA处理数据和PCA处理数据结合人工神经网络-多层感知器/径向基函数构建分类模型,在基于多层感知器的人工神经网络模型中,原始数据、FDA处理数据和PCA处理数据的分类准确率分别为80%、92%和96%,样本分类的总体准确率为89.33%。在基于径向基函数的人工神经网络模型中,样本分类准确率分别为76%、84%和92%,样本分类总体准确率为84%。差分拉曼光谱可对25种合成大麻素进行区分,最后将样品分为两类。PCA结合基于多层感知器的人工神经网络模型对光谱数据的分类效果最好,总的来说是一种操作简单、检测效率高、结果准确的合成大麻素快速检测方法。

    Tian等[28]基于移激发拉曼差分光谱(SERDS)结合机器学习算法建立一种快速、无损、准确的新型精神活性物质检测分析分类方法,可以很好地区分芬太尼、安非他明和合成大麻素。该研究在激发光源(785和785.5 nm)的实验条件下,采用SERDS检测芬太尼、安非他明和合成大麻素等37种新精神活性物质。提取其特征峰,并将特征峰归属于物质的结构。同时将SERDS与机器学习结合使用,以寻找最佳的分类预测模型。比较了SVM、KNN、集成分类器、ANN、决策树、朴素贝叶斯和线性判别分析的分类效果,并给出了3种超参数优化方法。最后,贝叶斯优化下的SVM交叉验证准确率为97.3%,能够很好地区分3大类样本。可以有效地为海关、医疗、现场警务、大型事件安全、痕迹证据检测等提供解决方案。

    PCA和RF的算法模型已经应用于合成大麻素类物质的鉴定研究。代谢组学旨在捕捉外部刺激对内源性代谢物的影响,可分为靶向代谢组学和非靶向代谢组学,其中非靶向代谢组学无偏向性地对所有小分子代谢物同时进行检测分析。非靶向代谢组学研究的主要困难之一是处理产生的庞大数据集,机器学习算法可以检测和学习大型高维数据集中的模式,为非靶向代谢组学提供了新的策略。除应用代谢组学技术研究滥用药物的毒性作用机制之外,也有学者提出了用代谢组学的方法预测新精神活性物质的药理学特征,创新的代谢组学分析已应用于合成大麻素鉴定研究。

    Streun等[29]将经典的机器学习算法RF和代谢组学相结合来筛选尿液中的合成大麻素,根据吸食合成大麻素引起的特异性和可测量的尿代谢组学变化对尿液样本进行分类,可达到88.1%的分类准确率。Olesti等[30]开发了一种新的药理学分析模型,该模型采用基于大鼠单胺类神经递质和类固醇激素定量的药物特异性代谢组学指纹来预测新精神活性物质与特定药物类别的相似性,根据药物与经典滥用药物的药理相似性对新药进行分类。该方法有可能通过促进快速的药物类型分类,同时减少与滥用这些新兴药物有关的公众可能造成的伤害,从而有利于风险评估政策。通过比较代谢组学指纹和它们在PCA中的接近性,JWH-018被预测为Δ9-THC-like化合物,这与药物的药理学一致,主要与刺激内源性大麻素受体CB1和CB2有关。

    定量构效关系(quantitative structure - activity relationship , QSAR)研究[31]是以数学和统计学手段建立起化合物的化学结构和生物活性之间定量关系的模型。多元线性回归算法和偏最小二乘回归算法模型常用于合成大麻素构效关系鉴定研究。通常无法人为判断化合物化学结构和生物活性之间的定量关系,通过机器学习可以形成规律性基础,成为构-效鉴定的关键客观评价指标。通过QSAR研究可以对新型未知的合成大麻素的毒性进行预测,化合物保留时间特征和其结构相关关系的QSAR研究可以推测未知化合物的色谱和质谱信息,为进一步识别合成大麻素活性物质提供基础。目前已有研究利用QSAR模型研究合成大麻素和CB1受体和CB2受体相结合的化合物的相关性质。

    Lee等[32]建立一个QSAR模型,将各种合成大麻素的结构和理化性质与其CB1受体结合亲和力联系起来。该研究基于四氢大麻酚和14种合成大麻素与CB1受体亲和力的数据,使用R/CDK工具包计算数据集化合物的分子描述符将化合物的简化分子线性输入规范(simplified molecular input line entry system, SMILES)表示转换为分子指纹,使用多元线性回归算法和偏最小二乘回归算法构建QSAR回归模型。通过Y随机化检验和外部验证,获得最优模型。该模型可在体内应用于预测非法新的合成大麻素的成瘾性,为预测合成大麻素的滥用提供了一种新的策略。Paulke等[33]建立了QSAR模型,该模型可以在没有参比物质的情况下确定未知化合物对CB1的亲和力(以结合常数Ki表示)。采用化学高级模板搜索描述符对化合物结构进行向量表示,利用特征对分布相似度计算两个分子之间的相似度。Ki采用反距离加权法(inverse distance weighting, IDW)计算,使用十倍交叉验证程序对预测模型进行验证。所建立的QSAR模型可以作为一种简单、快速、价廉的工具,用于初步了解新的合成大麻素或其他新的精神活性化合物的生物活性。

    近红外光谱技术作为快速、无损地分析和检测复杂基质中不同化合物的首选工具,正在得到广泛应用。Risoluti等[34]探讨了利用近红外光谱结合PCA的化学计量学方法检测缉获样品中新型精神活性物质的可行性,证实了该方法能够很好地对合成大麻素类和苯乙胺类物质进行区分,并成功地应用于“现场”缉获的真实样品中的非法药物,该方法有望成为法医科学中新的精神活性物质初步测定的快速,经济和有用的工具。

    除质谱和光谱技术外,核磁共振技术(nucelear magnetic resonance, NMR)也常用于检测新型毒品以及未知毒物,能够高效地推测出检材中毒品的化学机构及信息,在合成大麻素的检测方面,有文献报道,使用NMR技术分析合成大麻素UR-144及其代谢物,实现了对其10种代谢物的结构解析[35]。另有文献使用19F NMR辅助51种含氟合成大麻素类物质的结构解析以及定量[36]19F NMR具有无基质干扰的特点,对具有复杂基质的电子液体合成大麻素样品尤其有利,为缉获样品的绝对定量提供了一种合适的分析技术。但截至目前,还未见到运用机器学习结合NMR技术分析合成大麻素类物质的研究报道。图2对机器学习技术与其他技术结合用于合成大麻素鉴识常用算法方法比较及适用范围进行了比较。

    图  2  机器学习结合4种其他技术鉴识合成大麻素常用算法方法比较及适用范围
    PCA:主成分分析;MLR:多元线性回归;ANN:人工神经网络;SVM:支持向量机;RF:随机森林

    机器学习算法能够从大量的数据中自动提取特征,高效地挖掘其中有价值的信息,在合成大麻素的鉴识领域,机器学习技术已经显示出巨大的潜力。本文介绍了在合成大麻素鉴识领域常用机器学习方法、算法。机器学习与质谱、拉曼光谱结合已用于合成大麻素结构和来源识别,与代谢组学和定量构效关系结合用于合成大麻素类物质鉴别。常用的机器学习算法有RF、SVM、ANN,泛化能力强以及适用于处理高维度数据优势可能是大部分研究乐于使用这些算法的主要原因。在合成大麻素的识别和鉴定领域,基于机器学习的技术仍具有很大的应用潜力,可以有以下两个发展方向:

    (1)注重数据资源整理。数据作为机器学习的基础,很大程度上决定了模型的准确性。当前主要的数据来源有数据库和实验室自研数据,对于数据库来说存在数据来源不同缺乏一致性的问题,可尝试将数据归一化、格式化处理,对于实验室自研数据来说,实验室积累了大量的数据,但这些数据隐匿于海量的文献中,提取困难,可以借助爬虫工具使用,在使用的过程中应当注重伦理及数据获取的合法性,不得侵害实验室利益。

    (2)扩大模型的适用范围,提高模型可解释性。将得到的模型应用到未知的质谱或光谱中检测感兴趣类别的物质,尝试将机器学习技术与其他的仪器比如近红外光谱,核磁共振等获得的数据相结合,也可尝试将各种模型类型组合成一个整体模型,进一步扩展到其他质谱或光谱技术中。提高模型的可解释性,更有利于深入理解模型内部的工作原理,从而提升模型的效果,也可以更好地理解模型得到的结果。

  • 图  1   合成大麻素结构

    图  2   机器学习结合4种其他技术鉴识合成大麻素常用算法方法比较及适用范围

    PCA:主成分分析;MLR:多元线性回归;ANN:人工神经网络;SVM:支持向量机;RF:随机森林

    表  1   常用机器学习算法模型优缺点

    算法名称优 点缺 点
    主成分分析降低数据维度,去除噪声,便于数据可视化和进一步处理,提高计算效率对异常值敏感,受到样本量和变量个数限制
    K-均值聚类算法简单,容易实现对数据类型要求较高,适合数值型数据;须事先确定K
    层次聚类可解释性强,无须事先确定聚类数量计算复杂度高,对噪声和异常值敏感。
    K最近邻算法理论成熟,可用于非线性分类计算量大,需要大量内存;不适合样本不平衡数据
    逻辑回归实现简单,分类时计算量较小,速度快容易欠拟合;只能处理二分类问题
    支持向量机泛化能力强,可以解决高维问题数据样本较大时,计算复杂度升高,训练时长大幅增加
    决策树易于理解和解释,可以可视化分析;比较适合有缺失属性的样本处理缺失数据困难,容易出现过拟合问题
    随机森林可以用来处理较高维度数据,且不用降维;可以判断特征的重要程度;不容易过拟合;对于不平衡的数据集可以平衡误差在噪音较大的分类问题上会过拟合
    神经网络算法具有较高非线性拟合能力,可以映射复杂的非线性关系,呈现较高的鲁棒性和自学习能力数据量较少的情况下,预测准确性降低;缺乏解释模型推理过程和推理能力的能力
    下载: 导出CSV
  • [1]

    Wiley JL, Marusich JA, Huffman JW. Moving around the molecule: relationship between chemical structure and in vivo activity of synthetic cannabinoids[J]. Life Sci, 2014, 97(1): 55-63. doi: 10.1016/j.lfs.2013.09.011

    [2]

    Schurman LD, Lu D, Kendall DA, et al. Molecular mechanism and cannabinoid pharmacology[J]. Handb Exp Pharmacol, 2020, 258: 323-353.

    [3]

    Alves VL, Gonçalves JL, Aguiar J, et al. The synthetic cannabinoids phenomenon: from structure to toxicological properties. A review[J]. Crit Rev Toxicol, 2020, 50(5): 359-382. doi: 10.1080/10408444.2020.1762539

    [4]

    Alzu’bi A, Almahasneh F, Khasawneh R, et al. The synthetic cannabinoids menace: a review of health risks and toxicity[J]. Eur J Med Res, 2024, 29(1): 49. doi: 10.1186/s40001-023-01443-6

    [5]

    Banister SD, Connor M. The chemistry and pharmacology of synthetic cannabinoid receptor agonist new psychoactive substances: evolution[J]. Handb Exp Pharmacol, 2018, 252: 191-226.

    [6]

    Tai S, Fantegrossi WE. Pharmacological and toxicological effects of synthetic cannabinoids and their metabolites[J]. Curr Top Behav Neurosci, 2017, 32: 249-262.

    [7]

    Fantegrossi WE, Moran JH, Radominska-Pandya A, et al. Distinct pharmacology and metabolism of K2 synthetic cannabinoids compared to Δ(9)-THC: mechanism underlying greater toxicity[J]. [J]? Life Sci, 2014, 97(1): 45-54.

    [8] Yan FR. Application and advance of artificial intelligence in biomedical field[J]. J China Pharm Univ (中国药科大学学报), 2023, 54(3): 263-268.
    [9] Wang C, Xiao F, Li M, et al. Application progress of artificial intelligence in the screening and identification of drug targets[J]. J China Pharm Univ (中国药科大学学报), 2023, 54(3): 269-281.
    [10] Yu ZH, Zhang LM, Zhang MN, et al. Artificial intelligence-based drug development: current progress and future challenges[J]. J China Pharm Univ (中国药科大学学报), 2023, 54(3): 282-293.
    [11]

    Jiang T, Gradus JL, Rosellini AJ. Supervised machine learning: a brief primer[J]. Behav Ther, 2020, 51(5): 675-687. doi: 10.1016/j.beth.2020.05.002

    [12]

    Ringnér M. What is principal component analysis[J]? Nat Biotechnol, 2008, 26(3): 303-304. doi: 10.1038/nbt0308-303

    [13]

    Gilbert N, Mewis RE, Sutcliffe OB. Classification of fentanyl analogues through principal component analysis (PCA) and hierarchical clustering of GC–MS data[J]. Forensic Chem, 2020, 21: 100287. doi: 10.1016/j.forc.2020.100287

    [14]

    Jiménez-Carvelo AM, González-Casado A, Bagur-González MG, et al. Alternative data mining/machine learning methods for the analytical evaluation of food quality and authenticity - A review[J]. Food Res Int, 2019, 122: 25-39. doi: 10.1016/j.foodres.2019.03.063

    [15]

    Amendolia SR, Cossu G, Ganadu ML, et al. A comparative study of K-nearest neighbour, support vector machine and multi-layer perceptron for thalassemia screening[J]. Chemom Intell Lab Syst, 2003, 69(1/2): 13-20.

    [16]

    Broséus J, Anglada F, Esseiva P. The differentiation of fibre- and drug type Cannabis seedlings by gas chromatography/mass spectrometry and chemometric tools[J]. Forensic Sci Int, 2010, 200(1/2/3): 87-92.

    [17]

    Thijs B, AxelJan R, Melvin G, et al. Decision trees and random forests[J]. Am J Orthod Dentofac Orthop Off Publ Am Assoc Orthod Const Soc Am Board Orthod, 2023, 164(6): 894-897.

    [18]

    Winkler DA, Le TC. Performance of deep and shallow neural networks, the universal approximation theorem, activity cliffs, and QSAR[J]. Mol Inform, 2017, 36(1/2): 10.1002/minf. 201600118.

    [19]

    Yang YQ, Liu DP, Hua ZD, et al. Machine learning-assisted rapid screening of four types of new psychoactive substances in drug seizures[J]. J Chem Inf Model, 2023, 63(3): 815-825. doi: 10.1021/acs.jcim.2c01342

    [20]

    Wong SL, Ng LT, Tan J, et al. Screening unknown novel psychoactive substances using GC-MS based machine learning[J]. Forensic Chem, 2023, 34: 100499. doi: 10.1016/j.forc.2023.100499

    [21]

    Lee SY, Lee ST, Suh S, et al. Revealing unknown controlled substances and new psychoactive substances using high-resolution LC-MS-MS machine learning models and the hybrid similarity search algorithm[J]. J Anal Toxicol, 2022, 46(7): 732-742. doi: 10.1093/jat/bkab098

    [22]

    Koshute P, Hagan N, Jameson NJ. Machine learning model for detecting fentanyl analogs from mass spectra[J]. Forensic Chem, 2022, 27: 100379. doi: 10.1016/j.forc.2021.100379

    [23]

    Moorthy AS, Kearsley AJ, Mallard WG, et al. Mass spectral similarity mapping applied to fentanyl analogs[J]. Forensic Chem, 2020, 19. doi: 10.1016/j.forc.2020.100237.

    [24]

    Setser AL, Waddell Smith R. Comparison of variable selection methods prior to linear discriminant analysis classification of synthetic phenethylamines and tryptamines[J]. Forensic Chem, 2018, 11: 77-86. doi: 10.1016/j.forc.2018.10.002

    [25]

    Bonetti JL, Samanipour S, van Asten AC. Utilization of machine learning for the differentiation of positional NPS isomers with direct analysis in real time mass spectrometry[J]. Anal Chem, 2022, 94(12): 5029-5040. doi: 10.1021/acs.analchem.1c04985

    [26]

    Münster-Müller S, Matzenbach I, Knepper T, et al. Profiling of synthesis-related impurities of the synthetic cannabinoid Cumyl-5F-PINACA in seized samples of e-liquids via multivariate analysis of UHPLC-MSn data[J]. Drug Test Anal, 2020, 12(1): 119-126. doi: 10.1002/dta.2673

    [27]

    Lee J, Jiang H. Analysis of indole and indazole amides synthetic cannabinoids by differential Raman spectroscopy based on ANN[J]. J Forensic Sci, 2022, 67(6): 2242-2252. doi: 10.1111/1556-4029.15133

    [28]

    Tian LC, Jiang H, Chen TZ. A rapid and nondestructive approach for forensic identification of novel psychoactive substances using shifted-excitation Raman difference spectroscopyand machine learning[J]. J Raman Spectrosc, 2023, 54(5): 540-550. doi: 10.1002/jrs.6508

    [29]

    Streun GL, Steuer AE, Poetzsch SN, et al. Towards a new qualitative screening assay for synthetic cannabinoids using metabolomics and machine learning[J]. Clin Chem, 2022, 68(6): 848-855. doi: 10.1093/clinchem/hvac045

    [30]

    Olesti E, De Toma I, Ramaekers JG, et al. Metabolomics predicts the pharmacological profile of new psychoactive substances[J]. J Psychopharmacol, 2019, 33(3): 347-354. doi: 10.1177/0269881118812103

    [31]

    Khan K, Benfenati E, Roy K. Consensus QSAR modeling of toxicity of pharmaceuticals to different aquatic organisms: ranking and prioritization of the DrugBank database compounds[J]. Ecotoxicol Environ Saf, 2019, 168: 287-297. doi: 10.1016/j.ecoenv.2018.10.060

    [32]

    Lee W, Park SJ, Hwang JY, et al. QSAR model for predicting the cannabinoid receptor 1 binding affinity and dependence potential of synthetic cannabinoids[J]. Molecules, 2020, 25(24): 6057. doi: 10.3390/molecules25246057

    [33]

    Paulke A, Proschak E, Sommer K, et al. Synthetic cannabinoids: in silico prediction of the cannabinoid receptor 1 affinity by a quantitative structure-activity relationship model[J]. Toxicol Lett, 2016, 245: 1-6. doi: 10.1016/j.toxlet.2016.01.001

    [34]

    Risoluti R, Materazzi S, Gregori A, et al. Early detection of emerging street drugs by near infrared spectroscopy and chemometrics[J]. Talanta, 2016, 153: 407-413. doi: 10.1016/j.talanta.2016.02.044

    [35]

    de Castro JS, Rodrigues CHP, Bruni AT. In silico infrared characterization of synthetic cannabinoids by quantum chemistry and chemometrics[J]. J Chem Inf Model, 2020, 60(4): 2100-2114. doi: 10.1021/acs.jcim.9b00871

    [36]

    Liu CM, Song CH, Jia W, et al. The application of 19F NMR spectroscopy for the analysis of fluorinated new psychoactive substances (NPS)[J]. Forensic Sci Int, 2022, 340: 111450. doi: 10.1016/j.forsciint.2022.111450

图(2)  /  表(1)
计量
  • 文章访问数:  135
  • HTML全文浏览量:  52
  • PDF下载量:  40
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-11-29
  • 网络出版日期:  2024-06-24
  • 刊出日期:  2024-06-24

目录

/

返回文章
返回
x 关闭 永久关闭