使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

人工智能在生物医药领域中的应用和进展

言方荣

中图分类号: TP18R97

最近更新:2023-07-03

DOI:10.11665/j.issn.1000-5048.2023030304

  • 全文
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

近年来人工智能得到了快速发展,其在很大程度上改变了现代的生活方式。同时,人工智能极大地促进了医药行业的发展,在精准医学、智能诊断、计算机辅助药物设计以及临床试验决策等环节均发挥了关键作用,也在与医药产业的结合中极大地发展了自身。本文概述了人工智能研究中的关键问题,阐述人工智能在健康医药产业中的关键应用,并分析人工智能在健康医药产业中机遇与挑战,为人工智能在健康医药产业领域的发展提供参考。

(中国药科大学理学院,医药大数据与人工智能研究院,南京 211198)

1956年,约翰·麦卡锡在达特茅斯会议上首次提出了人工智能(artificial intelligence,AI)这一术语,它标志着“人工智能”这门新兴学科的正式诞生。但在当时由于计算性能的瓶颈,人工智能的应用受到制约。20世纪90年代中期,随着计算机性能的不断提升以及网络技术的发展,加速了人工智能技术的创新研究,人工智能领域取得巨大突破,促使人工智能技术进一步走向实际应用。此后,云计算、大数据、机器学习等信息技术发展迅速,人工智能迎来了爆发式增长的新高潮。

人工智能,自从它被提出的那一天起,就注定它的发展与人类社会的进步拥有着十分紧密的关系。随着计算机科学与统计学、数学等学科的发展,人工智能不仅在21世纪的今天已经成为每个人耳熟能详的名词,还真正地进入了人类的生活。从智能生产线,各种无人操作系统,到智能手机、穿戴式设备、手机APP的推荐系统以及人脸识别系统等,都可以看到人工智能的身影。可以说,人工智能改变了人类的生活方式,已成为人类生活不可或缺的一部分。特别是在健康医药领域,人工智能正深刻改变着这一领域的发展,从疾病精准诊断到治疗,从药品研发、生产、上市销售等各个环节发挥着自己的独特的作用。

在全球人工智能发展浪潮中,我国人工智能技术、产业和市场的发展也取得了令人瞩目的成绩,并表现出与发达国家同步的趋势。2017年7月,国务院印发《新一代人工智能发展规划》,正式将人工智能上升至国家战略。综上所述,人类正在进入一个日渐人工智能化的科技时代。

1 人工智能的核心问题

近年来,人工智能技术迅猛发展,并获得广泛应用。但人工智能研究仍面临一些关键问题,主要包含以下几个方面:(1)计算机视觉:包括人脸识别、图像分类、目标跟踪等;(2)自然语言理解与交流:包括语音识别、机器翻译、问答与对话系统等;(3)机器人学:机械、控制、设计、运动规划、任务规划等;(4)博弈与伦理:多代理人的交互、对抗与合作、机器人与社会融合等。其中,计算机视觉、语音识别、自然语言处理、机器人是目前人工智能的核心问题。这些技术的发展虽然极大地促进了生物医药产业相关领域的发展,但仍存在一些待解决的关键问题,限制了人工智能技术在生物医药领域的进一步应用。

计算机视觉是指使用计算机及相关设备对生物视觉进行模拟,通过采集的图像识别物体信息,并根据此信息作出相应的判断和决策。目前该技术被广泛运用于医疗影像诊断中,快速识别并标定异常结构,为医生提供参考,提高诊断效率。计算机视觉依赖于深度学习技术,而深度学习强大的识别能力则依赖于它的庞大数据集。但在医药领域,相同病例的数据集获取较为困难,这使得影像识别的精准度有待提升。近年来随着影像技术的发展,一些高分辨率CT影像,得到的模型大多是三维模型,而深度学习主要是基于二维模型的训练,这给研究人员带来了巨大挑战。此外,医学影像的清晰度也限制着该技术的进一步应用,急需一些新技术来处理这些问题。

自然语言处理也在生物医药领域得到了广泛应用,自然语言处理是使用自然语言与计算机进行通信的技术,主要目标是使计算机够理解人类的语言与符号,进一步通过语言与符号传递信息。目前,基于自然语言模型,利用在线问诊平台积累的大量问诊数据构建医学智能问答系统,能够解决常见的患者医学问题;通过对话摘要技术从对话中提取信息,能够辅助医生完成电子病历,从而减轻医生的负担。但当下的问答系统较多都只支持单轮对话,很难做到像ChatGPT那样的多轮对话。此外,由于我国许多医院医疗信息化水平较低,缺少电子病历,自然语言处理技术无法充分发挥作用。未来,可以在加快系统回答问题时间、引入多轮对话和提高医疗信息化水平方面加以改进,使人机交互变得更加友好。

人工智能和机器人技术的不断发展,催生出医疗机器人新兴产业。基于机器人的不同功能和应用领域,它们可以被划分为多个类别,包括但不限于手术机器人、康复机器人、服务机器人等。其中,占比规模最大的是手术机器人,医生通过显示屏和内窥镜仔细观察患者体内的病灶情况,通过机器人手中的手术刀将病灶精确切除。但机器人终究是机器,其在进行手术时的可靠性无法保证,当手术出现意外结果时难以进行责任判定,这也困扰并限制着机器人在医疗领域的运

1。这些潜在风险的解决有赖于人工智能在这些关键领域的进一步突破。

2 人工智能对于生物医药产业的影响

随着信息技术和生命科学的快速进步与融合,人工智能技术贯穿了药物开发、临床前研究、临床治疗、健康管理的大多数环节。人工智能正在深刻影响着医疗健康和生物医学领域的发展,特别地,它在精准医学、智能诊断、计算机辅助药物设计、临床试验智能决策等方面都取得了长足进步。

2.1 精准医学

美国国家研究理事会在2011年发布了《迈向精准医学——构建生物医学研究的知识网络和新的疾病分类法》研究报告,首次提出了“精准医学”的概念。精准医学(precise medicine)是一种新的医学模式,即通过分子生物学和遗传学等研究手段,对患者进行细致而精确的分型,同时根据患者具体分型的生物学机制,给予个性化治疗。精准医学与个性化医疗(personalized medicine)不同,个性化医疗强调为个体设计独特的治疗方式,而精准医学是服务于疾病新分类的需求,是整合生物医学研究和临床医学信息,并依据不同分子学基础定义疾病亚型,从而能够在分子学水平为临床疾病亚型群体提供更精确的诊断和治疗。

目前癌症仍是人类最主要的致死原因,世界各国都对癌症研究投入巨大人力和物力。精准医学为癌症患者提供了多层次的定制医疗服务,包括医疗决策、治疗策略和临床管理,而不是传统癌症化学疗法或放射疗法中出现的“一刀切”模式,这对改善癌症治疗具有巨大价值。精准医学在癌症治疗方面取得了巨大成就,现已成为一种行之有效的临床模式。

精准医学的重要组成部分是精准诊断,可以为后续的疾病治疗提供支持。例如通过影像学检查可以观察到的甲状腺结节,是指在甲状腺内细胞增生后出现的团块。它可由多种因素引起,在当代人群中较为高发。良性的甲状腺结节(如滤泡腺瘤)对日常工作生活不会有影响,而恶性的甲状腺结节(如滤泡癌)需要尽早进行医治。临床实践中,约有30%的甲状腺结节,缺少行之有效的良恶性判断方法。为了克服甲状腺结节良恶性诊断的难题,研究人员将人工智能技术应用到了蛋白质检测上,通过测量不同类型甲状腺结节组织蛋白质分子水平的变化,对良性结节与恶性结节进行“识别

2。通过对2 421个蛋白质组学数据进行分析,最终找到了14个关键蛋白质的组合,可对甲状腺结节进行良恶性判别。鉴定到可区分甲状腺结节良恶性的蛋白质分子标志物的组合后,该方法的临床应用准确率达到了90%,有望克服当前甲状腺结节良恶性诊断的难题。

但是,由于最先进的诊断和治疗方案在整个人群中通常分布不均,精准医学在不同种族和民族之间存在较大的医疗差距。多项研究报告表明,在美国,白人在接受精准治疗的患者中占比过高,通常达到80%~90%

3。因此,试验中测试疗法的临床有效性结论将很难推广到所有种族和民族。由于纳入人群在临床试验和预防研究中的代表性不足,如何将少数族群纳入研究构成了实施精准医学的挑战,也是人工智能技术在当前精准医学领域应用客观存在的局限性。

如今,临床数据(包括图像、实时监测的数据)、分子技术(主要是基因组学)的进步,以及可穿戴设备的普及都将显著增加生物医药数据的来源和可信度,队列建设目前已呈现大型化、一体化、共享开放的特点。生物医药数据的收集覆盖多样化人群、全生命周期和健康,这也为精准医学及人工智能技术的进一步发展奠定了坚实基

4

2.2 智能诊断

智能诊断是健康医药的一个重要研究领域。通过非人工的方式干预疾病的诊断,提升患者的治疗收益,是当前人工智能时代的大势所趋。智能诊断主要涵盖临床虚拟助手、辅助诊断、疾病风险预测等方面,并正朝着提高医生工作效率和减少人为错误的方向迈进。其中,临床虚拟助手的原理为将各种病情的诊断标准、阈值判断、治疗处方、专家经验等以数据库的形式存储在计算机内,利用计算机强大的计算和逻辑推导能力,去模拟医生的工作过程,从而达到精确诊断与决策的目的。其可以很大程度上解决临床医生知识的局限性问题,减少人为疏漏,提升医疗效率与药物的使用效率。

现今,人工智能辅助诊断技术发展迅速,已经在越来越多的临床领域出现。2020年麻省理工学院通过Resnet神经网络,仅利用咳嗽声来对新型冠状病毒感染进行诊断,准确率达到97%

5;2021年美国西北大学发表了名为DeepCovid-XR的算6,通过卷积神经网络利用胸部X射线照射诊断新型冠状病毒感染,速度达到影像科医生的10倍,准确率(82%)高于人类医生水平。此外,人工智能还可以对癌症的类型进行判7、对病理组织影像进行分割与诊8、对医学影像进行目标检测和高分辨率重建等,这将在很大程度上解放医生的劳动力。

人工智能在胜任虚拟助手以及辅助诊断的同时,还可以进行疾病风险的预测。2019年7月31日,谷歌的DeepMind在Science杂志公布最大突破,新研发的AI系统可提前48 h检测潜在肾脏损伤,让30%的患者提前预防病情恶

9;2017年诺丁汉大学发表的一篇文章也显示出神经网络在心血管疾病的预测准确率方面的表现优于传统模10。疾病风险的准确预测,使得医生可以更好地为患者将来的疾病治疗制定最优的策略。

2.3 计算机辅助药物设计

新药研发是医药健康领域的重要部分,新药上市需要经历临床前研究及临床Ⅰ、Ⅱ、Ⅲ期研究后才能最终上市,低效率和高成本是新药研发过程的主要障碍。同时,处理来自基因组学、蛋白质组学和临床试验中大量复杂的数据也为新药的研发带来了不小的挑战。依托人工智能技术的计算机辅助药物设计是近些年来兴起的药物发现新方法,它借助计算机技术和人工智能算法对海量生物数据以及化学数据进行处理,以更高效地发现潜在有效药物。但是,在药物设计方面应用人工智能技术需要基于复杂的蛋白质三维结构、海量的候选化合物结构以及复杂的训练模型,因此对计算能力提出了更高的要求。高性能计算(high performance computing)技术可以利用大量处理单元的整合计算能力处理一般工作站无法完成的大型计算任务,被广泛应用在兵器制造、经济预测、气象预报、互联网服务、工业仿真等领域,对科技进步和经济发展有重要的价值。高性能计算是人工智能介入医药领域的重要基石,也为计算机辅助药物设计提供了新的助力。

人工智能技术,特别是深度神经网络方法,已经在计算机辅助药物设计中得到了快速发展,进一步提升了计算机辅助药物设计的效率。常见的深度神经网络结构有多层感知/反向传播神经网络、循环神经网络、贝叶斯神经网络等。反向传播神经网络是最常用的有监督神经网络。Khan

11使用反向传播神经网络,通过将未知配体的2D描述符与已知配体的2D结构描述符相匹配,来预测配体的药物代谢(ADMET)性质。循环神经网络以其独特的链式结构,赋予神经网络以记忆的属性,使其对于药物设计中序列类型数据的处理具有天然的优势。Yasonik12使用循环神经网络根据分子属性对分子进行等级划分,以提升分子优化的结果;Li13则用其开发潜在的激酶抑制剂。贝叶斯神经网络不像传统神经网络那样学习精确的权重(和偏差)值,而是学习权重的分布,使之在药物设计的任务中相对于传统的神经网络拥有更好的鲁棒性。贝叶斯神经网络模型已被用来预测多肽与MHC-Ⅱ类分子结合的定量构效关14。实践证明,不同结构类型的神经网络都可以在计算机辅助药物设计当中发挥自己独特的价值。

多年来,利用氨基酸序列预测蛋白质结构也是计算机辅助药物设计中的一大热点,随着DeepMind公司的开源人工智能系统AlphaFold的出

15,药物研究者可以借助人工智能的翅膀,更加准确地预测蛋白质的形状。AlphaFold主要应用于医疗保健和生命科学领域,在药物研发领域也具有极大潜力。

事实已经证明,人工智能已经全方位推动了药物设计进程,很大程度上助力了新药的研发,可以说,人工智能在计算机辅助药物设计领域将扮演着不可替代的角色。

2.4 临床试验决策

临床试验的决策是一个复杂且充满风险的过程,一个决策的成功与否往往就会关系到一家公司的生死存亡。临床试验具有许多痛点:首先,临床试验是一个缓慢且耗资巨大的过程,将一种新药推向市场往往需要耗费10 ~ 15年的时间,花费10亿美元以上,其中大约一半的时间与金钱会花费在临床试验阶段,并且在临床试验中需要上千名受试者参与药物疗效的验证;其次,临床试验是一个高失败率的过程,虽然生物技术与药物研发企业在不断地加大对新药研发的投入,但获批的新药数目大约每9年减少一半,临床试验的失败率居高不下,新药研发的困难日渐加重;最后,不精准的患者选择、患者招募和保留的困难,以及缺乏有效管理和监测患者的手段,都导致高的试验失败率并增加研发成本。

人工智能的发展为解决当前临床试验面临的困境提供了可能。在临床试验设计、患者匹配、患者检测以及数据共享等方面,人工智能可以全方位地参与到临床试验决策。对于临床试验设计而言,由于研究方案日趋复杂,数据来源不断增多,现如今临床试验所产生的数据量是10年前的3倍,如此大的数据量,对于人工智能而言无异于一个宝库。基于这些海量临床数据,人工智能可以在交叉验证、回顾性验证、前瞻性验证等环节进行预测,提升临床试验的效率和结果可靠性。在临床试验中,将试验与患者精准匹配对于临床研究团队和患者来说都是一个耗时且具有挑战性的过程。人工智能为解决患者高效匹配提供了可能,能够通过将患者已有的症状、诊断与治疗的信息进行匹配,提高患者与临床试验之间的匹配率。患者监测也是当前临床试验的难点,监测的不及时与患者的不依从往往会对最终决策的准确率造成影响。人工智能与可穿戴式设备的结合为解决该问题提供了有效的途径,通过算法对患者的各种指标以及行为进行实时的监测,同时通过日常积累的数据进行退出风险的预测,从而进行相应的调整,提高患者参与度与保留率。临床数据的共享也同样在临床试验中拥有着巨大作用,在以开放数据标准支持的共享平台上对临床试验数据进行共享与整合,可以推进协作和集成。AI在临床试验的各个过程中都有自己可发挥作用的潜力,ConcertAI、Saama、PathAI等公司更是使用AI为临床试验提供更大的便利。例如,Saama公司利用自注意力机制促进序列内交互进行实体识别,并基于此提出一种用于临床或生物医学研究文本中药物和疾病实体识别以及药物不良事件提取的联合模

16。可帮助快速识别研究中心、研究以及患者等不同层面的不良事件,在实际应用中可帮助明确和完善统计分析计划中相关定义。不局限于随机对照试验(randomized control trial,RCT),AI在临床试验中的应用也同样着眼于真实世界研究。Vaidya17使用Concerto HealthAI数据库中3 807 名患者的肿瘤电子病历数据,通过ConcertAI 测试多种动态机器学习模型,最终使用通过330 个特征构建的极度随机森林得到了可以根据累积的历史临床数据动态预测转移性乳腺癌(metastatic breast cancer,MBC)复发风险的模型。此模型可以帮助评估乳腺癌患者治疗过程中各个点的患者风险和治疗方案,以及对患者进行分层以实施不同级别的监测,在实际应用中帮助指导患者护理和监测决策。

3 结 论

毫无疑问,人工智能技术的发展为高效解决很多困扰当前生物医药领域已久的问题带来了可能。传统医学诊断仅依靠医生对于病理组织的认知进行判断,而人工智能技术能够整合各种病理及基因信息,对医学影像资料进行自动化解读、模拟医生工作过程等行为进行智能诊断,解决了诊断结果不准确、工作效率低下等问题。结合人工智能技术对患者进行个性化分析,有助于推动个性化诊疗,实现精准医学。人工智能技术尤其是深度学习算法也促进了计算机辅助药物设计的发展。各类药物相关预测模型的不断更新,增强模型内部性能,改善了传统计算机辅助药物设计带来的设计速度缓慢、逆合成等问题。临床试验一直面临着过程缓慢、耗费时间精力、患者的选择以及伦理等困难,人工智能通过对海量临床数据进行处理验证、利用算法模型匹配患者等方法也为临床试验及其决策提供了辅助与优化。

然而,人工智能技术在生物医药领域快速发展的背后依然存在一些问题。大多数人工智能技术严重依赖大量的计算资源,一定程度上限制了人工智能方法的发展及应用。如何在保持模型预测准确率的前提下,降低对计算资源的依赖已成为人工智能在生物医药领域的一个研究热点。面对海量的生物医药大数据,如何提取相关原始数据、构建特征以整合多源、复杂、未标准化的数据集也是人工智能技术在生物医药领域的面临的重要任务。此外,人工智能模型中超参数搜索、内部机制的不可解释性也在一定程度上阻碍了人工智能在生物医药领域的发展。例如,由于模型如卷积核的可变性、训练数据的过拟合或欠拟合等,都会造成不可重复性和不可再现性等。通过人工智能干预临床试验决策时,不能直接套用现有指南,需要结合临床实际设计合理有效的决策方案。

随着人工智能技术的不断发展以及不同研究背景人员的加入,利用传统生物医药领域的研究方法,结合多样高效的人工智能技术,将进一步推动生物医药领域迈向人工智能时代,为人类健康作出重要贡献。

References

1

O'Sullivan S, Nevejans N, Allen C, et al. Legal, regulatory, and ethical frameworks for development of standards in artificial intelligence (AI) and autonomous robotic surgery[J]. Int J Med Robotics Comput Assist Surg, 2019, 15(1): e1968. [百度学术] 

2

Sun YT, Selvarajan S, Zang ZL, et al. Protein classifier for thyroid nodules learned from rapidly acquired proteotypes[J]. medRxiv, 2020. doi: 10.1101/2020.04.09.20059741. [百度学术] 

3

Clinton N, Patel K. The imprecise promise of the Precision Medicine Initiative (PMI): where we got it wrong and how can we fix it[J]? J Clin Oncol,2021,39(15_suppl):e15102. [百度学术] 

4

Xu L, Li W, Sun XH, et al. Development trend of precision medicine in 2022[J]. Chin Bull Life Sci (生命科学), 2023, 35(1): 42-47. [百度学术] 

5

Laguarta J, Hueto F, Subirana B. COVID-19 artificial intelligence diagnosis using only cough recordings[J]. IEEE Open J Eng Med Biol, 2020, 1: 275-281. [百度学术] 

6

Wehbe RM, Sheng JY, Dutta S, et al. DeepCOVID-XR: an artificial intelligence algorithm to detect COVID-19 on chest radiographs trained and tested on a large U.S. clinical data set[J]. Radiology, 2021, 299(1): E167-E176. [百度学术] 

7

Hashimoto N, Fukushima D, Koga R, et al. Multi-scale domain-adversarial multiple-instance CNN for cancer subtype classification with unannotated histopathological images[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle:IEEE,2020: 3851-3860. [百度学术] 

8

Alom MZ, Yakopcic C, Hasan M, et al. Recurrent residual U-Net for medical image segmentation[J]. J Med Imag, 2019, 6(1): 1. [百度学术] 

9

Tomašev N, Glorot X, Rae JW, et al. A clinically applicable approach to continuous prediction of future acute kidney injury[J]. Nature, 2019, 572(7767): 116-119. [百度学术] 

10

Weng SF, Reps J, Kai J, et al. Can machine-learning improve cardiovascular risk prediction using routine clinical data[J]? PLoS One, 2017, 12(4): e0174944. [百度学术] 

11

Khan MTH, Fuskevåg OM, Sylte I. Discovery of potent thermolysin inhibitors using structure based virtual screening and binding assays[J]. J Med Chem, 2009, 52(1): 48-61. [百度学术] 

12

Yasonik J. Multiobjective de novo drug design with recurrent neural networks and nondominated sorting[J]. J Cheminform, 2020, 12(1): 14. [百度学术] 

13

Li XY, Xu YQ, Yao HQ, et al. Chemical space exploration based on recurrent neural networks: applications in discovering kinase inhibitors[J]. J Cheminform, 2020, 12(1): 42. [百度学术] 

14

Winkler DA, Burden FR. Bayesian neural nets for modeling in drug discovery[J]. Drug Discov Today Biosilico, 2004, 2(3): 104-111. [百度学术] 

15

Tunyasuvunakool K, Adler J, Wu Z, et al. Highly accurate protein structure prediction for the human proteome[J]. Nature, 2021, 596(7873): 590-596. [百度学术] 

16

Ramamoorthy S, Murugan S. An attentive sequence model for adverse drug event extraction from biomedical text[J]. arXiv, 2018: 1801.00625. [百度学术] 

17

Vaidya VP, Agrawal S, Sai Vinod M, et al. Development of an artificial intelligence model to dynamically predict metastatic recurrence of early-stage breast cancer patients[J]. J Clin Oncol, 2020, 38(15_suppl): e13078. [百度学术]