编者按:生命健康是人类永恒的探索主题,也是医疗工作者不懈追求的使命。迈入全新的人工智能时代,如何让机器学习算法和人工智能大模型助力医疗健康行业发展,是学术界和产业界共同关注的议题。然而,从计算机领域看医学行业,与从医学需求出发寻找技术突破之间必然存在着认知偏差。身为具有执业医师资格的医学博士,微软亚洲研究院(上海)高级研究员王子龙对此有哪些独到的见解?他又将如何在人工智能与医疗健康之间架起创新的桥梁?
人工智能是一个充满活力的领域,每隔几年就会涌现一些引人注目的新技术,引领着产品和应用的新潮流。过去的十几年中,多次的技术革新浪潮给各行各业都带来了大量机遇。
“作为一名医学生,我会从医学角度出发,探索创新技术在医疗领域的应用潜力,如卷积神经网络可以推动医学影像处理的进步,基础模型能够扩展医疗产品的功能并增强人机交互。然而,医疗行业是一个严谨且相对保守的领域,对于新技术的应用和融合有着更高的标准和要求。这就需要跨领域的研究者将两者融合起来,我希望自己可以成为这样一座桥梁。”这是王子龙决定从技术应用回归学术研究,并加入微软亚洲研究院的主要原因。
“在我之前的职业生涯中,无论是在大型企业开发医疗产品,还是在初创公司带领团队开发前沿应用,产品研发首要考虑的是短期时效性与利益,这限制了对更深层次研究课题的探索。我更喜欢探索医学与人工智能的交叉领域,在研究机构中,我能更自由地专注于解决长期性的重大问题。”
正因为此,2023年王子龙加入了微软亚洲研究院(上海),开始了他的跨领域研究之旅。从执业医师到算法研究员,王子龙带着探索性视角,致力于将人工智能的前沿技术应用于医疗健康领域,寻找创新的解决方案。王子龙的研究不仅关注技术突破本身,更着眼于如何将这些技术与医疗实践相结合,以实现更精准的诊断、更有效的治疗和更广泛的健康监护。
从医疗领域审视技术应用:洞见症结,推动人工智能大模型创新
王子龙深知,医疗行业对人工智能技术有着迫切的需求,尤其是在提高诊断准确性和临床效率方面。尽管人工智能在视觉和自然语言处理领域取得了显著进展,但在医疗领域的应用仍有很大的发展空间。例如,大语言模型在问答机器人中的应用较为普遍,但在特定疾病领域的深入应用还需进一步探索。王子龙认为,其中的关键在于如何让这些模型更好地辅助医生进行诊断和实践,尤其是在医学报告的生成中,模型需要对临床内容有深刻的理解和准确的表达,而对于聊天对话或生成文字的优美性与流畅度只是次级需求。
之前的图像算法大多以分类的形式,表示在 X 光片中的肺炎或骨折等阳性发现。然而,随着大模型,特别是多模态大模型的发展,医学影像分析迎来了新的变革。这些模型能够将 X 光片等医学影像转化为自然语言或类似报告的形式,使得结果更易于医生阅读。王子龙和同事们认识到,这种新方法需要更为复杂的评估手段以确保其临床意义和准确性,基于分类标签的或者传统的文本匹配的评估手段已不能满足对新方法的评估。
为此,他们设计了一系列数据集和方法,来判断生成内容的质量,尤其是临床意义上的准确性。同时也设计了能够增强模型交互性的数据集和方法,可以让医生通过自然语言指令修改既往报告、对比历史报告,并添加相关信息,从而使模型能够整合其他病理检查信息,方便医生重新审核病患图像和报告,辅助医生进行全面的诊断。
再比如,在自然图像领域表现出色的视觉模型,可能在医学影像分析中的表现并不尽如人意。医学影像的特殊性在于其对细节的要求极高,图像上面积占比极小的病灶决定了整个图像的类别,这与自然图像分析中常见的任务,如识别图像中的主要物体及其位置,有着很大的不同。例如,需要在包含数百万像素的胸片中有能力识别出仅有10*10像素大小的病灶,并确定其性质和属性。在医学影像分析的过程中,图像还常常需要被缩放(resize)到特定尺寸以适应模型的输入和输出需求。这是一项对细节处理能力要求极高的任务,但是当前的大规模采样方法在处理医学图像时可能会丢失关键的诊断信息,直接影响了诊断准确性。针对这一问题,王子龙和同事们正在探索改进医学图像领域的视频和图像编码器技术,以期把高分辨率的二维与三维的医学影像以一种更合适的方式引入图像处理。
从技术角度看医疗行业:让人工智能更有的放矢
尽管此前身处医疗领域,但王子龙对计算机科学也有着深入的研究,在加入微软亚洲研究院之后,他对计算机领域的前沿技术有了更深入的理解。这让他能够洞察到这些技术在医疗领域的应用潜力,从而促进技术与医疗难题之间的有效对接,释放出创新技术的真正价值。
在微软亚洲研究院,王子龙了解到音频处理技术带来的更多可能性,经过与医学专家的深入讨论,他认为这项技术在心脏和血管健康管理方面具有巨大的应用潜力。例如,通过监测和分析血液流动的声音,音频技术可以用于无创地检测血管状态,为相关疾病的早期发现和跟踪提供了新的可能性。
王子龙还注意到了微软亚洲研究院在无线通信与无线感知领域的研究成果,一旦应用于移动设备或可穿戴设备,将极大地推动远程健康监测的发展。患者可以在家中自行监测多种疾病的变化,及时识别潜在的健康风险,实现更加主动的健康管理,进而提高医疗服务的覆盖范围和效果。
王子龙认为,微软亚洲研究院自由开放的研究环境、多元化的技术路线,以及汇聚了世界一流人才,为他在人工智能与生命科学和医疗健康领域的交叉研究提供了丰富的资源和合作机会。
跨领域研究与跨学科学习的精髓在于“跨”
高中时,王子龙就对多学科学习有着浓厚的兴趣,在生物、物理和计算机竞赛中都取得了优异的成绩,并因此被保送至复旦大学上海医学院。在进行医学专业课程学习的同时,复旦大学开放的学习环境也让他可以去“蹭”更广的课程,实现了医学与计算机科学学习的兼顾,为他的跨学科知识储备奠定了坚实的基础。
随着对医学知识不断地深入探索,获得了执业医师资格并即将取得肿瘤学博士学位的王子龙认识到,尽管当时医疗领域已经有了一些成熟的技术和工具,但医学的进步仍需更多创新的模型和技术支持,新的人工智能技术也将在医学实践中形成更大的影响力。在见证了首个基于人工智能的医学影像诊断产品 IDx-D 获得 FDA 批准后,王子龙更加坚定了这一信念。
博士毕业后,王子龙加入了一家知名的企业研究机构,投身于人工智能在医学领域的应用探索,包括图像识别技术在疾病诊断中的应用,并参与开发了相关的辅助诊断工具。此后,他转战初创企业,带领团队开发了针对眼底和胸部 CT 的辅助诊断产品,并在这一时期入选了科学和医疗健康领域2020福布斯中国30岁以下精英榜和2021胡润 U30 中国创业领袖。
无论身处哪一发展阶段,王子龙都在时刻充实自己的跨学科知识。他认为,在人工智能行业落地的过程中,跨领域合作和跨学科人才至关重要。“通过与产业领域专家的深入合作,充分理解行业需求,以开放心态发现并解决行业关键问题,才能共同设计出针对医疗目标和特定场景的学习框架与模型,使 AI、大模型、RAG(检索增强生成)等技术更好地服务于医疗发展。”王子龙说。
跨学科知识的积累非一朝一夕之事,需要兴趣的驱动和勇于跨界的勇气。“兴趣是最好的老师”恰当地说明了兴趣如何深刻地影响我们对学习的态度和效果。当人们投身于自己感兴趣的领域时,他们往往会更加投入和专注,从而加速学习过程,更容易进入“心流”状态。王子龙认为跨学科的精髓在于“跨”,需要以兴趣为导向,勇于跨越学科界限,不设限地探索未知领域。虽然初入新领域可能会感到陌生与不安,但当找到交叉领域的兴趣点后,就会逐步形成平滑的学习曲线,从而实现跨学科知识的积累与应用。