编者按:人工智能技术与产业深度融合需要几步?微软亚洲研究院应用科学家桂晓凡用她的亲身经历给出了答案。
自2021年加入微软亚洲研究院以来,桂晓凡深度参与了多项人工智能技术的应用研究,从英语教育平台到电信行业,从近实时的全球碳预算到电池能源领域,她凭借扎实的技术能力和敏锐的数据洞察力,通过钻研跨领域知识以及与不同领域的专家深度合作,成功推动了人工智能技术在多个行业的落地。
如今人工智能正以前所未有的速度改变着世界,但让人工智能技术真正走出实验室进入现实产业的过程并非一蹴而就。这不仅需要强大的技术支撑,更需要对行业痛点有深刻的洞察,以及持续的跨领域深度合作。
在微软亚洲研究院,有这样一群科学家,他们奔走在技术与产业的交汇点之上,积极探寻人工智能与现实世界的深度融合,桂晓凡便是其中的代表之一。作为一位兼具“抽象派”思维与“现实主义”精神的应用科学家,桂晓凡与同事们站在技术创新应用的前沿,不断开拓人工智能与现实世界结合的广阔前景。

技术的真正价值在于解决实际问题
本科计算机专业毕业后,桂晓凡先加入了一家创业公司,主要负责校园二手书交易平台的开发。这段经历让她意识到,创新技术的真正价值在于解决实际问题,但技术落地的过程往往充满挑战。为了进一步提升自己,她考入北京大学软件与微电子学院,攻读软件工程方向的硕士学位。
在北大的校园里,桂晓凡迎来了一个改变她职业轨迹的契机。一门与微软亚洲研究院有着密切交流的课程吸引了她。在课堂上,她了解到微软亚洲研究院不仅在进行基础创新,还在积极利用创新技术解决现实问题,这让她对研究院心生向往。凭借扎实的专业知识和出色的表现,桂晓凡顺利通过面试,开始了在微软亚洲研究院的实习生涯,与同事们一起将前沿技术转化为产品,帮助解决用户面临的实际问题。
桂晓凡参与的第一个项目是英语学习训练平台的开发,主要是将微软亚洲研究院的创新算法转化为实际应用。实习期间,她深切体会到微软亚洲研究院始终专注于通过技术创新来应对现实世界中的各种挑战,从而更加坚定了加入研究院的决心。“微软亚洲研究院拥有强大的技术实力,同时多元包容的企业文化让研究氛围更舒服、友好。”桂晓凡说。
硕士毕业后,她正式加入微软亚洲研究院机器学习组,先后参与了多个产业合作项目,包括利用机器学习技术为日产汽车预测电池健康状态,运用人工智能技术探索全球碳预算的有效路径,以及通过人工智能预测模型帮助电信公司进行恶意网站和横向移动检测等。三年来,桂晓凡与同事们始终践行着“用技术解决实际问题”的承诺,推动人工智能技术与产业场景的深度融合。
AI与产业融合第一步:抽象问题形成算法
人工智能技术在产业中的落地远非“构建一个模型”那么简单。第一步就是要与行业的具体场景紧密结合,将行业需求和问题抽象成可训练的算法任务,才能真正为产业带来价值。
“每个行业场景就像一个独特的谜题,需要我们去找出背后的规律,进而设计或选择最适合的算法。”作为应用科学家,桂晓凡的核心工作是把抽象后的问题转化为实用的算法模型,并确保模型在应用时具有可解释性。
在与清华大学及法国原子能署气候与环境科学实验室(Laboratoire des Sciences du Climat et de l’ Environnement)共同推进的海洋碳汇研究中,桂晓凡和同事们结合海洋生物地球化学知识和数据驱动模型,设计了全新的机器学习仿真器。此前,海洋碳预算主要有两种方法。一种是数值模拟,但存在滞后性;另一种是依靠海洋中航行的船只,通过将船只底部传感器收集的数据与卫星监测数据结合,构建机器学习模型,然而航测数据是由散点观测扩展至整个全球观测,这种以点代面的方法无法保证结果的准确性。

针对这一挑战,桂晓凡先将海洋碳预算问题抽象为一个多源数据融合任务,结合数值模拟与航测数据的优点,构建了一个能够动态学习并适应不同海洋区域特征的模型。然后通过引入海洋生物地球化学知识,进一步优化模型的参数与结构,使其更贴合实际的海洋环境变化。“人工智能技术的落地应用不仅依赖于精确的算法,更需要对行业知识的深刻理解。只有当算法与行业任务紧密结合时,才能确保其为现实世界带来真正的价值。”桂晓凡说。
AI解决现实主义难题:将数据处理变成一门工艺
在搭建算法的同时,高质量的数据同样至关重要。桂晓凡对数据高度敏感,并善于在看似枯燥的工作中发现乐趣,也深知数据处理绝不仅仅是清洗和填充,而是一门需要精雕细琢的“工艺”。
桂晓凡将数据处理大致分为以下几个步骤:数据标准化、数据异常检测、数据填充、数据关联性分析和特征提取,最终挖掘出数据中蕴含的价值。
日产汽车电池健康状态预测项目是桂晓凡在数据处理方面的一次重要实践。电池的充放电循环数据复杂且稀少,如果像处理海量数据那样大范围清洗,很可能丢失关键信息。在获得日产汽车的电池数据后,桂晓凡首先统一了数据格式,以便确保后续工作的一致性。
接下来,桂晓凡会检测数据中的异常点。例如,一个循环中出现断电现象,会被视为异常电池数据。此时,她还需要确认这些异常点是否也被行业专家认可,以确保数据清洗的准确性。如果数据不完整或过于稀少,桂晓凡还会通过查找公开数据集或利用历史和邻近的电池数据来增强或充实数据量。
针对清洗后的数据,桂晓凡会进行数据分析,寻找变量之间的关联性,并提取有价值的特征。为了确保方法的科学性,她会提前阅读大量相关文献,明确行业领域对特征的普遍共识。例如,在电池的充放电循环中,电压与容量的曲线会随着充放电循环次数的增加而变化。如果电池在100次循环内容量就明显衰退,那么其寿命可能较短;反之,电池寿命则较长。
基于这种方法处理的数据,微软亚洲研究院的研究员们设计了一系列特征,只用前50个循环数据,就能预测电池在800个循环时的健康状态,让日产汽车的电池监测与管理更高效、智能。
电信公司的恶意网站检测则是另一种截然不同的场景。恶意网站的分类众多,数据量庞大,且涉及多种类型的数据,例如,钓鱼网站的域名变化频繁且常涉及跳转;污损的网站域名看似和大部分内容一样正常,但实际上嵌入了恶意广告或修改了部分内容,传统检测方法难以发现这些问题。
对此,桂晓凡采用了分类处理方法:针对钓鱼网站,她设计了基于内容和域名的匹配检测算法,通过检测网站内容与域名的匹配度,并提取网站商标信息,追溯其所属公司及域名,更准确地识别钓鱼网站;针对被污损的网站,通过对比网站内容的一致性与缓存内容,结合黑客攻击的语料库,可以更精准地识别出可能被污损的部分。
在桂晓凡看来,看似单调的数据处理,其实是探寻行业奥秘的过程。“当为了理清电池衰退机理而深入了解电池化学反应机制,或者为了识别恶意网站而研究黑客攻击手段时,我都会获得一种源于学习新知且探究问题根源的满足感。每次攻克一个看似枯燥的细节,成就感就会倍增。”
跨领域合作:敢于迈出第一步,世界就会打开
推动人工智能技术落地的另一个关键要素,是与不同行业、不同领域的专家并肩作战。“人工智能要发挥真正的价值,离不开多学科的协同配合。很多棘手的问题都涉及多种专业领域,只有集合各领域的视角与思路,才能找到最优解。这种跨领域的差异正是合作的魅力所在。”
跨领域研究往往面临沟通成本和理解壁垒。但在桂晓凡看来,只要对某个领域有好奇心,就应该大胆向前迈出第一步——主动与该领域的专业人士交流、研读相关文献、理解并尊重他们的思路。无论是广泛探索还是深入钻研,持续的沟通与交流都将为个人成长提供强大助力。
“跨领域的研究需要勇气和好奇心。”桂晓凡说,“只要你敢于开口、敢于踏入陌生领域,就会发现世界比想象中更广阔,也充满更多可能。”