编者按:你知道吗?每年的9月23日是国际手语日,每年9月第四个星期日是国际聋人日。世界聋人联合会希望通过设立这两个国际日,提高社会对聋人群体的关注与支持以及对手语的认识,保护聋人权利。
在微软亚洲研究院也有一群人在为此努力,来自视觉计算组的研究工程师罗琳就是其中一员。她和同事们合作开发的针对手语识别与翻译的研究项目,致力于利用人工智能技术为聋听之间搭建沟通的桥梁,让聋人朋友可以使用他们自己的语言——手语,与听人无障碍交流。
如果你用一个人听得懂的语言与他交流,他会记在脑子里;如果你用他自己的语言与他交流,他会记在心里。——纳尔逊·曼德拉(前南非总统)
这句话深深地打动了微软亚洲研究院视觉计算组的研究工程师罗琳。在参与研究院手语识别与翻译研究的过程中,罗琳了解了聋人朋友的心声,也因此把这句话作为了她与人交往、合作的一条准则,尤其是和聋人朋友的交流。
罗琳与微软亚洲研究院的缘份始于微软亚洲研究院与北京大学联合开设的软件实现技术系列课程。当时还是北京大学软件与微电子学院计算机技术专业硕士一年级学生的罗琳,参与了整个课程的学习,并凭借优异的表现,获得了研究院实习岗位的面试机会,最终通过面试成为实习生。研究院在人工智能领域所进行的前沿探索,以及将人工智能技术应用于真实世界的落地成果,给实习中的罗琳留下了极其深刻的印象。
毕业后,罗琳毫不犹豫地选择加入了微软亚洲研究院。从实习生到成为正式员工,罗琳感受最深的,也是她加入微软亚洲研究院的直接原因是,“这里是一个可以让人自由生长的地方,每个人都能获得所需的养分,充分发挥自己的主观能动性。”
“不会手语怎么能做好手语的识别与翻译呢?”
一直以来,微软亚洲研究院都致力于开展有温度且面向未来的科学研究,并通过提供具有“包容性设计”的技术创新,来满足不同人群的实际需求。罗琳在加入研究院后参与的手语识别与翻译研究就是这样的项目。
此前,微软亚洲研究院曾与星巴克中国手语门店合作,通过语音识别技术,将顾客的需求转换成文字,帮助减少顾客与聋人店员之间的沟通障碍。对聋人来说,语音识别是让聋人看到听人在说什么,但这项技术仍有其挑战。一方面,在嘈杂的环境中语音识别的准确率会受到影响。另一方面,“对于大部分聋人来说汉语并不是母语,手语(视觉语言)与汉语(有声语言)在语法、词汇、表达法等各方面都有很大的差异,对于聋人来说,学好汉语是需要付出很大努力的。”罗琳介绍道。聋人用手语沟通才是他们直接、准确和更高效的沟通方式。让聋人使用手语直接和听人交流,通过 AI 识别翻译手语,从而让听人理解聋人的表达,是微软亚洲研究院进行手语识别与翻译研究的目标。
手语是一门视觉语言,它的识别与翻译是一个多模态问题,研究员们希望利用前沿的计算机视觉、自然语言处理等技术来尝试解决手语识别与翻译中的问题。微软亚洲研究院手语识别与翻译研究项目的目标是希望建立一个实时的手语与文字的双向翻译系统,将连续手语视频转换为文本或语音,也能将文本转换为连续手语视频,以实现聋人和听人之间的高效沟通。然而,微软亚洲研究院首席开发经理陈刚在项目启动时提出了一个问题——“如果我们都不会手语,怎么能做好手语识别与翻译呢?”
幸运的是,当时微软中国的一个团队招聘了一名手语非常优秀的聋人实习生。无独有偶,罗琳所在的研究组也招聘了一名来自天津理工大学聋人工学院的实习生。此后,罗琳和同事们迅速在组内建立起了手语课堂,由两位聋人实习生担任手语老师,开展了长达半年时间的手语学习。
正是在这个学习的过程中,罗琳发现手语是一门很有趣的语言,并对其产生了浓厚的兴趣。为了更深入地了解手语,在组内学习的同时,罗琳还报名了网上的手语课程,利用业余时间,一周三次跟随聋人老师学习手语。如今,罗琳已经可以和聋人朋友进行比较顺畅的沟通,但她依然通过多种渠道继续学习手语,并积极参与聋人社区的活动。“希望这些学习与交流,不仅能提升我的手语水平,也能让我深入聋人群体了解他们真正的需求,更好地利用前沿科技帮助到他们。”罗琳说。
手语数据集是手语识别与翻译研究的一座大山
可能在外行人看来,手语识别与翻译就是将手语的各种手势、姿态汇总,再与汉字序列一一对应,通过语法规则匹配来达到两种语言的转换,但事实上手语翻译远比想象的要复杂得多。
首先,手语手势与汉字词语并不是一一对应的关系,存在一势多义,如“今天“和“现在”是同一个手势。而有些手语手势在不同上下文中也会表达不同的意思。
手语表达还存在很强的空间性,手形的运动、位置、朝向都会影响到意思的表达。例如,手语中“借”是一个方向动词,在“他从我这借钱”和“我从他那借钱”的手语表达中,手形的朝向和运动方向表达了不同的主谓关系。
再例如,“起风了,树被吹的摇摇晃晃,砸到了车”,在这个句子中,车和树存在相对的位置关系,而且“风吹”与“树晃”是同时发生的,这就需要计算机在识别时,可以理解物品在空间中的位置关系和交互关系。
另外,手语不仅包括手部的动作,还涉及手语者的面部表情、口部动作以及身体动作等非手控信息。例如,“吃完了吗?”,这句话除了手部动作之外,还需要配有“疑问”的表情来表达这是疑问句。手语的这些特点都对计算机视觉技术提出了更高的要求。
建立一个日常覆盖面广、质量高的手语数据集对解决手语识别与翻译难题至关重要,这也是罗琳的主要任务。目前,市面上虽然有一些公开的学术数据集,但还没有一个统一的标准,且数据质量仍有提升的空间。同时,模型训练需要大规模的数据量,相比语音数据上百万的量级,手语数据量仅在几万级别,远远达不到模型的需求。
相比其他数据集的建立,手语数据的采集和标注也有着更高的难度。罗琳和同事们需要找到高水平的手语使用者,就像听人的普通话水平不同一样,手语使用者的水平和习惯也大相径庭,不同地区的手语表达也不尽相同。这就需要手语使用者拥有广泛的手语知识,熟知不同地区的多种手语打法,才能让数据集的词汇更丰富多样,手语识别准确率才会更高。同时,研究员自己也要懂手语,能够与手语使用者深入沟通,才能设置更好的采集任务,并在标注时兼顾计算机视觉与手语语言学的需求,提升数据集的质量。
“我们希望采集到的手语是聋人最日常的真实表达。这里有两个概念——手势汉语和中国手语,也就是人们常说的自然手语。手势汉语以汉语为基准,与汉语一一对应,如‘他坐在门口’,手势按顺序逐词对应,但这并不是聋人的日常表达;自然手语则是用最自然的手语语法来描述,同样的这句话,在视觉上‘门’与‘坐着的人’也是有位置关系的。我们希望引导手语老师打出最地道的手语词汇和句子。”罗琳说,“我们邀请到的手语老师就像一本手语大词典,每一位老师都拥有深厚的手语经验,无论南方手语还是北方手语,他们都能打出多种常用的手语表达,以此来扩充词汇量,让数据集更多样化。”
在手语识别与翻译研究项目中,微软亚洲研究院将手部动作、面部表情、口部动作等作为一个整体来进行识别,进一步提升了识别与翻译的准确率。目前,该项目在算法方面由微软亚洲研究院资深研究工程师魏芳芸带领,已在手语识别与翻译学术领域的多个子任务上处于领先地位。项目团队期待高质量的手语数据集在投入使用后,能更好地助力于相关研究的发展。
由于手语识别与翻译的研究尚处于早期阶段,并且是一个需要长期投入的领域。因此,在未来的一段时间,罗琳和同事们将继续推进手语识别与翻译的研究,帮助聋人与听人实现无障碍沟通的目标。
微软亚洲研究院手语识别与翻译项目介绍视频
语言就像一把钥匙,帮你打开一个新的世界
要让有声世界与无声世界交融,并不是一件容易的事。罗琳认为,建立信任,展现真诚与尊重是第一要素。“就像曼德拉那句话说的,当你使用手语与聋人交流时,他们会觉得你更亲近,也更愿意与你交流,你也就能走进更多聋人朋友的世界,了解他们的生活。语言就像一把钥匙,可以帮你打开一个新世界,只要你展现出真诚、尊重与理解,他们会非常包容你、欢迎你。”
此外,在与聋人朋友们进行交流时,还要留意作为听人的固有表达沟通习惯,可能只是听人世界的习惯,不要简单的想当然,以己度人。因为,听人常常会从自己的角度考虑如何给聋人群体提供帮助,而缺少了设身处地的思考。罗琳曾作为 mentor 参加了第一届微软 Engage 残障大学生培养计划。该计划通过向听障、视障、肢障、自闭症等残障大学生提供为期六周的线上培训和项目指导,来提高大家编程能力,同时也帮助同学们成为未来优秀的“职场人”。
在项目筹备期,为确保不同残障类别的学生能在课堂上有效获取信息,筹备组决定提前录制课程视频并加入字幕,再在线上课堂中进行实时播放。然而,罗琳在一次指导学生修改答辩视频时,电脑没有开启声音,仅播放了带有字幕的 PPT 展示视频,她发现当自己在看字幕时完全无暇去关注 PPT 的内容,更不用说判断字幕与 PPT 内容的对应关系了。这个经历让罗琳深深感受到站在聋人群体之外,听人的设想很多都是不实际的。“只有进入到无声世界中,你才能真正了解他们所面临的问题,同时,与聋人相关的项目,也必须要倾听聋人的声音。”罗琳说。
正如全球残障人士社区经常使用的口号“没有我们的参与,请不要做与我们有关的决定(Nothing about us without us)。”罗琳和团队在进行手语识别与翻译研究时,也始终坚持这一理念。在近期举行的2023年微软全球骇客松大会上,微软亚洲研究院的手语识别与翻译项目获得了国际团队的关注。罗琳也期望在微软亚洲研究院的支持下,能够与更多的团队和聋人朋友深入合作,加速推动有声世界与无声世界的无障碍交流、沟通。