腾讯《一线》作者韩依民
世界卫生组织估计目前全球有 4.66 亿人患耳聋或听力障碍,这个群体有多大?来自印度孟买的谷歌 AI Research Group 的产品经理 Sagar Salva 这样形容:如果把这个数字当成是一个国家的人口的话,这个“国家”就是世界人口第三大国了。
今年 2 月底,谷歌宣布推出 Live Transcribe,一款旨在帮助听力障碍人士沟通并且免费的字幕自动生成安卓服务,Sagar Salva 正是负责这一产品的产品经理。在近期的一次媒体沟通中,Sagar Salva 向腾讯《一线》介绍了研发并推出 Live Transcribe 服务背后的思考。
根据谷歌方面提供的信息,Live Transcribe 目前支持 70 多种语言,覆盖了世界上 80% 的人群;它以接近实时的速度转录一对一的对话,延迟低于 200 毫秒;这一服务能够很好地结合上下文,对于发音相似或相同的字词进行合理选择,避免产生误解;针对一些家庭同时讲两种语言的情况,Live Transcribe App 里设置了在两种语言间进行快速切换的按键。Live Transcribe 现已在 Play 商店中分阶段推出,且所有 Pixel 3 设备均预装此功能的最新版本。用户可以通过 “无障碍设置” 启用 Live Transcribe。
Sagar Salva 介绍,工程师们为 Live Transcribe 设计了两种不同类型的神经网络支持着该服务的正常运转。第一种是在设备上运行的神经网络,它主要做声音分类的工作,例如区分婴儿的哭声或玻璃破碎的声音,它会把这些声音在整个实时转录过程中,快速地进行分类和辨析。第二个神经网络模型在云端运行,这一规模更大的神经网络模型主要完成语音转录成文字的工作。
选择这样的技术架构搭建服务,主要出于让更多人能够接触到这一服务的目的。Sagar Salva 认为,云端神经网络的支持使得这款产品即使在比较低配的手机上也能运行,某种程度上可以更好地扩大这款 APP 覆盖人群的范围。
“这也就意味着我们的 Live Transcribe 实时转录的这个 App,可以在全球 20 万余台安卓设备上运行。”
技术细节上,具体而言,云端模型分为三个部分,第一个部分是声音模型,也成为声学模型,主要是辨别一个单词中的不同音节;第二个模型是发音的模型,把第一个模型辨别出来的音节组成实际的单词;第三个模型是语言模型,即根据识别出的单词增加适当的标点符号和停顿,这类语言方面的一些意义。
云端模型三个部分示意图
设备端的模型为声音分类的识别模型。Sagar Salva 介绍,其所在的小组两年前把 YouTube 上大量语音的数据做了开源,也就是在社区中的任何一位开发员,都可以针对这些音频的文件,做自己的开发。
开发 Live Transcribe 的过程中,Sagar Salva 和他的同事们主要面临三个挑战:一是什么终端是最适合搭载这一服务的;二是实时显示的字幕是否要显示转录的置信度(即转录出的语言的准确度);三是如何处理环境噪音的问题。
针对第一个问题,综合考虑多种因素,智能手机成为最终选择,在 Sagar Salva 看来,“考虑到目前全球已经有 20 亿人在使用安卓的手机,我们认为做这样的一种硬件平台的选择,其实对于全球而言都是可以说价格成本最低廉的一种选择了。”
从体验效果来看,由于认为显示置信度信息会干扰用户,最终 Live Transcribe 选择不体现置信度。
对于环境噪音的问题,事实上,语音识别一直面临着一个名为“鸡尾酒会”的问题,即当谈话对象很多、环境声音嘈杂时,如何辨识我的谈话对象。针对这一问题,Sagar Salva 及其团队利用机器学习开发了一款语音识别技术,最终的实现效果是在 Live Transcribe 呈现一个实心圆点,圆点的不同状态可以提示听障人士其当下所处环境的噪音大小,可提示其选择转移到更加安静的地方进行谈话。
值得注意的是,谷歌有一个著名的 20% 规则:鼓励员工利用 20% 的时间用于创新。在 Sagar Salva 看来,Live Transcribe 的诞生正是得益于这一规则。
Sagar Salva 向腾讯《一线》透露,Live Transcribe 第一个原型产品就是属于 20% 创新项目的,但是开始不久他们立刻意识到,这其实是一个非常切实的项目。
“因为在谷歌我们也有一些聋人的员工,当他们拿到这个产品的时候,他们几乎每天无时无地不在使用,所以最终我们其实是把它作为了一个实际的项目。也就是说在这个项目作为创新项目启动之后一个月,我们就实际上把这个项目固定下来了,建立了相应的产品开发团队。其实确实这种 20% 的项目,能够让谷歌内部快速把一些大胆的创新的点子快速做出原型产品,甚至做出非常有创新意义的产品。”