【新智元导读】日前,微软语音识别技术 27 年老将、微软首位华人技术院士黄学东担任微软全球人工智能首席技术官,他将领导新统一的 AI 认知服务工程和研究团队,全面负责微软 Azure 云人工智能的工作。
日前,微软语音识别技术 27 年老将、微软首位华人技术院士黄学东担任微软全球人工智能首席技术官,全面负责微软 Azure 云人工智能的工作,包括语音、机器翻译、计算机视觉、自然语言和人工智能认知服务。
根据最新任命,黄学东(技术 Fellow,现为 AI 认知服务首席技术官)将领导新统一的 AI 认知服务工程和研究团队。黄学东最近领导了认知组织的语音和语言团队,是 AI 领域全球顶尖专家之一。认知组织中的语音和语言以及计算机视觉团队将移至 AI 平台并向黄学东汇报,而 AI 平台组织中现有的 Form Recognizer,Personalizer 和其他认知服务工程团队也将向黄学东汇报。
首先我们要祝贺黄学东博士,我们期待微软 AI 在黄学东博士的带领下再创佳绩!接下来先为大家介绍一下黄学东博士。
一、微软语音技术创始人,微软首位华人技术院士
微软素有 AI 领域“黄埔军校”的美誉,而微软全球技术院士代表着技术人员的最高荣誉,到现在,全球也仅有 20 多人获得这项殊荣,其中就包括黄学东,微软首位华人技术院士、微软首席语音科学家。
1978 年,15 岁的黄学东进入湖南大学师资班(后来的电子工程系),成为当时校园里年龄最小的学生之一。他先后获得湖南大学学士学位、清华大学硕士学位和英国爱丁堡大学博士学位。
1993 年,他作为高级研究员加入了微软研究所并负责组建 Microsoft’s 语音识别技术研究团队。2000 年到 2004 年,他作为 Microsoft’s语音识别技术研究团队的总经理,负责微软语音技术和产品的研究、开发和市场拓展。
作为微软的首席语音科学家,黄学东率领团队实现了 AI 超越人类水平的历史性里程碑:
2016 年 10 月 18 日,由黄学东带领的微软语音团队在产业标准 Switchboard 语音识别基准测试中,实现了对话语音识别词错率(word error rate, 简称 WER)低至 5.9% 的突破,首次达成与专业速记员持平而优于绝大多数人的表现。“这是人工智能领域突破性进展之一,意味着有史以来第一次有计算机能像人类一样,识别对话中的每一个单词。”黄学东说。
2017 年,在对话语音转写任务中,微软语音识别系统的词错率降到 5.1%,准确率超过专业速记员。“可能表面上这个进展不大,但是在‘最后一英里’上,每 0.1 个百分点的进步都很艰难,必须保证系统没有任何 bug。何况从相对错误率降幅角度, 5.9 到 5.1 是一个超过 10% 的相对进步。”
2018 年,在汉英新闻机器翻译任务中,微软机器翻译系统达到了可与人工翻译媲美的水平。
2019 年,在斯坦福对话式问答任务中,微软机器阅读理解系统刷新记录,成为目前排行榜上唯一一个模型分数超过人类分数的团队。
二、对话微软黄学东:语音和语言技术是真正镶在 AI 皇冠上的明珠
“只有掌握了核心的语音和语言技术,人工智能才有希望,否则其它都是在‘忽悠’。”黄学东认为,在人工智能发展的过程中,语音和语言是皇冠上的明珠。
去年,黄学东做客微软播客节目,聊了聊他和团队在语音和语言技术取得的几个里程碑式的突破。(详见:对话微软黄学东:语音和语言技术是真正镶在 AI 皇冠上的明珠)
黄学东解释了掌握语音识别、翻译和对话将如何让机器从 “感知 AI” 进化到 “认知 AI”,更接近真正的人类智能。此外,黄学东也谈到他如何走上语音研究之路,以及他在清华大学和在微软的人生历程。
主持人:您是微软语音和语言组的 Technical Fellow,负责领导微软的语音工作。我们将在稍后深入讨论这些,但首先,作为公司的首席语音科学家,请概括地告诉我们你的工作内容是什么,以及为什么要做这些。你早上起来的动力是什么?
黄学东:我们所做的就是确保我们拥有最好的语音和语言技术,可以用于各种各样的场景。我们有一整个团队在做这件事情,因为对话不仅是人们最自然的交流方式,而且这是 AI 最大的挑战。我们尝试真正地推动这个领域的突破,在我们的云服务 Azure Services 上提供出色的服务,并确保我们能够让微软内部和微软之外的客户满意。如果你想厘清整个事情,主要有三个方面。
首先,我们有能力去真正提高语音识别的准确性,去驱动语音合成的自然性,以及确保机器翻译的准确性,例如从英语翻译成汉语或法语或德语。因此,这背后有很多科学,要确保准确性,自然度,延迟时间,这些技术都是世界级的。这是一方面。
第二方面是,我们不仅提供技术,我们还通过 Azure 提供服务。从 Office 到 Windows, Cortana,它们都依赖于相同的云服务。我们也有边缘设备,比如我们的语音设备 SDK。我们想要确保在边缘和云端的语音技术都是以现代的方式提供的,即云平台和嵌入式平台。这是第二方面:平台是现代化的。
第三个方面,是向客户表达我们的爱。因为我们在世界各地都有广泛的客户,我们想让消费者满意,并确保使用我们的语音翻译的客户体验是一流的。
这就是我实际上在做的三件关键事情:提升 AI 能力,使我们在云端和边缘设备的平台实现现代化,以及爱我们的客户。
三、在人类进化的长河中语音和语言起了决定性的作用,在 AI 的进化中也会如此
在 2018 年新智元产业·跃迁技术峰会上,黄学东分享了微软在语音、自然语言和机器翻译研究中不断“开挂”的历程和技术细节。黄学东说,人类进化的长河中语音和语言起了决定性的作用,在人工智能的进化当中语音和语言会起到同样的作用。
黄学东谈到:达尔文的进化论已经说明,最新的科学验证也再次证明,我们人和大猩猩 DNA 的相似度接近 99%,就那1% 的区别造就了我们是这个地球的主宰。为什么呢?因为我们更聪明吗?还是漫长的进化过程当中有什么其他因素?计算机视觉非常重要,但动物的视力其实比人还厉害,晚上的夜猫子看得比人更厉害,但我们仍然是这个地球的主宰,最重要的原因之一是我们的语音和语言。(详见:AI 翻译能够取代人类?微软黄学东:我们仍在感知智能和认知智能的过渡期)