12 月 14 日消息,据新一代人工智能联盟官方消息,近日,AVS3P10 实时语音编码标准获得重要进展。
2023 年 12 月 14 日,第 87 次 AVS 工作组会议于成都开幕。会上,《智能媒体编码 第 10 部分 实时语音》(以下简称 AVS3P10) WD 1.0 通过全体会议审议;腾讯提交的技术方案,被选择为 AVS3P10 实时语音编码的 RM0 基线。
实时语音通信技术(注:RTC,Real-time Communication),已广泛应用于协同办公、互动娱乐、社交等领域。上述多样丰富的应用场景给实时语音通信技术提出了多种技术挑战,其中,高质量、低延时、低带宽、高抗性的语音编码是非常重要的一环。
传统的语音编码器,包括 AVS、ITU-T 等标准语音编码器,在 16-20kbps 左右码率时,能够恢复出高质量宽带语音;在 30-35kbps,可以恢复出高质量超宽带甚至全带语音。然而,当码率进一步降低(如:降到 10kbps 以下时),传统语音编码器恢复的质量下降明显,影响用户体验。
基于上述应用诉求,在今年 3 月第 84 次 AVS 会议上,由腾讯提议在 AVS 音频组启动面向实时语音通信场景的低码率高质量语音统项目。经过需求分析,在第 85 次 AVS 会议上,AVS 正式立项 AV3P10 实时语音编码项目,并通过 AVS 音频组发出技术征集书。AVS3P10 实时语音编码项目将由来自腾讯会议天籁实验室的肖玮负责推进和维护。
在第 86 次 AVS 会议上,音频组审议了由腾讯会议天籁实验室提交的 M7886《AVS3P10 语音编码参考模型候选技术方案》提案。
审议指出该方案具有以下 4 点特征:
-
深度融合了经典信号处理和深度神经网络技术等人工智能技术,属于 AI Codec;
-
支持低码率、高质量编码、实时编码和解码和多速率编码;
-
基于子带编码和多模式编码架构,低频信号采用深度神经网络提取特征,高频信号采用频带扩展方案提取特征,结合标量量化和熵编码完成特征压缩;
-
具有开放的编码神经网络架构技术特征,在保证码流前向兼容基础上,可以重新修改和优化编码神经网络。
今年 11 月 1 日,腾讯会议天籁实验室提交 AVS3P10 RM0 候选方案的可执行文件,由中国电子技术标准化研究院和华为分别进行了主观测试和交叉验证。交叉验证力求全面,基于 ITU-T P.800 DCR 主观质量评价体系,主观测试覆盖不同带宽下纯净语音、丢包语音、混合语音等多场景,并首次将 3A 处理后的测试场景引入信源编码器测试中,以检验新一代 AI Codec 技术在贴近真实场景的表现。
在上述测试场景下,AVS3P10 RM0 质量优势明显。主观测试结果表明,AVS3P10 RM0 在宽带和超宽带等多个主要测试场景均达到了 4.0 以上 MOS 分,体现出明显优势,最低码率可达 5.9kbps。AVS3P10 RM0 采纳了深度神经网络技术,自带的丢包损伤能力,有效提升了编码器在网络不佳时的质量。
此外,在 ITU-T P.863 客观质量评价实验中,AVS3P10 RM0 也体现出了显著优势。第一,在所有 8 个测试码率中,AVS3P10 RM0 均超过 4.0MOS,最高在 4.45MOS。AVS3P10 RM0 的质量,可以对齐 OPUS 和 EVS 等传统信号处理编码器在中高码率的表现,达到运营级质量。在 AI Codec 领域,AVS3P10 RM0 在相近码率下,质量优势在 0.6MOS 以上。上述测试结论均反映出,AVS3P10 RM0 代表了目前 AI Codec 的最高水平。
新一代人工智能联盟表示,AVS3P10 实时语音编码,作为新一代的语音编解码技术标准,是对 AVS 系列标准的重要补充。
未来,AVS3P10 实时语音编码项目,将按照既定计划推进,预计在 2024 年中完成标准化工作。