深击|AI语音真假面：你的“声音DNA”可能会被复制

　　新浪科技：杨雪梅

　　如果有一种技术可以一秒复制或模仿你讲话，你会感到惊喜还是惊恐？

　　进入 2019 年，AI 技术的应用落地越来越多样化。科大讯飞、搜狗等技术公司相继发布了语音合成技术的应用。通过 AI 手段，用户可以一秒变声社会名人或者其他想模仿的声音。

　　互联网技术在悄无声息地改变我们的生活，对人工智能企业来说，语音识别技术的广泛应用已不是难事。但背后的伦理道德和安全隐患，或将成为伴随 AI 技术发展不容忽视的一个问题。

　　实时变声技术受 AI 公司热捧一秒可换声

　　“嗨，大家好，今天非常开心，来到科大讯飞新品发布会，一直好喜欢科大讯飞哦……”

　　这是发生在科大讯飞 2019 新品发布会上的一幕，科大讯飞董事长刘庆峰通过技术，现场模拟了单田芳、林志玲和罗永浩的声音来做开场白。尤其当罗永浩声音响起的时候，不少人以为老罗到了现场。

　　“你看到的是刘庆峰，但听到的是老罗的声音。”台上的刘庆峰表示，这是公司最新的实时变声技术。据悉，这项新的语音合成技术只需要 1 分钟的声音样本，就可以模仿任何人说话。

　　不止科大讯飞，也是在近期，搜狗 CEO 王小川在一场大会上展示了搜狗变声功能，通过手机软件，王小川模拟了高晓松和东北妹子的声音，引得现场连连发笑。他随后展示了歌曲中的声音替换，据介绍，系统先用 14 分钟对他的语音做了训练，然后把音色做迁移。

　　这是搜狗最新的语音合成技术，可以实现把任何人的声音转化成特定声音，秒变林志玲、马云的声音都可以。王小川表示，这不只是一个简单的语音合成，可以把语音语调情感做迁移。

　　目前，在搜狗输入法中，用户可以将自己的声音自由变换成喜欢的声音，在微信、QQ、陌陌等主要社交场景均可使用。搜狗提供了明星、卡通人物、游戏 IP、方言等几个类别供 19 种特定声音。

王小川

　　其实，语音合成早就不是新技术，之前，我们见到更多的是将文字转化为声音，比如在导航、转写、智能音箱、Siri 等智能语音助手等方面的应用，并不是真人在说话。

　　今年，很多 AI 公司发力语音合成在变声、语音 cos 等场景下的应用，将真人发出的声音转化成特定声音。

　　百度也有相关技术的落地应用，今年 5 月初，在中央电视台公益节目《等着我》中，百度大脑基于智能语音技术，合成了已故老兵的声音，帮助分别 64 年的老战友实现“重逢”。

　　据介绍，该技术使用百度端到端语音风格分离和建模方案，使用多组神经网络对语音的不同维度，例如音色、情感、风格等，进行独立的编码建模，从而指导最终合成。

　　这些 AI 技术落地应用的背后，一方面体现了 AI 技术应用的进展，和为社会带来的普惠价值理念。比如搜狗将语音变声技术、AI 合成主播技术等与行业结合，在媒体、教育、内容制作、旅游等场景结合，将会带来更大的价值想象空间。

　　另一方面，未来可能存在的技术漏洞、技术滥用等风险也不容忽视。有网友就指出“小心被用于电信诈骗”“以后可能会收到‘马云’的电话”……

　　一音频领域业内人士认为，对于音频作为交互方式的工具型产品应该是有用的，但对于音频作为内容载体的线上音频平台，正面意义有待观察。

　　因此，对企业来说，在不断寻求技术突破和商业价值的同时，也应该树立对技术安全的责任心。

　　语音合成技术在实操层面还有非常多的硬伤

　　据了解，逼真的语音合成技术，背后是神经网络和机器学习的支持。神经网络模拟电信号在人脑神经元之间的传递过程，对输入数据进行处理，它利用分层的神经元，从大量样本数据中总结出共同特征。

　　语音合成技术在商业化落地方面，可见的在诸如语音交互、有声读物、新媒体、智能客服、泛娱乐等领域被应用。

　　在接受新浪科技采访时，蜻蜓 FM 大教育品类负责人牛森表示，语音合成技术在音频领域会大大降低文字内容转向音频的人员、时间和经济成本。

　　在谈到语音 cos 时，牛森指出，这件事在实操层面有非常多的硬伤，比如合成后的音频与真实的人声在情绪和情感表达上肯定是做不到完全一致的。

　　他表示，对于音频用户来说，同样的内容，读稿和讲述的收听体验会有很大区别，只有最真实的人声才能引发深刻的情感共鸣，也是音频的价值所在。

　　而在道德和安全层面上，牛森认为，首先要从技术上对人声和合成音进行筛选确认，从权利上需要明确版权链条，任何未经授权的合成音频属于侵权违法行为，“作为平台方我们会进行严格的版权和品质把控”。

　　据了解，在一些音频平台上，语音合成技术主要用于儿童类节目，其他的内容上，AI 模拟效果没那么好，尚未被广泛应用。

　　对于语音合成存在的安全隐患，在发布了变声技术后，刘庆峰现场曾强调：人工智能要持续发展，最核心的是它的价值观如何阳光健康与人为善，所以像变声技术这样一个黑科技，我们显然是不会轻易在各种 App 中对外开放的，一定是要有一种健康、安全又有趣的方式来跟这个世界来对接。

　　此前，刘庆峰还提到，人工智能领域要技术合作，更要法律伦理的合作。

　　对于安全问题，搜狗公司向新浪科技表示，“技术是一柄双刃剑，可以用来造福也可能带来灾难，搜狗坚守科技向善。变声技术是当下人工智能的前沿应用，基于语音表征学习、迁移学习技术，可以将任何人的声音转换成特定人的声音(Any-to-One)。搜狗在这方面取得突破，率先进入实用阶段。这项技术还可以应用到影视配音，家人陪伴等场景中帮助人们提升工作效率和生活幸福感。”

　　搜狗透露，为了保证这项技术不被有心之人滥用，公司作了严格的管理和限制：

搜狗不向第三方输出变声技术，确保该技术的可控性和安全性。
变声功能的所有目标音色都由搜狗定义，不支持用户随意模仿。
变声后的声音在微信、QQ 等 App 中使用，不能转发复制，能够做到对发送者追踪溯源。

　　此前，王小川在媒体采访中也提到过人工智能立法：在当前人工智能发展的阶段，尽快根据技术发展不断调整和完善，是应对人工智能所带来的法律和伦理风险最为切实的手段。

　　不过，目前技术的发展仍然是走在伦理、法律的前面。周鸿祎曾在今年 5 月份的世界智能大会上提到过，在 AI 领域，如果没有人文的思考，可能设计出来的系统就是一个悲剧。

　　AI 技术背后的人文思考

　　其实，AI 技术背后的“以假乱真”现象不只出现在声音领域，近日三星的一项技术应用也引起人们的注意。

　　据外媒报道，三星位于莫斯科的人工智能实验室研究人员，基于大量动图和视频素材，以及“深度卷积神经网络”训练，通过 AI 技术准确识别某些面部特征，可以将静止图像变为动图甚至视频。

　　在实验中，研究人员以爱因斯坦、玛丽莲·梦露甚至蒙娜丽莎的静止图像为基础，分别生成了他们正在说话的视频，不过目前视频质量较低。

　　也就是说，未来随着 AI 图像生成技术的进步，可以仅仅通过一张照片就能生成虚假视频。

　　在此之前，AI 换脸也曾在社交媒体上引起热议。有人将 94 版《射雕英雄传》里朱茵扮演的黄蓉换上了杨幂的脸，网友直呼“毫无违和”“以假乱真”，甚至调侃“老剧新拍最省成本的方式”。

　　这原本是一则恶搞或者纯娱乐视频，但是，这一操作背后，却让不少人担忧技术会被滥用，如果没有使用在正确的地方，将涉及版权、肖像权、安全等问题。

　　而这类技术早在两年前国外技术圈就存在和流传，此前也有网友将主播的脸换成明星的。不过，受多种因素限制，这一技术真正落地应用还比较少见。

图片来源：网络

　　在美国，就已经有人利用人工智能将色情视频里的女主角换成女明星。这一技术正引发恐慌，遭到查封。

　　此外，在一些行业，这样的技术也将带来新的思考。比如一些音频会被篡改，引发社会问题；在未来的影视剧中，可能出现明星替身 AI 换脸、AI 合成的配音等现场。虽然这些技术，一定程度上节约了影视剧制作成本，加快影视剧制作的进程，但在道德和人文层面释放的价值观还需要商榷。

　　而不管是 AI 变声，还是 AI 换脸，高科技迅速发展的同时，也给法律规则带来新的挑战。

　　值得注意的是，在 4 月全国人大常委会审议的《民法典人格权编(草案)》里，正式加了一条：任何组织和个人不得以利用信息技术手段伪造的方式侵害他人的肖像权。

　　也就是说，一个好的信号是，未来 AI 换脸、甚至语音合成技术的应用或将受到法律管制。

　　目前，AI 技术的落地应用，正在不断打通虚拟世界和现实世界的界限，我们需要思考的是，如果未来这些技术越来越强大和普及，明辨真假将会变得越来越困难，技术发展的同时又该如何把控安全隐患问题？

深击|AI语音真假面：你的“声音DNA”可能会被复制

Published by

风君子

发表回复取消回复

Published by

风君子

发表回复 取消回复

发表回复取消回复