从图像、视频到语音,DeepFake正在建构一个虚假的世界。
我们看到,在马斯克的这段演讲视频中,Deepfake的换脸技术几乎达到了人眼无法区别的地步。
不过,随着技术的不断成熟,Deepfake却带来隐藏的“虚假”风险。自从2017年,一位网友将美国女星和成人电影女主做了人脸交换,伪造了一段色情视频后,有关滥用Deepfake制造虚假、不良内容的视频一直充斥于网络。
为了应对Deepfake换脸技术带来的种种风险,2019 年,Facebook 斥巨资发起“Deepfake 检测挑战赛”,这项挑战赛一直延续到现在,其识别准确率已经达到了82.56%。
不过,令人担忧的是,有人又将虚假的矛头指向了Deepfake语音。有报道称,一家英国能源公司被敲诈了24万美元,其背后正是利用的音频版Deepfake技术。
攻击者假冒公司CEO制造了一段虚假语音,以电子邮件的方式发给公司下属员工,要求其向指定账户完成汇款。员工介绍称,假冒音频中的音调、口吻和口音都与公司CEO颇为相似,对他产生了误导乖乖转了账。其实,诸如此类的诈骗案件已经发生了不止一起。
对此,安全咨询公司Nisos在分析过伪造音频后发出警告,Deepfake语音诈骗正在兴起,必须提高警惕。
Deepfake语音克隆曝光
最近一家科技公司也收到了一份自称公司CEO的语音邮件,要求“立即提供协助以完成紧急商业交易”。不过,这次员工发现了语音中的异常,诈骗活动没有取得成功。
https://www.vice.com/en_us/article/pkyqvb/deepfake-audio-impersonating-ceo-fraud-attempt点击链接收听Deepfake伪造音频
可以听出这段语音的质量并不是很好,有点机械、不连贯,但员工介绍口音和音调还是基本相似的。
Deepfake语音克隆的质量,主要取决于假冒对象的录音,数量越多、质量越高,伪造的逼真度也就越高。对于公司高管而言,他们在电话会议,YouTube,社交媒体或者TED演讲中的录音很容易获得,也由此成为了诈骗团伙的伪造对象。
随后,该公司将这段伪造的音频交给了一家安全咨询公司Nisos。Nisos使用一款名为Spectrum3d的音频频谱图工具,分析了Deepfake的伪造音频。
可以看到频谱图中的音调几乎一直处于峰值状态,这与我们日常讲话的高低音转换显然有很大差异,另外,研究人员称,他们在音频中没有发现任何噪音的痕迹,显然说明音频是通过计算机软件合成的。
与正常人声的频谱图对比来看,结果更是一目了然。音高频率,幅度更加自然,同时也能够检测数微弱的背景噪音。
由于未获取足够的样本,诈骗团伙采用的是何种Deepfake软件合成技术还不得而知。不过,攻击者为制造高逼真的欺诈音频,需要满足以下几个条件:
捕获几乎没有背景噪音的高质量音频。
在无法通话的场景下,分阶段发送音频进行沟通
以留言的方式进行,避免面对面的交谈
如何甄别语音欺诈
虽然这次Deepfake伪造音频存在明显瑕疵,但只要获取高质量的语音样本,其伪造程度还是能够以假乱真。
另外,Nisos公司表示,音频的深度伪造不仅与人的语气有关,还与特定的言语举止有关。但是这一目标已经能够实现,比如攻击者会采用会采用类似于Yandex反向图像搜索的语音工具,通过大量样本的建构和训练,将源语音转换为目标语音的模型。
目前音频欺诈案件已经陆续出现,随着Deepfake软件的使用更加容易,音频合成处理的质量越来越高,此类欺诈案件也会愈加普遍。
不过,Nisos公司强调由于技术的局限性,此类欺诈事件还是很容易识破的。比如通过电话沟通确认。
Deepfake技术无法实现连贯的语音通话,因此攻击者通常采用语音邮件的形式与对方沟通。另外,也可以通过询问一些只有内部了解到的知识来确认对方的身份。此外,攻击者会盗用公司高级管理人员的邮箱账号来与下属员工进行沟通,因此,加强邮箱安全防护也是非常必要的。
此外,除了经济诈骗外,攻击者还可能通过引导员工登录不安全网站等行为,对公司的网络或物理资产造成破坏。