欢迎关注“创事记”微信订阅号:sinachuangshiji
文/新智元,编辑/大明、金磊
来源/techxplore、arXiv
【新智元导读】目前,图像压缩算法已然进入较为成熟阶段。最近,来自斯坦福的工程师及其团队三位高中生实习生共同完成的工作表明,在图像压缩方面,人类还是比算法强。
人类还是要比算法强!
我们可能经常会遇到类似这样的一个场景:
你的朋友打算领养一只狗,他给你发了一张照片,但是由于各种数据的限制,你只能看到一张比较模糊的照片。于是你的朋友又给你发了一个链接,点击链接后,你就可以看到比较清晰的照片了。
像这样发送链接,而不是上传大量图像,只是人们传递信息的一种技巧。而根据斯坦福工程师和高中生的研究,这样的技巧可能会激发一种全新的图像压缩思路。
研究人员要求人们将传统压缩算法生成的图像与人类在数据受限条件下生成的图像进行比较。
结果表明,人类所做的工作要比算法处理的图像好的多!
正如论文作者 Irena Fischer-Hwang 说:
算法还有很长的路要走,可以从人类共享信息的方式中学到很多东西。
该项目是由电气工程教授 Tsachy Weissman 以及三名在他实验室实习的高中生合作完成。
论文地址:https://arxiv.org/pdf/1810.11137.pdf
人类是如何在图像压缩上打败算法的?
自电子媒体问世以来,图像压缩技术得到了广泛研究,出现多种图像格式和压缩技术,如 PNG、JPEG、JPEG2000、JPEG XR、BPG 和 WebP 等。为了显著缩小图像尺寸,大多数压缩技术在压缩图像时允许一些损失。
然而,所使用的损失函数不对应于人类感知,而且所得到的图像在高损耗水平下可能会显得模糊和不自然。如下图左侧所示,使用 WebP 进行压缩和图像重建会导致图像严重模糊。
使用针对人类感知优化的损失函数可以实现更好的压缩结果,这似乎是自然而然的想法。我们将这种损失函数称为“以人为中心”的损失函数。图 1 的右侧所示为“以人为中心”的图像重建实例,优先考虑图像内容,而不是逐个像素上保留原图像的纹理。实际上,目前计算机视觉领域已有大量工作,更好地理解人类的感知,形成一种基于人类视觉的损失函数。比如,人类视觉更容易受到强度差异而不是颜色的影响,压缩算法在强度空间的量化上要比颜色空间更细致,以此实现更好的压缩性能。
图1 长颈鹿图像原图(a)以及 WebP 重建(b)和类似大小的真人重建(c)
尽管如此,目前仍然缺乏一个准确总结人类感知损失的指标。为了评估以人为中心的损失函数的重要性,我们提出了由人类进行的图像压缩实验的结果。在实验中,两个人通过文本聊天系统进行通信,其中一个人是“描述者”,负责通过文本指令将图像描述给“重建者”。为了模仿人类基于记忆、位置、对象的知识来感知和识别场景的能力,本实验允许描述者在文本聊天中以 URL 链接来引用来自网络上的公开可用的图像。
描述者还可以向重建者发送文本指令,以便帮助后者更好地接近描述者的图像原貌。利用规模不断扩大的公共图像数据库,本实验旨在了解单边信息环境中以人为中心的压缩方式的局限性。
为了确定重建的质量,我们使用亚马逊 MTurk 平台征求对重建图像的意见。实验中使用的框架中文本聊天的压缩大小表示压缩图像的大小,MTurk 分数可视作与人类压缩相关联的“损失”。在 13 种不同类型的高分辨率图像上呈现真人压缩的结果表明,“真人”压缩方案在 13 个图像中的 10 个比 WebP 自动压缩器表现出了更高的性能。
数据收集
实验首先创建一个原始图像的数据集,这些图像并未在网络上公开。原始图像的创建以非原始图片的精确副本实现,以防产生过于琐碎的编码。实验使用数码相机或智能手机摄像头以高分辨率拍摄原始图像。实验中的描述者和重建者都不知道获取了何种图像(面部,风景,草图等)。从这些图像中为比较实验选择了 13 种不同的高分辨率图像。
关于图像和其他详细信息
见论文附录和 https://compression.stanford.edu/human-compression
实验设置
简单介绍一下评估真人压缩和 WebP 图像重建质量的实验程序:
1. 真人压缩:输入图像首先由真人压缩系统使用前文描述的过程进行压缩和重建。记录压缩文本指令的大小(以字节为单位)。
2. WebP 压缩:WebP 压缩器用于将输入图像有损压缩到与压缩后的真人文本指令类似的大小。
3. 质量评估:在 MTurk 平台上使用人类评分员比较 WebP 和真人压缩图像的质量。
WebP 压缩
WebP 是谷歌发布的相对较新的图像压缩器。我们选择 WebP 作为参考来比较真人压缩的图像重建质量,WebP 在实验实现方案的高压缩水平下的性能优于 JPEG 和 JPEG2000。如下图所示。
即使使用 WebP 以最低允许质量级(质量参数设置为0)压缩图像,产生的压缩文件大小也大于真人压缩的文件。因此,我们首先在使用质量参数为 0 的 WebP 压缩之前降低图像的分辨率以获得符合目标大小的图像,结果 WebP 端一直出错,产生的文件比真人压缩一方的文件要大。
原始图像与 WebP 和真人压缩后的图像大小,以及 MTurk 平均分,较高分以粗体表示
在结果评估方面,使用 Amazon Mechanical Turk(MTurk)上的人类评分员来比较压缩图像的质量。对于每个图像都显示原始图像和重建后的图像,并要求评分人员按 1 到 10 的分数对重建图像进行评分。由于人类感知尚未被很好地理解或定义,我们的评分指标为图像重建的“满意度”,而不是像“精确度”这种特定指标。对于每个实验和两种类型的重建(真人压缩和 WebP),收集 100 个调查回复并汇总统计。
下图所示为评分人员所见的 MTurk 调查的屏幕截图。
人类压缩方案能够在压缩过程中有效地利用语义相似的图像。然而,大多数流行的压缩器似乎没有利用这种丰富的公共资源。
本文的实验表明,有效地利用语义和结构相似的图像(或图像的部分)可以显著提高压缩比。这在当今尤其重要。
虽然真人压缩框架可用作探索性工具,但由于其劳动密集型的性质,在实用性上显得不足。 我们没有以任何方式对压缩协议进行优化,如果我们优化了协议,无疑可以获得更好的压缩和重建分数。
值得注意的是,每次图像重建都需要几个小时才能完成。英语冗余会导致结果达不到最优,不过使用 bzip2 可以部分解决这个问题。此外,绘图技巧、对基本图像编辑软件的使用技巧、重建者偶尔发出会导致误解的描述性指令而导致的效率低下,对相似图像进行手动搜索的困难,这些因素都会对结果产生影响。这些缺陷或不足的任何改进,都可以进一步改善图像的重建质量。