首次超越人类：“读图会意”这件事，AI 比你眼睛更毒辣

文章目录[隐藏]

AI 比你更会看图
怎么做到的？
关于 VQA

在超越人类这件事上，AI 又拿下一分。

就在最近，国际权威机器视觉问答榜单 VQA Leaderboard，更新了一项数据：

AI 在“读图会意”任务中，准确率达到了 81.26%。

要知道，我们人类在这个任务中的基准线，也才 80.83%。

而解锁这一成就的，是来自阿里巴巴达摩院团队的 AliceMind-MMU。

而此举也就意味着，AI 于 2015 年、2018 年分别在视觉识别和文本理解超越人类之后，在多模态技术方面也取得了突破！

AI 比你更会看图

这个 AI 有多会看图？

来看下面几个例子就知道了。

当你问 AI：“这些玩具用来做什么的？”

它就会根据小熊穿的礼服，回答道：

婚礼。

给 AI 再提一个问题：“男人的橄榄球帽代表哪只球队？”

它会根据帽子中的“B”字母回答：

波士顿球队。

加大挑战难度再来一个。

“图中玩具人的 IP 出自哪部电影？”

这时候，AI 就会根据图中的玩具，还有战斗场景等信息，做一个推理。

不过最后还是精准的给出了答案：

星球大战。

再例如下面这些例子中，AI 都会捕捉图片中的细节信息，来精准回答提出的问题。

嗯，可以说是细致入微了。

怎么做到的？

可能上面的这些案例，对于人类来说并不是很困难。

但对于 AI 来说，可不是件容易的事情。

一个核心难点就是：

需要在单模态精准理解的基础上，整合多模态的信息进行联合推理认知，最终实现跨模态理解。

怎么破？

阿里达摩院的做法是，对 AI 视觉-文本推理体系进行了系统性的设计，融合了大量的创新算法。

具体来看，大致可以分为四个内容：

多样性的视觉特征表示：从各方面刻画图片的局部和全局语义信息，同时使用 Region，Grid，Patch 等视觉特征表示，可以更精准地进行单模态理解；
基于海量图文数据和多粒度视觉特征的多模态预训练：用于更好地进行多模态信息融合和语义映射，提出了 SemVLP、Grid-VLP、E2E-VLP 和 Fusion-VLP 等预训练模型。
自适应的跨模态语义融合和对齐技术：在多模态预训练模型中加入 Learning to Attend 机制，来进行跨模态信息地高效深度融合。
Mixture of Experts (MOE）技术：进行知识驱动的多技能 AI 集成。

据了解，模型中涉及技术还得到了专业的认可。

例如多模态预训练模型 E2E-VLP，已经被国际顶级会议 ACL2021 接受。

关于 VQA

VQA，可以说是 AI 领域难度最高的挑战之一。

而对于单一 AI 模型来说，VQA 考卷难度堪称“变态”。

在测试中，AI 需要根据给定图片及自然语言问题，生成正确的自然语言回答。

这意味着单个 AI 模型，需要融合复杂的计算机视觉及自然语言技术：

首先对所有图像信息进行扫描。
再结合对文本问题的理解，利用多模态技术学习图文的关联性、精准定位相关图像信息。
最后根据常识及推理回答问题。

但解决 VQA 的挑战，对研发通用人工智能具有重要意义。

因此，全球计算机视觉顶会 CVPR 从 2015 年起连续 6 年举办 VQA 挑战赛。

吸引了包括微软、Facebook、斯坦福大学、阿里巴巴、百度等众多顶尖机构参与。

同时，也形成了国际上规模最大、认可度最高的 VQA 数据集，其包含超 20 万张真实照片、110 万道考题。

据了解，今年 6 月，阿里达摩院在 VQA 2021 Challenge 的 55 支提交队伍中夺冠，成绩领先第二名约 1 个百分点、去年冠军 3.4 个百分点。

而仅仅在 2 个月后的今天，达摩院再次以 81.26% 的准确率创造 VQA Leaderboard 全球纪录。

达摩院对此评价道：

这一结果意味着，AI 在封闭数据集内的 VQA 表现已媲美人类。

首次超越人类：“读图会意”这件事，AI 比你眼睛更毒辣

AI 比你更会看图

怎么做到的？

关于 VQA

Published by

风君子

发表回复取消回复

AI 比你更会看图

怎么做到的？

关于 VQA

Published by

风君子

发表回复 取消回复

发表回复取消回复