贾浩楠发自凹非寺
量子位报道公众号 QbitAI
阿里 AI 最近拿到了一个“世界第一”:计算机视觉领域顶会 ECCV 2020 VIPriors 挑战赛分类赛道冠军。
仅用 50 张图片训练,然后识别特定类别的物体,阿里安全团队的算法击败了所有参赛对手。
阿里的高效分类 AI 模型,可以解决戴口罩的人脸识别问题;还可以打假,识别零售市场的高仿山寨货。
训练数据 50 张图,堪称最难分类算法挑战
ECCV 2020 VIPriors 挑战赛最困难的一点,是 1000 个数据类别中,每个类别仅有 50 张图片作为训练数据。
参赛者的模型,必须能在这种训练数据极少的情况下,实现对于目标高精度识别分类。
这样的难度,对于传统的 AI 模型来讲,几乎是不可能的任务。因为它们普遍需要海量带标签训练数据作为基石,才能保证 AI 模型的效果。
但是数据的收集和标注需要昂贵的人力成本,需要从不同的角度、光照条件和位置拍摄、收集几千甚至上万张图片并进行标注。
根据招聘平台信息,北京地区,数据标注师的月薪普遍在 5000-8000,有数据采集技能的标注师月薪往往超过 10000。而数据标注师的培训讲解岗,工资则超过 2 万。
ECCV 2020 VIPriors 挑战赛的初衷,就是鼓励探索能够高效学习的 AI 神经网络,降低神经网络训练过程中的人力标注成本和计算资源消耗,使用极少的训练数据,一块 GPU 也可以完成。
在分类赛道上,比赛数据基于 ImageNet 抽取,1000 个类别,每个类别仅使用 50 张图像,训练集共 5w 张图片,规模仅为 Imagenet 的1/26。
比赛规定模型只能 train from scratch,不能使用额外的训练数据,不能使用预训练模型,不能使用迁移学习,排名以测试集上的 Top-1 Accuracy 为准。
戴口罩识别 +AI 零售打假
在比赛中,面对 50 张训练图片的苛刻要求,阿里安全图灵实验室的智能算法团队从三个技术方向进行了突破:
利用随机抽取的两张训练图像,使用数据增强并进行拼接,最大程度丰富训练样本资源;
设计独特的神经网络结构,加入显著性特征模块挖掘样本的特点,提升分类性能;
利用分层语义结构,让 AI 模型更好地挖掘数据,实现更好的学习效果。
这三点创新方法,同时与自监督有效结合,在学习更好的数据表征基础上,指导模型高效学习,获得更好的识别能力。
获得了冠军,这项高效 AI 方案有什么实际应用呢?
阿里安全图灵实验室资深算法专家薛晖介绍,疫情期间,突发口罩佩戴问题使得大量人脸门禁失效,很多小区需要摘下口罩刷脸,带来不必要的健康风险。
而高效 AI 分类技术的应用大大降低了模型初始化的数据需求量,帮助快速训练好模型,解决了戴口罩的人脸识别问题。
此外,这项 AI 技术还能用于打假,识别山寨仿冒商品,并且已经投入使用。
对于零售场景,无论是线上还是线下,对于刚刚上新的某种产品,往往是样本数量较少,预训练任务和目标任务存在差异,预训练模型可能损害目标任务的准确率。而高效 AI 方案恰恰能够解决上述问题。
以某知名品牌运动鞋上新为例,一段时间内仅能获得该产品不同的配色以及商品几个不同角度的图片。
在仅有少量商品展示图的情况下,通过高效 AI 方案,在新产品问世的极短时间内就能实现新款商品识别能力的覆盖,降低新产品被山寨和假冒的风险
对于在网上购物的你我来说,这项技术使消费者大大降低了碰到真假难辨的高仿货几率。
不用消费者自己动手部署算法去识别商品,阿里安全的高效 AI 方案在平台端部署,在商品陈列阶段就尽量保证真品,避免出现鱼龙混杂的情况。
除了零售打假,在其他识别类别多、每个类别样本数量很少的场景,比如知识产权商标识别、通用商品识别和动植物保护等等,阿里的高效 AI 方案都有用武之地。
目前高效 AI 方案对内已应用到了阿里多个业务场景,如淘宝视频、淘宝直播、优酷等平台的知识产权保护,为数字基建的安全建设提供样本参考,对外则通过绿网直接服务大中小企业。
阿里安全图灵实验室
阿里安全图灵实验室是阿里巴巴从事安全领域机器学习研发的顶级团队,专注于 CV、NLP 及 ML 领域,团队所研发的 AI 技术被广泛用于阿里巴巴经济体的全球业务网络安全、数据安全、知识产权、新零售安全以及风控反作弊等业务场景。
今年分类赛道共有来自全球的 56 位选手参与,最终,阿阿里安全的高效 AI 分类技术超越三星、同济大学等国内外多支队伍的同类技术,勇夺冠军。
“A visual inductive priors framework for data-efficient image classification”也已经被 ECCV 2020 Workshop VIPriors 接收。
— 完 —