大家不妨思考一下,人类快速推进图像识别技术的发展是为了什么?
有人说是为了高效实现信息传递和检索。原因是:每天你要通过智能手机(或其它终端)阅读非常多的图像(或图片)信息(包含视频截屏留存的图像),你是否已经感觉到图像的重要性在于:你是不是可以不受所处时空和地域语言的限制,大致通过图像读懂对方要表达的意思(例如,你的朋友是用微信等通讯工具在发图像(或图片))?是不是图像可以逐渐取代繁琐而微妙的文字,成为传词达意的主要媒介?
图1. 图像信息传递
上述你可能经历的过程表明了:相比于文字,图像能够为我们提供更加生动、更易理解、更有说服力及更具艺术感的信息;但你是否能联想到:当通过机器传递文字或数字时,能通过搜索关键字轻易找到所需内容并进行分析和处理;而当传递图像时,却无法对海量图像内容进行检索,这将影响我们搜索图像信息的效率(或者说根本搜索不到)。
图2. 图像信息检索
综上所述,图像传递给我们带来了一种快捷的信息记录和分享模式,但是图像的检索过程往往是困难的;因此,图像识别技术应运而生;并随着计算机应用、信号与信息处理、通信系统与网络、生物医学工程、人工智能(AI)系统算法及算力等领域前沿技术的演进而快速发展。
但是,如果说图像识别技术的快速发展仅是为了高效实现信息传递和检索就以偏概全了,尽管这也是其中一个极其重要的原因或缘由。
在没有计算机芯片或者数字信号处理芯片之前,人类(或其它生物)实现图像识别的过程是依赖于肉眼;只要识别的对象是客观存在的,并且折射或反射了相应可见光波段的电磁波进入了肉眼,就可以识别所关注的对象,这一过程在具有肉眼的生命体中发生得如此自然。
图3. 主观图像识别(肉眼完成)
可是,如果这一过程由机器来实现,要求准确率高且能弥补肉眼的可视范围,最重要的是还要机器得出结论:机器看到的是什么,最好准确地告诉人类,这个过程就比较难。
所以,图像识别的目的还不仅仅是为了进行信息传递和检索,我们还希望教会机器在“看”到客观对象并支持检索后,还能依赖快速程序抽象形成可用模型,并借助有一定算力的有效算法告诉机器:“有着翅膀、小头、有两个爪子,常在空中飞的东西,一般就是鸟类动物”。
图4. 数据库支持的机器训练过程
但是鸟类动物很多,单种鸟类的形态或姿态也有成百上千种,怎么细分呢?于是再教会机器使用我们建立的一个庞大数据库,并训练机器不仅仅是能检索到鸟类,还能区别是哪种鸟类(当然,还有机器学习的过程,此处因为篇幅原因,不赘述,今后有专题讨论)。
人类正在花比教一个小孩大成百上千倍的精力教会机器实现图像识别的过程,尽管还没有形成最完美的结果,但是以前从“客观到主观”的图像识别过程,如果很大一部分变成由机器完成的“客观到客观”的过程,并且形成的结论可以直接告知人类形成参考建议;那么,上述过程无疑是伟大的,因为机器不会疲劳,更不会有情绪地指鹿为马。