正如您所料,计算机视觉主要集中在为计算机提供“视觉”能力,从解释视觉图像的角度出发。计算机视觉领域的工作与从符号系统到机器学习的过渡并行不悖。早期的工作重点是制作算法,这些算法使用视觉图像的专业知识和感兴趣的对象的描述来寻找具有语义意义的元素,如线条,区域等,这些元素通常会聚合成更大和更一般的实体。例如,设计用于识别椅子的程序可以寻找腿,座位,背部等。但更现代的方法是使用机器学习,通常是专门类型的神经网络(称为卷积神经网络,或CNN),从大量的例子中构建对象模型。
使用这些技术,该领域的最新进展非常迅速。例如,年度ImageNet的准确性
大规模视觉识别挑战,其目标是检测200种类型的对象并在包含一千个对象类别的150,000张照片中对它们进行本地化(“指出它们”)已大大增加。错误率在5%的范围内,低于几年前的几倍。18比赛现在正在扩展到视频中物体的识别和场景的更多叙述性描述,例如“男孩踢球但是错过了目标。”但是这个领域的承诺不仅仅是视觉图像。考虑计算机视觉或一般视觉处理的另一种方式是,它将表示从三维表面反射的光的平面二维图像作为输入,然后解释或重建原始场景的模型。它可以基于例如来自不同视点(立体视觉)的多个图像,光的几何和物理知识,各种表面的反射率以及对现实世界物体的特征的理解来重建场景(人们通常骑马,而不是相反)。真的,三维世界遵循某些组成规则,这些规则约束投射到人眼或数码相机的简化二维视图。(这些是光学冲突违反的规则。)但是,相同的技术具有更广泛的应用。虽然我们的眼睛和大多数相机都会反射光线,但是有各种各样的传感器可以收集人类可以看到的真实世界的数据。例如,特殊设备可以测量红外(热)和反射信号(例如雷达和振动)。用于处理光的相同基本规则和技术(适当地适应)可以应用于基于的解释和重建场景
(这些是光学冲突违反的规则。)但是,相同的技术具有更广泛的应用。虽然我们的眼睛和大多数相机都会反射光线,但是有各种各样的传感器可以收集人类可以看到的真实世界的数据。例如,特殊设备可以测量红外(热)和反射信号(例如雷达和振动)。用于处理光的相同基本规则和技术(适当地适应)可以应用于基于的解释和重建场景
(这些是光学冲突违反的规则。)但是,相同的技术具有更广泛的应用。虽然我们的眼睛和大多数相机都会反射光线,但是有各种各样的传感器可以收集人类可以看到的真实世界的数据。例如,特殊设备可以测量红外(热)和反射信号(例如雷达和振动)。用于处理光的相同基本规则和技术(适当地适应)可以应用于基于的解释和重建场景
和反射信号(例如雷达和振动)。用于处理光的相同基本规则和技术(适当地适应)可以应用于基于的解释和重建场景
和反射信号(例如雷达和振动)。用于处理光的相同基本规则和技术(适当地适应)可以应用于基于的解释和重建场景
这些看不见的信号。
存在遵守某些物理约束和共性的“场景”,但原则上根本看不到(尽管使用基于计算机的工具我们可以“可视化”它们)。例如地下油层的位置和形状,脑肿瘤以及压力下混凝土坝的缺陷。如
只要我们对我们正在研究的领域的材料特性有足够的了解,并且有一些方法来收集以我们理解的方式将这些领域投影到图像中的信号,我们就可以使用广泛解释的计算机视觉技术来处理他们。原则上,场景和图像都不需要是物理的。只要域遵守某些规则,并且图像表示已知对应于域的元素的较低维数据点阵列,就可以处理数据以提供对域结构的深入了解。19
换句话说,计算机可以“看到”我们无法做到的事情。这不像听起来那么神秘 – 许多动物也是如此。例如,蝙蝠看到使用反射声音,大多数鸟类能够看到人类无法看到的颜色,他们用来选择配偶的技能,信号饥饿和箔巢寄生虫。20
计算机视觉技术的主要应用是什么?无数的现实问题取决于在给定环境中识别和定位感兴趣的对象。看似简单的任务,例如在钉子上摆动锤子,堆放餐具,绘画房屋,修剪草坪和采摘成熟水果取决于知道事物的位置。采用这种信息的技术 – 基本的机械工程和机器人技术 – 已经有一段时间了,但仅限于感兴趣的物体处于预定义的固定位置的环境,例如工厂车间。但是最近计算机视觉的进步使得在结构较少的现实环境中执行诸如此类的物理任务成为可能。在接下来的几十年里,
第二个主要应用领域是信息本身。我们已基本完成了从物理的,基于纸张的捕获和传递信息(文本,图表,图片等)的方法到以电子形式管理数据的过渡。但是我们正在收集,存储和共享的数据
在性质上变得越来越直观。数码相机的发展,特别是当集成到智能手机等普遍存在的通信设备中时,已经降低了拍摄和分享照片的成本接近于零,因此不要轻拍“我正在访问金门大桥我的父母“在一个小键盘上,很多人只需点击并发送图片。结果,流经互联网的视觉信息的比例激增。根据最近的一项行业研究,到2018年,预计仅视频占互联网总流量的84%。21
问题在于,与文本数据不同,我们可以通过电子方式进行编目和检索,但我们无法管理图片和视频,除非它们在源头标记或由人类分类。(你可能会惊讶地发现,当你在谷歌搜索图像时,你实际上并没有自己搜索图片,而是附带标签和文字,这些标签和文字表明可能会出现什么。这就是为什么这样的搜索很多因此,随着大量电子数据从文本形式转变为视觉形式,我们面临着通过扩展数字网络传递信息的“黑暗”的危险。
但计算机视觉技术有望自动管理所有这些。面部识别程序已被用于各种目的,如国家安全,以在Facebook图片中标记您的朋友。但很快,对图像进行解释和标记的能力将扩展到包括您可能需要查询的几乎所有可识别的对象,事件,产品,人物或场景。计算机视觉技术可能及时到达,以帮助我们淹没在我们自己的信息的海洋中。