计算机视觉的相关介绍

2021-04-09 05:35:02

相关推荐

计算机视觉的相关介绍

在介绍计算机视觉之前，首先需要回答的一个问题是什么是计算机视觉。接下来小编为你带来计算机视觉的相关介绍，希望对你有帮助。

正像很多学科一样，很多人在从事这方面的研究，但又很少有人能给出一个严格的定义。人工智能是这样，虚拟现实是这样，计算视觉也是不例外。

最直观地讲，所谓计算机视觉就是用计算机来模拟人的视觉系统，实现人的视觉功能。马上随之而来的另一个问题是：人类视觉的主要功能是什么？或者更一般地讲，人类视觉系统主要是干什么的？我们人人有两只眼，眼的用处是看东西。我们无时不刻在用眼看东西，但我们主要在看什么？看的目的是什么？或者说为什么要看？似乎这些问题简单得很少有人去思考，但事实上又很少有人能说清楚。

人与其它动物一样，视觉、听觉、触觉等感官功能的产生，首先在于进化过程中生存的需要。根据美国心理学家Gibson的理论，人的视觉不管有多少用处，但主要功能可概括为适应外界环境和控制自身的运动。看到汽车冲过来，你会赶快回避；看到前面有激流，你不会冒然趟过去。“适应外界环境和控制自身的运动”还是比较抽象的概念。事实上，为了适应外界环境和控制自身的运动，我们的视觉系统需要：能识别物体（可想而知，一个人连亲戚、同事、朋友都不认识，会怎样生活），能判断物体的运动以及确定物体的形状和方位（否则，无法抓取物体）。所以，物体识别、物体定位、物体三维形状恢复和运动分析，就构成了计算机视觉的主要研究内容。

物体识别包含两种主要形式，一种叫做类型识别。如“椅子”可以有多种多样的形状，座椅，背椅，靠椅，但人们可以很容易地把他们归到“椅子”类。这种识别用的是物体的通用属性。另一种识别是同类物体的鉴别。如从人脸中识别出某个人，此时用的是类内的特定信息。物体识别要求既要能抽象出物体的共同属性，又要能分辨出相似物体间的细微区别，所以物体识别问题是一个非常困难的问题。

要对物体进行识别，我们的大脑应该对这个物体有某种表达（或记忆）。表达问题（representation）是计算机视觉的一个核心问题。在计算机视觉界，目前有两种主要表达理论。一种是马尔（Marr）于上世纪八十年代初提出的三维表达理论（也成为三维重建理论: 3D reconstruction paradigm）。一种是本世纪初人们提出的基于图像的表达理论（view-based representation）。三维表达的基本思想是：物体在大脑中表达的是物体的三维几何形状。因为物体的三维几何形状与视角无关，所以三维表达是与视角无关的表达。Marr 的三维物体表达模型的提出，宣告了计算机视觉这门学科的诞生。Marr 的物体表达方式，主要在他1982年出版的一书中进行了详细介绍，至今仍具有重要的影响。但近年来人们发现，Marr 的这种三维表达方式也有很多不足，与很多生理和心理实验不符，所以人们又提出了基于图像的表达方式.基于图像的表达比较系统性的论述是Poggio 等人与2004年在Nature上的文章。近几年，特别是神经科学的进展，人们发现基于图像的表达方式也有很多不足，所以人们猜测物体的表达模型可能是二维和三维的混合模型。总之，物体表达是一个重要的问题，但也是至今仍没有很好解决的一个问题。

粗略地讲，计算机视觉经历了以下4个主要发展历程：

1：马尔视觉计算理论．1982年马尔视觉计算理论的提出，标志着计算机视觉成为了一门独立的学科。马尔视觉计算理论包含二个主要观点：首先，马尔认为人类视觉的主要功能是复原三维场景的可见几何表面，即三维重建问题；其次，马尔认为这种从二维图像到三维几何结构的"复原过程是可以通过计算完成的，并提出了从图像初始略图（sketch）物体2.5维描述—>物体3维描述一套完整的计算理论和方法。

2：主动视觉，目的视觉。针对马尔理论在具体应用中遇到的困难，以 Aloimonos，Bajcsy等为代表的学者在上世纪八十年代末、九十年代初提出了“目的视觉”、“主动视觉”、“定性视觉”等理论。这些理论的共同特点是认为马尔理论自下到上的三维重建过程，由于缺乏目的性、缺乏高层知识反馈，从而导致三维重建框架不可行，重建算法不鲁棒。他们强调视觉算法高层知识反馈的必要性和重要性，以及视觉主体与环境交互的重要性。这些理论尽管从原理上来说更加符合人类视觉过程，但由于“利用什么样的高层知识”，“如何利用高层知识”，“视觉主体如何与环境进行有效交互”等这些核心问题目前人们还知之甚少，在近期内估计还很难建立有效的计算模型，所以这些理论自从1994 年众多知名学者在CVGIP：Image Understanding上组织关于主动视觉的大辩论后，这些理论至今仍没有显著性进展。

3：分层重建理论 (Stratified Reconstruction). 以Faugeras 和Hartley 等提出的分层重建理论是上世纪90年代计算机视觉领域最活跃的研究内容。分层重建的基本思想是指从图像到三维欧几里得空间的重建过程中，先从图像空间得到射影空间下的重建（11个未知数），然后将射影空间下重建的结果提升到仿射空间（3个未知数），最后将仿射空间下重建的结果提升到欧几里得空间（5个未知数）。这种分层重建方法由于每一步重建过程中涉及到的未知变量少，几何意义明确，所以算法的鲁棒性得到了有效提高。例如Google和Microsoft公司开发的基于地面图像的3D地图系统Google Earth和Bing Map，Nokia公司开发的基于航空图像的3D城市C3 Ovi Map，NASA开发的开源系统World Wind等等，其中的核心技术之一就是基于分层重建的从运动恢复结构的技术（SFM）。

4：基于学习的视觉。物体识别是计算机视觉的重要研究内容。随着基于图像的物体表达的提出和机器学习的进展，基于学习的视觉是近年来计算机视觉的研究热点。所谓基于学习的视觉，就是指利用机器学习的手段来对图像物体进行识别的方法，包括对物体个体的识别（object identification）和对物体类别的分类（object categorization）。

另外，视觉伺服、大场景三维重建、海量图像标注、特定领域视频分析、视觉监控都是近年来计算机视觉领域非常活跃的研究方向。

计算机视觉有三大主要国际会议，包括两年一次的国际计算机视觉会议（ICCV）和欧洲计算机视觉会议（ECCV）以及一年一次的计算机视觉和模式识别会议（CVPR）。计算机视觉最著名的奖是每次ICCV会议上授予的马尔奖（Marr Prize）。最主要的刊物有：IEEE T-PAMI ( IEEE Transactions on Pattern Analysis and Machine Intelligence) 和IJCV（International Journal of Computer Vision）

阅读剩余内容

计算机视觉的相关介绍

计算机视觉方向准研一暑假期间可以做哪些准备

自动驾驶计算机视觉研究综述：难题数据集与前沿成果（附67页论文下载）

冬至节气相关资料介绍

豫剧的相关介绍

小学生自我介绍相关