CV计算机视觉

计算机视觉(CV,Computer Vision)领域任务

目前计算机视觉(CV,computer vision)与自然语言处理(Natural Language Process, NLP)及语音识别(Speech Recognition)并列为人工智能(AI,artificial intelligence)的三大热点方向 。 图像分类、目标检测、分割是计算机视觉领域的三大任务。 如何从图像中解析出可供计算机理解的信息,是机器视觉(Machine Vision)的中心问题。 深度学习模型由于其强大的表示能力,加之数据量的积累和计算力的进步,成为机器视觉的热点研究方向。那么,如何理解一张图片呢?根据任务的需要,机器理解图像三个主要的层次: 一是分类(Classification),即是将图像结构化为某一类别的信息,用事先确定好的类别(category)或实例ID来描述图片。这一任务是最简单、最基础的图像理解任务,也是深度学习模型最先取得突破和实现大规模应用的任务。其中,ImageNet是最权威的评测集,每年的ILSVRC催生了大量的优秀深度网络结构,为其他任务提供了基础。在应用领域,人脸、场景的识别等都可以归为分类任务。 二是检测(Detection)。分类任务关心整体,给出的是整张...

目标检测Object Detection

定义 输入图像中往往有很多物体,目的是判断出物体出现的位置与类别,是计算机视觉中非常核心的一个任务。 一般会输出如下5个value: 物体类别class bounding box左上角x坐标x bounding box左上角y坐标y bounding box右下角x坐标x bounding box右下角y坐标y。 传统算法 传统算法对于目标检测通常分为3个阶段: 1.区域选取 首先选取图像中可能出现物体的位置,由于物体位置、大小都不固定,因此传统算法通常使用滑动窗口(Sliding Windows)算法,但这种算法会存在大量的冗余框,并且计算复杂度高。 2.特征提取 在得到物体位置后,通常使用人工精心设计的提取器进行特征提取,如SIFT和HOG等。由于提取器包含的参数较少,并且人工设计的鲁棒性较低,因此特征提取的质量并不高。 3.特征分类 对上一步得到的特征进行分类,通常使用如SVM、AdaBoost的分类器。 基于深度学习的目标检测算法 分类 1.两步 如下两步: 进行区域生成,该区域称之为region proposal(简称RP,一个有可能包含待检物体的预选框) 通过卷积神经网络进行样本分类 任务流程:特征提取 &#8...