1. 首页
  2. 资讯

计算机视觉中的应用

上一篇文章介绍了深度学习在图像分类、区域识别的图像分类和物体检测三个应用领域的使用情况,本篇将继续介绍深度学习在计算机视觉中其他子领域的运用。导言本文将研究以下几

上一篇文章介绍了深度学习在图像分类、区域识别的图像分类和物体检测三个应用领域的使用情况,本篇将继续介绍深度学习在计算机视觉中其他子领域的运用。

导言

本文将研究以下几个深度学习运用于计算机视觉的应用领域,主要介绍4,5,6三个加粗的应用领域。

图像分类区域识别的图像分类物体检测对象分割图像风格转移图像着色影像重建图像超分辨率图像合成其他问题每个问题都会进行详细阐述,并举例说明,同时介绍相关的学术论文。

对象分割

对象分割或语义分割研究的是对象检测的问题,其要求检测图片中的对象,并在检测到的每个对象周围绘制不同颜色的线条。对象检测有时也称为对象分割。

与应用领域三——物体检测所不同的是,对象分割要求识别图像中对象的特定像素,这更像是一个细粒度的图像对象区域识别问题。更一般地,“ 图像分割 ”是指将图像中的所有像素分割成不同类别的对象。

同样的,VOC 2012和MS COCO数据集是对象分割的主流数据集。

使用“Mask R-CNN”进行对象分割

KITTI Vision Benchmark Suite 是另一个流行的对象分割数据集,其主要包含自动驾驶中的街道图像。

关于对象分割的一些经典论文包括:

Simultaneous Detection and Segmentation, 2014.Fully Convolutional Networks for Semantic Segmentation, 2015.Hypercolumns for Object Segmentation and Fine-grained Localization, 2015.SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation, 2016.Mask R-CNN, 2017风格转移

风格转移指的是从一个或多个图像学习图片风格,并将该风格应用于新图像。其可以当做一种照片滤波器或变换,但是目前没有统一的指标去评估风格转移方法的效果。例如,将特定艺术照的风格应用于新照片。

数据集包括知名艺术照片和标准计算机视觉数据集中的照片。

该领域的经典论文包括:

A Neural Algorithm of Artistic Style, 2015.Image Style Transfer Using Convolutional Neural Networks, 2016.图像着色

图像着色指的是将灰度图像转换为彩色图像。同样的,其也是一种照片滤波器或变换,但是没有统一的指标去评估着色方法的效果。例如为黑白照片和电影着色。

数据集通常包括现有常见的照片数据集及其对应的灰度图片。

彩色图像着色

经典论文包括:

Colorful Image Colorization, 2016.Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification, 2016.Deep Colorization, 2016.小结

本文对深度学习运用于对象分割、图像风格转移、图像着色三个子领域进行了介绍。若感兴趣,可以进一步研究相关领域最新的论文。

相关搜索

  • 计算机视觉算法
  • 计算机视觉应用
  • 图像分类算法

计算机视觉在现在工业界中有什么应用?

计算机视觉在工业上的运用,主要称之为“机器视觉”。

想知道计算机视觉主要运用于哪个领域,

就得先知道什么是“计算机视觉”和“机器视觉”,

那么,往下看,欢创科技带你涨知识。

Q1:“计算机视觉”和“机器视觉”是什么?

计算机视觉就像人类每天所做的那样,通过“眼睛”采集图像然后大脑进行处理。而计算机视觉就是使用计算机及相关设备对生物视觉的一种模拟,它通过对采集的图片或视频进行处理,以获得相应场景的三维信息。

机器视觉作为一个独立分支,正在人工智能领域飞速发展。简单说来,机器视觉就是用机器代替人眼来做测量和判断。

二者都是一门关于如何运用摄像头和计算机来获取我们所需的,被拍摄对象的数据与信息的学问。形象地说,就是给计算机安装上眼睛(摄像头)和大脑(算法),让计算机能够感知环境。

Q2:“它们”有何不同?

毋庸置疑,计算机视觉与机器视觉在技术和应用领域上都有相当大的重叠,这两个学科的基础理论大致是相同的,都要与图像处理紧密结合来实现高效的机器人控制或各种实时操作。但细究其原理,确实也有一些不同之处:

计算机视觉的研究对象主要是映射到单幅多幅图像上的三维场景。计算机视觉的研究很大程度上是针对图像的内容,也就是对质的分析。比如分类识别,这是一个人还是一棵树?或者人脸识别、车牌识别。也可以用于行为分析,人群测数等。

▲更直观的表示,例如上图,让计算机判断识别出哪个是狗,是计算机视觉研究的内容。

机器视觉主要是指其在工业领域的视觉研究,用于检测和测量的视觉,主要侧重对量的分析。比如通过视觉去测量一个零件的直径,对准确度要求很高。

▲上图中,机器视觉是观察上图中成百上千个某一特定形态的狗,发现哪张缺一只,然后检索出来。

显然,计算机视觉还不够聪明,依然存在着一系列难以解决的难题。目前人们掌握的具体计算机视觉技术,也仅仅适用于人脸识别、指纹识别等单一领域。而机器视觉的广泛应用,却成为了计算机视觉独特性的存在。

Q3:视觉空间定位又是什么?

视觉目标定位(位姿测量)顾名思义,测量一个物体相对于另一个物体的位置与姿态,即所谓的位姿测量。

常见的视觉空间定位类型 自定位(inside-out),即通过摄像头拍摄视野坐标系,以及坐标系的特征点,从而判断摄像头相对坐标系自身的坐标。比如我们常用的SLAM,它的特点是便携、视角理论无限大、定位精度不高。主要应用领域包括移动机器人、无人机、VR、AR。

外定位(outside-in),比较常见的是OptiTrack,特点是安装复杂、视角有限、定位精度高。主要应用领域包括影视动捕、VR、工业机器人。

欢创科技是以计算机视觉中的机器视觉为基础,通过自主创新的高性能视觉空间定位算法,实现高精度单目视觉空间定位技术的广泛应用。

Q4:视觉空间定位可用于哪些领域?

医疗领域:如医疗计算机视觉和医学图像处理,以及通过精密设备测量,实现医疗手术导航等。

工业领域:视觉空间定位技术正大量的被使用在工业领域,其精准性、高效性、实时性是它的主要优势所在。

无人驾驶:时下大热的自主无人汽车导航、障碍物检测等。

军事领域:从无人机的侦察任务,到先进的导弹制导方面都有视觉定位的影子。

航天领域:太空探索也正在使用计算机视觉,比如,美国宇航局的火星探测漫游者和欧洲航天局的ExoMars火星漫游者。

同学们,本期的“欢创小课堂”就到这了。
下期,我们会着重探索欢创科技的技术核心所在—— 单目视觉空间定位,想了解更多的人工智能奥秘,记得收看 《欢创小课堂》!
且听下回分解...

http://www.camsense.cn/

计算机视觉论文中,比较漂亮的网络结构图是用什么工具画出来的?

axure、xmind、viso都可以。

有哪些有趣的图形学(CG)和计算机视觉(CV)相结合的应用的例子?

图形学和视觉之间的联系那可是相当的紧密。

计算机视觉里很多算法都涉及到光照模型的估计。

比如background modeling,一般的做法是对某个像素进行GMM建模,但是在光照变化比较厉害的时候GMM就不合适了,多个学者尝试估算一个全局或者光照模型来客服剧烈光照变化带来的问题,光照模型的估计有不少是从CG领域借鉴来的。

比如dense-based matching,这是一个很普遍的视觉问题。比如template matching,比如dense based direct optimization等等,简化来说就是直接从两个image里面计算距离,有时候是直接计算L(n)-Norm,有时候是NCC等,方式很多。但存在的一个通病就是如果两者存在比较大的光照变化,会直接影响后面的结果。当然这里有很多方法来做光照的normalization,这里就需要对全局活着局部光照模型进行估计,不同的应用场景方法不一样,比如用到planar object上的方法跟用在face上的方法就很不一样,有时候需要考虑物体的材质,颜色和光源的位置等等。这些方法里面很多都是借鉴自图形学领域。

对于一些视觉算法的开发和验证来说,通过渲染来获得大量的数据和测试样本是非常重要的。

比如CAD-based object detection, 通常需要我们提前render很多不同视角下的数据,然后在模板数据上提取需要的特征用在实际的检测中。在ICP这样的迭代优化模型里面,如果我们有一个足够快的3D renderer,我们可以在线进行优化,可以得到更加精确的结果。因为迭代的梯度值可能只是SE(3)空间里的一个大小不确定的增量,而离线生成的模型只是sphere上的一个非常稀疏采样。

再比如,使用卷积网络训练一个饭碗的检测器,你可以通过渲染来生成大量的数据。比如你用卷积网络来做OCR,你可以通过渲染少数的数据样本获得大量的数据来用于训练或者最终检测器的验证。

等等。

另外通过图形学的手段来visualize视觉算法里的一些过程和状态也是一个极其直观和高效的调试手段。

窃以为(粗糙地以为),视觉是通过传感器数据认识世界的手段,图形学则是模拟真实世界的手段,他俩今后会你是风儿我是沙……联系愈加紧密,学习图形学(2D和3D)知识很有必要。

本文来自投稿,不代表本站立场,如若转载,请注明出处。