DeepGlobe 2018卫星图像理解挑战赛+视差滑动窗口:视差图像中的目标候选

NeuralNetwork-Viterbi:一个弱监督视频学习的框架

Alexander RichardHilde KuehneAhsan IqbalJuergen Gall

视频学习是计算机视觉领域的一项重要任务,近年来越来越受到关注。由于即使少量视频也容易包含数百万帧,因此不依赖帧级注释的方法特别重要。在这项工作中,我们提出了一种基于维特比损失的新型学习算法,允许在线和增量学习弱注释视频数据。此外,我们还展示了明确的上下文和长度建模,可以大大改善视频分割和标记任务,并将这些模型纳入我们的框架。在几个行动分割基准测试中,与当前最先进的方法相比,我们获得了高达10%的改进。[1805.06875v1]

 

RotDCF:旋转等变深度网络卷积滤波器的分解

Xiuyuan Cheng, Qiang Qiu, Robert Calderbank, Guillermo Sapiro

深度特征中群组操作的显式编码使得卷积神经网络(CNN)能够处理图像的全局变形,这对于许多视觉任务的成功至关重要。本文提出同时分解空间和群几何上的联合可操纵基础上的卷积滤波器,即具有分解卷积滤波器(RotDCF)的旋转等变CNN。这种分解有助于计算联合卷积,这被证明是群变换的必要条件。它在保持性能的同时显着减少了模型大小和计算复杂度,并且基本扩展的截断隐式地用于正则化滤波器。在涉及面内和面外旋转的数据集上,RotDCF深度特征比常规CNN表现出更强大的可靠性和可解释性。等变表示对输入变化的稳定性也在理论上在分解形式的滤波器的一般假设下得到证明。RotDCF框架可以扩展到旋转以外的组,从而提供了一种通用的方法,可以在缩小的模型大小下实现组等值变换和表示稳定性。[1805.06846v1]

 

视差滑动窗口:视差图像中的对象建议

JulianMüllerAndreas FreginKlaus Dietmayer

近年来,滑动窗口方法已被广泛用于目标识别任务。它们保证对待检测对象的整个输入图像进行调查,并允许对该对象进行本地化。尽管目前的趋势是深度神经网络,滑动窗口方法仍然与卷积神经网络结合使用。与根据形状,边缘或颜色检测物体的替代检测方法相比,俯视物体的风险显着降低。然而,由于分类器必须验证大量候选对象,所以滑动窗口技术大大增加了计算量。本文提出了一种滑动窗口方法,它也使用立体相机的深度信息。这导致候选对象的数量大大减少,而不会显着降低检测精度。首先介绍传统滑动窗口方法的理论研究。迄今为止的其他出版物仅提到了计算成本的粗略估计。数学推导澄清了对象参数(如图像和对象大小)的数量。随后,详细介绍了所提出的视差滑动窗口方法。该方法通过基于KITTI物体检测基准的注释和图像对行人检测进行评估。此外,与两种最先进的方法进行比较。代码在C ++Python中可用https://github.com/julimueller/ disparity-sliding-window[1805.06830v1] 首先介绍传统滑动窗口方法的理论研究。迄今为止的其他出版物仅提到了计算成本的粗略估计。数学推导澄清了对象参数(如图像和对象大小)的数量。随后,详细介绍了所提出的视差滑动窗口方法。该方法通过基于KITTI物体检测基准的注释和图像对行人检测进行评估。此外,与两种最先进的方法进行比较。代码在C ++Python中可用https://github.com/julimueller/ disparity-sliding-window[1805.06830v1] 首先介绍传统滑动窗口方法的理论研究。迄今为止的其他出版物仅提到了计算成本的粗略估计。数学推导澄清了对象参数(如图像和对象大小)的数量。随后,详细介绍了所提出的视差滑动窗口方法。该方法通过基于KITTI物体检测基准的注释和图像对行人检测进行评估。此外,与两种最先进的方法进行比较。代码在C ++Python中可用https://github.com/julimueller/ disparity-sliding-window[1805.06830v1] 迄今为止的其他出版物仅提到了计算成本的粗略估计。数学推导澄清了对象参数(如图像和对象大小)的数量。随后,详细介绍了所提出的视差滑动窗口方法。该方法通过基于KITTI物体检测基准的注释和图像对行人检测进行评估。此外,与两种最先进的方法进行比较。代码在C ++Python中可用https://github.com/julimueller/ disparity-sliding-window[1805.06830v1] 迄今为止的其他出版物仅提到了计算成本的粗略估计。数学推导澄清了对象参数(如图像和对象大小)的数量。随后,详细介绍了所提出的视差滑动窗口方法。该方法通过基于KITTI物体检测基准的注释和图像对行人检测进行评估。此外,与两种最先进的方法进行比较。代码在C ++Python中可用https://github.com/julimueller/ disparity-sliding-window[1805.06830v1] 该方法通过基于KITTI物体检测基准的注释和图像对行人检测进行评估。此外,与两种最先进的方法进行比较。代码在C ++Python中可用https://github.com/julimueller/ disparity-sliding-window[1805.06830v1] 该方法通过基于KITTI物体检测基准的注释和图像对行人检测进行评估。此外,与两种最先进的方法进行比较。代码在C ++Python中可用https://github.com/julimueller/ disparity-sliding-window[1805.06830v1]

 

这都是相对的:从弱监督数据单眼3D人体姿态估计

Matteo Ruggero RonchiOisin Mac AodhaRobert EngPietro Perona

我们只使用弱监督训练数据解决了二维输入图像中三维人体姿态估计的问题。尽管在二维姿态估计方面取得了相当大的成功,但监督机器学习在现实世界图像中对三维姿态估计的应用目前受到缺乏具有相关3D姿势的各种训练图像的阻碍。现有的三维姿态估计算法训练数据,这些数据要么在仔细控制的工作室设置中收集,要么已经合成生成。相反,我们采用不同的方法,并提出一种3D人体姿势估计算法,该算法仅需要训练时的深度相对估计。这样的训练信号虽然很嘈杂,但可以容易地从人群注释者处收集,并且具有足够的质量,以便能够成功训练和评估3D姿势。尽管使用了显着较弱的训练数据,但我们的结果与Human3.6M数据集上完全监督回归的方法相比具有竞争性。我们提出的方法为使用现有的广泛2D数据集开启三维姿态估计打开了大门,允许使用噪声相对约束进行微调,从而产生更精确的3D姿态。[1805.06880v1]

 

行动完成:时刻检测的时间模型

Farnoosh HeidarivinchehMajid MirmehdiDima Damen

我们介绍完成时刻检测的行动 – 定位完成时刻的问题,当行动的目标是自信地认为实现。本文提出了一个联合分类回归循环模型,预测来自给定帧的完成情况,然后整合帧级贡献以检测序列级完成时刻。我们引入一个经常性投票节点,通过分类或回归来预测框架完成时刻的相对位置。该方法还能够检测未完成。例如,该方法能够检测错过的抓球,以及球被安全抓住的时刻。我们测试了来自三个公共数据集的16个动作的方法,包括体育运动以及日常行为。结果显示,当在完成时刻之前以及帧完成时结合来自帧的贡献时,在所有测试序列的89%中在一秒内检测到完成时刻。[1805.06749v1]

 

基于卷积神经网络的跨域属性表示

Guohui Zhang, Gaoyuan Liang, Fang Su, Fanxin Qu, Jing-Yan Wang

在领域转移学习问题中,我们从一些源域和目标域的数据中学习了目标域中预测的模型,其中目标域缺少标签,而源域具有足够的标签。除了数据实例之外,最近还研究了跨域共享的数据属性,并证明对利用不同域的信息非常有帮助。在本文中,我们提出了一种基于实例和属性的领域迁移学习的新型学习框架。我们提出通过共享卷积神经网络(CNN)嵌入不同域的属性,学习一个域独立的CNN模型,通过跨域匹配来表示由不同域共享的信息,以及特定于域的CNN模型来表示每个域的信息。三个CNN模型输出的连接用于预测类别标签。开发了基于梯度下降法的迭代算法来学习模型的参数。基准数据集上的实验显示了该模型的优点。[1805.07295v1]

 

规划车道变化的情景评估:结合经常性模型和预测

奥利弗·谢尔,洛伦·布莱克,纳西尔·纳瓦布,费德里科·托巴里

对于完全自动驾驶汽车来说,最大的挑战之一就是对复杂动态场景的理解。这种理解对于策划策略是必需的,尤其是那些特别频繁的策略,如变道。近年来,先进的驾驶辅助系统使驾驶变得更加安全和舒适,但这些系统主要集中在汽车以下场景,而较少涉及车道变换的操纵。在这项工作中,我们提出了一种情景评估算法,用于对驾驶情况进行分类以适应车道变换。为此,我们提出了一种基于双向递归神经网络的深度学习架构,该架构使用长期短期内存单元,并将智能驱动模型形式的预测组件集成在一起。我们证明了我们的算法在公开可用的NGSIM数据集上的可行性,我们的表现超越了现有的方法。[1805.06776v1]

 

使用伪注释器的单次主动学习

亚洲杨,Marco Loog

标准近视主动学习假设每当选择新样本时总是可以获得人类注释。然而,这在许多现实世界的应用中是不现实的,因为人类专家在任何时候都不容易获得。在本文中,我们考虑单一拍摄设置:所有需要的样本应该在一次拍摄中进行选择,并且在选择过程中不能使用人类注释。我们提出了一种新的方法,通过随机标记的主动学习(ALRL),它将单个人类注释器替换为多个,我们将称之为伪注释器。这些伪注释器总是在新的未标记样本被查询时提供统一标签和随机标签。这种随机标签使标准的主动学习算法能够展现单次主动学习所需的探索行为。通过最小化未标记样本和查询样本之间的最近邻距离来选择最具代表性的样本,进一步增强了探索行为。对现实世界数据集的实验表明,所提出的方法胜过了几种最先进的方法。[1805.06660v1]

 

面向移动平台的手语识别转移学习优化

Dhruv Rathi

这项研究的目标是实验,迭代和推荐一个成功识别美国手语(ASL)的系统。这是一个具有挑战性的问题,也是一个有趣的问题,如果解决了这个问题,将会在社会和技术方面带来飞跃。在本文中,我们提出了基于移动平台的ASL的实时识别器,以便它具有更多的可访问性并提供易用性。实施的技术是在ASL中针对字母的手势的新数据的转移学习,以在各种预先训练的高端模型上建模,并优化在移动平台上运行的最佳模型,考虑优化期间的各种限制。所使用的数据包括ASL24个字母的27,455张图像。优化的模型在运行内存高效的移动应用程序时,准确识别率为95.03%,平均识别时间为2.42秒。与以前的研究相比,这种方法可以在精确度和识别时间方面确保相当大的区分度 [1805.06618v1]

 

乳腺X线摄影术可变长度和有损高密度压缩的完全卷积模型

Aupendu KarSri Phani Krishna KarriNirmalya GhoshRamanathan SethuramanDebdoot Sheet

早在20世纪80年代就开始对医学图像进行压缩,推动了高分辨率数字X射线探测器的远程放射学系统的部署。在此期间,商业部署的系统可以使用无损算术编码压缩4,096 x 4,096大小的图像(12 bpp2 bpp),并且多年来JPEGJPEG2000吸收达到0.1 bpp。受过去两年对自然图像进行基于深度学习压缩的复现的启发,我们提出了一种用于诊断相关特征保持有损压缩的完全卷积自动编码器。随后利用算术编码封装高冗余特征,以进一步实现高密度代码打包,从而实现可变比特长度。我们通过峰值信噪比(pSNR),结构相似性(SSIM)指数和数据集之间的领域适应性测试来证明两种不同的公开数字乳腺X线摄影数据集的性能。在高密度压缩因子> 300x(~0.04 bpp)时,我们的方法与通过放射科医师的视觉图灵测试评估的JPEGJPEG2000相媲美。[1805.06909v1]

 

ScaffoldNet:通过卷积神经网络检测和分类生物医学聚合物基支架

Darlington Ahiale AkogoXavier-Lewis Palmer

我们开发了卷积神经网络模型来识别和分类喷刷(或称为吹塑),电纺丝和钢丝脚手架。我们的ScaffoldNet模型是一个6 卷积神经网络,训练并测试了3043张喷枪,电纺丝和钢丝脚手架的图像。该模型输入一个成像的脚手架,然后输出脚手架类型(喷枪,静电纺丝或钢丝)作为3类的预测概率。我们的模型得到了99.44%的准确度,展示了适应调查和解决针对抽象空间背景的复杂机器学习问题或筛选皮质骨和纤维壳中所见的复杂的生物纤维结构的潜力。[1805.08702v1]

 

用于学习密集深度和自动运动的循环神经网络

王瑞,Jan-Michael FrahmStephen M. Pizer

基于学习的单视点深度估计通常对于看不见的数据集进行很差的概括。虽然基于学习的双帧深度估计在一定程度上通过学习跨帧匹配特征来解决这个问题,但是在不确定性高的深度处它表现不佳。存在很少的基于学习的多视点深度估计方法。在本文中,我们提出了一种基于学习的多视点密集深度图和使用递归神经网络(RNN)的自我运动估计方法。我们的模型设计用于从输入帧时间相关的视频进行三维重建。它可以推广到单视点或双视点密集深度估计。与最近的单视图或双视图CNN深度估计方法相比,我们的模型利用更多视图并获得更准确的结果,尤其是在远距离情况下。我们的方法可为室内和室外基准数据集上最先进的基于学习的单视点或双视点深度估计方法带来出众的效果。我们还证明,我们的方法甚至可以处理极其困难的序列,例如内窥镜视频,其中没有任何来自传统三维重建方法的假设(静态场景,恒定光照,朗伯反射等)。[1805.06558v1]

 

ISRO气象应用地球静止有效载荷自动数据注册

Jignesh S. BhattN. Padmanabhan

KALPANA-1卫星于2002年发射,预示着为气象预测建立本地业务有效载荷。随着INSAT-3A卫星的发射,这在2003年得到进一步加强。根据这两颗卫星的数据生成产品的软件随后在2004年被采用,20061月在印度新德里气象部门也安装了该软件。注册一直是产生几乎所有人的最基本的操作之一来自遥感数据的数据产品。由于采集过程中不可避免的辐射测量和几何失真,注册是一项具有挑战性的任务。除了云的存在使问题更加复杂。在本文中,我们提出了一种用于多时频和多频带配准的算法。另外,面对INSAT-3ACCD数据的参考边界也已经产生。完成实施由以下步骤组成:1)自动识别感测数据中的地面控制点(GCP),2)基于匹配点找到最佳转换模型,以及3)将转换后的图像重新采样为参考坐标。该算法使用KALPANA-1INSAT-3A的真实数据集进行演示。KALAPANA-1INSAT-3A由于缺乏燃料而最近退役,但从中获得的经验已经产生了一系列气象卫星和相关软件INSAT-3D系列,可以为该国提供连续的天气预报。本文并不太关注理论(在文献中广泛提供),而是专注于实施操作软件。[1805.08706v1]

 

使用时空梯度联合直接估计三维几何和三维运动

Francisco BarrancoCorneliaFermüllerYiannis AloimonosEduardo Ros

传统的基于运动方法的图像运动结构首先计算光流,然后基于极线约束求解三维运动参数,最终恢复场景的三维几何。然而,由于正则化造成的光流误差可能导致3D运动和结构中的较大误差。本文研究是否可以通过避免运动流水线结构早期光流估计来提高性能和一致性,并提出一种仅基于图像梯度(正常流)的新的直接方法。其主要思想在于正深度约束的重新表达,其允许使用众所周知的最小化技术来解决3D运动。然后对三维运动估计进行细化和结构估计,并根据深度添加正则化。使用三种不同的光流算法对标准合成数据集和实际驱动基准数据集KITTI进行实验比较表明,除一种情况外,该方法在所有情况下均可获得更好的精确度。此外,它优于现有的基于正常流量的3D运动估计技术。最后,显示恢复的3D几何图形也非常精确。[1805.06641v1]

 

DeepGlobe 2018:通过卫星图像解析地球的挑战

Ilke DemirKrzysztof KoperskiDavid LindenbaumGuan PangJing HuangSaikat BasuForest HughesDevis TuiaRamesh Raskar

我们展示了DeepGlobe 2018卫星图像理解挑战赛,其中包括三个关于卫星图像分割,检测和分类任务的公开比赛。与DAVISCOCO等计算机视觉领域的其他挑战类似,DeepGlobe提出了三个数据集和相应的评估方法,通过与CVPR 2018共同举办的专题研讨会连贯地捆绑在三个竞赛中。我们观察到卫星图像是一个丰富和结构化的源的信息,但它比计算机视觉研究人员对日常图像的调查要少。然而,将现代计算机视觉与遥感数据分析相结合可能会对我们了解我们的环境的方式产生重大影响,并导致全球城市规划或气候变化研究的重大突破。牢记这种桥接目标,DeepGlobe旨在汇集来自不同领域的研究人员,提高计算机视觉领域的遥感意识,反之亦然。我们的目标是改进和评估最先进的卫星图像理解方法,希望能够成为未来相同主题研究的参考基准。在本文中,我们分析每个数据集的特征,定义比赛的评估标准,并为每个任务提供基线。[1805.06561v1] 这可能有望成为未来相同主题研究的参考基准。在本文中,我们分析每个数据集的特征,定义比赛的评估标准,并为每个任务提供基线。[1805.06561v1] 这可能有望成为未来相同主题研究的参考基准。在本文中,我们分析每个数据集的特征,定义比赛的评估标准,并为每个任务提供基线。[1805.06561v1]

 

超像素运动检测的鲁棒背景初始化算法

Zhe Xu, Biao Min, Ray C. C. Cheung

场景背景初始化允许在没有来自视频序列的前景对象的情况下恢复清晰图像,这通常是许多计算机视觉和视频处理应用中的第一步。该过程可能会受到光照变化,前景杂乱,间歇运动等一些挑战的强烈影响。本文提出了一种基于超像素运动检测的鲁棒背景初始化方法。采用帧的空间和时间特征来有效消除前景物体。首先选择具有稳定照明条件的子序列用于背景估计。图像被分割成超像素以保存空间纹理信息,并且通过超像素运动滤波处理来消除前景对象。然后执行低复杂度的基于密度的聚类以生成用于最终背景确定的可靠背景候选。该方法已在SBMnet数据集上进行了评估,并且其性能优于或与其他具有更快处理速度的最先进作品相媲美。而且,在这些复杂而动态的类别中,该算法产生了最好的结果,显示了对于非常具有挑战性的场景的鲁棒性。[1805.06737v1] 该算法产生最好的结果,显示出针对非常具有挑战性的场景的鲁棒性 [1805.06737v1] 该算法产生最好的结果,显示出针对非常具有挑战性的场景的鲁棒性 [1805.06737v1]

 

GANomaly:通过对抗训练进行半监督式异常检测

Samet AkcayAmir Atapour-AbarghoueiToby P. Breckon

异常检测是计算机视觉中的一个经典问题,即由于其他类别的样本量不足(异常)而导致数据集高度偏向一个类别(正常)时,由异常确定正常。虽然这可以作为一个监督学习问题来解决,但一个更具挑战性的问题是检测未知/看不见的异常情况,而不是将这些情况带入一个一类半监督学习范例的空间。我们通过使用联合学习高维图像空间的生成和潜在空间的推理的条件生成对抗网络来引入这种新颖的异常检测模型。在发生器网络中使用编码器 – 解码器 – 编码器子网络使模型能够将输入图像映射到较低维度的矢量,然后将其用于重建生成的输出图像。使用附加的编码器网络将该生成的图像映射到其潜在表示。在训练期间最小化这些图像与潜在矢量之间的距离有助于学习正常样本的数据分布。因此,在推断时间与这个学习数据分布相距较远的距离度量指示该分布异常 – 异常。对来自不同领域的几个基准数据集进行的实验显示了模型的效能和优于先前的最新方法的优势。[1805.06725v1] 在训练期间最小化这些图像与潜在矢量之间的距离有助于学习正常样本的数据分布。因此,在推断时间与这个学习数据分布相距较远的距离度量指示该分布异常 – 异常。对来自不同领域的几个基准数据集进行的实验显示了模型的效能和优于先前的最新方法的优势。[1805.06725v1] 在训练期间最小化这些图像与潜在矢量之间的距离有助于学习正常样本的数据分布。因此,在推断时间与这个学习数据分布相距较远的距离度量指示该分布异常 – 异常。对来自不同领域的几个基准数据集进行的实验显示了模型的效能和优于先前的最新方法的优势。[1805.06725v1] 显示了模型的功效和优于先前的最先进方法。[1805.06725v1] 显示了模型的功效和优于先前的最先进方法。[1805.06725v1]

 

多任务学习中的辅助任务

Lukas LiebelMarcoKörner

多任务卷积神经网络(CNNs)对于某些任务组合(如单图像深度估计(SIDE)和语义分割)显示出令人印象深刻的结果。这是通过推动网络学习强大的表示来实现的,这种表示可以很好地适应不同的原子任务。我们通过向学习任务集添加与应用程序关系不大的辅助任务来扩展此概念。作为一种额外的正规化,它们有望提高最终期望的主要任务的性能。为了研究所提出的方法,我们选择基于视觉的道路场景理解(RSU)作为示例应用。由于多任务学习需要专门的数据集,特别是在使用大量任务时,我们提供多任务RSU的多模式数据集,称为synMT。从视频游戏Grand Theft Auto VGTA V)获得超过2.5 $ \ cdot $ 10 ^ 5合成图像,注有21种不同的标签。我们提出的深度多任务CNN架构是通过使用synMT的各种任务组合来训练的。实验证实,辅助任务确实可以提高网络性能,无论是最终结果还是训练时间。[1805.06334v2]

 

基于混合区域嵌入的零点目标检测

Berkan Demirel,斋月Gokberk CinbisNazli Ikizler-Cinbis

目标检测被认为是计算机视觉中最具挑战性的问题之一,因为它需要正确预测图像中物体的类别和位置。在这项研究中,我们定义了一个更困难的情景,即零点目标检测(ZSD),其中没有视觉训练数据可用于某些目标对象类别。我们提出了一种新的方法来解决这个ZSD问题,其中嵌入的凸组合与检测框架一起使用。为了评估ZSD方法,我们提出了一个由Fashion-MNIST图像构建的简单数据集,以及针对Pascal VOC检测挑战的自定义零点分割。实验结果表明我们的方法对于ZSD产生有希望的结果。[1805.06157v2]

 

去除油渍图像字幕

Pranava MadhyasthaJosiah WangLucia Specia

我们解决检测被挫败的图像标题的任务,即识别标题是否包含被语义上相似的单词故意替换的单词,从而使其与所描述的图像不准确。解决这个问题原则上需要对图像进行精细的理解,以检测字幕中语言上有效的扰动。在这种情况下,编码足够描述性的图像信息成为一个关键的挑战。在本文中,我们证明可以使用基于显式对象信息的简单,可解释但强大的表示来解决此任务。我们的模型在标准数据集上实现了最先进的性能,其分数超过了人类在任务中获得的分数。我们还使用黄金标准注释来衡量我们模型的上限表现。我们的分析表明,即使没有图像信息,简单模型也表现良好,表明数据集包含强烈的语言偏见。[1805.06549v1]

 

具有多个特征的互补跟踪模型

Peng Gao, Yipeng Ma, Ke Song, Chao Li, Fei Wang, Liyi Xiao

基于鉴别相关滤波器(DCF)的追踪算法利用传统的手工特征在精度和鲁棒性方面都取得了令人印象深刻的结果。模板手工制作的功能表现出色,但当目标外观快速变化,如快速运动和快速变形时,表现不佳。相比之下,统计手工功能对快速状态变化不敏感,但在照明变化和背景混乱的情况下,它们的性能较差。在这项工作中,为了实现有效的跟踪性能,我们基于具有多个特征的补充集合模型提出了一种新颖的视觉跟踪算法,名为MFCMT,包括面向方向梯度直方图(HOG),颜色名称(CN)和颜色直方图( CHS)。另外,为了改善跟踪结果并防止目标漂移,我们引入一种有效的融合方法,通过利用相对熵合并所有基本响应图并获得最佳响应。此外,我们建议一个简单而有效的更新策略来提高跟踪性能。对两个跟踪基准进行全面评估,实验结果表明我们的方法与众多最先进的跟踪器相竞争。我们的跟踪器在这些基准测试中以更快的速度获得了令人印象深刻的性能 [1804.07459v2] 我们建议一个简单而有效的更新策略来提高跟踪性能。对两个跟踪基准进行全面评估,实验结果表明我们的方法与众多最先进的跟踪器相竞争。我们的跟踪器在这些基准测试中以更快的速度获得了令人印象深刻的性能 [1804.07459v2] 我们建议一个简单而有效的更新策略来提高跟踪性能。对两个跟踪基准进行全面评估,实验结果表明我们的方法与众多最先进的跟踪器相竞争。我们的跟踪器在这些基准测试中以更快的速度获得了令人印象深刻的性能 [1804.07459v2]

 

学习深度残留网络中的严格身份映射

Xin Yu, Zhiding Yu, Srikumar Ramalingam

称为残余网络或ResNet的超深网络系列在诸如图像识别,对象检测和语义分割等各种视觉任务中取得了创纪录的表现。培养非常深的网络的能力自然推动研究人员使用巨大的资源来实现最佳性能。因此,在许多应用中,超深度残余网络仅用于性能的边际改进。在本文中,我们提出了epsilon-ResNet,它允许我们自动丢弃冗余层,这会产生小于阈值ε的响应,并且性能边际或无损。在ResNet中使用一些额外的整流线性单元可以实现epsilon-ResNet架构。我们的方法不像其他超参数优化技术那样使用任何附加变量或许多试验。使用单一训练过程实现图层选择,并在CIFAR-10CIFAR-100SVHNImageNet数据集上执行评估。在某些情况下,我们实现了大约80%的参数减少。[1804.01661v3]

 

旋转等变网络对敌对象的鲁棒性

Beranger DumontSimona MaggioPablo Montalvo

已经证明深度神经网络容易受到对抗性例子的影响:输入的微小扰动对预测产生了巨大影响。已经提出了大量敌对攻击和距离度量来量化自然和敌对图像之间的相似性,最近通过几何变换扩大了对抗性示例的范围,而不是像素级攻击。在这种情况下,我们调查新的卷积神经网络体系结构的对抗性攻击的鲁棒性,为旋转提供等价性。我们发现,与MNISTCIFAR-10ImageNet数据集上的常规网络相比,旋转等变网络对基于几何的攻击的脆弱性要小得多。[1802.06627v2]

 

深度学习对皮肤病的监督分类

Sourav Mishra,山崎俊彦,今井英昭

本文介绍了一种基于深度学习的高效分类器,用于常见皮肤病症状,针对不易接触皮肤专家的人群。根据最近的文献,我们报告了大约80%的准确性,在初级保健医生成功率达到57%的情况下。其设计的基本原理是在不久的将来在手持设备上进行部署和更新。皮肤病在每个人群中都很常见,并且病情严重。由于一些国家的皮肤病学专业知识短缺,机器学习解决方案可以增强医疗服务并就常见疾病的存在提供咨询。本文对东亚国家发生率高的九个不同情况进行了监督分类。我们目前的尝试确立了基于深度学习的技术是初步信息帮助患者的可行途径。[1802.03752v2]

 

敌对补丁

汤姆布朗,蒲公英鬃毛,奥罗伊罗伊,马丁阿巴迪,贾斯汀吉尔默

我们提出了一种在现实世界中创建通用,强大,有针对性的对抗图像补丁的方法。这些补丁是通用的,因为它们可以用来攻击任何场景,因为它们在各种各样的变换下工作,并且是有针对性的,因为它们可以导致分类器输出任何目标类。这些敌对补丁可以打印,添加到任何场景,拍摄并呈现给图像分类器即使补丁很小,也会导致分类器忽略场景中的其他项目并报告选定的目标类别。要从论文中重现结果,我们的代码可在https://github.com/tensorflow/cleverhans/tree/master/examples/adversarial_patch [1712.09665v2]

 

FSSD:特征融合单发多盒检测器

Zuoxin Li, Fuqiang Zhou

SSDSingle Shot Multibox Detector)是高精度和高速度的最佳物体检测算法之一。然而,SSD的特征金字塔检测方法使得难以融合不同尺度的特征。在本文中,我们提出了FSSD(特征融合单发多盒检测器),这是一种增强型SSD,具有新颖轻便的特征融合模块,只需稍微降低速度,就可以显着提高SSD的性能。在特征融合模块中,来自不同尺度的不同层的特征被连接在一起,接着是一些下采样块以生成新的特征金字塔,其将被馈送到多盒检测器以预测最终的检测结果。在Pascal VOC 2007测试中,我们的网络可以以65的速度达到82.7 mAP(平均精度)。8FPS(每秒帧数),使用单个Nvidia 1080Ti GPU,输入尺寸300 $ \ times $ 300。另外,我们在COCO上的成果也比传统的SSD有更大的优势。我们的FSSD在准确性和速度方面都超过了许多最先进的物体检测算法。代码位于https://github.com/lzx1413/CAFFE_SSD/tree/fssd[1712.00960v3]

 

学习使用视觉注意网络检测包含肺结节的胸部X光片

Emanuele PescePetros-Pavlos YpsilantisSamuel WitheyRobert BakewellVicky GohGiovanni Montana

机器学习方法对于胸部X光片中肺部结节的自动检测具有很大的潜力,但是对算法进行训练需要大量的手动注释图像,而这些图像很难获得。通过解析与X光片相关的历史自由文本放射学报告,通常较容易获得指示X光片是否可能包含肺结节的薄弱标签。在本研究中,我们使用超过700,000张胸部X光片的储存库,证明使用弱标签通过用于X光照片分类的卷积神经网络可以实现有前景的结节检测性能。我们提出了两种网络架构,用于使用弱标签和手动划定的边界框对可能包含肺结节的图像进行分类,当这些可用时。训练时使用带注释的结节来提供视觉注意机制,通知模型关于其定位性能。第一种架构从高级卷积层中提取显着图,并在可用时比较结核的估计位置与地面实况。然后相应的定位误差与softmax分类错误一起反向传播。第二种方法包括经常性关注模型,通过强化学习学习观察较短图像部分的短序列。当在训练时可得到结节注释时,奖励函数会相应地进行修改,以便探查射线照片远离结节的部分会导致更大的惩罚。我们的实证结果表明,与竞争方法相比,这些体系结构的潜在优势。[1712.00996v2]

 

类分裂生成敌对网络

Guillermo L. GrinblatLucas C. UzalPablo M. Granitto

当提供类别标签信息时,即在条件GAN设置中,生成对抗网络(GAN)产生系统更好的质量样本。对于最近提出的稳定对抗训练的Wasserstein GAN公式,仍然可以观察到这一点,并允许考虑高容量网络架构,如ResNet。在这项工作中,我们展示了如何通过增加可用的类标签来提高条件GAN。新的类来自于通过相同GAN模型学习的表示空间中的聚类。当没有类别信息可用时,即在无监督设置中,所提出的策略也是可行的。我们生成的样本在受监督和无监督设置下均达到了CIFAR-10STL-10数据集的最先进Inception分数。[1709.07359v2]

 

超收敛:用大学习速度快速训练神经网络

Leslie N. SmithNicholay Topin

在本文中,我们描述了一种现象,我们将其命名为超收敛,其中神经网络可以比标准训练方法训练快一个数量级。超融合的存在与理解深层网络泛化的原因有关。超级融合的关键要素之一是训练有一个学习速率周期和一个大的最大学习速率。允许超收敛训练的主要观点是大的学习率规范训练,因此需要减少所有其他形式的正则化以保持最佳的正则化平衡。我们还推导了Hessian Free优化方法的简化来计算最优学习率的估计。实验证明Cifar-10/100具有超收敛性,MNISTImagenet数据集,以及resnetwide-resnetdensenet和初始体系结构。此外,我们证明,当标记训练数据量有限时,超融合相对于标准训练提供了更大的性能提升。本文中复制数字的体系结构和代码可在github.com/lnsmith54/super-convergence上找到。请参阅http://www.fast.ai/2018/04/30/dawnbench-fastai/了解超融合的应用以赢得DAWNBench挑战(请参阅https://dawn.cs.stanford.edu/benchmark/ [1708.07120v3] 本文中复制数字的体系结构和代码可在github.com/lnsmith54/super-convergence上找到。请参阅http://www.fast.ai/2018/04/30/dawnbench-fastai/了解超融合的应用以赢得DAWNBench挑战(请参阅https://dawn.cs.stanford.edu/benchmark/ [1708.07120v3] 本文中复制数字的体系结构和代码可在github.com/lnsmith54/super-convergence上找到。请参阅http://www.fast.ai/2018/04/30/dawnbench-fastai/了解超融合的应用以赢得DAWNBench挑战(请参阅https://dawn.cs.stanford.edu/benchmark/ [1708.07120v3]

 

动作集:弱监督行动分割没有排序约束

Alexander RichardHilde KuehneJuergen Gall

视频中的动作检测和时间分割是越来越令人感兴趣的话题。尽管最近受到全面监督的系统备受关注,但视频中每个动作的完整注释对于大量视频数据而言是昂贵且不切实际的。因此,弱监督的动作检测和时间分割方法是非常重要的。虽然这方面的大多数作品都假设要发出一系列有序的行为,但我们的方法只使用一组行为。这样的行动集提供的监督少得多,因为行动排序和行动发生次数都是未知的。作为交换,它们可以很容易地从元标签中获得,而有序序列仍然需要人工注释。我们引入了一个自动学习的系统,可以在视频中临时分段和标记动作,其中唯一使用的监督是动作集。对三个数据集的评估表明,尽管监督数量明显小于其他相关方法,但我们的方法仍然取得了良好的结果。[1706.00699v2]

转载请注明:《DeepGlobe 2018卫星图像理解挑战赛+视差滑动窗口:视差图像中的目标候选

发表评论