每秒200帧的目标检测+ PointNetVLAD:基于深度点云检索的大范围地点识别

基于混合强度和事件传感器的真实感图像重构

Prasan A ShedligeriKetul ShahDhruv KumarKaushik Mitra

基于事件的传感器将像素明显的对比度变化编码为正或负事件发生时的瞬间。与传统图像传感器相比,这种模式转变提供了低带宽要求,低运行功耗要求和低延迟等优势。但是,在编码这些对比度变化的过程中,大部分空间强度信息都会丢失。以前一直试图直接从事件数据中恢复丢失的强度信息。虽然结果很有希望,但它们缺乏自然视频的质感和一致性。我们建议通过使用低帧率传统相机和事件传感器来重建照片级强度图像。低帧率的传统相机为我们提供了丰富的纹理信息,而事件传感器为我们提供了密集的时间测量。我们通过将低帧速率视频扭曲到只有事件传感器数据的中间位置来结合两者的优势,从而获得高帧速率视频。为了完成这个任务,我们需要了解场景深度和密集的自我运动估计。我们建议使用无监督的免学习方法来估计低帧速率图像的深度。与以前的作品不同,我们不是直接从事件来估计自我运动,而是提出一个基于自动编码器的模型来将事件映射到伪强度帧。使用伪强度帧作为输入,我们提出了一种无监督的免学习方法,由Deep Image Prior调整以估计传感器的自我运动。最后,我们在真实的混合传感器(DAVIS)数据集上演示照片般逼真的重建。[1805

 

神经多尺度图像压缩

Ken NakanishiShin-ichi MaedaTakeru MiyatoDaisuke Okanohara

本研究提出了一种新的有损图像压缩方法,利用自然图像的多尺度特征。我们的模型由两个网络组成:多尺度有损自编码器和并行多尺度无损编码器。多尺度有损自动编码器将多尺度图像特征提取为量化变量,并行多尺度无损编码器通过并行编码/解码变量实现量化变量的快速和准确无损编码。我们提出的模型在柯达和RAISE-1k数据集图像上实现了与最先进的模型相媲美的性能,并且使用单个GPU和单个CPU进程在70 ms内对尺寸为$ 768 / times 512 $PNG图像进行编码并在大约200毫秒内将其解码成高保真图像。[1805.06386v1]

 

确定持久性同源性的关键点

Asirimath CharmJayampathy MoreChathuranga Weeraddana

计算大点云的单纯复合常常依赖于提取样本,以减少相关的计算负担。该研究考虑对与点云相关的莫尔斯函数的临界点进行采样,以近似Vietoris-Rips复合体或见证复合体并计算持久性同源性。在使用持久性同源性将人脸图像分类为民族群体的情况下,将新颖方法的效果与最远点采样进行比较。[1805.06148v1]

 

预测3D网格细化的下一个最佳视图

Luca MorrealeAndrea RomanoniMatteo Matteucci

3D重建是许多应用程序的核心任务,例如机器人导航或站点检查。寻找最佳姿势来捕捉部分场景是Next Next View名下最具挑战性的主题之一。最近,已经提出了许多容积方法他们通过对3D体素化空间进行推理并找出哪个姿态最小化解码为体素的不确定性来选择Next Best View。这种方法是有效的,但是它们不能很好地扩展,因为下层代表需要大量的内存。在本文中,我们提出了一种新颖的基于网格的方法,其侧重于环境网格的最坏的重建区域。我们定义一个照片一致的索引来评估三维网格的精度,以及在网格的最差区域上的能量函数,其考虑到相对于先前摄像机的相互视差,观看光线对表面的入射角以及该区域的可见度。我们通过众所周知的数据集来测试我们的方法,并获得最新的结果。[1805.06207v1]

 

PACT:量化神经网络的参数化剪切激活

Jungwook财,卓旺,SwagathVenkataramani,皮尔斯电子仁庄,维贾雅拉克希米斯里尼瓦桑,凯拉什戈帕拉克里希南

深度学习算法以高计算成本为代价实现了高分类精度。为了解决这个成本问题,已经提出了一些量化方案但是这些技术大多集中在量化权重上,权重相对于激活而言相对较小。本文提出了一种用于训练期间激活的新型量化方案使神经网络能够以超低精度加权和激活良好地工作,而不会显着降低精度。这种技术,参数化裁剪活动(PACT),使用在训练期间优化的激活限幅参数$ \ alpha $来找到正确的量化比例。PACT允许将激活量化为任意比特精度,同时相对于公布的最先进的量化方案实现更好的准确性。我们首次表明,权重和激活可以被量化到4位的精度,同时仍然可以在一系列流行的模型和数据集中实现与全精度网络相当的精度。我们还表明,在硬件中利用这些精度降低的计算单元可以实现推理性能的超线性改进,这是因为加速计算引擎的面积显着减小,并且能够将量化模型和激活数据保留在片上系统中,芯片存储器。[1805.06085v1] 无论是权重还是激活都可以量化到4位精度,同时仍然可以实现精确度与一系列流行模型和数据集中的全精度网络相当的精度。我们还表明,在硬件中利用这些精度降低的计算单元可以实现推理性能的超线性改进,这是因为加速计算引擎的面积显着减小,并且能够将量化模型和激活数据保留在片上系统中,芯片存储器。[1805.06085v1] 无论是权重还是激活都可以量化到4位精度,同时仍然可以实现精确度与一系列流行模型和数据集中的全精度网络相当的精度。我们还表明,在硬件中利用这些精度降低的计算单元可以实现推理性能的超线性改进,这是因为加速计算引擎的面积显着减小,并且能够将量化模型和激活数据保留在片上系统中,芯片存储器。[1805.06085v1] 我们还表明,在硬件中利用这些精度降低的计算单元可以实现推理性能的超线性改进,这是因为加速计算引擎的面积显着减小,并且能够将量化模型和激活数据保留在片上系统中,芯片存储器。[1805.06085v1] 我们还表明,在硬件中利用这些精度降低的计算单元可以实现推理性能的超线性改进,这是因为加速计算引擎的面积显着减小,并且能够将量化模型和激活数据保留在片上系统中,芯片存储器。[1805.06085v1]

 

冷冻层析成像中的大分子分类,分割和粗结构恢复的多任务学习

Chang Liu, Xiangrui Zeng, Kaiwen Wang, Qiang Guo, Min Xu

细胞电子冷冻层析成像(CECT)是一种功能强大的3D成像工具,用于研究单细胞内大分子的天然结构和组织。为了系统地识别和恢复由CECT捕获的大分子结构,已经开发了用于诸如子图分类和语义分割的若干重要任务的方法。然而,由于高分子结构多样性,拥挤的分子环境和CECT的成像限制,大分子结构的识别和回收仍然非常困难。在本文中,我们提出了一种新的多任务三维卷积神经网络模型,用于同时分类,分割和子结构图中感兴趣的大分子的粗结构恢复。在我们的模型中,一个任务的学习图像特征被共享,从而相互加强其他任务的学习。通过对实际模拟和实验CECT数据的评估,我们的多任务学习模型胜过了所有单任务学习方法的分类和分割。另外,我们证明我们的模型可以概括发现,分割和恢复训练数据中不存在的新颖结构。[1805.06332v1]

 

空间变换器内点神经网络

Yunhan Zhao, Ye Tian, Wei Shen, Alan Yuille

自然图像包含许多变化,例如照明差异,仿射变换和形状失真。正确地对这些变化进行分类是一个长期存在的问题。最常采用的解决方案是构建包含不同变化对象的大型数据集。然而,这种方法并不理想,因为它在计算上花费很大,并且很难涵盖单个数据集中的所有变化。为了解决这个难题,我们提出了空间变换器内省神经网络(ST-INN),其明确地生成具有训练集中不可见的仿射变换变化的样本。实验结果表明,ST-INN在几种基准数据集上实现了分类准确度提升,包括MNISTaffNISTSVHNCIFAR-10。我们进一步扩展了我们的方法,以交叉数据集分类任务和少量学习问题来验证我们的方法在极端条件下并观察实验结果的实质性改进。[1805.06447v1]

 

用于图像排列的轻量级金字塔网络

Xueyang Fu, Borong Liang, Yue Huang, Xinghao Ding, John Paisley

现有的深卷积神经网络已经在图像放大方面取得了重大成功,但是以大量参数为代价。这限制了他们的潜在应用,例如在移动设备中。在本文中,我们提出了一种用于单个图像排序的轻量级金字塔网络(LPNet)。我们不是设计复杂的网络结构,而是使用领域特定的知识来简化学习过程。具体而言,我们发现通过将成熟的高斯拉普拉斯图像金字塔分解技术引入到神经网络中,每个金字塔等级的学习问题被大大简化,并且可以由参数较少的相对较浅的网络来处理。我们采用递归和残差网络结构来构建提出的LPNet,其具有小于8K的参数,同时仍然在除雨方面达到最先进的性能。我们还讨论LPNet对其他低级和高级视觉任务的潜在价值。[1805.06173v1]

 

QuaterNet:基于四元数的人体运动循环模型

Dario PavlloDavid GrangierMichael Auli

用于预测或生成3D人体姿势序列的深度学习是一个活跃的研究领域。以前的工作要么是联合轮换,要么是联合职位。前一种策略很容易在运动链中产生误差累积,以及在使用欧拉角或指数图参数化时容易产生不连续性。后者需要重新投影到骨架约束上以避免骨骼伸展和无效配置。这项工作解决了两个限制。我们的经常性网络QuaterNet表示四元数的旋转,而我们的损失函数在骨架上执行正向运动以惩罚绝对位置误差而不是角度误差。在短期预测方面,QuaterNet可以定量地改进现有技术。对于长期生成,我们的方法在图形文献中被定性地判断为最新的神经策略。[1805.06485v1]

 

用卷积神经网络自动分割脊髓和髓内多发性硬化病变

Charley Gros Benjamin De Leener Atef Badji Josefina Maranzano Dominique Eden Sara M. Dupont Jason Talbott任卓超刘亚栋Tobias Granberg Russell Ouellette Tutibana Masaaki Hori Kouhei Kamiya Lydia Chougar Leszek Stawiarz Jan HillertElise BannierAnne KerbratGilles EdanPierre LabaugeVirginie CallotJean PelletierBertrand AudoinHenitsoa RasoanandrianinaJean-Christophe BrissetPaola ValsasinaMaria A. RoccaMassimo FilippiRohit BakshiShahamat Tauhid Ferran Prados Marios Yiannakas Hugh Kearney Olga Ciccarelli Seth Smith Constantina Andrada Treaba Caterina Mainero Jennifer Lefeuvre Daniel S. Reich Govind Nair Vincent Auclair Donald G. McLaren Allan R. Martin Michael G. Fehlings Shahabeddin VahdatAli KhatibiJulien DoyonTimothy ShepherdErik CharlsonSridar Narayanan,朱利安科恩阿达德

多发性硬化症(MS)患者的脊髓经常受到萎缩和/或损伤的影响。MRI数据对脊髓和病灶的分割提供了萎缩和病变负担的测量,这是MS诊断,预后和纵向监测的关键标准。由于与采集参数和图像伪影有很大的可变性,因此跨多中心脊髓数据实现稳健可靠的分割具有挑战性。特别是,病灶对比度,大小,位置和形状的广泛异质性阻碍了对病灶的精确划分。这项研究的目标是开发一个全自动框架,强大的图像参数和临床条件的可变性,从传统的MRI数据分割脊髓和髓内MS病变。这项多中心研究纳入了1042名成人受试者(459名健康对照者,471MS患者和112名患有其他脊柱病变者)(n = 30个中心)。数据跨越了3个对比(T1-T2-T2 * – 加权),总共1943卷,并且在分辨率,取向,覆盖范围和临床条件方面具有较大的异质性。所提出的脊髓和病变自动分割方法基于两个卷积神经网络(CNN)的级联:具有2D扩张卷积的第一CNN检测脊髓中心线,然后是第二个3D CNN,其分割脊髓和病变。与先进的脊髓分割方法(PropSeg)相比,我们基于CNN的方法显示中位骰子为95%,而PropSeg88%。关于病灶分割,我们的框架,当与手动分割MS患者相比时,提供了83%的病灶检测灵敏度,77%的精确度,15%的相对体积差和60%的骰子。提议的框架是开源的,可在脊髓工具箱中找到。[1805.06349v1]

 

针对患者独立特征学习的对抗训练,使用IVOCT数据进行斑块分类

Nils GessertMarkus HeyderSarah LatusDavid M. LeistnerYoussef S. AbdelwahedMatthias LutzAlexander Schlaefer

在过去几年中,深度学习方法对于各种医疗问题显示出令人印象深刻的结果。但是,由于耗时的注释,数据集往往很小。由于具有不同患者的数据集经常是非常异类的,因此推广新患者可能是困难的。如果可能发生图像采集方面的巨大差异,这将进一步复杂化,这在冠脉斑块成像的血管内光学相干断层扫描术中是常见的。我们用对抗训练策略解决了这个问题,我们迫使部分深度神经网络学习不依赖于患者或特定特征的特征。我们将我们的正则化方法与典型的数据增强策略进行比较,并表明我们的方法可以提高小型医疗数据集的性能。[1805.06223v1]

 

随机等全集的鲁棒6D物体姿态估计

Chaitanya MitashAbdeslam BoulariasKostas Bekris

对象位姿估算常常通过首先对RGB图像进行分段,然后在给定深度数据的情况下将对应的点云段针对对象的3D模型进行配准来实现。尽管CNN取得了进展,但语义分割输出可能会很嘈杂,尤其是当CNN仅仅通过合成数据进行训练时。这会导致注册方法无法估计出良好的对象姿态。这项工作提出了一种新的随机优化过程,将CNN的分割输出视为置信概率。称为随机全等集(StoCS)的算法根据软分割分布对点云上的点集进行采样,以便与对象的已知几何形状一致。然后将点集与3D对象模型上的全等集相匹配以生成姿态估计。尽管CNN仅在合成数据上进行了训练,但StoCSAPC数据集上表现出很强大。在YCB数据集中,StoCS优于最近的6D姿态估计网络和替代点集匹配技术。[1805.06324v1]

 

基于量子KNN算法的图像分类

Yijie Dang, Nan Jiang, Hao Hu, Zhuoxiao Ji, Wenyin Zhang

图像分类是机器学习和图像处理领域的一项重要任务。然而,通常使用的分类方法— K最近邻算法具有很高的复杂度,因为它的两个主要过程:相似性计算和搜索是耗时的。特别是在大数据时代,当要分类的图像数量很大时,问题突出。在本文中,我们试图利用量子计算机强大的并行计算能力来优化图像分类的效率。该方案基于量子K最近邻算法。首先,在经典计算机上提取图像的特征向量。然后将特征向量输入到量子叠加态,用于实现并行计算相似度。下一个,量子最小搜索算法用于加速搜索过程的相似度。最后,图像通过量子测量进行分类。量子算法的复杂度仅为O((kM^1/2)),优于经典算法。而且,测量步骤仅执行一次以确保方案的有效性。实验结果表明,Graz-01数据集的分类准确率为83.1%,Caltech-101数据集的分类准确率为78%,与已有的经典算法相近。因此,我们的量子方案具有良好的分类性能,同时大大提高了效率。[1805.06260v1] 这比经典算法更优越。而且,测量步骤仅执行一次以确保方案的有效性。实验结果表明,Graz-01数据集的分类准确率为83.1%,Caltech-101数据集的分类准确率为78%,与已有的经典算法相近。因此,我们的量子方案具有良好的分类性能,同时大大提高了效率。[1805.06260v1] 这比经典算法更优越。而且,测量步骤仅执行一次以确保方案的有效性。实验结果表明,Graz-01数据集的分类准确率为83.1%,Caltech-101数据集的分类准确率为78%,与已有的经典算法相近。因此,我们的量子方案具有良好的分类性能,同时大大提高了效率。[1805.06260v1]

 

每秒200帧的目标检测

Rakesh MehtaCemalettin Ozturk

在本文中,我们提出了一种高效快速的物体检测器,可以每秒处理数百帧。为了实现这个目标,我们调查了目标检测框架的三个主要方面:网络架构,损失函数和训练数据(标记和未标记)。为了获得紧凑的网络体系结构,我们在最近的工作的基础上引入了各种改进,以开发计算轻量并且达到合理性能的体系结构。为了进一步提高性能,同时保持复杂性,我们利用蒸馏损失函数。使用蒸馏损失,我们将更准确的老师网络的知识转移到提议的轻量级学生网络。我们提出了各种创新技术,以提高所提出的一级探测器管道的蒸馏效率:对象缩放蒸馏损失,特征图非最大抑制和单一统一蒸馏损失函数进行检测。最后,在蒸馏损失的基础上,我们探索利用未标记的数据可以推动性能。我们使用教师网络的软标签对未标记的数据进行训练。我们的最终网络比基于VGG的对象检测网络少10倍的参数,并且它的速度可达到200 FPS以上,并且所提议的改变将Pascal数据集上的基线检测精度提高了14 mAP[1805.06361v1] 我们使用教师网络的软标签对未标记的数据进行训练。我们的最终网络比基于VGG的对象检测网络少10倍的参数,并且它的速度可达到200 FPS以上,并且所提议的改变将Pascal数据集上的基线检测精度提高了14 mAP[1805.06361v1] 我们使用教师网络的软标签对未标记的数据进行训练。我们的最终网络比基于VGG的对象检测网络少10倍的参数,并且它的速度可达到200 FPS以上,并且所提议的改变将Pascal数据集上的基线检测精度提高了14 mAP[1805.06361v1]

 

当回归满足流形学习的目标识别和姿态估计

Bui,谢尔盖ZakharovShadi AlbarqouniSlobodan IlicNassir Navab

在这项工作中,我们提出了一种利用卷积神经网络从深度图像进行物体识别和姿态估计的方法。解决这个问题的以前的方法依赖于流形学习来学习低维视点描述符,并将它们用于估计描述符空间上的最近邻居搜索。相比之下,我们创建了一个高效的多任务学习框架,结合了流形描述符学习和姿态回归。通过结合利用三重损失和姿态回归的流形学习的优势,我们可以估计姿态直接降低与NN搜索相比的复杂度,或者使用学习描述符进行NN描述符匹配。通过对新损失函数的深入实验评估,我们观察到网络学习的视图描述符的判别性更强,导致与相关作品相比,相对姿态精度增加了近30%。另一方面,关于直接回归姿势,我们获得了重要的改善与简单姿态回归相比。通过利用流形学习和回归任务的优势,我们能够改进目前最先进的物体识别和姿态检索技术,我们通过深入的实验评估证明了这一点。[1805.06400v1] 通过利用流形学习和回归任务的优势,我们能够改进目前最先进的物体识别和姿态检索技术,我们通过深入的实验评估证明了这一点。[1805.06400v1] 通过利用流形学习和回归任务的优势,我们能够改进目前最先进的物体识别和姿态检索技术,我们通过深入的实验评估证明了这一点。[1805.06400v1]

 

X射线血管造影视频中的深度分割和配准

Athanasios VlontzosKrystian Mikolajczyk

在介入放射学中,捕获运动中静脉结构的短视频序列以帮助医务人员识别血管问题或计划介入。语义分割可以通过指示船只和仪器的准确位置,大大提高这些视频的实用性,从而减少歧义。我们针对这些任务提出了一种实时分割方法,基于通过自动生成的注释在连体结构中训练的U-Net网络。我们利用噪声低级别的二值分割和光流生成多类别注释,这些注解在多级分割方法中得到了不断改进。我们在90fps的处理速度下显着提高了最先进的U-Net的性能。[1805.06406v1]

 

基于特征亲和度的伪标记用于半监督人员重新识别

Guodong Ding, Shanshan Zhang, Salman Khan, Zhenmin Tang, Jian Zhang, Fatih Porikli

个人重新识别旨在匹配多个相机流中的个人身份。深度神经网络已成功应用于具有挑战性的人员重新识别任务。一个显着的瓶颈是现有的深层模型数据饥渴且需要大量标记的训练数据。在大型监视摄像机装置中获取手动标注行人身份匹配是非常繁琐的任务。在这里,我们提出了第一个半监督方法,通过考虑特征空间中未标记和标记训练样本之间的复杂关系来执行伪标记。我们的方法首先通过对抗训练学习生成模型来近似实际的数据流形。鉴于训练有素的模型,可以通过生成未标记的新合成数据样本来执行数据增强。一个开放的研究问题是如何有效地使用这些额外的数据来改进特征学习。为此,本工作提出了一种基于特征相关性的伪标签(FAPL)方法,该方法在统一设置下具有两种可能的标签编码。我们的方法使用来自深度网络的中间特征表示来测量未标记样本与标记数据样本的基础聚类的亲和性。FAPL训练联合监督交叉熵损失和中心正则化项,这不仅确保了有区别的特征表示学习,而且还可以同时预测未标记数据的伪标签。我们在两个标准的大规模数据集上进行了广泛的实验,Market-1501DukeMTMC-reID与大多数情况下的密切相关的竞争对手相比显示出显着的性能提升,并且胜过了最先进的人员重新识别技术。[1805.06118v1]

 

自适应地融合图像金字塔预测的人群统计

KangAntoni Chan

由于深度神经网络的强大学习能力,过去几年来通过密度图估计的计数性能得到了显着提高。但是,由于严重的遮挡,大范围变化和透视失真,它仍然非常具有挑战性。尺度变化(从图像到图像)与透视畸变(在一个图像内)相结合,导致对象尺寸的巨大变化。早期的基于卷积神经网络(CNN)的方法通常没有明确处理这种尺度变化,直到Hydra-CNNMCNNMCNN使用三列,每列都具有不同的过滤器大小,以不同比例提取特征。在本文中,与使用不同尺寸的滤镜相比,我们利用图像金字塔来处理尺度变化。与使用更大的过滤器尺寸相比,调整馈送到网络中的输入的尺寸更有效和高效。其次,我们自适应地融合不同尺度的预测(使用自适应改变的每像素权重),这使得我们的方法适应图像内的尺度变化。自适应融合是通过生成跨尺度关注映射来实现的,该映射为每个像素轻松选择合适的尺度,然后进行1×1卷积。对三个流行数据集的广泛实验显示出非常令人信服的结果。[1805.06115v1] 自适应融合是通过生成跨尺度关注映射来实现的,该映射为每个像素轻松选择合适的尺度,然后进行1×1卷积。对三个流行数据集的广泛实验显示出非常令人信服的结果。[1805.06115v1] 自适应融合是通过生成跨尺度关注映射来实现的,该映射为每个像素轻松选择合适的尺度,然后进行1×1卷积。对三个流行数据集的广泛实验显示出非常令人信服的结果。[1805.06115v1]

 

对场景独立重新识别的深度CNN基线评估

Paul MarchwicaMichael JamiesonParthipan Siva

近年来,基于深度卷积神经网络(CNN)的各种提出的方 法已经改进了用于大规模人员重新识别(ReID)的现有技术。虽然已经提出了大量的优化和网络改进,但对培训数据和基线网络体系结构的影响的评估相对较少。特别是,通常假定网络是根据部署位置(与场景有关)在标签数据上进行培训,或者采用无标签数据进行调整,这两者都会使系统部署复杂化。在本文中,我们通过形成一个大型的复合数据集来研究实现与场景无关的人员ReID的可行性。我们在一系列训练数据集大小的基础上,对场景依赖和场景无关ReID的几种CNN基线架构进行了深入比较。我们表明,与场景无关的ReID可以产生领先的结果,与无监督域自适应技术相竞争。最后,我们介绍一个新的数据集,用于比较摄像机内和摄像机之间的人员ReID[1805.06086v1]

 

基于视觉的自动桥接组件识别集成了高级场景理解

Yasutaka NarazakiVedhus HoskereTu A. HoangBillie F. Spencer

由于数据采集的简便性和捕获视觉信息的优势,图像数据有助于对土木工程结构进行常规视觉检查。已经提出了各种技术来检测损坏,例如单个部件(柱和路面等)的特写图像上的裂缝和剥落。但是,这些技术通常会遭受严重的假阳性,特别是当图像包含多个不同结构的组件时。为了减少误报并提取关于结构状况的可靠信息,关键结构构件的检测和定位是损伤评估之前的重要第一步。这项研究旨在从城市场景图像中识别桥梁结构和非结构组件。在桥梁构件识别过程中,通过多尺度卷积神经网络(多尺度CNN)将每个图像像素划分为五类中的一类(非桥梁,柱,梁和板,其他结构,其他非结构)。为了减少误报并获得一致的标签,组件分类与场景理解相结合,通过额外的分类器与10个更高级别的场景类别(建筑,绿化,人员,路面,标志和杆,车辆,桥梁,水,天空,和别的)。与场景理解相结合的桥梁构件识别与没有场景分类的朴素方法在准确性,假阳性和一致性方面进行了比较,以证明综合方法的有效性。[1805.06041v1] 通过多尺度卷积神经网络(多尺度CNN)将每个图像像素分为五类(非桥梁,柱,梁和板,其他结构,其他非结构)中的一个。为了减少误报并获得一致的标签,组件分类与场景理解相结合,通过额外的分类器与10个更高级别的场景类别(建筑,绿化,人员,路面,标志和杆,车辆,桥梁,水,天空,和别的)。与场景理解相结合的桥梁构件识别与没有场景分类的朴素方法在准确性,假阳性和一致性方面进行了比较,以证明综合方法的有效性。[1805.06041v1] 通过多尺度卷积神经网络(多尺度CNN)将每个图像像素分为五类(非桥梁,柱,梁和板,其他结构,其他非结构)中的一个。为了减少误报并获得一致的标签,组件分类与场景理解相结合,通过额外的分类器与10个更高级别的场景类别(建筑,绿化,人员,路面,标志和杆,车辆,桥梁,水,天空,和别的)。与场景理解相结合的桥梁构件识别与没有场景分类的朴素方法在准确性,假阳性和一致性方面进行了比较,以证明综合方法的有效性。[1805.06041v1] 其他非结构)多尺度卷积神经网络(多尺度CNN)。为了减少误报并获得一致的标签,组件分类与场景理解相结合,通过额外的分类器与10个更高级别的场景类别(建筑,绿化,人员,路面,标志和杆,车辆,桥梁,水,天空,和别的)。与场景理解相结合的桥梁构件识别与没有场景分类的朴素方法在准确性,假阳性和一致性方面进行了比较,以证明综合方法的有效性。[1805.06041v1] 其他非结构)多尺度卷积神经网络(多尺度CNN)。为了减少误报并获得一致的标签,组件分类与场景理解相结合,通过额外的分类器与10个更高级别的场景类别(建筑,绿化,人员,路面,标志和杆,车辆,桥梁,水,天空,和别的)。与场景理解相结合的桥梁构件识别与没有场景分类的朴素方法在准确性,假阳性和一致性方面进行了比较,以证明综合方法的有效性。[1805.06041v1] 组件分类与场景理解相结合,通过额外的分类器与10个更高级别的场景类别(建筑,绿化,人员,路面,标志和杆,车辆,桥梁,水,天空等)进行分析。与场景理解相结合的桥梁构件识别与没有场景分类的朴素方法在准确性,假阳性和一致性方面进行了比较,以证明综合方法的有效性。[1805.06041v1] 组件分类与场景理解相结合,通过额外的分类器与10个更高级别的场景类别(建筑,绿化,人员,路面,标志和杆,车辆,桥梁,水,天空等)进行分析。与场景理解相结合的桥梁构件识别与没有场景分类的朴素方法在准确性,假阳性和一致性方面进行了比较,以证明综合方法的有效性。[1805.06041v1] 假阳性和一致性来证明综合方法的有效性。[1805.06041v1] 假阳性和一致性来证明综合方法的有效性。[1805.06041v1]

 

语义目标驱动导航的可视化表示

Arsalan MousavianAlexander ToshevMarek FiserJana KoseckaJames Davidson

什么是自主代理的良好视觉表示?我们在语义视觉导航的背景下解决了这个问题,这是一个机器人通过复杂的环境找到目标对象的问题,例如去冰箱。我们的方法不是获取环境的度量语义映射并使用导航规划,而是在捕获空间布局和语义上下文线索的表示之上学习导航策略。我们建议使用高级语义和上下文特征,包括通过现成的最新视觉获得的分割和检测掩模作为观察,并使用深度网络来学习导航策略。这个选择允许使用来自正交源的附加数据,为了更好地训练模型的不同部分,在大型标准视觉数据集上训练表示提取,同时导航部件利用大型合成环境进行训练。真正的和合成的这种组合是可能的,因为公平的特征表示在两个(例如,分割和检测掩码)中都是可用的,这减轻了域适应的需要。表示和导航策略都可以很容易地应用到真实的非合成环境中,如Active Vision Dataset [1]所示。我们的方法在未开发环境中成功达到54%的目标,而非基于非学习方法的为46%,基于学习的基线为28%。[1805.06066v1] 分割和检测掩码),这减轻了域适应的需要。表示和导航策略都可以很容易地应用到真实的非合成环境中,如Active Vision Dataset [1]所示。我们的方法在未开发环境中成功达到54%的目标,而非基于非学习方法的为46%,基于学习的基线为28%。[1805.06066v1] 分割和检测掩码),这减轻了域适应的需要。表示和导航策略都可以很容易地应用到真实的非合成环境中,如Active Vision Dataset [1]所示。我们的方法在未开发环境中成功达到54%的目标,而非基于非学习方法的为46%,基于学习的基线为28%。[1805.06066v1] 28%为基于学习的基线。[1805.06066v1] 28%为基于学习的基线。[1805.06066v1]

 

使用多尺度卷积神经网络的基于视觉的自动桥组分提取

Yasutaka NarazakiVedhus HoskereTu A. HoangBillie F. Spencer Jr

由于数据采集的简便性和捕获视觉信息的优势,图像数据很有可能帮助土木工程结构进行震后视觉检查。已应用各种技术从结构部件的特写图像中自动检测损坏。然而,当图像包含来自不同结构的多个部件时,自动损伤检测方法的应用变得越来越困难。为了减少不准确的误报警,首先需要识别关键结构部件,并且需要使用部件识别结果来清理损坏报警。为了实现这一目标,本研究旨在从城市场景图像中识别和提取桥梁组件。桥组件识别开始于一个图像按像素分类为10个场景类。然后,将原始图像和场景分类结果组合以将图像像素分类为五个组分类别。多尺度卷积神经网络(多尺度CNN)被用于执行逐像素分类,并且通过在超像素内进行平均并且通过条件随机场(CRF)进行平滑来对分类结果进行后处理。根据准确性和一致性测试桥梁构件提取的性能。[1805.06042v1] 多尺度卷积神经网络(多尺度CNN)被用于执行逐像素分类,并且通过在超像素内进行平均并且通过条件随机场(CRF)进行平滑来对分类结果进行后处理。根据准确性和一致性测试桥梁构件提取的性能。[1805.06042v1] 多尺度卷积神经网络(多尺度CNN)被用于执行逐像素分类,并且通过在超像素内进行平均并且通过条件随机场(CRF)进行平滑来对分类结果进行后处理。根据准确性和一致性测试桥梁构件提取的性能。[1805.06042v1]

 

ContextNet:实时探索语义分割的上下文和细节

Rudra PK PoudelUjwal BondeStephan LiwickiChristopher Zach

现代深度学习架构能够在许多具有挑战性的语义分割数据集上产生高度准确的结果 然而,最先进的方法不能直接转换到实时应用程序或嵌入式设备,因为这种系统的天真适应降低了计算成本(速度,存储器和能量),导致准确度显着下降。我们提出了ContextNet,一种基于分解卷积,网络压缩和金字塔表示的新型深度神经网络架构,能够在低内存需求的情况下实时生成具有竞争力的语义分割。ContextNet结合了低分辨率的深分支,可以高效地捕获全局上下文信息,并使用浅分支来聚焦高分辨率分割细节。我们在全面的消融研究中分析了我们的网络,并在Cityscapes数据集上呈现了结果,以完全(1024×2048)分辨率以18.3/秒的速度实现了66.1%的准确性。[1805.04554v2]

 

注意识别人员重新识别的组成网络

Jing Xu, Rui Zhao, Feng Zhu, Huaming Wang, Wanli Ouyang

人员重新识别(ReID)是基于视觉外观识别从不同摄像机视图观察到的行人。这是一个具有挑战性的任务,因为姿势变化很大,背景杂乱和严重遮挡。最近,通过预测关节位置进行的人体姿势估计在精度上大大提高。使用姿态估计结果来处理姿态变化和背景杂波是合理的,并且这样的尝试在ReID性能方面获得了很大改善。然而,我们认为姿态信息没有得到很好的利用,并且还没有被人充分利用。在这项工作中,我们为人ReID引入了一种称为注意感知组成网络(AACN)的新框架。AACN由两个主要组成部分组成:姿态引导部分注意(PPA)和注意感知特征组合(AFC)。学习PPA并将其应用于掩盖行人特征地图中不需要的背景特征。此外,为了处理所提出的AFC模块中的部分遮挡,对身体部分估计姿态引导的可见性分数。大量的消融分析实验显示了我们方法的有效性,并且在包括Market-1501CUHK03CUHK01SenseReIDCUHK03-NPDukeMMC-reID在内的多个公共数据集上实现了最新的结果。[1805.03344v2] 大量的消融分析实验显示了我们方法的有效性,并且在包括Market-1501CUHK03CUHK01SenseReIDCUHK03-NPDukeMMC-reID在内的多个公共数据集上实现了最新的结果。[1805.03344v2] 大量的消融分析实验显示了我们方法的有效性,并且在包括Market-1501CUHK03CUHK01SenseReIDCUHK03-NPDukeMMC-reID在内的多个公共数据集上实现了最新的结果。[1805.03344v2]

 

用黎曼几何计算姿态估计的CNN损失和梯度

Benjamin HouNina MiolaneBishesh KhanalMatthew CH LeeAmir AlansarySteven McDonaghJo V. HajnalDaniel RueckertBen GlockerBernhard Kainz

姿态估计,即在SE3)中关于固定坐标系预测3D刚性变换是医学图像分析中的无所不在的问题,其应用如图像刚性配准,解剖标准平面检测,跟踪和装置/相机姿态估计。深度学习方法通 常用一个表示来分隔旋转和平移的姿势。由于通常可用的框架不提供计算流形上的损失的方法,所以回归通常独立于旋转和翻译的参数化来使用L2规范来执行,该参数是线性空间的度量,其不考虑李群结构SE3)。在本文中,我们提出了姿态估计问题的一般黎曼公式。我们建议直接在SE3)上训练CNN,配备左不变黎曼度量,将翻译和旋转的预测结合起来定义姿态。在每个训练步骤中,地面实况和预测姿态是流形的元素,其中损失按照黎曼测地距离计算。然后,我们通过相对于流形SE3)的切线空间上的预测姿态向后传播梯度来计算优化方向,并更新网络权重。我们通过比较其性能和流行和最常用的现有方法,对诸如基于图像的定位和基于强度的2D / 3D配准等任务,彻底评估了我们损失函数的有效性。我们还表明,超参数,用于我们的损失函数来加权旋转和翻译之间的贡献,可以从数据集内部计算出来,以实现更高的性能余量。[1805.01026v2]

 

一种用于零点学习的大规模属性数据集

Bo Zhao, Yanwei Fu, Rui Liang, Jiahong Wu, Yonggang Wang, Yizhou Wang

零射击学习(ZSL)在过去几年引起了巨大的研究注意力,它旨在学习以前从未见过的新概念。在传统的ZSL算法中,属性被引入作为中间语义表示来实现从所看到的类到看不见的类的知识转移。先前的ZSL算法在几个基准数据集上进行测试,这些基准数据集用属性注释。但是,这些数据集在图像分布和属性多样性方面存在缺陷。另外,我们认为现有数据集的共现偏差问题是由对象的偏向共现导致的,这大大阻碍了模型正确地学习这个概念。为了克服这些问题,我们提出了一个大规模属性数据集(LAD)。我们的数据集有78个,5个超级班的230个班的017张图片。LAD的图像编号大于四个最流行的属性数据集的总和。视觉,语义和主观属性的359个属性在实例级定义和注释。我们通过进行监督学习和零点学习任务来分析我们的数据集。在这个新的数据集上测试了七种最先进的ZSL算法。实验结果揭示了在我们的数据集上实施零点学习的挑战。[1804.04314v2] 在这个新的数据集上测试了七种最先进的ZSL算法。实验结果揭示了在我们的数据集上实施零点学习的挑战。[1804.04314v2] 在这个新的数据集上测试了七种最先进的ZSL算法。实验结果揭示了在我们的数据集上实施零点学习的挑战。[1804.04314v2]

 

PointNetVLAD:用于大型场所识别的基于深度云的检索

Mikaela Angelina UyGim Hee Lee

与其基于图像的副本不同,基于点云的地方识别检索仍然是一个尚未解决的问题。这主要是由于难以从点云中提取局部特征描述符,其随后可能被编码为用于检索任务的全局描述符。在本文中,我们提出了PointNetVLAD,我们利用深网络最近的成功来解决基于点云的地点识别检索问题。具体来说,我们的PointNetVLAD是对现有PointNetNetV LAD的组合/修改,它允许端到端的训练和推断从给定的三维点云中提取全局描述符。此外,我们提出懒三重四联体” 损失函数可以实现更具区别性和可扩展性的全局描述符来处理检索任务。我们为地点识别创建基于点云的检索的基准数据集,并且这些数据集上的实验结果显示了我们的intNetVLAD的可行性。我们的代码和基准数据集下载链接可在我们的项目网站上找到。http://github.com/mikacuy/pointnetvlad/ [1804.03492v3]

 

SINet:用于快速车辆检测的尺度不敏感卷积神经网络

Xiaowei Hu, Xuemiao Xu, Yongjie Xiao, Hao Chen, Shengfeng He, Jing Qin, Pheng-Ann Heng

随着深度卷积神经网络(CNN)的发展,基于视觉的车辆检测方法近年来取得了令人难以置信的成功。然而,现有的基于CNN的算法面临的问题是卷积特征在物体检测任务中是尺度敏感的,但是通常情况下,交通图像和视频包含具有较大尺度变化的车辆。在本文中,我们深入研究了尺度敏感性的来源,揭示了两个关键问题:1)有的漫游池破坏了小尺度物体的结构,2)尺度方差的大类内距离超过了表示能力的单一网络。基于这些发现,我们提出了一种用于快速检测具有很大尺度变化的车辆的不敏感卷积神经网络(SINet)。第一,我们提出了一个上下文感知的Ro。其次,我们提出了一个多分支决策网络来最小化特征的类内距离。这些轻量级技术带来零时间复杂度,但突出的检测精度提高 所提出的技术可以配备任何深度网络架构,并保持到端的训练。我们的SINet在KITTI基准测试的准确性和速度(高达37 FPS)方面实现了最先进的性能表现,以及一个新的高速公路数据集,其中包含很大的尺度变化和极小的物体。[1804.00433v2] 我们提出了一个多分支决策网络来最小化特征的类内距离。这些轻量级技术带来零时间复杂度,但突出的检测精度提高 所提出的技术可以配备任何深度网络架构,并保持到端的训练。我们的SINet在KITTI基准测试的准确性和速度(高达37 FPS)方面实现了最先进的性能表现,以及一个新的高速公路数据集,其中包含很大的尺度变化和极小的物体。[1804.00433v2] 我们提出了一个多分支决策网络来最小化特征的类内距离。这些轻量级技术带来零时间复杂度,但突出的检测精度提高 所提出的技术可以配备任何深度网络架构,并保持到端的训练。我们的SINet在KITTI基准测试的准确性和速度(高达37 FPS)方面实现了最先进的性能表现,以及一个新的高速公路数据集,其中包含很大的尺度变化和极小的物体。[1804.00433v2] 我们的SINet在KITTI基准测试的准确性和速度(804.00433v2] 我们的SINet在KITTI基准测试的准确性和速度(高达37 FPS)方面实现了最先进的性能表现,以及一个新的高速公路数据集,其中包含很大的尺度变化和极小的物体。[1804.00433v2]

 

生成敌对网络的图像着色

Kamyar Nazeri,Eric Ng,Mehran Ebrahimi

在过去的十年中,自动图像着色的过程对于包括恢复退像在内的多个应用领域而言具有重大意义。由于颜色信息配过程中的自由大,这个问题非常不适合。自动着色中的许多最新发展涉及包含共同主题的图像或需要高度处理的数据(如语义图作为输入)。在我们的方法中,我们尝试使用有条件的深度卷积生成对抗网络(DCGAN)完全推广彩色化过程,将当前的方法扩展到高分辨率图像,并提出加速该过程并使其大大稳定的培训策略。该网络通过公开可用的数据集进行培训,如CIFAR-10和Places365。比较了生成模型和传统深度神经网络的结果。[1803.05400v5]

 

用于阴影检测的方向感知空间上下文特征

Xiaowei Hu, Lei Zhu, Chi-Wing Fu, Jing Qin, Pheng-Ann Heng

影检测是一项基本和具有挑战性的任务,因为它需要了解全局图像语义,并且阴影周围有各种背景。本文通过以方向感知的方式分析图像上下文,提出了一种用于阴影检测的新型网络。为了实现这个目标,我们首先通过在RNN中聚合空间环境特征时引入注意力权重来在空间递归神经网络(RNN)中制定方向感知关注机制。通过训练学习这些权重,我们可以恢复方向感知空间上下文(DSC)以检测阴影。这种设计被开发成DSC模块并嵌入到CNN中以学习不同级别的DSC功能。此外,加权交叉熵损失的设计使训练更有效。我们使用两个常见的阴影检测基准数据集并执行各种实验来评估我们的网络。实验模块并嵌入到CNN中以学习不同级别的DSC功能。此外,加权交叉熵损失的设计使训练更有效。我们使用两个常见的阴影检测基准数据集并执行各种实验来评估我们的网络。实验结果表明,我们的网络性能优于最先进的方法,精度达到97%,平衡误差率降低38%。[1712.04142v2]

 

ra Leal-Taixé

Daniel Cremers,Luc Van Gool

一般而言,视对象分割和视频处理在史上主要依赖于依赖于连续视频帧中时间一致性和冗余性的方法。当时间滑度突然中断时,例如当一个对被遮挡时,或者某些帧在一个序列中缺失时,这些方法的结果可能会显着恶化,甚至根本不会产生任何结果。本文探讨了独立处理每个帧的正交方法,即忽略时间信息。特别是,它解决了半监督视频对象分割的任务:在视频中将对象从背景中分离出来,给定其在第一帧中的掩码。我们提出语义单拍视频对象分割(OSVOS-S),基于全卷积神经网络架构,该架构能够连续地将在ImageNet上学习的通用语义信息转移到前景分割任务,并且最终学习测试序列的单个注释对象的外观(因此是一次拍摄) 。我们表明,实例级别的语义信息在有效组合时可以显着提高我们以前的方法OSVOS的结果。我们在两个最近的视频分割数据库上进行了实验,结果表明OSVOS-S既是现有术中速度最快,也是最准确的方法。[1709.06031v2] 我们表明,实例级别的语义信息在有效组合时可以显着提高我们以前的方法OSVOS的结果。我们在两个最近的视频分割数据库上进行了实验,结果表明OSVOS-S既是现有技术中速度最快,也是最准确的方法。[1709.06031v2] 我们表明,实例级别的语义信息在有效组合时可以显着提高我们以前的方法OSVOS的结果。我们在两个最近的视频分割数据库上进行了实验,结果表明OSVOS-S既是现有技术中速度最快,也是最准确的方法。[1709.06031v2]

 

朝向CNN地图表示和相机重新定位压缩

Luis Contreras,Walterio Mayol-Cuevas

本文介绍了卷积神经网络在相机重新定位在地图压缩中的应用。我们遵循最先进的视觉再定位结果并评估对不同数据入的响应。我们使用CNN地图表示,并通过使用较小的CNN体 系结构在此范例下引入地图压缩的概念,而不牺牲重新定位性能。我们通过一系列具有不同大小的CNN体 系结构在一系列公开可用的数据集中评估这种方法,无论是复杂性和层该公式使我们能够通过增加训练轨迹的数量来提高重定位精度,同时保持恒定大小的CNN。[1709.05972v2]

 

像中估计所有参数,

个人脸图像上的高级编辑功能(例如外观编辑和重新照明)可以实时实现。大多数先前的基于学习的人脸重建方不能共同恢复所有维度,或者在视到严重限制。相比之下,我们建议使用深度神经网络来恢复高质量的面部姿态,形状,表情,反射率和照度,该深度神经网络使用大型的,合成创建的训练语料库进行训练。我们的方法建立在新的损失函数上,它直接测量参数空间中的模型空间相似性,并显着提高重建准确性。我们在网络训练循环中进一步提出了一个自我监督的自举过程,它迭代地更新合成训练语料库以更好地反映真实世界图像的分布。我们证明,这种策略胜过完全综合训练的网络。最后,我们展示高质量的重建并将我们的方法与几种最先进的方法进行比较。[1703.10956v2] 我们证明,这种策略胜过完全综合训练的网络。最后,我们展示高质量的重建并将我们的方法与方法进行比较。[1703.10956v2] 我们证明,这种策略胜过完全综合训的网络。最后,我们展示高质量的重的方法与几种最先进的方法行比较。[1703.10956v2]

 

电阻抗层析成图像的超分辨率重建

Ricardo A. Borsoi,Julio CC Aya,Guilherme H. Costa,JoséCM Bermudez

形状,表情,反射和照明。通过从单个图像中估计所有参数,单个人脸图像上的高级编辑功能(例如外观编辑和重新照明)可以实时实现。大多数先前的基于学习的人脸重建方法不能共同恢复所有维度,或者在视觉质量方面受到严重限制。相比之下,我们建议使用深度神经网络来恢复高质量的面部姿态,形状,表情,反射率和照度,该深度神经网络使用大型的,合成创建的训练语料库进行训练。我们的方法建

在新的损失函数上,它直接测量参数空间中的模型空间相似性,并显着提高重建准确性。我们在网络训练循环中进一步提出了一个自我监督的自举过程,它迭代地更新合成训练语料库以更好地反映真实世界图像的分布。我们证明,这种策略胜过完全综合训练的网络。最后,我们展示高质量的重建并将我们的方法与几种最先进的方法进行比较。[1703.10956v2] 我们证明,这种策略胜过完全综合训练的网络。最后,我们展示高质量的重建并将我们的方法与几种最先进的方法进行比较。[1703.10956v2] 我们证明,这种策略胜过完全综合训练的网络。最后,我们展示高质量的重建并将我们的方法与几种最先进的方法进行比较。[1703.10956v2]

 

电阻抗层析成像图像的超分辨率重建

Ricardo A. BorsoiJulio CC AyaGuilherme H. CostaJoséCM Bermudez

电阻抗层析成像(EIT)系统正在变得流行,因为它们比竞争系统具有几个优点。但是,EIT导致分辨率非常低的图像。此外,EIT的非均匀采样特性排除了传统图像粗糙分辨率技术的直接应用。在这项工作中,我们提出了一种基于重采样的超分辨率方法来提高EIT图像质量。初步结果表明,所提出的技术可以显着提高EIT图像分辨率,使其与其他技术更具竞争力。[1701.00031v3]

转载请注明:《每秒200帧的目标检测+ PointNetVLAD:基于深度点云检索的大范围地点识别

发表评论