无关键点的细粒度头部姿态估计+Shift-Net:通过深度特征重排进行图像修复

FishEyeRecNet:鱼眼图像校正的多环境协作深度网络

Xiaoqing Yin, Xinchao Wang, Jun Yu, Maojun Zhang, Pascal Fua, Dacheng Tao

由鱼眼镜头拍摄的图像违反了针孔摄像机的假设并遭受失真。因此,鱼眼图像的校正对许多计算机视觉应用来说是一个至关重要的预处理步骤。在本文中,我们提出了一个端到端的多上下文协作深度网络,用于消除单个鱼眼图像的畸变。与专注于从输入图像提取手工特征的传统方法相反,我们的方法同时学习高级语义和低级外观特征来估计失真参数。为了便于训练,我们构建了一个涵盖各种场景和失真参数设置的合成数据集。对合成数据集和实际数据集进行的实验表明,所提出的模型明显优于当前的现有技术方法。我们的代码和合成数据集将公开发布。[1804.04784v1]

 

使用默认固有校准对单个圆圈进行姿态估计

Damien MariyanayagamPierre GurdjosSylvie ChambonBrunet FlorentCharvillat Vincent

圆形标记是平面标记,为检测和姿态估计提供了很好的性能。对于焦距未知的未校准照相机,通常需要至少两个共面圆圈的图像来恢复它们的姿势。不幸的是,在图像中检测多个椭圆必须是棘手且耗时的,特别是对于同心圆。另一方面,当相机被校准时,一个圆圈就足够了,但解决方案是双重的,难以消除歧义。我们的贡献是通过处理相机看到一个圆圈的未校准情况并讨论如何消除模糊性来超越此限制。我们提出了一个新的问题公式,可以显示如何检测可以消除歧义的几何配置。此外,我们引入默认摄像机内在的概念,并使用密集的经验着作展示令人惊讶的观察结果,即非常近似的校准可以导致精确的圆形姿态估计。[1804.04922v1]

 

深运动边界检测

Xiaoqing Yin, Xiyang Dai, Xinchao Wang, Maojun Zhang, Dacheng Tao, Larry Davis

运动边界检测是一个关键而又具有挑战性的问题 先前的方法专注于分析光流场的梯度和分布,或者使用手工制作的特征来进行运动边界学习。在本文中,我们提出了第一个专门用于运动边界检测的端到端深度学习方法,我们称之为MoBoNet。我们引入了细化网络结构,它将源输入图像,初始前向和后向光流以及相应的翘曲误差作为输入,并产生高分辨率运动边界。此外,我们显示通过我们设计的融合子网络获得的运动边界可以反过来引导光流去除伪像。拟议的MoBoNet是通用的,可与任何光学流程配合使用。我们的运动边界检测和精确的光流估计实现了优于现有技术的结果。[1804.04785v1]

 

基于深度生成模型的群体异常检测

Raghavendra ChalapathyEdward TothSanjay Chawla

与关注点异常的传统异常检测研究不同,我们的目标是检测单个数据点的异常集合。特别是,我们执行群组异常检测(GAD),强调不规则群组分布(例如图像像素的不规则混合)。GAD是检测现实应用中异常现象和异常现象的重要任务,如高能粒子物理学,社交媒体和医学成像。在本文中,我们采用一种生成方法,提出了深度生成模型:敌对自动编码器(AAE)和变分自动编码器(VAE),用于群体异常检测。AAEVAE都使用逐点输入数据检测组异常,其中组成员资格是先验已知的。我们进行了广泛的实验来评估我们在真实世界数据集上的模型。实证结果表明,我们的方法在检测组异常方面是有效和强大的。[1804.04876v1]

 

精确的时间动作本地化通过演变的时间建议

Haonan Qiu, Yingbin Zheng, Hao Ye, Yao Lu, Feng Wang, Liang He

在视频内容分析中定位长未压缩视频中的操作一直是一个具有挑战性的问题。现有的行动本地化方法的表现在精确确定行动的开始和结束时仍不令人满意。通过观察和改进来模仿人类感知过程,我们提出了一种新颖的三阶段行动本地化框架。我们的框架嵌入了行动网络,通过逐帧相似性分组生成初步建议,然后建立细化网络对这些建议进行边界调整。最后,将提炼的提案发送到本地化网络以进一步细化位置回归。在不同的时间粒度下,使用新颖的非局部金字塔特征可以将整个过程视为多阶段细化。我们评估了THUMOS14基准测试框架,并取得了显着改进。具体来说,在高IoU阈值的精确定位下性能增益显着。我们提出的框架达到了34.2%的mAP@IoU=0.5[1804.04803v1]

 

移动机器人的离线和在线校准以及用于导航的SLAM设备

Ryoichi IshikawaTakeshi OishiKatsushi Ikeuchi

机器人导航技术需要在各种环境中完成艰巨的任务。在导航中,有必要了解外部环境的信息和环境下机器人的状态。另一方面,已经对SLAM技术进行了各种研究,SLAM技术也用于导航,但也被应用于混合现实等的设备。在本文中,我们提出了一种在机器人上使用SLAM技术进行导航的机器人设备校准方法。通过使用机器人和设备提供的位置和方向信息进行校准。在校准过程中,根据机器人运动的限制,最有效的移动方式得以阐明。此外,我们还展示了一种动态校正机器人的位置和方向的方法,以便外部环境的信息和机器人的形状信息保持一致,以减少在导航期间发生的动态误差。我们的方法可以轻松用于各种机器人,并且具有足够的导航定位精度,可以进行离线校准和在线位置校正。在实验中,我们根据机器人运动的自由度确定了两种离线校准得到的参数,并通过绘制机器人激烈运动过程中的局部位置误差来验证在线校正方法的有效性。最后,我们展示使用SLAM设备的导航演示。[1804.04817v1] 我们的方法可以轻松用于各种机器人,并且具有足够的导航定位精度,可以进行离线校准和在线位置校正。在实验中,我们根据机器人运动的自由度确定了两种离线校准得到的参数,并通过绘制机器人激烈运动过程中的局部位置误差来验证在线校正方法的有效性。最后,我们展示使用SLAM设备的导航演示。[1804.04817v1] 我们的方法可以轻松用于各种机器人,并且具有足够的导航定位精度,可以进行离线校准和在线位置校正。在实验中,我们根据机器人运动的自由度确定了两种离线校准得到的参数,并通过绘制机器人激烈运动过程中的局部位置误差来验证在线校正方法的有效性。最后,我们展示使用SLAM设备的导航演示。[1804.04817v1] 激烈的运动。最后,我们展示使用SLAM设备的导航演示。[1804.04817v1] 激烈的运动。最后,我们展示使用SLAM设备的导航演示。[1804.04817v1]

 

学习深度草图抽象

Umar Riaz Muhammad, Yongxin Yang, Yi-Zhe Song, Tao Xiang, Timothy M. Hospedales

已经在包括素描识别,合成和基于细粒度草图的图像检索(FG-SBIR)在内的各种背景下研究人类手绘草图。草图分析的基本挑战是处理截然不同的人体绘画风格,特别是在抽象层面。在这项工作中,我们基于草图抽象的洞察力,提出了第一个中风级草图抽象模型,作为在素描的可识别性和绘制它的笔画数量之间进行折衷的过程。具体来说,我们通过强化学习中风清除策略来训练抽象素描生成模型,该策略学习如何预测哪些笔画可以安全地移除而不会影响可识别性。我们展示了我们的抽象模型可以用于各种草图分析任务,包括:(1)建模中风显着性和理解草图识别模型的决策;2)合成给定类别的变量抽象草图或照片中的参考对象实例;以及(3)仅用照片训练FG-SBIR模型,绕过昂贵的照片素描对收集步骤。[1804.04804v1]

 

O-HAZE:具有真正朦胧和无霾户外图像的除雾基准

Codruta O. AncutiCosmin AncutiRadu TimofteChristophe De Vleeschouwer

去除烟雾或除雾是一个具有挑战性的不合适问题,在过去几年引起了重大关注。尽管这种兴趣越来越大,但科学界仍缺乏一个参考数据集来客观地和定量地评估提出的去雾方法的性能。目前正在考虑用于评估和训练基于学习的去雾技术的少数数据集完全依赖于合成模糊图像。为了解决这个限制,我们引入了第一个户外场景数据库(名为O-HAZE),该数据库由真正朦胧和对应的无霾图像组成。在实践中,朦胧的图像被真实的雾霾所捕获,由专业的雾霾机器产生,OHAZE包含45个不同的户外场景,在相同的照明参数下,它们描绘了无雾和朦胧的条件下记录的相同视觉内容。为了说明其有用性,O-HAZE用于比较使用传统图像质量指标(如PSNRSSIMCIEDE2000)的一组具有代表性的现代除雾技术。这揭示了当前技术的局限性,并对其一些潜在的假设提出了疑问。[1804.05101v1]

 

MSnet:用于解缠视频表示的相互抑制网络

Jungbeom LeeJangho LeeSungmin LeeSungroh Yoon

从视频中提取有意义的特征非常重要,因为它们可以用于各种应用。尽管它的重要性,但视频表示学习还没有被研究太多,因为处理内容和运动信息都是有挑战性的。我们提出了一个互抑制网络(MSnet)来学习视频中的解开运动和内容特征。MSnet的训练方式是内容特征不包含运动信息,动作特征不包含内容信息这是通过对抗训练来压制对方来完成的。我们利用MSnet的解开特征来完成多项任务,如帧复制,像素级视频帧预测和密集光流估计,以展示MSnet的优势。所提出的模型优于像素级视频帧预测中的最先进方法。源代码将公开可用。[1804.04810v1]

 

用于高光谱图像超分辨率的无监督稀疏Dirichlet-Net

Ying Qu, Hairong Qi, Chiman Kwan

在许多计算机视觉应用中,在空间和频谱域获得高分辨率的图像同样重要。但是,由于硬件限制,人们只能期望在空间或频谱域中获得高分辨率的图像。本文关注高光谱图像超分辨率(HSI-SR),其中高空间分辨率(HR)的高光谱图像(HSI)与低空间分辨率(LR)但高光谱分辨率的多光谱图像(MSI)低光谱分辨率以获得HR HSI。现有的基于深度学习的解决方案都是受监督的,需要大量的训练集和HR HSI的可用性,这是不切实际的。这里,我们首次尝试使用无监督编码器解码器架构来解决HSI-SR问题,该解码器架构具有以下独特性。首先,它由两个编码器解码器网络组成,通过共享解码器耦合,以保留来自HSI网络的丰富频谱信息。其次,网络鼓励两种模式的表述遵循稀疏的Dirichlet分布,这种分布自然包含了HSIMSI的两个物理约束条件。第三,表示之间的角度差最小化,以减少光谱失真。我们将所提出的体系结构称为无监督的稀疏Dirichlet-NetuSDN。广泛的实验结果表明,与最先进的技术相比,uSDN的卓越性能。[1804.05042v1] 它由两个编码器解码器网络组成,通过共享解码器耦合,以保留来自HSI网络的丰富频谱信息。其次,网络鼓励两种模式的表述遵循稀疏的Dirichlet分布,这种分布自然包含了HSIMSI的两个物理约束条件。第三,表示之间的角度差最小化,以减少光谱失真。我们将所提出的体系结构称为无监督的稀疏Dirichlet-NetuSDN。广泛的实验结果表明,与最先进的技术相比,uSDN的卓越性能。[1804.05042v1] 它由两个编码器解码器网络组成,通过共享解码器耦合,以保留来自HSI网络的丰富频谱信息。其次,网络鼓励两种模式的表述遵循稀疏的Dirichlet分布,这种分布自然包含了HSIMSI的两个物理约束条件。第三,表示之间的角度差最小化,以减少光谱失真。我们将所提出的体系结构称为无监督的稀疏Dirichlet-NetuSDN。广泛的实验结果表明,与最先进的技术相比,uSDN的卓越性能。[1804.05042v1] 该网络鼓励两种模式的表述遵循稀疏的Dirichlet分布,这种分布自然地结合了HSIMSI的两种物理约束。第三,表示之间的角度差最小化,以减少光谱失真。我们将所提出的体系结构称为无监督的稀疏Dirichlet-NetuSDN。广泛的实验结果表明,与最先进的技术相比,uSDN的卓越性能。[1804.05042v1] 该网络鼓励两种模式的表述遵循稀疏的Dirichlet分布,这种分布自然地结合了HSIMSI的两种物理约束。第三,表示之间的角度差最小化,以减少光谱失真。我们将所提出的体系结构称为无监督的稀疏Dirichlet-NetuSDN。广泛的实验结果表明,与最先进的技术相比,uSDN的卓越性能。[1804.05042v1] 广泛的实验结果表明,与最先进的技术相比,uSDN的卓越性能。[1804.05042v1] 广泛的实验结果表明,与最先进的技术相比,uSDN的卓越性能。[1804.05042v1]

 

一种高效率的深层卷积拉普拉斯金字塔结构,用于低采样率下的CS重建

Wenxue Cui, Heyao Xu, Xinwei Gao, Shengping Zhang, Feng Jiang, Debin Zhao

由于大多数图像信号在特定域中是稀疏的,因此压缩感测(CS)已成功应用于图像压缩。已经提出了几种CS重建模型并获得了优异的性能。然而,在大多数情况下,这些方法在低采样率下会出现阻塞伪影或振铃效应。为了解决这个问题,我们提出了一个用于CS的深层卷积拉普拉斯金字塔压缩感知网络(LapCSNet),它由一个采样子网络和一个重构子网络组成。在采样子网络中,我们利用卷积层来模拟采样算子。与传统CS方法中使用的固定采样矩阵相比,卷积层中使用的滤波器与重构子网络共同优化。在重建子网络中,设计了两个分支,用拉普拉斯金字塔结构渐进地重建多尺度残差图像和多尺度目标图像。所提出的LapCSNet不仅集成了多尺度信息以实现更好的性能,而且还显着降低了计算成本。在基准数据集上的实验结果表明,所提出的方法能够针对现有技术方法重构更多细节和尖锐边缘。[1804.04970v1] 在基准数据集上的实验结果表明,所提出的方法能够针对现有技术方法重构更多细节和尖锐边缘。[1804.04970v1] 在基准数据集上的实验结果表明,所提出的方法能够针对现有技术方法重构更多细节和尖锐边缘。[1804.04970v1]

 

学习利用先验网络知识进行弱监督语义分割

Carolina Redondo-CabreraRoberto J.López-Sastre

训练用于语义分割的卷积神经网络(CNN)通常需要收集大量准确的像素级注释,这是一项艰巨而昂贵的任务。相反,简单的图像标签更容易收集。本文介绍一种新的弱监督语义分割模型,能够从图像标签中学习,并且只需要图像标签。我们的模型使用被训练用于图像识别的网络的先验知识,将这些图像注释用作识别图像中的语义区域的注意机制。然后,我们提出一种方法,可以从这些区域构建准确的特定于类的分割掩码,而不需要外部对象或显着性算法。我们描述了如何将这种掩模生成策略纳入一个完全端到端的可训练过程,在这个过程中,网络共同学习分类和分割图像。我们在PASCAL VOC 2012数据集上进行的实验表明,利用这些生成的特定类别掩码与我们的新型端到端学习过程相结合,胜过了最近几个仅使用图像标记的弱监督语义分割方法,甚至还有一些利用额外监督或训练数据。[1804.04882v1] 甚至一些利用额外监督或训练数据的模型。[1804.04882v1] 甚至一些利用额外监督或训练数据的模型。[1804.04882v1]

 

心脏CTA扫描中基于CNN的地标检测

Julia MH NoothoutBob D. de VosJelmer M. WolterinkTim LeinerIvanaIšgum

快速准确的解剖标志检测可以使许多医学图像分析方法受益。在这里,我们提出了一种自动检测医学图像中解剖标志的方法。自动地标检测是通过结合回归和分类的基于补丁的完全卷积神经网络(FCNN)执行的。对于任何给定的图像块,回归用于预测从图像块到地标的3D位移矢量。同时,分类用于识别包含地标的修补程序。在假设贴近地标的贴片可以比贴得更远的贴片更精确地确定地标位置的情况下,仅使用包含根据分类的地标的贴片来确定地标位置。地标位置是通过使用计算的3D位移矢量计算平均地标位置而获得的。该方法通过检测冠状动脉CT血管造影(CCTA)扫描中的六个临床相关标志点进行评估:右侧和左侧口,左主冠状动脉(LM)分叉到左前降支和左回旋动脉,以及右冠状动脉起源,非冠状动脉和左主动脉瓣连合。所提出的方法对于右侧和左侧开口分别实现了2.19mm2.88mm的平均欧几里德距离误差,对于LM的分叉而言分别为3.78mm和对于右侧,非右侧开口为1.82mm2.10mm1.89mm,冠状动脉和左主动脉瓣连合处,表现出准确的表现。建议的回归和分类组合可用于精确检测CCTA扫描中的地标。[1804.04963v1]

 

BodyNet3D人体形状的体积推断

GülVarolDuygu CeylanBryan RussellJimei YangErsin YumerIvan LaptevCordelia Schmid

人体形状评估是视频编辑,动画和时尚行业的一项重要任务。然而,从自然图像中预测3D人体形状,由于诸如人体,衣服和观点的变化等因素而非常具有挑战性。解决这个问题的现有方法通常试图将参数化身体模型与姿势和形状上的某些先验拟合起来。在这项工作中,我们提出了另一种表示方法,并提出BodyNet,一种用于从单个图像直接推导体积体形的神经网络。BodyNet是一个端到端的可训练网络,受益于(i)体积三维损失,(ii)多视图重新投影损失,以及(iii)二维姿态,二维身体局部分割和三维姿势。如我们的实验所证明的,它们中的每一个导致性能改善。为了评估这种方法,我们将SMPL模型拟合到我们的网络输出中,并在SURREALUnite the People数据集上显示出最新的结果,优于最近的方法。除了实现最先进的性能之外,我们的方法还可以实现容积式人体部分分割。[1804.04875v1]

 

用于稳健视觉惯性融合的样条误差加权

HannesOvrénPer-Erik Forssnn

在本文中,我们推导并测试了一种基于概率的权重,可以平衡样条拟合中不同类型的残差。与先前的公式相比,所提出的样条误差加权方案还包含对样条拟合的近似误差的预测。我们在合成实验中演示预测的有效性,并将其应用于卷帘式快门相机上的视觉惯性融合。这产生了一种方法,该方法可以在通用第一人称视频上使用度量标度来估计3D结构。我们还提出了样条拟合的质量测量,可用于自动选择结间距。实验证实获得的轨迹质量与所要求的质量很好地对应。最后,通过线性缩放权重,我们表明,所提出的样条误差加权使得在实际序列上的估计误差在尺度和端点误差方面最小化。[1804.04820v1]

 

比较,量词,比例:从视觉学习量的多任务模型

Sandro PezzelleIonut-Teodor SorodocRaffaella Bernardi

目前的工作研究是否可以通过多任务计算模型从视觉场景中共同学习不同的量化机制(集合比较,模糊量化和比例估计)。动机是,在人类中,这些过程构成了相同的认知,非符号能力,这允许自动估计和比较集合的量值。我们表明,当关于较低复杂度任务的信息可用时,较高级比例任务比单独执行时更加准确。而且,多任务模型能够推广到目标/非目标对象的不可见组合。与显示绝对数量在比例任务中的干扰的行为证据一致,当要求提供场景中的目标对象的数量时,多任务模型不再有效。[1804.05018v1]

 

卷积神经网络在脑部磁共振成像中使用基于一致性银标准掩模的颅骨剥离

Oeslle Lucena,罗伯托索萨,莱蒂西亚里特纳,理查德弗雷恩,罗伯托洛图福

用于医学成像的卷积神经网络(CNN)受训练阶段中所需的注释数据的数量限制。通常,手动注释被认为是黄金标准。然而,包含专家手动分割的医学成像数据集很少,因为这一步耗时,因此很昂贵。此外,单一评价人手注释最常用于数据驱动的方法,使得网络仅针对单个专家而言是最佳的。在这项工作中,我们提出了一种用于磁共振(MR)成像的脑部提取CNN,该成像已经完全接受我们称之为银标准掩模的训练。我们的方法包括1)开发一个以银标准掩码作为输入的数据集,并实施2)使用平行2D基于U-NetCNN(称为CON SNet)的三平面方法和3CONSNet的自动上下文实现。术语CONSNet指的是我们的综合方法,即用银标准掩模进行训练,并使用2D U-Net架构。我们的研究结果表明,我们的表现优于目前最先进的SS方法(即更大的Dice系数)。我们使用银色标准掩模降低了手动注释的成本,降低了评估人员之间的差异性,并避免了CNN细分超专业化,因此可以使用金标准掩模时可能出现的特定手动注释指南。而且,由于我们可以比较容易地为未标记的数据生成标签,所以银标准掩码的使用极大地扩大了输入标注数据的数量。此外,我们的方法的优点是,一旦训练完成,使用现代硬件(例如高端图形处理单元)处理典型的大脑图像体积仅需几秒钟。相比之下,许多其他竞争方法的处理时间为几分钟。[1804.04988v1]

 

I-HAZE:具有真正朦胧和无霾室内图像的除雾基准

Codruta O. AncutiCosmin AncutiRadu TimofteChristophe De Vleeschouwer

图像除雾已成为近年来重要的计算成像主题。然而,由于缺乏地面真实图像,除雾方法的比较不直观,也不客观。为了克服这个问题,我们引入了一个新的数据集名为I-HAZE-,其中包含35个朦胧和相应的无雾(地面实况)室内图像的图像对。与大多数现有的除雾数据库不同,朦胧的图像是由专业雾霾机器产生的真实阴霾产生的。为了便于颜色校准和改进评估去雾算法,每个场景都包含一个MacBeth颜色检查器。此外,由于图像是在受控环境下拍摄的,因此在相同照明条件下拍摄无雾和朦胧图像。这代表了I-HAZE数据集的一个重要优势,它使我们能够客观地比较使用传统图像质量指标(如PSNRSSIM)的现有图像去雾技术。[1804.05091v1]

 

面部替换识别混淆的混合模型

Qianru Sun, Ayush Tewari, Weipeng Xu, Mario Fritz, Christian Theobalt, Bernt Schiele

随着越来越多的个人照片在社交媒体上共享和标记,避免隐私风险(如意外识别)变得越来越具有挑战性。我们提出了一种新的混合方法,通过头部替换来混淆照片中的身份。我们的方法将先进的参数人脸合成技术与用于数据驱动的图像合成的生成敌对网络(GAN)的最新进展相结合。一方面,我们方法的参数部分使我们能够控制面部参数,并且允许对身份进行明确的处理。另一方面,数据驱动的方面允许添加精细的细节和整体的真实感以及无缝融合到场景环境中。在我们的实验中,我们展示了我们的系统的高度真实的输出,它改善了以前的混淆率,同时保留了与原始图像内容更高的相似度。[1804.04779v1]

 

通用图像吸引力排名框架

宁马,阿列克谢沃尔科夫,亚历山大Livshits,帕维尔Pietrusinski,胡同东,马克博林

我们提出了一个基准框架,使用一个大型并排多标记图像对训练的新模型对图像吸引力进行排序。我们使用一种有效的方法来收集大量不同的图像对,并直接评估每一对的相对吸引力。评委只需要提供两幅图像之间的相对排名,而不需要直接指定绝对分数。我们调查了深刻的吸引力排名网(DARN),深卷积神经网络和等级网的组合,在并排侧额定图像对训练后生成每个图像的吸引力分数均值和方差。深度神经网络共同学习从每个DNN特征到分数均值和方差的映射,以及评判者用来标记每个图像对的基本标准。该分数可以用作评价图像吸引力的有用特征。我们展示了模型的合理预测误差,并观察在真实的商业搜索引擎中使用此功能时显着的图像质量改进。[1805.00309v1]

 

通过边界侵蚀进行聚类

Cheng-Hao Deng, Wan-Lei Zhao

聚类分析根据样本的相互亲密度或均匀度将样本确定为群组。为了检测任意形状的聚类,提出了一种基于边界侵蚀的新颖而通用的解决方案。假设这些簇被相对稀疏的区域分隔开来。样品根据其动态边界密度依次被侵蚀。侵蚀从低密度区域开始,侵入内部,直到所有样品被侵蚀掉。通过这种方式,不同群集之间的界限变得越来越明显。因此,当它们之间的边界很难一次绘制时,它提供了一种自然而强大的方法来分离簇。随着被侵蚀的顺序,产生连续的边界层次,随后自动重建任意形状的聚类。正如在各种聚类任务中所展示的那样,它能够胜过大多数最先进的算法,并且在某些情况下其性能几乎完美。[1804.04312v2]

 

多模式无监督图像到图像转换

Xun Huang, Ming-Yu Liu, Serge Belongie, Jan Kautz

无监督的图像到图像转换是计算机视觉中的一个重要和具有挑战性的问题。给定源域中的图像,目标是学习目标域中相应图像的条件分布,而不会看到任何对应的图像对。尽管这种条件分布本质上是多模式的,但现有方法做了过于简化的假设,将其建模为确定性的一对一映射。结果,他们无法从给定的源域图像生成不同的输出。为了解决这个限制,我们提出了一个多模态无监督图像到图像转换(MUNIT)框架。我们假设图像表示可以分解为域不变的内容代码和捕获域特定属性的样式代码。为了将图像转换为另一个域,我们将其内容代码与从目标域的样式空间中抽取的随机样式代码重新组合。我们分析了提出的框架并建立了几个理论结果。通过与最先进的方法进行比较的大量实验进一步证明了所提出的框架的优点。此外,我们的框架允许用户通过提供示例样式图像来控制翻译输出的风格。代码和预训练模型可在https://github.com/nvlabs/MUNIT获得。[1804.04732v1] 通过与最先进的方法进行比较的大量实验进一步证明了所提出的框架的优点。此外,我们的框架允许用户通过提供示例样式图像来控制翻译输出的风格。代码和预训练模型可在https://github.com/nvlabs/MUNIT获得。[1804.04732v1] 通过与最先进的方法进行比较的大量实验进一步证明了所提出的框架的优点。此外,我们的框架允许用户通过提供示例样式图像来控制翻译输出的风格。代码和预训练模型可在https://github.com/nvlabs/MUNIT获得。[1804.04732v1]

 

比较与对比:学习突出的视觉差异

史蒂文陈,克里斯汀格劳曼

相对属性模型可以根据所有检测到的属性或属性比较图像,详尽地预测哪个图像更有趣,更自然,等等,而不考虑排序。然而,当人类比较图像时,某些差异会自然突出并首先浮现在脑海中。这些最显着的差异或显着差异可能首先被描述。另外,虽然存在许多差异,但可能根本没有提及。在这项工作中,我们介绍并建模了显着差异,这是一种用于比较图像的丰富新功能。我们收集最显着差异的实例级注释,并构建一个模型,对相关属性特征进行训练,预测未注册对的显着差异。我们在具有挑战性的UT-Zap50K鞋和LFW10面孔数据集上测试我们的模型,并且胜过一系列基准方法。然后,我们将展示我们的突出模型如何改进两个视觉任务,图像搜索和描述生成,实现人与视觉系统之间更自然的通信。[1804.00112v2]

 

Shift-Net:通过深度特征重排进行图像修复

Zhaoyi Yan, Xiaoming Li, Mu Li, Wangmeng Zuo, Shiguang Shan

深卷积网络(CNNs)在图像修复中展现出其可能结果的潜力。然而,在大多数现有方法中,例如上下文编码器,通过将完整连接层传播周围卷积特征来预测缺失部分,这意味着产生语义上合理但模糊的结果。在本文中,我们为U-Net架构引入了一个特殊的移位连接层,即Shift-Net,用于填充具有尖锐结构和精细纹理的任何形状的缺失区域。为此,已知区域的编码器特征被移位以用作对缺失部分的估计。在解码器特征上引入了引导损失,以使完全连接层之后的解码器特征与缺失部分的接地真实编码器特征之间的距离最小化。利用这种约束,可以使用缺失区域中的解码器特征来引导已知区域中的编码器特征的移位。进一步开发端到端学习算法来训练Shift-Net。巴黎StreetViewPlaces数据集上的实验证明了我们的Shift-Net在生成更清晰,细致和视觉上合理的结果方面的效率和有效性。代码和预先训练的模型可在https://github.com/Zhaoyi-Yan/Shift-Net上获得。[1801.09392v2] 进一步开发端到端学习算法来训练Shift-Net。巴黎StreetViewPlaces数据集上的实验证明了我们的Shift-Net在生成更清晰,细致和视觉上合理的结果方面的效率和有效性。代码和预先训练的模型可在https://github.com/Zhaoyi-Yan/Shift-Net上获得。[1801.09392v2] 进一步开发端到端学习算法来训练Shift-Net。巴黎StreetViewPlaces数据集上的实验证明了我们的Shift-Net在生成更清晰,细致和视觉上合理的结果方面的效率和有效性。代码和预先训练的模型可在https://github.com/Zhaoyi-Yan/Shift-Net上获得。[1801.09392v2]

 

SketchyGAN:向图像合成提供多样化和逼真的素描

Wengling ChenJames Hays

从人类素描草图合成逼真的图像是计算机图形学和视觉中的一个具有挑战性的问题。现有的方法要么需要精确的边缘地图,要么依靠现有照片的检索。在这项工作中,我们提出了一种新型的生成对抗网络(GAN)方法,该方法综合了摩托车,马匹和沙发等50个类别的合理图像。我们演示了一个完全自动的草图数据增强技术,并且我们展示了增强数据对我们的任务有帮助。我们引入了一种适用于发生器和鉴别器的新型网络构建模块,它通过在多个尺度上注入输入图像来改善信息流。与最先进的图像翻译方法相比,我们的方法会生成更逼真的图像,并实现更高的初始分数。[1801.02753v2]

 

BlockDrop:剩余网络中的动态推理路径

吴祖璇,Tushar NagarajanAbhishek KumarSteven Rennie,拉里S.戴维斯,Christian GraumanRogerio Feris

非常深的卷积神经网络提供了出色的识别结果,但是其计算费用限制了它们对许多实际应用的影响。我们引入BlockDrop,这是一种学习动态选择深度网络的哪些层在推理过程中执行的方法,以便在不降低预测准确性的情况下最大限度地减少总计算量。利用剩余网络(ResNets)的鲁棒性进行分层丢弃,我们的框架即时选择哪些残差块用于评估给定的新图像。特别是,在预训练ResNet的情况下,我们在关联强化学习环境中训练策略网络,以获得利用最少数量的块的双重奖励,同时保持识别的准确性。我们在CIFARImageNet上进行了广泛的实验。这些结果提供了强有力的定量和定性证据,证明这些学习到的策略不仅可以加速推理,而且可以编码有意义的视觉信息 基于ResNet-101模型,我们的方法平均提高了20%,对于某些图像高达36%,同时在ImageNet上保持了76.4%的最高精度。[1711.08393v3]

 

Frustum PointNets用于从RGB-D数据进行3D对象检测

Charles R. Qi, Wei Liu, Chenxia Wu, Hao Su, Leonidas J. Guibas

在这项工作中,我们研究了室内和室外场景下RGB-D数据的三维物体检测。虽然以前的方法专注于图像或3D体素,往往模糊3D数据的自然3D模式和不变性,但我们通过弹出RGB-D扫描直接操作原始点云。然而,这种方法的一个关键挑战是如何有效地定位大型场景点云中的物体(地区提案)。我们的方法不仅仅依靠3D建议,而是利用成熟的2D物体检测器和高级3D深度学习进行物体定位,从而实现效率以及即使小物体的高回忆率。受益于直接在原始点云中学习,我们的方法还能够在强遮挡或非常稀疏的点下精确估计3D边界框。在KITTISUN RGB-D 3D检测基准上进行评估,我们的方法在具有实时功能的同时,以卓越的利润率优于现有技术。[1711.08488v2]

 

世界功能图

戈登克里斯蒂,尼尔芬德利,詹姆斯威尔逊,瑞恩慕克吉

我们提出了一个新的数据集世界功能地图(fMoW),旨在激发机器学习模型的发展,该模型能够从时间序列的卫星图像和丰富的元数据特征中预测建筑物和土地使用的功能目的。每个图像提供的元数据可用于推断有关图像中物体的位置,时间,太阳角度,物理尺寸和其他特征。我们的数据集包含来自200多个国家的超过100万张图片。对于每个图像,我们提供至少一个包含63个类别之一的边界框注释,包括错误检测类别。我们介绍了数据集的分析以及基于元数据和时间视图的基准方法。我们的数据,代码,并且预训练模型已经公开发布。[1711.07846v3]

 

非局部神经网络

Xiaolong Wang, Ross Girshick, Abhinav Gupta, Kaiming He

卷积和循环操作都是一次处理一个本地邻域的构建块。在本文中,我们将非本地操作作为捕获远程依赖关系的通用系列构建块。受计算机视觉中的经典非局部均值方法的启发,我们的非局部运算将位置处的响应计算为所有位置处的特征的加权和。这个构建模块可以插入许多计算机视觉体系结构中。在视频分类的任务中,即使没有任何花里胡哨的工作,我们的非本地模型也可以在KineticsCharades数据集上竞争或胜过目前的竞赛获胜者。在静态图像识别中,我们的非局部模型改进了COCO套件中的对象检测/分割和姿态估计。代码可在https://github.com/facebookresearch/video-nonlocal-net[1711.07971v3]

 

无关键点的细粒度头部姿态估计

Nataniel RuizEunji ChongJames M. Rehg

估计一个人的头部姿势是一个至关重要的问题,它具有大量的应用,如帮助注视估计,建模注意力,将3D模型拟合到视频以及执行面部对齐。传统上,头部姿势是通过估计来自目标人脸的一些关键点并利用平均人类头部模型解决2D3D对应问题来计算的。我们认为这是一种脆弱的方法,因为它完全依赖于标志检测性能,无关头模型和临时拟合步骤。我们通过在300W-LP(一种大型合成扩展数据集)上训练多损失卷积神经网络,通过联合装仓姿势直接从图像强度预测内在欧拉角(偏航,俯仰和滚转),提出了一种优雅而稳健的方式来确定姿态分类和回归。我们对常见的野外姿势基准数据集进行经验测试,以显示最新的结果。另外,我们在通常用于姿态估计的数据集上测试我们的方法,并使用深度姿势方法开始缩小差距。我们开源我们的训练和测试代码,并发布我们的预训练模型。[1710.00925v5]

 

用户生成的运动视频的深度动作识别特征综述

Antonio Tejero-de-Pablos,中岛裕太,佐藤友智,横桥直树,Marko LinnaEsa Rahtu

自动生成体育视频摘要提供了检测游戏有趣时刻或亮点的挑战。传统体育视频摘要方法利用广播体育视频的编辑惯例来促进高层语义的提取。但是,不会编辑用户生成的视频,因此传统方法不适合生成摘要。为了解决这个问题,这项工作提出了一种新颖的视频摘要方法,以玩家的行为为线索来确定原始视频的亮点。基于深度神经网络的方法被用来提取两种类型的动作相关特征,并将视频片段分类为有趣或无趣的部分。所提出的方法可以应用于游戏由一系列动作组成的任何运动。特别是,这项工作考虑了剑道(日本击剑)的案例作为评估所提出的方法的运动的例子。该方法使用带有地面真相标签的Kendo视频进行训练,这些视频显示了视频的亮点。这些标签由拥有Kendo方面不同经验的注释者提供,以证明所提出的方法如何适应不同的需求。将所提方法的性能与不同特征的几种组合进行比较,结果表明,该方法优于先前的总结方法。[1709.08421v2] 这些标签由拥有Kendo方面不同经验的注释者提供,以证明所提出的方法如何适应不同的需求。将所提方法的性能与不同特征的几种组合进行比较,结果表明,该方法优于先前的总结方法。[1709.08421v2] 这些标签由拥有Kendo方面不同经验的注释者提供,以证明所提出的方法如何适应不同的需求。将所提方法的性能与不同特征的几种组合进行比较,结果表明,该方法优于先前的总结方法。[1709.08421v2]

 

用于动态纹理合成的双流卷积网络

Matthew TesfaldetMarcus A. BrubakerKonstantinos G. Derpanis

我们引入了用于动态纹理合成的双流模型。我们的模型基于预先训练的卷积网络(ConvNets),其目标是两个独立的任务:(i)物体识别,和(ii)光流预测。给定输入动态纹理,来自对象识别的滤波器响应的统计数据ConvNet封装输入纹理的每帧外观,而来自光流ConvNet的滤波器响应的统计数据模拟其动态。为了生成新颖的纹理,优化随机初始化的输入序列以匹配来自示例纹理的每个流的特征统计量。受到最近关于图像风格转换的工作的启发,并受到双流模式的启用,我们还应用合成方法将一个纹理的纹理外观与另一个纹理的动态纹理结合起来,以生成全新的动态纹理。我们表明,我们的方法生成新颖的,高质量的样本,可以匹配输入纹理的框架外观和时间演变。最后,我们通过深入的用户研究来定量评估我们的纹理合成方法。[1706.06982v4]

 

DAiSEE:迈向野外用户互动认可

Abhay GuptaArjun D’CunhaKamal AwasthiVineeth Balasubramanian

我们介绍了DAiSEE,这是第一个多标签视频分类数据集,包括从112位用户获取的9068个视频片段,用于识别无聊,困惑,参与和沮丧的用户情感状态。该数据集有四个级别的标签即每个情感状态的非常低,低,高和非常高,这些情感状态是人群注释的,并且与使用专家心理学家团队创建的金标准注释相关联。我们还使用目前可用的最先进的视频分类方法在此数据集上建立了基准测试结果。我们相信DAiSEE将为研究界提供特征提取,基于上下文的推理以及开发适合相关任务的机器学习方法方面的挑战,从而为进一步研究提供了一个跳板。数据集可以从https://iith.ac.in/~daisee-dataset [1609.01885v6]下载。

 

近实时鲁棒的全局最优曼哈顿帧估计

Kyungdon JooTae-Hyun OhJunsik KimIn So Kweon

大多数人造环境,例如城市和室内场景,由一组平行和正交的平面结构组成。这些结构近似于曼哈顿世界假设,其中概念可以表示为曼哈顿框架(MF)。给定一组输入,如曲面法线或消失点,我们提出一个MF估计问题作为最大化共识集,以最大化旋转搜索空间内的内点数量。通常,这个问题可以通过分支定界框架来解决,该框架在数学上保证了全局最优性。然而,传统分支定界算法的计算时间与实时相差甚远。在本文中,我们提出了一种高效的MF估计测量领域的一种新的边界计算方法,即扩展高斯图像(EGI)。通过放宽原始问题,我们可以在保持全局最优性的同时计算具有恒定复杂度的边界。此外,我们在数量和质量上证明了所提出的方法对各种合成和现实世界数据的性能。我们还通过三种不同的应用展示了我们方法的多功能性:扩展到多个MF估计,基于3D旋转的视频稳定以及消失点估计(线聚类)。[1605.03730v2] 扩展到多个MF估计,基于3D旋转的视频稳定以及消失点估计(线聚类)。[1605.03730v2] 扩展到多个MF估计,基于3D旋转的视频稳定以及消失点估计(线聚类)。[1605.03730v2]

转载请注明:《无关键点的细粒度头部姿态估计+Shift-Net:通过深度特征重排进行图像修复

发表评论