PredRNN ++:解决时空预测学习中的深层困境+人体姿态估计和跟踪的简单基线

人体姿态估计和跟踪的简单基线

Bin Xiao, Haiping Wu, Yichen Wei

姿态估计以及近年来对姿态追踪的兴趣日益增加。同时,整体算法和系统复杂度也增加,使得算法分析和评估更加困难。这项工作提供了令人惊讶的简单有效的基准方法,因此有助于激励和评估该领域的新想法。在具有挑战性的基准测试中取得了最先进的成果。代码将被发布。[1804.06208v1]

 

PredRNN ++:解决时空预测学习中的深层困境

Yunbo Wang, Zhifeng Gao, Mingsheng Long, Jianmin Wang, Philip S. Yu

我们提出PredRNN ++,一个改进的视频预测学习循环网络。为了追求更高的时空建模能力,我们的方法通过利用一种新颖的循环单元来增加相邻状态之间的转换深度,该单元被命名为因果LSTM,用于在级联机制中重新组织空间和时间记忆。然而,视频预测学习仍然存在一个困境:越来越多的时间深度模型被设计用于捕捉复杂的变化,同时在梯度后向传播中引入更多困难。为了缓解这种不良影响,我们提出了一种梯度公路结构,该梯度公路结构为从输出到长程输入的梯度流提供了备选的较短路线。这种架构与因果LSTM无缝协作,使PredRNN ++能够自适应捕获短期和长期相关性。我们在合成和真实视频数据集上评估了我们的模型,显示了它能够缓解消失梯度问题,并即使在困难的物体遮挡情况下也能产生最先进的预测结果。[1804.06300v1]

 

跨域对抗自动编码器

Haodi Hou, Jing Huo, Yang Gao

在本文中,我们提出跨域对冲自动编码器(CDAAE)来解决跨域图像推理,生成和转换的问题。我们假设来自不同领域的图像共享相同的内容潜在代码空间,同时为风格分开潜在的代码空间。所提出的框架可以将跨域数据映射到由内容部分和样式部分组成的潜在代码向量。潜在码矢量与先验分布相匹配,以便我们可以从先前空间的任何部分生成有意义的样本。因此,给定一个域的样本,我们的框架可以生成具有相同输入内容的其他域的各种样本。这使得所提出的框架不同于当前的跨域转换工作。除了,所提出的框架可以用标记和未标记的数据进行训练,这使得它也适用于域适应。数据集SVHNMNISTCASIA的实验结果表明,所提出的框架在图像生成任务中实现了视觉上吸引人的性能。此外,我们还证明了所提出的方法在域适应方面取得了优越的结果。我们的实验代码可在https://github.com/luckycallor/CDAAE中找到。[1804.06078v1] 我们的实验代码可在https://github.com/luckycallor/CDAAE中找到。[1804.06078v1] 我们的实验代码可在https://github.com/luckycallor/CDAAE中找到。[1804.06078v1]

 

基于显着性的卷积神经网络用于数字化文档中的表格和图表检测

I. KavasidisS. PalaceC. SpampinatoC. PinoD. GiordanoD. GiuffridaP. Messina

深度卷积神经网络(DCNN)最近已成功应用于各种视觉和多媒体任务,从而推动了在多个应用领域中开发新颖解决方案。文件分析对DCNN来说是一个特别有前途的领域:事实上,可用数字文件的数量已经达到了前所未有的水平,而人类无法在没有自动化的帮助下发现和检索这些文件中包含的所有信息。在这种情况下,DCNN提供了一个可行的解决方案,使数字文档的信息提取过程实现自动化。在从文档中提取信息的领域内,特别需要检测表格和图表,因为它们包含文档中包含的最有价值信息的可视摘要。为了从表格和图表中完整实现视觉信息提取过程的自动化,有必要开发定位它们并准确识别其边界的技术。在本文中,我们旨在通过结合深度卷积神经网络,图形模型和显着性概念的方法来解决表格/图表检测任务。具体而言,我们提出了一种基于显着性的全卷积神经网络,对视觉线索进行多尺度推理,然后在数字/数字化文档中对表格和图表进行全局连接的条件随机场(CRF)。对ICDAR 2013扩展版进行的性能分析(带有注释图表和表格)表明,我们的方法产生了有希望的结果,优于现有模型。[1804.06236v1] 有必要开发定位它们并精确确定其边界的技术。在本文中,我们旨在通过结合深度卷积神经网络,图形模型和显着性概念的方法来解决表格/图表检测任务。具体而言,我们提出了一种基于显着性的全卷积神经网络,对视觉线索进行多尺度推理,然后在数字/数字化文档中对表格和图表进行全局连接的条件随机场(CRF)。对ICDAR 2013扩展版进行的性能分析(带有注释图表和表格)表明,我们的方法产生了有希望的结果,优于现有模型。[1804.06236v1] 有必要开发定位它们并精确确定其边界的技术。在本文中,我们旨在通过结合深度卷积神经网络,图形模型和显着性概念的方法来解决表格/图表检测任务。具体而言,我们提出了一种基于显着性的全卷积神经网络,对视觉线索进行多尺度推理,然后在数字/数字化文档中对表格和图表进行全局连接的条件随机场(CRF)。对ICDAR 2013扩展版进行的性能分析(带有注释图表和表格)表明,我们的方法产生了有希望的结果,优于现有模型。[1804.06236v1] 在本文中,我们旨在通过结合深度卷积神经网络,图形模型和显着性概念的方法来解决表格/图表检测任务。具体而言,我们提出了一种基于显着性的全卷积神经网络,对视觉线索进行多尺度推理,然后在数字/数字化文档中对表格和图表进行全局连接的条件随机场(CRF)。对ICDAR 2013扩展版进行的性能分析(带有注释图表和表格)表明,我们的方法产生了有希望的结果,优于现有模型。[1804.06236v1] 在本文中,我们旨在通过结合深度卷积神经网络,图形模型和显着性概念的方法来解决表格/图表检测任务。具体而言,我们提出了一种基于显着性的全卷积神经网络,对视觉线索进行多尺度推理,然后在数字/数字化文档中对表格和图表进行全局连接的条件随机场(CRF)。对ICDAR 2013扩展版进行的性能分析(带有注释图表和表格)表明,我们的方法产生了有希望的结果,优于现有模型。[1804.06236v1] 我们提出了一种基于显着性的全卷积神经网络,对视觉线索进行多尺度推理,然后在数字/数字化文档中对表格和图表进行全局连接的条件随机场(CRF)。对ICDAR 2013扩展版进行的性能分析(带有注释图表和表格)表明,我们的方法产生了有希望的结果,优于现有模型。[1804.06236v1] 我们提出了一种基于显着性的全卷积神经网络,对视觉线索进行多尺度推理,然后在数字/数字化文档中对表格和图表进行全局连接的条件随机场(CRF)。对ICDAR 2013扩展版进行的性能分析(带有注释图表和表格)表明,我们的方法产生了有希望的结果,优于现有模型。[1804.06236v1]

 

注意知识精馏的神经相容性建模

Xuemeng Song, Fuli Feng, Xianjing Han, Xin Yang, Wei Liu, Liqiang Nie

最近,蓬勃发展的时尚界及其巨大的潜在利益已经引起了许多研究团体的极大关注。特别是,越来越多的研究工作致力于将匹配服装作为配套服装进行配套服装匹配,这已经成为许多人日常头痛的问题,尤其是那些没有美感的人。由于神经网络在图像分类和语音识别等各种应用中取得了显着的成功,研究人员能够采用数据驱动的学习方法来分析时尚物品。尽管如此,现有的研究忽视了时尚领域积累的丰富宝贵知识(规则),尤其是关于服装搭配的规则。为此,在这项工作中,我们通过整合先进的深度神经网络和丰富的时尚领域知识来阐释互补服装搭配。考虑到规则可能是模糊的,不同的规则可能对不同的样本具有不同的置信度,我们提出了一种基于师生网络方案的神经兼容性建模方案,其中注意到了知识蒸馏。对现实世界的数据集进行的大量实验表明,我们的模型优于几个最先进的基线。根据比较,我们观察到某些时尚见解为时尚搭配研究增添了价值。作为副产品,我们发布了代码,并涉及参数以使其他研究人员受益。[1805.00313v1] 考虑到规则可能是模糊的,不同的规则可能对不同的样本具有不同的置信度,我们提出了一种基于师生网络方案的神经兼容性建模方案,其中注意到了知识蒸馏。对现实世界的数据集进行的大量实验表明,我们的模型优于几个最先进的基线。根据比较,我们观察到某些时尚见解为时尚搭配研究增添了价值。作为副产品,我们发布了代码,并涉及参数以使其他研究人员受益。[1805.00313v1] 考虑到规则可能是模糊的,不同的规则可能对不同的样本具有不同的置信度,我们提出了一种基于师生网络方案的神经兼容性建模方案,其中注意到了知识蒸馏。对现实世界的数据集进行的大量实验表明,我们的模型优于几个最先进的基线。根据比较,我们观察到某些时尚见解为时尚搭配研究增添了价值。作为副产品,我们发布了代码,并涉及参数以使其他研究人员受益。[1805.00313v1] 对现实世界的数据集进行的大量实验表明,我们的模型优于几个最先进的基线。根据比较,我们观察到某些时尚见解为时尚搭配研究增添了价值。作为副产品,我们发布了代码,并涉及参数以使其他研究人员受益。[1805.00313v1] 对现实世界的数据集进行的大量实验表明,我们的模型优于几个最先进的基线。根据比较,我们观察到某些时尚见解为时尚搭配研究增添了价值。作为副产品,我们发布了代码,并涉及参数以使其他研究人员受益。[1805.00313v1]

 

DGPose:解构半监督深度生成模型用于人体分析

Rodrigo de BemArnab GhoshThalaiyasingam AjanthanOndrej MiksikN. SiddharthPhilip HS Torr

用于健壮人体分析的深度生成建模是许多有趣应用程序中出现的一个新问题,因为它能够进行综合分析和无监督学习。但是,这些模型所学习的潜在空间通常不是人类可解释的,导致模型不太灵活。在这项工作中,我们采用一种结构化的半监督变分自动编码器方法,并提出了一个深度生成模型,用于人体分析,其中姿势和外观在潜在空间中解开,从而可以进行姿势估计。这样的解开允许对姿势和外观进行独立的操纵,因此可以实现诸如姿势转移之类的应用,而不需要对这样的任务进行明确的训练。此外,在半监督环境下进行培训的能力可以放宽对标注数据的需求。我们展示了Human3.6MChictopiaPlus数据集上的生成模型的优点。[1804.06364v1]

 

用于自动定位大图像单元的三维GPU加速活动轮廓

Mahsa LotfollahiSebastian BerishaLeila SendtifardLaura MontierJacob ZiburkusDavid Mayerich

显微镜下的细胞分割是一个具有挑战性的问题,因为细胞通常是不对称和密集堆积的。这对于非常大的图像变得特别具有挑战性,因为手动干预和处理时间会使分割难以处理。在本文中,我们提出了一个高效并且高度并行的公式,用于对称三维(3D)轮廓演化,扩展了以前在快速二维活动轮廓上的工作。我们提供了用于3D图像优化的公式,以及用于加速消费者图形硬件计算的策略。所提出的软件利用蒙特卡洛采样方案来加速收敛并减少线程分歧。实验结果表明,与大型3D脑图像上的现有方法相比,该方法为大型二维和三维细胞分割任务提供了优越的性能。[1804.06304v1]

 

邻接矩阵图像表示的网络签名:子图分类的深度/转移学习

Kshiteesh HegdeMalik Magdon-IsmailRam RamanathanBishal Thapa

我们提出了一种新的子图图像表示法,用于将目标作为其父网络进行网络片段分类。图形图像表示基于邻接矩阵的2D图像嵌入。我们在两种模式下使用这种图像表示。首先,作为机器学习算法的输入。其次,作为纯传递学习者的输入。我们从几个数据集得出的结论是(a)使用我们的结构化图像特征的深度学习与基准图核和基于经典特征的方法相比表现最好b)纯转移学习在用户受到最小干扰的情况下有效运行,并且对小数据有效。[1804.06275v1]

 

用张量列车快速准确完成张量:系统辨识方法

Ching-Yun Ko, Kim Batselier, Wenjian Yu, Ngai Wong

本文提出了一种基于张量序列和系统辨识的张量完备方法。待完成的张量被建模为低秩张量系统,坐标和相应的张量条目分别被解释为系统输入和输出。提出了一种新的张量训练初始化程序,专门用于图像和视频的完成,保证了完成算法的收敛速度更快。由于它们的低秩张量训练表示,张量训练框架也显示出容易适应总变分和Tikhonov正则化。图像和视频修补实验验证了所提出的方案在速度,准确性和可伸缩性方面的优越性,在相似的精确度下,与最先进的张量完成方法相比,可以观察到高达60倍的加速。[1804.06128v2]

 

使用无人机拍摄人体运动

周小薇,刘西康,乔治斯帕夫拉科 斯,维杰库马尔,科斯塔斯丹尼利迪斯

目前的动作捕捉(MoCap)系统通常需要标记和多个校准摄像头,这些摄像头只能在受限环境中使用。在这项工作中,我们介绍了一款基于无人机的3D人体模型系统。该系统只需要具有自主飞行无人机和板载RGB相机,并可用于各种室内和室外环境。重建算法被开发用于从无人机记录的视频恢复全身运动。我们认为,除了跟踪移动主体的能力之外,飞行无人机还提供快速变化的视点,这对于运动重建是有益的。我们使用我们新的DroCap数据集评估拟议系统的准确性,并使用消费无人机在野外证明其适用于MoCap[1804.06112v1]

 

PM-GANs:使用部分模态进行动作识别的判别表示学习

Lan Wang, Chenqiang Gao, Luyu Yang, Yue Zhao, Wangmeng Zuo, Deyu Meng

不同模态的数据通常表达互补但异质的信息,并且通过组合多种数据模态(例如RGB和红外特征),通常优选更具辨别性的表示。然而实际上,由于许多限制,获得两个数据通道都是具有挑战性的。例如,RGB监控摄像机通常受到私人空间的限制,这与为了个人安全而需要异常活动检测相冲突。因此,使用部分数据通道来构建多模式的完整表示显然是需要的。在本文中,我们提出了一种新型的部分模式生成对抗网络(PM-GAN),它使用仅来自部分模态的数据来学习全模态表示。完整的表示是通过生成的表示代替丢失的数据通道来实现的。与四种最先进的方法相比,进行了大量的实验来验证我们提出的动作识别方法的性能。同时,推出了一种新的行动识别红外可见数据集,并将成为第一个公开可用的行动数据集,其中包含成对的红外和可见光谱。[1804.06248v1]

 

用于单图像新颖视图合成的几何感知深度网络

Miaomiao Liu, Xuming He, Mathieu Salzmann

本文从单个图像解决了新颖视图合成的问题。特别是,我们针对的是具有丰富几何结构的真实场景,这是一个具有挑战性的任务,因为这些场景的外观变化很大,并且缺乏简单的3D模型来表示它们。现代的,基于学习的方法主要集中于外观来合成新颖的视图,因此倾向于产生与底层场景结构不一致的预测。相反,在本文中,我们建议利用场景的三维几何来合成一种新颖的视图。具体而言,我们通过固定数量的平面逼近真实世界的场景,并学习预测一组单应性及其相应的区域蒙版,以将输入图像转换为新颖视图。为此,我们开发了一个新的区域感知型几何变换网络,在一个通用框架中执行这些多任务。我们在户外KITTI和室内ScanNet数据集上的结果证明了我们网络在生成尊重场景几何的高质量合成视图方面的有效性,从而超越了最先进的方法。[1804.06008v1]

 

视觉跟踪的时间相关和图优化流形等级

Bo Jiang, Doudou Lin, Bin Luo, Jin Tang

最近,加权补丁表示已被广泛研究,以减轻包围在包围盒中的背景信息对改善视觉跟踪结果的影响。然而,现有的加权斑块表示模型通常分别利用每帧中斑块之间的空间结构信息,这忽略了(1)每个斑块的一元特征和(2)不同帧中斑块之间的时间相关性。为了解决这个问题,我们提出了一种新颖的统一时间相关性和图优化排序模型,用于视觉跟踪问题中的加权斑块表示。本文有三个主要贡献。首先,我们提出采用灵活的图形排序进行补丁权重计算,它同时利用补丁间的结构信息和各补丁的一元特征。第二,我们通过进一步考虑不同帧中的补丁之间的时间相关性来提出一种新的更具辨别度的排名模型。第三,学习和整合邻域保存的低秩图,以建立统一的优化排序模型。两个基准数据集上的实验显示了我们模型的好处。[1804.06253v1]

 

像素,体素和视图:研究单视图3D对象形状预测的形状表示

Daeyun ShinCharless C. FowlkesDerek Hoiem

本白皮书的目标是比较基于表面的和体积的3D对象形状表示,以及用于单视图3D形状预测的以观察者为中心和以对象为中心的参考框架。我们提出了一种用于从多个视点预测深度图的新算法,其中单个深度或RGB图像作为输入。通过修改网络和评估模型的方式,我们可以直接比较体素与表面的优点,以及从RGB或深度图像预测的熟悉与陌生物体的以观察者为中心与以物体为中心的优点。在我们的研究结果中,我们显示基于表面的方法胜过来自新类别的对象的体素表示并产生更高分辨率的输出。我们还发现使用以观察者为中心的坐标对于新颖的物体是有利的,而以对象为中心的表示更适合更熟悉的对象。有趣的是,坐标系显着影响所学的形状表示,以物体为中心更重视隐式识别物体类别和以观察者为中心的生成形状表示,而对类别识别的依赖较小。[1804.06032v2]

 

印度语手写文字识别的合成数据生成

Partha Pratim RoyAkash MohtaBidyut B. Chaudhuri

本文提出了一种新的手写文字识别系统生成综合数据集的方法。很难识别手写脚本,因为手写脚本不够容易获得足够的训练数据,或者收集这些数据可能很昂贵。因此,由于缺乏适当的数据集而难以训练识别系统。为了克服这些问题,可以使用合成数据来创建或扩展现有的训练数据集以提高识别性能。来自在线报纸和这些来源的任何可用数字数据都可用于生成合成数据。在本文中,我们建议将畸变/变形添加到数字数据中,以便保留底层图案,以便生成的图像与实际手写样本具有非常接近的相似性。这样产生的图像可以独立地用于训练系统或与自然手写数据结合以增强原始数据集并改善识别系统。我们尝试使用合成数据来提高孤立字符和单词的识别准确性。该框架在2种印度语脚本梵文(北印度语)和孟加拉语(孟加拉语)上进行测试,用于数字,字符和单词识别。我们从实验中获得了令人鼓舞的结果。最后,拉丁文的实验验证了这种方法的实用性。[1804.06254v1] 该框架在2种印度语脚本梵文(北印度语)和孟加拉语(孟加拉语)上进行测试,用于数字,字符和单词识别。我们从实验中获得了令人鼓舞的结果。最后,拉丁文的实验验证了这种方法的实用性。[1804.06254v1] 该框架在2种印度语脚本梵文(北印度语)和孟加拉语(孟加拉语)上进行测试,用于数字,字符和单词识别。我们从实验中获得了令人鼓舞的结果。最后,拉丁文的实验验证了这种方法的实用性。[1804.06254v1]

 

一个连续的图像去模糊残差网络

Li Si-Yao, Dongwei Ren, Zijian Hu, Junfeng Li, Qian Yin, Ping Guo

基于深度卷积神经网络(CNN)的恢复方法最近在低级视觉任务中获得了相当大的进展,例如去噪,超分辨率,修复。然而,普通的CNN由于模糊退化造成严重的像素重叠而无法进行图像去模糊。在本文中,我们提出了一种新颖的级联残余CNN用于图像去模糊。在基于最小均方误差(MMSE)的区分性学习的驱动下,图像去模糊的解决方案被有趣地展开为一系列迭代残差分量,并且被分析以展示迭代残余去卷积(IRD)的贡献。此外,税务局鼓励我们向前迈进一步,为图像去模糊设计CNN。具体而言,采用残余CNN单元来代替残余迭代,然后被连接并最终被集成,从而产生连接的残余卷积网络(CRCNet)。实验结果表明,CRCNet不仅可以实现更好的定量指标,还可以恢复更多视觉上合理的纹理细节。[1804.06042v1]

 

PlaneNet:从单个RGB图像分片平面重建

陈柳,杨吉美,Duygu CeylanErsin YumerYasutaka Furukawa

本文提出了一种深度神经网络(DNN),用于从单个RGB图像中进行分段平面深度图重构。尽管DNN在单图像深度预测方面取得了显着进展,但分段平面深度图重建需要结构化几何表示,并且即使对于DNN也需要掌握很多任务。所提出的端到端DNN学习从单个RGB图像直接推断一组平面参数和相应的平面分割掩模。我们已经为大规模RGBD视频数据库ScanNetScanNet培训和测试生成了超过50,000个分段平面深度图。我们的定性和定量评估表明,所提出的方法在平面分割和深度估计精度方面均优于基线方法。据我们所知,本文介绍了从单个RGB图像中分段平面重建的第一个端到端神经架构。代码和数据可在https://github.com/art-programmer/PlaneNet获得。[1804.06278v1]

 

通过对三元组进行订单感知重新加权来改进深度二进制嵌入网络

Jikai Chen, Hanjiang Lai, Libing Geng, Yan Pan

在本文中,我们专注于基于三元组的深度二进制嵌入网络进行图像检索任务。三元组损失已被证明对排名问题最有效。然而,大部分以前的作品都是平等地对待三胞胎,或者根据损失选择三重三联症。这种策略不考虑顺序关系,这对于检索任务很重要。为此,我们提出了一个有序训练的重新加权方法,以有效训练基于三元组的深度网络,从而对重要的三元组进行加权并对非信息三元组进行减量。首先,我们提出了订单感知加权因子来表明三元组的重要性,这取决于二进制码的排序。然后,我们将三重损失重塑为平方三重损失,使得损失函数将对重要的三元组赋予更多的权重。对四个基准数据集进行广泛的评估表明,与最先进的基线相比,所提出的方法实现了显着的性能。[1804.06061v1]

 

稀疏子空间聚类的高效求解器

Farhad Pourkamali-AnarakiStephen Becker

稀疏子空间聚类(SSC)是一种在机器学习和计算机视觉中流行的方法,用于对位于低维线性或仿射子空间的联合附近的$ n $个数据点进行聚类。由ElhamifarVidal引入的标准模型将每个数据点表示为稀疏线性或其他数据点的仿射组合,使用$ \ ell_1 $$ \ ell_0 $正则化来实施稀疏性。$ \ ell_1 $模型是凸的并且具有理论上的保证,但需要$ On ^ 2$存储,通常通过乘法器的交替方向方法(ADMM)来解决,该方法需要$ On ^ 3$ flop $ \ ell_0 $模型,由于它只需要$ n $的线性存储空间,所以对于大$ n $是首选,通常通过正交匹配追踪(OMP)来解决,并且无法处理仿射子空间的情况。我们的第一个贡献是展示如何使用矩阵求逆引理来修改ADMM以获取$ On ^ 2$ flops而不是$ On ^ 3$。然后,我们的主要贡献是显示近端梯度框架可以解决SSC,包括$ \ ell_1 $$ \ ell_0 $模型以及线性和仿射约束。对于$ \ ell_1 $$ \ ell_0 $,具有仿射约束的接近度算子是非平凡的,因此我们得到了高效的接近度算子。在$ \ ell_1 $情况下,我们的方法只需要$ On ^ 2$ flops,而在$ \ ell_0 $情况下,内存在$ n $中是线性的。这是第一个与仿射约束一起解决$ \ ell_0 $问题的算法。合成和实际数据的数值实验表明,基于近端梯度的求解器是最先进的,但更重要的是,我们认为它们比基于ADMM的求解器更方便使用,因为ADMM求解器对可能依赖于数据集的求解器参数高度敏感。[1804.06291v1]

 

自动评估照片的艺术质量

Ashish VermaKranthi KoukuntlaRohit VarmaSnehasis Mukherjee

本文提出了一种评估照片美学质量的技术。这项研究的目标是预测一张给定的照片是由专业摄影师或普通人根据照片的艺术质量的测量结果拍摄的。我们提出了一个基于多层感知器的系统来分析一些低,中,高等级的图像特征,并发现它们的有效性来衡量图像的艺术质量,并以10为尺度来衡量图像的艺术质量。在包含从互联网下载的图像的大型数据集上验证建议的系统。该数据集包含由专业摄影师拍摄的一些图像和普通人拍摄的其余图像。与为其他图像提供的值相比,所提议的图像艺术质量度量为专业摄影师拍摄的图像提供更高的照片质量值。[1804.06124v1]

 

通过知识转移培训二进制加权体检测器进行自主驾驶

Jiaolong Xu, Peng Wang, Heng Yang, Antonio M. López

为了使嵌入式系统能够实现实时的车载物体检测,自主驾驶对小模型尺寸和能量效率提出了苛刻的要求。最近基于深度卷积神经网络的物体探测器已经达到了最新的精确度。然而,这些模型经过众多参数的训练,其计算成本高,而且大容量存储禁止部署到内存和计算资源受限的系统。低精度神经网络是减少计算需求和内存占用的流行技术。其中,二进制加权神经网络(BWN)是将浮点量化为仅1美元位的极端情况。BWN很难训练,并且由于极低的比特表示而遭受精度折旧。为了解决这个问题,我们提出了一种知识转移(KT)方法来帮助使用全精度教师网络对BWN进行训练。我们构建了基于DarkNetMobileNet的二进制重量YOLO-v2探测器,并针对汽车,行人和骑自行车者探测的KITTI基准进行实验。实验结果表明,该方法保持了较高的检测精度,同时将DarkNet-YOLO的模型尺寸从257 MB降低到8.8 MBMobileNet-YOLO193 MB降低到7.9 MB[1804.06332v1] 实验结果表明,该方法保持了较高的检测精度,同时将DarkNet-YOLO的模型尺寸从257 MB降低到8.8 MBMobileNet-YOLO193 MB降低到7.9 MB[1804.06332v1] 实验结果表明,该方法保持了较高的检测精度,同时将DarkNet-YOLO的模型尺寸从257 MB降低到8.8 MBMobileNet-YOLO193 MB降低到7.9 MB[1804.06332v1]

 

支持张力训练机器

Cong Chen, Kim Batselier, Ching-Yun Ko, Ngai Wong

将传统的基于矢量的机器学习技术扩展到张量形式已经引起人们越来越大的兴趣。一个例子是支持张量机(STM),它利用一级张量来捕获数据结构,从而减轻传统支持向量机(SVM)中维数问题的过度拟合和诅咒。然而,一级张量的表达能力限制了许多现实世界的数据。为了克服这个限制,我们通过用张量序列替换STM中的一级张量来引入支持张量训练机(STTM)。实验验证并证实了STTM优于SVMSTM的优势。[1804.06114v1]

 

未被监督:对医学图像分析中的半监督,多实例和转移学习的调查

Veronika CheplyginaMarleen de BruijneJosien PW Pluim

机器学习(ML)算法已经在医学成像领域产生了巨大的影响。虽然医学成像数据集的规模不断扩大,但经常提到的监督ML算法面临的挑战是缺少注释数据。因此,已经提出了可以用较少/其他类型的监督进行学习的各种方法。我们审查半监督,多实例,并在医疗成像转移学习,无论是在诊断/检测或分割任务。我们还讨论这些学习场景之间的联系,以及未来研究的机会。[1804.06353v1]

 

DoubleFusion:利用单个深度传感器实时捕捉人体表现的内体形状

Tao Yu, Zerong Zheng, Kaiwen Guo, Jianhui Zhao, Qionghai Dai, Hao Li, Gerard Pons-Moll, Yebin Liu

我们提出的DoubleFusion是一个新的实时系统,它将体积动态重建与数据驱动的模板拟合相结合,从单个深度相机同时重建细节几何,非刚性运动和人体内部形状。这种方法的主要贡献之一是由内部完整的参数化身体形状和逐渐融合的外表面层组成的双层表示。身体表面上的预定义节点图参数化身体附近的非刚性变形,并且自由形式动态变化图形参数化远离身体的外表面层,这允许更一般的重建。我们进一步提出了基于双层表示的联合运动跟踪方法,以实现稳健和快速的运动跟踪性能。此外,内部的身体形状在线优化并且被迫适配在外表面层内。总体而言,我们的方法能够实时进行日益减噪,细致和完整的表面重建,快速运动跟踪性能和可信的内部体形重建。特别是,实验表明,在更具挑战性的情况下,快速运动跟踪和环路闭合性能得到改善 [1804.06023v1]

 

Im2Avatar:从单一图像进行彩色3D重建

Yongbin Sun, Ziwei Liu, Yue Wang, Sanjay E. Sarma

目前对单幅三维重建的研究主要集中在形状恢复上。在这项工作中,我们研究了一个新问题,即同时从单一图像恢复3D形状和表面颜色,即多彩3D重建。这个问题既具有挑战性又有趣,因为从单个图像推断纹理化3D模型的能力是视觉理解的核心。在这里,我们提出了一个端到端的可训练框架,七彩体素网络(CVN)来解决这个问题。在一个2D输入条件下,CVN学习将3D对象的形状和表面颜色信息分别分解为3D形状分支和表面色彩分支。具体而言,对于形状恢复,我们生成一个形状体积,其体素状态指示占用情况。为了表面颜色恢复,我们结合了外观幻觉和几何投影的强度,同时学习回归的颜色体积和2D3D的流动体积,然后融合成混合的颜色体积。最终纹理3D模型是通过在形状体积中占据体素位置的混合颜色体积中对颜色进行采样而获得的。为了处理严重的稀疏体积表示,设计了一种新的损失函数,即均方误假交叉熵损失(MSFCEL)。大量的实验表明,我们的方法在基线方面取得了显着的改进,并且在不同的对象类别和任意的观点上显示了很好的泛化。[1804.06375v1] 然后融合成混合的颜色体积。最终纹理3D模型是通过在形状体积中占据体素位置的混合颜色体积中对颜色进行采样而获得的。为了处理严重的稀疏体积表示,设计了一种新的损失函数,即均方误假交叉熵损失(MSFCEL)。大量的实验表明,我们的方法在基线方面取得了显着的改进,并且在不同的对象类别和任意的观点上显示了很好的泛化。[1804.06375v1] 然后融合成混合的颜色体积。最终纹理3D模型是通过在形状体积中占据体素位置的混合颜色体积中对颜色进行采样而获得的。为了处理严重的稀疏体积表示,设计了一种新的损失函数,即均方误假交叉熵损失(MSFCEL)。大量的实验表明,我们的方法在基线方面取得了显着的改进,并且在不同的对象类别和任意的观点上显示了很好的泛化。[1804.06375v1] 大量的实验表明,我们的方法在基线方面取得了显着的改进,并且在不同的对象类别和任意的观点上显示了很好的泛化。[1804.06375v1] 大量的实验表明,我们的方法在基线方面取得了显着的改进,并且在不同的对象类别和任意的观点上显示了很好的泛化。[1804.06375v1]

 

基于层次聚合的行为识别与检测骨架数据共现特征学习

Chao Li, Qiaoyong Zhong, Di Xie, Shiliang Pu

随着大规模骨架数据集的可用性,基于骨架的人类行为识别最近引起越来越多的关注。这个任务最关键的因素在于两个方面:联合共现的帧内表示和骨架时间演化的帧间表示。在本文中,我们提出了一个端到端的卷积共现特征学习框架。共现特征是通过分层方法学习的,其中不同层次的上下文信息被逐渐聚合。首先各个关节的点级信息是独立编码的。然后将它们组合成空间和时间域中的语义表示。具体而言,我们引入全球空间聚合方案,它能够在本地聚合上学习出众的联合共现特征。此外,原始骨架坐标以及它们的时间差异与双流模式相结合。实验表明,我们的方法在动作识别和检测基准(如NTU RGB + DSBU Kinect InteractionPKU-MMD)方面始终优于其他先进技术。[1804.06055v1]

 

从语言学习颜色

Varun ManjunathaMohit IyyerJordan Boyd-GraberLarry Davis

自动着色是为灰度图像添加颜色的过程。我们调整语言的这一过程,允许最终用户通过输入不同的标题来操纵彩色图像。我们提出了两种不同的语言条件着色体系结构,这两种结构比语言不可知的版本产生更准确和合理的着色。通过这个基于语言的框架,我们可以通过操作字幕中的描述性颜色词来显着改变颜色。[1804.06026v1]

 

用于评估视觉惯性测量的TUM VI基准

David SchubertThore GollNikolaus DemmelVladyslav UsenkoJörgStücklerDaniel Cremers

视觉测距和SLAM方法在诸如增强现实或机器人等领域具有大量的应用。利用惯性测量补充视觉传感器极大地提高了跟踪精度和鲁棒性,因此引起了人们对视觉惯性(VI)测距方法发展的极大兴趣。在本文中,我们提出了TUM VI基准,这是一种新颖的数据集,它在不同的场景中具有多种序列,用于评估VI odometry。它提供20 Hz下的1024×1024分辨率的照相机图像,高动态范围和光度校准。一个IMU测量3个轴上200Hz的加速度和角速度,而摄像头和IMU传感器在硬件上进行时间同步。对于轨迹评估,我们还可以在序列的开始和结束处以高频(120 Hz)从运动捕捉系统提供准确的姿态基准真实值,我们可以精确对准摄像头和IMU测量值。包含原始和校准数据的完整数据集是公开可用的。我们还在我们的数据集上评估了最先进的VI odometry方法。[1804.06120v1]

 

基于视觉的动态越位线标记为足球比赛

Karthik MuthuramanPranav JoshiSuraj Kiran Raman

足球越位检测已成为每场比赛平均50次越位决定的最重要决定之一。虚假检测和皮疹电话会对游戏条件产生不利影响,并且在很多情况下会彻底改变游戏的结果。人眼具有有限的精度,只能在特定情况下辨别有限的细节。目前的越位决定是由副职裁判手动做出的,并且在许多比赛中往往会引起争议。这需要自动化的越位检测技术,以协助准确的裁判。在这项工作中,我们明确地使用了计算机视觉和图像处理技术,如霍夫变换,颜色相似性(量化),图形连接组件和消失点想法来识别可能的越位区域。关键词:霍夫变换,连接组件,KLT跟踪,颜色相似性。[1804.06438v1]

 

深度对象协同分割

李伟豪,Omid Hosseini JafariCarsten Rother

这项工作提出了一种深度对象共分割(DOCS)方法,用于分割一对图像中同一类的共同对象。这意味着该方法学习忽略常见或不常见的背景内容,并专注于对象。如果在图像对中呈现多个对象类,则将它们共同提取为前景。为了解决这个任务,我们提出了一个基于CNN的连体编码器解码器架构。编码器提取前景对象的高级语义特征,互相关层检测公共对象,最后,解码器为每个图像生成输出前景蒙版。为了训练我们的模型,我们编译了一个大对象协同分割数据集,该数据集由来自PASCAL VOC数据集的图像对与普通对象蒙版组成。我们评估了常用数据集的共分割任务方法,并观察到我们的方法始终优于竞争方法,对于看到和看不见的对象类。[1804.06423v1]

 

稀疏的无监督胶囊推广更好

David RawlinsonAbdelrahman AhmedGideon Kowadlo

我们表明,无监督训练的潜在胶囊层使用只有重建损失,没有掩盖选择正确的输出类,导致等值失去和其他理想的胶囊质量的损失。这意味着监督式胶囊网络不能很深。未监督的潜在胶囊层活动的稀疏既恢复了这些特质,又似乎比监督掩蔽更好地推广,同时有可能实现更深的胶囊网络。我们在MNIST上训练Sabour等人(2017)的类似几何图形的稀疏无监督胶囊网络,然后使用SVM层测试affNIST的分类准确性。准确度从基准79%提高到90%。[1804.06094v1]

 

使用渐进校准网络的实时旋转不变人脸检测

Xuepeng Shi, Shiguang Shan, Meina Kan, Shuzhe Wu, Xilin Chen

旋转不变的人脸检测,即检测具有任意旋转平面(RIP)角度的人脸,是无约束应用中广泛需要的,但由于人脸外观变化很大,因此仍然是一项具有挑战性的任务。大多数现有方法都以速度或准确度来处理大型RIP变体。为了更有效地解决这个问题,我们提出逐步校准网络(PCN)以粗到细的方式执行旋转不变的人脸检测。PCN由三个阶段组成,每个阶段不仅可以区分面部和非面部,还可以逐个校准每个面部候选人的RIP方向。通过将校准过程分为几个渐进步骤,并且只在早期阶段预测粗略方向,PCN可以实现精确和快速的校准。通过逐步减少RIP范围执行面对非面部的二元分类,PCN可以以完整的$ 360 ^ {\ circ} $ RIP角度精确地检测面部。这种设计导致实时旋转不变的人脸检测器。在多向FDDB和包含广泛旋转面部的WIDER FACE的具有挑战性的子集上的实验表明,我们的PCN实现了相当有前途的性能。[1804.06039v1]

 

IGCV $ 2 $:交错结构稀疏卷积神经网络

Guotian Xie, Jingdong Wang, Ting Zhang, Jianhuang Lai, Richang Hong, Guo-Jun Qi

在本文中,我们研究了设计有效的卷积神经网络结构的问题,这些结构的兴趣在于消除卷积核中的冗余。除了结构化稀疏内核,低阶内核和低阶内核的产品之外,结构化稀疏内核的产品是结构化的,它是解释最近开发的交错群卷积(IGC)及其变体(例如,Xception ),吸引了越来越多的兴趣。受观察结果的启发,包含在IGC中的卷积中的卷积可以用相同的方式进一步分解,我们提出了一个模块化构造块{IGCV $ 2 $}交错结构化稀疏卷积。它推广了由两个结构化稀疏内核组成的交错群卷积,到更多结构化稀疏内核的产品,进一步消除冗余。我们提出了互补条件和平衡条件来指导结构化稀疏核的设计,在模型大小,计算复杂度和分类精度三个方面取得平衡。实验结果证明了与交错群卷积和Xception相比,这三个方面的平衡优势,以及与其他最先进的架构设计方法相比的竞争性能。[1804.06202v1] 实验结果证明了与交错群卷积和Xception相比,这三个方面的平衡优势,以及与其他最先进的架构设计方法相比的竞争性能。[1804.06202v1] 实验结果证明了与交错群卷积和Xception相比,这三个方面的平衡优势,以及与其他最先进的架构设计方法相比的竞争性能。[1804.06202v1]

 

用卷积神经网络分类磁共振图像模态

Samuel RemediosDzung L. PhamJohn A. ButmanSnehashis Roy

磁共振(MR)成像允许采集具有不同对比度特性的图像,这取决于采集协议和组织的磁性特性。许多磁共振脑部图像处理技术,如组织分割,需要多个磁共振对比度作为输入,并且每种对比度都有不同的处理。因此,为了各种目的而自动识别图像对比度是有利的,例如促进图像处理流水线,以及通过基于内容的图像检索(CBIR)来管理和维护大型数据库。大多数自动化的CBIR技术专注于两个步骤:从数据中提取特征并根据这些特征对图像进行分类。我们提出了一种新的基于三维深度卷积神经网络(MRN)的MR图像对比度分类方法。提出的CNN自动识别输入大脑图像体积的MR对比度。具体而言,我们探讨了三个分类问题:(1)识别T1加权(T1-w),T2加权(T2-w)和液体衰减反转恢复(FLAIR)对比,(2)识别前后对比T1,(3)识别前和后对比FLAIR。共使用了从多个站点和多台扫描仪获取的3418个图像卷。为了评估每个任务,所提出的模型在2137张图像上训练并在其余的1281张图像上进行测试。结果显示图像体积正确分类,准确率为97.57%。[1804.05764v2] FLAIR)对比,(2)识别前后对比T1,(3)识别前和后对比FLAIR。共使用了从多个站点和多台扫描仪获取的3418个图像卷。为了评估每个任务,所提出的模型在2137张图像上训练并在其余的1281张图像上进行测试。结果显示图像体积正确分类,准确率为97.57%。[1804.05764v2] FLAIR)对比,(2)识别前后对比T1,(3)识别前和后对比FLAIR。共使用了从多个站点和多台扫描仪获取的3418个图像卷。为了评估每个任务,所提出的模型在2137张图像上训练并在其余的1281张图像上进行测试。结果显示图像体积正确分类,准确率为97.57%。[1804.05764v2]

 

一种小波域伪装动态前景检测的融合框架

Shuai Li, Dinei Florencio, Wanqing Li, Yaqin Zhao, Chris Cook

由于前景物体和背景之间的相似性,已知检测伪装的移动前景物体是困难的。传统方法由于它们之间的小差异而不能区分前景和背景,因此遭受伪装的前景对象的低检测。在本文中,我们提出了一个融合框架来解决小波域中的这个问题。我们首先表明,图像域的小差异可以在某些小波带中突出显示。然后通过为每个小波带制定前景和背景模型来估计每个小波系数为前景的可能性。所提出的框架基于小波变换的特征有效地聚合来自不同小波带的可能性。实验结果表明,该方法在检测伪装前景物体方面明显优于现有方法。具体而言,该算法的平均F-measure0.87,而其他最先进的方法则为0.710.8[1804.05984v1]

 

学习多重粒度的判别特征以重新识别人物

Guanshuo Wang, Yufeng Yuan, Xiong Chen, Jiwei Li, Xi Zhou

全局和局部特征的组合已成为改善人重新识别(Re-ID)任务中的区别性表现的重要解决方案。以前的基于零件的方法主要集中于定位具有特定预定义语义的区域以学习局部表示,这会增加学习难度,但对于具有较大差异的情景不够有效或不健全。在本文中,我们提出了一种端对端的特征学习策略,将歧视性信息与各种粒度相结合。我们精心设计了多粒度网络(MGN),这是一种多分支深层网络体系结构,由一个用于全局特征表示的分支和两个用于局部特征表示的分支组成。我们不是在语义区域学习,而是将图像统一分割成若干条纹,并改变不同本地分支中的部件数量以获得具有多个粒度的局部特征表示。在主流评估数据集(包括Market-1501DukeMMC-reidCUHK03)上实施的综合实验表明,我们的方法已经实现了最先进的性能,并且大幅度超越了现有的任何方法。例如,在单一查询模式的Market-1501数据集中,我们在重新排名后达到Rank-1 / mAP = 96.6/ 94.2%的最新结果。[1804.01438v2] DukeMMC-reidCUHK03表明,我们的方法强有力地实现了最先进的性能,并大幅度超越了现有的任何方法。例如,在单一查询模式的Market-1501数据集中,我们在重新排名后达到Rank-1 / mAP = 96.6/ 94.2%的最新结果。[1804.01438v2] DukeMMC-reidCUHK03表明,我们的方法强有力地实现了最先进的性能,并大幅度超越了现有的任何方法。例如,在单一查询模式的Market-1501数据集中,我们在重新排名后达到Rank-1 / mAP = 96.6/ 94.2%的最新结果。[1804.01438v2]

 

非均匀相似损失函数在高度不平衡深度医学图像分割中的平衡精度与召回率

Seyed Raein HashemiSeyed Sadegh Mohseni SalehiDeniz ErdogmusSanjay P. PrabhuSimon K. WarfieldAli Gholipour

完全卷积深度神经网络被认为是图像分割具有巨大潜力的快速精确框架。在数据不平衡的情况下,利用这种网络的主要挑战之一会增加,这在许多医学成像应用中是常见的,例如病变类别体素的数量通常比非病变体素低得多。训练有素的网络数据不平衡可能导致高精度和低回忆率的预测,严重偏向于非病变类别,这在医学应用中尤为不利,其中假阴性实际上比假阳性更重要。已经提出了各种方法来解决这个问题,包括两步训练,样本重新加权,均衡采样和相似性丢失函数。在本文中,我们开发了一个具有非对称损失函数的补丁式3D密集连接网络,其中我们使用了用于内在和外在数据增强的大型重叠图像补丁,补丁选择算法和基于B样条加权的补丁预测融合策略软投票考虑补丁边界预测的不确定性。我们将这种方法应用于基于MSSEG 2016ISBI 2015挑战的病灶分割,其中我们使用我们提出的补丁式3D密集连接网络分别实现了69.8%和65.74%的平均Dice相似系数。在使用非对称相似性丢失层和我们的3D片段预测融合方法进行的测试中,获得了$ F_1 $$ F_2 $得分的显着改善以及精确查全率曲线下的面积。基于$ F_ \ beta $分数的非对称相似性损失函数推广了Dice相似性系数,并且可以有效地用于此处开发的面片方式策略,以针对高度不平衡的图像分割训练完全卷积深度神经网络。[1803.11078v2]

 

用于立体匹配的级联多尺度和多维卷积神经网络

Haihua Lu, Hai Xu, Li Zhang, Yong Zhao

卷积神经网络(CNN)已被证明比立体声估计的传统立体声算法更好。许多努力都集中在逐像素匹配成本计算上,这是许多最先进算法的重要组成部分。但是,这些体系结构仅限于小型和单一规模的接受域,并使用传统方法进行成本聚合,甚至忽略成本聚合。不同的是,我们将它们都考虑在内。首先,我们提出了一个新的多尺度匹配成本计算子网络,其中两个不同大小的接受域并行实现。通过这种方式,网络可以充分利用这两种变体,并平衡接受领域增加和细节丢失之间的平衡。此外,我们表明我们的包含二维卷积和三维卷积运算的多维聚合子网络可以提供丰富的上下文和语义信息来估计准确的初始差异。最后,对具有挑战性的立体声基准KITTI的实验表明,即使没有任何额外的后处理,所提出的方法也可以实现竞争结果。[1803.09437v2]

 

EVA $ ^ 2 $:利用实时计算机视觉中的时间冗余

Mark BucklerPhilip BedoukianSuren JayasuriyaAdrian Sampson

深度卷积神经网络(CNN)的硬件支持对于移动和嵌入式设备中的高级计算机视觉至关重要。然而,目前的设计加速了通用CNNs; 他们没有利用实时视觉的独特特征。我们建议在自然视频中使用时间冗余,以避免在大多数帧上进行不必要的计算。一种新的算法激活运动补偿检测视觉输入中的变化并递增地更新先前计算的输出。该技术从视频压缩中获得灵感,并应用众所周知的运动估计技术来适应视觉变化。随着输入变化,我们使用自适应关键帧速率来控制效率和视觉质量之间的平衡。我们将硬件技术作为现有最先进的CNN加速器设计的延伸来实施。三台CNN的视频精度下降不到1%,新设备的平均能耗分别降低了54.2%,61.7%和87.6%。[1803.06312v2]

 

基于决策信息基因和反投影稀疏表示的乳腺肿瘤分类

Xiaohui Yang, Wenming Wu, Yunmei Chen, Xianqi Li, Juan Zhang, Dan Long, Lijun Yang

基于微阵列基因表达数据的乳房肿瘤分类是一个积极而富有挑战性的问题。在本文中,提出了一个强大的乳腺肿瘤识别框架,旨在减少临床误诊率和利用现有样本中的可用信息。从减少临床误诊率的角度建立包装基因选择方法。信息基因的进一步特征选择是通过使用改进的NMF模型来实现的,该模型源于在深度学习中使用分层学习和分层预训练策略。为了完成分类,构建反投影稀疏表示(IPSR)模型来利用嵌入在现有样本中的信息,尤其是在测试样本中。此外,通过广义ADMMIPSR模型进行优化,并分析了相应的收敛性。公开的微阵列基因表达数据集的大量实验表明,所提出的方法对于乳腺肿瘤分类是稳定和有效的。与最新的公开文献相比,分类精度提高了14%。特异性和灵敏度分别达到94.17%和97.5%。[1803.03562v3]

 

基于传输的模式理论:一种信号转换方法

利亚姆卡特尔,古斯塔沃K.罗德

在许多科学领域,成像被用于将某个物理量与其他因变量相关联。因此,可以将图像视为从现实世界坐标系到所获取的非负面测量值的图。在这项工作中,我们描述了一种同时建模和推理这种数据的方法,使用最优运输的数学。为了实现这一点,我们描述了基于Monge-Ampere方程的解的线性最优传输变换的数值实现,该方程使用Brenier定理将Monge函数的解作为凸函数的导数来表征。我们使用我们的变换实现来计算两个图像之间的无卷曲映射,并表明它能够以较低的错误匹配现有方法的图像。此外,我们为文献中观察到的线性最佳传输框架的性质提供了理论上的理由,包括数据类的线性分离定理。最后,我们使用我们的最优传输方法,通过将非线性可分数据呈现为线性可分离的数据,然后转换为传输空间,从而凭经验证明线性可分性定理成立。[1802.07163v2]

 

无损特征反射的显着物体检测

Pingping Zhang, Wei Liu, Huchuan Lu, Chunhua Shen

显着物体检测,旨在识别和定位图像中最显着的像素或区域,由于其各种实际应用而引起越来越多的兴趣。然而,这个视觉任务是非常具有挑战性的,特别是在复杂的图像场景下。受到自然图像内在反映的启发,本文提出了一种新颖的大规模显着物体检测特征学习框架。具体而言,我们设计了一个对称完全卷积网络(SFCN),以在无损特征反射的指导下学习互补显着特征。显着对象的位置信息连同上下文和语义信息被共同利用来监督所提出的网络以用于更精确的显着性预测。另外,为了克服模糊的边界问题,我们提出了一种新的结构损失函数来学习清晰的物体边界和空间一致的显着性。粗略的预测结果可以通过这些结构信息进行有效改进,以提高性能。对7个显着性检测数据集进行的大量实验表明,我们的方法实现了始终如一的卓越性能,并且胜过了最新的最先进的方法。[1802.06527v2]

 

一个用于改进补丁匹配的大数据集

Rahul MitraNehal DoiphodeUtkarsh GautamSanath NarayanShuaib AhmedSharat ChandranArjun Jain

我们提出了一个新的数据集用于学习局部图像描述符,可用于显着改进补丁匹配。与Brown等人目前可用的多视点立体(MVS)数据集相比,我们提出的数据集包含更多数量的场景,图像以及正和负对应关系。与MVS数据集相比,新数据集还可以更好地覆盖整个视点,比例和光照变化。我们的数据集还提供了补充信息,如带有比例和旋转值的RGB补丁,以及内部和外部摄像机参数(如后面所示)可用于根据应用定制训练数据。我们在我们的数据集上训练现有的最先进的模型,并对公开可用的基准进行评估,如HPatches数据集和Strecha等。\引用{strecha}来量化图像描述符的性能。实验评估表明,使用我们提出的数据集进行训练的描述符在HPatches数据集上的匹配,验证和检索任务上分别胜过当前在MVS上训练的最新描述符8%,4%和10%。同样在Strecha数据集上,我们看到非平面场景中匹配任务的改进为3-5%。[1801.01466v3]

 

生成敌对排序网络弱监督对象发现

Ali DibaVivek SharmaRainer StiefelhagenLuc Van Gool

深度生成对抗网络(GAN)最近已被证明对于不同的计算机视觉应用有前景,如图像编辑,合成高分辨率图像,生成视频等。这些网络和相应的学习方案可处理各种视觉空间图 – ping。我们用一种新颖的训练方法和学习目标来处理GAN,以发现三种情况下的多个对象实例:1)在杂乱的场景中合成特定对象的图片; 2)将图像中的不同类别定位为弱监督对象检测; 3)改善物体检测管道中的物体发现。我们方法的一个关键优势是它学习了一个新的深度相似性度量,以在一个图像中区分多个对象。我们证明,网络可以充当编码器解码器生成包含对象的图像的一部分,或者作为修改的深度CNN来表示监督和弱监督方案中的对象检测的图像。我们的排名GAN提供了一种通过图像搜索特定对象模式的新颖方式。我们已经针对不同场景进行了实验,并使用MS-COCOPASCAL VOC数据集演示了对象合成的方法性能以及弱监督对象检测和分类。[1711.08174v2] 我们已经针对不同场景进行了实验,并使用MS-COCOPASCAL VOC数据集演示了对象合成的方法性能以及弱监督对象检测和分类。[1711.08174v2] 我们已经针对不同场景进行了实验,并使用MS-COCOPASCAL VOC数据集演示了对象合成的方法性能以及弱监督对象检测和分类。[1711.08174v2]

 

VITON:基于图像的虚拟试穿网络

Xintong Han, Zuxuan Wu, Zhe Wu, Ruichi Yu, Larry S. Davis

我们提供一个基于图像的虚拟试穿网络(VITON),不需要使用任何形式的3D信息,它可以使用粗到细的策略将所需的衣服项目无缝地传输到人的相应区域。在新的服装不可知但描述性人物表征的条件下,我们的框架首先生成粗略的合成图像,其中目标服装项目以相同姿势覆盖在同一个人身上。我们通过改进网络进一步加强了最初的模糊服装领域。该网络被训练以了解从目标服装项目中可以利用多少细节以及在何处应用于人以合成照片逼真图像,其中目标物品自然地以清晰的视觉模式变形。对我们新收集的Zalando数据集进行的实验证明了其在基于图像的虚拟试作任务中对先进生成模型的承诺。[1711.08447v3]

 

作为混合凸组合优化问题的深度学习

Abram L. FriesenPedro Domingos

随着神经网络越来越深入,具有硬阈值激活的学习网络变得越来越重要,既可以用于网络量化,这可以大大减少时间和能量需求,并且可以创建可能具有不可微分的深度网络的大集成系统组件,并且必须避免消失和爆炸渐变以进行有效的学习。然而,由于梯度下降法不适用于硬阈值函数,因此不清楚如何以原理的方式学习它们的网络。我们通过观察硬阈值隐藏单元的设置目标来解决这个问题,以使损失最小化是一个离散优化问题,并且可以这样解决。离散优化目标是找到一组目标,使得每个单元(包括输出)有一个要解决的线性分离问题。考虑到这些目标,网络可以分解成个体感知器,然后可以用标准凸面方法学习。在此基础上,我们开发了一种递归小批量算法,用于学习深度硬阈值网络,其中包括流行但不太合理的直通式估计器作为特例。经验上,我们证明,与直通式估计器相比,我们的算法在多种设置中提高了分类准确性,包括ImageNet上的AlexNetResNet-18[1710.11573v3] 我们开发了一种用于学习深度硬阈值网络的递归小批量算法,其中包括流行但不太合理的直通式估计器作为特例。经验上,我们证明,与直通式估计器相比,我们的算法在多种设置中提高了分类准确性,包括ImageNet上的AlexNetResNet-18[1710.11573v3] 我们开发了一种用于学习深度硬阈值网络的递归小批量算法,其中包括流行但不太合理的直通式估计器作为特例。经验上,我们证明,与直通式估计器相比,我们的算法在多种设置中提高了分类准确性,包括ImageNet上的AlexNetResNet-18[1710.11573v3]

 

用于多目标,多种类型视觉跟踪的NGM-PHD滤波器的开发

Nathanael L. Baisa,安德鲁华莱士

我们提出了一个新的框架,该框架扩展了基于随机有限集(RFS)理论的具有$ N $个不同类型的多个目标的标准概率假设密度(PHD)过滤器,其中不仅考虑背景误报杂波),而且在不同目标类型的检测中混淆,这些目标类型与背景混乱性质通常不同。在高斯性和线性假设下,我们的框架扩展了标准PHD滤波器的现有高斯混合(GM)实现,以创建NGM-PHD滤波器。该方法适用于真实的视频序列,通过将两个场景中的物体探测器信息集成到该滤镜中。在第一种情况下,一个三GM-PHD滤波器($ N = 3 $)被应用于在同一场景中包含三种类型的多个目标的实际视频序列,两个橄榄球队和一名裁判,使用单独但困惑的检测。在第二种情况下,我们使用双GM-PHD滤波器($ N = 2 $)来跟踪同一场景中的行人和车辆,以处理其探测器的混淆。对于这两种情况,Munkres的匈牙利分配算法的变体用于在帧之间关联跟踪的目标身份。使用最佳子模式分配(OSPA)度量和歧视率评估该方法并与原始检测和独立GM-PHD滤波器进行比较。这显示了我们的策略在实际视频序列上的改进性能。[1706.00672v3] 使用单独但困惑的检测。在第二种情况下,我们使用双GM-PHD滤波器($ N = 2 $)来跟踪同一场景中的行人和车辆,以处理其探测器的混淆。对于这两种情况,Munkres的匈牙利分配算法的变体用于在帧之间关联跟踪的目标身份。使用最佳子模式分配(OSPA)度量和歧视率评估该方法并与原始检测和独立GM-PHD滤波器进行比较。这显示了我们的策略在实际视频序列上的改进性能。[1706.00672v3] 使用单独但困惑的检测。在第二种情况下,我们使用双GM-PHD滤波器($ N = 2 $)来跟踪同一场景中的行人和车辆,以处理其探测器的混淆。对于这两种情况,Munkres的匈牙利分配算法的变体用于在帧之间关联跟踪的目标身份。使用最佳子模式分配(OSPA)度量和歧视率评估该方法并与原始检测和独立GM-PHD滤波器进行比较。这显示了我们的策略在实际视频序列上的改进性能。[1706.00672v3] 匈牙利分配算法的变体用于在帧之间关联跟踪的目标身份。使用最佳子模式分配(OSPA)度量和歧视率评估该方法并与原始检测和独立GM-PHD滤波器进行比较。这显示了我们的策略在实际视频序列上的改进性能。[1706.00672v3] 匈牙利分配算法的变体用于在帧之间关联跟踪的目标身份。使用最佳子模式分配(OSPA)度量和歧视率评估该方法并与原始检测和独立GM-PHD滤波器进行比较。这显示了我们的策略在实际视频序列上的改进性能。[1706.00672v3]

 

图像生物标志物标准化倡议

Alex ZwanenburgStefan LegerMartinVallièresSteffenLöckImage Biomarker Standardization Initiative

图像生物标志物标准化计划(IBSI)是一项独立的国际合作,致力于实现高通量定量图像分析(基因组学)目标,从采集的图像中提取图像生物标志物。缺乏高通量定量图像分析研究的重现性和验证被认为是该领域的主要挑战。这一挑战的部分原因在于,将获得的成像转化为高通量图像生物标志物的过程中,缺乏基于共识的准则和定义。因此,IBSI试图提供图像生物标志物命名和定义,基准数据集和基准值,以验证图像处理和图像生物标志物计算以及报告指南,以进行高通量图像分析。

 

基于人类声乐语音相关MRI数据的多线性舌模型

Alexander HewerStefanie WuhrerIngmar SteinerKorin Richmond

我们提出了一个人类舌头的多线性统计模型,分别捕捉解剖和舌头姿势相关的形状变化。该模型源自11名说话者维持语音相关声道配置的3D磁共振成像数据。提取是通过使用最低限度监督的方法进行的,该方法使用图像分割方法和模板拟合技术作为基础。此外,它使用图像去噪来处理可能的损坏数据,处理腭舌头接触的表面信息重构,以及改进获得的形状的自举策略。我们的评估得出结论,将解剖和言语相关变化的自由度分别限制为54,产生的模型可以可靠地记录未知数据,同时避免过度拟合效应。此外,我们通过跟踪稀疏运动捕捉数据来显示它可用于生成合理的舌头动画。[1612.05005v5]

转载请注明:《PredRNN ++:解决时空预测学习中的深层困境+人体姿态估计和跟踪的简单基线

发表评论