高精度大型Minibatch SGD:在1小时内训练ImageNet+CrowdHuman:在人群中检测人的基准

具有深度归一化深度图像的鲁棒人脸识别

Ziqing Feng, Qijun Zhao

深度信息已被证明对人脸识别有用。然而,现有的基于深度图像的人脸识别方法仍然受到深度值嘈杂以及姿势和表情变化的影响。在本文中,我们提出了一种将面部深度图像归一化为正面姿态和中性表达并从归一化深度图像提取鲁棒特征的新方法。该方法通过两个深度卷积神经网络(DCNN),归一化网络($ Net_ {N} $)和特征提取网络($ Net_ {F} $)来实现。给定面部深度图像,$ Net_ {N} $首先将其转换为HHA图像,从中通过DCNN重建3D面部。$ Net_ {N} $然后从重建的3D面部生成姿势表达归一化(PEN)深度图像。PEN深度图像最终传递给$ Net_ {F} $,其通过另一个DCNN提取用于人脸识别的鲁棒特征表示。我们的初步评估结果证明了所提出的方法在识别具有深度图像的任意姿势和表情的面部方面的优越性。[1805.00406v1]

 

有条件的图像到图像转换

Jianxin Lin, Yingce Xia, Tao Qin, Zhibo Chen, Tie-Yan Liu

生成敌对网络(GAN)和双重学习已经广泛研究了图像到图像的翻译任务。然而,现有模型缺乏控制目标域中的翻译结果的能力,并且它们的结果通常缺乏多样性,因为固定图像通常导致(几乎)确定性翻译结果。在本文中,我们研究了一个新问题,即有条件的图像到图像转换,即将图像从源域转换到目标域中给定图像上的目标域。它要求生成的图像应从目标域继承条件图像的某些特定于域的功能。因此,改变目标域中的条件图像将导致来自源域的固定输入图像的各种翻译结果,因此条件输入图像有助于控制翻译结果。我们用基于GAN和双重学习的不成对数据解决了这个问题。我们将两个条件翻译模型(一个从A域到B域,另一个从B域到A域)转换为输入组合和重构,同时保留域独立特征。我们对男性的脸部进行实验,从女性的脸部翻译和边缘到鞋子和书包的翻译。结果证明了我们提出的方法的有效性。[1805.00251v1] 另一个从B域到A域)一起用于输入组合和重构,同时保留域独立特征。我们对男性的脸部进行实验,从女性的脸部翻译和边缘到鞋子和书包的翻译。结果证明了我们提出的方法的有效性。[1805.00251v1] 另一个从B域到A域)一起用于输入组合和重构,同时保留域独立特征。我们对男性的脸部进行实验,从女性的脸部翻译和边缘到鞋子和书包的翻译。结果证明了我们提出的方法的有效性。[1805.00251v1]

 

通过知识转移促进自我监督学习

Mehdi NorooziAnanth VinjimoorPaolo FavaroHamed Pirsiavash

在自我监督学习中,人们训练一个模型来解决数据集中所谓的借口任务,而无需人工注释。但是,主要目标是将此模型转移到目标域和任务。目前,最有效的转移策略是微调,这限制了一个人使用相同的模型或其部分来进行借口和目标任务。在本文中,我们提出了一种新的自我监督学习框架,克服了设计和比较不同任务,模型和数据域的限制。特别是,我们的框架将自我监督模型的结构与最终的任务特定的微调模型分离开来。这使我们能够:1)定量评估以前不兼容的模型,包括手工制作的特征; 2)表明,更深的神经网络模型可以从同样的借口任务中学习更好的表征; 3)将深入学习的知识转移到较浅的知识中,从而促进学习。我们使用这个框架来设计一种新型的自我监督任务,在PASCAL VOC 2007ILSVRC12Places中的公共基准上达到了最高水平的性能表现。我们的学习功能缩小了PASCAL VOC 2007中通过自我监督学习和监督学习从5.9%到2.6%的对象检测培训模式之间的差距。[1805.00385v1] 它在PASCAL VOC 2007ILSVRC12Places中的共同基准上实现了最高水平的性能表现。我们的学习功能缩小了PASCAL VOC 2007中通过自我监督学习和监督学习从5.9%到2.6%的对象检测培训模式之间的差距。[1805.00385v1] 它在PASCAL VOC 2007ILSVRC12Places中的共同基准上实现了最高水平的性能表现。我们的学习功能缩小了PASCAL VOC 2007中通过自我监督学习和监督学习从5.9%到2.6%的对象检测培训模式之间的差距。[1805.00385v1]

 

对象活动场景描述,构造和识别

Hui Feng, Shanshan Wang, Shuzhi Sam Ge

行为识别是社交机器人与环境有意义接触的关键任务。基于3D人体骨骼的动作识别是近年来颇具吸引力的研究领域。虽然现有的方法擅长动作识别,但在活动场景中识别一组动作是一项巨大的挑战。为了解决这个问题,我们首先根据动作关注机制将场景划分为几个原始动作(PA)。然后,原始动作由相应关节的轨迹向量描述。之后,受基于词嵌入的文本分类的启发,我们使用卷积神经网络(CNN)通过将关节的运动视为活动的来识别活动场景。人类活动数据集场景的实验结果表明了该方法的有效性。[1805.00258v1]

 

哪些面部表情可以揭示你的性别?用3D面孔研究

Baiqiang Xia

人类在外表和行为方面表现出丰富的性别暗示。在计算机视觉领域,面部表情的性别认知已被广泛研究,而基于面部表情的性别认知研究仍然很少。在这项工作中,我们首先证明面部表情影响3D人脸中呈现的性别模式,并且在相同表情中进行训练和测试时性别识别性能会提高。此外,我们设计的实验直接提取由面部表情导致的形态变化作为特征,用于基于表情的性别识别。实验结果表明,性别可以在HappyDisgust表达式中以相当精确的方式被识别出来,而惊奇和悲伤表达式不会传达许多与性别相关的信息。这是文献中研究基于表情的三维面孔性别分类的第一篇文章,揭示了不同类型表达的性别模式的强度,即快乐,厌恶,惊奇和悲伤表达。[1805.00371v1]

 

多用途辅助分类器+生成敌对网络(VAC + GAN培训条件生成器

Shabab BazrafkanHossein JavidniaPeter Corcoran

人工智能中最有趣的挑战之一是训练能够提供从特定分布中抽取的标记假样本的条件发生器。在这项工作中,提出了一种新的框架,通过将分类器与鉴别器并行放置,并通过生成器网络传播分类错误来训练深层条件生成器。该方法是多功能的,适用于生成敌对网络(GAN)实现的任何变体,并且与类似方法相比,也提供了优异的结果。[1805.00316v1]

 

调整Mask-RCNN进行自动核分割

Jeremiah W. Johnson

显微镜图像的自动分割是医学图像处理和分析中的重要任务。核探测是这项任务的一个重要例子。Mask-RCNN是最近提出的用于自然图像的对象检测,对象定位和对象实例分割的最新算法。在本文中,我们证明了Mask-RCNN可用于对各种条件下获得的各种细胞进行细胞核的各种显微镜图像的高效和高效的自动分割。[1805.00500v1]

 

学习使用快捷周期一致性进行绘制

Jifei Song, Kaiyue Pang, Yi-Zhe Song, Tao Xiang, Timothy Hospedales

看到的是素描自由手写草图自然地建立人与机器视觉之间的联系。在本文中,我们提出了一种将对象照片翻译为草图的新颖方法,模仿人类草图绘制过程。这是一项非常具有挑战性的任务,因为照片和素描域的差别很大。此外,即使在参考照片中描绘相同的对象实例时,人体草图也展现出各种级别的复杂性和抽象。这意味着即使有照片素描对,他们也只能提供弱的监督信号来学习翻译模型。与现有的解决DE(照片)) – >草图的监督方法相比,E$ \ cdot $)和D$ \ cdot $)分别表示编码器和解码器,我们利用逆问题(例如,DE(草图)) – >照片),并结合无监督的域内重建学习任务,所有这些都在多任务学习框架内完成。与基于循环一致性的现有无监督方法(即DEDEphoto)))) – > photo)相比,我们引入了在编码器瓶颈处强制执行的快捷方式一致性(例如DEphoto)) – >照片)利用额外的自我监督。定性和定量结果都表明,所提出的模型优于一些最先进的替代方案。我们还表明,合成草图可用于训练更好的细粒度草图图像检索(FG-SBIR)模型,有效缓解草图数据稀缺的问题。[1805.00247v1] 与基于循环一致性的现有无监督方法(即DEDEphoto)))) – > photo)相比,我们引入了在编码器瓶颈处强制执行的快捷方式一致性(例如DEphoto)) – >照片)利用额外的自我监督。定性和定量结果都表明,所提出的模型优于一些最先进的替代方案。我们还表明,合成草图可用于训练更好的细粒度草图图像检索(FG-SBIR)模型,有效缓解草图数据稀缺的问题。[1805.00247v1] 与基于循环一致性的现有无监督方法(即DEDEphoto)))) – > photo)相比,我们引入了在编码器瓶颈处强制执行的快捷方式一致性(例如DEphoto)) – >照片)利用额外的自我监督。定性和定量结果都表明,所提出的模型优于一些最先进的替代方案。我们还表明,合成草图可用于训练更好的细粒度草图图像检索(FG-SBIR)模型,有效缓解草图数据稀缺的问题。[1805.00247v1] 定性和定量结果都表明,所提出的模型优于一些最先进的替代方案。我们还表明,合成草图可用于训练更好的细粒度草图图像检索(FG-SBIR)模型,有效缓解草图数据稀缺的问题。[1805.00247v1] 定性和定量结果都表明,所提出的模型优于一些最先进的替代方案。我们还表明,合成草图可用于训练更好的细粒度草图图像检索(FG-SBIR)模型,有效缓解草图数据稀缺的问题。[1805.00247v1]

 

定位,分段和匹配:用于对象匹配和注册的流水线

Deepak MishraRajeev RanjanSantanu ChaudhuryMukul SarkarArvinder Singh Soin

图像注册需要同时处理多个图像以匹配包含对象的关键点或地标。这些图像通常来自不同的模态,例如CT和超声波(US),并且构成建立一对一通信的挑战。在这项工作中,一种新型的卷积神经网络管道被开发来执行所需的配准。完整的目标分为三个部分:感兴趣对象的本地化,分割和匹配转换。大多数现有方法都会跳过本地化步骤,并且在一般情况下很容易失败。我们通过检测来克服这个挑战,该检测也建立图像之间的初始对应关系。为此目的使用修改后的单发多盒探测器。检测到的区域被裁剪并且随后被分割以生成对应于期望对象的遮罩。掩模由采用薄板样条变形的空间变换器网络用于执行期望的配准。在MNISTCaltech-101数据集上的初始实验表明,所提出的模型能够精确地匹配分割的图像。所提出的框架被扩展到CT和美国图像的注册,其与任何数据具体假设无关并且与现有的基于规则/经典方法相比具有更好的泛化能力。[1805.00223v1] MNISTCaltech-101数据集上的初始实验表明,所提出的模型能够精确地匹配分割的图像。所提出的框架被扩展到CT和美国图像的注册,其与任何数据具体假设无关并且与现有的基于规则/经典方法相比具有更好的泛化能力。[1805.00223v1] MNISTCaltech-101数据集上的初始实验表明,所提出的模型能够精确地匹配分割的图像。所提出的框架被扩展到CT和美国图像的注册,其与任何数据具体假设无关并且与现有的基于规则/经典方法相比具有更好的泛化能力。[1805.00223v1]

 

高分辨率卫星图像的固定数据分析

Ashu SharmaJayanta Kumar GhoshSaptarshi Kolay

提出的研究是高分辨率卫星(HRS)图像的眼动跟踪实验。所报道的实验探索了基于兴趣区域(AOI)的复杂HRS图像的眼部固定数据分析。该研究反映了自下而上的基于显着性的分割的参考数据的必要性以及复杂卫星图像的眼睛跟踪数据分析的困难。预期的固定数据分析旨在为参考数据创建自下而上的基于显着性的高分辨率卫星图像分割。本实验研究的分析结果为在复杂的卫星图像环境中进行基于AOI的固定数据分析提供了一种解决方案,并为参考数据构建提供了建议,这已经是一项持续的工作。[1805.00192v1]

 

从光场快速有效的深度图估计

尤里·阿尼西莫夫,迪迪埃·斯特里克

本文提出了一种在相对较少的时间内从光场图像进行深度图估计的算法,仅使用CPU上的单个线程。该方法改进了现有的四维光场空间中线拟合的原理。线拟合基于使用核密度估计的颜色值比较。我们的方法利用基于人口普查变换的匹配成本的半全局匹配(SGM)结果作为线拟合的边界初始化。它提供了显着减少计算所需的最佳深度匹配。通过建议的评估度量,我们证明了所提出的方法适用于有效的深度图估计,同时保持较低的计算时间。[1805.00264v1]

 

基于对话框的交互式图像检索

Xiaoxiao Guo, Hui Wu, Yu Cheng, Steven Rennie, Rogerio Schmidt Feris

现有的交互式图像检索方法已经证明了整合用户反馈的好处,提高了检索结果。然而,目前大多数系统都依赖于受限制的用户反馈形式,例如二进制相关响应,或者基于一组固定的相对属性的反馈,这限制了它们的影响。在本文中,我们介绍了一种交互式图像搜索的新方法,使用户能够通过自然语言提供反馈,从而实现更自然,更有效的交互。我们将基于对话框的交互式图像检索的任务制定为强化学习问题,并奖励对话系统以改善每次对话期间目标图像的排名。为了避免对话系统学习过程中收集人机对话繁琐昂贵的过程,我们用一个用户模拟器来训练我们的系统,用户模拟器本身被训练来描述目标和候选图像之间的差异。我们的方法的功效在鞋类检索应用中得到了证明。对模拟数据和真实世界数据的大量实验表明:1)我们提出的学习框架比其他监督和强化学习基线具有更好的准确性; 2)基于自然语言的用户反馈而不是预先指定的属性会产生更有效的检索结果,以及更自然和富有表现力的通信界面。[1805.00145v1] 对模拟数据和真实世界数据的大量实验表明:1)我们提出的学习框架比其他监督和强化学习基线具有更好的准确性; 2)基于自然语言的用户反馈而不是预先指定的属性会产生更有效的检索结果,以及更自然和富有表现力的通信界面。[1805.00145v1] 对模拟数据和真实世界数据的大量实验表明:1)我们提出的学习框架比其他监督和强化学习基线具有更好的准确性; 2)基于自然语言的用户反馈而不是预先指定的属性会产生更有效的检索结果,以及更自然和富有表现力的通信界面。[1805.00145v1]

 

YouTube上的合作:从无监督检测到对视频和频道流行度的影响

Christian KochMoritz LodeDenny StohrAmr RizkRalf Steinmetz

YouTube是流式传输用户生成视频的最流行平台之一。如今,专业的YouTubers被组织在所谓的多频道网络(MCN)中。这些网络提供诸如品牌交易,设备和战略建议等服务,以换取YouTubers的收入份额。获得更多用户以及收入的主要策略是与其他YouTube用户合作。然而,YouTube上的合作尚未经过详细的定量研究。本文旨在通过以下贡献缩小这一差距。首先,我们收集了一个YouTube数据集,涵盖7,942个频道的三个月内的视频统计数据。其次,我们为YouTube视频中以前未知数量的人提供协作检测设计框架。我们将此框架用于使用基于深度神经网络(DNN)的方法作为CATANA来分析YouTube视频中的协作。第三,我们分析了大约2.4年的视频内容,并使用CATANA回答研究问题,为YouTubeMCN提供高效协作战略指导。因此,我们专注于(i)协作频率和合作伙伴选择性,(ii)多频道网络对频道合作的影响,(iii)协作频道类型,以及(iv)合作对视频和频道流行度的影响。我们的研究结果显示,在许多情况下,协作在观众和新近吸引的合作频道用户方面都显着受益,与非协作视频相比,经常显示出超过100%的受欢迎程度增长。[1805.01887v1] 4年的视频内容并使用CATANA回答研究问题,为YouTubersMCNs提供有效的协作策略指导。因此,我们专注于(i)协作频率和合作伙伴选择性,(ii)多频道网络对频道合作的影响,(iii)协作频道类型,以及(iv)合作对视频和频道流行度的影响。我们的研究结果显示,在许多情况下,协作在观众和新近吸引的合作频道用户方面都显着受益,与非协作视频相比,经常显示出超过100%的受欢迎程度增长。[1805.01887v1] 4年的视频内容并使用CATANA回答研究问题,为YouTubersMCNs提供有效的协作策略指导。因此,我们专注于(i)协作频率和合作伙伴选择性,(ii)多频道网络对频道合作的影响,(iii)协作频道类型,以及(iv)合作对视频和频道流行度的影响。我们的研究结果显示,在许多情况下,协作在观众和新近吸引的合作频道用户方面都显着受益,与非协作视频相比,经常显示出超过100%的受欢迎程度增长。[1805.01887v1] 我们关注(i)协作频率和合作伙伴选择性,(ii)多频道网络对频道合作的影响,(iii)协作频道类型,以及(iv)合作对视频和频道普及的影响。我们的研究结果显示,在许多情况下,协作在观众和新近吸引的合作频道用户方面都显着受益,与非协作视频相比,经常显示出超过100%的受欢迎程度增长。[1805.01887v1] 我们关注(i)协作频率和合作伙伴选择性,(ii)多频道网络对频道合作的影响,(iii)协作频道类型,以及(iv)合作对视频和频道普及的影响。我们的研究结果显示,在许多情况下,协作在观众和新近吸引的合作频道用户方面都显着受益,与非协作视频相比,经常显示出超过100%的受欢迎程度增长。[1805.01887v1] 与非协作视频相比,经常显示超过100%的受欢迎程度增长。[1805.01887v1] 与非协作视频相比,经常显示超过100%的受欢迎程度增长。[1805.01887v1]

 

样本到样本对应的无监督域适应

Debasmit DasCS乔治李

假设训练和测试样本是从相同的分布生成的,并不总是适用于真实世界的机器学习应用。解决训练(源)和测试(目标)域之间差异的过程称为域适应。我们提出了一个无监督的域适应版本,该版本考虑目标域中仅存在未标记的数据。我们的方法集中于找到每个域样本之间的对应关系。对应关系是通过将源样本和目标样本作为图形处理并使用凸标准来匹配它们而获得的。使用的标准是图之间的一阶和二阶相似度以及基于类的正则化。我们还为凸优化开发了一个计算效率较高的例程,从而使所提出的方法得到广泛应用。为了验证所提出的方法的有效性,对合成图像分类和情感分类数据集进行了计算机模拟。结果验证了所提出的局部样本间匹配方法优于传统的时间匹配方法,并且与当前局部域适应方法相比具有竞争性。[1805.00355v1]

 

通过协作双域补丁滤波进行图像去噪

Muzammil Behzad

在本文中,我们提出了一种新的图像去噪算法,利用空间和变换域的特征。我们实施基于强度不变性的改进分组,用于协作支持不可知稀疏重构。首先对于协作,我们通过强度不变相关度量来叠加类似结构的补丁。分组的补丁协作产生对噪声过滤的理想稀疏估计。这是因为类似的补丁在变换的域中共享相同的支持,这种类似的支持可以用作活动抽头的概率来改进稀疏估计。这最终产生非常有用的补丁估计,从而通过丢弃引起噪声的组件来提高恢复的图像的质量。然后应用基于空间拓展的后处理器的区域增长,通过提取空间域特征来进一步增强平滑区域。我们还扩展了我们提出的用于去除彩色图像的方法。根据广泛的实验通过广泛的场景的峰值信噪比(PNSR)和结构相似性(SSIM)指数与最先进的算法的比较结果证明了我们提出的算法的优越性。[1805.00472v1] 根据广泛的实验通过广泛的场景的峰值信噪比(PNSR)和结构相似性(SSIM)指数与最先进的算法的比较结果证明了我们提出的算法的优越性。[1805.00472v1] 根据广泛的实验通过广泛的场景的峰值信噪比(PNSR)和结构相似性(SSIM)指数与最先进的算法的比较结果证明了我们提出的算法的优越性。[1805.00472v1]

 

自适应视图规划复杂场景的航空三维重建

程鹏,Volkan Isler

随着小型飞机的飞速发展,为复杂场景的高质量重建获取近距离航拍图像变得越来越重要。我们提出了一种自适应视图规划方法来以自动方式收集这些图像。我们从抽样一小组视图开始,为场景建立一个粗略的代理。然后,我们提出(i)~一种为视图选择建立视图流形的方法,以及(ii)一种选择稀疏视图集的算法。然后车辆访问这些视点以覆盖现场,并且重复该过程直到重建质量收敛或达到期望的质量水平。视图流形提供了在使用整个6自由度姿势空间和使用单个视图半球来选择视图之间的有效的效率/质量折衷。我们的结果表明,与仅收集两组视图的现有探索和利用方法相比,通过添加第三组视图可以显着提高重建质量。他们还表示,即使对于非常复杂的场景,三轮数据收集也足够了。我们在三个具有挑战性的场景中将我们的算法与现有方法进行比较 我们要求每个算法选择相同数量的视图。我们的算法生成的视图产生最小的重建误差。[1805.00506v1] 我们要求每个算法选择相同数量的视图。我们的算法生成的视图产生最小的重建误差。[1805.00506v1] 我们要求每个算法选择相同数量的视图。我们的算法生成的视图产生最小的重建误差。[1805.00506v1]

 

用于快速检索组织病理学扫描的深条形码

Meghana Dinesh KumarMorteza BabaieHamid Tizhoosh

我们调查深条码的概念,并提出两种方法来生成它们以加快组织病理学图像的分类和检索过程。由于二进制搜索在速度和存储方面的计算成本较低,因此深度条形码在处理大数据检索时可能非常有用。我们的实验使用数据集Kimia Path24来测试三个预先训练的网络进行图像检索。该数据集由24个不同类别的27,055个训练图像组成,具有较大的变化性,以及1,325个用于测试的测试图像。除了高速和高效之外,结果显示深度条形码的检索准确率为71.62%,而深度特征的检索准确率为68.91%,压缩的深度特征的检索准确率为68.53%。[1805.08833v1]

 

CrowdHuman:在人群中检测人的基准

Shuai Shao, Zijian Zhao, Boxun Li, Tete Xiao, Gang Yu, Xiangyu Zhang, Jian Sun

人体检测近年来取得了令人瞩目的进展。然而,在高度拥挤的环境中检测人类的遮挡问题还远未解决。更糟糕的是,目前人类检测基准中的人群情景仍然不足。在本文中,我们引入了一个名为CrowdHuman的新数据集,以更好地评估人群情景中的探测器。CrowdHuman数据集非常大,丰富的注释和高度多样性。从火车和验证子集中总共有$ 470K $的人类实例,每个图像$ 22.6 $人,数据集中有各种各样的遮挡。每个人体实例用头部边界框,人类可见区域边界框和人体全身边界框进行注释。介绍了CrowdHuman上最先进的检测框架的基线性能。CrowdHuman数据集的交叉数据集一般化结果展示了先前数据集的最新性能,包括Caltech-USACityPersons和无需喋喋不休的洗脑。我们希望我们的数据集将成为一个坚实的基线,并有助于促进人类检测任务的未来研究。[1805.00123v1]

 

图像前后处理,小波分解和局部二值模式对U-Nets皮肤病变分割的影响

Sara Ross-HoweHR Tizhoosh

皮肤癌是一种普遍的,全球性的,可能致命的疾病,在过去的三十年中,美国的生命受到的影响远远超过所有其他形式的癌症。最近有许多有前途的工作利用深度网络体系结构,如FCNU-NetsResNets来开发自动皮肤病灶分割。本文调查了Jaccard指数衡量的各种改进U-Nets性能的前后处理技术。作为“2017 ISBI皮肤病变分析对黑色素瘤检测挑战的一部分提供的数据集用于本次评估,入围竞争对手的表现是比较标准。所提出的系统中采用的预处理技术包括对比度增强,伪像去除,和小插曲更正。更高级的图像转换,如局部二进制模式和小波分解,也被用来增强用作网络输入特征的原始灰度图像。虽然所提出的系统的性能没有达到挑战的胜利者,但确定使用小波分解作为早期变换步骤改善了系统在仅处理前和后处理步骤上的总体性能。[1805.05239v1] 已经确定使用小波分解作为早期变换步骤改善了系统在整个预处理和后处理步骤上的整体性能。[1805.05239v1] 已经确定使用小波分解作为早期变换步骤改善了系统在整个预处理和后处理步骤上的整体性能。[1805.05239v1]

 

用于检查和比较图像处理算法的典型图像集

杰弗里乌尔曼

本文的目的是介绍一组包含特征和结构的测试图像,以便于图像处理算法的有效检查和比较。更具体地说,图像被设计为更明确地暴露用于图像压缩,虚拟分辨率调整和增强的算法的特性。该组是在20世纪90年代后期在海军研究实验室(NRL)开发的,作为对Lena和其他图像的更为严格的替代方案,这些图像以纯粹的特殊原因普遍使用,很少或根本没有严格考虑其适用性。文献中出现越来越多的测试图像不仅使得比较不同论文的结果变得更加困难,而且还引入了采摘樱桃以影响结果的可能性。本文的主要贡献是建议建立一些规范集以确保公布的结果能够以严格的方式从一篇论文到另一篇进行分析和比较,并且为此目的提出了对四种NRL图像的考虑。[1805.00116v1]

 

MV-YOLO:通过语义对象检测的运动矢量辅助跟踪

Saeed Ranjbar AlvarIvan V.Bajić

对象跟踪是许多可视化分析系统的基石。近年来,虽然在这方面取得了相当大的进展,但在实际视频中进行稳健,高效和准确的跟踪仍然是一项挑战。在本文中,我们提出了一种混合跟踪器,利用压缩视频流中的运动信息和作用于解码帧的通用语义对象检测器来构建适用于多种可视化分析应用的快速高效的跟踪引擎。所提出的方法与OTB追踪数据集上的几个众所周知的最近追踪器进行比较。结果表明所提出的方法在速度和/或准确性方面的优点。所提出的方法相对于大多数现有跟踪器的另一个优点是其简单性和部署效率,这源于它重用和重新利用系统中可能已存在的资源和信息,这是出于其他原因。[1805.00107v1]

 

可扩展的角度判别式深度学习用于人脸识别

Bowen Wu, Huaming Wu, Monica M. Y. Zhang

随着深度学习的发展,深度度量学习(DML)在人脸识别方面取得了很大的进步。具体而言,在训练过程中广泛使用的softmax损失通常会带来较大的类内变化,并且特征归一化仅在测试过程中被利用来计算这些配对相似性。为弥补差距,我们在softmax损失中的特征和权重向量之间的类内余弦相似性大于训练步骤中的边际,并从四个方面扩展。首先,我们探索一个硬采样策略的效果。为缓解调整边缘超参数的人力劳动,提出了一种自适应边缘更新策略。然后,给出一个规范化版本以充分利用余弦相似性约束。此外,我们增强了前一个约束,以迫使类内余弦相似度大于指数特征投影空间中具有余量的平均类间余弦相似度。在野外标记人脸(LFW),Youtube人脸(YTF)和IARPA Janus基准AIJB-A)数据集上的大量实验表明,所提出的方法胜过主流DML方法并接近最先进的性能。[1804.10899v2]

 

工艺:使用敌对特征变换器的补充建议

Cong Phuoc HuynhArri CiptadiAmbrish TyagiAmit Agrawal

传统的补充产品推荐方法依赖于行为和非视觉数据,如客户共同观点或共同购买。但是,某些领域如时尚主要是视觉化的。我们提出了一个框架,以无监督的方式利用视觉线索来了解真实世界图像中共现互补项目的分布情况。我们的模型学习了源和目标补充项目类别的两个流形之间的非线性变换(例如,服装中的顶部和底部)。给定包含共生对象类别实例的大型图像数据集,我们直接在特征表示空间中训练生成变换器网络,将其作为敌对优化问题进行处理。这种条件生成模型可以针对给定的查询项目产生补充项目的多个新样本(在特征空间中)。最终的建议是从最接近真实世界的例子中选择合成的互补特征。我们将我们的框架应用于推荐给定底部衣物的补充上衣的任务。我们的系统提出的建议是多种多样的,并且在基线方法上受到人类专家的青睐。[1804.10871v2] 并且在基线方法方面受到人类专家的青睐。[1804.10871v2] 并且在基线方法方面受到人类专家的青睐。[1804.10871v2]

 

使用神经网络从社交媒体视频中提取文本叠加

AdamSłuckiTomasz TrzcinskiAdam BielskiPawełCyrta

在社交媒体视频中经常使用文本叠加,因为没有声音观看它们的人将会遗漏在音频流中传达的重要信息。这就是为什么提取这些叠加层可以作为重要的元数据源,例如内容分类或检索任务。在这项工作中,我们提出了一种强大的方法,用于从多个神经网络体系结构上构建的视频中提取文本叠加层。所提出的解决方案依赖于几个处理步骤:关键帧提取,文本检测和文本识别。我们系统的主要组成部分,即文本识别模块,受卷积循环神经网络架构的启发,我们使用合成生成的超过600,000个图像的数据集以及由作者专门为此任务准备的文本来提高其性能。我们还开发了一种过滤方法,使用Levenshtein距离减少重叠文本短语的数量,并进一步提高系统的性能。我们解决方案的最终准确度达到了80%以上,并且采用了最先进的方法。[1804.10687v2]

 

同心超球体特征嵌入用于人重新识别

Wangmeng Xiang, Jianqiang Huang, Xianbiao Qi, Xiansheng Hua, Lei Zhang

由于相机视点,照明,分辨率和人体姿势的巨大变化,人物识别(人物ReID)是一项具有挑战性的任务。最近,随着深度学习技术的进步,Person ReID的性能得到了迅速提高。特征提取和特征匹配是Person ReID的培训和部署阶段中的两个关键组件。然而,许多现有的人员ReID方法在训练阶段和部署阶段之间具有测量不一致性,并且在特征表示中耦合了特征向量的大小和方向信息。同时,传统的三元组丢失方法专注于小批量样本,缺乏全局特征分布的知识。为了解决这些问题,我们提出了一种新颖的同心超球面嵌入方案来解耦特征向量和权向量的幅度和方向信息,并将分类损失和三重损失重新形成为它们的角度版本,并将它们组合成角度区分性损失。我们广泛使用广泛使用的Person ReID基准评估我们提出的方法,包括Market1501CUHK03DukeMMC-ReID。我们的方法展示了所有数据集的领先性能。[1804.08866v2] 我们的方法展示了所有数据集的领先性能。[1804.08866v2] 我们的方法展示了所有数据集的领先性能。[1804.08866v2]

 

使用LSTM-MDL模型的基于粒子的行人路径预测

Ronny HugStefan BeckerWolfgangHübnerMichael Arens

递归神经网络能够从顺序数据中学习复杂的长期关系,并在状态空间中输出pdf。因此,经常性模型是解决路径预测任务的自然选择,其中使用经过训练的模型来根据过去的观察结果产生未来预期。当应用于安全应用时,如预测行人路径进行风险评估,对输出pdf进行逐点贪心(ML)评估是不可行的,因为环境经常允许多种选择。因此,强大的风险评估必须考虑所有选项,即使它们总体上不太可能。为此,提出了粒子滤波器采样策略和LSTM-MDL模型的组合,以解决多模态路径预测任务。所提出的方法的能力和可行性在几种综合测试条件下进行评估,得出最直接的结果,即最简单的方法表现最佳。此外,所提出的方法的可行性在几个真实世界的场景中进行了说明。[1804.05546v2]

 

具有选择性注意力的多模式传感器数据分类

Xiang Zhang, Lina Yao, Chaoran Huang, Sen Wang, Mingkui Tan, Guodong Long, Can Wang

多模式可穿戴传感器数据分类在无所不在的计算中发挥着重要作用,并且在从医疗保健到娱乐的场景中具有广泛的应用。然而,该领域的大多数现有工作都采用特定领域的方法,因此在收集多模式传感器数据的复杂情况下无效。而且,可穿戴传感器数据比传统数据(如文本或图像)的信息量更少。在本文中,为了提高这些分类方法在不同应用领域的适应性,我们将这个分类任务转化为一个游戏,并应用一个深度强化学习方案来动态处理复杂情况。另外,我们在强化学习计划中引入了选择性注意机制,以关注数据的关键维度。这种机制有助于从信号中捕获额外的信息,从而能够显着提高分类器的判别能力。我们在三个可穿戴传感器数据集上进行了几次实验,并与几个最先进的基线进行比较,证明了所提出方法的竞争性能。[1804.05493v2]

 

加重双凸面编码凸显身体部位的人重新识别

Qin Zhou, Heng Fan, Hang Su, Hua Yang, Shibao Zheng, Haibin Ling

深卷积神经网络(CNN)已经证明了在人重新识别(Re-ID)方面的主要性能。现有的基于CNN的方法利用全局平均池(GAP)来聚合Re-ID的中间卷积特征。但是,该策略仅考虑局部特征的一阶统计量,并将同一重要位置处的局部特征视为同等重要,导致次优特征表示。为了解决这些问题,我们提出了一种新颖的用于CNN网络中局部特征聚合的加权双线性编码(WBC)模型,以追求更具代表性和区分性的特征表示。具体而言,双线性编码被用于编码信道方面的特征相关性以捕获更丰富的特征交互。与此同时,对双线性编码应用加权方案,根据识别的重要性自适应调整不同位置的局部特征的权重,进一步提高特征聚合的可辨性。为了处理空间偏差问题,我们使用显着的部分网络来导出显着的身体部位,并将WBC模型应用于每个部分。通过连接每个部分的WBC编码特征形成的最终表示既具有区分性又能抵抗空间不对齐。包括Market-1501DukeMMC-reIDCUHK03三个基准的实验证明了我们的方法与其他最先进的方法的良好表现。[1803.08580v2] 进一步提高了特征聚合的可区分性。为了处理空间偏差问题,我们使用显着的部分网络来导出显着的身体部位,并将WBC模型应用于每个部分。通过连接每个部分的WBC编码特征形成的最终表示既具有区分性又能抵抗空间不对齐。包括Market-1501DukeMMC-reIDCUHK03三个基准的实验证明了我们的方法与其他最先进的方法的良好表现。[1803.08580v2] 进一步提高了特征聚合的可区分性。为了处理空间偏差问题,我们使用显着的部分网络来导出显着的身体部位,并将WBC模型应用于每个部分。通过连接每个部分的WBC编码特征形成的最终表示既具有区分性又能抵抗空间不对齐。包括Market-1501DukeMMC-reIDCUHK03三个基准的实验证明了我们的方法与其他最先进的方法的良好表现。[1803.08580v2] 包括Market-1501DukeMMC-reIDCUHK03三个基准的实验证明了我们的方法与其他最先进的方法的良好表现。[1803.08580v2] 包括Market-1501DukeMMC-reIDCUHK03三个基准的实验证明了我们的方法与其他最先进的方法的良好表现。[1803.08580v2]

 

多图像语义匹配挖掘一致性特征

Qianqian Wang, Xiaowei Zhou, Kostas Daniilidis

这项工作提出了一种多图像匹配方法来估计跨多幅图像的语义对应关系。与先前优化所有成对对应关系的方法相反,所提出的方法仅识别和匹配图像集合中的稀疏可靠特征集。以这种方式,所提出的方法能够修剪不可重复的特征并且还具有高度可扩展性以处理数千个图像。我们另外提出了一个低秩约束来确保整个图像集合中特征对应的几何一致性。除了在多图匹配和语义流基准测试中的竞争性能外,我们还证明了所提方法在重构对象类模型和从图像中发现对象类地标时的适用性,而不使用任何注释。[1711

 

Tags2Parts:从形状标签中发现语义区域

Sanjeev MuralikrishnanVladimir G. KimSiddhartha Chaudhuri

我们提出了一种新的方法来发现与用户指定的标签强相关的形状区域。例如,鉴于标有有扶手没有扶手的椅子,我们的系统正确地突出了扶手区域作为两种椅子类型之间的主要区别部分。为了从形状标签获得逐点预测,我们开发了一种新型神经网络架构,该架构经过标签分类丢失训练,但是被设计为依靠分割来预测标签。我们的网络受到U-Net的启发,但我们通过新的跳过连接和汇聚层多次复制浅U结构,并将结果体系结构称为“WU-Net”。我们测试了分段基准的方法,并且表明,即使对整个形状标签的监督力较弱,我们的方法可以推断出有意义的语义区域,而无需观察形状分割。此外,一旦训练完成,该模型可以处理标签完全未知的形状。作为奖励,我们的架构在全面监督下直接运行,并在标准基准测试中表现强劲。我们通过多种变体结构和先前基线的实验验证了我们的方法,并演示了几种应用。[1708.06673v3] 并演示几个应用程序。[1708.06673v3] 并演示几个应用程序。[1708.06673v3]

 

从强大的RGB-D动作识别合成数据中学习人体姿态模型

Jian Liu, Naveed Akhtar, Ajmal Mian

我们建议人体姿势模型代表人体姿势的RGB和深度图像,与服装纹理,背景,照明条件,身体形状和相机视点无关。学习这样的通用模型需要训练图像,其中所有因素针对每个人体姿势而变化。捕获这些数据过于昂贵。因此,我们开发了一个综合培训数据的框架。首先,我们从一个大型真实动作语料库中学习代表性的人体姿势,捕捉人体骨骼数据。接下来,我们将适合具有不同身体形状的合成3D人物放入每个姿势,并从180个相机视点渲染每个人物,同时随机更改服装纹理,背景和灯光。采用生成对抗网络来最小化合成和实际图像分布之间的差距。然后学习CNN模型,将人的姿势转移到共享的高级不变空间。然后将学习的CNN模型用作来自人类动作视频的真实RGB和深度帧的不变特征提取器,并且时间变化由傅立叶时间金字塔建模。最后,线性SVM用于分类。在三个基准交叉视图人体动作数据集上的实验表明,我们的算法在仅RGBRGB-D动作识别方面的表现优于现有方法。[1707.00823v2] 在三个基准交叉视图人体动作数据集上的实验表明,我们的算法在仅RGBRGB-D动作识别方面的表现优于现有方法。[1707.00823v2] 在三个基准交叉视图人体动作数据集上的实验表明,我们的算法在仅RGBRGB-D动作识别方面的表现优于现有方法。[1707.00823v2]

 

高精度大型Minibatch SGD:在1小时内训练ImageNet

Priya GoyalPiotrDollárRoss GirshickPieter NoordhuisLukasz WesolowskiAapo KyrolaAndrew Tulloch,杨庆佳,何明明

深度学习随着大型神经网络和大型数据集一起蓬勃发展。但是,较大的网络和较大的数据集会导致较长的培训时间,阻碍研发进展。分布式同步SGD通过在并行工作者池中划分SGD小型备用数据库来解决这个问题。但为了使这种方案有效率,每个工作人员的工作量必须很大,这意味着SGD小批量的大幅增长。在本文中,我们凭经验证明,在ImageNet数据集中,大型小型文件会导致优化困难,但是当这些问题得到解决时,训练好的网络会呈现良好的泛化。具体来说,我们显示,在使用8192张图像进行大型小型批量培训时,不会出现精确度损失。为了达到这个结果,我们采用超参数自由线性缩放规则来调整作为小批量函数的学习速率,并开发出一种新的热身方案,以在培训早期克服优化挑战。通过这些简单的技术,我们基于Caffe2的系统在一小时内在256GPU上训练ResNet-50,其小批次大小为8192,同时匹配小批量精度。使用商用硬件时,我们的实现在从8GPU移动到256GPU时实现了~90%的扩展效率。我们的研究结果可以高效地在互联网规模数据上训练视觉识别模型。[1706.02677v2] 同时匹配小型小批量精度。使用商用硬件时,我们的实现在从8GPU移动到256GPU时实现了~90%的扩展效率。我们的研究结果可以高效地在互联网规模数据上训练视觉识别模型。[1706.02677v2] 同时匹配小型小批量精度。使用商用硬件时,我们的实现在从8GPU移动到256GPU时实现了~90%的扩展效率。我们的研究结果可以高效地在互联网规模数据上训练视觉识别模型。[1706.02677v2]

 

分离和适应:学习跨域解缠深度表示

Yen-Cheng Liu, Yu-Ying Yeh, Tzu-Chien Fu, Sheng-De Wang, Wei-Chen Chiu, Yu-Chiang Frank Wang

虽然表示学习旨在获得用于描述视觉数据的可解释特征,但表示解开进一步导致这些特征,从而可以识别和操纵特定图像属性。但是,如果不对训练数据进行实际注解,就不能轻易解决这个问题。为了解决这个问题,我们提出了一种新的跨域表示分析器(CDRD)的深度学习模型。通过观察完整注释的源域数据和感兴趣的未标记目标域数据,我们的模型跨越数据域桥接信息并相应地传输属性信息。因此,可以联合执行跨域联合特征解缠和自适应。在实验中,我们提供定性结果来验证我们的解缠能力。此外,我们进一步证实,我们的模型可以应用于解决无监督域适应的分类任务,并且有利于抵制最先进的图像解缠和翻译方法。[1705.01314v4]

 

学习用于图像文本匹配任务的双分支神经网络

Liwei Wang, Yin Li, Jing Huang, Svetlana Lazebnik

图像语言匹配任务最近在计算机视觉领域引起了很多关注。这些任务包括图像句子匹配,即给定图像查询,检索相关句子,反之亦然,以及区域短语匹配或视觉基础,即将短语与相关区域进行匹配。本文研究了两分支神经网络,用于学习这两种数据模式之间的相似性。我们提出两种产生不同输出表示的网络结构。第一个被称为嵌入网络,学习一个显式共享潜在嵌入空间,具有最大边缘排序损失和新的邻域约束。与标准三元组抽样相比,我们执行改进的邻域抽样,在构建小批量时考虑到邻域信息。称为相似性网络的第二种网络结构通过基于元素的产品融合了两个分支,并用回归损失进行训练以直接预测相似性分数。大量的实验表明,我们的网络在Flickr30K实体数据集上获得了高精度的短语定位,并在Flickr30KMSCOCO数据集上获得了双向图像句子检索的精度。[1704.03470v4]

转载请注明:《高精度大型Minibatch SGD:在1小时内训练ImageNet+CrowdHuman:在人群中检测人的基准

发表评论