数据增强和网络训练的联合优化:人体姿态估计中的对抗样本增强

席鹏,汤志强,费扬,罗杰里奥费里斯,迪米特里斯梅塔克萨斯
随机数据增强是避免训练深度神经网络模型过度拟合的关键技术。然而,数据增强和网络培训通常被视为两个孤立的过程,限制了网络培训的有效性。为什么不联合优化这两个?我们提出对抗性数据增强来解决这个限制。主要思想是设计一个增强网络(发生器),通过在线生成“硬”增强操作来与目标网络(鉴别器)竞争。增强网络探索目标网络的弱点,而后者从“硬”增强中学习以获得更好的性能。我们还为有效的联合培训设计奖励/惩罚策略。我们在人体姿态估计问题上展示了我们的方法,并进行了全面的实验分析,表明我们的方法可以显着提高最先进的模型而无需额外的数据工作。[1805.09707v1]
Pan Lu, Lei Ji, Wei Zhang, Nan Duan, Ming Zhou, Jianyong Wang
最近,视觉问答(VQA)已经成为多模式学习中最重要的任务之一,因为它需要理解视觉和文本方式。现有的方法主要依靠提取图像和问题特征,通过多模态融合或关注机制来学习它们的联合特征嵌入。一些最近的研究利用外部VQA独立模型来检测图像中的候选实体或属性,其作为与VQA任务互补的语义知识。然而,这些候选实体或属性可能与VQA任务无关,并且语义能力有限。为了更好地利用图像中的语义知识,我们提出了一个新的框架来学习VQA的视觉关系事实。特别,我们通过语义相似度模块构建了基于Visual Genome数据集的Relation-VQA(R-VQA)数据集,其中每个数据由图像,相应问题,正确答案和支持关系事实组成。然后采用明确的关系检测器来预测与视觉问题有关的关系事实。我们进一步提出了一种由视觉注意和语义注意组成的多步注意模型,以提取相关的视觉知识和语义知识。我们对这两个基准数据集进行了全面的实验,证明我们的模型达到了最先进的性能,并验证了考虑视觉关系事实的好处。[1805.09701v1] 一个正确答案和一个支持关系事实。然后采用明确的关系检测器来预测与视觉问题有关的关系事实。我们进一步提出了一种由视觉注意和语义注意组成的多步注意模型,以提取相关的视觉知识和语义知识。我们对这两个基准数据集进行了全面的实验,证明我们的模型达到了最先进的性能,并验证了考虑视觉关系事实的好处。[1805.09701v1] 一个正确答案和一个支持关系事实。然后采用明确的关系检测器来预测与视觉问题有关的关系事实。我们进一步提出了一种由视觉注意和语义注意组成的多步注意模型,以提取相关的视觉知识和语义知识。我们对这两个基准数据集进行了全面的实验,证明我们的模型达到了最先进的性能,并验证了考虑视觉关系事实的好处。[1805.09701v1] 我们对这两个基准数据集进行了全面的实验,证明我们的模型达到了最先进的性能,并验证了考虑视觉关系事实的好处。[1805.09701v1] 我们对这两个基准数据集进行了全面的实验,证明我们的模型达到了最先进的性能,并验证了考虑视觉关系事实的好处。[1805.09701v1]
小野友树,爱德华Trulls,帕斯卡尔灵活使用空域,KWANG武毅
我们提出了一种新颖的深层架构和培训策略,可以从头开始学习局部特征管道,使用图像集合而无需人工监控。为此,我们利用深度和相对位置姿势提示来创建网络应在一个图像上实现的虚拟目标,为其他图像提供网络输出。虽然这个过程本质上是不可区分的,但我们表明,我们可以通过将它限制在一个分支上,并在另一个分支中保留差异性来优化网络。我们在室内和室外数据集上训练我们的方法,前者采用3D传感器的深度数据,后者采用现成的运动结构解决方案进行深度估算。我们的模型在两个数据集上的稀疏特征匹配方面都优于现有技术,而QVGA图像以60 + fps运行。[1805.09662v1]
Yiming Lin, Jie Shen, Shiyang Cheng, Maja Pantic
随着智能手机的迅速发展,面部分析在众多移动应用中扮演着越来越重要的角色。在大多数情况下,面部追踪是至关重要的第一步,因为移动应用程序往往只需要专注于分析复杂环境中的特定面部。尽管继承了通用视觉追踪问题的许多共同特征,但在移动场景中的人脸追踪具有独特的挑战。在这项工作中,我们提出了iBUG MobiFace基准测试,这是第一款由智能手机用户在无约束环境中捕获的序列组成的首个移动人脸跟踪基准。该序列总共包含50,736帧,其中46个不同的身份将被跟踪。在移动场景中,每个序列中的追踪目标在不同的困难中被选择。除了逐帧边界框之外,还提供了9个序列属性(例如多个面)的注释。我们进一步提供了23个最先进的视觉跟踪器的调查,并对提出的基准进行了这些方法的全面量化评估。特别是,研究了两种最流行的框架,即基于相关滤波器的跟踪和基于深度学习的跟踪。我们的实验表明:(a)所有现有的通用对象跟踪器的性能在移动人脸跟踪场景中显着下降,这表明需要更多的研究工作来进行移动人脸跟踪;(b)深度学习跟踪和面对面跟踪的有效结合,相关算法(例如,人脸检测)为该领域的未来发展提供了最有前景的基础。数据库,注释和评估协议/代码将在iBUG网站上公开发布。[1805.09749v1]
Cristina Mata,Guy Ben-Yosef,Boris Katz
许多用于语义分割的深度学习体系结构涉及完全卷积神经网络(FCN),随后是条件随机场(CRF)以对图像执行推理。这些模型通常涉及基于由FCN计算的局部外观特征的一元电位,以及基于像素之间的位移的二元电位。我们表明,尽管当前的方法成功地分割了整个对象,但在涉及大量对象部分的情况下,它们表现不佳。因此,我们建议在推理算法中纳入由人类识别和定位零件的方式所激发的更高阶潜能。我们将两种显示对人体识别有用的关系 – 遏制和附着 – 纳入CRF的能量术语中,并评估它们在Pascal VOC部件数据集上的表现。我们的实验结果表明,精细部分的分割受到这两个关系的附加的正面影响,并且精细部分的分割可以进一步受到复杂结构特征的影响。[1805.09462v1]
Anurag Ranjan,Varun Jampani,Kihwan Kim,Deqing Sun,Jonas Wulff,Michael J. Black
我们针对低级视觉中的几个相互关联的问题进行无监督学习:单视点深度预测,相机运动估计,光流以及将视频分割成静态场景和移动区域。我们的关键洞察力是,这四个基本的视觉问题是相互耦合的,因此,一起学习解决它们可以简化问题,因为解决方案可以通过利用已知的几何约束来相互补充。为了对几何约束进行建模,我们引入了敌对协作(Adversarial Collaboration),这是一个促进神经网络之间竞争和协作的框架。我们超越以前的工作,更明确地利用几何图形并将场景分割成静态和移动区域。对抗性协作的作用与期望最大化一样,但具有充当对手的神经网络,竞争解释与静态或移动区域相对应的像素,以及通过主持人分配像素为静态或独立移动的协作者。我们的新方法将所有这些问题都集成在一个共同的框架中,同时还将场景分割为运动物体和静态背景,相机运动,静态场景结构的深度以及运动物体的光流。我们的模型在没有任何监督的情况下接受培训,并在无监督的方法中实现了最先进的结果。[1805.09806v1] 并作为合作者通过主持人分配像素为静态或独立移动。我们的新方法将所有这些问题都集成在一个共同的框架中,同时还将场景分割为运动物体和静态背景,相机运动,静态场景结构的深度以及运动物体的光流。我们的模型在没有任何监督的情况下接受培训,并在无监督的方法中实现了最先进的结果。[1805.09806v1] 并作为合作者通过主持人分配像素为静态或独立移动。我们的新方法将所有这些问题都集成在一个共同的框架中,同时还将场景分割为运动物体和静态背景,相机运动,静态场景结构的深度以及运动物体的光流。我们的模型在没有任何监督的情况下接受培训,并在无监督的方法中实现了最先进的结果。[1805.09806v1] 我们的模型在没有任何监督的情况下接受培训,并在无监督的方法中实现了最先进的结果。[1805.09806v1] 我们的模型在没有任何监督的情况下接受培训,并在无监督的方法中实现了最先进的结果。[1805.09806v1]
Devansh Bisla,Anna Choromanska
在许多机器学习应用中,从医学诊断到自动驾驶,先验知识的可用性可用于提高学习算法的预测性能,并将“物理”,“领域知识”或“常识”概念纳入机器的培训学习系统以及验证系统的约束/属性。我们探索使用特权信息范例的学习,并展示如何将特权信息(例如可用的分割掩码以及每个示例的分类标签)并入卷积神经网络的训练阶段。这是通过增加CNN模型来完成的,在训练过程中注意输入图像的期望区域,并且在测试时对网络的标签预测机制是透明的。该组件有效地对应于用于识别输入部分(通常称为可视化掩模)的可视化策略,其最有助于预测,但是与经典设置相反地使用该策略,以便实施期望的可视化掩模。我们通过基准ImageNet和PASCAL VOC数据集的详尽实验来验证我们提出的算法,并在标准单监督模型培训中实现$ 2.4 \%$和$ 2.7 \%$的性能提升。最后,我们证实了我们的方法在皮肤病变分类问题上的有效性。[1805.09474v1] s的标签预测机制在测试。该组件有效地对应于用于识别输入部分(通常称为可视化掩模)的可视化策略,其最有助于预测,但是与经典设置相反地使用该策略,以便实施期望的可视化掩模。我们通过基准ImageNet和PASCAL VOC数据集的详尽实验来验证我们提出的算法,并在标准单监督模型培训中实现$ 2.4 \%$和$ 2.7 \%$的性能提升。最后,我们证实了我们的方法在皮肤病变分类问题上的有效性。[1805.09474v1] s的标签预测机制在测试。该组件有效地对应于用于识别输入部分(通常称为可视化掩模)的可视化策略,其最有助于预测,但是与经典设置相反地使用该策略,以便实施期望的可视化掩模。我们通过基准ImageNet和PASCAL VOC数据集的详尽实验来验证我们提出的算法,并在标准单监督模型培训中实现$ 2.4 \%$和$ 2.7 \%$的性能提升。最后,我们证实了我们的方法在皮肤病变分类问题上的有效性。[1805.09474v1] 通常被称为可视化蒙版,它对预测最有贡献,但是与经典设置相反地使用该策略,以实现所需的可视化蒙板。我们通过基准ImageNet和PASCAL VOC数据集的详尽实验来验证我们提出的算法,并在标准单监督模型培训中实现$ 2.4 \%$和$ 2.7 \%$的性能提升。最后,我们证实了我们的方法在皮肤病变分类问题上的有效性。[1805.09474v1] 通常被称为可视化蒙版,它对预测最有贡献,但是与经典设置相反地使用该策略,以实现所需的可视化蒙板。我们通过基准ImageNet和PASCAL VOC数据集的详尽实验来验证我们提出的算法,并在标准单监督模型培训中实现$ 2.4 \%$和$ 2.7 \%$的性能提升。最后,我们证实了我们的方法在皮肤病变分类问题上的有效性。[1805.09474v1] 我们通过基准ImageNet和PASCAL VOC数据集的详尽实验来验证我们提出的算法,并在标准单监督模型培训中实现$ 2.4 \%$和$ 2.7 \%$的性能提升。最后,我们证实了我们的方法在皮肤病变分类问题上的有效性。[1805.09474v1] 我们通过基准ImageNet和PASCAL VOC数据集的详尽实验来验证我们提出的算法,并在标准单监督模型培训中实现$ 2.4 \%$和$ 2.7 \%$的性能提升。最后,我们证实了我们的方法在皮肤病变分类问题上的有效性。[1805.09474v1]
Yotam Hechtlinger,BarnabasPóczos,Larry Wasserman
大多数分类器通过选择条件分布$ p(y | x)$的估计的最大值来操作,其中$ x $表示要分类的实例的特征,$ y $表示其标签。这通常会导致傲慢的偏见:分配明确的标签过分自信。通常,观察集中在一个小的体积上,但分类器为整个空间提供确切的预测。我们提出构建共形预测集[vovk2005algorithmic],它包含一组标签而不是单个标签。这些共形预测集合包含真实标签,概率为$ 1 \ alpha $。我们的构建基于$ p(x | y)$而不是$ p(y | x)$,这导致了一个非常谨慎的分类器:它输出空集 – 意思是“我不知道” —当对象不像训练样例时。我们的方法的一个重要特性是可以添加或删除类而不必重新训练分类器。我们使用从现有技术的卷积神经网络获得的高维特征来演示ImageNet ILSVRC数据集上的性能。[1805.09460v1]
亚当范埃滕
在大量图像中检测小物体是卫星图像分析中的主要问题之一。虽然基于地面的图像中的物体检测已从研究新的深度学习方法中受益,但将这种技术转换为俯视图像并非易事。面临的挑战包括像素数量和每幅图像的地理范围:单个DigitalGlobe卫星图像包含> 64平方公里并超过2.5亿像素。另一个挑战是感兴趣的对象是微不足道的(通常只有10个像素的范围),这使传统的计算机视觉技术变得复杂。为了解决这些问题,我们提出了一个管道(你只看两次,即YOLT),它可以以> 0.5 km2 / s的速率评估任意大小的卫星图像。所提出的方法可以通过多个传感器上相对较少的训练数据来快速检测极大地不同尺度的对象。我们以自然分辨率评估大型测试图像,车辆定位的得分为F1> 0.8。我们通过系统地测试降低分辨率的流水线来进一步探索解决方案和对象大小要求,并得出结论:只有〜5像素大小的对象仍然可以高置信度地进行本地化。代码位于https://github.com/CosmiQ/yolt。[1805.09512v1] 并得出结论:只有〜5像素的物体仍然可以高置信度地定位。代码位于https://github.com/CosmiQ/yolt。[1805.09512v1] 并得出结论:只有〜5像素的物体仍然可以高置信度地定位。代码位于https://github.com/CosmiQ/yolt。[1805.09512v1]
还有Litany,丹尼尔弗里德曼
我们提出了SOSELETO(SOURCE SELEction用于目标优化),一种利用源数据集来解决目标数据集分类问题的新方法。SOSELETO基于以下简单的直觉:对于目标问题,一些源例子比其他例子更具信息性。为了捕捉这种直觉,源样本每个都给予权重; 这些权重通过双层优化方案与源和目标分类问题联合解决。因此,目标可以选择对自己的分类任务来说信息最丰富的源样本。此外,优化的双层性质是对目标的正规化,缓解过度拟合。SOSELETO可能适用于经典转移学习以及带有噪音标签的数据集的训练问题; 我们展示了这两个问题的最新成果。[1805.09622v1]
Mohammad Sabokrou,Masoud Pourreza,Mohsen Fayyaz,Rahim Entezari,Mahmood Fathy,JürgenGall,Ehsan Adeli
实时检测视觉数据中的不规则性在包括监视,患者监测系统等在内的许多预期应用中非常宝贵和有用。随着近年来深度学习方法的激增,研究人员已经尝试了多种方法用于不同的应用。但是,对于视频中出现不规则或异常检测的情况,对端到端模型进行培训仍然是一个公开挑战,因为经常出现的不规则性不明确,并且在训练期间没有足够的不规则样本。在本文中,受到生成对抗网络(GAN)在无监督或自我监督环境中训练深度模型的成功启发,我们提出了一个端到端的深度网络,用于检测和精确定位视频(和图像)中的不规则性, 。我们提出的架构由两个网络组成,这两个网络经过相互竞争的训练,同时协作寻找不规则性。一个网络可用作像素级别的不规则性$ I $ npainter,另一个网络可用作修补程序级别的$ D $ etector。经过对抗性自我监督训练,其中$ I $试图欺骗$ D $以接受其修复后的输出为常规(正常),两个网络协作检测并细分任何给定测试视频中的不规则性。我们在三个不同数据集(一个合成数据集和两个视频数据集)上的结果表明,我们提出的方法不仅可以胜过最新的技术,而且可以细化不规则性。[1805.09521v1] 一个网络可用作像素级别的不规则性$ I $ npainter,另一个网络可用作修补程序级别的$ D $ etector。经过对抗性自我监督训练,其中$ I $试图欺骗$ D $以接受其修复后的输出为常规(正常),两个网络协作检测并细分任何给定测试视频中的不规则性。我们在三个不同数据集(一个合成数据集和两个视频数据集)上的结果表明,我们提出的方法不仅可以胜过最新的技术,而且可以细化不规则性。[1805.09521v1] 一个网络可用作像素级别的不规则性$ I $ npainter,另一个网络可用作修补程序级别的$ D $ etector。经过对抗性自我监督训练,其中$ I $试图欺骗$ D $以接受其修复后的输出为常规(正常),两个网络协作检测并细分任何给定测试视频中的不规则性。我们在三个不同数据集(一个合成数据集和两个视频数据集)上的结果表明,我们提出的方法不仅可以胜过最新的技术,而且可以细化不规则性。[1805.09521v1] 两个网络协作检测并细分任何给定测试视频中的不规则性。我们在三个不同数据集(一个合成数据集和两个视频数据集)上的结果表明,我们提出的方法不仅可以胜过最新的技术,而且可以细化不规则性。[1805.09521v1] 两个网络协作检测并细分任何给定测试视频中的不规则性。我们在三个不同数据集(一个合成数据集和两个视频数据集)上的结果表明,我们提出的方法不仅可以胜过最新的技术,而且可以细化不规则性。[1805.09521v1]
Ekin D. Cubuk,Barret Zoph,Dandelion Mane,Vijay Vasudevan,Quoc V. Le
在本文中,我们仔细研究图像的数据增强,并描述一个名为AutoAugment的简单过程,以搜索改进的数据增强策略。我们的主要见解是创建数据增强策略的搜索空间,直接针对感兴趣的数据集评估特定策略的质量。在我们的实施中,我们设计了一个搜索空间,其中一个策略由许多子策略组成,其中一个随机选择每个小批量中的每个图像。子策略由两个操作组成,每个操作都是图像处理功能,如平移,旋转或剪切,以及应用这些功能的概率和大小。我们使用搜索算法来找到最佳策略,以使神经网络在目标数据集上获得最高的验证准确度。我们的方法在CIFAR-10,CIFAR-100,SVHN和ImageNet上实现了最新的准确性(无需额外的数据)。在ImageNet上,我们获得83.54%的Top-1精度。在CIFAR-10上,我们实现了1.48%的错误率,比先前的先进水平好0.65%。在减少数据设置的情况下,AutoAugment与半监督方法相比可以执行同样的操作,而无需使用任何未标记的示例。最后,从一个数据集中学习的政策可以转移到其他类似数据集上运行良好。例如,在ImageNet上学习的政策使我们能够在精细粒度的视觉分类数据集斯坦福汽车中实现最新的精确度,而无需对预先训练过的其他数据进行微调。[1805.09501v1] 我们获得了83.54%的Top-1准确性。在CIFAR-10上,我们实现了1.48%的错误率,比先前的先进水平好0.65%。在减少数据设置的情况下,AutoAugment与半监督方法相比可以执行同样的操作,而无需使用任何未标记的示例。最后,从一个数据集中学习的政策可以转移到其他类似数据集上运行良好。例如,在ImageNet上学习的政策使我们能够在精细粒度的视觉分类数据集斯坦福汽车中实现最新的精确度,而无需对预先训练过的其他数据进行微调。[1805.09501v1] 我们获得了83.54%的Top-1准确性。在CIFAR-10上,我们实现了1.48%的错误率,比先前的先进水平好0.65%。在减少数据设置的情况下,AutoAugment与半监督方法相比可以执行同样的操作,而无需使用任何未标记的示例。最后,从一个数据集中学习的政策可以转移到其他类似数据集上运行良好。例如,在ImageNet上学习的政策使我们能够在精细粒度的视觉分类数据集斯坦福汽车中实现最新的精确度,而无需对预先训练过的其他数据进行微调。[1805.09501v1] AutoAugment的性能与半监督方法相当,无需使用任何未标记的示例。最后,从一个数据集中学习的政策可以转移到其他类似数据集上运行良好。例如,在ImageNet上学习的政策使我们能够在精细粒度的视觉分类数据集斯坦福汽车中实现最新的精确度,而无需对预先训练过的其他数据进行微调。[1805.09501v1] AutoAugment的性能与半监督方法相当,无需使用任何未标记的示例。最后,从一个数据集中学习的政策可以转移到其他类似数据集上运行良好。例如,在ImageNet上学习的政策使我们能够在精细粒度的视觉分类数据集斯坦福汽车中实现最新的精确度,而无需对预先训练过的其他数据进行微调。[1805.09501v1]
周庭辉,Richard Tucker,John Flynn,Graham Fyffe,Noah Snavely
视图合成问题 – 从已知图像中生成一个场景的新视图 – 最近引起了关注,部分原因是由于虚拟和增强现实中的引人注目的应用程序。在本白皮书中,我们探索了一个有趣的视点合成场景:从窄基线立体相机(包括VR相机和现在广泛使用的双镜头相机手机)拍摄的图像中推断视图的视图。我们将这个问题称为立体放大,并提出了一个学习框架,它利用了我们称之为多平面图像(MPI)的新分层表示。我们的方法还使用大量新数据源来学习视图推测:YouTube上的在线视频。使用从这些视频中挖掘出的数据,我们训练了一个深度网络,从输入的立体图像对预测MPI。这个推断的MPI可以用来合成一系列新的场景视图,包括显着超出输入基线的视图。我们展示了我们的方法与最近的几种视图合成方法相比毫不逊色,并展示了放大窄基线立体图像的应用。[1805.09817v1]
Yongliang Tang, Weiguo Gong, Xi Chen, Zhenghao Li, Weihong Li
最近,深度神经网络在单幅图像超分辨率(SISR)的重建准确性和效率方面取得了令人印象深刻的性能。然而,这些方法的网络模型是一个完全卷积神经网络,它限制了在输入图像的全局范围内利用上下文信息。在本文中,我们讨论一种新的SR架构,其中在低分辨率(LR)空间中提取特征,然后我们使用完全连接的层,学习一组上采样权重来重建所需的高分辨率(HR)图像从最终的LR功能。通过这样做,我们有效利用输入图像区域上的全局上下文信息,同时保持整个SR操作的低计算复杂度。此外,我们将边缘差异约束引入到我们的损失函数中,以预处理边缘和纹理结构。大量实验验证了我们的方法优于现有的最新方法[1805.10143v1]
Weixuan Chen,Javier Hernandez,Rosalind W. Picard
目标:非接触式生理测量是一个正在发展的研究领域,可以使用远程设备轻松捕捉诸如心率(HR)和呼吸频率(BR)等生命体征。然而,大多数方法只能在明亮的环境下工作,在这种环境中可以轻松分析微小的光电容积脉搏波图和心冲击波信号,并且/或者需要昂贵且定制的硬件来执行测量。方法:这项工作引入了一种低成本的方法来测量与使用近红外(NIR)视频成像的颈部的颈动脉脉搏和呼吸运动相关的微妙运动。建立颈部皮肤反射模型,为该方法提供理论基础。具体而言,该方法依赖于颈部检测的模板匹配,用于特征提取的主成分分析和用于数据平滑的隐马尔可夫模型。主要结果:我们比较了12名参与者实验室研究中估计的HR和BR测量结果与FDA批准的设备提供的测量结果:估计的平均绝对误差为0.36次/分钟,明亮和黑暗下每分钟0.24次呼吸灯光。意义:这项工作提高了在环境照度有限且人脸不易获得或需要保护的现实环境中进行非接触式生理测量的可能性。由于NIR成像设备的可用性日益提高,所描述的方法容易扩展。[1805.09511v1] 我们比较了12名参与者实验室研究中估计的HR和BR测量结果与FDA批准的设备提供的测量结果:在明亮和黑暗的照明下,估计的平均绝对误差为0.36次/分钟和0.24次/分钟。意义:这项工作提高了在环境照度有限且人脸不易获得或需要保护的现实环境中进行非接触式生理测量的可能性。由于NIR成像设备的可用性日益提高,所描述的方法容易扩展。[1805.09511v1] 我们比较了12名参与者实验室研究中估计的HR和BR测量结果与FDA批准的设备提供的测量结果:在明亮和黑暗的照明下,估计的平均绝对误差为0.36次/分钟和0.24次/分钟。意义:这项工作提高了在环境照度有限且人脸不易获得或需要保护的现实环境中进行非接触式生理测量的可能性。由于NIR成像设备的可用性日益提高,所描述的方法容易扩展。[1805.09511v1] 在明亮和黑暗的照明下每分钟呼吸24次。意义:这项工作提高了在环境照度有限且人脸不易获得或需要保护的现实环境中进行非接触式生理测量的可能性。由于NIR成像设备的可用性日益提高,所描述的方法容易扩展。[1805.09511v1] 在明亮和黑暗的照明下每分钟呼吸24次。意义:这项工作提高了在环境照度有限且人脸不易获得或需要保护的现实环境中进行非接触式生理测量的可能性。由于NIR成像设备的可用性日益提高,所描述的方法容易扩展。[1805.09511v1]
Bo Li, Kele Xu, Xiaoyan Cui, Yiheng Wang, Xinbo Ai, Yanbo Wang
电力盗窃检测问题在过去几十年中引起了很多关注。及时发现电力系统中的窃电对于系统的安全性和可用性至关重要。虽然已经做出了可持续的努力,但检测任务依然具有挑战性,并且缺乏准确性和效率,尤其是随着数据量的增加。最近,基于卷积神经网络的方法与使用手工特征和浅层结构分类器的传统方法相比,取得了更好的性能。在本文中,我们通过使用多尺度密集连接卷积神经网络(多尺度DenseNet)来提供一种用于自动检测的新方法,以捕获顺序数据内的长期和短期周期性特征。我们将提出的方法与经典算法进行比较,实验结果表明多尺度DenseNet方法可以显着提高检测的准确性。而且,我们的方法具有可扩展性,可实现更大的数据处理,而不需要手工制作特征工程。[1805.09591v1]
Tianli Liao, Jing Chen, Yifang Xu
缝合切割和接缝驱动技术已被证明可有效处理图像拼接中不完美的图像系列。一般来说,接缝驱动是利用切缝从一个或者有限的对齐假设中找到一个最好的接缝,这个假设是基于预定义的接缝质量度量。然而,大多数方法中的质量度量被定义为测量接缝上像素的平均性能,而不考虑它们之间的相关性和方差。这可能导致具有最小量度的接缝在人类感知中不是最佳的(感知不一致)。在本文中,我们提出了一种新颖的从粗到细的缝估计方法,以不同的方式应用评估。对于接缝上的像素,我们开发了一个补丁点评估算法,更多地关注它们的相关性和变化。然后使用评估重新计算重叠区域的差异图并重新拼接缝合线。这个评估重新估计过程会迭代,直到当前接缝与之前的接缝相比可以忽略不计。实验表明,我们提出的方法可以在几次迭代之后最终找到几乎感知一致的接缝,这比传统的切缝和其他接缝驱动的方法更胜一筹。[1805.09578v1] 它优于传统的缝纫和其他缝纫驱动方法。[1805.09578v1] 它优于传统的缝纫和其他缝纫驱动方法。[1805.09578v1]
Nicha C. Dvornek,Daniel Yang,Archana Venkataraman,Pamela Ventola,Lawrence H. Staib,Kevin A. Pelphrey,James S. Duncan
用行为干预治疗自闭症谱系障碍(ASD)儿童,如关键反应治疗(PRT),在最近的研究中显示了前景。然而,决定哪一种治疗最适合给定的患者主要是通过试验和错误,选择无效的干预会导致宝贵的治疗时间的损失。我们建议通过随机森林和树袋装策略的新颖应用,从基线任务功能磁共振成像预测患者对PRT的反应。我们提出的学习流程使用随机森林回归来确定可能在预测治疗反应时提供信息的候选脑体素。候选体素然后逐步测试以包含在袋装树合奏中。在构建预测模型之后,执行偏差校正以进一步提高预测精度。使用来自经历了16周PRT试验和留一法交叉验证框架的19名ASD儿童的数据,所提供的学习管道针对多种标准方法和管道变化进行测试,并且导致最高的预测准确度。[1805.09799v1]
Yingjing Lu
条件域生成是一种交互式控制深度生成模型样本生成过程的好方法。然而,一旦创建了条件生成模型,使其适应新的条件控制通常是昂贵的,尤其是网络结构相对较深。我们提出了一个跨无条件变分自动编码器(VAE)的潜在空间的条件潜在域转移框架。有了这个框架,我们可以允许无条件训练的VAE在其域中使用另一个域的潜在表示提供的条件生成图像。这个框架不承担两个领域之间的共同点。我们证明了我们的模型在广泛使用的图像数据集下的有效性和鲁棒性。[1805.10130v1]
Zhe-Cheng Fan, Tak-Shing T. Chan, Yi-Hsuan Yang, Jyh-Shing R. Jang
最近,向量值神经学习已经成为深度学习的一个有希望的方向。传统上,神经网络(NN)的训练数据被制定为标量向量; 然而,由于相邻标量之间的关联没有建模,因此其性能可能不是最佳的。在本文中,我们提出了一种称为任意双线性乘积神经网络(ABIPNN)的新型矢量神经架构,它将信息处理为每个神经元中的矢量,前馈投影使用任意双线性乘积来定义。这种双线性产品可以包括循环卷积,七维矢量积,斜交循环卷积,反时间循环卷积或其他在以前的工作中没有看到的新产品。作为一个概念验证,我们将我们提出的网络应用于多光谱图像去噪和歌声分离。实验结果表明,与常规神经网络相比,ABIPNN获得了实质性改善,表明在训练过程中学会了关联。[1805.09621v1]
Xiaoxi He, Zimu Zhou, Lothar Thiele
预计未来的移动设备可以通过在设备上运行多个相关的深度神经网络来自行感知,理解和反应世界。然而,这些神经网络的复杂性需要在模型和交叉模型中进行修剪,以适应移动存储和内存。以前的研究集中在压缩单个神经网络内的冗余。在这项工作中,我们旨在减少多个模型的冗余。我们提出了多任务压缩(MTZ),这是一个自动合并相关的,预先训练好的深层神经网络用于交叉模型压缩的框架。MTZ中心是一种分层神经元共享和传入重量更新方案,可以在误差函数中引入最小的变化。MTZ继承了每个模型的信息,并要求重新训练灯光以重新提高单个任务的准确性。评估表明,MTZ能够将两个VGG-16网络的隐藏层完全合并,ImageNet和CelebA平均测试误差增加3.18%,或者在两个网络之间共享39.61%的参数,测试增长小于0.5%这两项任务的错误。重新训练组合网络的迭代次数比训练单个VGG-16网络低至少17.8倍。[1805.09791v1]
弗朗索瓦卢梭,罗南Fablet
本文讨论了残余网络(ResNet)的理解和表征,它是各种监督学习问题的最先进的深度学习体系结构之一。我们专注于ResNets的映射组件,它将嵌入空间映射到一个新的未知空间,根据线性标准可以预测或分类。我们证明这个映射分量可以看作是由常微分方程控制的微分连续流的数值实现。特别是,具有共享权重的ResNets被完全表征为指数微分同胚算子的数值近似。我们强调理论上和数值上强调差分形态性质的相关性以及数值问题的重要性,以使连续的表达式和离散化的ResNet实现一致。我们进一步讨论ResNet架构的理论和计算方面的见解。[1805.09585v1]
瑞安福克纳,Doina Precup
强化风格的强化学习是一种强有力的方法,可用于那些没有太多实际数据的问题。主要思想是补充实际轨迹或随着时间推移的采样状态序列,以及从学习的环境模型中采样的模拟量。然而,在大型的国家空间中,迄今为止,学习环境的良好生成模型的问题已经开放。我们建议使用深层信念网络来学习在Dyna中使用的环境模型。我们提出我们的方法,并根据经验对状态观察由图像组成的问题进行验证。我们的研究结果表明,使用深信念网络,这是完全生成模型,显着优于使用线性期望模型,在Sutton等人提出。(2008)[1805.10129v1]
Viacheslav Dudar,弗拉基米尔谢苗诺夫
在这项工作中,我们引入了CNN的水平对称卷积核,这使得网络输出对图像的水平翻转不变。我们还研究了其他类型的导致垂直翻转不变性和近似旋转不变性的对称核。我们表明,这种内核的使用充当正规化器,并以更复杂的训练过程为代价来提高卷积神经网络的泛化能力。[1805.09421v1]
通过LSTM-CNN和高光谱成像技术进行玉米单倍体鉴定
Xuan-Yu Wang, Wen-Xuan Liao, Dong An, Yao-Guang Wei
准确快速地鉴定种子品种对于植物育种至关重要,加快新品种繁育和提高品质。在我们的研究中,首次尝试通过深度学习和高光谱成像技术,基于LSTM-CNN算法的最佳波段选择,设计一个二倍体玉米单倍体种子的高精度鉴定模型,准确率达到97%确定1367.6-1526.4nm的最佳波段。在同一波段测试另一品种的验证达到了93%的准确度。该模型采集了862.9-1704.2nm谱区的256个波段种子图像。高噪声波段间隔被LSTM发现并删除。最佳数据波段间隔由CNN基于波段的检测确定。网络训练的最佳样本组仅占总样本数据的1/5。其准确度明显高于任何其他波段的全波段建模或建模。我们的研究表明,该模型对玉米单倍体的鉴定具有显着的效果,可以在一定程度上推广。[1805.09105v2]
AutoPruner:端对端可训练过滤器修剪方法,用于高效深层模型推理
Jian-Hao Luo, Jianxin Wu
通道修剪是加速深度模型推断的重要方法。先前的滤波器修剪算法将信道修剪和模型微调视为两个独立的步骤。本文认为,将它们结合到一个单一的端到端可训练系统中将会带来更好的结果。我们提出了一个有效的频道选择层,即AutoPruner,以联合培训的方式自动找到不太重要的过滤器。AutoPruner将先前的激活响应作为输入并生成用于修剪的真正的二进制索引代码。因此,所有与零指标值对应的滤波器可以在训练后安全移除。我们通过实证证明,该信道选择层的梯度信息对整个模型训练也有帮助。与以前最先进的剪枝算法相比,AutoPruner实现了显着更好的性能。此外,消融实验表明,所提出的新型小批量池化和二元化操作对于过滤器修剪的成功至关重要。[1805.08941v2]
DRPose3D:三维人体姿势估计的深度排名
Min Wang, Xipeng Chen, Wentao Liu, Chen Qian, Liang Lin, Lizhuang Ma
在本文中,我们提出了一种基于两阶段深度排序的方法(DRPose3D)来解决三维人体姿态估计问题。深度排名可以通过直观的人类识别,并通过解决分类问题更容易地使用深度神经网络进行学习,而不是精确的三维位置。而且,深度排名包含丰富的3D信息。它可以防止两阶段方法中的二维到三维姿态回归不适宜。在我们的方法中,首先,我们设计了一个成对排序卷积神经网络(PRCNN),从图像中提取人体关节的深度排序。其次,提出了从粗到细的三维姿态网络(DPNet),用于根据深度排序和二维人类关节位置来估计三维姿态。另外,为了提高我们模型的一般性,我们引入了统计方法来增加深度排名。我们的方法胜过了所有三种测试协议的Human3.6M基准测试中最先进的方法,表明深度排名是可以学习改进三维姿态估计的基本几何特征。[1805.08973v2]
Ekraam Sabir,Stephen Rawls,Prem Natarajan
神经网络已成为OCR的首选技术,但其如何以及为何提供卓越性能的许多方面仍未知。目前使用LSTM的神经网络技术和先前的最先进的HMM系统之间的一个关键区别在于HMM系统具有强大的独立性假设。相比之下,LSTM对解码期间可以考虑的上下文的数量没有明确的限制。在本文中,我们表明他们学习了一个隐式的LM,并尝试用等价的n元语境描述LM的强度。我们表明,这种隐式学习的语言模型提供了与随机字符测试集(即不是自然发生的序列)相比,我们的综合测试集上2.4%的CER改进,并且LSTM学习使用最多5个字符的上下文(在我们的配置中大约为88帧)。我们相信这是有史以来第一次尝试描述基于LSTM的OCR系统中隐式LM的强度。[1805.09441v1]
Viacheslav Dudar,Giovanni Chierchia,Emilie Chouzenoux,Jean-Christophe Pesquet,Vladimir Semenov
在本文中,我们开发了一种新的训练前馈神经网络的二阶方法。在每次迭代中,我们构造低维子空间中成本函数的二次近似。我们通过两阶段程序使信赖区域内的这种近似最小化:首先在嵌入正曲率子空间内,然后是梯度下降步骤。这种方法导致快速的目标函数衰减,防止收敛到鞍点,并减少手动调整参数的需要。我们在基准数据集上展示了所提出的算法的良好性能。[1805.09430v1]
IvánRamírez,Gonzalo Galiano,Emanuele Schiavi
我们提出并数值求解一种新的数字图像自动显着性检测变分模型。使用非局部框架,我们考虑边缘保留函数族和新的二次显着性检测项。这个术语定义了一个由p-Laplacian算子驱动的图像分类的约束双边障碍问题,包括所谓的超拉普拉斯算子(0 <p <1)。然后考虑相关的非凸非局部反应流并应用于磁共振流体减弱倒置恢复(MRI-Flair)图像中的胶质母细胞瘤分割。计算基于快速卷积核的近似解。数值实验显示了与hyperLaplacian算子相关的非凸性如何在标准度量方面提供单调更好的结果。[1805。
资源意识的人重新识别多个决议
Yan Wang, Lequn Wang, Yurong You, Xu Zou, Vincent Chen, Serena Li, Gao Huang, Bharath Hariharan, Kilian Q. Weinberger
并非所有的人都容易识别:颜色统计可能足够用于某些情况,而其他人可能需要对高级和低级细节进行认真推理。但是,主流人员重新识别(re-ID)方法在所有情况下都使用来自深度卷积网络的一刀切高级嵌入。这可能会限制它们在困难示例上的准确性,或使它们对于简单示例而言不必要的昂贵。为了解决这个问题,我们提出了一个新的人物识别模型,它结合了多层卷积网络层上的有效嵌入,并通过深度监督进行训练。在传统的再识别基准测试中,我们的方法在我们评估的所有五个数据集上大大改善了先前的最新结果。然后,我们在资源约束条件下提出了两个新的个人身份识别问题的表达式,并展示我们的模型如何在资源约束条件下有效折衷准确性和计算。[1805.08805v2]
生成敌对的例子
杨松,瑞舒,内特库什曼,斯特凡诺埃尔蒙
敌对的例子通常是通过扰乱现有的数据点来构建的,而当前的防御方法则着重于防范这种类型的攻击。在本文中,我们提出了一类新的对抗性例子,它们完全是从头开始使用条件生成模型进行合成的。我们首先训练一个辅助分类器生成敌对网络(AC-GAN)来对输入的类别条件分布建模。然后,以期望的类别为条件,我们搜索AC-GAN潜在空间以找到可能在生成模型下并被目标分类器错误分类的图像。我们通过人类评估证明,这种新型的敌对投入,我们称之为生成敌对实例,是合法的,属于所需的类别。我们在MNIST,SVHN,和CelebA数据集显示,生成对抗的例子可以轻松绕过强大的对抗训练和经过认证的防御方法,这可以打破现有的敌对攻击。[1805.07894v2]
让它保持虚幻:只用几何主义弥合2.5D识别的现实主义差距
谢尔盖Zakharov,本杰明Planche,吴紫岩,安德烈亚斯胡特,Harald科希,斯洛博丹伊利奇
随着3D CAD模型的大型数据库日益增加的可用性,基于深度的识别方法可以通过不可数量的合成渲染图像进行训练。然而,从各种深度传感器获得的真实数据的差异仍然明显阻碍了进展。以前的作品采用无监督方法来生成更真实的深度数据,但它们都需要真实的扫描来进行训练,即使没有标记。这仍然是一个强大的要求,特别是在考虑实际培训图像难以或不可能获得的真实/工业环境时,但无纹理的3D模型可用。因此,我们提出了一种仅利用CAD模型弥合现实差距的新颖方法。纯粹训练合成数据,以无人监督的方式对抗广泛的增强管道,我们的生成对抗网络学习有效地分割深度图像,并从部分遮挡恢复清晰的合成深度信息。由于我们的解决方案不仅与真实领域完全脱钩,而且还与特定任务分析有关,因此可以将预处理扫描交给任何种类和数量的合成数据识别方法。通过各种实验,我们演示了如何简化他们的训练并不断提高他们的表现,结果与在真实数据上训练相同的方法一致,并且比通常的方法进行反向映射更好。[1804.09113v2] 由于我们的解决方案不仅与真实领域完全脱钩,而且还与特定任务分析有关,因此可以将预处理扫描交给任何种类和数量的合成数据识别方法。通过各种实验,我们演示了如何简化他们的训练并不断提高他们的表现,结果与在真实数据上训练相同的方法一致,并且比通常的方法进行反向映射更好。[1804.09113v2] 由于我们的解决方案不仅与真实领域完全脱钩,而且还与特定任务分析有关,因此可以将预处理扫描交给任何种类和数量的合成数据识别方法。通过各种实验,我们演示了如何简化他们的训练并不断提高他们的表现,结果与在真实数据上训练相同的方法一致,并且比通常的方法进行反向映射更好。[1804.09113v2] 结果与在真实数据上训练的相同方法一致,并且比通常的方法进行反向映射更好。[1804.09113v2] 结果与在真实数据上训练的相同方法一致,并且比通常的方法进行反向映射更好。[1804.09113v2]
PDE框架中的加速优化:Difffomorphisms流形的配方
Ganesh Sundaramoorthi,安东尼Yezzi
我们考虑了在微分同胚的无限维流形上优化成本函数的问题。我们提出了一类新的优化方法,通过将Nesterov加速优化推广到微分同胚的流形,可以用于微分同胚空间上的任何优化问题。虽然我们的框架对于无限维流形是通用的,但我们特别处理微分同胚的情况,这是由计算机视觉中的光流问题引起的。这是通过建立在Wibisono,Wilson和Jordan适用于有限维度的一类通用加速优化方法的最新变分方法基础上完成的。我们将这种方法推广到无限维流形。我们推导出令人惊讶的简单连续演化方程,它们是偏微分方程,用于加速梯度下降,并将其与流体力学的简单机械原理相关联。我们的方法与最佳的公共交通问题有着天然的联系。这是因为人们可以将我们的方法想象为无限数量的粒子(以质量密度表示)在能量景观中移动的粒子的演变。质量随着优化变量而变化,并赋予粒子动态性。这与仅有单个粒子移动的有限维情况不同,因此动力学不依赖于质量。我们推导出该理论,计算用于加速优化的偏微分方程,并说明这些新加速优化方案的行为。[1804.02307v2] 并将其与流体力学的简单机械原理联系起来。我们的方法与最佳的公共交通问题有着天然的联系。这是因为人们可以将我们的方法想象为无限数量的粒子(以质量密度表示)在能量景观中移动的粒子的演变。质量随着优化变量而变化,并赋予粒子动态性。这与仅有单个粒子移动的有限维情况不同,因此动力学不依赖于质量。我们推导出该理论,计算用于加速优化的偏微分方程,并说明这些新加速优化方案的行为。[1804.02307v2] 并将其与流体力学的简单机械原理联系起来。我们的方法与最佳的公共交通问题有着天然的联系。这是因为人们可以将我们的方法想象为无限数量的粒子(以质量密度表示)在能量景观中移动的粒子的演变。质量随着优化变量而变化,并赋予粒子动态性。这与仅有单个粒子移动的有限维情况不同,因此动力学不依赖于质量。我们推导出该理论,计算用于加速优化的偏微分方程,并说明这些新加速优化方案的行为。[1804.02307v2] 这是因为人们可以将我们的方法想象为无限数量的粒子(以质量密度表示)在能量景观中移动的粒子的演变。质量随着优化变量而变化,并赋予粒子动态性。这与仅有单个粒子移动的有限维情况不同,因此动力学不依赖于质量。我们推导出该理论,计算用于加速优化的偏微分方程,并说明这些新加速优化方案的行为。[1804.02307v2] 这是因为人们可以将我们的方法想象为无限数量的粒子(以质量密度表示)在能量景观中移动的粒子的演变。质量随着优化变量而变化,并赋予粒子动态性。这与仅有单个粒子移动的有限维情况不同,因此动力学不依赖于质量。我们推导出该理论,计算用于加速优化的偏微分方程,并说明这些新加速优化方案的行为。[1804.02307v2] 这与仅有单个粒子移动的有限维情况不同,因此动力学不依赖于质量。我们推导出该理论,计算用于加速优化的偏微分方程,并说明这些新加速优化方案的行为。[1804.02307v2] 这与仅有单个粒子移动的有限维情况不同,因此动力学不依赖于质量。我们推导出该理论,计算用于加速优化的偏微分方程,并说明这些新加速优化方案的行为。[1804.02307v2]
面向人机合作:自监督抽样挖掘物体检测
Keze Wang, Xiaopeng Yan, Dongyu Zhang, Lei Zhang, Liang Lin
虽然相当具有挑战性,但以具有成本效益的方式利用大规模未标记或部分标记的图像越来越引起人们对计算机视觉的重视。为了解决这个问题,已经开发了许多主动学习(AL)方法。然而,这些方法主要是在单个图像上下文中定义它们的样本选择标准,从而导致对于大规模物体检测的不理想的鲁棒性和不切实际的解决方案。在本文中,为了弥补现有AL方法的缺陷,我们提出了一个原则性的自监督抽样挖掘(SSM)流程,以解决目标检测中的真实挑战。特别,我们的SSM过程专注于通过引入的交叉图像验证自动发现和伪标记可靠区域提案以增强对象检测器,即将这些提议粘贴到不同的标记图像中以在不同的图像上下文中全面测量它们的值。通过采用SSM过程,我们提出了一种新的AL框架,用于逐渐将未标记或部分标记的数据合并到模型学习中,同时最大限度地减少用户的注释工作量。对两个公共基准的大量实验清楚地表明,我们提出的框架可以实现与最先进的方法相媲美的性能,并且注释的数量显着减少。[1803.09867v2] 将这些提议粘贴到不同的标记图像中以在不同的图像上下文中全面测量它们的值。通过采用SSM过程,我们提出了一种新的AL框架,用于逐渐将未标记或部分标记的数据合并到模型学习中,同时最大限度地减少用户的注释工作量。对两个公共基准的大量实验清楚地表明,我们提出的框架可以实现与最先进的方法相媲美的性能,并且注释的数量显着减少。[1803.09867v2] 将这些提议粘贴到不同的标记图像中以在不同的图像上下文中全面测量它们的值。通过采用SSM过程,我们提出了一种新的AL框架,用于逐渐将未标记或部分标记的数据合并到模型学习中,同时最大限度地减少用户的注释工作量。对两个公共基准的大量实验清楚地表明,我们提出的框架可以实现与最先进的方法相媲美的性能,并且注释的数量显着减少。[1803.09867v2] 对两个公共基准的大量实验清楚地表明,我们提出的框架可以实现与最先进的方法相媲美的性能,并且注释的数量显着减少。[1803.09867v2] 对两个公共基准的大量实验清楚地表明,我们提出的框架可以实现与最先进的方法相媲美的性能,并且注释的数量显着减少。[1803.09867v2]
用热图调整提高目标计数
Shubhra Aich,Ian Stavness
在本文中,我们提出了一种简单而有效的方法来改善从图像中进行物体计数的单外观回归模型。我们使用类激活地图可视化来说明学习计数任务的纯粹一看回归模型的缺点。基于这些见解,我们通过调整来自网络最终卷积层的激活图与简单点注释生成的粗糙地面真实激活图来增强单看回归计数模型。我们将这种策略称为热图调节(HR)。我们表明,这种简单的增强有效地抑制了由相应的一眼基线模型生成的错误检测,并且还改善了假阴性方面的性能。评估在四个不同的计数数据集上进行—两个用于计数(CARPK,PUCPR +),一个用于人群统计(WorldExpo),另一个用于生物细胞计数(VGG-Cells)。与简单的单一基准模型相比,将HR添加到简单的VGG前端可以提高所有这些基准测试的性能,并且可以获得最新的汽车计数性能。[1803.05494v2]
利用分类级监督从嘈杂的Web数据中学习
李牛,青涛堂,Ashok Veeraraghavan,Ashu Sabharwal
随着大量照片每天都上传到公共网站(例如Flickr,Bing和Google),由于免费提供网络资源,网络数据学习已成为越来越流行的研究方向,这也被称为网络监督学习。然而,由于网络数据的标签噪声,网络监督学习和传统监督学习之间的性能差距仍然很大。确切地说,从公共网站爬取的图像标签非常嘈杂,而且通常不准确。一些现有的作品倾向于借助于额外的信息来帮助学习网络数据,例如通过实例级监督来增强或净化网络数据,这通常需要大量的手动注释。代替,我们建议通过利用更易于访问的类别级别监督来解决标签噪音问题。具体而言,我们在变分自动编码器(VAE)上构建了我们的方法,其中分类网络以VAE的隐含层附接,使得分类网络和VAE可以共同利用类别级混合语义信息。我们提出的方法的有效性在三个基准数据集上进行了广泛的实验。[1803.03857v3] 我们提出的方法的有效性在三个基准数据集上进行了广泛的实验。[1803.03857v3] 我们提出的方法的有效性在三个基准数据集上进行了广泛的实验。[1803.03857v3]
对手学习的一类分类器用于新颖性检测
Mohammad Sabokrou,Mohammad Khalooei,Mahmood Fathy,Ehsan Adeli
新颖性检测是识别在某些方面与训练观察(目标类别)不同的观察的过程。实际上,新课程在训练期间通常是缺席的,抽样不好或没有明确定义。因此,一类分类器可以有效地对这些问题进行建模。但是,由于新颖类的数据不可用,因此培训端到端的深度网络是一项繁琐的任务。在本文中,受到在无监督和半监督环境下训练深度模型的生成对抗网络的成功启发,我们提出了一种用于一类分类的端到端体系结构。我们的架构由两个深度网络组成,每个网络通过彼此竞争而训练,同时协作理解目标类中的基本概念,然后对测试样本进行分类。一个网络用作新颖性检测器,另一个网络通过增强inlier样本和扭曲异常值来支持它。直觉是增强的离群点和畸变离群点的可分离性要比决定原始样本好得多。所提出的框架适用于图像和视频中的异常和异常值检测的不同相关应用。MNIST和Caltech-256图像数据集上的结果以及具有挑战性的UCSD Ped2数据集用于视频异常检测,说明我们提出的方法有效地学习目标类别,并且优于基线和最先进的方法。[1802.09088v2] 而另一个则通过增强inlier样本和扭曲异常值来支持它。直觉是增强的离群点和畸变离群点的可分离性要比决定原始样本好得多。所提出的框架适用于图像和视频中的异常和异常值检测的不同相关应用。MNIST和Caltech-256图像数据集上的结果以及具有挑战性的UCSD Ped2数据集用于视频异常检测,说明我们提出的方法有效地学习目标类别,并且优于基线和最先进的方法。[1802.09088v2] 而另一个则通过增强inlier样本和扭曲异常值来支持它。直觉是增强的离群点和畸变离群点的可分离性要比决定原始样本好得多。所提出的框架适用于图像和视频中的异常和异常值检测的不同相关应用。MNIST和Caltech-256图像数据集上的结果以及具有挑战性的UCSD Ped2数据集用于视频异常检测,说明我们提出的方法有效地学习目标类别,并且优于基线和最先进的方法。[1802.09088v2] 所提出的框架适用于图像和视频中的异常和异常值检测的不同相关应用。MNIST和Caltech-256图像数据集上的结果以及具有挑战性的UCSD Ped2数据集用于视频异常检测,说明我们提出的方法有效地学习目标类别,并且优于基线和最先进的方法。[1802.09088v2] 所提出的框架适用于图像和视频中的异常和异常值检测的不同相关应用。MNIST和Caltech-256图像数据集上的结果以及具有挑战性的UCSD Ped2数据集用于视频异常检测,说明我们提出的方法有效地学习目标类别,并且优于基线和最先进的方法。[1802.09088v2]
卷积递归生成敌对网络的字级字库图像转换
Ankan Kumar Bhunia,Ayan Kumar Bhunia,Prithaj Banerjee,Aishik Konwer,Abir Bhowmick,Partra Pratim Roy,Pal Pal
将一种字体转换为另一种字体在现实生活中非常有用。在本文中,我们提出了一个卷积递归生成模型来解决字级字体传输问题。我们的网络能够将任何打印文本图像的字体样式从当前字体转换为所需的字体。网络的整个单词图像是端对端培训的。因此它消除了必要的预处理步骤,如字符分割。我们将模型扩展到条件设置,以帮助学习一对多映射函数。我们在Generator中使用了一种新的卷积循环模型架构,可有效处理任意宽度的单词图像。它还有助于在连接生成的目标字体图像补丁后保持最终图像的一致性。除了,发生器和鉴别器网络,我们使用分类网络将生成的转换字体样式的单词图像分类为随后的字体类别。与图像翻译相关的早期大部分作品都是在正方形图像上进行的。我们提出的架构是第一个可以处理不同宽度图像的工作。字图像通常具有不同的宽度,具体取决于存在的字符数量。因此,我们在合成生成的字体数据集上测试我们的模型。我们将我们的方法与一些最先进的图像转换方法进行比较。我们网络在相同数据集上的卓越性能证明了我们的模型能够学习字体分布。[1801.07156v3] 我们使用Classification网络将生成的已转换字体样式的单词图像分类为随后的字体类别。与图像翻译相关的早期大部分作品都是在正方形图像上进行的。我们提出的架构是第一个可以处理不同宽度图像的工作。字图像通常具有不同的宽度,具体取决于存在的字符数量。因此,我们在合成生成的字体数据集上测试我们的模型。我们将我们的方法与一些最先进的图像转换方法进行比较。我们网络在相同数据集上的卓越性能证明了我们的模型能够学习字体分布。[1801.07156v3] 我们使用Classification网络将生成的已转换字体样式的单词图像分类为随后的字体类别。与图像翻译相关的早期大部分作品都是在正方形图像上进行的。我们提出的架构是第一个可以处理不同宽度图像的工作。字图像通常具有不同的宽度,具体取决于存在的字符数量。因此,我们在合成生成的字体数据集上测试我们的模型。我们将我们的方法与一些最先进的图像转换方法进行比较。我们网络在相同数据集上的卓越性能证明了我们的模型能够学习字体分布。[1801.07156v3] 我们提出的架构是第一个可以处理不同宽度图像的工作。字图像通常具有不同的宽度,具体取决于存在的字符数量。因此,我们在合成生成的字体数据集上测试我们的模型。我们将我们的方法与一些最先进的图像转换方法进行比较。我们网络在相同数据集上的卓越性能证明了我们的模型能够学习字体分布。[1801.07156v3] 我们提出的架构是第一个可以处理不同宽度图像的工作。字图像通常具有不同的宽度,具体取决于存在的字符数量。因此,我们在合成生成的字体数据集上测试我们的模型。我们将我们的方法与一些最先进的图像转换方法进行比较。我们网络在相同数据集上的卓越性能证明了我们的模型能够学习字体分布。[1801.07156v3] 我们网络在相同数据集上的卓越性能证明了我们的模型能够学习字体分布。[1801.07156v3] 我们网络在相同数据集上的卓越性能证明了我们的模型能够学习字体分布。[1801.07156v3]
用于快速视频检索的具有分类掩码的深度散列
Xu Liu, Lili Zhao, Dajun Ding, Yajiao Dong
本文提出了一个端到端的深度哈希框架与类别掩码快速视频检索。我们以监督的方式训练我们的网络,充分利用班级间的多样性和班内的身份。分类丢失被优化以最大化类间多样性,而内部对被引入以学习具有代表性的类内身份。我们调查与类别相关的二进制位分布,并发现二进制位的有效性与数据类别高度相关,并且一些位可能降低某些类别的分类性能。然后,我们使用类别掩码来设计哈希码生成方案,以过滤掉负贡献的位。实验结果表明,所提出的方法在公共数据集上的各种评估指标下优于多个现有技术。[1712。
学习单个卷积超分辨率网络进行多重降级
Kai Zhang, Wangmeng Zuo, Lei Zhang
近年来,单幅图像超分辨率(SISR)中的深度卷积神经网络(CNN)取得了前所未有的成功。然而,现有的基于CNN的SISR方法主要假设低分辨率(LR)图像是从高分辨率(HR)图像双向降采样的,因此当真正的降级不遵循该假设时,不可避免地会导致性能较差。而且,他们缺乏学习单一模型的可扩展性,以便不盲目地处理多个降级。为了解决这些问题,我们提出了一个具有维度伸缩策略的通用框架,使得单个卷积超分辨率网络能够将SISR退化过程的两个关键因素(即模糊内核和噪声水平)作为输入。所以,超解析器可以处理多个甚至是空间变化的降级,这显着提高了实用性。关于合成和真实LR图像的广泛实验结果表明,所提出的卷积超分辨率网络不仅可以在多个降级上产生有利结果,而且在计算上是高效的,为实际的SISR应用提供了高效且可扩展的解决方案。[1712.06116v2]
使用U-net进行剂量预测:使用深度学习对前列腺IMRT患者从等高线预测剂量分布的可行性研究
Dan Nguyen, Troy Long, Xun Jia, Weiguo Lu, Xuejun Gu, Zohaib Iqbal, Steve Jiang
随着癌症患者放疗的治疗方式的进步,结果有所改善,但代价是治疗计划的复杂性和计划时间的增加。准确预测剂量分布将通过指导临床计划优化来节省时间并保持高质量计划,从而缓解此问题。我们修改了卷积深度网络模型U-net(最初设计用于分割目的),用于从患者图像轮廓预测剂量。作为一个例子,我们表明,作为一个例子,我们能够准确预测前列腺癌患者的调强放疗(IMRT)剂量,其中平均骰子相似系数为0.91时,预测值与真正的等剂量体积之比为0%和100%的处方剂量。发现[max,mean]剂量绝对差值的平均值低于处方剂量的5%,具体而言对于每种结构[1.80%,1.03%](PTV),[1.94%,4.22%](膀胱),[1.80%,0.48%](身体),[3.87%,1.79%](L股骨头),[5.07%,2.55%](R股骨头)和[1.26%,1.62%](直肠)的处方剂量。因此,我们设法根据患者的PTV和OAR轮廓映射期望的辐射剂量分布。作为一个额外的优势,本文中描述的技术和模型中使用的数据相对较少。[1709.09233v3] 因此,我们设法根据患者的PTV和OAR轮廓映射期望的辐射剂量分布。作为一个额外的优势,本文中描述的技术和模型中使用的数据相对较少。[1709.09233v3] 因此,我们设法根据患者的PTV和OAR轮廓映射期望的辐射剂量分布。作为一个额外的优势,本文中描述的技术和模型中使用的数据相对较少。[1709.09233v3]
SceneCut:用于室内场景的联合几何和对象分割
Trung Pham,Thanh Doan,NikoSünderhauf,Ian Reid
本文介绍了使用单个RGB-D图像联合发现以前看不见的物体和非物体表面的新方法SceneCut。SceneCut对场景语义和几何的联合推理允许机器人在复杂场景中检测和分割对象实例,其中现代基于深度学习的方法无法分离对象实例,或未能检测到在训练期间未看到的对象。SceneCut自动将场景分解为表示对象或场景表面的有意义的区域。分解通过一个统一的能量函数而不是对象和几何拟合来确定。我们展示了如何利用层次分割树来有效地优化这种能量函数。此外,我们利用预先训练的卷积导向边界网络来预测图像的精确边界,这些边界用于构建高质量的区域层次结构。我们在几种不同的室内环境中评估SceneCut,结果表明SceneCut明显优于所有现有的方法。[1709.07158v2]
半监督学习改进地标定位
新浪Honari,Pavlo Molchanov,Stephen Tyree,帕斯卡尔文森特,克里斯托弗帕尔,Jan Kautz
我们提出了两种技术来提高部分注释数据集图像中的地标本地化。我们的主要目标是利用普通情况,即精确的地标位置仅为小数据子集提供,但与地标相关的分类或回归任务的类别标签更丰富。首先,我们提出顺序多任务处理框架,并通过地标本地化架构在这里探索它,其中类别标签的训练作为辅助信号来指导未标记数据的地标本地化。我们方法的一个关键方面是可以通过完整的地标本地化模型反向传播错误。第二,我们提出并探索了一种基于模型预测等值地标与应用于图像转换的地标定位的无监督学习技术。我们表明,这些技术,大大改善地标预测,并可以学习有效的探测器,即使只有一小部分数据集具有地标标签。我们在两个玩具数据集和四个真实数据集上展示结果,包括手和脸,并在野外的两个数据集上报告最新的最新技术,例如,只有5%的标记图像胜过先前的状态数据库,在AFLW数据集上进行了最先进的训练。[1709.01591v6] 即使在只有一小部分数据集具有地标标签的情况下,也可以大大改善地标预测并可以学习有效的探测器。我们在两个玩具数据集和四个真实数据集上展示结果,包括手和脸,并在野外的两个数据集上报告最新的最新技术,例如,只有5%的标记图像胜过先前的状态数据库,在AFLW数据集上进行了最先进的训练。[1709.01591v6] 即使在只有一小部分数据集具有地标标签的情况下,也可以大大改善地标预测并可以学习有效的探测器。我们在两个玩具数据集和四个真实数据集上展示结果,包括手和脸,并在野外的两个数据集上报告最新的最新技术,例如,只有5%的标记图像胜过先前的状态数据库,在AFLW数据集上进行了最先进的训练。[1709.01591v6]

转载请注明:《数据增强和网络训练的联合优化:人体姿态估计中的对抗样本增强

发表评论