MVTec D2S:紧密实例感知语义分割的超市数据集+用乘子交替方向法对DNN进行系统权重修剪

MVTec D2S:紧密实例感知语义分割的超市数据集

Patrick FollmannTobiasBöttgerPhilippHärtingerRebecca KingMarkus Ulrich

我们引入了密集分段超市(D2S)数据集,这是一个用于工业领域中实例感知语义分割的新基准。它包含21,000个高分辨率图像和所有对象实例的按像素标签。这些物品包括来自60个类别的杂货和日常用品。基准设计使其类似于自动结账,库存或仓库系统的实际设置。训练图像仅包含同类背景上的单个类的对象,而验证和测试集则更加复杂和多样。为了进一步对实例分割方法的鲁棒性进行基准测试,可以使用不同的照明,旋转和背景来获取场景。我们确保标签中没有歧义,并且每个实例都进行了全面标注。注释像素精确,并允许使用单个实例的作物进行艺术数据增强。该数据集涵盖了该领域高度相关的几个挑战,例如有限数量的训练数据以及测试和验证集合中的高度多样性。D2S上最先进的目标检测和实例分割方法的评估表明有很大的改进空间。[1804.08292v1]

 

零样本视觉模仿

Deepak Pathak, Parsa Mahmoudieh, Guanghao Luo, Pulkit Agrawal, Dian Chen, Yide Shentu, Evan Shelhamer, Jitendra Malik, Alexei A. Efros, Trevor Darrell

当前模仿学习的主要模式依赖于对专家行为的强烈监督,以了解模拟的模式如何。我们追求另一种模式,即代理人首先在没有任何专家监督的情况下探索世界,然后将其经验提炼成具有新颖前瞻一致性损失的目标限制技能策略。在我们的框架中,专家的角色只是在推理过程中传达目标(即模仿什么)。然后学习策略被用来模仿专家(即,如何模仿)看到一系列图像后,展示出所需的任务。我们的方法是‘zero-shot’,因为代理人在训练期间或推理中的任务演示中从未获得专家操作。我们以两种真实世界的设置来评估我们的零射击模仿器:使用Baxter机器人进行复杂的绳索操纵,以及使用TurtleBot在前所未见的办公环境中导航。通过VizDoom模拟的进一步实验,我们提供了更好的探索机制导致学习更有能力的策略,从而提高终端任务性能的证据。视频,模型和更多详细信息可在https://pathak22.github.io/zeroshot-imitation/ [1804.08606v1]

 

BrainSlug:通过深度优先并行性透明加速深度学习

Nicolas WeberFlorian SchmidtMathias NiepertFelipe Huici

PyTorchTensorFlow等神经网络框架是许多机器学习应用程序的重要组成部分,从物体识别到机器翻译。虽然这些框架具有通用性和直观性,但深度神经网络的训练和推理是资源(能量,计算和内存)密集型的。与最近着重于算法增强的工作不同,我们介绍了BrainSlug,这是一种通过将默认的逐层处理更改为深度优先方法来透明地加速神经网络工作负载的框架,从而减少了计算所需的数据量,因此提高可用硬件高速缓存的性能。BrainSlugCPU上实现了高达41.1%的性能提升,在GPU上实现了35.7%的性能提升。这些优化对用户来说是零成本的,因为它们不需要更改硬件,只需要对软件进行微小的调整。[1804.08378v1]

 

深层面部表情识别:一项综述

Shan Li, Weihong Deng

随着面部表情识别(FER)从实验室控制转变为具有挑战性的野外条件以及深度学习技术在各个领域取得的最新成果,深度神经网络已经越来越多地用于学习自动FER的区分表示。最近的深层FER系统通常关注两个重要问题:由于缺乏足够的训练数据和与表情无关的变化(如照明,头部姿势和身份偏差)导致的过度拟合。在本文中,我们提供了深度FER的全面调查,包括数据集和算法,以深入了解这些内在问题。首先,我们描述深层FER系统的标准流水线,并提供相关的背景知识和每个阶段适用实现的建议。然后,我们介绍在文献中广泛使用的可用数据集,并为这些数据集提供可接受的数据选择和评估原则。对于深FER领域的技术水平,我们回顾了现有的基于静态图像和动态图像序列设计的新型深度神经网络和相关训练策略,并讨论了它们的优点和局限性。本节还总结了广泛使用的基准的竞争性表现。然后,我们将调查扩展到其他相关问题和应用场景。最后,我们回顾了该领域的剩余挑战和相应的机会,以及设计稳健深层FER系统的未来方向。[1804.08348v1] 我们回顾了基于静态图像和动态图像序列为FER设计的现有新型深度神经网络和相关训练策略,并讨论了它们的优点和局限性。本节还总结了广泛使用的基准的竞争性表现。然后,我们将调查扩展到其他相关问题和应用场景。最后,我们回顾了该领域的剩余挑战和相应的机会,以及设计稳健深层FER系统的未来方向。[1804.08348v1] 我们回顾了基于静态图像和动态图像序列为FER设计的现有新型深度神经网络和相关训练策略,并讨论了它们的优点和局限性。本节还总结了广泛使用的基准的竞争性表现。然后,我们将调查扩展到其他相关问题和应用场景。最后,我们回顾了该领域的剩余挑战和相应的机会,以及设计稳健深层FER系统的未来方向。[1804.08348v1] 然后,我们将调查扩展到其他相关问题和应用场景。最后,我们回顾了该领域的剩余挑战和相应的机会,以及设计稳健深层FER系统的未来方向。[1804.08348v1] 然后,我们将调查扩展到其他相关问题和应用场景。最后,我们回顾了该领域的剩余挑战和相应的机会,以及设计稳健深层FER系统的未来方向。[1804.08348v1]

 

对象计数!将显式检测返回到图像标题

Josiah WangPranavaMadhyasthaLucia Specia

使用明确的对象检测器作为图像字幕的中间步骤过去构成早期工作的基本阶段通常在目前占主导地位的端对端方法中被忽略,其中语言模型直接针对中端图像进行调整,高级图像嵌入。我们认为显式检测提供了丰富的语义信息,因此可以用作可解释的表示,以更好地理解为什么端到端图像字幕系统运行良好。我们通过探索可以从这种对象检测中获得的各种线索来提供对端到端图像字幕的深入分析。我们的研究表明,端到端图像字幕系统依靠匹配图像表示来生成字幕,并对频率进行编码,物体的大小和位置是互补的,都在形成良好的图像表示中起作用。它还揭示了不同的对象类别对图像字幕有不同的贡献。[1805.00314v1]

 

ALIGNet:通过无监督学习的部分形状不可知对齐

Rana HanockaNoa Fish,振华王,Giryes国王,Shachar FleishmanDaniel Cohen-Or

对齐一对形状的过程是计算机图形学中的一项基本操作。传统的方法在很大程度上依赖于匹配相应的点或特征来指导对齐,当重要的形状部分缺失时,这种模式会动摇。这些技术通常不包含有关预期形状特征的先前知识,这可以帮助补偿由于输入形状中显示的不准确而留下的任何误导线索。我们提出了一种基于深度神经网络的方法,利用形状数据集来学习形状感知之前的源到目标对齐,这对于形状不完整性是强健的。在缺乏监督的地面真相对齐的情况下,我们使用从完整形状生成的不完整形状来进行形状对齐的任务来训练网络,以进行自我监督。我们的网络,称为ALIGNet,训练将完整的源形状转换为不完整的目标,就好像目标形状是完整的,从而基本上使得对齐的部分形状不可知。我们的目标是使网络能够针对每个数据集中形状的共同特征开发专业知识,从而更好地理解本地方法会忽略的预期形状空间。我们通过各向异性全变差同相正则化来约束ALIGNet,以促进分段平滑变形场,促进局部形状不可知论和变形后应用。我们证明,ALIGNet学习对齐几何不同的形状,并且即使在目标形状明显不完整时也能够推断出合理的映射。我们表明,我们的网络学习了形状集合的共同期望特性,没有过度拟合或记忆,使其能够在测试时间内对看不见的数据产生合理的变形。[1804.08497v1]

 

虚拟环境导航注重自然语言基础

Abhishek SinhaAkilesh BMausoom SarkarBalaji Krishnamurthy

在这项工作中,我们通过训练一个代理遵循一套自然语言指令并导航到一个环境中的一个目标对象,来关注基础语言的问题。代理通过原始像素和自然语言指令接收视觉信息,告诉您需要完成哪些任务。除了这两种信息来源之外,我们的模型没有任何关于视觉和文本模式的先前信息,并且是端对端可训练的。我们开发了视觉和文本模态的多模式融合的注意机制,使代理人学会完成任务,并实现语言基础。我们的实验结果表明,我们的注意力机制胜过了为解决上述任务而针对2D3D环境提出的现有多模式融合机制。我们表明,学习的文本表示在语义上是有意义的,因为它们遵循向量算术,并且还足够一致以引起不同自然语言中的指令之间的翻译。我们还表明,我们的模型有效地概括了看不见的场景,并在2D3D环境中展现\ zeroit {泛化}泛化能力。我们2D环境的代码以及我们为2D3D开发的模型可在\ href {https://github.com/rl-lang-grounding/rl-lang-ground} {https// github.com/rl-lang-grounding/rl-lang-ground} [1804.08454v1] 我们还表明,我们的模型有效地概括了看不见的场景,并在2D3D环境中展现\ zeroit {泛化}泛化能力。我们2D环境的代码以及我们为2D3D开发的模型可在\ href {https://github.com/rl-lang-grounding/rl-lang-ground} {https// github.com/rl-lang-grounding/rl-lang-ground} [1804.08454v1] 我们还表明,我们的模型有效地概括了看不见的场景,并在2D3D环境中展现\ zeroit {泛化}泛化能力。我们2D环境的代码以及我们为2D3D开发的模型可在\ href {https://github.com/rl-lang-grounding/rl-lang-ground} {https// github.com/rl-lang-grounding/rl-lang-ground} [1804.08454v1]

 

标准Web浏览器中自然特征的高效姿态跟踪

FabianGöttlPhilipp GagelJens Grubert

基于计算机视觉的自然特征跟踪是现代增强现实应用的核心。尽管如此,基于网络的增强现实通常依赖于基于位置的感测(使用GPS和方向传感器)或基于标记的方法来解决姿态估计问题。我们提出了一个使用HTML5WebAssembly的标准Web浏览器的高效自然特征跟踪管道的实现和评估。我们的系统可以以实时帧率(平板电脑(最高60 Hz)和智能手机(最高25 Hz))跟踪图像目标。[1804.08424v1]

 

用于乳腺癌组织学图像分类的卷积胶囊网络

托马斯Esmantas,罗伯特Alzbuth

任何疾病的诊断自动化都是非常重要的,随着越来越多的深度学习解决方案应用于不同的问题,它的速度越来越快。这样的计算机辅助系统之一可以是决策支持,也能够准确区分不同类型的乳腺癌组织学图像正常组织或癌。在本文中,作者提出了一个深入的学习解决方案,基于卷积胶囊网络对四种类型的乳腺组织活检图像进行分类时,应用苏木素和eusin染色。以相当高的灵敏度实现交叉验证准确度为0.87[1804.08376v1]

 

使用字典学习和低秩表示的多焦点图像融合

Hui Li, Xiao-Jun Wu

在表示学习中,低秩表示(LRR)是许多领域的热门研究课题之一,特别是在图像处理和模式识别领域。尽管LRR能够捕捉全局结构,但由于LRR缺乏字典学习,局部结构保存的能力受到限制。在本文中,我们提出了一种基于字典学习和LRR的多焦点图像融合方法,以获得更好的全局和局部结构性能。首先,通过滑动窗口技术将源图像分成多个片。然后,根据面向梯度直方图(HOG)特征对补丁进行分类。并且通过K-奇异值分解(K-SVD)算法学习每个类别的子词典。其次,通过结合这些子词典来构建全球词典。然后,我们使用LRR中的全局字典来获得每个补丁的LRR系数向量。最后,采用每个系数向量的l_1范数和选择最大融合策略,从融合LRR系数和全局词典中重构出融合图像。实验结果表明,与经典方法和新方法相比,所提出的方法可以获得定性和定量评估的最新性能。我们的融合方法的代码可以在https://github.com/exceptionLi / imagefusion_dllrr [1804.08355v1] 采用每个系数向量的l_1范数和选择最大导数策略,从融合LRR系数和全局词典中重构出融合图像。实验结果表明,与经典方法和新方法相比,所提出的方法可以获得定性和定量评估的最新性能。我们的融合方法的代码可以在https://github.com/exceptionLi / imagefusion_dllrr [1804.08355v1] 采用每个系数向量的l_1范数和选择最大导数策略,从融合LRR系数和全局词典中重构出融合图像。实验结果表明,与经典方法和新方法相比,所提出的方法可以获得定性和定量评估的最新性能。我们的融合方法的代码可以在https://github.com/exceptionLi / imagefusion_dllrr [1804.08355v1]

 

完全卷积神经网络的部分步态周期人识别

Maryam BabaeeLinwei LiGerhard Rigoll

步态作为人身份识别的生物识别属性在视频监控和安全应用中起着关键作用。在步态识别中,通常步态特征如步态能量图像(GEI)是从一个完整的步态周期中提取的。然而在许多情况下,由于遮挡,这种完整的步态周期可能不可用。因此,GEI不完全导致基于步态的人员识别率降低。在本文中,我们通过提出一种新的方法来解决这个问题,以在几个(或甚至单个)框架可用时从步态特征中识别个体。为此,我们提出了一种深入的基于学习的方法来将不完整的GEI转换为从完整步态周期中获得的相应完整GEI。更确切地说,这种转换是通过独立地训练几个自动编码器逐渐完成的,然后将它们组合成一个统一的模型。在两个公开的步态数据集上,即OULPCasia-B的实验结果证明了所提出的方法在处理非常不完整的步态周期中的有效性。[1804.08506v1]

 

记忆匹配网络的单拍图像识别

Qi Cai, Yingwei Pan, Ting Yao, Chenggang Yan, Tao Mei

在本文中,我们介绍了利用记忆增强卷积神经网络(CNN)和学习在一次学习中动态学习未标记图像的网络参数的新思想。具体而言,我们提出了记忆匹配网络(MM-Net一种探索训练过程的新型深层架构,遵循训练和测试条件必须匹配的原则。从技术上讲,MM-Net将一组标记图像(支持组)的特征写入内存,并在执行推理时从内存中读取,以整体利用组中的知识。同时,上下文学习者以顺序方式使用存储器时隙来预测未标记图像的CNN的参数。整个架构通过一次仅显示每个类的几个示例并将学习从小批次切换到小批次来进行培训,当在测试时间提供几个新类别的示例时,该小批次适合单次学习。与传统的一次学习方法不同,我们的MM-Net可以输出一个统一的模型,而不考虑镜头和类别的数量。在两个公共数据集上进行了大量实验,即Omniglot\ emph {mini} ImageNet,并且与最先进的方法相比,报告了出色的结果。更为显着的是,我们的MM-NetOmniglot的一次性准确度从\ emph {mini} ImageNet上的98.95%提高到99.28%,从49.21%提高到53.37%。[1804.08281v1] 与传统的一次学习方法不同,我们的MM-Net可以输出一个统一的模型,而不考虑镜头和类别的数量。在两个公共数据集上进行了大量实验,即Omniglot\ emph {mini} ImageNet,并且与最先进的方法相比,报告了出色的结果。更为显着的是,我们的MM-NetOmniglot的一次性准确度从\ emph {mini} ImageNet上的98.95%提高到99.28%,从49.21%提高到53.37%。[1804.08281v1] 与传统的一次学习方法不同,我们的MM-Net可以输出一个统一的模型,而不考虑镜头和类别的数量。在两个公共数据集上进行了大量实验,即Omniglot\ emph {mini} ImageNet,并且与最先进的方法相比,报告了出色的结果。更为显着的是,我们的MM-NetOmniglot的一次性准确度从\ emph {mini} ImageNet上的98.95%提高到99.28%,从49.21%提高到53.37%。[1804.08281v1] 我们的MM-Net\ emph {mini} ImageNet上将Omniglot的一次性准确率从98.95%提高到99.28%,从49.21%提高到53.37%。[1804.08281v1] 我们的MM-Net\ emph {mini} ImageNet上将Omniglot的一次性准确率从98.95%提高到99.28%,从49.21%提高到53.37%。[1804.08281v1]

 

腹部多器官分割与器官关注网络和统计融合

Yan Wang, Yuyin Zhou, Wei Shen, Seyoun Park, Elliot K. Fishman, Alan L. Yuille

CT上腹部器官的精确和健壮的分割对许多临床应用如计算机辅助诊断和计算机辅助手术至关重要。但是由于器官的边界薄弱,背景的复杂性以及不同器官的大小不同,这项任务具有挑战性。为了解决这些挑战,我们通过使用应用于二维视图的反向连接(OAN-RC)的器官注意网络,三维CT体积以及通过统计结合的输出估计来引入用于多器官分割的新框架融合利用结构相似性。OAN是一个两阶段深度卷积网络,第一阶段的深度网络特征与原始图像相结合,在第二阶段,减少复杂背景,增强目标器官的判别信息。第一阶段增加了RCs,为低层提供了语义信息,从而使它们能够适应不同器官的大小。我们的网络在2D视图上进行了培训,使我们能够使用整体信息并实现高效计算。为了补偿原始三维体积CT的有限的横截面信息,从三个不同的二维视图方向重建多个截面图像。然后,我们将使用统计融合的不同视图的分割结果与2D视图的结构相似性与原始3D结构相关的新术语进行组合。为了训练网络并评估结果,共有13个结构由四位评估人员手动注释并由236位正常病例的资深专家确认。我们测试了我们的算法并计算了Dice-Sorensen相似系数和表面距离以评估我们对13种结构的估计。我们的实验表明,所提出的方法优于基于2D3D补丁的最先进的方法。[1804.08414v1]

 

任务:解构任务转移学习

阿米尔·扎米尔,亚历山大·萨克斯,威廉·申,列昂尼达斯·吉巴斯,吉腾德拉·马利克,西尔维奥·萨瓦雷斯

视觉任务是否有关系,或者它们是不相关的?例如,可以通过表面法线来简化估计图像的深度?直觉正面回答这些问题,暗示在视觉任务中存在结构。了解这种结构具有显着的价值它是转移学习的基础概念,为确定各种任务之间的冗余提供了原则性的方法,例如,无缝地重复使用相关任务之间的监督,或者在一个系统中解决许多任务而不会增加复杂性。我们提出了一个完全计算的方法来建模视觉任务的空间结构。这是通过在一个潜在空间中发现二十六个2D2.5D3D和语义任务的字典(第一阶和更高阶)传输学习依赖关系来完成的。该产品是用于任务转移学习的计算分类图。我们研究这种结构的后果,例如非平凡的出现关系,并利用它们来减少对标记数据的需求。例如,我们表明,解决一组10个任务所需的标记数据点的总数可以减少大约2/3(与独立训练相比),同时保持性能几乎相同。我们提供了一套计算和探测这种分类结构的工具,包括用户可以使用的解算器为其用例制定有效的监督策略。[1804.08328v1] 我们显示解决一组10个任务所需的标记数据点的总数可以减少大约2/3(与独立训练相比),同时保持性能几乎相同。我们提供了一套计算和探测这种分类结构的工具,包括用户可以使用的解算器为其用例制定有效的监督策略。[1804.08328v1] 我们显示解决一组10个任务所需的标记数据点的总数可以减少大约2/3(与独立训练相比),同时保持性能几乎相同。我们提供了一套计算和探测这种分类结构的工具,包括用户可以使用的解算器为其用例制定有效的监督策略。[1804.08328v1]

 

STAN:用于异常事件检测的时空对抗网络

Sangmin Lee, Hak Gu Kim, Yong Man Ro

在本文中,我们提出了一种新颖的具有时空对抗网络(STAN)的异常事件检测方法。我们设计了一个空间时间发生器,它通过考虑双向ConvLSTM的时空特性来合成一个帧间帧。所提出的空间时间鉴别器使用3D卷积层确定输入序列是否是真正正常的。这两个网络以对抗方式进行训练,以有效编码正常模式的时空特征。在学习之后,发生器和鉴别器可以独立地用作检测器,并且与学习的正常模式的偏差被检测为异常。实验结果表明,与现有技术方法相比,所提出的方法实现了竞争性能。此外,为了解释,我们使用发生器损耗和鉴别器梯度来可视化由所提议的网络检测到的异常事件的位置。[1804.08381v1]

 

生成敌对网络的深度语义散列

Zhaofan Qiu, Yingwei Pan, Ting Yao, Tao Mei

散列是在大规模图像检索任务中用于最近邻搜索的广泛采用的技术。最近的研究表明,利用监督信息可以导致高质量的哈希。然而,在将监督散列应用于新域时,注释数据的成本通常是一个障碍。此外,由于训练和测试阶段的数据可能来自相似但不同的分布,因此结果可能受到鲁棒性问题的影响。本文研究了通过半监督生成对抗网络(GAN)生成合成数据的探索,该网络主要利用未标记和有限的标记训练数据生成具有固有不变性和全局一致性的高度引人注目的数据,以更好地理解自然数据的统计结构。我们证明通过应用哈希的合成数据可以很好地缓解上述两个限制。具体来说,提出了一种新的GANs深度语义散列(DSH-GANs),主要由四个部分组成:用于学习图像表示的深度卷积神经网络(CNN),用于区分合成图像和真实图像的对手流,哈希用于将图像表示编码为散列码和分类流的流。整个体系结构通过联合优化三种损失进行端对端训练,即针对每个样本的对抗损失以纠正合成或实际标签的损失,保留输入真实合成三胞胎中相对相似排序的三重排序损失以及分类损失准确分类每个样本。在CIFAR-10NUS-WIDE图像基准上进行的大量实验验证了利用合成图像进行散列的能力。与最先进的深度哈希模型相比,我们的框架也取得了优异的结果。[1804.08275v1]

 

Decorrelated Batch Normalization

Lei Huang, Dawei Yang, Bo Lang, Jia Deng

批量标准化(BN)能够通过在小批量内对中和缩放激活来加速对深度模型的训练。在这项工作中,我们提出Decorrelated Batch NormalizationDBN),它不仅集中并缩放激活,而且使它们变白。我们探索了多种美白技术,并发现PCA白化会导致一个问题,我们称之为随机坐标轴交换,这对学习不利。我们展示ZCA美白不会遭受这个问题,允许成功的学习。DBN保留了BN的理想品质,进一步提高了BN的优化效率和泛化能力。我们设计了全面的实验,证明DBN可以提高BN在多层感知器和卷积神经网络上的性能。此外,我们始终如一地提高CIFAR-10CIFAR-100ImageNet上残留网络的准确性。[1804.08450v1]

 

VectorDefense:向量化作为对抗范例的辩护

Vishaal Munusamy Kabilan,布兰登莫里斯,映阮

训练表示为像素网格的图像上的深度神经网络已经揭示出一种有趣的现象,称为对抗性例子。受人类如何重构抽象概念的启发,我们试图将输入位图图像编码成一组紧凑,可解释的元素,以避免被敌对结构所迷惑。我们通过尝试将图像矢量化作为输入变换步骤,将敌对示例映射回MNIST手写数字的自然流形,从而迈出了实现这一方向的第一步。我们将我们的方法与最先进的输入转换进行比较,并进一步讨论手动设计和学习转换防御之间的权衡。[1804.08529v1]

 

用于语义分割的完全卷积适应网络

Yiheng Zhang, Zhaofan Qiu, Ting Yao, Dong Liu, Tao Mei

深度神经网络的最新进展令人信服地证明了在大型数据集上学习视觉模型的高能力。尽管如此,收集专家标记的数据集尤其是像素级注释是一个非常昂贵的过程。一个吸引人的选择是呈现合成数据(例如电脑游戏)并自动生成地面真相。然而,简单地应用在合成图像上学习的模型可能导致由于域偏移导致的真实图像上的高泛化误差。在本文中,我们从视觉外观水平和表示水平域适应的角度来解决这个问题。前者将源域图像调整为显示为从目标域中的样式中绘制,后者尝试学习域不变表示。特别,我们提出了完全卷积适应网络(FCAN),这是一种结合了外观适应网络(AAN)和表示适应网络(RAN)的新型深度语义分割体系结构。AAN在像素空间中学习从一个域到另一个域的转换,并且RAN在对抗学习方式下被优化以最大程度地愚弄具有所学习的源和目标表示的域鉴别器。从GTA5(游戏视频)到城市风景(城市街道场景)的语义分割转换进行了大量实验,并且我们的建议与最先进的无监督自适应技术进行比较时取得了优异的结果。更为显着的是,我们获得了一项新纪录:在无人监督的环境下,BDDS(驾驶摄像头视频)的47.5%的mIoU[1804.08286v1] 一种结合了外观自适应网络(AAN)和表示自适应网络(RAN)的新型深度语义分割体系结构。AAN在像素空间中学习从一个域到另一个域的转换,并且RAN在对抗学习方式下被优化以最大程度地愚弄具有所学习的源和目标表示的域鉴别器。从GTA5(游戏视频)到城市风景(城市街道场景)的语义分割转换进行了大量实验,并且我们的建议与最先进的无监督自适应技术进行比较时取得了优异的结果。更为显着的是,我们获得了一项新纪录:在无人监督的环境下,BDDS(驾驶摄像头视频)的47.5%的mIoU[1804.08286v1] 一种结合了外观自适应网络(AAN)和表示自适应网络(RAN)的新型深度语义分割体系结构。AAN在像素空间中学习从一个域到另一个域的转换,并且RAN在对抗学习方式下被优化以最大程度地愚弄具有所学习的源和目标表示的域鉴别器。从GTA5(游戏视频)到城市风景(城市街道场景)的语义分割转换进行了大量实验,并且我们的建议与最先进的无监督自适应技术进行比较时取得了优异的结果。更为显着的是,我们获得了一项新纪录:在无人监督的环境下,BDDS(驾驶摄像头视频)的47.5%的mIoU[1804.08286v1] AAN在像素空间中学习从一个域到另一个域的转换,并且RAN在对抗学习方式下被优化以最大程度地愚弄具有所学习的源和目标表示的域鉴别器。从GTA5(游戏视频)到城市风景(城市街道场景)的语义分割转换进行了大量实验,并且我们的建议与最先进的无监督自适应技术进行比较时取得了优异的结果。更为显着的是,我们获得了一项新纪录:在无人监督的环境下,BDDS(驾驶摄像头视频)的47.5%的mIoU[1804.08286v1] AAN在像素空间中学习从一个域到另一个域的转换,并且RAN在对抗学习方式下被优化以最大程度地愚弄具有所学习的源和目标表示的域鉴别器。从GTA5(游戏视频)到城市风景(城市街道场景)的语义分割转换进行了大量实验,并且我们的建议与最先进的无监督自适应技术进行比较时取得了优异的结果。更为显着的是,我们获得了一项新纪录:在无人监督的环境下,BDDS(驾驶摄像头视频)的47.5%的mIoU[1804.08286v1] GTA5(游戏视频)到城市风景(城市街道场景)的语义分割转换进行了大量实验,并且我们的建议与最先进的无监督自适应技术进行比较时取得了优异的结果。更为显着的是,我们获得了一项新纪录:在无人监督的环境下,BDDS(驾驶摄像头视频)的47.5%的mIoU[1804.08286v1] GTA5(游戏视频)到城市风景(城市街道场景)的语义分割转换进行了大量实验,并且我们的建议与最先进的无监督自适应技术进行比较时取得了优异的结果。更为显着的是,我们获得了一项新纪录:在无人监督的环境下,BDDS(驾驶摄像头视频)的47.5%的mIoU[1804.08286v1]

 

盒子里的指纹匹配

Joshua J. EngelsmaKai CaoAnil K. Jain

我们在Box中开放源码指纹匹配,这是一个嵌入4英寸立方体内的完整的端到端指纹识别系统。Match in Box立场与典型的体积庞大且昂贵的专有指纹识别系统形成鲜明对比,该系统需要将指纹图像发送至外部主机进行处理以及随后的恶搞检测和匹配。Match in Box尤其是一种便携式,低成本且易于安装的指纹识别器,其中一个嵌入在读卡器内存中的注册数据库以及开源指纹欺骗检测器,特征提取器和匹配器全部运行在读者的内部视觉处理单元(VPU)上。板载触摸屏和可充电电池组使这款设备非常便携,非常适合应用指纹验证(11比较)和指纹识别(1N搜索)到农村社区,特别是发展中国家的应用(疫苗追踪,食物和利益分配方案,人口贩运预防)。我们还展示了由于其高分辨率(1900 ppi)相机,Match in Box适合拍摄新生儿指纹。[1804.08659v1]

 

基于循环和结构多层次学习者的高效对象跟踪

Peng Gao, Yipeng Ma, Ke Song, Chao Li, Fei Wang, Yan Zhang, Liyi Xiao

我们提出了一种新颖的高效跟踪框架 首先,我们将DCFSOSVM结合起来,以获得一种训练循环和结构学习者(CSL)的新颖公式。其次,我们引入协作优化策略来更新学习者,这大大降低了计算复杂度并提高了鲁棒性。第三,我们观察到仅从单层提取的特征不适合处理所有挑战因素,因此我们建议在连续空间域中获得具有深层特征的多级置信度分数图,并且我们利用隐式插值模型来提取基于不同预先训练的CNN的多分辨率互补深度特征,包括目标的深度外观特征和深度特征。最后,为了获得更准确定位的最佳置信度分数图,我们提出了一种基于相对熵来组合单级置信度分数图的新型集成后处理器。对三个对象跟踪基准进行全面评估。与OTB-2013OTB-2015基准测试中的排名最高的方法相比,我们的方法在平均AUC评分方面分别获得了0.3%和0.6%的绝对增益,并且提供了预期平均重叠(EAO)的第三好表现,对VOT2017挑战的评分为29.8%,但按帧率运行。[1804.08208v1] OTB-2013OTB-2015基准测试中的排名最高的方法相比,我们的方法在平均AUC评分方面分别获得了0.3%和0.6%的绝对增益,并且提供了预期平均重叠(EAO)的第三好表现,对VOT2017挑战的评分为29.8%,但按帧率运行。[1804.08208v1] OTB-2013OTB-2015基准测试中的排名最高的方法相比,我们的方法在平均AUC评分方面分别获得了0.3%和0.6%的绝对增益,并且提供了预期平均重叠(EAO)的第三好表现,对VOT2017挑战的评分为29.8%,但按帧率运行。[1804.08208v1]

 

引导大型场景文本验证

Dafang He, Yeqing Li, Alexander Gorban, Derrall Heath, Julian Ibarz, Qian Yu, Daniel Kifer, C. Lee Giles

许多任务与确定图像中是否存在特定文本字符串有关。在这项工作中,我们提出了一个以端到端方式学习这一任务的新框架。该框架将图像和文本字符串作为输入,然后输出文本字符串出现在图像中的概率。这是第一个了解场景文本区域中文本和图像之间关系的端到端框架。该框架不需要明确的场景文本检测或识别,因此不需要边界框注释。这也是场景文本领域的第一个解决弱标签问题的工作。基于这个框架,我们开发了一个名为Guided Attention的模型。我们设计的模型取得了比几个最先进的基于场景文本阅读的解决方案更好的结果,可用于具有挑战性的街景视图商业匹配任务。该任务试图为店面图像找到正确的商业名称,我们收集的数据集比现有的场景文本数据集要大得多,而且更具挑战性。这个新的现实世界任务为研究与场景文本相关的问题提供了一个新的视角。通过比较我们的问题和典型的视觉问题回答问题,我们也证明了我们的任务的独特性。[1804.08588v1] 这个新的现实世界任务为研究与场景文本相关的问题提供了一个新的视角。通过比较我们的问题和典型的视觉问题回答问题,我们也证明了我们的任务的独特性。[1804.08588v1] 这个新的现实世界任务为研究与场景文本相关的问题提供了一个新的视角。通过比较我们的问题和典型的视觉问题回答问题,我们也证明了我们的任务的独特性。[1804.08588v1]

 

深层跨领域建筑提取,用于从斜航拍图像进行选择性深度估计

Boitumelo声誉,Laurenz ThielMartin Weinmann

随着航空影像技术的进步和城市环境的精确三维重建,城市地区的自动化分析越来越受到重视。在我们的工作中,我们考察了两个重要的方面,它们允许在倾斜航空影像的城市模型中进行实时建筑结构分析,即利用卷积神经网络(CNN)自动建筑物提取和航空影像的选择性实时深度估计。我们使用传递学习来训练用于实时深度目标检测的更快的R-CNN方法,将用于城市场景理解的大型地面数据集与空中数据集中较少数量的图像结合起来。我们对选定的评估数据集进行构建提取任务的平均精度(AP)约为80%。我们的评估侧重于数据集特定的学习和转移学习。此外,我们提出了一种算法,允许实时从航空影像进行多视角深度估计。我们采用半全局匹配(SGM)优化策略来保留物体边界处的尖锐边缘。与更快的R-CNN相结合,它可以从倾斜的航空影像中选择性地重建建筑物,并确定感兴趣的区域(RoIs)。[1804.08302v1] 从斜空图像中识别出感兴趣的区域(RoIs)。[1804.08302v1] 从斜空图像中识别出感兴趣的区域(RoIs)。[1804.08302v1]

 

共同定位和描述密集视频字幕的事件

Yehao Li, Ting Yao, Yingwei Pan, Hongyang Chao, Tao Mei

用自然语言自动描述视频被视为计算机视觉中的基本挑战。然而,这个问题并不是微不足道的,特别是当一段视频包含多个值得一提的事件时,这些事件经常发生在真实视频中。一个有效的问题是如何暂时定位并描述事件,这被称为密集视频字幕。在本文中,我们提出了一种密集视频字幕的新框架,它通过联合训练它们以端到端的方式统一了时间事件提案的本地化和每个提案的句子生成。为了结合这两个世界,我们将一个新设计,即描述性回归整合到一个单一镜头检测结构中,以通过句子生成来推断每个检测到的提议的描述复杂性。这反过来调整每个事件提议的时间位置。我们的模型与现有的密集视频字幕方法不同,因为我们提出了检测和字幕的联合和全局优化,并且该框架独特地利用了属性增强的视频字幕架构。对ActivityNet Captions数据集进行了大量实验,与最先进的技术相比,我们的框架显示出明显的改进。更值得注意的是,我们获得了一项新的记录:ActivityNet Captions官方测试集的12.96%的METEOR[1804.08274v1] 该框架独特地利用了属性增强的视频字幕体系结构。对ActivityNet Captions数据集进行了大量实验,与最先进的技术相比,我们的框架显示出明显的改进。更值得注意的是,我们获得了一项新的记录:ActivityNet Captions官方测试集的12.96%的METEOR[1804.08274v1] 该框架独特地利用了属性增强的视频字幕体系结构。对ActivityNet Captions数据集进行了大量实验,与最先进的技术相比,我们的框架显示出明显的改进。更值得注意的是,我们获得了一项新的记录:ActivityNet Captions官方测试集的12.96%的METEOR[1804.08274v1]

 

创建您所说的内容:从标题生成视频

Yingwei Pan, Zhaofan Qiu, Ting Yao, Houqiang Li, Tao Mei

我们每天都在创造多媒体内容。虽然自动内容生成已经对多媒体社区造成了几十年的根本挑战,但最近深度学习的进展使这个问题变得可行。例如,生成敌对网络(GAN)是合成图像的有益方法。尽管如此,在利用GAN生成视频时,这并不是微不足道的。难题源于内在结构,视频是一系列视觉连贯且语义上相关的帧。这激励我们探索设计GAN来生成视频的语义和时间一致性。在本文中,我们提出了一种新的Caption时空GANs调节,即TGANs-C,其中发生器网络的输入是一个潜在噪声矢量和字幕嵌入的串联,然后被转换成具有3D时空卷积的帧序列。与仅将对视为伪造或真实的天真鉴别器不同,我们的鉴别器另外注意视频是否匹配正确的标题。具体来说,鉴别器网络由三个鉴别器组成:视频鉴别器根据所产生的视频对现实视频进行分类并优化视频字幕匹配,识别真实帧和假帧的帧鉴别器以及将帧与调理字幕对齐,以及运动鉴别器强调生成的视频中的相邻帧应该像真实的那样平滑连接。我们定性证明了我们的TGANs-C能够在两个合成数据集(SBMGTBMG)和一个真实世界数据集(MSVD)上的给定字幕上生成合理的视频条件。此外,MSVD的定量实验通过生成敌对度量和人体研究来验证我们的建议。[1804.08264v1]

 

使用OpenSfMORB-SLAM2构建局部密集点云

Fouad Amer, Zixu Zhao, Siwei Tang, Wilfredo Torres

本文旨在找到一种方法来注册由ORB-SLAM2OpenSfM构建的两个不同的点云。为此,我们在场景中贴出一些具有独特纹理的标签,并拍摄该区域的视频和照片。然后我们拍摄只有标签的短片来提取它们的特征。通过将标签的ORB特征与其在场景中的相应特征进行匹配,就可以将这些标签的位置定位在由ORB-SLAM2OpenSfM构建的点云中。因此,可以计算两个点云之间的最佳变换矩阵,并且可以对齐两个点云。[1804.08243v1]

 

多尺度预测用于鲁棒的手部检测和分类

Ding Lu, Yong Wang, Robert Laganiere, Xinbin Luo, Shan Fu

在本文中,我们提出了一种多尺度全卷积网络(MSP-RFCN),可以在各种具有挑战性的条件下对人手进行稳健检测和分类。在我们的方法中,基于多尺度预测,输入图像通过建议的网络来生成分数图。该网络专门用于处理小型物体。它使用基于多个比例生成的区域提案的体系结构。我们的方法在具有挑战性的手动数据集上进行评估,即智能车辆和应用视觉(VIVA)挑战赛和牛津手数据集。它与最近的手动检测算法进行比较。实验结果表明,我们提出的方法实现了各种尺寸的手的最先进的检测。[1804.08220v1]

 

syGlass:使用虚拟现实头戴式显示器交互式探索多维图像

斯坦尼斯拉夫Pidhorskyi,迈克尔莫尔黑德,奎因琼斯,乔治Spirou,詹弗兰科Doretto

追求对生物系统更深入的理解驱动了对越来越大的多维图像数据集的采集。在传统的可视化系统中,检查和操纵这种复杂性的数据非常具有挑战性。我们开发了一款软件包syGlass,该软件包能够利用廉价的虚拟现实头戴式显示技术将大型体积数据可视化。这可以利用立体视觉显着提高对复杂三维结构的感知能力,并可直接在3D中提供与数据的沉浸式交互。我们通过开发高度优化的数据流和体绘制流水线来实现这一目标,在高达16TB大小的数据集上进行测试,以及虚拟现实GUI中提供的工具,以支持高级数据探索,注释和编目。[1804.08197v1]

 

轻量头部姿势不变的凝视跟踪

Rajeev RanjanShalini De MelloJan Kautz

使用现成的相机进行无约束的远程注视跟踪是一个具有挑战性的问题。最近,已经提出了用于使用卷积神经网络(CNN)的基于外观的注视估计的有前途的算法。提高它们对各种混杂因素的稳健性,包括可变头部姿势,主体识别,照明和图像质量仍然是未解决的问题。在这项工作中,我们研究了可变头部姿态对经过训练的机器学习回归器估计凝视方向的影响。我们提出了一种新颖的分支CNN架构,它可以提高注视分类器对可变头部姿态的鲁棒性,而不会增加计算成本。我们还提出了各种程序来有效地训练我们的凝视网络,包括从更密切相关的对象视点估计任务和大量高保真合成凝视数据集中进行转移学习,这使我们的凝视网络能够以十倍的速度获得竞争精度最先进的直接竞争者。[1804.08572v1]

 

演绎:回收黑盒子带走的东西

Peyman Milanfar

我们工作的前提是看似熟悉的:黑盒$ f\ cdot$已经改变了镜像$ \ mathbf {x} \ rightarrow f\ mathbf {x}$。恢复图像$ \ mathbf {x} $。这个黑盒子可能是任何简单或复杂的事情:线性或非线性过滤器,手机上的一些应用程序等。后者是我们解决问题的一个很好的典型示例:只给出应用程序和一个由应用程序生成的图像,找到提供给应用程序的图像。您可以根据需要随意多次运行给定的图像(或任何其他图像),但无法查看应用程序的(代码)以了解其工作原理。乍一看,这个问题听起来很像一个标准的逆向问题,但它不在以下意义上:虽然我们可以访问黑盒子$ f\ cdot$,并且可以通过它运行任何图像并观察输出,我们不知道块框如何改变图像。因此我们没有明确的形式或$ f\ cdot$模型。我们也不一定对黑匣子的内部工作感兴趣。我们很乐意在任何可能的范围内扭转其对特定图像的影响。这就是我们所说的演绎(而不是复原)问题,因为它不适合逆向问题的模型(盲目或其他)。我们描述了一般条件下的演绎是可能的,并提供了一个非常简单的算法,适用于收缩和膨胀的黑匣子操作。我们工作中的主要和新颖的外带消息是这个令人惊讶的事实:一个简单的算法可以可靠地撤消一大类(不太暴力)的图像失真。本文的更高质量的pdf可以从http://www.milanfar获得。

 

渐进式细化:使用堆叠式网络从粗到细的图像解析方法

Jiagao Hu, Zhengxing Sun, Yunhan Sun, Jinlong Shi

为了将图像解析为细粒度的语义部分,当使用现成的语义分割网络时,复杂的细粒度元素会使其陷入麻烦。在本文中,对于图像解析任务,我们建议使用逐步精炼的语义类将图像从粗到细解析出来。它通过将分割层多次叠加在分割网络中来实现。前一个分割模块在较粗粒度级别解析图像,并将结果输入到下一个分割模块,为细粒度解析提供有效的上下文线索。为了恢复小型结构的细节,我们添加了从网络浅层跳转到细粒度解析模块的连接。至于网络培训,我们将课程合并为地面实体以获得从粗到细的标签地图,并通过这些层次监督端到端地对堆叠网络进行培训。我们的粗到细堆叠框架可以注入到许多先进的神经网络中,以改善解析结果。对包括人脸解析和人体解析在内的多个公共数据集进行广泛的评估证明了我们方法的优越性。[1804.08256v1]

 

我知道你的感受:与面部标志的情感识别

Ivona TautkuteTomasz TrzcinskiAdam Bielski

对于许多计算机视觉算法来说,人类情绪的分类仍然是一项重要和具有挑战性的任务,特别是在与人类在日常生活中共存的类人机器人时代。目前提出的用于情绪识别的方法使用多层卷积网络来解决该任务,该网络在分类阶段中不明确推断任何面部特征。在这项工作中,我们假设一种根本不同的方法来解决情感识别任务,这种方法依赖于将面部标志作为分类损失函数的一部分。为此,我们扩展了最近提出的深度对齐网络(DAN),该网络在最近的面部标志识别挑战中实现了最新的结果,其中涉及面部特征的术语。由于这个简单的修改,我们的名为EmotionalDAN的模型能够在两个具有挑战性的基准数据集上超越最先进的情绪分类方法达5%。[1805.00326v1]

 

解耦网络

Weiyang Liu, Zhen Liu, Zhiding Yu, Bo Dai, Rongmei Lin, Yisen Wang, James M. Rehg, Le Song

基于内积的卷积一直是卷积神经网络(CNN)的核心组件,也是学习视觉表示的关键。受CNN学习特征自然与类内变异特征的规范和语义差异对应的角度解耦的观察的启发,我们提出了一种通用的解耦学习框架,该框架对类内变异和语义差异进行建模独立。具体而言,我们首先将内积重新化为解耦形式,然后将其推广到解耦卷积算子,该算子充当我们解耦网络的构建块。我们提出了解耦卷积算子的几个有效实例。每个解耦算子都有良好的动机,并具有直观的几何解释。基于这些解耦算子,我们进一步建议直接从数据中学习算子。大量实验表明,这种解耦重新参数化具有显着的性能增益,更易于收敛和更强壮的鲁棒性。[1804.08071v1]

 

用于大规模图像超分辨率的大接收场网络

George SeifDimitrios Androutsos

卷积神经网络一直是最近在单幅图像超分辨率方面取得突破性进展的中坚力量。然而,现有的网络非常深,具有许多网络参数,因此具有大的内存占用量并且难以训练。我们提出了大接收域网络,它们力求直接扩展超分辨率网络的接收域而不增加深度或参数数量。具体而言,我们使用两种不同的方法来扩展网络接受领域:1-D可分离核和无限卷积。我们进行了大量实验来研究一维可分离内核的各种排列方案的性能以及准确性(PSNR / SSIM),参数数量和速度方面的无量卷积,同时关注更具挑战性的高倍数因子。广泛的基准评估证明了我们方法的有效性。[1804.08181v1]

 

卷积神经网络的基于锚点的最近类别均值损失

Fusheng Hao, Jun Cheng, Lei Wang, Xinchao Wang, Jianzhong Cao, Xiping Hu, Dapeng Tao

区分特征对于机器学习应用程序至关重要。然而,大多数现有的深度学习方法依赖于卷积神经网络(CNN)用于学习特征,其判别能力没有明确实施。在本文中,我们提出了一种新的方法来训练深层次CNNs,通过强调类内紧致性和类间可分性,从而增强学习特征的判别力。为此,我们引入锚点,这些锚点是预定义向量,被视为每个类的中心,并在训练过程中被固定。通过限制深度CNN将训练样本映射到相应的锚点尽可能接近地获得判别特征。我们提出两个原则来选择锚点,并使用欧几里得和余弦距离度量函数来测量两点的接近度,这导致两个新的损失函数。这些损失函数不需要样本对或三元组,并且可以通过批量随机梯度下降进行有效优化。我们在三个基准图像分类数据集上测试了所提出的方法并展示了其有希望的结果。[1804.08087v1]

 

FingerphotosSlap指纹图像进行匹配

Debayan DebTarang ChughJoshua EngelsmaKai CaoNeeta Nain,杰克肯德尔,Anil K. Jain

我们解决了将手指照片,来自商用智能手机相机的指纹图像与相应的传统一键式联系人指纹图像进行比较的问题。通过开发这些技术的强大版本,可以通过简单的软件下载将数十亿的标准Android手机用作生物识别读卡器,与使用单独的指纹识别器相比,大幅降低部署的成本和复杂性。在Android手机上运行的两个fingerphoto应用程序和一个光学巴掌阅读器被用于309名主要以建筑工人,农民和家庭佣工身份工作的受试者的指纹收集。实验结果表明,在False Accept RateFAR)为0时的真实接受率(TAR)为95.79。使用COTS指纹匹配器将指纹图像与拍打(两个拇指和两个食指)相匹配可以实现1%。相比之下,当匹配来自两个不同基于接触的光学读取器的指纹图像时,达到0.1FAR时的基线TAR98.55%。我们还报告了两款智能手机应用的可用性,无法获取速率和指纹采集时间。我们的研究结果表明,fingerphotos很有希望为发展中国家的银行,福利分配和医疗保健应用验证个人身份(针对国家ID数据库)。[1804.08122v1] 无法获取速率和指纹采集时间。我们的研究结果表明,fingerphotos很有希望为发展中国家的银行,福利分配和医疗保健应用验证个人身份(针对国家ID数据库)。[1804.08122v1] 无法获取速率和指纹采集时间。我们的研究结果表明,fingerphotos很有希望为发展中国家的银行,福利分配和医疗保健应用验证个人身份(针对国家ID数据库)。[1804.08122v1]

 

微网:用于显微图像中各种物体分割的统一模型

Shan E Ahmed RazaLinda CheungMuhammad ShabanSimon GrahamDavid EpsteinStella PelengarisMichael KhanNasir M. Rajpoot

对象分割和结构定位是显微镜图像自动化图像分析流水线中的重要步骤。我们提出了基于卷积神经网络(CNN)的深度学习体系结构,用于在显微图像中分割对象。拟议的网络可用于细分,细胞核和腺体荧光显微镜和组织学图像微调后的参数。它以输入图像的多种分辨率进行自我训练,连接中间层以获得更好的定位和上下文,并使用多分辨率反卷积滤波器生成输出。绕过最大池操作的额外卷积层允许网络训练可变输入强度和对象大小,并使其对噪声数据稳健。我们将我们的结果与公开可用的数据集进行比较,并表明拟议网络的性能优于最新技术。[1804.08145v1]

 

一种用于肺癌诊断的深度卷积神经网络

Mehdi Fatan SerjBahram LaviGabriela HoffDomenec Puig Valls

在本文中,我们考察了用于诊断肺癌的深度学习技术在医学图像分析问题上的优势。卷积神经网络(CNN)模型在模式识别和计算机视觉研究领域受到欢迎,因为它们在生成高级图像表示方面具有很好的结果。我们提出了一种用于学习高级图像表示的新型深度学习体系结构,以实现医学图像二进制分类任务中的低方差的高分类精度。我们的目标是在深度卷积神经网络开始时学习判别式紧凑特征。我们在Kaggle Data Science Bowl 2017KDSB17)数据集上评估我们的模型,并将其与Kaggle竞赛中提出的一些相关作品进行比较。[1804.08170v1]

 

用于图像识别的残差网络研究

Mohammad Sadegh EbrahimiHossein Karkeh Abadi

深度神经网络证明在图像分类任务上具有高性能,同时更难以训练。由于复杂性和渐变梯度问题,训练更深层的神经网络通常需要大量的时间和更多的计算能力。与其等效的神经网络相比,深度残差网络(ResNets)可以使训练过程更快并且获得更高的精度。ResNets通过添加一个平行于卷积神经网络层的简单跳过连接来实现这种改进。在这个项目中,我们首先设计了一个ResNet模型,它可以高精度地在Tiny ImageNet数据集上执行图像分类任务,然后我们比较此ResNet模型与其等效卷积网络(ConvNet)的性能。我们的研究结果表明ResNets尽管准确度更高,但更容易出现过度拟合。本文研究了防止过度拟合的几种方法,如添加丢失层和训练数据集的随机增强。[1805.00325v1]

 

从单压力图像估计可配置床上的三维人体姿态

Henry M. CleverAriel KapustaDaehyung ParkZackory EricksonYash ChitaliaCharles C. Kemp

机器人有可能帮助人们躺在床上,比如在医疗机构中,但床上用品如床单和毯子可以使机器人难以观察人体。床上的压力传感垫可以提供对垫料相对不敏感的压力图像。然而,之前关于从压力图像估计人体姿势的工作一直限于2D姿态估计和平坦的床。在这项工作中,我们提出了两个卷积神经网络来从单个压力图像估计一个人在可配置床中的三维关节位置。第一个网络直接输出三维关节位置,而第二个网络输出包含估计关节角度和肢体长度的运动学模型。我们评估了来自17位人类参与者的数据,其中有两种床位配置:仰卧位和坐位。我们的网络在测试来自训练集以外的人的数据时获得了77毫米的平均关节位置误差,优于几条基线。我们还提供了一个简单的机械模型,该模型提供了与从压力垫上抬起的肢体相关联的模糊性的深入分析,并且证明蒙特卡洛压降可用于估计这些情况下的姿势置信度。最后,我们提供了一个演示,其中一个移动机械手使用我们网络的估计运动学模型来到达人体的某个位置,尽管人坐在床上并被毯子覆盖。[1804.07873v1] 我们还提供了一个简单的机械模型,该模型提供了与从压力垫上抬起的肢体相关联的模糊性的深入分析,并且证明蒙特卡洛压降可用于估计这些情况下的姿势置信度。最后,我们提供了一个演示,其中一个移动机械手使用我们网络的估计运动学模型来到达人体的某个位置,尽管人坐在床上并被毯子覆盖。[1804.07873v1] 我们还提供了一个简单的机械模型,该模型提供了与从压力垫上抬起的肢体相关联的模糊性的深入分析,并且证明蒙特卡洛压降可用于估计这些情况下的姿势置信度。最后,我们提供了一个演示,其中一个移动机械手使用我们网络的估计运动学模型来到达人体的某个位置,尽管人坐在床上并被毯子覆盖。[1804.07873v1] 尽管该人坐在床上并被毯子覆盖。[1804.07873v1] 尽管该人坐在床上并被毯子覆盖。[1804.07873v1]

 

第一印象:基于计算机视觉的表观人格特质分析综述

胡里奥CS雅克少年,雨Gucluturk,马克·佩雷斯,希望强,卡洛斯·安杜哈尔,泽维尔气压,雨果睚埃斯卡兰特,伊莎贝尔居永,马塞尔AJ面包车Gerven,罗宾·利尔,塞尔吉奥埃斯卡利拉

人格分析已广泛研究心理学,神经心理学,信号处理领域等。从计算的角度来看,到目前为止,言语和文本已经成为分析人格信息最多的线索。然而,近年来,计算机视觉社区越来越关注从视觉信息开始分析人格。最近的计算机视觉方法能够准确地分析人脸,身体姿势和行为,并利用这些信息来推断明显的人格特征。由于这个主题的研究兴趣以及这种方法在社会上可能产生的潜在影响,我们在本文中介绍了对现有的基于计算机视觉的视觉和多模式方法进行最新审查,以明显的个性特征识别。我们描述关于这个主题的开创性和尖端的作品,讨论和比较它们的独特特征。更重要的是,该领域的未来研究场所将得到确认和讨论。此外,还对数据标记/评估中主观性方面的问题以及为推动该领域研究而组织的当前数据集和挑战进行了审查。因此,本调查提供了对本研究主题广泛范围内研究进展的最新评论。[1804.08046v1] 确定并讨论未来在该领域研究的场所。此外,还对数据标记/评估中主观性方面的问题以及为推动该领域研究而组织的当前数据集和挑战进行了审查。因此,本调查提供了对本研究主题广泛范围内研究进展的最新评论。[1804.08046v1] 确定并讨论未来在该领域研究的场所。此外,还对数据标记/评估中主观性方面的问题以及为推动该领域研究而组织的当前数据集和挑战进行了审查。因此,本调查提供了对本研究主题广泛范围内研究进展的最新评论。[1804.08046v1]

 

通过多尺度描述符的快速对应传播对无序范围扫描进行多视图注册

Jihua Zhu, Siyu Xu, Zutao Jiang, Shanmin Pang, Jun Wang, Zhongyu Li

本文提出了一种用于无序范围扫描的多视图注册的全局方法。作为多视图注册的基础,成对注册非常关键。因此,我们首先选择一个好的描述符,并加速其对应的传播以进行配对注册。然后,我们设计一个有效的规则来判断配对注册结果的可靠性。随后,我们提出了一种模型增强方法,它可以利用成对配准的可靠 结果来增强模型的形状。最后,多视图注册可以通过操作成对注册和判断以及交替模型增强来完成。公开可用数据集的实验结果显示,该方法可以自动实现无序范围扫描的多视图配准,具有良好的准确性和有效性。[1804.07926v1]

 

ShapeStacks:为广义对象堆叠学习基于视觉的物理直觉

奥利弗格罗斯,费边福克斯,英格玛波斯纳,安德烈韦达尔迪

物理直觉对于智能代理执行复杂任务是至关重要的。在本文中,我们研究了对物理原理的直观理解的被动获取,以及在广义对象堆叠的背景下对这种直觉的积极利用。为此,我们提供:基于模拟的数据集,具有20,000个堆栈配置,由多种基本的几何图元组成,这些图元丰富地注释了语义和结构稳定性。我们训练用于ShapeStacks数据的二进制稳定性预测的视觉分类器,并仔细研究他们学习到的物理直觉。由于训练数据的丰富性,我们的方法还推广到了真实世界的场景,在公共基准的块塔上实现最先进的稳定性预测。然后,我们利用我们模型学习到的物理直觉积极构建稳定的堆栈,并观察堆栈性的直观概念一种内在的对象可供性由主动堆栈任务引发的出现。我们的方法即使在极具挑战性的情况下也能表现良好,在这种情况下,它大大超过了训练期间观察到的堆叠高度,或者在最初不稳定的结构必须通过平衡而稳定的情况下。[1804.08018v1] 我们的方法即使在极具挑战性的情况下也能表现良好,在这种情况下,它大大超过了训练期间观察到的堆叠高度,或者在最初不稳定的结构必须通过平衡而稳定的情况下。[1804.08018v1] 我们的方法即使在极具挑战性的情况下也能表现良好,在这种情况下,它大大超过了训练期间观察到的堆叠高度,或者在最初不稳定的结构必须通过平衡而稳定的情况下。[1804.08018v1]

 

使用深度卷积神经网络的血管发育异常检测和定位

Alexey ShvetsVladimir IglovikovAlexander RakhlinAlexandr A. Kalin

血管发育不良病变的准确检测和定位是消化道出血和贫血的早期诊断中的重要问题。使用无线胶囊内窥镜进行血管发育异常检测和定位的金标准。这种类似丸剂的装置能够在通过胃肠道的过程中产生数千个分辨率足够高的图像。在本白皮书中,我们展示了我们为MICCAI 2017获得的解决方案内窥镜视觉亚挑战:血管发育异常检测和定位使用多种新型深度神经网络架构对最新结果进行了进一步改进。它解决了二值分割问题,其中图像中的每个像素被标记为血管发育不良病变或背景。然后,我们分析每个预测掩模的连通分量。基于分析,我们开发了一种可以预测血管发育不良病变(二元变量)的分类器和一种用于其定位(组件中心)的检测器。在这种情况下,我们的方法在血管发育异常检测和定位方面胜过每个任务子类别中的其他方法,从而为这些问题提供了最新的结果。我们的解决方案的源代码在https://github.com/ternaus/angiodysplasia-segmentatio [1804.08024v1]

 

学习细化人体姿态估计

Mihai FieraruAnna KhorevaLeonid PishchulinBernt Schiele

在许多应用中,图像和视频中的多人姿态估计是一项重要且具有挑战性的任务。尽管卷积神经网络的发展使人类姿态估计有了很大的改进,但仍然存在很多困难的情况,即使是最先进的模型也不能正确定位所有身体关节。这激发了对解决这些具有挑战性的案例的额外改进步骤的需求,并且可以容易地应用于任何现有方法之上。在这项工作中,我们引入了一个姿态细化网络(PoseRefiner),它将图像和给定姿态估计都作为输入,并通过对输入输出空间的联合推理学习直接预测精确姿态。为了让网络学习改进不正确的身体关节预测,我们采用新的数据增强方案进行训练,在这里我们对人体姿势案例进行建模。我们评估了四种流行的大规模姿态估计基准如MPII单人姿势估计,多姿势姿势估计,姿势追踪姿势估计和姿势追踪姿态追踪等方法,并报告了对现有技术水平的系统改进。[1804.07909v1]

 

桥接:深度神经网络的随机桥正则化

Najeeb KhanJawad ShahIan Stavness

训练深度神经网络的一个主要挑战是过拟合,即与未训练的例子相比,看不见的测试例子的性能较差。为了减少过拟合,随机正则化方法与许多图像识别任务上的确定性加权惩罚相比表现出优越的性能。期望中的随机方法(例如DropoutShakeout)分别相当于对模型参数施加岭和弹性网罚。然而,重量罚分的选择是依赖于问题的,并不限于$ \ {L_1L_2 \} $。因此,在本文中,我们提出了Bridgeout随机正则化技术,并且证明它相当于权重上的$ L_q $惩罚,其中范数$ q $可以从数据中学习为超参数。实验结果表明,与DropoutShakeout相比,Bridgeout在合成和真实数据集上产生了稀疏模型权重,改进的梯度和更好的分类性能。[1804.08042v1]

 

多模态空间结构:多模态实体分辨率的一种新的潜在相关性

Qibin Zheng, Xingchun Diao, Jianjun Cao, Xiaolei Zhou, Yi Liu, Hongmei Li

由于大数据问题,多模式数据比以前更加普遍。从不同数据源(称为实体分辨率)查找语义相同或相似的对象是多模式任务的核心问题之一。目前用于解决这个问题的模型通常需要大量的配对数据来发现多模式数据之间的潜在相关性,其成本很高。本文提出了一种新的潜在相关性。通过相关性,多模式对象可以在通常的分片空间中统一表示。基于分类的模型被设计用于多模式实体解析任务。用该方法可以大大减少训练数据的需求。[1804.08010v1]

 

DeepRec:深层编码器解码器网络,用于直接解决PET重建反演问题

Ida HaeggstroemC. Ross SchmidtleinGabriele CampanellaThomas J. Fuchs

正电子发射断层扫描(PET)是现代放射学的基石。在全身扫描中检测癌症和转移的能力从根本上改变了癌症的诊断和治疗。临床应用中的一个主要瓶颈是在PET成像中重建来自大量数据的解剖图像所需的时间。基于预期最大化的最先进的方法可能需要几个小时才能为单个患者进行,并取决于手动微调。这不仅导致医院的经济负担,而且更重要的是导致患者处理,评估以及最终诊断和治疗患者的效率降低。为了克服这个问题,我们提出了一种基于深度卷积编码器解码器网络的新型PET图像重建技术,将PET正弦图数据作为输入并直接输出完整的PET图像。使用逼真的模拟数据,我们证明,相对于传统迭代重建技术,我们的网络能够以> 100倍的速度重建图像,并具有可比的图像质量(以均方根误差表示)。[1804.07851v1]

 

面部属性预测增强的人脸识别网络

Fariborz TaherkhaniNasser M. NasrabadiJeremy Dawson

在本文中,我们提出了一个新的深层框架,可以预测面部属性并将其作为一种软方式来提高面部识别性能。我们的模型是一个端到端框架,它由卷积神经网络(CNN)组成,其输出分为两个独立的分支第一个分支预测面部属性,而第二个分支识别面部图像。与现有的仅使用共享CNN特征空间共同训练这两个任务的多任务方法相反,我们将预测属性与脸部模态的特征相融合,以提高人脸识别性能。实验结果表明,该模型为人脸识别和人脸属性预测性能带来了好处,特别是在性别预测等身份面部属性的情况下。我们在两个标准数据集上测试了我们的模型,这些数据集由身份和面部属性注释。实验结果表明,该模型优于目前大多数现有的人脸识别和属性预测方法。[1805.00324v1]

 

使用有条件生成对抗网络的增强现实眼镜的第一响应者的遮挡物体重建

Kyongsik YunThomas LuEdward Chow

消防队员面临各种危及生命的风险,包括值班死亡,伤害和危险物质暴露。支持降低这些风险很重要。我们在增强现实眼镜上为第一响应者构建了部分遮挡对象重建方法。我们使用基于条件生成对抗网络的深度学习来训练易燃和危险物体及其部分遮挡对象的各种图像之间的关联。我们的系统然后重建了一个新的易燃物体的图像。最后,重建的图像叠加在输入图像上以提供透明度。该系统通过学习可燃物体的形状和火焰特性,通过经验模仿人类对物理定律的学习。[1805.00322v1]

 

愿景遇到无人机:挑战

Pengfei Zhu, Longyin Wen, Xiao Bian, Haibin Ling, Qinghua Hu

在本文中,我们提出了一个名为VisDrone2018的大型视觉对象检测和跟踪基准,旨在推进无人机平台上的视觉理解任务。基准图像和视频序列从北到南在中国14个不同城市的不同城市/郊区被捕获。具体而言,VisDrone2018包含263个视频剪辑和10,209个图像(与视频剪辑不重叠),包含对象边界框,对象类别,遮挡,截断比等丰富的注释。我们的基准测试工作量超过250万注释179,264个图像/视频帧中的实例。作为迄今为止发布的最大的这种数据集,该基准测试能够对无人机平台上的可视化分析算法进行广泛的评估和调查。尤其是,我们使用基准设计了四个热门任务,包括图像中的对象检测,视频中的对象检测,单个对象跟踪和多对象跟踪。由于诸如遮挡,大尺度和姿态变化以及快速运动等因素,所有这些任务在提出的数据集中极具挑战性。我们希望基准能够大幅提升无人机平台视觉分析的研发水平。[1804.07437v2]

 

用于无透视计数的聚合多列扩张卷积网络

Diptodip DebJonathan Ventura

我们建议使用扩张过滤器在多列卷积神经网络中构建一个聚合模块,以实现无透视计数。计算是计算机视觉中的常见问题(例如街上的交通或人群中的行人)。计数问题的现代方法涉及通过回归生成密度图,其积分等于图像中的对象数量。然而,图像中的物体可能会出现不同的尺度(例如,由于透视效应),这可能使学习代理难以学习适当的密度图。虽然使用多列从图像中提取多尺度信息已经显示出来,但我们的方法聚合了多列卷积神经网络收集的多尺度信息以提高性能。我们的实验表明,我们提出的网络在许多基准数据集上的表现都优于现有技术,并且使用我们的聚合模块与更多列数的组合对于多尺度计数是有益的。[1804.07821v1]

 

HandyNet:一站式解决方案来检测,分段,本地化和分析驾驶者手

Akshay RangeshMohan M. Trivedi

与人类手相关的任务一直是计算机视觉社区的一部分。作为人类主要执行者的手,除了作为与其他人类和机器的交流/互动的替代形式之外,还传达许多活动和意图。在这项研究中,我们专注于训练单个前馈卷积神经网络(CNN),该网络能够执行许多可能用于未来自主和半自动车辆的与手相关的任务。由此产生的网络,我们称之为HandyNet,能够检测,分割和定位(3D)驾驶室内的驾驶员手。该网络还经过培训以识别驾驶员可能正在与之交互的手持物体。为了满足培训这种网络的数据要求,我们提出了一种基于色度键控的便宜标注方法,从而绕过了标记这些数据所需的数周人力。该过程可以高效地生成数千个标记的训练样本,并且可以相对容易地在新的环境中复制。[1804.07834v1]

 

ConnNet:用于突出分割的长距离感知像素连通性网络

Michael Kampffmeyer, Nanqing Dong, Xiaodan Liang, Yujia Zhang, Eric P. Xing

突出分割旨在分割出引人注目的区域,这是一个关键而又具有挑战性的任务,也是许多高级计算机视觉应用程序的基础。它需要语义意识将像素分组为显着区域,并且利用全局多尺度上下文来获得良好的本地推理。以前的作品经常将其视为利用包括细化网络和复杂图形模型的复杂多步骤过程的两类分割问题。我们认为,语义显着分割可以通过将其重新配置为基于像素对的简单而直观的连接性预测任务来有效解决。根据直觉,可以通过相邻像素之间的语义感知连通性将显着对象自然分组,我们提出了一个纯粹的连通性网络(ConnNet)。ConnNet通过利用图像中嵌入的多级级联上下文和长距像素关系来预测每个像素与其相邻像素的连通概率。我们在两个任务上调查我们的方法,即突出对象分割和显着实例级分割,并说明可以通过将这些任务建模为连接而不是二进制分割任务来获得改进。我们实现了最先进的性能,超越现有方法或与现有方法相媲美,同时由于我们的复杂方法减少了培训时间。[1804.07836v1] 我们在两个任务上调查我们的方法,即突出对象分割和显着实例级分割,并说明可以通过将这些任务建模为连接而不是二进制分割任务来获得改进。我们实现了最先进的性能,超越现有方法或与现有方法相媲美,同时由于我们的复杂方法减少了培训时间。[1804.07836v1] 我们在两个任务上调查我们的方法,即突出对象分割和显着实例级分割,并说明可以通过将这些任务建模为连接而不是二进制分割任务来获得改进。我们实现了最先进的性能,超越现有方法或与现有方法相媲美,同时由于我们的复杂方法减少了培训时间。[1804.07836v1]

 

用合成数据训练深度网络:通过域随机化弥合现实差距

Jonathan TremblayAayush PrakashDavid AcunaMark BrophyVarun JampaniCem AnilThang ToEric CameracciShaad BoochoonStan Birchfield

我们提出了一个用于训练用于使用合成图像的物体检测的深度神经网络的系统 为了处理现实世界数据的变化性,系统依赖于领域随机化技术,其中模拟器$ – $的参数例如照明,姿态,物体纹理等$ – $被随机化为非现实迫使神经网络学习感兴趣对象的基本特征的方法。我们探索这些参数的重要性,表明可以仅使用非艺术性生成的合成数据生成具有引人注目的性能的网络。通过对实际数据进行额外的微调,网络比单独使用真实数据的性能更好。这个结果为使用低成本的合成数据训练神经网络提供了可能性,同时避免了收集大量手工注释的真实世界数据或生成高保真合成世界$ – $这两种方法仍然是许多应用的瓶颈。该方法在KITTI数据集上对汽车的边界框检测进行评估。[1804.06516v3]

 

SFace:一种有效的大规模变化人脸检测网络

Jianfeng Wang, Ye Yuan, Boxun Li, Gang Yu, Sun Jian

人脸检测是许多应用程序(如人脸识别)的基础研究主题。特别是最近卷积神经网络的发展取得了令人印象深刻的进展。然而,广泛存在于高分辨率图像/视频中的大范围变化的问题在文献中尚未得到很好的解决。在本文中,我们提出了一种名为SFace的新算法,它有效地集成了基于锚的方法和无锚方法来解决规模问题。还引入了称为4K-Face的新数据集来评估具有极大尺度变化的人脸检测的性能。SFace架构在新的4K-Face基准测试中显示出可喜的成果。此外,我们的方法可以以每秒50帧(fps)的速度运行,标准WIDER FACE数据集上的精度为80AP,它比现有算法的性能高出近一个数量级,同时达到了比较性能。[1804.06559v2]

 

漩涡池:改善语义分割中的语境表示

Chen-Wei Xie, Hong-Yu Zhou, Jianxin Wu

语义分割是计算机视觉中的一项基本任务,可以将其视为每像素分类问题。最近,尽管基于卷积神经网络(FCN)的方法在这一任务中取得了令人瞩目的进步,但在卷积特征地图中聚集本地和上下文信息仍然是一个具有挑战性的问题。在本文中,我们认为,在预测给定像素的类别时,接近目标的区域比远离它的区域更重要。为了解决这个问题,我们然后提出了一种有效而高效的方法,称为涡流池,以有效利用上下文信息。还提供了经验研究来验证所提出方法的有效性。具体而言,我们的方法比先前的名为DeepLab v3的最先进型号的性能优于1。通过将DeepLab v3中的Atrous Spatial Pyramid PoolingASPP)模块替换为所提议的Vortex PoolingPASCAL VOC 2012 val set中的5%和测试集中的0.6%。此外,我们的模型(10.13FPS)与DeepLab v310.37 FPS)的计算成本相似。[1804.06242v2]

 

一种新颖的低成本基于FPGA的实时对象跟踪系统

Peng Gao, Ruyue Yuan, Zhicong Lin, Linsheng Zhang, Yan Zhang

在当前的视觉对象跟踪系统中,基于CPUGPU的视觉对象跟踪系统具有高计算成本并且消耗高功率量。因此,为减少Camshift算法的计算负担,本文提出了一种新的视觉对象跟踪算法,该算法利用二进制分类器和卡尔曼预测器的特性。此外,我们提出了一个低成本的基于FPGA的实时对象跟踪硬件体系结构。对OTB基准的广泛评估表明,所提出的系统具有极其引人注目的实时性,稳定性和鲁棒性。评估结果表明,我们的算法的准确性约为48%,平均速度约为每秒309帧。[1804.05535v2]

 

一种新型的并行射线算法

Yan Zhang, Peng Gao, Xiao-Qing Li

Ray-Casting算法是从3D医学图像快速实时地显示表面的重要方法。基于Ray-Casting算法,本文提出了一种新型的平行光线投射算法。引入新操作并将其定义为星形操作,并且与Ray-Casting算法中的星形操作的串行链相比,在所提出的算法中可以并行计算星形操作。该算法的计算复杂度从$ On$减少到$ O\ log ^ n_2$[1804.05541v2]

 

SoccerNet:足球视频中的可伸缩数据集

Silvio GiancolaMohieddine AmineTarek DghailyBernard Ghanem

在本文中,我们介绍SoccerNet,足球视频中的动作发现基准。该数据集由来自六个主要欧洲联赛的500场完整足球比赛组成,涵盖从2014年到2017年的三个赛季,总时长为764小时。总共6,637个时间注释以三分钟主要类别(目标,黄/红卡和替代)的一分钟分辨率从在线比赛报告中自动分析。因此,数据集很容易扩展。这些注释通过将它们锚定在遵循明确定义的足球规则的单个时间戳上而手动细化为一秒钟的解决方案。每6.9分钟平均有一个事件,该数据集重点关注在长视频中定位非常稀疏事件的问题。我们将发现的任务定义为在视频中找到足球事件的锚点。利用视频中通用动作识别和检测领域的最新发展,我们为检测足球事件提供了强大的基线。我们表明,我们最好的分类时间段长度为1分钟的模型达到了平均67.8%的平均精度(mAP)。对于发现任务,我们的基准线的平均mAP49.7%,容差为$ \ delta $,范围为560秒。我们的数据集和模型可在https://silviogiancola.github.io/SoccerNet上找到。[1804.04527v2] 我们的基线达到平均mAP49.7%的容差$ \德尔塔$ 560秒范围内。我们的数据集和模型可在https://silviogiancola.github.io/SoccerNet上找到。[1804.04527v2] 我们的基线达到平均mAP 49.7%的容差$ \德尔塔$ 560秒范围内。我们的数据集和模型可在https://silviogiancola.github.io/SoccerNet上找到。[1804.04527v2]

 

一种利用乘子交替方向法的系统DNN权重剪枝框架

Tianyun Zhang, Shaokai Ye, Kaiqi Zhang, Jian Tang, Wujie Wen, Makan Fardad, Yanzhi Wang

最近对深度神经网络(DNNs)的权重修剪方法进行了研究,但该领域的先前工作主要是启发式迭代修剪,因此缺乏对重量减少率和收敛时间的保证。为了减轻这些限制,我们使用乘法器的交替方向方法(ADMM)提出了一种DNN的系统权重修剪框架。我们首先将DNN的权重修剪问题作为一个非凸优化问题,用组合约束指定稀疏性要求,然后采用ADMM框架进行系统的权重修剪。通过使用ADMM,原始非凸优化问题被分解为迭代求解的两个子问题。其中一个子问题可以使用随机梯度下降来解决,而另一个可以通过分析来解决。所提出的ADMM权重修剪方法除了由原始优化问题的非凸性造成的外,没有产生额外的次优性。此外,我们的方法实现了快速的收敛速度。体重修剪结果非常有希望,并始终超越之前的工作。在MNIST数据集的LeNet-5模型中,我们实现了40.2倍的重量减少而没有精确度损失。在ImageNet数据集的AlexNet模型上,我们实现了20倍的重量减轻,而不会造成精度损失。当我们专注于卷积层修剪以减少计算量时,与以前的工作相比,我们可以将总计算减少五倍(在卷积层中实现总共13.4倍的减量)。也观察到DNN训练的显着加速,因为我们可以在大约80个小时的时间内完成整个AlexNet的培训过程。我们的模型发布在https://github.com/KaiqiZhang/admm-pruning [1804.03294v2]

 

命题逻辑下的Tsetlin机器一种博弈理论强盗驱动的最优模式识别方法

Ole-Christoffer Granmo

虽然单个简单,但人造神经元在深层网络中互连时提供了最先进的性能。对许多人来说不是很清楚,有一种可以说是更简单,更通用的学习机制,即Tsetlin自动机。仅仅通过一个整数作为记忆,它就会在随机环境中学习最优的行为。在本文中,我们介绍了Tsetlin机器,它通过易于解释的命题公式来解决复杂模式识别问题,由Tsetlin自动机组成。为了消除长期存在的消除信噪比的问题,Tsetlin Machine使用新颖的游戏来编排自动机。我们的理论分析表明,游戏的纳什均衡与提供最佳模式识别准确性的命题公式是一致的。这转化为没有局部最优的学习,只有全球的最优。我们认为Tsetlin机器发现了提供最优精度的命题公式,其概率任意接近于1。在四个不同的基准测试中,Tsetlin机器优于神经网络,支持向量机,随机森林,朴素贝叶斯分类器和Logistic回归。进一步证明,由于缺乏数据,Tsetlin机器的精度优势增加。Tsetlin机具有显着的计算性能优势,因为输入,模式和输出都以位表示,而模式的识别依赖于位操作。准确性,可解释性和计算简便性的结合使得Tsetlin Machine成为广泛领域的有前景的工具,其中包括安全关键医学。作为同类产品中的第一个,我们相信Tsetlin Machine将启动全新的研究路线,对AI领域和AI的应用可能产生重大影响。[1804.01508v7]

 

从言语生成说话人人脸特征点

Sefik Emre EskimezRoss K Maddox,陈亮许,段志耀

已经表明存在相应的说话人脸可以显着提高噪声条件下的语音清晰度和听力受损人群的语音清晰度。在本文中,我们提出一个系统,可以从一个声音语音实时生成一个说话人脸的界标点。该系统使用长期短期记忆(LSTM)网络,并通过自动提取的人脸地标对27个不同扬声器的正面视频进行训练。训练之后,它可以从看不见的说话者和话语的声音讲话中产生说话人脸标志。训练阶段包含三个关键步骤。我们首先转换第一个视频帧的地标,将两个视点固定到两个预定义的位置,并对所有后续视频帧应用相同的转换。然后,我们通过在整个训练数据集中将地标变换为平均脸形来移除身份信息。最后,我们训练一个LSTM网络,它将log-mel频谱图的一阶和二阶时间差作为输入来预测每个帧中的人脸标志。我们评估我们的系统使用预测和地面真实标志之间的嘴唇地标的均方误差(MSE)损失以及它们的一阶和二阶时间差异。我们通过进行主观测试来进一步评估我们的系统,其中主题试图区分说话人脸标志的真实和虚假视频。这两项测试都显示出可喜的成果 [1803.09803v2] 我们训练一个LSTM网络,该网络将log-mel频谱图的一阶和二阶时间差异作为输入来预测每个帧中的人脸标志。我们评估我们的系统使用预测和地面真实标志之间的嘴唇地标的均方误差(MSE)损失以及它们的一阶和二阶时间差异。我们通过进行主观测试来进一步评估我们的系统,其中主题试图区分说话人脸标志的真实和虚假视频。这两项测试都显示出可喜的成果 [1803.09803v2] 我们训练一个LSTM网络,该网络将log-mel频谱图的一阶和二阶时间差异作为输入来预测每个帧中的人脸标志。我们评估我们的系统使用预测和地面真实标志之间的嘴唇地标的均方误差(MSE)损失以及它们的一阶和二阶时间差异。我们通过进行主观测试来进一步评估我们的系统,其中主题试图区分说话人脸标志的真实和虚假视频。这两项测试都显示出可喜的成果 [1803.09803v2] 我们通过进行主观测试来进一步评估我们的系统,其中主题试图区分说话人脸标志的真实和虚假视频。这两项测试都显示出可喜的成果 [1803.09803v2] 我们通过进行主观测试来进一步评估我们的系统,其中主题试图区分说话人脸标志的真实和虚假视频。这两项测试都显示出可喜的成果 [1803.09803v2]

 

野外二维人脸图像密集三维重建评价

Zhen-Hua Feng, Patrik Huber, Josef Kittler, Peter JB Hancock, Xiao-Jun Wu, Qijun Zhao, Paul Koppen, Matthias Rätsch

本文调查了野外单个2D图像对密集三维人脸重建的评估。为此,我们组织了一次比赛,提供了一个新的基准数据集,其中包含了20002D科目的2D面部图像以及他们的3D地面真相人脸扫描。与之前的竞赛或挑战相比,这种新基准数据集的目标是使用真实,准确和高分辨率的3D地面真相人脸扫描来评估3D稠密人脸重建算法的准确性。除了数据集之外,我们还提供标准协议以及用于评估的Python脚本。最后,我们报告了三个最先进的三维人脸重建系统在新基准数据集上的结果。本次比赛是与2018年第13IEEE自动面对面会议一起举办的,手势识别。[1803.05536v2]

 

深度信息引导复杂人群场景的人群统计

Mingliang Xu, Zhaoyang Ge, Xiaoheng Jiang, Gaoge Cui, Pei Lv, Bing Zhou, Changsheng Xu

为了城市安全,监控和分析人群事件非常重要。在拥挤的场景中,EDOF(扩展景深)图像中,人们的分布非常不平衡。远离摄像机的人看起来小得多,而且往往会严重遮挡对方,而靠近摄像机的人看起来更大。在这种情况下,使用一种技术难以准确估计人数。在本文中,我们提出深度信息引导人群计数(DigCrowd)方法来处理拥挤的EDOF场景。DigCrowd首先使用图像的深度信息将场景分割为远景区域和近景区域。然后Digcrowd将远景区域映射到其人群密度图,并使用检测方法来计算近景区域中的人员。此外,我们介绍一个包含1000个图像的新人群数据集。实验结果证明了我们的DigCrowd方法的有效性[1803.02256v2]

 

用乘子交替方向法对DNN进行系统重量修剪

Tianyun Zhang, Shaokai Ye, Yipeng Zhang, Yanzhi Wang, Makan Fardad

我们提出了一个使用交替方向乘法器(ADMM)的深度神经网络(DNNs)的系统权重修剪框架。我们首先将DNN的权重修剪问题作为约束非凸优化问题,然后采用ADMM框架进行系统权重修剪。我们证明,由于它提供的计算效率,ADMM非常适合用于权重修剪。与以前的工作相比,我们实现了更高的压缩比,同时保持相同的测试精度和更快的收敛速度。我们的模型发布在https://github.com/KaiqiZhang/admm-pruning [1802.05747v2]

 

绝对定向测量在KinectFusion重建管线中的集成

Silvio GiancolaJens SchneiderPeter WonkaBernard S. Ghanem

在本文中,我们将展示如何将低成本,高保真IMU传感器提供的绝对定向测量集成到KinectFusion流水线中。我们表明,集成提高了三维重建的运行时间,鲁棒性和质量。特别是,我们使用这种定向数据来种子和正规化ICP注册技术。我们还提出了一种基于距离分布对3D匹配点进行滤波的技术。该过滤器在GPU上高效实施。估计距离的分布有助于控制ICP算法收敛所需的迭代次数。最后,我们展示的实验结果强调了稳健性方面的改进,加速了近12%,并且在弗莱堡基准测试中的ATE指标上追踪质量的提高了53%。

 

一种用于可变形医学图像注册的无监督学习模型

Guha BalakrishnanAmy ZhaoMert R. SabuncuJohn GuttagAdrian V. Dalca

我们提出了一种快速的基于学习的可变形成对3D医学图像配准算法。当前的注册方法针对每对图像独立地优化目标函数,这对于大数据可能是耗时的。我们将配准定义为参数函数,并且在给定来自感兴趣集合的一组图像的情况下优化其参数。给定一对新的扫描,我们可以通过使用学习参数直接评估函数来快速计算注册字段。我们使用卷积神经网络(CNN)对该函数进行建模,并使用空间变换层从另一个图像重建一个图像,同时对注册字段施加平滑约束。所提出的方法不需要诸如地面实况登记场或解剖学地标的监督信息。我们证明了与最先进的三维图像配准相媲美的配准精度,同时在实践中操作速度更快。我们的方法有望显着加快医学图像分析和处理流程,同时促进基于学习的注册及其应用的新方向。我们的代码可在https://github.com/balakg/voxelmorph获得。[1802.02604v3]

 

三维荧光显微图像合成与分割

奇琴夫,Soonam LeeDavid Joon HoShuhan HanPaul SalamaKenneth W. DunnEdward J. Delp

荧光显微镜技术的进步使得能够以更好的图像质量和更深入的组织进行3D图像体积的采集。分割是表征和分析图像中生物结构的必要步骤,最近使用深度学习的3D分割已经取得了有希望的结果。一个问题是深度学习技术需要大量的地面真实数据,这对于大型3D显微镜体积手动注释是不切实际的。本文描述了一种使用合成3D体积进行训练的3D深度学习核分割方法。使用空间约束的循环一致对抗网络来生成一组合成体积和相应的基础真实体。分割结果表明,我们提出的方法能够成功地对各种数据集进行细胞核分割。

 

图基于自动编码器的无监督特征选择,广泛和局部数据结构保存

Siwei Feng, Marco F. Duarte

特征选择是一种降维技术,通过消除不相关和冗余的特征,从高维数据中选择代表特征的一个子集。最近,特征选择与稀疏学习相结合,与传统的忽略特征之间相关性的特征选择方法相比,具有出色的性能,引起了人们的高度关注。这些作品首先将数据映射到低维子空间,然后通过对变换矩阵施加稀疏约束来选择要素。然而,它们受设计限制为线性数据转换,这是潜在的缺点,因为数据的基本相关结构通常是非线性的。为了利用更复杂的嵌入,我们提出了一种基于自编码器的无监督特征选择方法,该方法利用单层自编码器进行特征选择和流形学习的联合框架。更具体地说,我们在连接输入层和隐藏层的权重矩阵上强制列稀疏,就像以前的工作一样。此外,我们将投影数据的谱图分析纳入学习过程,以实现从原始数据空间到低维特征空间的局部数据几何保存。对图像,音频,文本和生物数据进行了大量的实验。有希望的实验结果验证了所提出方法的优越性。[1801.02251v2] 我们在连接输入层和隐藏层的权重矩阵上执行列稀疏,就像以前的工作一样。此外,我们将投影数据的谱图分析纳入学习过程,以实现从原始数据空间到低维特征空间的局部数据几何保存。对图像,音频,文本和生物数据进行了大量的实验。有希望的实验结果验证了所提出方法的优越性。[1801.02251v2] 我们在连接输入层和隐藏层的权重矩阵上执行列稀疏,就像以前的工作一样。此外,我们将投影数据的谱图分析纳入学习过程,以实现从原始数据空间到低维特征空间的局部数据几何保存。对图像,音频,文本和生物数据进行了大量的实验。有希望的实验结果验证了所提出方法的优越性。[1801.02251v2] 和生物数据。有希望的实验结果验证了所提出方法的优越性。[1801.02251v2] 和生物数据。有希望的实验结果验证了所提出方法的优越性。[1801.02251v2]

 

MoDL:基于模型的反向问题深度学习体系结构

Hemant Kumar AggarwalMerry P. ManiMathews Jacob

我们引入基于模型的图像重建框架,其中基于卷积神经网络(CNN)的正则化优先。所提出的公式提供了一种系统的方法来推导具有任意结构的反向问题的深层架构。由于前向模型是明确说明的,与黑盒深度学习方法相比,具有较少参数的较小网络足以捕获图像信息,从而减少了对训练数据和训练时间的需求。由于我们依赖于端到端的培训,CNN权重是针对正向模型定制的,因此相对于依靠预先训练过的拒绝服务者的方法提供了改进的性能。框架与现有端到端培训战略的主要区别在于跨越迭代和渠道共享网络权重。我们的实验表明,迭代次数与该方法提供的网络复杂度的解耦提供了一些好处,包括对训练数据的需求较低,过度拟合的风险降低以及内存占用率显着降低的实现。我们建议通过使用网络内的共轭梯度算法等数值优化块来强化数据一致性与依赖近端梯度步骤来强化数据一致性的方法相比,这种方法可以提高每次迭代的收敛速度。我们的实验表明,更快的收敛转化为性能的提高,特别是当可用的GPU内存限制迭代次数时。[1712.02862v2] 以及显着减少内存占用的实现。我们建议通过使用网络内的共轭梯度算法等数值优化块来强化数据一致性与依赖近端梯度步骤来强化数据一致性的方法相比,这种方法可以提高每次迭代的收敛速度。我们的实验表明,更快的收敛转化为性能的提高,特别是当可用的GPU内存限制迭代次数时。[1712.02862v2] 以及显着减少内存占用的实现。我们建议通过使用网络内的共轭梯度算法等数值优化块来强化数据一致性与依赖近端梯度步骤来强化数据一致性的方法相比,这种方法可以提高每次迭代的收敛速度。我们的实验表明,更快的收敛转化为性能的提高,特别是当可用的GPU内存限制迭代次数时。[1712.02862v2] 我们的实验表明,更快的收敛转化为性能的提高,特别是当可用的GPU内存限制迭代次数时。[1712.02862v2] 我们的实验表明,更快的收敛转化为性能的提高,特别是当可用的GPU内存限制迭代次数时。[1712.02862v2]

 

深度单镜头摄像机标定的感知度量

Yannick Hold-GeoffroyKalyan SunkavalliJonathan EisenmannMatt FisherEmiliano GambarettoSunil HadapJean-FrançoisLalonde

大多数当前的单幅图像相机校准方法依赖于特定的图像特征或用户输入,并且不能应用于在不受控制的设置下捕捉的自然图像。我们建议使用深度卷积神经网络从单个图像直接推断摄像机标定参数。该网络使用自动生成的大规模全景数据集样本进行训练,并且在标准L2误差方面远远优于其他方法,包括最近基于深度学习的方法。然而,我们认为在很多情况下,考虑人类如何感知相机估计中的错误更为重要。为此,我们进行大规模的人类感知研究,让我们要求用户判断合成3D对象的真实性以及是否进行地面真实照相机校准。基于这项研究,我们为相机校准开发了一种新的感知测量方法,并证明我们的深度校准网络优于其他方法。最后,我们展示了我们的校准网络用于多种应用,包括虚拟对象插入,图像检索和合成。[1712.01259v3]

 

基于神经网络的人机交互视听凝视控制强化学习

StéphaneLathuilièreBenoit MassePablo MesejoRadu Horaud

本文介绍了一种新的基于神经网络的强化学习方法,用于机器人视线控制。我们的方法使机器人能够学习和适应人机交互的注视控制策略,既不需要外部传感器也不需要人工监控。机器人学习将注意力集中在自己的视听体验中,而不依赖于人数,位置和身体外观。特别是,我们使用循环神经网络架构与Q学习相结合来寻找最佳的动作选择策略我们使用模拟真实场景的模拟环境对网络进行预训练,这些模拟场景涉及讲话/沉默参与者,从而避免了与机器人互动的繁琐会话。我们的实验评估表明,所提出的方法对于参数估计是鲁棒的,即由该方法产生的参数值对性能没有决定性影响。当共同使用音频和视频信息时获得最佳结果。使用Nao机器人进行的实验表明,我们的框架是向自动学习社会认可的注视行为迈出的一步。[1711.06834v2]

 

用于动作识别的端到端视频级表示学习

Jiagang Zhu, Wei Zou, Zheng Zhu

从帧/片段级特征学习到视频级代表性构建,近年来行为识别中的深度学习方法发展迅速。然而,目前的方法受到局部观察训练造成的混淆,或者没有端到端的学习,或仅限于单时间尺度建模等等。在本文中,我们基于两个流ConvNets,并提出了带时间金字塔池的深度网络(DTPP),这是一种端到端的视频级表示学习方法,以解决这些问题。具体来说,首先,在整个视频中对RGB图像和光流栈进行稀疏采样。然后,使用时间金字塔池化层来聚合由空间和时间线索组成的帧级别特征。最后,训练好的模型具有紧凑的视频级表示和多个时间尺度,这既是全局的,也是顺序感知的。实验结果表明,DTPP通过ImageNet预训练或动力学预训练在两个具有挑战性的视频动作数据集UCF101HMDB51上实现了最先进的性能。[1711.04161v7]

 

用于高光谱带减少的分段和非分段堆叠去噪自动编码器

穆罕默德艾哈迈德,阿萨德汗,阿迪尔穆罕默德汗,拉希德侯赛因

高光谱图像分析通常需要选择信息最丰富的波段,而不是在不丢失关键信息的情况下处理整个数据。现有的频带减少(BR)方法能够揭示数据中呈现的非线性特性,但是以损失其原始表示为代价。针对上述问题,提出了一种无监督非线性分段和非分段堆叠降噪自动编码器(UDAE)的BR方法。我们的目标是找到一个最优映射,并构造一个与原始数据具有相似结构并具有最小重构误差的低维空间。所提出的方法首先将原始高光谱数据对准空间域中的较小区域,然后每个区域由UDAE分别处理。这导致半监督任务和无监督任务(即分类和群集)的BR的复杂性和提高的效率得到提高。我们对具有各种分类器的公开可用高光谱数据集进行的实验证明了UDAE方法的有效性,该方法与其他最先进的降维和BR方法一致。[1705.06920v5]

 

关于美的数学:美丽的图像

AM Khalili

在本文中,我们将研究可以在简单的视觉模式中找到的最简单的美。所提出的方法表明,当使用相同量的能量时,美学上吸引人的图案提供更大量的信息,而不具有美学吸引力的图案。所提出的方法被用于生成和分类审美吸引人的模式。[1705.08244v3]

 

神经网络图像处理的损失函数

Hang ZhaoOrazio GalloIuri FrosioJan Kautz

神经网络正在成为计算机视觉和图像处理的几个领域的核心,并且已经提出了不同的体系结构来解决具体问题。但是,神经网络丢失层的影响在图像处理的背景下并未得到很多关注:默认和实际上唯一的选择是L2。在本文中,我们关注图像恢复的替代选择。特别是,当人类观察者对所得到的图像进行评估时,我们展示了感知驱动损失的重要性。我们比较几种损失的表现,并提出一种新颖的,可区分的误差函数。我们表明,即使在网络体系结构保持不变的情况下,结果的质量也会随着更好的损失函数显着提高。[1511.08861v3]

转载请注明:《MVTec D2S:紧密实例感知语义分割的超市数据集+用乘子交替方向法对DNN进行系统权重修剪

发表评论