需要多少样本来学习卷积神经网络?+一种简单的图像识别缓存模型

具有不对称棋盘传播和多假设联合视图选择的多视图立体

Qingshan Xu, Wenbing Tao

在计算机视觉领域,如何快速准确地执行多视点立体(MVS)仍然是一个具有挑战性的问题。在本文中,我们提出了一种快速而准确的三维密度重建方法,称为AMHMVS,建立在基于PatchMatch的立体算法上。与常规对称传播方案不同,我们的方法采用非对称棋盘传播策略,根据当前邻居假设的置信度,可以自适应地使有效假设进一步扩展。为了更好地聚合来自多个图像的视觉信息,我们提出了针对每个像素的多假设联合视图选择,其利用基于多个传播假设的成本矩阵来鲁棒地推断适当的聚合子集并行。结合以上两个步骤,我们的方法不仅具有大规模并行计算的能力,而且具有较高的准确性和完整性。广泛数据集上的实验表明,我们的方法实现了更精确和更稳健的结果,并且运行速度比竞争方法快。[1805.07920v1]

 

分类器不可知显着图提取

Konrad ZolnaKrzysztof J. GerasKyunghyun Cho

我们认为从任何特定的分类器中去除显着图提取的重要性。我们提出了一种实用的算法,通过同时训练分类器和显着性映射来训练分类器不可知的显着映射。所提出的算法的动机是寻找不与任何特定分类器强耦合的映射。我们定性和定量地评估了所提出的方法,并验证了与依赖于固定分类器的现有方法相比,它提取了更高质量的显着性图。所提出的方法即使在包含训练期间看不见的类的对象的图像上也表现良好。[1805.08249v1]

 

用于低分辨率多光谱性别分类的类别代表自动编码器

Maneet SinghShruti NagpalRicha SinghMayank

性别是用来描述个人的最常见属性之一。它用于多个领域,例如人机交互,市场营销,安全和人口统计报告。已经进行了研究以使使用人脸图像的受限环境中的性别识别任务自动化,然而,在无约束的情况下对性别分类给予了有限的关注。这项工作试图解决多光谱低分辨率人脸图像中性别分类的挑战性问题。我们提出一个强大的类代表自动编码器模型,称为AutoGen。提出的模型旨在最大限度地减少类内变异,同时最大化学习特征表示的类间变化。针对不同分辨率和多个数据库的可见光以及近红外光谱数据的结果描述了所提出的模型的功效。与现有方法和两个商用现成系统的比较结果进一步激发了使用类别代表特征进行分类。[1805.07905v1]

 

一种鲁棒PCA的非凸投影算法

Aritra DuttaFilip HanzelyPeter Richtarik

稳健的主成分分析(RPCA)是一个深入研究的问题,其目标是将矩阵分解为低秩和稀疏组分的总和。在本文中,我们提出了一个RPCA问题的非凸可行性重构,并应用交替投影方法来解决它。据我们所知,我们是第一个提出一种解决RPCA问题而不考虑任何目标函数,凸松弛或代理凸约束的方法。我们通过广泛的数值实验证明了各种应用,包括阴影去除,背景估计,人脸检测和星系演化,我们的方法与各种方法匹配并且经常显着优于当前的最新技术。[1805.07962v1]

 

用于CaptionbotDrawingbotTurbo学习

Qiuyuan Huang, Pengchuan Zhang, Dapeng Wu, Lei Zhang

我们在本文中研究了图像字幕和文本到图像生成的问题,并提出了一种新颖的涡轮学习方法来联合训练图像到文本生成器(aka captionbot)和文本到图像生成器(aka drawingbot)。联合训练背后的关键思想是将图像到文本的生成和文本到图像的生成作为对偶问题形成一个闭环,为对方提供信息反馈。基于这样的反馈,我们通过比较原始输入与闭环产生的输出来引入新的损失度量。除了captionbotdrawingbot中使用的旧损失指标外,这种额外的损失指标使得联合训练的captionbotdrawingbot比单独训练的captionbotdrawingbot更好。此外,涡轮学习方法能够实现半监督学习,因为闭环可以为未标记样本提供peudo标签。COCO数据集上的实验结果表明,所提出的涡轮学习可以大幅度提高captionbotdrawingbot的性能。[1805.08170v1]

 

自适应式不变神经网络的批量实例规范化

Hononseob NamHyo-Eun Kim

真实世界的图像识别常常受到包括对象纹理,照明条件,滤镜效果等视觉样式的变化性的挑战。虽然这些变化被认为是隐含地通过更多训练数据和更深的网络处理的,但最近在图像样式转换建议也可以明确地操作样式信息。将这个想法扩展到一般的视觉识别问题,我们提出了批处理实例规范化(BIN)来显式标准化图像中不必要的样式。考虑到某些风格特征在歧视性任务中起着至关重要的作用,BIN学习在保留有用风格的同时,选择性地仅规范化干扰风格。所提出的规范化模块很容易并入现有的网络体系结构中,例如剩余网络,并令人惊讶地提高了各种场景下的识别性能。此外,实验还验证了BIN通过控制保留和删除样式变化之间的权衡来有效地适应完全不同的任务,如对象分类和样式转换。[1805.07925v1]

 

VideoCapsuleNet:动作检测的简化网络

Kevin DuarteYogesh S Rawat,穆巴拉克沙阿

深度卷积神经网络(DCNN)的最新进展已经显示出对于视频人类行为分类的非常好的结果,然而,动作检测仍然是一个具有挑战性的问题。目前的行动检测方法遵循复杂的管道,其涉及诸如管提议,光流和管分类等多项任务。在这项工作中,我们为基于最近开发的胶囊网络的动作检测提出了更优雅的解决方案。我们提出了一个称为VideoCapsuleNet的视频三维胶囊网络:一个统一的网络行动检测,可以联合执行像素明智的行动分割与行动分类。所提出的网络是从2D3D的胶囊网络的推广,其将一系列视频帧作为输入。3D通用化极大地增加了网络中胶囊的数量,使胶囊路由在计算上花费很大。我们在卷积胶囊层中引入胶囊池以解决这个问题,这使得投票算法易于处理。网络中的路由协议固有地模拟动作表示,并且各种动作特征由预测的胶囊捕获。这激励我们利用胶囊进行动作定位,并使用网络预测的类特定胶囊来确定动作的像素定位。通过卷积胶囊层的参数化跳过连接进一步改善了本地化,网络通过分类和本地化损失进行端对端培训。所提出的网络在包括UCF-SportsJ-HMDBUCF-10124类)在内的多种动作检测数据集上达到了最先进的性能,UCF-101的改进效果大大提高了~20%,提高了约15%在v-mAP分数方面在J-HMDB上。[1805.08162v1]

 

需要多少样本来学习卷积神经网络?

Simon S. Du, Yining Wang, Xiyu Zhai, Sivaraman Balakrishnan, Ruslan Salakhutdinov, Aarti Singh

解释卷积神经网络(CNN)成功的一个普遍的民间传说是CNN比完全连接的神经网络(FNN)更紧凑的表示,因此需要更少的学习样本。我们开始严格描述学习卷积神经网络样本复杂性的研究。我们表明,为了学习一个$ m $维的卷积滤波器,其线性激活作用于一个$ d $维的输入,实现$ \ epsilon $的人口预测误差的样本复杂度为$ \ widetilde {O}m / \ ε^ 2$,而其FNN对应物至少需要$ \欧米茄(d /ε^ 2$样本。由于$ m \ ll d $,这个结果证明了使用CNN的优点。我们进一步考虑用线性激活学习单隐层CNN的样本复杂性,其中$ m $维卷积滤波器和$ r $维的输出权重都是未知的。对于这个模型,当步幅大小和过滤器大小之间的比例是常数时,我们显示样本复杂度为$ \ widetilde {O} \ left((m + r/ \ epsilon ^ 2 \ right$。对于这两种模型,我们还呈现出下限,表明我们的样本复杂性紧随对数因子。我们用于推导这些结果的主要工具是本地化的经验过程和表征卷积结构的新引理。我们相信这些工具可能会激发对理解CNN的进一步发展。[1805.07883v1] 我们显示当步幅大小和过滤器大小之间的比率是常数时,示例复杂度为$ \ widetilde {O} \ left((m + r/ \ epsilon ^ 2 \ right$。对于这两种模型,我们还呈现出下限,表明我们的样本复杂性紧随对数因子。我们用于推导这些结果的主要工具是本地化的经验过程和表征卷积结构的新引理。我们相信这些工具可能会激发对理解CNN的进一步发展。[1805.07883v1] 我们显示当步幅大小和过滤器大小之间的比率是常数时,示例复杂度为$ \ widetilde {O} \ left((m + r/ \ epsilon ^ 2 \ right$。对于这两种模型,我们还呈现出下限,表明我们的样本复杂性紧随对数因子。我们用于推导这些结果的主要工具是本地化的经验过程和表征卷积结构的新引理。我们相信这些工具可能会激发对理解CNN的进一步发展。[1805.07883v1] 我们相信这些工具可能会激发对理解CNN的进一步发展。[1805.07883v1] 我们相信这些工具可能会激发对理解CNN的进一步发展。[1805.07883v1]

 

用于细粒度零点学习的堆叠式语义引导注意模型

Yunlong Yu, Zhong Ji, Yanwei Fu, Jichang Guo, Yanwei Pang, Zhongfei Zhang

通过对齐全局图像特征向量和相应的类语义描述之间的语义关系,实现零点学习(ZSL)。然而,使用全局特征来表示细粒度图像可能会导致次优结果,因为它们忽略了局部区域的区别性差异。此外,不同区域包含明显的区别性信息。重要地区应该对预测做出更多贡献。为此,我们提出了一种新的堆叠语义引导注意(S2GA)模型,通过使用个体类语义特征逐步引导视觉特征来生成注意图来加权不同局部区域的重要性,从而获得语义相关特征。将综合视觉特征和类语义特征提供给多类分类体系结构,所提议的框架可以被端对端训练。在CUBNABird数据集上的广泛的实验结果表明,所提出的方法在细粒度零炮分类和检索任务上具有一致的改进。[1805.08113v1]

 

并行传输卷积:流形上卷积神经网络的一种新工具

Stefan C. SchonsheckBin DongRongjie Lai

多年来,卷积一直在科学和工程领域的各种应用中发挥着重要作用。它是卷积神经网络中最重要的操作。近年来,对弯曲域上的卷积进行推广研究(如流形和图形)的兴趣日益增长。然而,现有方法不能保留欧几里德卷积的所有理想性质,即紧密支持的滤波器,方向性,跨不同流形的可转移性。在本文中,我们开发了卷积运算的新概括,称为并行传输卷积(PTC),在黎曼流形及其离散对应物上。PTC的设计基于平行运输,它能够沿着歧管翻译信息并本质上保持方向性。PTC允许构造紧凑支撑的过滤器,并且对歧管变形也很有效。这使我们能够进行类小波运算并定义弯曲域上的深度卷积神经网络。[1805.07857v1]

 

通过估计测试时间的先验来改进CNN分类器

米兰苏尔克,吉日麦塔斯

CNN分类器的背景下讨论了不同训练和测试集类的先验问题。针对批处理和在线情况的细粒度计算机视觉问题评估基于EM的测试时间级先验估计算法。实验结果表明,使用已知评估时间先验的细粒度分类任务显着改善,FGVC iNaturalist 2018验证集的前1精度提高4.0%,FGVCx Fungi 2018验证集提高3.9%。PlantCLEF 2017数据集的测试时间先验的迭代估计将图像分类准确性提高了3.4%,从而允许单个CNN模型获得最先进的结果,并且胜过赢得竞争的12CNN集合。[1805.08235v1]

 

DeepPhys:使用卷积注意网络的基于视频的生理测量

魏璇陈,丹尼尔麦克杜夫

非接触式基于视频的生理测量在医疗保健和人机交互中有许多应用。实际应用要求即使在大头旋转情况下测量也是准确的。我们提出了第一个使用深度卷积网络的基于视频的心脏和呼吸速率测量端到端系统。该系统具有基于皮肤反射模型的新运动表示和使用外观信息来引导运动估计的新注意机制,两者都可以在异构照明和主要运动下进行稳健测量。我们的方法明显优于RGB和红外视频数据集上的所有当前最先进的方法。此外,它允许通过关注机制可视化生理信号的时空分布。

 

分层次结构化强化学习的互动视觉故事生成

Qiuyuan Huang, Zhe Gan, Asli Celikyilmaz, Dapeng Wu, Jianfeng Wang, Xiaodong He

我们提出了一种分层结构的强化学习方法,以解决为视觉叙事任务生成连贯的多句子故事的计划所面临的挑战。在我们的框架内,给出一系列图像生成故事的任务分为两级分层解码器。高级解码器通过依次为每个图像生成语义概念(即,主题)来构建计划。低级别解码器使用语义组成网络为每个图像生成一个句子,该语义组成网络有效地理解了以该话题为条件的句子生成。这两个解码器是使用强化学习进行端到端联合训练的。我们在视觉叙事(VIST)数据集上评估我们的模型。实证结果表明,与平面深层强化学习基线相比,提出的分层结构加强训练的性能显着提高。[1805.08191v1]

 

地平线/天空线检测的语义分割方法比较

Touqeer AhmadPavel CamprMartinČadíkGeorge Bebis

地平线或天际线检测对于山地视觉地理定位起着至关重要的作用,然而大多数最近提出的视觉地理定位方法依赖于\ textbf {用户在环路}天际线检测方法。完全自主地检测这种分割边界将肯定是这些定位方法的一大进步。本文提供了一种定量比较四种这样的方法在广泛的数据集上进行自动地平线/天空线检测。具体而言,我们提供了最近提出的四种分割方法之间的比较 一个明确针对地平线探测问题\援引{Ahmad15},第二个侧重于视觉地理定位,但依赖于Skyline \ cite {Saurer16}和另外两个针对一般语义分割完全卷积网络(FCN\ cite {Long15}SegNet \ cite {Badrinarayanan15}的其他两个提议的精确检测。前两种方法中的每一种都是在由大约200幅图像组成的共同训练集\ cite {Baatz12}上训练的,而第三种和第四种方法的模型通过使用相同数据集的转移学习进行精确调整以用于天空分割问题。每种方法都在广泛的测试集(大约3K图像)上进行测试,覆盖各种具有挑战性的地理,天气,照明和季节条件。我们报告每个呈现的公式的平均精度和平均绝对像素误差。[1805.08105v1] 前两种方法中的每一种都是在由大约200幅图像组成的共同训练集\ cite {Baatz12}上训练的,而第三种和第四种方法的模型通过使用相同数据集的转移学习进行精确调整以用于天空分割问题。每种方法都在广泛的测试集(大约3K图像)上进行测试,覆盖各种具有挑战性的地理,天气,照明和季节条件。我们报告每个呈现的公式的平均精度和平均绝对像素误差。[1805.08105v1] 前两种方法中的每一种都是在由大约200幅图像组成的共同训练集\ cite {Baatz12}上训练的,而第三种和第四种方法的模型通过使用相同数据集的转移学习进行精确调整以用于天空分割问题。每种方法都在广泛的测试集(大约3K图像)上进行测试,覆盖各种具有挑战性的地理,天气,照明和季节条件。我们报告每个呈现的公式的平均精度和平均绝对像素误差。[1805.08105v1] 每种方法都在广泛的测试集(大约3K图像)上进行测试,覆盖各种具有挑战性的地理,天气,照明和季节条件。我们报告每个呈现的公式的平均精度和平均绝对像素误差。[1805.08105v1] 每种方法都在广泛的测试集(大约3K图像)上进行测试,覆盖各种具有挑战性的地理,天气,照明和季节条件。我们报告每个呈现的公式的平均精度和平均绝对像素误差。[1805.08105v1]

 

双线注意网络

Jin-Hwa Kim, Jaehyun Jun, Byoung-Tak Zhang

多模式学习中的关注网络提供了一种有效的方式来有选择地利用给定的视觉信息。然而,学习每对多通道输入通道的注意力分配的计算成本是非常昂贵的。为了解决这个问题,共同关注为每种模式建立了两个单独的注意分布,忽略了多模态输入之间的相互作用。在本文中,我们提出双线性关注网络(BAN),它可以找到双线性关注分布以无缝地利用给定的视觉语言信息。BAN考虑两组输入通道之间的双线性相互作用,而低秩双线性池提取每对通道的联合表示。此外,我们提出了一种多模态残差网络的变体,以有效地利用BAN的八关注地图。我们对视觉问题回答(VQA 2.0)和Flickr30k实体数据集的数据进行了定量和定性评估,显示BAN明显优于以前的方法,并在两个数据集上都实现了新的技术水平。[1805.07932v1]

 

一种简单的图像识别缓存模型

A.艾敏奥汉

训练大规模图像识别模型在计算上是昂贵的。这就产生了一个问题:是否可能有简单的方法来改进已经训练过的模型的测试性能,而不必对新数据进行重新训练甚至微调。在这里,我们表现出人意外的是,这确实是可能的。我们所做的关键观察是,靠近输出层的深层网络层包含独立的,易于提取的类相关信息,这些信息不包含在输出层本身中。我们建议使用简单的键值缓存来提取这些额外的类相关信息,以提高模型在测试时的分类性能。我们的缓存内存直接受到以前为语言建模提出的类似缓存模型的启发(Grave等,2017)。这个缓存组件不需要任何培训或微调它可以应用于任何预先训练的模型,并且通过恰当地设置两个超参数,可以显着提高分类性能。在几个体系结构和数据集中观察到了改进。在高速缓存组件中,使用从靠近输出(但不是从输出层本身)层提取的特征作为关键字可以实现最大的改进。连接多个图层的特征以形成密钥可以进一步提高使用单层特征作为密钥的性能。高速缓存组件也具有正则化效果,其简单的结果是它显着提高了模型对敌对攻击的稳健性。[1805.08709v1] 它可以应用于任何预先训练的模型,并且通过恰当地设置两个超参数,可以显着提高分类性能。在几个体系结构和数据集中观察到了改进。在高速缓存组件中,使用从靠近输出(但不是从输出层本身)层提取的特征作为关键字可以实现最大的改进。连接多个图层的特征以形成密钥可以进一步提高使用单层特征作为密钥的性能。高速缓存组件也具有正则化效果,其简单的结果是它显着提高了模型对敌对攻击的稳健性。[1805.08709v1] 它可以应用于任何预先训练的模型,并且通过恰当地设置两个超参数,可以显着提高分类性能。在几个体系结构和数据集中观察到了改进。在高速缓存组件中,使用从靠近输出(但不是从输出层本身)层提取的特征作为关键字可以实现最大的改进。连接多个图层的特征以形成密钥可以进一步提高使用单层特征作为密钥的性能。高速缓存组件也具有正则化效果,其简单的结果是它显着提高了模型对敌对攻击的稳健性。[1805.08709v1] 在几个体系结构和数据集中观察到了改进。在高速缓存组件中,使用从靠近输出(但不是从输出层本身)层提取的特征作为关键字可以实现最大的改进。连接多个图层的特征以形成密钥可以进一步提高使用单层特征作为密钥的性能。高速缓存组件也具有正则化效果,其简单的结果是它显着提高了模型对敌对攻击的稳健性。[1805.08709v1] 在几个体系结构和数据集中观察到了改进。在高速缓存组件中,使用从靠近输出(但不是从输出层本身)层提取的特征作为关键字可以实现最大的改进。连接多个图层的特征以形成密钥可以进一步提高使用单层特征作为密钥的性能。高速缓存组件也具有正则化效果,其简单的结果是它显着提高了模型对敌对攻击的稳健性。[1805.08709v1] 连接多个图层的特征以形成密钥可以进一步提高使用单层特征作为密钥的性能。高速缓存组件也具有正则化效果,其简单的结果是它显着提高了模型对敌对攻击的稳健性。[1805.08709v1] 连接多个图层的特征以形成密钥可以进一步提高使用单层特征作为密钥的性能。高速缓存组件也具有正则化效果,其简单的结果是它显着提高了模型对敌对攻击的稳健性。[1805.08709v1]

 

Featurized Bidirectional GANAdversarial Defence via Adversarially Learned Semantic Inference

Ruying Bao, Sihang Liang, Qingcan Wang

已经证明深度神经网络易受对抗性攻击的影响,其中小扰动被有意地添加到原始输入来欺骗分类器。在本文中,我们提出了一种防御方法,即Featurized Bidirectional Generative Adversarial NetworksFBGAN),以捕获输入的语义特征并过滤非语义干扰。FBGAN以无监督的方式在干净的数据集上进行预先训练,对抗地学习高维数据空间和低维语义空间之间的双向映射,并且使用相互信息来分解语义上有意义的特征。在双向映射之后,对抗数据可以被重建为去噪数据,其可以被馈送到分类器中用于分类。我们凭经验展示了重建图像的质量和防御的有效性。[1805.07862v1]

 

使用度量学习和生成敌对网络的动漫风格空间探索

Sitao Xiang, Hao Li

图像之间基于深度学习的风格转移最近已成为一个热门的研究领域。编码风格的常见方式是通过基于由某种预先训练的神经网络或某种其他形式的特征统计提取的特征的格拉姆矩阵的特征表示。这样的定义是基于任意的人的决定,并不能最好地捕捉真正的风格。为了更好地理解风格,我们提出了一种基于度量学习的方法来明确地对艺术作品的风格进行编码。特别是,我们对风格的定义捕捉了艺术家之间的差异,如分类表现所示,并且风格表示可以通过生成敌对网络通过风格条件图像生成来解释,操纵和可视化。我们采用这种方法来探索动漫人像插图的风格空间。[1805.07997v1]

 

量化用于低功率高吞吐量推理引擎的卷积神经网络

Sean O. SettleManasa BollavaramPaolo D’AlbertoElliott DelayeOscar FernandezNicholas FraserAaron NgAshish SirasaoMichael Wu

由于其多功能性和接近或超过人类准确度的能力,作为推理手段的深度学习激增。这些计算模型不仅在训练时对计算资源看起来永不满足,而且在从数据中心一直到嵌入式设备的各种规模上都有部署。因此,考虑到有限的硬件和能量资源,越来越多的考虑将计算效率最大化,因此,降低精度的推理已经成为IEEE 754浮点运算标准的可行替代方案。我们提出了一种量化方案,它允许使用与甚至半精度浮点相比基本上更高效的算术进行推理。我们的量化过程非常重要,因为我们通过使用单个推理批量而不是(重新)训练来针对其参考浮点模型进行校准来确定量化方案参数,并且实现了与参考模型相当的端到端后期量化精度。[1805.07941v1]

 

用可微分闭合解法器进行元学习

Luca BertinettoJoãoF. HenriquesPhilip HS TorrAndrea Vedaldi

由于标准微调程序对计算和数据的高度要求,因此将深度网络从少数示例中适应新概念是非常具有挑战性的。因此,大多数关于元学习和少数学习的作品都侧重于简单的适应性学习技术,如最近邻居或梯度下降。尽管如此,机器学习文献包含了很多非常有效地学习非深度模型的方法。在这项工作中,我们建议使用这些快速收敛方法作为少量学习的主要适应机制。主要想法是教一个深层网络使用标准机器学习工具,如逻辑回归作为其内部模型的一部分,使其能够快速适应新的任务。这需要通过解算器步骤反向传播错误。虽然通常所涉及的矩阵运算成本很高,但通过使用伍德伯里身份,少量例子对我们有利。基于逻辑回归和岭回归组件,我们提出了迭代和封闭形式的求解器。我们的方法在三项少量学习基准测试中表现出色,在Omniglot上展现出极具竞争力的表现,并超越miniImageNetCIFAR-100上所有最先进的替代品。[1805.08136v1] Omniglot上展示出极具竞争力的性能,并超越了miniImageNetCIFAR-100的所有最新技术。[1805.08136v1] Omniglot上展示出极具竞争力的性能,并超越了miniImageNetCIFAR-100的所有最新技术。[1805.08136v1]

 

对抗噪声层:通过添加噪声来调节神经网络

Zhonghui You, Jinmian Ye, Kunming Li, Ping Wang

在本文中,我们引入一种称为敌对噪声层(ANL)的新型正则化方法,通过在隐藏层中添加对抗噪声来显着提高CNN的泛化能力。ANL易于实施,可与大多数基于CNN的模型集成。我们比较了不同类型噪声的影响,并通过视觉证明敌对噪声指导CNN学习提取更清晰的特征地图,从而进一步降低过度拟合的风险。我们还得出结论,用ANL训练的模型对于FGSMIFGSM攻击更加稳健。代码位于:https//github.com/youzhonghui/ANL [1805.08000v1]

 

基于事件的卷积网络用于神经相机中的目标检测

Marco CanniciMarco CicconeAndrea RomanoniMatteo Matteucci

基于事件的相机是生物灵敏的传感器,能够以低功耗感知高频场景的变化。仅在最近才可用,有限数量的工作解决了这些设备上的对象检测问题。在本文中,我们提出了两种用于对象检测的神经网络体系结构:YOLE,其将事件集成到帧中并使用基于帧的模型来处理它们; eFCN,基于事件的完全卷积网络,其使用基于事件的全卷积网络卷积和最大池层来利用相机事件的稀疏性。我们用公开可用的数据集的不同扩展和新的自定义数据集来评估算法。[1805.07931v1]

 

等矩形全景中的目标检测

Wenyan Yang, Yanlin Qian, Francesco Cricri, Lixin Fan, Joni-Kristian Kamarainen

我们引入了高分辨率的Equirectangular全景(360度,虚拟现实)数据集用于物体检测,并提出了YOLO探测器的多投影变体。等矩形全景图像的主要挑战是i)缺少注释训练数据,ii)高分辨率图像和iii)全景投影杆附近物体的严重几何失真。在这项工作中,我们通过i)使用常规数据集ImageNetCOCO)中可用的训练实例,ii)仅采用仅需要中等GPU计算能力和存储器的低分辨率图像,以及iii)我们的多投影YOLO通过制作多个立体投影子投影来处理投影失真。在我们的实验中,YOLO优于其他先进的探测器,更快的RCNN和我们的多投影YOLO以低分辨率输入达到最佳精度。[1805.08009v1]

 

DiDA:用于域适应的非缠结合成

Jinming Cao, Oren Katzir, Peng Jiang, Dani Lischinski, Danny Cohen-Or, Changhe Tu, Yangyan Li

无监督域适应旨在通过利用从源域到无监督目标域的监督来学习两个相关但不完全相同的域的共享模型。一些有效的领域适应方法依赖于提取两个领域共有的区分性,但是领域不变性,潜在因素的能力。提取潜在共性对于解开分析也很有用,可以区分两个域的常见域和特定域特征。在本文中,我们提出了一种通过利用解缠分析来提高域适应性能的方法。关键的想法是,通过学习分别提取常见特征和特定领域特征,可以在监督下合成更多目标领域数据,从而提高领域适应性能。反过来,更好的共同特征提取有助于进一步改善解缠分析和解开合成。我们表明,域适应和解缠分析之间的迭代可以持续地相互改进几个无监督域适应任务,适用于各种域适应骨干模型。[1805.08019v1]

 

DEEPEYE:终端设备压缩量化和张量的紧凑和准确的视频理解

Yuan Cheng, Guangya Li, Hai-Bao Chen, Sheldon X. -D. Tan, Hao Yu

由于在视频检测和分类中暴露于高维度输入时需要大量参数,因此在终端设备上开发紧凑且精确的视频理解存在巨大挑战。当前的着作集中于视频检测和分类方面的优化。在本文中,我们介绍了终端设备的视频理解(对象检测和动作识别)系统,即DEEPEYE。基于你只看一次(YOLO),我们开发了一个8位量化方法来训练YOLO; 并开发了由YOLO提取的特征构成的递归神经网络(RNN)的张量压缩方法。开发出的量化和张量化能够在保持精确度的同时大幅度压缩原始网络模型。使用具有挑战性的视频数据集:MOMENTSUCF11作为基准,结果表明,提出的DEEPEYE达到了3.994倍的模型压缩率,仅有0.47%的mAP降低15,047x参数缩减和2.87倍加速,精度提高了16.58%。[1805.07935v1]

 

无监督背景前景分离的深度背景预测

Maryam SultanaArif MahmoodSajid JavedSoon Ki Jung

在许多高级视频应用中,背景建模是预处理步骤,以消除冗余数据,例如在跟踪或视频监控应用中。在过去几年中,背景减法通常基于低级别或手工制作的特征,例如原始颜色分量,渐变或局部二进制模式。背景减法算法的性能受到诸如动态背景,光度变化,相机抖动和阴影等各种挑战的影响。为了处理这些挑战以达到精确背景建模的目的,我们提出了基于图像修复算法的统一框架。它是一种基于上下文预测的无监督视觉特征学习混合式生成对手算法。在泊松混合技术的帮助下,我们还提出了中心区域图像融合和随机区域图像融合的随机区域修复方案。此外,我们还通过融合我们提出的方法和形态学操作来评估前景物体检测。我们提出的方法与12种最先进的方法的比较表明它在应用背景估计和前景检测方面的稳定性。[1805.07903v1] 我们提出的方法与12种最先进的方法的比较表明它在应用背景估计和前景检测方面的稳定性。[1805.07903v1] 我们提出的方法与12种最先进的方法的比较表明它在应用背景估计和前景检测方面的稳定性。[1805.07903v1]

 

基于CNN深度学习正则化的变分混合噪声消除

Faqiang Wang, Haiyang Huang, Jun Liu

本文将传统的基于模型的变分方法和基于学习的算法自然地结合起来,以解决混合噪声去除问题。为了与单一类型的噪声(例如高斯)去除不同,准确地区分每个像素的噪声类型和级别是一个挑战性问题。我们提出了一种迭代估计噪声参数的变分方法,然后该算法可以根据不同的统计参数自动分类噪声。所提出的变分问题可以用算子分裂方案分为正则化,综合,参数估计和噪声分类四个步骤。每一步都与一个优化子问题有关。为了强化正则化,深度学习方法被用来先验地学习自然图像。与一些基于模型的正则化相比,CNN正则化算子可以显着提高恢复图像的质量。与一些基于学习的方法相比,合成步骤通过分析所识别的噪声类型和级别可以产生更好的重建。在我们的方法中,卷积中性网络(CNN)可以看作是与变分函数相关的算子。从这个角度来看,所提出的方法可以扩展到许多图像重建和反演问题。本文的数值实验表明,我们的方法可以实现混合噪声去除的一些最新技术成果。[1805.08094v1] 合成步骤可以通过分析识别的噪声类型和级别来产生更好的重建。在我们的方法中,卷积中性网络(CNN)可以看作是与变分函数相关的算子。从这个角度来看,所提出的方法可以扩展到许多图像重建和反演问题。本文的数值实验表明,我们的方法可以实现混合噪声去除的一些最新技术成果。[1805.08094v1] 合成步骤可以通过分析识别的噪声类型和级别来产生更好的重建。在我们的方法中,卷积中性网络(CNN)可以看作是与变分函数相关的算子。从这个角度来看,所提出的方法可以扩展到许多图像重建和反演问题。本文的数值实验表明,我们的方法可以实现混合噪声去除的一些最新技术成果。[1805.08094v1] 本文的数值实验表明,我们的方法可以实现混合噪声去除的一些最新技术成果。[1805.08094v1] 本文的数值实验表明,我们的方法可以实现混合噪声去除的一些最新技术成果。[1805.08094v1]

 

学习计算自然图像中的对象以便进行视觉问题解答的重现性报告

Shagun SodhaniVardaan Pahuja

这是学习计算视觉问题解答中自然图像中的对象文章的可重现性报告[1805.08174v1]

 

小步骤和巨大飞跃:深度学习的最小牛顿求解器

若昂F.恩里克斯,塞巴斯蒂安埃尔哈特,塞缪尔阿尔巴尼,安德烈韦达尔迪

我们提出了一种快速的二阶方法,可以用作当前深度学习求解器的直接替代方法。与随机梯度下降(SGD)相比,每次迭代只需要两个额外的正向模式自动微分操作,其运算成本可与两个标准正向通道相比并且易于实现。我们的方法利用当前的二阶求解器解决了长期存在的问题,该求解器每次迭代精确地反演近似的Hessian矩阵,或者通过共轭梯度方法反演,该过程既昂贵又对噪声敏感。相反,我们建议保留逆Hessian矩阵投影的梯度的单个估计,并在每次迭代中更新一次。这个估计具有相同的规模,与SGD中常用的动量变量类似。没有估计Hessian是维持的。我们首先验证我们的方法,称为CurveBall,用已知的封闭形式解决方案(噪声Rosenbrock函数和退化的2层线性网络)的小问题,当前深度学习解算器似乎挣扎。然后,我们在CIFARImageNet上培训了几个大型模型,包括ResNetVGG-f网络,我们展示了更快的收敛性,没有超参数调整。代码可用。[1805.08095v1] 我们在这里展示了更快的收敛性,没有超参数调整。代码可用。[1805.08095v1] 我们在这里展示了更快的收敛性,没有超参数调整。代码可用。[1805.08095v1]

 

动态展开递归恢复器:一种用于图像恢复的移动端点控制方法

Xiaoshuai Zhang, Yiping Lu, Jiaying Liu, Bin Dong

在本文中,我们提出了一种称为移动端点控制的新控制框架来恢复一个模型中由不同退化级别损坏的图像。所提出的控制问题包含由RNN模拟的恢复动力学。移动端点基本上是相关动态的终端时间,由策略网络决定。我们将所提出的模型称为动态展开循环恢复器(DURR)。数值实验表明,DURR能够实现盲图像去噪和JPEG图像去块的最新性能。此外,DURR可以很好地推广到训练阶段未包含的具有更高劣化等级的图像。[1805.07709v1]

 

使用多层次高斯模型的人重新识别的深层结构

Dinesh Kumar VishwakarmaSakshi Upadhyay

人员重新识别在法医,安全和监视系统中得到了广泛应用,但人的再识别在现实生活中是一项具有挑战性的任务。因此,在这项工作中,已经提出了一种新的特征描述符模型,该特征描述符模型使用像素特征的高斯分布模型的多层框架,其包括颜色矩,颜色空间值和施密德滤波器响应。人的图像通常由不同的身体区域组成,通常具有可区分的衣服,然后是局部颜色和纹理图案。因此,通过将图像分成重叠区域来局部评估图像。每个区域被进一步分割成一组小本地高斯人。全局高斯编码,每个区域的这些局部高斯创建多级结构。因此,一个人的全局图像由其中存在的地方层面信息来描述,而这往往被忽略。另外,我们分析了此描述符上早期度量学习方法的效率。描述符的性能在四个公共可用的具有挑战性的数据集上进行评估,并将这些数据集上获得的最高精度与类似的艺术级进行比较,这表明了卓越的性能。[1805.07720v1] 这表现出卓越的性能。[1805.07720v1] 这表现出卓越的性能。[1805.07720v1]

 

通过梦想学习真实世界的机器人策略

AJ PiergiovanniAlan WuMichael S. Ryoo

学习直接基于图像来控制机器人是机器人领域的主要挑战。然而,许多现有的强化学习方法需要迭代获取数百万个样本来学习可能花费大量时间的策略。在本文中,我们专注于仅基于几个随机的关闭策略样本来学习真实世界机器人动作策略的问题。我们学习了一个真实的梦幻模型,它可以仿效来自实际环境的一系列图像的样本,并通过与梦境模型而不是现实世界交互来使代理人学习行动策略。我们通过实验证实,我们的梦想模型可以学习转移到现实世界的现实政策。[1805.07813v1]

 

通过交叉编码在预先训练的变分自动编码器中进行条件推理

Ga WuJustin DomkeScott Sanner

变分自动编码器(VAEs)是一种流行的生成模型,但条件推理可能具有挑战性。如果对查询和证据变量的分解是固定的,则条件VAE提供了一个有吸引力的解决方案。为了支持任意查询,通常将其简化为马尔可夫链蒙特卡罗采样方法,该方法可能会遇到混合时间过长的问题。在本文中,我们提出了一个想法,我们称交叉编码来在对变量的某个子集进行证据分配后进行调节,以近似潜在变量的分布。这样可以生成查询样本,而无需重新培训完整的VAE。我们通过实验评估交叉编码的三种变化,表明(i)两种可以快速训练用于证据和查询的不同分解,(ii)它们在数量上和质量上胜过哈密顿蒙特卡罗。[1805.07785v1]

 

使用胶囊进行对象本地化和动作传输学习

Weitang LiuEmad Barsoum,约翰D.欧文斯

CapsNet协议路由协议机制的启发,凭借其学习对象属性的能力以及物理中心质量计算的能力,我们提出了一个带有对象坐标原子的CapsNet架构和一个用于评估的LSTM网络。第一种基于CapsNet,但使用新的路由算法来查找图像坐标系中对象的近似位置,第二种是参数化仿射变换网络,可通过学习2D对象的平移变换来预测过去位置的未来位置从第一网络生成的坐标。我们证明了学习到的转换转换可转移到另一个数据集,而不需要再次训练转换网络。只有CapsNet需要对新数据集进行培训。结果是,我们的工作表明可以将物体识别和运动预测分开,并且可以将运动预测转移到具有不同物体类型的另一个数据集。[1805.07706v1]

 

基于密度自适应核心的重新排序用于人员重新识别

Ruo-Pei Guo, Chun-Guang Li, Yonghua Li, Jiaru Lin

人员重新识别(ReID)是指从非重叠监视摄像机视图观察到的验证行人身份的任务。最近,经过验证,重新排名可以为ReID带来额外的性能提升。然而,目前的重新排序方法要么需要用户的反馈,要么需要繁重的计算成本。在本文中,我们建议利用密度自适应内核技术为人员ReID执行高效和有效的重新排序。具体来说,我们提出了两种简单但有效的重排序方法,称为基于平滑的基于逆密度自适应核的重排序(inv-DAKR)和基于双向密度自适应核的重排序(双重DAKR)核函数与密度自适应参数。六个基准数据集的实验证实我们的建议是有效和高效的。[1805.07698v1]

 

RGB深度SLAM评论

Redhwan JamiruddinAli Osman SariJahanzaib ShabbirTarique Anwer

同时定位和映射(SLAM)使得实时密集重建可能增加导航,跟踪和增强现实问题的前景。在过去的几十年里,这方面取得了一些突破,更多的杰出工作仍在继续。本白皮书概述了迄今为止开发的SLAM方法。详细讨论了Kinect Fusion算法及其变体和进一步开发的方法。该算法和方法比较了它们在基于在线可用数据集的均方根误差的跟踪和映射方面的有效性。[1805.07696v1]

 

自适应光谱图卷积网络用于基于骨架的动作识别

Lei Shi, Yifan Zhang, Jian Cheng, Hanqing Lu

传统的基于骨架动作识别的深层方法通常将骨架构造为坐标序列或伪图像以馈送给RNNCNN,其不能明确地利用关节之间的自然连接。最近,将CNN推广到更通用的非欧几里德结构的图形卷积网络(GCN)获得了基于骨架动作识别的卓越性能。在这项工作中,我们提出了一种新颖的自适应谱图卷积网络,它解决了以前基于GCN的方法应用于动作识别的三个主要问题:1)在前一种方法中应用的图形卷积运算的采样函数通常是启发式设计的。我们通过基于谱图理论将GCN转换到频域来避免采样函数的欺骗定义。2)图的拓扑结构是手动设置的,并固定在所有层上,这可能不是动作识别任务和层次CNN结构的最佳选择。在我们的模型中,每层图的拓扑结构可以通过BP算法统一或单独学习,这可以带来更大的灵活性和通用性。3)一阶信息(关节坐标)主要用于原GCNs,而二阶信息(骨骼的长度和方向)较少被利用。在这项工作中提出了一个双流框架来同时建模关节和骨骼信息。在两个大型数据集NTU-RGB + DKinetics上进行的大量实验证明,我们的模型的性能超过了现有技术的显着水平。[1805.07694v1] 这对于动作识别任务和分级CNN结构可能不是最佳的。在我们的模型中,每层图的拓扑结构可以通过BP算法统一或单独学习,这可以带来更大的灵活性和通用性。3)一阶信息(关节坐标)主要用于原GCNs,而二阶信息(骨骼的长度和方向)较少被利用。在这项工作中提出了一个双流框架来同时建模关节和骨骼信息。在两个大型数据集NTU-RGB + DKinetics上进行的大量实验证明,我们的模型的性能超过了现有技术的显着水平。[1805.07694v1] 这对于动作识别任务和分级CNN结构可能不是最佳的。在我们的模型中,每层图的拓扑结构可以通过BP算法统一或单独学习,这可以带来更大的灵活性和通用性。3)一阶信息(关节坐标)主要用于原GCNs,而二阶信息(骨骼的长度和方向)较少被利用。在这项工作中提出了一个双流框架来同时建模关节和骨骼信息。在两个大型数据集NTU-RGB + DKinetics上进行的大量实验证明,我们的模型的性能超过了现有技术的显着水平。[1805.07694v1] 通过BP算法可以统一或单独学习各层图的拓扑结构,从而带来更大的灵活性和通用性。3)一阶信息(关节坐标)主要用于原GCNs,而二阶信息(骨骼的长度和方向)较少被利用。在这项工作中提出了一个双流框架来同时建模关节和骨骼信息。在两个大型数据集NTU-RGB + DKinetics上进行的大量实验证明,我们的模型的性能超过了现有技术的显着水平。[1805.07694v1] 通过BP算法可以统一或单独学习各层图的拓扑结构,从而带来更大的灵活性和通用性。3)一阶信息(关节坐标)主要用于原GCNs,而二阶信息(骨骼的长度和方向)较少被利用。在这项工作中提出了一个双流框架来同时建模关节和骨骼信息。在两个大型数据集NTU-RGB + DKinetics上进行的大量实验证明,我们的模型的性能超过了现有技术的显着水平。[1805.07694v1] 3)一阶信息(关节坐标)主要用于原GCNs,而二阶信息(骨骼的长度和方向)较少被利用。在这项工作中提出了一个双流框架来同时建模关节和骨骼信息。在两个大型数据集NTU-RGB + DKinetics上进行的大量实验证明,我们的模型的性能超过了现有技术的显着水平。[1805.07694v1] 3)一阶信息(关节坐标)主要用于原GCNs,而二阶信息(骨骼的长度和方向)较少被利用。在这项工作中提出了一个双流框架来同时建模关节和骨骼信息。在两个大型数据集NTU-RGB + DKinetics上进行的大量实验证明,我们的模型的性能超过了现有技术的显着水平。[1805.07694v1]

 

训练带有噪声标签的深度神经网络的广义交叉熵损失

Zhilu Zhang, Mert R. Sabuncu

深度神经网络(DNN)在许多学科的各种应用中取得了巨大的成功。然而,它们卓越的性能伴随着需要正确注释的大规模数据集的昂贵成本。此外,由于DNN的容量丰富,培训标签中的错误可能会影响性能。为了解决这个问题,最近已经提出平均绝对误差(MAE)作为对常用分类交叉熵(CCE)损失的噪声鲁棒替代。但是,正如我们在本文中所展示的,MAE可能在DNN和具有挑战性的数据集方面表现不佳。在这里,我们提出了一组理论上可以看作是MAECCE泛化的噪声鲁棒损失函数。建议的损失函数可以很容易地应用于任何现有的DNN体系结构和算法,同时在广泛的嘈杂标签场景中产生良好的性能。我们报告了使用CIFAR-10CIFAR-100FASHION-MNIST数据集进行实验的结果以及合成生成的噪声标签。[1805.07836v1]

 

STS分类与双流CNN

Shuchen Weng, Wenbo Li, Yi Zhang, Siwei Lyu

结构化时间序列(STS)分类问题需要交织时空依赖性的建模。大多数先前的STS分类方法独立地对空间和时间依赖性进行建模。由于STS数据的复杂性,我们认为理想的STS分类方法应该是一个整体框架,可以尽可能地适应性和灵活性。这激励我们设计具有这种优点的深度神经网络。受到神经科学中的双流假设的启发,我们提出了一种新的双流框架来模拟交织的时空依赖性,并在此框架内开发卷积神经网络,旨在从各种对角线实现STS配置的高适应性和灵活性,即顺序,依赖范围和特征。所提出的体系结构是高度模块化和可扩展的,使其易于适应特定任务。我们的模型的有效性通过对合成数据的实验以及基于骨架的活动识别的基准数据集来证明。[1805.07740v1]

 

无监督视频对象分割深度强化学习

Vik GoelJameson WengPascal Poupart

我们提出了一种深度强化学习的新技术,可以自动检测移动物体并使用相关信息进行动作选择。移动物体的检测是通过利用运动结构以无监督的方式完成的。代理不是直接从原始图像学习策略,而是首先学习通过利用视频序列中的流信息来检测和分割移动对象。学习的表示然后用于将代理的策略集中在移动对象上。随着时间的推移,代理人将识别哪些对象对决策至关重要,并逐步建立基于相关移动对象的策略。这种我们称之为面向运动增强学习(MOREL)的方法,在一套Atari游戏中进行了演示,其中检测移动物体的能力减少了与环境所需的互动量,以获得良好的策略。此外,由此产生的策略比利用黑箱神经网络将图像直接映射到动作或值的策略更具可解释性。我们可以通过检查代理检测到的每个对象的分割和运动来了解该策略。这允许从业人员确认政策是否基于合理的信息做出决定。[1805.07780v1] 我们可以通过检查代理检测到的每个对象的分割和运动来了解该策略。这允许从业人员确认政策是否基于合理的信息做出决定。[1805.07780v1] 我们可以通过检查代理检测到的每个对象的分割和运动来了解该策略。这允许从业人员确认政策是否基于合理的信息做出决定。[1805.07780v1]

 

小波卷积神经网络

Shin FujiedaKohei TakayamaToshiya Hachisuka

空间和光谱方法是图像处理任务的两种主要方法,例如图像分类和对象识别。在许多此类算法中,卷积神经网络(CNN)最近在许多具有挑战性的任务中取得了显着的性能提升。由于CNN直接在空间域处理图像,它们本质上是空间方法。由于已知空间和光谱方法具有不同的特征,因此将频谱方法纳入CNN将是有趣的。我们提出了一种新颖的CNN架构,即小波CNN,它将多分辨率分析和CNN组合成一个模型。我们的见解是,CNN可以被看作是多分辨率分析的有限形式。基于这种见解,我们通过小波变换对多分辨率分析的缺失部分进行补充,并将它们作为附加组件整合到整个架构中。小波CNN允许我们利用在常规CNN中大部分丢失但在大多数图像处理任务中有用的频谱信息。我们评估小波CNNs在纹理分类和图像注释上的实际性能。实验表明,小波CNNs可以比现有模型在两种任务中获得更好的精确度,而参数比传统的CNN少得多。[1805.08620v1] 我们评估小波CNNs在纹理分类和图像注释上的实际性能。实验表明,小波CNNs可以比现有模型在两种任务中获得更好的精确度,而参数比传统的CNN少得多。[1805.08620v1] 我们评估小波CNNs在纹理分类和图像注释上的实际性能。实验表明,小波CNNs可以比现有模型在两种任务中获得更好的精确度,而参数比传统的CNN少得多。[1805.08620v1]

 

潜在空间非线性统计

KuhnelTom FletcherSarang JoshiStefan Sommer

给定数据,深度生成模型(如变分自动编码器(VAE)和生成对抗网络(GAN))训练数据空间的低维潜在表示。数据空间的线性欧几里德几何在潜在空间上拉回到非线性黎曼几何。因此潜在空间提供了数据的低维非线性表示,并且经典的线性统计技术不再适用。在本文中,我们将展示如何使用非线性流形统计领域的技术来执行潜在空间表示中的数据统计。非线性流形统计提供欧氏统计概念的推广,包括均值,主成分分析和参数概率分布的最大似然拟合。我们开发了潜在空间中最大似然推断的新技术,并通过训练单独的神经网络来逼近黎曼度量和卡氏张量来捕获学习数据流形的形状,从而满足使用几何算法与高维数据的计算复杂度。[1805.07632v1]

 

密集图像网络:视频时空演变编码和理解

Xiaokai Chen, Ke Gao

视频理解的许多主要方法都是数据饥渴且耗时的,无法以有效的方式捕捉时空演变的要点。最新的研究表明,CNN网络可以推断图像中实体的静态关系。为了进一步利用其在动态演化推理中的能力,我们引入了一种称为DenseImage NetworkDIN)的新型网络模块,其中有两个主要贡献。1)视频的新颖紧凑表示,将其重要的时空演变分解为称为DenseImage的矩阵,为有效的视频编码做准备。2)提出了一种基于DenseImage和时序保持CNN网络的简单而强大的学习策略,用于视频理解,其中包含一个局部时间相关性约束,捕获不同滤波器宽度的多个时间尺度上的时间演变。对最近两个具有挑战性的基准进行的大量实验表明,我们的DenseImage网络可以准确地捕获类似动作之间的共同时空演变,即使是巨大的视觉变化或不同的时间尺度。此外,我们以更少的时间和内存成本获得最先进的动作和手势识别结果,表明其在视频表现和理解方面具有巨大的潜力。[1805.07550v1] 即使有巨大的视觉变化或不同的时间尺度。此外,我们以更少的时间和内存成本获得最先进的动作和手势识别结果,表明其在视频表现和理解方面具有巨大的潜力。[1805.07550v1] 即使有巨大的视觉变化或不同的时间尺度。此外,我们以更少的时间和内存成本获得最先进的动作和手势识别结果,表明其在视频表现和理解方面具有巨大的潜力。[1805.07550v1]

 

使用密集网络的快速视差估计

Rowel Atienza

视差估计是立体视觉中的难题,因为对应技术在具有无纹理和重复区域的图像中失败。最近使用深度卷积神经网络(CNN)的工作主体通过语义克服了这个问题。大多数CNN实现使用自动编码器方法立体图像被编码,合并并最终解码以预测视差图。在本文中,我们提出了一个受稠密网络启发的CNN实现,以减少参数数量。此外,我们的方法考虑了视差估计中的语义推理。我们提出的称为DenseMapNet的网络紧凑,速度快,可以进行端到端的培训。DenseMapNet只需要290k参数,在全分辨率的彩色立体图像上以30Hz或更快速度运行。实验结果表明,DenseMapNet精度与其他更大的基于CNN的方法相当。[1805.07499v1]

 

基于眼底图像的光盘感知集成网络用于青光眼筛查

Huazhu Fu, Jun Cheng, Yanwu Xu, Changqing Zhang, Damon Wing Kee Wong, Jiang Liu, Xiaochun Cao

青光眼是导致不可逆转的视力丧失的慢性眼病。现有的大多数自动筛选方法首先对主要结构进行分割,然后计算青光眼检测和筛查的临床测量。然而,这些基于测量的方法在很大程度上依赖于分割准确性,并忽略各种视觉特征。在本文中,我们引入了深度学习技术来获得额外的图像相关信息,并直接从眼底图像中筛查青光眼。具体而言,提出了用于自动青光眼筛查的新型光盘感知集合网络(DENet),其集成了全局眼底图像和本地视盘区域的深层次背景。四个不同层次的深层流和模块分别被视为全局图像流,分段引导的网络,本地盘区域流和盘极转换流。最后,将不同流的输出概率融合为最终筛选结果。对两个青光眼数据集(SCES和新的SINDI数据集)的实验表明,我们的方法胜过了其他最先进的算法。[1805.07549v1]

 

学习人脸识别实验的空间

Jordan W. SuchowJoshua C. PetersonThomas L. Griffiths

人类身份和外表的生成模型对行为科学和技术具有广泛的适用性,但是人脸感知的敏感性意味着它们的实用性取决于模型对人类心理表征的表征与所生成图像的真实感。满足这些要求是一项艰巨的任务,现有的人类身份和外表模型通常是不可行的抽象的,人造的,不可思议的或有偏见的。在这里,我们使用具有自回归解码器的变分自动编码器,从独特的不同人像数据集中学习人脸空间,以控制与人类身份和外观无关的大部分变化。我们的方法生成具有光滑,可导航潜在空间的虚拟身份照片写实肖像。我们验证了我们的模型‘ 通过引入图像的心理物理图灵测试,人类大多数人都失败了,从而与人类的敏感性保持一致。最后,我们展示了我们的模型在心理空间中的快速搜索问题的初始应用,以在少数试验中获得详细的警察草图[1805.07653v1]

 

在没有人际交往的情况下从因特网学习像素标签

Yun Liu, Yujun Shi, JiaWang Bian, Le Zhang, Ming-Ming Cheng, Jiashi Feng

深度学习在许多计算机视觉任务中处于最前沿。然而,深度神经网络通常需要数据,需要大量注释良好的训练样本。在许多应用程序中收集足够的注释数据非常昂贵,特别是像语义分割等像素级预测任务。为了解决这个基本问题,我们考虑了一个新的具有挑战性的视觉任务,即互联网监督语义分割,它只使用互联网数据和噪声图像层监督相应的查询关键词进行分割模型训练。我们通过提出以下解决方案来解决此任务。提出了一种统一多尺度前向和后向卷积特征的类特定关注模型,以提供初始分割基本事实。用这种噪音标注进行训练的模型然后通过在线微调程序进行改进。它在PASCAL VOC2012数据集的弱监督环境下实现了最先进的性能。所提出的框架还为在没有人际交往的情况下从互联网学习提供了新的途径,并且可以作为其中的强有力基准。代码和数据将在接受论文后发布。[1805.07548v1]

 

使用深度学习在野外长期进行人脸跟踪

Kunlei Zhang, Elaheh Rashedi, Elaheh Barati, Xue-wen Chen

本文调查了在特定人员的长时间脸部跟踪中,作为视频流中的查询,在单个帧中给予他/她的脸部图像。通过利用预先训练好的大数据深度学习模型,开发了一种新颖的系统,用于在不受限制的环境中进行准确的视频人脸跟踪,描绘了进出框架的各种人物和物体。在所提出的系统中,我们提出了一种通过人脸检测,人脸验证和(短期)人脸跟踪协作来完成长期人脸跟踪任务的检测验证跟踪方法(称为“DVT”)。基于级联卷积神经网络的离线训练检测器对出现在帧中的所有面进行局部化,并且基于深度卷积神经网络和相似性度量学习的离线训练的面部验证器决定是否有任何面部或者哪个面部与被查询的人相对应。一个在线训练的追踪者从一帧到另一帧地追踪脸部。在情景喜剧和电视节目中进行验证后,DVT方法在回忆和精确度方面优于跟踪学习检测(TLD)和面部顶级域名(TLD)。所提出的系统也在许多其他类型的视频上进行测试,并显示出非常有希望的结果。[1805.07646v1] 所提出的系统也在许多其他类型的视频上进行测试,并显示出非常有希望的结果。[1805.07646v1] 所提出的系统也在许多其他类型的视频上进行测试,并显示出非常有希望的结果。[1805.07646v1]

 

通过角度分支网络进行端到端驾驶模拟

Qing Wang, Long Chen, Wei Tian

学习社区关注端到端自动驾驶的模仿学习。当前的方法或者仅使用图像作为当汽车接近交叉口时模糊的输入,或者使用附加的命令信息来导航车辆但不够自动化。着眼于使车辆沿着给定路径行驶,我们提出了一种不需要人参与的新导航命令和一种称为角度分支网络的新型模型架构。新的导航命令和角度分支网络都很容易理解和有效。此外,我们发现不仅分割信息而且深度信息都可以提高驾驶模型的性能。我们在三维城市模拟器中进行实验,定性和定量评估结果都显示了我们模型的有效性。[1805.07545v1]

 

CapProNet:通过对胶囊子空间进行正交投影进行深度特征学习

Liheng Zhang, Marzieh Edraki, Guo-Jun Qi

在本文中,我们将使用胶囊向量而不是神经元激活来预测样本标签的胶囊网背后的想法正式化。为此,我们建议学习一组投影输入特征向量的胶囊子空间。然后用合成胶囊的长度来评分属于不同类别的概率。我们通过学习每个胶囊子空间的正交投影矩阵来训练这样的胶囊投影网络(CapProNet),并且显示每个胶囊子空间被更新直到它包含对应于相关类别的输入特征向量。在低维胶囊子空间中训练网络或通过替代的超功率迭代来估计归一化矩阵只会产生微不足道的计算开销。图像数据集上的实验结果表明,所提供的模型可以在相同的计算和内存成本水平下将现有技术的ResNet骨干网的性能大幅提高10-20%。[1805.07621v1]

 

单像素成像中的快速对象分类

Shuming Jiao

在单像素成像(SPI)中,目标物体依次以不同的图案进行照明,而强度序列由没有空间分辨率的单像素检测器记录。高质量的物体图像只能在大量照明后进行计算重建,缺点是成像时间长,成本高。传统上,在具有高保真度的重建对象图像可用之后执行对象分类。在本文中,我们建议用傅立叶SPI的快速方式对目标物体进行少量的照明分类。朴素贝叶斯分类器用于基于单像素强度序列对目标对象进行分类而不需要任何图像重建,并且每个序列元素被视为分类器中的对象特征。仿真结果表明我们提出的方案可以高精度地分类数字对象图像(例如,仅使用13个照明的80%准确度,以0.3%的采样比率)。[1805.07582v1]

 

学习域适应的抽样策略

Yash PatelKashyap ChittaBhavan Jasani

我们通过深度Q学习解决了分类算法的半监督域自适应问题。其核心思想是将目标域数据上的源域网络的预测视为噪声标签,并学习一个策略来从该数据中抽样,以便在目标域的小注释奖励分区上最大化分类准确性。我们的实验表明,学习的抽样策略构造了标记集,可以提高基线上视觉分类器的精度。[1805.07641v1]

 

关于人类活动认知的注意模型

Vishvak S MurahariThomas Ploetz

大多数基于体感传感(HAR)的人类活动识别中的时间序列数据建模方法使用固定大小的时间背景来表示不同的活动。然而,这可能不适合持续时间各不相同的一系列活动。我们将关注模型引入到HAR研究中作为探索相关时间背景的数据驱动方法。注意模型通过输入数据学习一组权重,我们利用这些权重来权衡考虑为每个传感器读数建模的时间上下文。我们通过为最新的深度学习HAR模型( DeepConvLSTM)添加关注层来构建HAR的关注模型,并评估我们在基准数据集上实现性能显着提高的方法。最后,我们将所学习的权重可视化,以更好地理解什么是相关的时间背景。[1805.07648v1]

 

用于物体识别的具有局部递归处理的深度预测编码网络

Kuan Han, Haiguang Wen, Yizhen Zhang, Di Fu, Eugenio Culurciello, Zhongming Liu

预测编码(一种神经科学理论)的启发,我们开发了一种具有局部循环处理的双向和动态神经网络,即预测编码网络(PCN)。与任何只有前馈的卷积神经网络不同,PCN包括进行自顶向下预测的反馈连接和包含自下而上的预测误差的前馈连接。反馈和前馈连接使相邻层能够在本地和循环中进行交互,以优化表示以最小化分层预测错误。随着时间的推移,随着时间的推移,经常性处理会导致非线性变换的层次越来越深,从而允许浅层网络将其自身扩展到任意深度的网络中。我们使用SVHNCIFARImageNet数据集训练和测试PCN进行图像分类。尽管层数和参数显着较少,但与经典和最先进的模型相比,PCN实现了具有竞争力的性能。进一步分析表明,PCN中的内部表示会随着时间的推移而收敛,并且在物体识别中产生越来越高的精度。自上而下预测的错误还会映射视觉显着性或自下而上的注意力。这项工作让我们更接近于在视觉上弥合人机智能。[1805.07526v1] 进一步分析表明,PCN中的内部表示会随着时间的推移而收敛,并且在物体识别中产生越来越高的精度。自上而下预测的错误还会映射视觉显着性或自下而上的注意力。这项工作让我们更接近于在视觉上弥合人机智能。[1805.07526v1] 进一步分析表明,PCN中的内部表示会随着时间的推移而收敛,并且在物体识别中产生越来越高的精度。自上而下预测的错误还会映射视觉显着性或自下而上的注意力。这项工作让我们更接近于在视觉上弥合人机智能。[1805.07526v1]

 

基于模糊C均值聚类的指纹质量分析的两阶段质量自适应指纹图像增强

Ram Prakash SharmaSomnath Dey

指纹识别技术非常依赖于指纹图像的质量。为了提高低质量图像识别算法的性能,应该设计一个有效的增强算法。如果增强处理适应指纹质量(湿,干或正常),则识别算法的性能改进将更多。本文提出了一种高质量的自适应指纹增强算法。所提出的指纹质量评估算法使用模糊C均值技术将干燥,湿润,正常干燥,正常湿度和良好质量的合适质量类别的指纹图像聚类。它考虑了七个特征,即均值,湿度,变化,均匀性,对比度,脊谷区域均匀性和脊谷均匀性考虑到将指纹图像聚类到适当的质量等级。每个质量类别的指纹图像经历两阶段指纹质量增强处理。在利用Gabor,短期傅里叶变换和基于定向扩散滤波的增强技术来增强指纹图像之前,将质量自适应预处理方法用作前端。实验结果显示FVC2004数据集的验证结果有所改善。与当前最先进的增强技术相比,使用基于质量自适应预处理的方法观察到等误差率的显着提高。[1805.07527v1] 每个质量类别的指纹图像经历两阶段指纹质量增强处理。在利用Gabor,短期傅里叶变换和基于定向扩散滤波的增强技术来增强指纹图像之前,将质量自适应预处理方法用作前端。实验结果显示FVC2004数据集的验证结果有所改善。与当前最先进的增强技术相比,使用基于质量自适应预处理的方法观察到等误差率的显着提高。[1805.07527v1] 每个质量类别的指纹图像经历两阶段指纹质量增强处理。在利用Gabor,短期傅里叶变换和基于定向扩散滤波的增强技术来增强指纹图像之前,将质量自适应预处理方法用作前端。实验结果显示FVC2004数据集的验证结果有所改善。与当前最先进的增强技术相比,使用基于质量自适应预处理的方法观察到等误差率的显着提高。[1805.07527v1] 实验结果显示FVC2004数据集的验证结果有所改善。与当前最先进的增强技术相比,使用基于质量自适应预处理的方法观察到等误差率的显着提高。[1805.07527v1] 实验结果显示FVC2004数据集的验证结果有所改善。与当前最先进的增强技术相比,使用基于质量自适应预处理的方法观察到等误差率的显着提高。[1805.07527v1]

 

优化无阈值显着物体检测的F-measure

Kai Zhao, Shanghua Gao, Qibin Hou, Dan-Dan Li, Ming-Ming Cheng

目前基于CNN的显着物体检测(SOD)解决方案主要依赖于交叉熵损失(CELoss)的优化。然后,检测到的显着图的质量通常用F-measure来评估。在本文中,我们调查了一个有趣的问题:我们是否可以在训练和评估SOD过程中始终如一地使用F-measure制剂?通过重新构造标准的F-measure,我们提出了松弛的F-measure,它与后验可区分,并且可以很容易地作为损失函数附加到CNN的后面。与饱和区域中梯度急剧减小的传统交叉熵损耗相比,即使激活接近目标,我们的损耗函数FLoss也具有相当大的梯度。所以,FLoss可以不断强制网络产生极化激活。几个流行数据集的综合基准数据表明,FLoss的性能优于现有技术,并有相当大的余量。更具体地说,由于极化预测,我们的方法能够在不仔细调整最佳阈值的情况下获得高质量显着图,显示出在现实世界应用中的显着优点。[1805.07567v1]

 

生成创造力:仿生设计的敌对学习

Simiao Yu, Hao Dong, Pan Wang, Chao Wu, Yike Guo

仿生设计是指创造性创意的方法,其中目标对象(例如落地灯)被设计为包含生物源对象(例如花)的特征,从而产生创造性的生物启发设计。在这项工作中,我们尝试对面向形状的仿生设计过程进行建模,如下所示:给定一个设计目标对象的输入图像,该模型生成图像:1)保持输入设计目标图像的形状特征; 2)包含形状来自指定生物源区域的图像的特征,3)是合理的和多样的。我们提出DesignGAN,一种新颖的无监督深度生成方法来实现仿生设计。具体来说,我们采用了一个有条件的生成对手网络架构,其中有几个指定的损失(对抗性损失,回归损失,一个周期损失和一个潜在损失)分别收缩我们的模型,以满足上述相应的仿生设计建模要求。我们进行定性和定量实验来评估我们的方法,并证明我们提出的方法成功地生成了仿生设计的创意图像。[1805.07615v1]

 

通过在深度特征空间中采样来捕获人类类别表示

Joshua C. PetersonJordan W. SuchowKrisha AghiAlexander Y. KuThomas L. Griffiths

了解人们如何表达类别是认知科学的核心问题。数十年的研究已经产生了各种形式的类别理论,但用自然刺激来验证它们是困难的。我们面临的挑战是不能直接观察人类的表征,用图像等自然主义刺激进行信息性实验需要可行的表征这些刺激。深度神经网络最近成功地解决了一系列计算机视觉任务,并提供了一种紧凑地表示图像特征的方法。在这里,我们介绍一种方法来估计人类类别的结构,将认知科学和机器学习的想法相结合,将基于人体的算法与最先进的深度图像生成器相融合。我们提供定性和定量结果作为方法可行性的概念验证。从人类分布中抽取的样本与质量先进的生成模型中的样本相媲美,并且优于估算人类分类结构的替代方法。[1805.07644v1]

 

利用分层语言标签学习深度神经网络中的分层视觉表示

Joshua C. PetersonPaul SoulosAida NematzadehThomas L. Griffiths

现代卷积神经网络(CNN)能够针对特定任务实现人类对象分类的准确性,并且在解释复杂的人类视觉表示方面目前优于竞争模型。然而,这些网络的分类问题对人类而言是不同的:这些网络的准确性是通过识别分配给每个图像的单个标签的能力来评估的。这些标签通常会在自然的心理分类标准中任意切割(例如,狗被分为品种,但从未被共同归类为),并且偏向所产生的表示。相比之下,儿童听到达尔马提亚来描述同样的刺激是常见的,有助于将感知不同的物体(例如品种)分组为一个共同的心理类。在这项工作中,我们训练CNN分类器的每个图像都有多个标签,这些标签对应不同的抽象层次,并且使用这个框架来重现出现在人类泛化行为中的经典模式。[1805.07647v1]

 

最疯狂的脸孔:暴力设置中的人脸检测和识别

Mehmet Kerim YucelYunus Can BilgeOguzhan OguzNazli Ikizler-CinbisPinar Duygulu,斋月Gokberk Cinbis

随着大规模数据集和能够学习复杂表示的深度学习模型的引入,人脸检测和识别任务中出现了令人印象深刻的进步。尽管取得了这样的进步,但现有的数据集并没有捕捉到最疯狂的场景中的面部识别困难,例如敌对纠纷或战斗。此外,现有数据集并不代表完全不受约束的低分辨率,高模糊和大的姿势/遮挡方差的情况。为此,我们介绍了Wildest Faces数据集,该数据集着重于暴力场景中的这些不利影响。该数据集包含一系列来自电影名人的暴力场景。我们的实验结果表明,最先进的技术不适合暴力场景,因此,最疯狂的面孔可能会引发人脸检测和识别研究的进一步兴趣。[1805.07566v1]

 

AlphaX:使用深度神经网络和蒙特卡洛树搜索探索神经架构

Linnan Wang, Yiyang Zhao, Yuu Jinnai

我们提供AlphaX,一个全自动代理,从头开始设计复杂的神经架构。AlphaX利用新型分布式蒙特卡罗树搜索(MCTS)和元深度神经网络(DNN)探索指数分解搜索空间。MCTS通过自动平衡每个州的探索和利用来本质上提高搜索效率,而Meta-DNN预测网络准确性以指导搜索,并为分布式设置中的抢先式反向传播提供估计奖励。随着搜索的进行,AlphaX还会生成Meta-DNN的培训日期。所以,Meta-DNN的学习是端到端的。在寻找NASNet风格的架构时,AlphaX发现了几种有前景的架构,其精度比NASNet高出1%,仅使用17GPU 5天,最多显示23个。比原来搜索NASNet的速度提高了5倍,并在4天内使用了500GPU[1805.07440v1]

 

Incept-N:一种基于卷积神经网络的面部特征预测国籍分类方法

Masum Shah JunayedAfsana Ahsan JenyNafis Neehal

人的国籍是用于每个国家的每个重要认证目的的着名识别特征。尽管人工智能和计算机视觉在不同方面的应用取得了进展,但它对这一特定安全程序的贡献还有待培养。为了成功地应用计算机视觉技术来预测基于他的面部特征的人的国籍,我们已经提出了这种新颖的方法,并且已经实现了平均93.6%的准确度和非常低的错误分类率。[1805.07426v1]

 

神经网络的无监督学习解释神经网络

Quanshi Zhang, Yu Yang, Yuchen Liu, Ying Nian Wu, Song-Chun Zhu

本文提出了一种无监督的学习神经网络的方法,即解释器来解释预先训练的卷积神经网络(CNN),即解释隐藏在CNN的中间卷积层中的知识表示。给定CNN的某个conv-layer的特征映射,解释器像自动编码器一样执行,首先将特征映射分解为对象部分特征,然后将对象部分特征反转回到CNN。更具体地说,解释器包含可解释的信息层,其中每个过滤器从混沌输入特征图中解开特定对象部分的表示。作为CNN特征的解释,对象部分的解开表示有助于人们理解CNN内部的逻辑。我们还学习解释器使用对象部分特征来重建较高CNN层的特征,以便在特征解开期间最小化信息的丢失。更重要的是,我们通过网络蒸馏来学习解释器,而不使用样本标签,对象部件或纹理的任何注释来进行监督。我们已经将我们的方法应用于不同类型的CNN进行评估,并且解释者显着提高了CNN功能的可解释性。[1805.07468v1] 并且解释者已经显着提高了CNN特征的可解释性。[1805.07468v1] 并且解释者已经显着提高了CNN特征的可解释性。[1805.07468v1]

 

我的相机可以看穿栅栏:深入的图像防护学习方法

Sankaraganesh JonnaKrishna Kanth NakkaRajiv R. Sahay

近来,智能手机/平板电脑等廉价图像捕捉设备的可用性已导致捕捉的图像/视频数量呈指数级增长。然而,有时业余摄影师被场景中的栅栏阻挡,在拍摄图像后必须将其去除。除了仅限于处理静态遮挡场景的图像之外,用于防护图像的常规方法受到不准确和非鲁棒的围栏检测的影响。在本文中,我们提出了一种使用动态场景视频的半自动防护算法。我们使用卷积神经网络来检测栅栏像素。我们在现有的PSU NRT数据集和提出的具有挑战性的栅栏图像数据集上提供定性和定量比较结果,并与现有的网格检测算法进行比较。使用分裂布雷格曼技术来解决栅栏去除的逆问题,假设去栅栏图像的总变化作为正则化约束。[1805.07442v1]

 

图像分割的敌对结构匹配损失

Jyh-Jing Hwang, Tsung-Wei Ke, Jianbo Shi, Stella X. Yu

每像素交叉熵损失(CEL)已被广泛用于结构化输出预测任务中,作为通用图像分类的空间扩展。然而,它的iid假设忽略了自然图像中存在的结构规律性。已经进行了各种尝试,将结构推理纳入主要通过结构先验以合作方式鼓励共同发生模式。另一方面,我们从相反的角度来解决这个问题,并提出了一种新的框架,通过对抗过程来训练这种结构化预测网络,其中我们训练提供监督信号的结构分析器,对抗结构匹配损失(ASML )。训练结构分析器以最大化ASML,或通常在共同出现的模式中夸大反复出现的结构错误。相反,结构化输出预测网络经过训练可以减少这些错误,从而可以区分细粒结构。因此,使用ASML对结构化输出预测网络进行训练可以减少对象间的上下文混淆并改善边界本地化。我们证明,ASML优于其对应的CEL,特别是在上下文和边界方面,用FCNU-NetDeepLabPSPNet等各种基础体系结构进行图形地形分割和语义分割任务。[1805.07457v1] 我们证明,ASML优于其对应的CEL,特别是在上下文和边界方面,用FCNU-NetDeepLabPSPNet等各种基础体系结构进行图形地形分割和语义分割任务。[1805.07457v1] 我们证明,ASML优于其对应的CEL,特别是在上下文和边界方面,用FCNU-NetDeepLabPSPNet等各种基础体系结构进行图形地形分割和语义分割任务。[1805.07457v1]

 

规范保存:为什么残留网络可以变得非常深?

Alireza ZaeemzadehNazanin Rahnavard,穆巴拉克沙阿

正如ResNet架构中介绍的那样,通过跳过连接来增强深度神经网络,让社区感到惊讶,因为它可以训练1000多层网络,并显着提高性能。已经证明,身份跳过连接消除了奇点并改善了网络的优化格局。本文通过分析后向路径中跳过连接的影响,对ResNet进行解译,并对深度神经网络中身份跳过连接的优点提出了新的理论结果。我们证明了残差块中的跳跃连接有助于保持梯度的规范并导致良好的稳定的反向传播,这是从优化角度来看的一个理想特征。我们也表明,也许令人惊讶的是,随着更多残余块被堆叠,网络变得更加规范保存。传统上,通过使用初始化技术,仅在培训开始时才在网络上实施保护标准。但是,我们显示身份跳过连接在训练过程中保留规范保存。我们的理论论证得到广泛的经验证据的支持。我们能否推动更多的规范保护?我们通过提出完全连接层的零相位白化和添加保护范数的转换层来回答这个问题。我们的数值研究表明,ResNets的学习动态和性能可以通过在非常深的剩余网络中仅改变几个块来进行更加规范的保存而得到改进。我们的结果和ResNet的引入修改,简称为Procrustes ResNets,可用作学习更复杂的体系结构的指南,如DenseNet,培训更深层次的网络,以及激发新的体系结构。[1805.07477v1]

 

用于零射击图像识别的自训练集成网络

Meng Ye, Yuhong Guo

尽管监督图像识别算法的进步,但它们依赖于标签数据的可用性以及图像类别的快速扩展,增加了零点学习的重大挑战。零点学习(ZSL)旨在将来自标记类的知识转化为未标记类,以减少人类标记工作量。在本文中,我们提出了一种新的自我训练集成网络模型来解决零点图像识别问题。该集合网络是通过学习多个图像分类函数与共享特征提取网络,但不同的标签嵌入表示来构建的,每个图像分类函数有助于信息传输到不标注类别的不同子集。然后部署一个自我训练框架,用预测的伪标签对每个无标签类别中最自信的图像进行迭代标注,并用伪标签增强的训练数据更新整个网络。所提出的模型对标记数据和未标记数据进行训练。它可以自然地弥合视觉外观中的域转移问题,并且可以扩展到广义零点学习场景。我们在多个标准ZSL数据集上进行实验,实证结果证明了所提出模型的有效性。[1805.07473v1] 它可以自然地弥合视觉外观中的域转移问题,并且可以扩展到广义零点学习场景。我们在多个标准ZSL数据集上进行实验,实证结果证明了所提出模型的有效性。[1805.07473v1] 它可以自然地弥合视觉外观中的域转移问题,并且可以扩展到广义零点学习场景。我们在多个标准ZSL数据集上进行实验,实证结果证明了所提出模型的有效性。[1805.07473v1]

 

用于视频识别和强化学习的视频快速同步事件流

Wanjia Liu, Huaijin Chen, Rishab Goel, Yuzhong Huang, Ashok Veeraraghavan, Ankit Patel

良好的时间表示对于视频理解至关重要,而最先进的视频识别框架基于双流网络。在这种框架中,除了负责RGB帧输入的常规ConvNets之外,还引入了第二个网络来处理时间表示,通常是光流(OF)。然而,OF或其他面向任务的流程在计算上是昂贵的,因此通常是预先计算的。至关重要的是,这样可以防止双流方法应用于强化学习(RL)应用,例如视频游戏,其中下一个状态取决于当前状态和动作选择。受哺乳动物和昆虫的早期视觉系统的启发,我们提出了一种快速事件驱动表示法(EDR),它模拟早期视网膜电路的几个主要特性:(1)对数输入响应,(2)多时间尺度时间平滑以滤除噪声,以及(3)用于原始事件检测的双极性(ON / OFF)路径。为了实现快速(> 9000 fps)的定向信息交换,EDR可以在视频应用中实现快速实时推理/学习,这些视频应用需要座席与世界之间的互动,如游戏,虚拟机器人和领域适应等。在这方面,我们使用EDR来展示性能改进,比Atari游戏的最先进的强化学习算法有所改进,这在预先计算的OF中是不可能的。此外,通过UCF-101视频动作识别实验,我们发现EDR与精确的光流相比,在输入表示处理中实现了1,500倍的加速,并且精度接近最新。[1805.06374v2] 2)多时间尺度时间平滑滤波噪声,(3)原始事件检测的双极性(ON / OFF)路径[12]。为了实现快速(> 9000 fps)的定向信息交换,EDR可以在视频应用中实现快速实时推理/学习,这些视频应用需要座席与世界之间的互动,如游戏,虚拟机器人和领域适应等。在这方面,我们使用EDR来展示性能改进,比Atari游戏的最先进的强化学习算法有所改进,这在预先计算的OF中是不可能的。此外,通过UCF-101视频动作识别实验,我们发现EDR与精确的光流相比,在输入表示处理中实现了1,500倍的加速,并且精度接近最新。[1805.06374v2] 2)多时间尺度时间平滑滤波噪声,(3)原始事件检测的双极性(ON / OFF)路径[12]。为了实现快速(> 9000 fps)的定向信息交换,EDR可以在视频应用中实现快速实时推理/学习,这些视频应用需要座席与世界之间的互动,如游戏,虚拟机器人和领域适应等。在这方面,我们使用EDR来展示性能改进,比Atari游戏的最先进的强化学习算法有所改进,这在预先计算的OF中是不可能的。此外,通过UCF-101视频动作识别实验,我们发现EDR与精确的光流相比,在输入表示处理中实现了1,500倍的加速,并且精度接近最新。[1805.06374v2] 和(3)用于原始事件检测的双极(ON / OFF)路径[12]。为了实现快速(> 9000 fps)的定向信息交换,EDR可以在视频应用中实现快速实时推理/学习,这些视频应用需要座席与世界之间的互动,如游戏,虚拟机器人和领域适应等。在这方面,我们使用EDR来展示性能改进,比Atari游戏的最先进的强化学习算法有所改进,这在预先计算的OF中是不可能的。此外,通过UCF-101视频动作识别实验,我们发现EDR与精确的光流相比,在输入表示处理中实现了1,500倍的加速,并且精度接近最新。[1805.06374v2] 和(3)用于原始事件检测的双极(ON / OFF)路径[12]。为了实现快速(> 9000 fps)的定向信息交换,EDR可以在视频应用中实现快速实时推理/学习,这些视频应用需要座席与世界之间的互动,如游戏,虚拟机器人和领域适应等。在这方面,我们使用EDR来展示性能改进,比Atari游戏的最先进的强化学习算法有所改进,这在预先计算的OF中是不可能的。此外,通过UCF-101视频动作识别实验,我们发现EDR与精确的光流相比,在输入表示处理中实现了1,500倍的加速,并且精度接近最新。[1805.06374v2] 为了实现快速(> 9000 fps)的定向信息交换,EDR可以在视频应用中实现快速实时推理/学习,这些视频应用需要座席与世界之间的互动,如游戏,虚拟机器人和领域适应等。在这方面,我们使用EDR来展示性能改进,比Atari游戏的最先进的强化学习算法有所改进,这在预先计算的OF中是不可能的。此外,通过UCF-101视频动作识别实验,我们发现EDR与精确的光流相比,在输入表示处理中实现了1,500倍的加速,并且精度接近最新。[1805.06374v2] 为了实现快速(> 9000 fps)的定向信息交换,EDR可以在视频应用中实现快速实时推理/学习,这些视频应用需要座席与世界之间的互动,如游戏,虚拟机器人和领域适应等。在这方面,我们使用EDR来展示性能改进,比Atari游戏的最先进的强化学习算法有所改进,这在预先计算的OF中是不可能的。此外,通过UCF-101视频动作识别实验,我们发现EDR与精确的光流相比,在输入表示处理中实现了1,500倍的加速,并且精度接近最新。[1805.06374v2] EDR可以在视频应用中实现快速实时推理/学习,这些视频应用需要座席和世界之间的互动,如游戏,虚拟机器人和领域适应等。在这方面,我们使用EDR来展示性能改进,比Atari游戏的最先进的强化学习算法有所改进,这在预先计算的OF中是不可能的。此外,通过UCF-101视频动作识别实验,我们发现EDR与精确的光流相比,在输入表示处理中实现了1,500倍的加速,并且精度接近最新。[1805.06374v2] EDR可以在视频应用中实现快速实时推理/学习,这些视频应用需要座席和世界之间的互动,如游戏,虚拟机器人和领域适应等。在这方面,我们使用EDR来展示性能改进,比Atari游戏的最先进的强化学习算法有所改进,这在预先计算的OF中是不可能的。此外,通过UCF-101视频动作识别实验,我们发现EDR与精确的光流相比,在输入表示处理中实现了1,500倍的加速,并且精度接近最新。[1805.06374v2] 一些预先计算好的OF是不可能的。此外,通过UCF-101视频动作识别实验,我们发现EDR与精确的光流相比,在输入表示处理中实现了1,500倍的加速,并且精度接近最新。[1805.06374v2] 一些预先计算好的OF是不可能的。此外,通过UCF-101视频动作识别实验,我们发现EDR与精确的光流相比,在输入表示处理中实现了1,500倍的加速,并且精度接近最新。[1805.06374v2]

 

对冲样本支持决策边界的知识精馏

Byeongho Heo, Minsik Lee, Sangdoo Yun, Jin Young Choi

最近许多关于知识蒸馏的研究提供了转移培训网络的知识以改进新知识的学习过程的方法,但是找到一种用于知识蒸馏的好技术仍然是一个悬而未决的问题。在本文中,我们提供了一个基于决策边界的新观点,决策边界是分类器最重要的组成部分之一。分类器的泛化性能与其决策边界的充分性密切相关,因此好的分类器具有良好的决策边界。因此,传递与决策边界密切相关的信息可能是对知识蒸馏的一种很好的尝试。为了实现这个目标,我们利用敌对攻击来发现支持决策边界的样本。基于这个想法,为了传递更准确的关于决策边界的信息,所提出的算法基于支持决策边界的敌对样本来训练学生分类器。实验表明,所提出的方法确实提高了知识蒸馏,并实现了艺术级的表现。[1805.05532v2]

 

用于跨视点分类的多视图共同成分判别分析

Xinge You, Jiamiao Xu, Wei Yuan, Xiao-Yuan Jing, Dacheng Tao, Taiping Zhang

跨视图分类意味着对异构视图中的样本进行分类是计算机视觉领域中一个重大而又具有挑战性的问题。处理这个问题的一个有希望的方法是多视图子空间学习(MvSL),它打算为多视图数据找到一个公共子空间。尽管现有方法取得了令人满意的结果,但当多视图数据位于非线性流形上时,以前工作的性能将显着降低。为了避免这个缺点,我们提出多视图共同成分判别分析(MvCCDA)以联合方式处理视图差异,可辨性和非线性。特别,我们的MvCCDA将监督信息和局部几何信息合并到公共组件提取过程中,以学习判别公共子空间并发现嵌入在多视图数据中的非线性结构。我们开发了一种MvCCDA的内核方法,以进一步提升MvCCDA的性能。除了内核扩展之外,MvCCDA的优化和复杂性分析也提供了完整性。我们的MvCCDA在四个基准数据集上与最先进的基于MvSL的方法相竞争,证明了其优越性。[1805.05029v2] 我们的MvCCDA在四个基准数据集上与最先进的基于MvSL的方法相竞争,证明了其优越性。[1805.05029v2] 我们的MvCCDA在四个基准数据集上与最先进的基于MvSL的方法相竞争,证明了其优越性。[1805.05029v2]

 

从艺术风格意象中学习自我抽象

Yicun Liu, Jimmy Ren, Jianbo Liu, Jiawei Zhang, Xiaohao Chen

艺术风格的转移可以被认为是生成不同版本的原始图像抽象的过程。然而,大多数艺术风格转换操作者并未针对人脸进行优化,因此在将其应用于自拍时主要遭受两种不合需要的特征。首先,人脸的边缘可能与原始图像中的边缘不协调。其次,皮肤的颜色远没有忠实于原始颜色,这在制作高质量自拍照时通常是有问题的。在本文中,我们采用了不同的方法,并将此抽象过程形成为梯度域学习问题。我们的目标是学习一种抽象类型,它不仅可以达到特定的艺术风格,还可以避免上述两个缺点,因此非常适用于自拍摄影。我们还表明,我们的方法可以直接推广到具有高帧间一致性的视频。我们的方法对非自拍图像也很有效,并讨论了对各种现实生活场景的推广。我们将公开我们的代码。[1805.02085v2]

 

Deep Perm-Set Net:学习使用深度神经网络预测具有未知排列和基数的集合

S. Hamid RezatofighiRoman KaskmanFarbod T. MotlaghQinfeng ShiDaniel CremersLaura Leal-TaixéIan Reid

许多现实世界的问题,例如对象检测,都有自然表达为实体集合的输出。这对传统的深层神经网络产生了挑战,这些神经网络自然处理结构化输出,如向量,矩阵或张量。我们提出了一种新的方法来学习使用深度神经网络来预测具有未知排列和基数的集合。具体而言,在我们的公式中,我们将排列组合为不可观测变量,并使用交替优化来估计其在学习过程中的分布。我们证明了这个新的公式在两个相关的视觉问题上的有效性:对象检测,我们的公式优于最先进的检测器,比如更快的R-CNNYOLO,以及复杂的CAPTCHA测试,我们观察到,出奇,我们基于集合的网络获得了模仿算术的能力,而没有任何规则被编码。[1805.00613v2]

 

UNIQ:统一噪声注入用于神经网络的非均匀量化

Chaim BaskinEli SchwartzEvgenii ZheltonozhskiiNatan LissRaja GiryesAlex M.BronsteinAvi Mendelson

我们提出了一种新的方法来训练一个神经网络适合推理在低精度算术与量化权重和激活。训练以完全精确的方式进行,使用仿真量化噪声的随机噪声注入。为了避免模拟实际量化噪声分布的需要,通过非线性变换使重量分布均匀化,并且注入均匀的噪声。该过程在推理时模拟非均匀k-分位量化器,其适应量化参数的特定分布。作为向噪声注入噪声的副产品,我们发现激活也可以被量化为低至8位,只有很小的精度下降。该方法实现了在ImageNet上训练低精度网络的最新成果。尤其是,我们观察到MobileNetResNet-18/34/50ImageNet上的准确性没有降低,权重低至4位量化。与类似的模型相比,我们的解决方案在低计算预算制度下实现了最新的精确结果。[1804.10969v2]

 

一种新的使用传输学习的通道增强卷积神经网络

阿西夫拉汗,阿纳比亚苏海尔,阿姆纳阿里

我们提出了深度卷积神经网络(CNN)中的Channel Boosting的新颖架构增强。Channel Boosting的这种想法既利用CNN(从多个渠道学习)的渠道维度,又利用转移学习(TL)。TL被用于两个不同的阶段,渠道生成和渠道开发。除了自己的原始频道外,深度CNN还可以通过已经受过训练的深度NN,通过TL获得各种频道。然后,CNN的深层架构利用原有的和增强的渠道来学习歧视性模式。由于数据的高维度和不平衡性,电信客户流失预测是一项具有挑战性的任务,因此用于评估所提议的CNNCBN)的性能。在第一阶段,使用放样的自动编码器提取区分性的信息特征,然后在第二阶段将这些特征与原始特征组合以形成频道增强图像。最后,通过使用TL来执行分类来利用预先训练的CNN。结果是有希望的,并且通过辨别搅动器和非搅动器中的微小差异,显示了Channel Boosting概念在学习复杂分类问题方面的能力。所提出的工作验证了从最近的CNN架构的演变观察到的观念,即创新的重组可能会增加网络的代表能力。[1804.08528v3] 最后,通过使用TL来执行分类来利用预先训练的CNN。结果是有希望的,并且通过辨别搅动器和非搅动器中的微小差异,显示了Channel Boosting概念在学习复杂分类问题方面的能力。所提出的工作验证了从最近的CNN架构的演变观察到的观念,即创新的重组可能会增加网络的代表能力。[1804.08528v3] 最后,通过使用TL来执行分类来利用预先训练的CNN。结果是有希望的,并且通过辨别搅动器和非搅动器中的微小差异,显示了Channel Boosting概念在学习复杂分类问题方面的能力。所提出的工作验证了从最近的CNN架构的演变观察到的观念,即创新的重组可能会增加网络的代表能力。[1804.08528v3] 所提出的工作验证了从最近的CNN架构的演变观察到的观念,即创新的重组可能会增加网络的代表能力。[1804.08528v3] 所提出的工作验证了从最近的CNN架构的演变观察到的观念,即创新的重组可能会增加网络的代表能力。[1804.08528v3]

 

使用深度学习框架的红外和可见光图像融合

Hui Li, Xiao-Jun Wu, Josef Kittler

近年来,深度学习已成为许多图像处理领域中非常活跃的研究工具。在本文中,我们提出了一种有效的图像融合方法,使用深度学习框架来生成包含红外和可见图像的所有特征的单个图像。首先,将源图像分解为基本部分和详细内容。然后基础部分通过加权平均来融合。对于细节内容,我们使用深度学习网络来提取多层功能。使用这些特征,我们使用l_1范数和加权平均策略来生成多个融合细节内容的候选项。一旦我们得到这些候选人,最大选择策略就用来获得最终的融合细节内容。最后,通过融合基础部分和细节内容来重构融合图像。实验结果表明,我们提出的方法在客观评估和视觉质量方面都达到了最先进的性能。我们的融合方法的代码可在https://github.com/exceptionLi/imagefusion_deeplearning [1804.06992v3]

 

注意U-Net:学习在哪里寻找胰腺

Ozan奥克塔伊,乔Schlemper,卢瓦克·Folgoc,马修·李,马蒂亚斯海因里希,十成三泽,森健作,史蒂芬·麦克唐纳,尼尔斯ÿHammerla,伯恩哈德Kainz,本Glocker,丹尼尔Rueckert

我们提出了一种用于医学成像的新型注意门(AG)模型,可自动学习将注意力集中在各种形状和大小的目标结构上。使用AG进行训练的模型隐式学习抑制输入图像中的不相关区域,同时突出显示对特定任务有用的显着特征。这使我们能够消除使用级联卷积神经网络(CNN)的显式外部组织/器官定位模块的必要性。AG可以很容易地集成到标准的CNN 系结构中,如U-Net模型,同时提高模型灵敏度和预测精度,同时计算开销最小。提出的注意U-Net体系结构在两个大型CT腹部数据集上进行评估,用于多级图像分割。实验结果表明,在保持计算效率的同时,AG在不同数据集和训练大小下一致地提高了U-Net的预测性能。所提出架构的代码是公开可用的。[1804.03999v3]

 

立体神经风格转移

Dongdong Chen, Lu Yuan, Jing Liao, Nenghai Yu, Gang Hua

本文介绍了立体神经风格转换的第一次尝试,它响应了对3D电影或AR / VR的新兴需求。我们首先仔细检查将现有的单眼式传输方法分别应用于立体图像的左视图和右视图。这表明原始视差一致性在最终的程式化结果中不能很好地保留,这导致观众的3D疲劳。为了解决这个问题,我们通过在非遮挡区域实施双向视差约束,将新的视差损失纳入广泛采用的样式损失函数中。对于一个实际的实时解决方案,我们通过联合训练一个程式化子网络和一个视差子网络来提出第一个前馈网络,并将它们集成到一个特征级中间域中。我们的视差子网络也是第一个同时进行双向视差和遮挡遮罩估计的端到端网络。最后,我们的网络通过考虑时间一致性和视差一致性而有效地扩展到立体视频。我们将证明所提出的方法在数量和质量上都明显优于基线算法。[1802.10591v2]

 

卷积神经网络与Runge-Kutta方法相结合

Mai Zhu, Bo Chang, Chong Fu

用于图像分类的卷积神经网络可以通过数学方法构建,因为它受视觉皮层腹侧流的启发,可视为多周期动力系统。本文提出了一种新的方法从动力系统视图构建网络模型。由于预激活残留网络可以被认为是使用欧拉方法的时间相关动力系统的近似,所以可以利用更高阶的龙格库塔方法(RK方法)来建立网络模型以实现更高的准确度。以这种方式构建的模型被称为Runge-Kutta卷积神经网络(RKNet)。RK方法还提供了从动态系统角度对密集卷积网络(DenseNets)的解释。所提出的方法在基准数据集上进行评估:CIFAR-10/100ImageNet。实验结果表明,RKNets与最先进的网络模型DenseNets具有相似的准确性。此外,实验结果与RK方法的理论性质一致,并支持动力学系统解释。[1802.08831v5]

 

张量场网络:三维点云的旋转和平移等变神经网络

Nathaniel ThomasTess SmidtSteven KearnesLusann Yang,李莉,Kai KohlhoffPatrick Riley

我们引入了张量场神经网络,这些网络与三维旋转,平移和各层点的排列是局部等变的。3D旋转等变性消除了对数据增强的需求,以识别任意方向的特征。我们的网络使用由球谐函数构建的滤波器由于这种滤波器选择的数学后果,从这些术语的几何意义上讲,每一层接受作为输入(并保证作为输出)的标量,矢量和高阶张量。我们展示了几何,物理和化学中任务的张量场网络的能力。[1802.08219v3]

 

用于图像分割的分段平坦嵌入

Chaowei Fang, Zicheng Liao, Yizhou Yu

我们引入了一种新的多维非线性嵌入分段平坦嵌入(PFE用于图像分割。基于稀疏信号恢复理论,分段平坦不同信道的嵌入尝试恢复具有稀疏区域边界和稀疏簇值散射的分段恒定图像表示。合成的分段平坦嵌入表现出令人感兴趣的特性,例如抑制缓慢变化的信号,并且提供具有较高区域可识别性的图像表示,这对于图像分割或高级语义分析任务是理想的。我们使用$ L_ {1p}0 <p \ leq1$正则化项来嵌入Laplacian Eigenmap嵌入的变体,以促进稀疏解。第一,我们设计了一个基于Bregman迭代的两阶段数值算法来计算$ L_ {1,1} $ – 正则化分段平坦嵌入。我们通过迭代重新加权来进一步推广这个算法来解决一般的$ L_ {1p} $正则化问题。为了展示其功效,我们将PFE整合到两个现有的图像分割框架中,基于聚类和基于轮廓检测的分层分割进行分割。对四个主要基准数据集BSDS500MSRC,斯坦福背景数据集和PASCAL Context进行的实验表明,结合我们嵌入的分割算法实现了显着改进的结果。[1802.03248v5] 为了展示其功效,我们将PFE整合到两个现有的图像分割框架中,基于聚类和基于轮廓检测的分层分割进行分割。对四个主要基准数据集BSDS500MSRC,斯坦福背景数据集和PASCAL Context进行的实验表明,结合我们嵌入的分割算法实现了显着改进的结果。[1802.03248v5] 为了展示其功效,我们将PFE整合到两个现有的图像分割框架中,基于聚类和基于轮廓检测的分层分割进行分割。对四个主要基准数据集BSDS500MSRC,斯坦福背景数据集和PASCAL Context进行的实验表明,结合我们嵌入的分割算法实现了显着改进的结果。[1802.03248v5]

 

旋转你的网络:更好的重量整合和更少的灾难性遗忘

夏磊刘,马克马萨纳,路易斯赫兰兹,Joost范德韦尔,安东尼奥M.洛佩兹,安德鲁D.巴格达诺夫

在本文中,我们提出了一种避免顺序任务学习场景中的灾难性遗忘的方法。我们的技术基于网络重新参数化,该参数近似将网络参数的Fisher信息矩阵对角化。该重新参数化采用参数空间的因式分解旋转的形式,当与弹性重量合并(其假设对角Fisher信息矩阵)结合使用时,导致连续任务的终身学习显着更好的性能。MNISTCIFAR-100CUB-200Stanford-40数据集上的实验结果表明,我们显着改善了标准弹性体重固结的结果,并且与其他最新的终身技术相比,我们获得了有竞争力的结果学习而不忘记。[1802

 

一种用于深度学习训练的新型协同设计Peta规模异构集群

Xin Chen, Hua Zhou, Yuxiang Gao, Yu Zhu

大规模深度卷积神经网络(CNN)日益要求计算能力。研究人员拥有强大的计算平台以利用深度学习(DL)推进是关键。另一方面,作为常用的加速器,新一代的商品GPU卡越来越昂贵。因此,设计一个负担得起的分布式异构系统非常重要,该系统可提供强大的计算能力,并开发一种能够高效利用其计算能力的非常合适的软件。在本文中,我们展示了我们的协同设计分布式系统,包括一个名为“Manoa”peta规模GPU集群。基于Manoa的属性和拓扑结构,我们首先提出作业服务器框架并实现它,命名为“MiMatrix”MiMatrix的中心节点,称为作业服务器,承担所有控制,调度和监控以及I / O任务,而不必为每次迭代中的AllReduce处理传递重量数据。因此,MiMatrix从本质上解决了分布式DL任务中广泛使用的参数服务器框架中中心节点的带宽瓶颈问题。同时,我们还提出了一种新的AllReduce算法,GPUDirect RDMA-Aware AllReduce~(GDRAA),其中计算和握手消息都是O1),并且在每次迭代中同步数是两个,这是理论上的最小数。由于专门的协同设计分布式系统,MiMatrix高效地利用了Manoa的计算能力和带宽。我们在Imagenet-1K数据集上测试Manoa Resnet50Resenet101。一些结果已经证明了最先进的技术。[1802.02326v3] 在每次迭代中进行AllReduce处理的所有控制,调度和监控,以及没有重量数据传输的I / O任务。因此,MiMatrix从本质上解决了分布式DL任务中广泛使用的参数服务器框架中中心节点的带宽瓶颈问题。同时,我们还提出了一种新的AllReduce算法,GPUDirect RDMA-Aware AllReduce~(GDRAA),其中计算和握手消息都是O1),并且在每次迭代中同步数是两个,这是理论上的最小数。由于专门的协同设计分布式系统,MiMatrix高效地利用了Manoa的计算能力和带宽。我们在Imagenet-1K数据集上测试Manoa Resnet50Resenet101。一些结果已经证明了最先进的技术。[1802.02326v3] 在每次迭代中进行AllReduce处理的所有控制,调度和监控,以及没有重量数据传输的I / O任务。因此,MiMatrix从本质上解决了分布式DL任务中广泛使用的参数服务器框架中中心节点的带宽瓶颈问题。同时,我们还提出了一种新的AllReduce算法,GPUDirect RDMA-Aware AllReduce~(GDRAA),其中计算和握手消息都是O1),并且在每次迭代中同步数是两个,这是理论上的最小数。由于专门的协同设计分布式系统,MiMatrix高效地利用了Manoa的计算能力和带宽。我们在Imagenet-1K数据集上测试Manoa Resnet50Resenet101。一些结果已经证明了最先进的技术。[1802.02326v3] 调度和监控以及I / O任务,而无需在每次迭代中处理AllReduce处理的重量数据。因此,MiMatrix从本质上解决了分布式DL任务中广泛使用的参数服务器框架中中心节点的带宽瓶颈问题。同时,我们还提出了一种新的AllReduce算法,GPUDirect RDMA-Aware AllReduce~(GDRAA),其中计算和握手消息都是O1),并且在每次迭代中同步数是两个,这是理论上的最小数。由于专门的协同设计分布式系统,MiMatrix高效地利用了Manoa的计算能力和带宽。我们在Imagenet-1K数据集上测试Manoa Resnet50Resenet101。一些结果已经证明了最先进的技术。[1802.02326v3] 调度和监控以及I / O任务,而无需在每次迭代中处理AllReduce处理的重量数据。因此,MiMatrix从本质上解决了分布式DL任务中广泛使用的参数服务器框架中中心节点的带宽瓶颈问题。同时,我们还提出了一种新的AllReduce算法,GPUDirect RDMA-Aware AllReduce~(GDRAA),其中计算和握手消息都是O1),并且在每次迭代中同步数是两个,这是理论上的最小数。由于专门的协同设计分布式系统,MiMatrix高效地利用了Manoa的计算能力和带宽。我们在Imagenet-1K数据集上测试Manoa Resnet50Resenet101。一些结果已经证明了最先进的技术。[1802.02326v3] 以及在每次迭代中不进行重量数据传输的I / O任务处理AllReduce处理。因此,MiMatrix从本质上解决了分布式DL任务中广泛使用的参数服务器框架中中心节点的带宽瓶颈问题。同时,我们还提出了一种新的AllReduce算法,GPUDirect RDMA-Aware AllReduce~(GDRAA),其中计算和握手消息都是O1),并且在每次迭代中同步数是两个,这是理论上的最小数。由于专门的协同设计分布式系统,MiMatrix高效地利用了Manoa的计算能力和带宽。我们在Imagenet-1K数据集上测试Manoa Resnet50Resenet101。一些结果已经证明了最先进的技术。[1802.02326v3] 以及在每次迭代中不进行重量数据传输的I / O任务处理AllReduce处理。因此,MiMatrix从本质上解决了分布式DL任务中广泛使用的参数服务器框架中中心节点的带宽瓶颈问题。同时,我们还提出了一种新的AllReduce算法,GPUDirect RDMA-Aware AllReduce~(GDRAA),其中计算和握手消息都是O1),并且在每次迭代中同步数是两个,这是理论上的最小数。由于专门的协同设计分布式系统,MiMatrix高效地利用了Manoa的计算能力和带宽。我们在Imagenet-1K数据集上测试Manoa Resnet50Resenet101。一些结果已经证明了最先进的技术。[1802.02326v3] MiMatrix从本质上解决了分布式DL任务中广泛使用的参数服务器框架中中心节点的带宽瓶颈问题。同时,我们还提出了一种新的AllReduce算法,GPUDirect RDMA-Aware AllReduce~(GDRAA),其中计算和握手消息都是O1),并且在每次迭代中同步数是两个,这是理论上的最小数。由于专门的协同设计分布式系统,MiMatrix高效地利用了Manoa的计算能力和带宽。我们在Imagenet-1K数据集上测试Manoa Resnet50Resenet101。一些结果已经证明了最先进的技术。[1802.02326v3] MiMatrix从本质上解决了分布式DL任务中广泛使用的参数服务器框架中中心节点的带宽瓶颈问题。同时,我们还提出了一种新的AllReduce算法,GPUDirect RDMA-Aware AllReduce~(GDRAA),其中计算和握手消息都是O1),并且在每次迭代中同步数是两个,这是理论上的最小数。由于专门的协同设计分布式系统,MiMatrix高效地利用了Manoa的计算能力和带宽。我们在Imagenet-1K数据集上测试Manoa Resnet50Resenet101。一些结果已经证明了最先进的技术。[1802.02326v3] GPUDirect RDMA-Aware AllReduce~(GDRAA),其中计算和握手消息都是O1),并且每次迭代中的同步数是两个,这是理论上的最小数。由于专门的协同设计分布式系统,MiMatrix高效地利用了Manoa的计算能力和带宽。我们在Imagenet-1K数据集上测试Manoa Resnet50Resenet101。一些结果已经证明了最先进的技术。[1802.02326v3] GPUDirect RDMA-Aware AllReduce~(GDRAA),其中计算和握手消息都是O1),并且每次迭代中的同步数是两个,这是理论上的最小数。由于专门的协同设计分布式系统,MiMatrix高效地利用了Manoa的计算能力和带宽。我们在Imagenet-1K数据集上测试Manoa Resnet50Resenet101。一些结果已经证明了最先进的技术。[1802.02326v3] 一些结果已经证明了最先进的技术。[1802.02326v3] 一些结果已经证明了最先进的技术。[1802.02326v3]

 

用于监控铁路运营商移动的人脸识别

S里提卡,Dattaraj Rao

培训试点是一项非常繁琐和压力大的工作。飞行员在任何时候都必须保持警惕,并且容易让他们忘记轮班时间。在像美国这样的国家,飞行员受法律强制要求坚持8小时轮班。如果他们超过8小时轮班,铁路可能会因为驾驶员过度疲劳而受到惩罚。当8小时轮班可能在旅途中结束时,问题就会发生。在这种情况下,新的司机必须转移到位置机车正在换班。因此,准确地监控驾驶员在换班期间的工作并确保正确安排换班对于铁路来说非常重要。在这里,我们提出了一个自动化摄像机系统,该系统使用安装在机车出租车内的摄像机连续记录视频馈送。实时分析这些馈送,以检测驾驶员的面部并使用最先进的深度学习技术识别驾驶员。结果是提高了火车驾驶员的安全性。摄像机不断从车载数据采集设备上存储的驾驶室内捕捉视频。利用先进的计算机视觉和深度学习技术,定期分析视频以检测飞行员的存在并识别飞行员。使用基于时间的分析,可以确定这种转变已经持续了多久。如果此时间超过了分配的班次时间,则会向调度发送警报以调整班次时间。[1802.01273v2] 摄像机不断从车载数据采集设备上存储的驾驶室内捕捉视频。利用先进的计算机视觉和深度学习技术,定期分析视频以检测飞行员的存在并识别飞行员。使用基于时间的分析,可以确定这种转变已经持续了多久。如果此时间超过了分配的班次时间,则会向调度发送警报以调整班次时间。[1802.01273v2] 摄像机不断从车载数据采集设备上存储的驾驶室内捕捉视频。利用先进的计算机视觉和深度学习技术,定期分析视频以检测飞行员的存在并识别飞行员。使用基于时间的分析,可以确定这种转变已经持续了多久。如果此时间超过了分配的班次时间,则会向调度发送警报以调整班次时间。[1802.01273v2]

 

非参数转换网络

Dipan K. PalMarios Savvides

ConvNets通过他们的体系结构,只强制执行翻译。在本文中,我们引入了一类称为非参数变换网络(NPTNs)的深度卷积体系结构,它可以直接从数据中学习一般的不变量和对称性。NPTNConvNets的一个自然泛化,可以直接使用梯度下降进行优化。与以往几乎所有深层架构的作品不同,他们对数据中存在的不变性的结构不做任何假设,并且在这方面灵活而强大。我们还在一个名为Transformation NetworksTN)的统一框架下对ConvNetsNPTN进行建模,从而更好地理解两者之间的联系。我们证明了NPTNs对数据的有效性,如MNIST具有极端转换和CIFAR10的性能优于基线,并且性能优于ETH-80上的最新算法。他们这样做,同时拥有相同数量的参数。我们表明它比ConvNets更有效地从数据建模对称性和不变性,而不需要明确知道添加的任意滋扰变换。最后,我们用胶囊网络内的NPTN代替ConvNets,并证明这使Capsule Nets的表现更好。[1801.04520v5] 没有明确的增加任意滋扰转变的知识。最后,我们用胶囊网络内的NPTN代替ConvNets,并证明这使Capsule Nets的表现更好。[1801.04520v5] 没有明确的增加任意滋扰转变的知识。最后,我们用胶囊网络内的NPTN代替ConvNets,并证明这使Capsule Nets的表现更好。[1801.04520v5]

 

用合成梯度标定解耦神经接口

Ekaba Bisong

人工神经网络是一种特殊类型的学习系统,它仿效生物神经功能,对Hebbian学习有兴趣,也就是连接在一起的神经元。然而,与它们的自然对应物不同,人工神经网络在网络中的神经元模块之间具有紧密且严格的耦合。这种耦合或锁定对网络施加了严格和不灵活的结构,以防止网络中的层更新其权重,直到发生完整的前馈和反向传递。这种约束虽然可能已经足够,但现在在超大规模机器学习的时代已经不再可行,再加上跨多个计算基础设施并行化学习过程的需求增加。为了解决这个问题,引入了具有解耦神经接口(DNI)的合成梯度(SG)作为反向传播算法的可行替代方案。本文执行速度基准来比较SG-DNI的速度和准确性能力,而不是使用多层感知器MLP的标准神经接口。SG-DNI显示出良好的前景,因为它不仅可以捕捉学习问题,而且由于它具有异步学习功能,因此速度也提高了3倍以上。[1712.08314v3] 因为它不仅捕捉到学习问题,而且由于它具有异步学习功能,因此速度也提高了3倍以上。[1712.08314v3] 因为它不仅捕捉到学习问题,而且由于它具有异步学习功能,因此速度也提高了3倍以上。[1712.08314v3]

 

从噪声文本的零射击学习生成敌对方法

Yizhe Zhu, Mohamed Elhoseiny, Bingchen Liu, Xi Peng, Ahmed Elgammal

大多数现有的零点学习方法将问题视为视觉语义嵌入问题。鉴于生成对抗网络(GAN)生成图像的能力,我们改为利用GAN来想象文本描述中看不见的类别,从而识别没有看到任何示例的新类。具体而言,我们提出了一个简单而有效的生成模型,它将输入的关于一个看不见的类的嘈杂的文本描述(例如维基百科文章)作为输入并为该类生成合成的视觉特征。通过添加伪数据,零点学习自然地转换为传统的分类问题。此外,为了保持产生的特征的类间歧视,提出视觉枢轴正则化作为明确的监督。与以前使用复杂工程正则化器的方法不同,我们的方法可以很好地抑制噪音,无需额外的正则化。从经验上讲,我们证明了我们的方法在基于文本的零点学习的最大可用基准测试中始终优于最先进的技术。[1712.01381v3]

 

基于分层混合密度网络的闭塞感知手姿态估计

齐野,金泰成

学习和预测给定图像的3D手部模型的姿态参数(诸如手关节的位置)是具有挑战性的,因为视点变化和关节较大,并且在自我中心视图中尤其表现出严重的自我遮挡。已经研究了特征学习和预测建模来解决这个问题。尽管有效,但大多数现有的判别方法都会对目标姿态进行单一确定性估计。由于其内在的单值映射,它们未能充分处理自闭塞问题,其中闭塞的关节呈现多种模式。在本文中,我们解决了自遮挡问题,并通过称为分层混合密度网络(HMDN)的新方法给出了输入深度图像的观察姿态的完整描述。所提出的方法利用基于卷积神经网络的最先进的手姿态估计器来促进特征学习,同时它在两级层次结构中模拟多个模式以在其输出中协调单值和多值映射。具有两种可区分密度函数混合的整个框架自然是端到端可训练的。在实验中,HMDN产生可解释的和多样化的候选样本,并且在两个具有遮挡的基准上显着优于最先进的方法,并且在没有遮挡的另一个基准上表现相当。[1711.10872v2] 具有两种可区分密度函数混合的整个框架自然是端到端可训练的。在实验中,HMDN产生可解释的和多样化的候选样本,并且在两个具有遮挡的基准上显着优于最先进的方法,并且在没有遮挡的另一个基准上表现相当。[1711.10872v2] 具有两种可区分密度函数混合的整个框架自然是端到端可训练的。在实验中,HMDN产生可解释的和多样化的候选样本,并且在两个具有遮挡的基准上显着优于最先进的方法,并且在没有遮挡的另一个基准上表现相当。[1711.10872v2]

 

学习寻找好的信件

Kwang Moo YiEduard TrullsYuki OnoVincent LepetitMathieu SalzmannPascal Fua

我们开发了一个深层架构,以学习如何为宽基线立体声找到良好的对应关系。给定一组假定的稀疏匹配和相机内在因素,我们以端到端的方式训练我们的网络,将对应关系标记为内点或外点,同时使用它们恢复由基本矩阵编码的相对位姿。我们的架构基于多层感知器,基于像素坐标而不是直接在图像上运行,因此简单而小巧。我们引入了一种称为上下文规范化的新型规范化技术,它允许我们分别处理每个数据点,同时注入全局信息,并使网络对于对应关系的顺序不变。我们对多个具有挑战性的数据集进行的实验表明,我们的方法能够大幅度提高最少的培训数据。[1711.05971v2]

 

月光:用廉价卷积蒸馏

艾略特J.克劳利,加文格雷,阿莫斯Storkey

许多工程师希望在记忆有限的环境中部署现代神经网络但是减少内存使用的灵活方法的发展还处于起步阶段,而且由此产生的成本效益知之甚少。我们提出结构模型蒸馏减少记忆的方法,使用一种产生学生体系结构的策略,该体系结构是对教师体系结构的简单转换:不需要重新设计,并且可以使用相同的超参数。使用注意力转移,我们提供帕累托曲线/表格用于蒸馏具有四个基准数据集的残余网络,指示记忆与准确性回报。我们表明,大量的内存节省是可能的,精度损失很少,并确认蒸馏提供的学生网络性能优于直接在数据上培训学生架构。[1711.02613v2]

 

强大的阅读竞赛诠释与评估平台

Dimosthenis KaratzasLluisGómezAngulos NicolaouMarçalRusiñol

ICDAR健壮阅读竞赛(RRC)于2003年启动,并于2011年重新建立,已成为稳健阅读系统和算法的实际评估标准。在2011年的第二次化身的同时,持续的努力开始发展在线框架以促进举办和管理比赛。本文概述了健全的阅读竞赛注释和评估平台,这是比赛的中坚力量。RRC注释和评估平台是一个模块化框架,可通过在线界面完全访问。它包括一系列工具和服务,用于管理涉及定义和评估研究任务的所有过程,从数据集定义到注释管理,评估规范和结果分析。尽管该框架的设计考虑了强大的阅读研究,但许多提供的工具都是通用设计。RRC注释和评估框架的所有方面均可用于研究用途。[1710.06617v2]

 

图像超分辨率局部显着图和生成敌对网络的视网膜血管分割

Dwarikanath MahapatraBehzad Bozorgtabar

我们提出了一种使用生成对抗网络(GAN)的图像超分辨率(ISR)方法,该网络采用低分辨率输入眼底图像并生成高达16美元的高分辨率超分辨率(SR)图像。这有利于更精确的自动图像分析,特别是对于小的或模糊的地标和病理。定义每个像素重要性的局部显着图用于定义GAN成本函数中的新显着性损失。实验结果表明,由此产生的SR图像的感知质量非常接近原始图像,并且性能优于竞争方法,根据其重要性对像素进行权重。当用于视网膜脉管系统分割时,我们的SR图像导致精确度接近使用原始图像时获得的精度。[1710.04783v3]

 

更注重显着性:突出显示和上下文关注的图像标题

Marcella CorniaLorenzo BaraldiGiuseppe SerraRita Cucchiara

由于深层字幕体系结构(将卷积神经网络提取图像表示以及使用递归神经网络生成相应字幕)结合在一起显示出令人瞩目的成就,因此图像字幕最近受到了很多关注。同时,一项重大的研究工作一直致力于显着预测模型的开发,该预测模型可以预测人眼注视。尽管显着性信息可能有助于调整图像字幕体系结构,但通过提供什么是显着的和什么不显示的指示,研究仍然在努力融合这两种技术。在这项工作中,我们提出了一种图像字幕的方法,其中生成回归神经网络可以在字幕的生成期间集中于输入图像的不同部分,通过利用显着性预测模型给出的调节,其中图像的部分是突出的,哪些是情境。我们通过对大规模数据集进行广泛的定量和定性实验,表明我们的模型在显着性和无显着性的字幕基线方面实现了卓越的性能,并且结合了显着性和字幕组合的不同状态。[1706.08474v4] 我们的模型在有和无显着性的字幕基线方面取得了优异的表现,并结合了显着性和字幕组合的不同状态。[1706.08474v4] 我们的模型在有和无显着性的字幕基线方面取得了优异的表现,并结合了显着性和字幕组合的不同状态。[1706.08474v4]

 

用于移动应用的高容量彩色QR码的快速解码

Zhibo Yang, Huanle Xu, Jianyuan Deng, Chen Change Loy, Wing Cheong Lau

QR码中颜色的使用带来了额外的数据容量,但由于色彩失真,交叉通道色彩干扰和光照变化等因素,也会对解码过程带来巨大挑战。特别是,我们进一步发现了高密度彩色QR码中的一种新型彩色失真,由高密度引起的跨模块色彩干扰,这也使得几何失真校正更具挑战性。为了解决这些问题,我们提出了两种方法,即LSVM-CMIQDA-CMI,它们共同模拟这些不同类型的色差。分别从SVMQDA扩展,LSVM-CMIQDA-CMI分别针对特定的目标函数进行优化,以学习颜色分类器。此外,为了提高移动应用的解码性能,提出了鲁棒的几何变换方法和几种流水线优化。我们提出并实施了一个配备我们的方法的高容量彩色QR码框架,称为HiQ。为了评估HiQ的性能,我们收集了一个具有挑战性的大规模彩色QR码数据集CUHK-CQRC,其中包含5390个高密度彩色QR码样本。与CUHK-CQRC的基线方法[2]的比较表明,HiQ在解码成功率方面至少胜过[2] 188%,在误码率方面胜过60%。我们在iOSAndroid中实现HiQ也证明了我们的框架在实际应用中的有效性。[1704.06447v3] 我们提出并实施了一个配备我们的方法的高容量彩色QR码框架,称为HiQ。为了评估HiQ的性能,我们收集了一个具有挑战性的大规模彩色QR码数据集CUHK-CQRC,其中包含5390个高密度彩色QR码样本。与CUHK-CQRC的基线方法[2]的比较表明,HiQ在解码成功率方面至少胜过[2] 188%,在误码率方面胜过60%。我们在iOSAndroid中实现HiQ也证明了我们的框架在实际应用中的有效性。[1704.06447v3] 我们提出并实施了一个配备我们的方法的高容量彩色QR码框架,称为HiQ。为了评估HiQ的性能,我们收集了一个具有挑战性的大规模彩色QR码数据集CUHK-CQRC,其中包含5390个高密度彩色QR码样本。与CUHK-CQRC的基线方法[2]的比较表明,HiQ在解码成功率方面至少胜过[2] 188%,在误码率方面胜过60%。我们在iOSAndroid中实现HiQ也证明了我们的框架在实际应用中的有效性。[1704.06447v3] CUHK-CQRC的基线方法[2]的比较表明,HiQ在解码成功率方面至少胜过[2] 188%,在误码率方面胜过60%。我们在iOSAndroid中实现HiQ也证明了我们的框架在实际应用中的有效性。[1704.06447v3] CUHK-CQRC的基线方法[2]的比较表明,HiQ在解码成功率方面至少胜过[2] 188%,在误码率方面胜过60%。我们在iOSAndroid中实现HiQ也证明了我们的框架在实际应用中的有效性。[1704.06447v3]

 

树记忆网络建模长期时间依赖性

塔林杜费尔南多,西蒙登曼,亚伦麦克菲迪恩,斯里达斯里达兰,克林顿福克斯

在序列建模领域,递归神经网络(RNN)能够在各种应用领域取得令人瞩目的成果,包括视觉问题解答,词性标注和机器翻译。然而,这种对短期依赖建模的成功还没有成功转移到应用领域,如需要捕获短期和长期关系的轨迹预测。在本文中,我们提出了一个树内存网络(TMN),用于模拟序列到序列映射问题中的长期和短期关系。所提出的网络架构由输入模块,控制器和存储器模块组成。与将内存建模为一系列历史状态的相关文献相比,我们将内存建模为递归树结构。该结构使用其分层结构更有效地捕捉短期和长期序列的时间依赖关系。我们在两个实际问题中展示了所提议的TMN的有效性和灵活性,即飞机轨迹建模和监控环境中的行人轨迹建模,并且在这两种情况下,我们都超越了当前最先进的技术。此外,我们深入分析了内存模块内容随时间的变化,并提供了关于如何通过分层结构有效地映射长期和短期关系的视觉证据。[1703.04706v2] 我们在两个实际问题中展示了所提议的TMN的有效性和灵活性,即飞机轨迹建模和监控环境中的行人轨迹建模,并且在这两种情况下,我们都超越了当前最先进的技术。此外,我们深入分析了内存模块内容随时间的变化,并提供了关于如何通过分层结构有效地映射长期和短期关系的视觉证据。[1703.04706v2] 我们在两个实际问题中展示了所提议的TMN的有效性和灵活性,即飞机轨迹建模和监控环境中的行人轨迹建模,并且在这两种情况下,我们都超越了当前最先进的技术。此外,我们深入分析了内存模块内容随时间的变化,并提供了关于如何通过分层结构有效地映射长期和短期关系的视觉证据。[1703.04706v2] 我们深入分析了内存模块内容随时间的变化,并提供了关于如何通过分层结构有效地映射长期和短期关系的视觉证据。[1703.04706v2] 我们深入分析了内存模块内容随时间的变化,并提供了关于如何通过分层结构有效地映射长期和短期关系的视觉证据。[1703.04706v2]

 

基于共识的医学图像分割使用半监督学习和图切割

Dwarikanath Mahapatra

医学图像分割需要从多个专家注释中导出共识基础真实分割。提出了一种新颖的方法,使用图形切割(GC)和半监督学习(SSL)从专家获得共识分段。流行的方法使用迭代预期最大化(EM)来估计最终注释并量化注释器的性能。这些技术会造成陷入局部最小值的风险。我们提出一个自我一致性(SC)评分来量化使用低级图像特征的注释器一致性。SSL用于通过考虑全局特征和本地图像一致性来预测缺失的注释。SC评分还用作二阶马尔科夫随机场(MRF)成本函数中的罚金成本,该函数使用图形切割优化以得出最终共识标签。图切除在没有迭代过程的情况下获得全局最大值。合成图像的实验结果,克罗恩病患者的真实数据和视网膜图像显示我们的最终分割比相互竞争的方法更准确和更一致。[1612.02166v3]

 

Finsler弹性最小路径方法的全局最小值

Da ChenJean-Marie Mirebeau,劳伦斯D.科恩

在本文中,我们通过定向提升的Finsler度量和欧拉弹性曲线提出了一种新颖的曲率惩罚最小路径模型。原始最小路径模型通过求解Eikonal偏微分方程(PDE)来计算全局最小测地线。实质上,这个一阶模型不能对经典活动轮廓模型中与路径刚度特性相关的曲率进行惩罚。为了解决这个问题,我们提出了一种基于Eikonal PDEFinsler elastica最小路径方法来解决曲率惩罚测地线能量最小化问题。我们成功地将曲率处罚添加到经典测地线能量中。这项工作的基本思想是通过嵌入曲率代价的新颖Finsler弹性度量来解释欧拉弹性弯曲能量。这个度量是非黎曼的,各向异性的和不对称的,并且通过在图像域中将方向作为额外的空间维度添加到定向提升的空间上来定义。基于这种取向提升,所提出的最小路径模型可受益于路径的曲率和方向。由于采用快速前进方法,可以高效地计算曲率处罚测地线能量的全局最小值。我们介绍两种由可控滤波器计算的各向异性图像数据驱动速度函数。基于这些取向依赖速度函数,我们可以将所提出的Finsler弹性最小路径模型应用于闭合轮廓检测,感知分组和管状结构提取的应用。对合成和真实图像进行的数值实验表明,所提出模型的这些应用确实获得了有希望的结果。[1612.00343v3]

转载请注明:《需要多少样本来学习卷积神经网络?+一种简单的图像识别缓存模型

发表评论