VoxCeleb2:基于深度学习的说话人识别+EL-GAN:嵌入损耗驱动的生成对抗网络车道检测

使用分段和主体级别非本地建模的心脏运动评分

Wufeng Xue, Gary Brahm, Stephanie Leung, Ogla Shmuilovich, Shuo Li

心肌运动评分对于早期发现和诊断各种心脏疾病非常重要。它旨在将区域性运动分为四种类型之一,包括正常运动,运动减弱运动,运动不能运动和运动障碍运动,并且由于复杂的心肌变形和运动模式之间的细微差异,极具挑战性。所有关于自动运动分析的工作都集中在二进制异常检测上,以避免更为苛刻的运动评分,这是临床实践中迫切需要的,但从未被调查过。在这项工作中,我们提出Cardiac-MOS,这是第一个基于深度卷积神经网络的强大的心脏运动评分方法。由于卷积的局部性,特征图的远距离非局部响应之间的关系不能被探索,这与段之间的运动差异密切相关。在Cardiac-MOS中,这样的非局部关系在每个片段内以及一个主题的所有片段(即片段和主体层面的非局部建模)中与非局部神经网络建模,并导致明显的性能改善。此外,Cardiac-MOS可以通过沿时间维插值卷积核来有效地从各种长度的MR序列中提取运动信息,因此可以应用于多源MR序列。对90例多个长度短轴MR序列患者的1440个心肌节段进行实验,证明Cardiac-MOS实现了可靠的性能,相关性为0。运动评分指数估计为926,运动评分为77.4%。Cardiac-MOS也优于所有现有的二进制异常检测工作。作为第一个自动运动计分解决方案,Cardiac-MOS在未来的临床应用中显示出巨大的潜力。[1806.05569v1]

 

神经网络预测的分层解释

Chandan SinghW. James MurdochBin Yu

深度神经网络(DNN)由于能够学习变量之间复杂的非线性关系而获得了令人印象深刻的预测性能。然而,无法有效地将这些关系可视化导致DNN被定性为黑盒子,并因此限制了它们的应用。为了改善这个问题,我们通过我们提出的方法凝聚上下文分解(ACD),引入层次解释来解释DNN预测。给定来自训练的DNN的预测,ACD产生输入要素的层次聚类,以及每个聚类对最终预测的贡献。此层次结构经过优化,可识别DNN获知的功能集群是预测性的。使用斯坦福大学Sentiment TreebankImageNet的例子,我们显示ACD在诊断不正确的预测和识别数据集偏倚方面是有效的。通过人体实验,我们证明ACD使用户既能够识别更准确的两个DNN,又能更好地信任DNN的输出。我们还发现,ACD的层次结构对对抗性扰动具有很强的鲁棒性,这意味着它捕捉输入的基本方面并忽略寄生噪声。[1806.05337v1]

 

GLoMo:无监督地学习关系图作为可转移表示

Zhilin Yang, Jake, Zhao, Bhuwan Dhingra, Kaiming He, William W. Cohen, Ruslan Salakhutdinov, Yann LeCun

现代深度转移学习方法主要侧重于从一个任务中学习通用特征向量,这些向量可转移到其他任务,如语言中的词嵌入和视觉中的预训练卷积特征。但是,这些方法通常会传递一元特征,并且很大程度上忽略更多结构化的图形表示 这项工作探讨了学习通用潜在关系图的可能性,该图从大规模未标记数据中捕获数据单元对(例如,单词或像素)之间的依赖关系,并将图传输到下游任务。我们提出的转移学习框架可以提高各种任务的性能,包括问题回答,自然语言推理,情感分析和图像分类。我们还表明,学习图形足够通用,可以转移到图形未经过训练的不同嵌入(包括GloVe嵌入,ELMo嵌入和任务特定的RNN隐藏单元),或者无嵌入单元(如图像像素。[1806.05662v1]

 

VoxCeleb2:基于深度学习的说话人识别

Joon Son ChungArsha NagraniAndrew Zisserman

本文的目的是在嘈杂和不受限制的条件下进行说话人识别。我们做出两项重要贡献。首先,我们介绍一个从开源媒体收集的非常大规模的视听说话人识别数据集。使用全自动管道,我们策划VoxCeleb2,其中包含超过6000个扬声器的超过一百万个话语。这是任何公开可用的说话人识别数据集的几倍。其次,我们开发并比较卷积神经网络(CNN)模型和训练策略,可以在各种条件下有效识别来自语音的身份。在VoxCeleb2数据集上训练的模型比基准数据集先前的工作性能高出很多。[1806.05622v1]

 

用权重平均法改进基于一致性的半监督学习

Ben AthiwaratkunMarc FinziPavel IzmailovAndrew Gordon Wilson

深度无监督学习的最新进展重新引起了对半监督方法的兴趣,它们可以从标记和未标记的数据中学习。目前最成功的半监督学习方法是基于一致性正则化的,因此模型被训练成对其输入和参数的小扰动是鲁棒的。我们表明,一致性正则化导致更平坦但更窄的最优值。我们还表明,这些方法的测试误差表面在SGD所穿过的重量空间区域内近似凸起。受这些观察的启发,我们提出使用随机加权平均(SWA)来训练基于一致性的半监督模型,SWA是最近一种沿SGD的轨迹平均权重的方法。我们还开发快速SWA,这通过对循环学习速率时间表的每个周期内的多个点进行平均来进一步加速收敛。使用快速SWA,我们在CIFAR-10CIFAR-100上实现了许多不同数量的观察训练标签上最有名的半监督结果。例如,我们在CIFAR-10上只有4000个标签,误差为5.0%,而文献中以前的最佳结果为6.28%。我们还将从CIFAR-10STL的领域适应从80%的准确度提高到83%的最佳结果。最后,我们展示了使用快速SWA,简单的$ \ Pi $模型成为大型标签设置的最新技术。[1806.05594v1] 我们在仅有4000个标签的CIFAR-10上实现了5.0%的误差,而文献中以前的最佳结果的误差为6.28%。我们还将从CIFAR-10STL的领域适应从80%的准确度提高到83%的最佳结果。最后,我们展示了使用快速SWA,简单的$ \ Pi $模型成为大型标签设置的最新技术。[1806.05594v1] 我们在仅有4000个标签的CIFAR-10上实现了5.0%的误差,而文献中以前的最佳结果的误差为6.28%。我们还将从CIFAR-10STL的领域适应从80%的准确度提高到83%的最佳结果。最后,我们展示了使用快速SWA,简单的$ \ Pi $模型成为大型标签设置的最新技术。[1806.05594v1]

 

神经听诊器:统一分析,辅助和敌对网络探测

Fabian B. FuchsOliver GrothAdam R. KosoriekAlex BewleyMarkus WulfmeierAndrea VedaldiIngmar Posner

模型可解释性和系统性,有针对性的模型适应性为解决有限或有偏差的数据集提供了机器学习的核心原则。在本文中,我们引入神经听诊器作为量化深度网络中特定影响因素重要程度的框架,以及适当地积极促进和抑制信息。为此,我们统一了多任务学习的概念以及辅助和对抗性损失的培训。我们展示了神经听诊器在直觉物理领域的功效。具体而言,我们研究了视觉预测块塔稳定性的挑战,并证明网络使用视觉线索,这使得它容易受到数据集中的偏差影响。通过使用听诊器,我们询问整个网络堆栈中特定信息的可访问性,并显示我们能够主动地去偏置网络预测,并通过适当的辅助和敌对听诊器损失来提高性能。[1806.05502v1]

 

无私的顺序学习

Rahaf AljundiMarcus RohrbachTinne Tuytelaars

顺序学习研究一系列学习任务的问题,只能访问当前任务的数据。在具有固定模型能力的环境中,学习过程不应该是自私的,并且需要添加以后的任务,因此旨在利用最少数量的神经元,为未来的需求留下足够的容量。我们探索不同的正则化策略和激活函数,可以减少不同任务之间的干扰。我们表明,学习稀疏表示对序贯学习更有利,而不是鼓励参数稀疏性,而不管它们对应的神经元如何。我们特别提出了一种新颖的正则化算法,鼓励通过神经抑制来表示稀疏性。它导致几个活跃的神经元,从而留下更多的自由神经元被即将到来的任务利用。我们结合我们的正规化者和先进的终身学习方法,惩罚重要的以前学过的网络部分的变化。我们表明,增加的稀疏性可以转化为在序列中学习的不同任务的性能改进。[1806.05421v1]

 

通过级联放大回归网络直接自动定量测量脊柱

Shumao Pang, Stephanie Leung, Ilanit Ben Nachum, Qianjin Feng, Shuo Li

脊柱的自动定量测量(即椎体和椎间盘的高度,宽度,面积等的多项指标估计)在临床脊柱疾病诊断如骨质疏松症,椎间盘退变和腰椎中极为重要椎间盘突出,但仍然是前所未有的挑战,由于脊柱结构的多样性和要估计的指数的高维度。在本文中,我们提出了一种新颖的级联放大器回归网络(CARN),它包括CARN架构和局部形状约束流形正则化(LSCMR)损失函数,以实现精确的直接自动化多指标估计。CARN架构由用于表达特征嵌入的级联放大器网络(CAN)和用于多指数估计的线性回归模型组成。CAN由级联放大器单元(AU)组成,用于在传播邻近层之间的特征映射期间通过激励有效特征和抑制冗余特征来选择性地重用特征,从而获得表达特征嵌入。在训练期间,LSCMR被用来缓解过度拟合并通过学习多个指数分布来产生逼真的估计。对195名受试者的MR图像进行的实验表明,所提出的CARN在估计盘的15个高度,15个椎体高度和总指数时分别实现了令人印象深刻的性能,其平均绝对误差分别为1.2496mm1.2887mm1.2692mm。该方法在临床脊柱疾病诊断中具有很大的潜力。[1806.05570v1]

 

ReConvNet:视频对象分割与时空特征调制

Francesco LattariMarco CicconeMatteo MatteucciJonathan MasciFrancesco Visin

我们介绍了ReConvNet,一种用于半监督视频对象分割的递归卷积体系结构,能够快速调整其特征,以便在推理时聚焦于感兴趣的对象。已知在训练期间未观察到的新对象被认为是需要在新实例上进行再训练的受监督方法的艰巨任务。为了解决这个问题,我们提出了一个更有效的解决方案,该方案学习时空特征,可以通过仿射变换对模型本身进行调整,以对序列的第一帧中的对象进行调节。这种方法很简单,可以进行端对端培训,并且不需要在推理时进行额外的培训。我们的方法在DAVIS2016上显示了与使用在线微调相关的现有技术方法的可比结果,并在DAVIS2017上超越他们。ReConvNetDAVIS-Challenge 2018展会上也取得了令人满意的成果,并以$ 10 $的价格排名。[1806.05510v1]

 

Copycat CNN:用随机非标记数据说服口供窃取知识

Jacson Rodrigues Correia-SilvaRodrigo F. BerrielClaudine BadueAlberto F. de SouzaThiago Oliveira-Santos

在过去的几年中,卷积神经网络(CNN)一直在各种问题上取得了最先进的性能。许多公司聘请资源和资金来生成这些模型并将其作为API提供,因此保护它们是最有利的,即避免其他人复制它们。最近的研究表明,最先进的CNN很容易遭受敌对的例子攻击,而这种弱点表明CNN不需要在问题域(PD)中运行。因此,我们假设他们也不需要通过PD的例子进行培训以便在其中进行操作。鉴于这些事实,在本文中,我们调查目标黑盒CNN是否可以通过说服它通过随机无标签数据来承认它的知识而被复制。该副本是双重的:i)用随机数据查询目标网络,并使用其预测来创建具有网络知识的假数据集ii)复制网络用假数据集进行训练,并且应该能够实现与目标网络相似的性能。这个假设在三个问题(面部表情,对象和人行横道分类)和基于云的API中进行了局部评估。在复制攻击中,使用了来自非问题域和PD的图像。所有模仿网络实现了至少93.7%的具有无问题域数据的原始模型的性能,并且至少有98.6%使用来自PD的额外数据。另外,模仿CNN的成功复制了至少97.3%的Microsoft Azure Emotion API性能。我们的结果表明,通过简单地将目标网络查询为带有随机未标记数据的黑盒子,可以创建一个模仿CNN[1806.05476v1]

 

EL-GAN:嵌入损耗驱动的生成对抗网络车道检测

Mohsen GhafoorianCedric NugterenNóraBakaOlaf BooijMichael Hofmann

卷积神经网络已成功应用于语义分割问题。然而,有许多问题本质上不是像素分类问题,而是经常被表述为语义分割。因此,这种不适合的表述需要手工制作的特定场景和计算上昂贵的后处理方法,以将每像素概率图转换为最终期望的输出。生成对抗网络(GAN)可用于使语义分割网络输出更真实或更好地保留结构,从而降低对潜在复杂后处理的依赖性。在这项工作中,我们提出了EL-GAN:一种GAN框架,以减少使用嵌入损失讨论的问题。有了EL-GAN,我们基于学习的标签和预测的嵌入同时进行区分。由于具有更好的区别性信息,这样可以获得更稳定的培训,因为可以同时看到预测,从而大大稳定对抗性培训流程。我们使用TuSimple车道标记挑战来证明,使用我们提出的框架,克服将其作为语义分割问题的固有异常是可行的。与传统方法相比,不仅输出更加类似于标签,随后的后处理更简单,并且跨越竞争性的96%准确度阈值。[1806.05525v1] 由于具有更好的区别性信息,这样可以获得更稳定的培训,因为可以同时看到预测,从而大大稳定对抗性培训流程。我们使用TuSimple车道标记挑战来证明,使用我们提出的框架,克服将其作为语义分割问题的固有异常是可行的。与传统方法相比,不仅输出更加类似于标签,随后的后处理更简单,并且跨越竞争性的96%准确度阈值。[1806.05525v1] 由于具有更好的区别性信息,这样可以获得更稳定的培训,因为可以同时看到预测,从而大大稳定对抗性培训流程。我们使用TuSimple车道标记挑战来证明,使用我们提出的框架,克服将其作为语义分割问题的固有异常是可行的。与传统方法相比,不仅输出更加类似于标签,随后的后处理更简单,并且跨越竞争性的96%准确度阈值。[1806.05525v1] 我们使用TuSimple车道标记挑战来证明,使用我们提出的框架,克服将其作为语义分割问题的固有异常是可行的。与传统方法相比,不仅输出更加类似于标签,随后的后处理更简单,并且跨越竞争性的96%准确度阈值。[1806.05525v1] 我们使用TuSimple车道标记挑战来证明,使用我们提出的框架,克服将其作为语义分割问题的固有异常是可行的。与传统方法相比,不仅输出更加类似于标签,随后的后处理更简单,并且跨越竞争性的96%准确度阈值。[1806.05525v1]

 

SCSP:具有软自适应方式的谱聚类滤波器修剪

Huiyuan Zhuo, Xuelin Qian, Yanwei Fu, Heng Yang, Xiangyang Xue

深度卷积神经网络(CNN)在计算机视觉领域取得了显着的成功。然而,深度复杂模型的高计算成本阻碍了在具有有限存储器和计算资源的边缘设备上的部署。在本文中,我们提出了一种新的卷积神经网络压缩滤波器修剪,即带有软自适应方式的频谱聚类滤波修剪(SCSP)。我们首先在滤波器上逐层应用谱聚类来探索它们的内在联系,并只依靠高效的组。通过自适应方式,修剪操作可以在几个时期完成,让网络逐渐选择有意义的组。根据这一战略,我们不仅在保持相当的性能的同时实现模型压缩,而且为解释模型压缩过程找到了一个新的角度。[1806.05320v1]

 

通过鲁棒区域建议的相关性跟踪

Yuqi Han, Jinghong Nan, Zengshuo Zhang, Jingjing Wang, Baojun Zhao

最近,基于相关滤波器的跟踪器由于其简单和优越的速度而受到广泛的关注。然而,由于预定义的采样策略,当目标经历遮挡,视点改变或其他具有挑战性的属性时,这样的跟踪器表现不佳。为了解决这些问题,在本文中,我们提出了一种自适应区域提议方案来促进视觉跟踪。更具体地说,提倡一种新颖的跟踪监测指标来预测跟踪失败。之后,我们分别包含检测和缩放建议,从模型漂移中恢复以及处理宽高比变化。我们在几个具有挑战性的序列上测试了所提出的算法,这证明了所提出的跟踪器对于最先进的跟踪器有良好的性能。[1806.05530v1]

 

对称正定流形上的凸类模型

Kun Zhao, Arnold Wiliem, Shaokang Chen, Brian C. Lovell

对称正定(SPD)流形特征的有效性已在各种计算机视觉任务中得到验证。然而,由于这些特征的非欧几里得几何,现有的欧几里得机器不能直接使用。在本文中,我们用有限的SPD流形训练数据来处理分类任务。我们提出的框架,名为歧管凸类模型,使用凸模型表示SPD流形上的每个类,并且可以通过计算与凸模型的距离来执行分类。我们提供了三种基于不同度量的方法来解决点到SPD流形上的凸模型的最小距离的优化问题。我们提出的框架的功效在合成数据和几个计算机视觉任务上都得到了证明,包括对象识别,纹理分类,人员重新识别和交通场景分类。[1806.05343v1]

 

交互分类深度学习解释

Angel CabreraFred HohmanJason LinHorng Chau

我们提出了一个交互式系统,使用户能够操纵图像来探索深度学习图像分类器的鲁棒性和灵敏度。使用现代网络技术运行浏览器内推断,用户可以使用修复算法移除图像特征,并实时获得新的分类,这使得他们可以通过实验性修改图像并查看模型如何反应来提出各种假设问题。我们的系统允许用户比较和对比人类和机器学习模型用于分类的图像区域,揭示了范围广泛的令人惊讶的结果,包括壮观的失败(例如,当移除人时水瓶图像变成音乐会)令人印象深刻的韧性(例如,棒球运动员” 即使没有手套或底座,图像仍能正确分类)。我们在2018年计算机视觉与模式识别(CVPR)会议上展示我们的系统,供观众现场试用。我们的系统通过https://github.com/poloclub/interactive-classification进行开源。视频演示可在https://youtu.be/llub5GcOF6w获取。[1806.05660v1]

 

Fire SSD:边缘设备上基于宽火模块的单次探测器

Hengfui Liau, Nimmagadda Yamini, YengLiong Wong

随着边缘计算的出现,越来越需要运行基于卷积神经网络的小型边缘计算设备上的物体检测,而计算和热预算有限,适用于视频监控等应用。为了解决这个问题,提出了有效的对象检测框架,如YOLOSSD。但是,使用VGG16作为后端网络的基于SSD的对象检测不足以在边缘设备上实现实时速度。为了进一步提高检测速度,后端网络被更高效的网络取代,如SqueezeNetMobileNet。虽然速度大大提高,但它的准确性较低。在本文中,我们提出了一种名为Fire SSD的高效SSDFire SSDPascal VOC 2007测试装置上达到70.7mAPFire SSD达到30的速度。6FPS在低功耗主流CPU上的速度比SSD3006倍左右,并且尺寸缩小了约4倍。集成GPU上的Fire SSD也达到了22.2FPS[1806.05363v1]

 

基于文本的完整性

Hoa Trong VuClaudio GrecoAliia ErofeevaSomayeh JafaritazehjanGuido LindersMarc TantiAlberto TestoniRaffaella BernardiAlbert Gatt

捕获语句之间的语义关系,如蕴含,对计算语义来说是一个长期存在的挑战。基于逻辑的模型根据可能的世界(解释或情况)来分析蕴涵,其中前提P需要假设H iffP为真的所有世界中,H也是如此。统计模型以概率论的方式来看待这种关系,并根据人类是否可能从P推断出H来解决这个问题。在本文中,我们希望通过争论视觉接近版本的文本完成任务来弥合这两种观点。具体来说,如果除了PH之外还有一个图像(对应于相关的世界情境),我们会问模型是否可以更好地发挥作用。我们使用SNLI数据集的多模式版本(Bowman等人,2015),并且我们比较了文本蕴含的盲目和视觉增强模型。我们展示视觉信息是有益的,但我们也进行深入的错误分析,揭示当前的多模式模型没有以最佳方式进行接地[1806.05645v1]

 

具有感知损失的单幅图像反射分离

Xuaner Zhang, Ren Ng, Qifeng Chen

我们提出了一种从单个图像中分离反射的方法。该方法使用完全卷积网络进行端对端训练,利用低级和高级图像信息进行损失。我们的损失函数包括两个感知损失:视觉感知网络的特征损失和编码传输层图像特征的对抗性损失。我们还提出了一种强制执行像素级图层分离的新颖排除损失。我们利用反射和相应的地面真实传输层创建真实世界图像的数据集,以进行定量评估和模型训练。我们通过全面的定量实验来验证我们的方法,并证明我们的方法优于PSNRSSIM和感知用户研究中的最新反射消除方法。我们还将我们的方法扩展到另外两个图像增强任务,以证明我们方法的一般性。[1806.05376v1]

 

腹腔镜视频中工具定位的弱监督学习

Armine VardazaryanDidier MutterJacques MarescauxNicolas Padoy

手术工具本地化是内窥镜视频自动分析的重要任务。在文献中,用于工具定位,跟踪和分割的现有方法需要充分注释的训练数据,从而限制了可以使用的数据集的大小以及方法的一般化。在这项工作中,我们建议规避缺乏监督薄弱的注释数据。我们提出了一种深度架构,仅针对图像级注释进行培训,可用于手术视频中的工具存在检测和定位。我们的架构依赖完全卷积神经网络,经过端对端训练,使我们能够在没有明确空间注释的情况下对手术工具进行本地化。我们展示了我们的方法在大型公共数据集Cholec80上的好处,其中充分注释了二进制工具存在信息,其中5个视频已经用边界框和工具中心完整注释以供评估。[1806.05573v1]

 

意外异常值在光谱数据分类中的作用分析

弗兰克G.格拉文,迈克尔G.马登

多类分类算法应用非常广泛,但我们认为从理论角度来看,它们并不总是理想的,因为它们假设所有类都以数据为特征,而在许多应用中,某些类的训练数据可能完全不存在,罕见或统计上不具代表性。我们评估单侧分类器是一种选择,因为他们认为只有一个类别(目标)具有良好的特征。我们考虑根据其化学谱来确定物质是否含有氯化溶剂。对于这种应用,收集一组具有统计学意义的异常值并不是真的可行,因为除了目标氯化溶剂之外,该组可能包含\ anyph {anything}。使用新的单侧分类工具包,我们将单侧k-NN算法与两个众所周知的二进制分类算法进行比较,并得出结论:单侧分类器对于意想不到的异常值更具鲁棒性。[1806.05455v1]

 

束特定的纤维束成像的曲线定位映射

Jakob WasserthalPeter F. NeherKlaus H. Maier-Hein

尽管主要的白质束在神经科学和医学领域的众多研究中引起了极大的兴趣,但它们在扩散MRI束图中较大的队列中进行的手动解剖是耗时的,需要专业知识并且难以再现。根据从原始纤维取向分布函数(fODF)峰到道路取向图(缩写TOM)的列表的学习映射,道定向映射(TOM)是一种新颖的概念,有利于束特定的纤维束成像。每个TOM表示其中一个已知区域,每个体素只包含一个方向矢量。TOM可以作为事先或甚至作为纤维束成像的直接输入。我们使用编码器解码器全卷积神经网络架构来学习所需的映射。与以前的重建特定束的概念相比,本文提出的避免了像整个脑纤维束成像,图谱配准或聚类等繁琐的处理步骤。我们将其与来自Human Connectome项目的共105个科目的20个不同包中的四种最先进的包识别方法进行比较。结果在解剖学上令人信服,即使对于困难的小块,同时达到低角度误差,前所未有的运行时间和最高准确度值(骰子)。我们的代码和我们的数据是公开可用的。[1806.05580v1] 结果在解剖学上令人信服,即使对于困难的小块,同时达到低角度误差,前所未有的运行时间和最高准确度值(骰子)。我们的代码和我们的数据是公开可用的。[1806.05580v1] 结果在解剖学上令人信服,即使对于困难的小块,同时达到低角度误差,前所未有的运行时间和最高准确度值(骰子)。我们的代码和我们的数据是公开可用的。[1806.05580v1]

 

用稀疏网络进行稀疏采样的密集光场重建

Mantang Guo, Hao Zhu, Guoqing Zhou, Qing Wang

光场记录来自真实世界场景的众多光线。但是,通过现有设备捕获密集的光场是一个耗时的过程。使用稀疏采样重建大量等效于多个光场的光线对现有方法而言是一个严峻的挑战。在本文中,我们提出了一种基于学习的方法来重建两个相互独立的光场之间的多个光场。我们表明,在一定条件下,分布在不同光场中的光线有一些一致的约束。最重要的约束是角度和空间维度之间的深度相关关系。我们的方法通过采用深度神经网络避免了对误差敏感的约束。我们解决了极线平面图像(EPI)上像素的残差值,以重建新颖的光场。我们的方法能够重建4倍上采样,即在两个相互独立的光场之间外推四个新颖的 光场。我们还将我们的结果与文献中其他许多替代方法产生的结果相比较,这表明我们的重建光场具有更好的结构相似性和遮挡关系。[1806.05506v1]

 

Self-ceptionImage Self-ception:一种用自己的近似值表示图像的方法

Hamed Shah-Hosseini

这里提出了基于自己的近似图像定义图像的概念,称为自我感知。在这方面,提出了一种算法来实现图像的自我感知,我们称之为图像自我感知,因为我们将它用于图像。我们可以通过确定我们想要用于表示的区段或区域来控制此自我表示的准确性。本文包括一些自我接受的图像。在YouTube频道中显示了所提议的图像自我选择算法的视频版本(可以通过Google搜索图像自行找到)。[1806.05610v1]

 

从预告片到故事情节:从电影中学习的有效途径

Qingqiu Huang, Yuanjun Xiong, Yu Xiong, Yuqi Zhang, Dahua Lin

在人类历史上生产的数百万部电影是计算机视觉研究的宝贵资源。但是,从电影数据中学习视觉模型会遇到严重的困难。一个主要的障碍是计算成本电影的长度通常超过一个小时,这比以前的研究主要关注的短视频剪辑长得多。在本文中,我们探讨了从电影中学习视觉模型的另一种方法。具体而言,我们考虑一个由可视化模块和时间分析模块组成的框架。与传统的学习方法不同,所提出的方法从不同的数据集中学习这些模块前者来自预告片,而后者来自电影。这允许在合理的预算内学习独特的视觉特征,同时仍保持整个电影的长期时间结构。我们为这项研究构建了一个大规模的数据集,并在上面定义了一系列的任务。在这个数据集上的实验表明,该方法可以大大减少训练时间,同时获得高效特征和相干时间结构。[1806.05341v1]

 

PCAS:使用注意统计修剪频道

Kohei YamamotoKurato Maeno

为了在小型嵌入式设备上实现深度神经网络,传统技术使用频道修剪,考虑考虑每层的手动压缩率来减少参数。此外,很难考虑层之间的关系,深层模型需要很长时间。为了解决这些问题,我们提出了一种基于注意力的新渠道修剪技术,可以评估渠道的重要性。我们使用标准对方法进行了改进,以允许使用整个模型的单个压缩率进行自动信道选择。实验结果表明,在CIFAR-10基准测试中,压缩的ResNet-50模型的参数下降了90.8%,FLOP下降了79.4%,精度下降了1%左右。[1806.05382v1]

 

学习人眼光流

Anurag RanjanJavier RomeroMichael J. Black

众所周知,人类的光流对分析人类行为是有用的。鉴于此,我们设计了专门用于人体运动的光流算法,并表明它优于通用流方法。手工设计方法是不切实际的,因此我们开发了一个新的带有地面光流的图像序列训练数据库。为此,我们使用人体三维模型和运动捕捉数据来合成逼真的流场。然后,我们训练一个卷积神经网络来估计来自图像对的人流场。由于人体运动分析中的许多应用程序都依赖于速度,并且我们预计移动应用程序,所以我们的方法基于SpyNet进行了多处修改。我们证明,我们的训练网络比支持测试数据的各种顶级方法更精确,并且它能很好地适用于真实图像序列。当与人体探测器/跟踪器结合使用时,该方法为二维人体流量估算问题提供了完整的解决方案。代码和数据集都可用于研究。[1806.05666v1]

 

HGR-Net:用于手势分割和识别的两阶段卷积神经网络

Amirhossein DadashzadehAlireza Tavakoli TarghiMaryam Tahmasbi

由于混乱的背景和不受控制的环境因素等诸多方面,在实际应用中对手势的鲁棒识别仍然是一项具有挑战性的任务。在大多数现有的方法中,手划分是手势识别的主要步骤,因为它可以在将图像背景传递到识别阶段之前减少来自图像背景的冗余信息。因此,在本文中,我们提出了一种名为HGR-Net的两阶段深度卷积神经网络(CNN)体系结构,其中第一阶段对手区域执行精确的像素级语义分割,第二阶段识别手势风格。分割阶段体系结构是基于完全卷积深度残差神经网络和空间金字塔池化的结合。虽然分割子网络是在不使用深度信息的情况下进行训练的,但它足以抵御诸如闪电和复杂背景变化等具有挑战性的情况。在识别阶段,使用双流CNN来获得最佳分类分数。我们还应用有效的数据增强技术来最大化HGR-Net的泛化能力。公共手势数据集上的大量实验表明,我们的深层架构在静态手势的分割和识别方面取得了突出的性能。[1806.05653v1] 我们还应用有效的数据增强技术来最大化HGR-Net的泛化能力。公共手势数据集上的大量实验表明,我们的深层架构在静态手势的分割和识别方面取得了突出的性能。[1806.05653v1] 我们还应用有效的数据增强技术来最大化HGR-Net的泛化能力。公共手势数据集上的大量实验表明,我们的深层架构在静态手势的分割和识别方面取得了突出的性能。[1806.05653v1]

 

DynSLAM:动态场景中的跟踪,映射和修补

BertaBescósJoséM.FácilJavier CiveraJoséNeira

场景刚性的假设在SLAM算法中是典型的。这种强烈的假设限制了大多数视觉SLAM系统在人口稠密的真实世界环境中的使用,这些环境是服务机器人或自动驾驶汽车等几个相关应用的目标。在本文中,我们介绍DynSLAM,一种基于ORB-SLAM2 [1]构建的视觉SLAM系统,增加了动态对象检测和背景修补功能。DynSLAM在单眼,立体和RGB-D配置的动态场景下非常健壮。我们能够通过多视图几何学,深度学习或两者来检测移动对象。拥有场景的静态地图可以修复已被此类动态对象遮挡的帧背景。我们在公共单眼,立体和RGB-D数据集中评估我们的系统。我们研究了几种精度/速度折衷的影响,以评估所提出方法的局限性。在高度动态的情况下,DynSLAM胜过标准视觉SLAM基线的准确性。它还可以估计场景的静态部分的地图,这是现实环境中长期应用的必要条件。[1806.05620v1]

 

用于从单个深度图像进行语义场景完成的视图卷网络

Yu-Xiao Guo, Xin Tong

我们引入了一个View-Volume卷积神经网络(VVNet),用于根据单个深度图像来推断体积3D场景的占用率和语义标签。VVNet2D视图CNN3D体积CNN与可微投影层连接起来。给定单个RGBD图像,我们的方法使用2D视图CNN从输入深度图像中提取详细的几何特征,然后根据输入深度图通过投影图层将特征投影到3D体积中。之后,我们利用3D体积CNN学习场景的3D上下文信息,以计算结果体积占用率和语义标签。通过2D3D组合表示,VVNet可以有效降低计算成本,实现多通道高分辨率输入的特征提取,从而显着提高结果的准确性。我们验证了我们的方法并证明了它在合成SUNCG和真实NYU数据集上的效率和有效性。[1806.05361v1]

 

NetScore:实现大规模深度神经网络性能分析的通用指标

Alexander Wong

深度神经网络设计中的许多焦点一直在提高准确性,导致更强大但高度复杂的网络架构难以在实际场景中部署,特别是在诸如移动和其他消费者设备的边缘设备上,因为它们的高计算和内存要求。因此,最近人们对用于评估深度神经网络的量化指标的设计有兴趣,这些指标不仅仅将模型精度作为网络性能的唯一指标。在这项研究中,我们继续讨论通用度量标准,以评估实际使用的深度神经网络的性能。特别是,我们提出了一个名为NetScore的新平衡度量标准,它专门设计用于定量评估深度神经网络的精度,计算复杂度和网络架构复杂度之间的平衡。在文献中深度神经网络之间最大的对比分析之一是NetScore度量,前1精度度量和流行信息密度度量在50种不同的深度卷积神经网络的不同集合上进行比较,用于图像分类ImageNet大规模视觉识别挑战(ILSVRC 2012)数据集。这项研究介绍了这三种不同网络指标的评估结果,以作为该领域从业人员的参考指南。建议的NetScore指标以及其他测试指标并不完美,但希望将这次谈话推向更好的通用指标,用于评估深度神经网络以便在实际情景中使用,以帮助指导模型设计的从业人员。[1806.05512v1]

 

使用样本选择和条件生成敌对网络进行图像分类和分割的高效主动学习

Dwarikanath MahapatraBehzad BozorgtabarJean-Philippe ThiranMauricio Reyes

由于涵盖不同疾病类型和严重程度的图像有限,训练强大的深度学习(DL)系统用于医学图像分类或分割具有挑战性。我们提出了一个主动学习(AL)框架来选择最具信息性的样本并添加到训练数据中。我们使用条件生成对抗网络(cGANs),通过在真实图像样本上调节其生成,生成具有不同疾病特征的真实胸部X射线图像。使用贝叶斯神经网络来识别添加到训练集中的信息样本。实验表明,我们提出的AL框架能够通过使用大约35%的完整数据集来实现最先进的性能,因此与传统方法相比节省了大量时间和精力。[1806.05473v1]

 

现实世界中的深层生成模型:医学成像的开放挑战

Xiaoran ChenNick PawlowskiMartin RajchlBen GlockerEnder Konukoglu

深度学习方面的最新进展促成了新颖的生成式建模技术,可在生成的样本中实现前所未有的质量,并在学习成像数据中的复杂分布时获得性能。这些新的医学图像计算模型具有重要的应用,形成临床相关和非常具有挑战性的无监督学习问题。在本文中,我们探讨了使用最先进的基于自动编码器的深度生成模型(例如变分和对抗自动编码器)的可行性,用于这样的任务:医学成像中的异常检测。我们利用典型的公开可用数据集对来自健康受试者和脑卒中病灶和脑肿瘤患者进行脑部扫描。我们使用来自健康受试者的数据来训练不同的基于自动编码器的模型,以学习健康图像的分布并将病理检测为异常值。可以更好地学习数据分布的模型应该能够更准确地检测离群值。我们评估深度生成模型的检测性能,并将它们与基于非深度学习的方法进行比较,以提供当前研究状态的基准。我们的结论是异常检测对于深度生成模型来说是一项具有挑战性的任务,而且还有很大的改进余地。为了便于进一步研究,我们的目标是向研究界提供经过仔细预处理的成像数据。[1806.05452v1] 我们评估深度生成模型的检测性能,并将它们与基于非深度学习的方法进行比较,以提供当前研究状态的基准。我们的结论是异常检测对于深度生成模型来说是一项具有挑战性的任务,而且还有很大的改进余地。为了便于进一步研究,我们的目标是向研究界提供经过仔细预处理的成像数据。[1806.05452v1] 我们评估深度生成模型的检测性能,并将它们与基于非深度学习的方法进行比较,以提供当前研究状态的基准。我们的结论是异常检测对于深度生成模型来说是一项具有挑战性的任务,而且还有很大的改进余地。为了便于进一步研究,我们的目标是向研究界提供经过仔细预处理的成像数据。[1806.05452v1] 我们的目标是为研究界提供仔细预处理的成像数据。[1806.05452v1] 我们的目标是为研究界提供仔细预处理的成像数据。[1806.05452v1]

 

用于细粒度图像识别的多注意多类约束

Ming Sun, Yuchen Yuan, Feng Zhou, Errui Ding

用于细粒度图像识别的基于注意力的学习仍然是一项具有挑战性的任务,其中大多数现有方法都是孤立地处理每个对象部分,而忽略它们之间的相关性。此外,所涉及的多阶段或多阶段机制使得现有方法的效率降低,难以接受端对端培训。在本文中,我们提出了一种新颖的基于注意力的卷积神经网络(CNN),它调节不同输入图像中的多个对象部分。我们的方法首先通过单挤压多激励(OSME)模块学习每个输入图像的多个关注区域特征,然后将多注意多类别约束(MAMC)应用于度量学习框架。对于每个锚点特征,MAMC通过拉近相同注意的同类特征来实现功能,同时推动不同的关注或不同类别的功能。我们的方法可以很容易地进行端到端培训,而且效率很高,只需要一个培训阶段。此外,我们还引入了一种综合性的狗物种数据集野狗数据集,该数据集按类别覆盖率,数据量和注释质量超越了类似的现有数据集。该数据集将在接受后发布,以促进细粒度图像识别的研究。我们进行了大量的实验来展示我们的方法在四个基准数据集上的实质性改进。[1806.05372v1] 一个综合的狗物种数据集,按类别覆盖率,数据量和注释质量超越类似的现有数据集。该数据集将在接受后发布,以促进细粒度图像识别的研究。我们进行了大量的实验来展示我们的方法在四个基准数据集上的实质性改进。[1806.05372v1] 一个综合的狗物种数据集,按类别覆盖率,数据量和注释质量超越类似的现有数据集。该数据集将在接受后发布,以促进细粒度图像识别的研究。我们进行了大量的实验来展示我们的方法在四个基准数据集上的实质性改进。[1806.05372v1]

 

基准图像分类和其他高维模式识别问题

Tarun YellamrajuJonas HeppMireille Boutin

一个好的分类方法应该比简单的启发式方法产生更准确的结果。但是存在分类问题,特别是基于图像/视频数据的高维分类问题,因此简单的启发式算法可以非常准确地工作这些问题中的数据结构很容易发现,无需任何复杂或计算成本高昂的方法。另一方面,有些问题的结构只能通过复杂的模式识别方法才能找到。我们感兴趣的是量化给定的高维模式识别问题的难度。我们考虑模式来自两个预先确定的类,并且这些对象由高维向量空间中的点表示的情况。然而,我们提出的框架可扩展到任意数量的类。我们提出基于简单随机投影启发式的分类基准。我们的基准是通过这些简单启发式的分类错误和计算成本参数化的2D曲线。每条曲线将飞机划分为正增益负增益区域。后者包含不适用于给定分类问题的方法。前者由曲线渐近线分成两部分位于曲线下方的小区域但渐近线右侧的方法仅提供计算增益,但与随机启发式方法相比没有结构优势。我们证明在某些情况下曲线渐近线是最优的(即,在贝叶斯误差下)因此没有复杂的方法可以提供超过随机启发式的结构优势。这种分类问题,我们在数值实验中提出的一个例子,为测试新的模式分类方法提供了很差的基础。[1806.05272v1]

 

用局部坐标编码进行对抗学习

Jiezhang Cao, Yong Guo, Qingyao Wu, Chunhua Shen, Junzhou Huang, Mingkui Tan

生成对抗网络(GAN)旨在从一些先验分布(例如高斯噪声)中生成现实数据。然而,这种先验分布通常与实际数据无关,因此可能丢失数据的语义信息(例如,图像的几何结构或内容)。在实践中,语义信息可能由一些从数据中学习到的潜在分布来表示,然而,这很难用于GAN中的抽样。在本文中,我们提出了一种基于局部坐标编码(LCC)的抽样方法来改善GAN,而不是从预先定义的先验分布中抽样。我们推导出基于LCCGAN的泛化界限,并证明小尺寸输入足以实现良好的泛化。对各种现实世界的数据集进行广泛的实验证明了所提出方法的有效性。[1806.04895v2]

 

基于偏微分方程的形状特征提取

Takayuki Yamada

本文提出了一种使用线性偏微分方程(PDE)提取二值图像数据中几何形状特征的统一方法。PDE和函数的制定是为了一次性提取几何形状特征,即厚度,形状方向和骨架。所提出的方法的主要优点是它没有关于距离的任何计算,它没有目标图像数据的拓扑约束,并且表面不必被区分为内部或外部。提供一维分析解决方案来验证所提出的方法。此外,还显示了二维和三维数值示例以确认所提出的方法的有效性和有用性。[1806.05299v1]

 

一种适用于真实感样式转换的柔性卷积求解器

吉尔斯皮伊,帕特里克佩雷斯

我们提出了一种新的灵活的深度卷积神经网络(convnet)来执行快速的视觉样式转换。与现有的可解决相同任务的小圆点相反,我们的架构直接来自最初用于解决样式转移问题的梯度下降结构[Gatys et al。,2016]。像现有的小圆点一样,我们大约比梯度下降快得多地解决了原始问题。但是,我们的网络具有独特的设计灵活性:可以在运行时对其进行操作,以对最终解决方案实施新的约束。特别是,我们展示了如何修改它以获得没有再培训的照片级逼真效果。我们研究了[Luan等人,2017][Gatys等人,2016]的原始成本函数进行的修改以实现照片级逼真风格的转换。这些修改直接影响梯度下降,并可以在我们的网络中实时报告。这些修改是可能的,因为所提出的体系结构源于展开渐变下降。[1806.05285v1]

 

寻找你的相貌:测量面部相似性而不是面部识别

Amir SadovnikWassim GharbiThanh VuAndrew Gallagher

面部图像是计算机视觉的主要关注领域之一,可以接收各种各样的任务。虽然人脸识别可能是最广泛研究的,但还有许多其他任务,例如亲属关系检测,面部表情分类和面部老化等。在这项工作中,我们提出量化一对脸部之间的感知脸部相似性的新的主观任务。也就是说,我们预测面部图像之间的感知相似性,因为它们不是同一个人。虽然这项任务明显与脸部识别相关,但它是不同的,因此有理由进行单独的调查。人们经常说,即使在人们并没有真正混淆的情况下,两个人看起来也是一样的。另外,由于人脸相似度与传统图像相似度不同,数据收集和标签方面存在挑战,并且处理人类贴标签者之间的主观意见分歧。我们提出的证据表明找到面部相像和识别面孔是两个截然不同的任务。我们提出了一个面部相似性的新数据集,并引入了类似人脸分类的Lookalike网络,该方法优于面向相同任务的人脸识别网络的临时使用。[1806.05252v1] 这优于针对相同任务的面部识别网络的临时使用。[1806.05252v1] 这优于针对相同任务的面部识别网络的临时使用。[1806.05252v1]

 

用于定制时尚服装组合的可解释分割嵌入

Zunlei Feng, Zhenyu Yu, Yezhou Yang, Yongcheng Jing, Junxiao Jiang, Mingli Song

这些年来,智能时装成分越来越受欢迎。一些基于深度学习的方法最近揭示了竞争组合。然而,无法解释的特征使得这种基于深度学习的方法无法满足设计师,企业和消费者对套装组合中不同属性重要性的理解。为了实现可解释和定制的时尚服装组合,我们提出了一个分区嵌入网络来学习服装项目的可解释表示。整个网络体系结构由三部分组成:自动编码器模块,监督属性模块和多独立模块。自动编码器模块用于将所有有用的信息编码到嵌入中。在受监督的属性模块中,采用多个属性标签来确保整个嵌入的不同部分对应于不同的属性。在多独立模块中,采用对抗操作来实现相互独立的约束。通过可解释和分割嵌入,我们构造一个服装组合图和一个属性匹配图。鉴于指定的属性描述,我们的模型可以推荐具有可解释的匹配分数的服装组合排名列表。大量的实验表明:1)分区嵌入具有与不同属性相对应的未混合部分; 2)与现有方法相比,我们模型推荐的装备更为理想。[1806.04845v2] 采取对抗性操作来实现相互独立的约束。通过可解释和分割嵌入,我们构造一个服装组合图和一个属性匹配图。鉴于指定的属性描述,我们的模型可以推荐具有可解释的匹配分数的服装组合排名列表。大量的实验表明:1)分区嵌入具有与不同属性相对应的未混合部分; 2)与现有方法相比,我们模型推荐的装备更为理想。[1806.04845v2] 采取对抗性操作来实现相互独立的约束。通过可解释和分割嵌入,我们构造一个服装组合图和一个属性匹配图。鉴于指定的属性描述,我们的模型可以推荐具有可解释的匹配分数的服装组合排名列表。大量的实验表明:1)分区嵌入具有与不同属性相对应的未混合部分; 2)与现有方法相比,我们模型推荐的装备更为理想。[1806.04845v2] 我们的模型可以推荐具有可解释匹配分数的服装组合排名列表。大量的实验表明:1)分区嵌入具有与不同属性相对应的未混合部分; 2)与现有方法相比,我们模型推荐的装备更为理想。[1806.04845v2] 我们的模型可以推荐具有可解释匹配分数的服装组合排名列表。大量的实验表明:1)分区嵌入具有与不同属性相对应的未混合部分; 2)与现有方法相比,我们模型推荐的装备更为理想。[1806.04845v2]

 

微型飞行器的在线自监督场景分割

Shreyansh DaftryYashasvi AgrawalLarry Matthies

最近,在有效载荷和功率受限的轻型微型飞行器(MAV)的发展方面取得了许多进展。由于这些机器人渴望在复杂的动态环境中进行高速自主飞行,因此长距离的强大场景理解变得至关重要。该问题主要表现为基于几何方法的传感器能 力所带来的局限性,或者需要数据驱动方法所需的大量手动注释培训数据。这激发了构建具有通过利用几何和数据驱动方法的互补优势来缓解这些问题的能力的系统的需求。在本文中,我们朝这个方向迈出了一步,并提出了一个使用自监督在线学习的自适应场景分割的通用框架。我们在基于视觉的自主MAV飞行环境中展示了这一点,并通过在基准数据集和实际现场测试中进行大量实验来证明我们提出的系统的功效。[1806.05269v1]

 

用于少量细粒度识别的跨模态幻觉

Frederik PahdePatrickJähnichenTassilo KleinMoin Nabi

最先进的深度学习算法通常需要大量的数据进行模型训练。其缺乏会严重损害性能,特别是在类别之间具有细粒度边界的情况下。为此,我们提出了一种多模式方法,通过有意义的联合嵌入来促进弥 合信息鸿沟。具体而言,我们提出了一个基准,它是训练期间的多模态(即图像和文本)和单模态测试时间(即图像),以及相关任务,利用基础类中的多模态数据(包含许多样本),学习显式视觉用于新类别的分类器(具有少量样本)。接下来,我们提出一个基于跨模式数据幻觉概念的框架。在这方面,我们引入了一个用于样本生成的判别式文本条件GAN,以及一个简单的自定进度样本选择策略。我们展示了我们提出的判别幻觉方法在CUB数据集上的1-2-5-射击学习的结果,其中通过使用多模态数据来提高准确性。[1806.05147v2]

 

使用二元掩模将权重转换添加到单个网络的新任务

马西米利亚诺曼奇尼,利萨里奇,芭芭拉卡普托,塞缪尔罗塔布洛

目前需要视觉识别算法来展现自适应能力。给定针对特定任务进行训练的深层模型,能够逐步适应新任务,随着新任务数量的增加保持可扩展性,同时避免灾难性遗忘问题,这将是非常令人满意的。最近的研究表明,通过学习二元变量掩盖给定原始信任网络的内部权重是一种有前途的策略。我们建立在这个直觉之上,并考虑到包含学习二元掩模的卷积权重的更详细的仿射变换。我们表明,通过我们的泛化,可以实现更高级别的适应新任务,使该方法能够与微调策略竞争,每个附加任务每个网络参数需要略多于1位。两个流行基准的实验展示了我们的方法的力量,它实现了Visual Decathlon挑战赛的最新技术水平。[1805.11119v2]

 

学习最小超球能量

Weiyang Liu, Rongmei Lin, Zhen Liu, Lixin Liu, Zhiding Yu, Bo Dai, Le Song

神经网络是一类强大的非线性函数,可以在各种应用程序上进行端对端培训。虽然许多神经网络的过度参数化特性使得适应复杂函数的能力和处理具有挑战性任务的强大代表能力,但它也导致高度相关的神经元,这会伤害泛化能力并招致不必要的计算成本。因此,如何规范网络以避免不必要的表示冗余成为一个重要问题。为此,我们从物理学中一个众所周知的问题–Thomson问题中汲取灵感,在这个问题中,人们试图找到一种状态,尽可能地将N个电子分布在一个单位球上,并且具有最小势能。鉴于这种直觉,我们将冗余正则化问题简化为通用能量最小化,并提出了一个最小超球能量(MHE)目标作为神经网络的一般正则化。我们还提出了一些MHE的新颖变体,并从理论的角度提供了一些见解。最后,我们将具有MHE正则化的网络应用于几项具有挑战性的任务。通过展示MHE正则化的优越性能,大量实验证明了我们方法的有效性。[1805.09298v3] 通过展示MHE正则化的优越性能,大量实验证明了我们方法的有效性。[1805.09298v3] 通过展示MHE正则化的优越性能,大量实验证明了我们方法的有效性。[1805.09298v3]

 

用于面部属性操作的稀疏分组多任务生成对抗网络

Jichao Zhang, Yezhi Shu, Songhua Xu, Gongze Cao, Fan Zhong, Xueying Qin

最近,图像到图像转换(IIT)在图像风格转换和图像语义上下文的处理方面取得了巨大进步。但是,现有的方法需要对培训数据进行详尽的标记,这对劳动力要求很高,难以扩大规模,难以适应新的领域。为了克服这种关键限制,我们提出了稀疏分组的生成对抗网络(SG-GAN),这是一种新颖的方法,可以在稀疏分组数据集中执行图像转换,大多数训练数据是混合的,只有少数被标记。具有单输入多输出体系结构的SG-GAN可用于多个组之间的翻译,只使用一个训练模型。作为实验验证我们模型优点的案例研究,我们应用该算法来解决面部图像属性操作的一系列任务。实验结果表明,SG-GAN可以在充分标记的数据集上获得比以前最先进的方法的竞争结果,同时在大多数数据被混合并且只有小部分被标记的稀疏分组数据集上获得优异的图像转译结果质量。[1805.07509v3]

 

基于条件生成模型生成增强训练图像的航空影像St鱼检测

Yi-Min Chou, Chien-Hung Chen, Keng-Hao Liu, Chu-Song Chen

在本文中,我们提出了一种基于航拍图像处理黄貂鱼检测问题的物体检测方法。在这个问题中,使用无人驾驶飞行器(UAV)将图像空中捕捉在海面上,并且在海面下(但靠近)游动的黄貂鱼是我们想要检测和定位的目标。为此,我们使用深度目标检测方法,更快的RCNN来训练基于有限训练集的图像的黄貂鱼探测器。为了提高性能,我们开发了一种新的生成方法,条件GLO,以增加黄貂鱼的训练样本,这是生成潜在优化(GLO)方法的延伸。与仅为图像分类生成新数据的传统数据增强方法不同,我们提出的将前景和背景混合在一起的方法可以为物体检测任务生成新的数据,从而提高CNN检测器的训练效率。实验结果表明,利用我们的方法对航拍图像中的st鱼进行检测,可以获得满意的性能。[1805.04262v2]

 

动态视频分割网络

Yu-Syuan Xu, Tsu-Jui Fu, Hsuan-Kung Yang, Chun-Yi Lee

在本文中,我们提出了一个动态视频分割网络(DVSNet)的详细设计,用于快速高效的语义视频分割。DVSNet由两个卷积神经网络组成:分割网络和流动网络。前者产生高度准确的语义分割,但更深入和更慢。后者比前者快得多,但其输出需要进一步处理以产生较不准确的语义分段。我们探索使用决策网络来根据称为预期置信度分数的度量自适应地将不同的帧区域分配给不同的网络。具有较高预期置信度得分的帧区域遍历流网络。具有较低预期置信度得分的帧区域必须通过分割网络。我们已经广泛地对DVSNet的各种配置进行了实验,并针对所提出的决策网络研究了许多变体。实验结果表明,我们的DVSNet能够在Cityscape数据集上以19.8 fps达到70.4mIoUDVSNet的高速版本能够在相同的数据集上提供30.4fps63.2%的mIoUDVSNet还可以减少高达95%的计算工作量。[1804.00931v2] DVSNet还可以减少高达95%的计算工作量。[1804.00931v2] DVSNet还可以减少高达95%的计算工作量。[1804.00931v2]

 

用深度学习实时心血管MR抑制时空伪影先天性心脏病概念验证

Andreas HauptmannSimon ArridgeFelix LuckaVivek MuthuranguJennifer A. Steeden

目的:实时评估心室容积需要高加速因子。残余卷积神经网络(CNN)已经显示出去除由数据欠采样引起的伪影的潜力。在这项研究中,我们调查了不同径向采样模式对CNN精度的影响。我们还获得了先天性心脏病(CHD)患者的实际实时欠采样径向数据,并将CNN重建与压缩感测(CS)进行比较。方法:开发了一个3D(二维加时间)CNN架构,并使用2276个黄金标准配对3D数据集和14倍径向欠采样进行训练。使用169个以前未见过的3D“合成测试数据集对四种采样方案进行了测试。实际实时微小黄金角(tGA)径向SSFP数据在10名新患者(1223D数据集)中获得,并使用3D CNN以及CS算法重构把握。结果显示采样模式对于图像质量以及心脏结构的精确可视化非常重要。对于实际的实时数据,CNN的整体重建时间(包括创建别名图像)显示比GRASP5倍以上。此外,对于相同的原始数据,观察到CNN图像质量和双心室体积的准确性优于GRASP。结论:本文展示了在临床环境中使用3D CNN对实时径向数据进行深度消除信号的潜力。采用CNN重建的实时数据对心室容积的临床测量与金标准心脏门控BH技术无统计学差异。[1803.05192v3] 显示采样模式对于图像质量以及心脏结构的精确可视化是重要的。对于实际的实时数据,CNN的整体重建时间(包括创建别名图像)显示比GRASP5倍以上。此外,对于相同的原始数据,观察到CNN图像质量和双心室体积的准确性优于GRASP。结论:本文展示了在临床环境中使用3D CNN对实时径向数据进行深度消除信号的潜力。采用CNN重建的实时数据对心室容积的临床测量与金标准心脏门控BH技术无统计学差异。[1803.05192v3] 显示采样模式对于图像质量以及心脏结构的精确可视化是重要的。对于实际的实时数据,CNN的整体重建时间(包括创建别名图像)显示比GRASP5倍以上。此外,对于相同的原始数据,观察到CNN图像质量和双心室体积的准确性优于GRASP。结论:本文展示了在临床环境中使用3D CNN对实时径向数据进行深度消除信号的潜力。采用CNN重建的实时数据对心室容积的临床测量与金标准心脏门控BH技术无统计学差异。[1803.05192v3] 对于实际的实时数据,CNN的整体重建时间(包括创建别名图像)显示比GRASP5倍以上。此外,对于相同的原始数据,观察到CNN图像质量和双心室体积的准确性优于GRASP。结论:本文展示了在临床环境中使用3D CNN对实时径向数据进行深度消除信号的潜力。采用CNN重建的实时数据对心室容积的临床测量与金标准心脏门控BH技术无统计学差异。[1803.05192v3] 对于实际的实时数据,CNN的整体重建时间(包括创建别名图像)显示比GRASP5倍以上。此外,对于相同的原始数据,观察到CNN图像质量和双心室体积的准确性优于GRASP。结论:本文展示了在临床环境中使用3D CNN对实时径向数据进行深度消除信号的潜力。采用CNN重建的实时数据对心室容积的临床测量与金标准心脏门控BH技术无统计学差异。[1803.05192v3] 对于相同的原始数据,观察到CNN图像质量和双心室体积的准确性优于GRASP。结论:本文展示了在临床环境中使用3D CNN对实时径向数据进行深度消除信号的潜力。采用CNN重建的实时数据对心室容积的临床测量与金标准心脏门控BH技术无统计学差异。[1803.05192v3] 对于相同的原始数据,观察到CNN图像质量和双心室体积的准确性优于GRASP。结论:本文展示了在临床环境中使用3D CNN对实时径向数据进行深度消除信号的潜力。采用CNN重建的实时数据对心室容积的临床测量与金标准心脏门控BH技术无统计学差异。[1803.05192v3] BH技术。[1803.05192v3] BH技术。[1803.05192v3]

 

自动生成交通图的车辆轨迹预测方法

Jannik QuehlHaohao HuSascha WirgesMartin Lauer

交通参与者的轨迹和意图预测是自动驾驶中的一项重要任务,对于与环境的安全交互至关重要。在本文中,我们提出了一种基于自动生成的地图的车辆轨迹预测的新方法,该地图包含关于特定区域中的交通参与者的行为的统计信息。这些地图是基于使用图像处理和地图匹配技术的轨迹观测而生成的,并包含所考虑区域中的所有典型车辆运动和概率。我们的预测方法将观察到的轨迹与地图中包含的行为进行匹配,并使用此信息生成预测。我们对包含超过14000个轨迹的数据集评估了我们的方法,发现它与基于运动模型的预测方法相比产生了更精确的中期预测。[1802.08632v2]

 

通过对抗训练学习隐私保护编码

Francesco PittalugaSanjeev J. KoppalAyan Chakrabarti

我们提出了一个框架来学习图像(或其他高维数据)的隐私保护编码,以禁止推断所选的私有属性。我们的目标不是编码固定数据集或抑制固定估计器,而是致力于学习编码函数,以便即使在修正此函数之后,具有编码知识的估计器也无法学会准确预测私有属性,训练集。我们将此作为针对私有属性的分类器的编码函数的对抗性优化来制定,其中都建模为深度神经网络。我们描述了一种优化方法,该方法成功地产生了永久限制私有属性推断的编码器,同时保留了信息的一般概念,或者估计了不同的,所需的属性。通过学习防止从Places-365数据集中检测场景类,我们通过实验验证了我们方法在真实世界复杂性的私人任务上的功效。[1802.05214v2]

 

APPLE采集器:自动粒子采集,低功耗低温电磁场框架

Ayelet HeimowitzJoakim平台,Amit Singer

粒子选择是单粒子低温电子显微镜(冷冻电镜)计算流水线中至关重要的第一步。特别是对于低对比度的小颗粒,从显微照片中选择颗粒是困难的。由于高分辨率重建通常需要数十万个粒子,因此手动拾取多个粒子通常太耗时。虽然半自动颗粒拣选目前是一种流行的方法,但它可能会在选择过程中引入手动偏差。另外,半自动化的粒子拾取仍然有点费时。本文介绍APPLE(低用户努力的自动粒子选取)选取器,这是一种用于快速,准确和全自动粒子选取的简单而新颖的方法。虽然我们的方法受模板匹配的启发,它完全没有模板。这种方法在公开可用的数据集上进行评估,该数据集含有$ \ beta $ – 半乳糖苷酶和匙孔血蓝蛋白投影的显微照片。[1802.00469v2]

 

学习分层度量和子空间的基于梯度的元学习

Yoonho LeeSeungjin Choi

基于渐变的元学习方法利用梯度下降来学习各种任务之间的共同点。尽管以前的这些方法在元学习任务中取得了成功,但他们在元测试中采用了简单的渐变下降法。我们的主要贡献是{\ em MT-net},它使得元学习者能够在每个层的激活空间上学习特定任务学习者执行梯度下降的子空间。此外,针对任务特定的{\ em MT-net}学习者相对于元学习距离度量执行梯度下降,这使得激活空间对任务身份更敏感。我们证明这个学习子空间的维度反映了特定于任务的学习者适应任务的复杂性,并且我们的模型对初始学习率的选择比先前的基于梯度的元学习方法更不敏感。我们的方法在少数分类和回归任务上实现了最先进的或可比较的性能。[1801.05558v3]

 

4DFAB:用于生物识别应用的大型4D面部表情数据库

石羊城,艾琳KotsiaMaja PanticStefanos Zafeiriou

我们目前在包括自动人脸分析在内的许多计算机视觉应用中所见证的进展将不可能在没有收集和注释大型可视数据库的巨大努力的情况下实现。为此,我们提出了4DFAB,一个新的动态高分辨率三维面的大型数据库(超过1,800,000个三维网格)。4DFAB包含四个不同会议期间捕捉的180个主题的录音,跨越五年时间。它包含显示自发和姿势面部行为的主题的4D视频。该数据库可用于人脸和面部表情识别,以及行为生物识别。它也可以用来学习非常强大的Blendshapes参数化面部表情。在本文中,我们进行了几次实验,并证明了数据库在各种应用中的有用性。该数据库将公开发布用于研究目的。[1712.01443v2]

 

使用深度学习从图像中识别果实

Horea MuresanMihai Oltean

在本文中,我们介绍一个新的,高质量的包含水果图像的数据集。我们还介绍了一些用于训练神经网络来检测水果的数值实验结果。我们通过提出一些可以使用这种神经网络的应用程序来讨论我们为什么选择在这个项目中使用水果的原因。[1712.00580v3]

 

用于对象检测的关系网络

Han Hu, Jiayuan Gu, Zheng Zhang, Jifeng Dai, Yichen Wei

尽管多年来人们相信,对象之间的建模关系有助于对象识别,但还没有证据表明这个想法在深度学习时代有效。所有最先进的对象检测系统仍然依赖于单独识别对象实例,而不需要在学习期间利用它们之间的关系。这项工作提出了一个对象关系模块。它通过外观特征和几何图形之间的相互作用同时处理一组对象,从而允许建立它们之间的关系。它重量轻并且在原地。它不需要额外的监督,并且很容易嵌入现有网络。在现代物体检测流水线中,它对改善物体识别和重复清除步骤有效。它验证了建模对象关系在基于CNN的检测中的功效。它产生了第一个完全端对端的物体探测器。[1711.11575v2]

 

光场的联合盲运动去模糊和深度估计

Dongwoo LeeHaesol ParkKyu ParkKyoung Mu Lee

从单个光场中去除相机运动模糊是一项具有挑战性的任务,因为它是高度不适应的反问题。由于场景深度变化和高阶相机运动,当模糊核在空间上变化时,问题变得更加严重。在本文中,我们提出了一种新的算法来联合估计所有模糊模型变量,包括潜在子孔径图像,相机运动和来自模糊4D光场的场景深度。利用光场的多视角特性,通过利用强深度线索和多视点模糊观察来减轻优化的逆性质。所提出的联合估计在任意6自由度摄像机运动和无约束场景深度下同时实现了高质量的光场去模糊和深度估计。对实际和合成模糊光场的强化实验证实了所提出的算法优于现有技术的光场去模糊和深度估计方法。[1711.10918v2]

 

LAP:求解耦合变量反问题的线性化和项目方法

詹姆斯赫林,詹姆斯纳吉,拉尔斯鲁托托

许多逆向问题涉及两组或更多组变量,这些变量表示不同的物理量,但彼此紧密耦合。例如,图像超分辨率需要来自噪声测量的图像和运动参数的联合估计。利用这种结构对于有效地解决这些常常病态的大规模优化问题至关重要。在本文中,我们提出了一种名为线性化和项目(LAP)的新方法,该方法为解决耦合变量反问题提供了一个灵活的框架。当相应于其中一个变量的子问题比其他变量更容易解决时,LAP最有希望。LAP基于高斯牛顿法,因此在对残差线性化之后,它通过投影消除了一块变量。由于线性化,该块可以自由选择。此外,LAP支持直接,迭代和混合正则化以及约束。因此,LAP具有吸引力,例如,对于姿势不良的成像问题。这些特征将LAP与常见的替代方法区分开来,如可变投影(VarPro)和块坐标下降(BCD)等。我们的数值实验使用三个耦合问题比较了LAPBCDVarPro的性能,其中前向运算符对于一个块是线性的,而对另一组变量是非线性的。[1705.09992v3] 这些特征将LAP与常见的替代方法区分开来,如可变投影(VarPro)和块坐标下降(BCD)等。我们的数值实验使用三个耦合问题比较LAPBCDVarPro的性能,其中前向运算符对于一个块是线性的而对另一组变量是非线性的。[1705.09992v3] 这些特征将LAP与常见的替代方法区分开来,如可变投影(VarPro)和块坐标下降(BCD)等。我们的数值实验使用三个耦合问题比较LAPBCDVarPro的性能,其中前向运算符对于一个块是线性的而对另一组变量是非线性的。[1705.09992v3]

 

PatternNet:深度神经网络的视觉模式挖掘

Hongzhi Li, Joseph G. Ellis, Lei Zhang, Shih-Fu Chang

视觉模式代表了视觉世界中可辨别的规律性。他们捕捉视觉对象或场景的本质。理解和建模视觉模式是具有广泛应用的视觉识别中的基本问题。在本文中,我们研究了视觉模式挖掘问题,并提出了一种称为PatternNet的新型深度神经网络体系结构,用于发现这些既具有区分性又具有代表性的模式。所提出的PatternNet利用卷积神经网络最后一个卷积层中的滤波器来找到局部一致的视觉片,通过组合这些滤波器,我们可以有效地发现独特的视觉模式。此外,PatternNet可以高效地发现视觉模式,而无需执行昂贵的图像补丁采样,与大多数其他方法相比,此优势提供了一个数量级的加速。我们通过显示我们的方法发现的随机选择的视觉模式来主观地评估提议的模式网络,并通过使用所识别的视觉模式进行图像分类并将我们的性能与当前的最新技术进行比较来定量评估。我们还直接评估发现的视觉模式的质量,将所识别的模式用作图像中的建议对象,并与其他相关方法进行比较。我们提出的网络和程序PatterNet能够超越所描述任务的竞争方法。[1703.06339v2] 我们通过显示我们的方法发现的随机选择的视觉模式来主观地评估提议的模式网络,并通过使用所识别的视觉模式进行图像分类并将我们的性能与当前的最新技术进行比较来定量评估。我们还直接评估发现的视觉模式的质量,将所识别的模式用作图像中的建议对象,并与其他相关方法进行比较。我们提出的网络和程序PatterNet能够超越所描述任务的竞争方法。[1703.06339v2] 我们通过显示我们的方法发现的随机选择的视觉模式来主观地评估提议的模式网络,并通过使用所识别的视觉模式进行图像分类并将我们的性能与当前的最新技术进行比较来定量评估。我们还直接评估发现的视觉模式的质量,将所识别的模式用作图像中的建议对象,并与其他相关方法进行比较。我们提出的网络和程序PatterNet能够超越所描述任务的竞争方法。[1703.06339v2] 我们还直接评估发现的视觉模式的质量,将所识别的模式用作图像中的建议对象,并与其他相关方法进行比较。我们提出的网络和程序PatterNet能够超越所描述任务的竞争方法。[1703.06339v2] 我们还直接评估发现的视觉模式的质量,将所识别的模式用作图像中的建议对象,并与其他相关方法进行比较。我们提出的网络和程序PatterNet能够超越所描述任务的竞争方法。[1703.06339v2]

转载请注明:《VoxCeleb2:基于深度学习的说话人识别+EL-GAN:嵌入损耗驱动的生成对抗网络车道检测

发表评论