GenAttack:无梯度优化的实用黑盒攻击

Lucas Alexandre Ramos,Aparecido Nilceu Marana
物理和行为特征用于人类身份识别被称为生物识别。在许多可用的生物测量学特征中,指纹是使用最广泛的。指纹识别基于印象图案,分别为第一级和第二级的特征的脊和细节的图案。由于传感器成本低,目前的识别系统使用这两个级别的指纹特征。但是,由于近来传感器技术的进步,可以使用脊内存在的第三级特征,例如汗孔。最近的研究表明,使用第三级功能可以提高生物识别系统的安全性和欺诈保护,因为它们很难再现。此外,由于其多种优点,最近的研究也集中在多生物识别。这项工作的目标是将融合技术应用于指纹识别,以便将细节,脊和孔基方法结合起来,从而提供更强大的生物识别系统。我们评估了基于各向同性和基于自适应的自动孔隙提取方法以及基于孔隙的方法与基于细节和脊线的识别方法的融合。实验在公共数据库PolyU HRF上进行,与单独使用这些方法获得的最佳结果相比,在等误差率中减少了大约16%。[1805.10949v1] 脊和基于孔的方法,因此提供更强大的生物识别系统。我们评估了基于各向同性和基于自适应的自动孔隙提取方法以及基于孔隙的方法与基于细节和脊线的识别方法的融合。实验在公共数据库PolyU HRF上进行,与单独使用这些方法获得的最佳结果相比,在等误差率中减少了大约16%。[1805.10949v1] 脊和基于孔的方法,因此提供更强大的生物识别系统。我们评估了基于各向同性和基于自适应的自动孔隙提取方法以及基于孔隙的方法与基于细节和脊线的识别方法的融合。实验在公共数据库PolyU HRF上进行,与单独使用这些方法获得的最佳结果相比,在等误差率中减少了大约16%。[1805.10949v1] 实验在公共数据库PolyU HRF上进行,与单独使用这些方法获得的最佳结果相比,在等误差率中减少了大约16%。[1805.10949v1] 实验在公共数据库PolyU HRF上进行,与单独使用这些方法获得的最佳结果相比,在等误差率中减少了大约16%。[1805.10949v1]
FrançoisPlesse,Alexandru Ginsca,Delezoide Bertrand,FrançoisePrêteux
对图像内容的全面理解需要对自然界中可能发生的相互作用进行复杂的掌握。关键问题之一是描述对象之间的视觉关系。在处理现实世界的数据时,捕获这些非常多样化的交互是一个难题。它可以通过在网络中加入常识来缓解。为此,我们提出了一个框架,该框架利用语义知识并在训练和测试阶段估计对象对的相关性。从预先计算的模型和训练注释中提取出来,这些信息被提炼出专门用于这项任务的神经网络。使用这种方法,我们观察到所有类别的Visual Genome,一个具有挑战性的视觉关系数据集的显着改善。A 68。100回收相对收益的5%与相关性估计直接相关,知识提炼增加32.7%。[1805.10802v1]
Klemen Grm,SimonDobrišek,Walter J. Scheirer,VitomirŠtruc
在本文中,我们解决了在高放大倍数下从未对齐的低分辨率输入幻觉高分辨率人脸图像的问题。我们用卷积神经网络(CNN)来解决这个问题,并提出了一种新颖的(深层)面部幻觉模型,将身份先验融入到学习过程中。该模型由两个主要部分组成:i)级联超分辨率网络,可以放大低分辨率图像; ii)人脸识别模型的集合,在训练过程中充当超分辨率网络的身份先验。与竞争的超分辨率方法不同,即通常依靠单一模型进行放大(即使放大倍数较大),我们的网络使用多个SR模型级联,逐步使用$ 2 \ times $步骤升级低分辨率图像。这个特性使我们能够以不同的分辨率应用监控信号(目标外观),并在多个尺度上纳入身份约束。我们的模型能够在非限制条件下高分辨率(非常)低分辨率的图像,并产生视觉上令人信服的结果。我们在面部图像的大型数据集上严格评估所提出的模型,并报告与最先进的技术相比的优越性能。[1805.10938v1] 我们在面部图像的大型数据集上严格评估所提出的模型,并报告与最先进的技术相比的优越性能。[1805.10938v1] 我们在面部图像的大型数据集上严格评估所提出的模型,并报告与最先进的技术相比的优越性能。[1805.10938v1]
Moustafa Alzantot,Yash Sharma,Supriyo Chakraborty,Mani Srivastava
深度神经网络(DNN)容易受到对抗性例子的攻击,即使在黑客案例中,攻击者仅限于查询访问。现有的黑盒子方法产生敌对的例子通常需要大量的查询,用于培训替代网络或从输出分数估计梯度。我们介绍GenAttack,一种无梯度优化技术,它使用遗传算法在黑盒子设置中合成对抗示例。我们在MNIST,CIFAR-10和ImageNet数据集上进行的实验表明,GenAttack可以成功地产生视觉上难以察觉的对抗性示例,比现有技术的图像识别模型少数量级,比现有方法少。例如,在我们的CIFAR-10实验中,GenAttack需要大约2个,比当前最先进的黑盒攻击少568倍的查询次数。此外,我们证明GenAttack可以成功攻击最先进的ImageNet防御系统,集成对抗训练以及不可区分的随机输入转换防御。GenAttack的成功对抗集合对抗训练表明,其查询效率使其能够利用防御的弱点来指导黑盒攻击。GenAttack成功地针对非可微分输入转换,表明它的无梯度特性使其适用于执行梯度掩蔽/混淆以混淆攻击者的防御。我们的研究结果表明,基于人口的优化为有效的无梯度黑盒攻击开辟了一个有前途的研究领域。[1805.11090v1] 我们展示GenAttack可以成功攻击最先进的ImageNet防御,整体对抗训练和不可区分的随机输入转换防御。GenAttack的成功对抗集合对抗训练表明,其查询效率使其能够利用防御的弱点来指导黑盒攻击。GenAttack成功地针对非可微分输入转换,表明它的无梯度特性使其适用于执行梯度掩蔽/混淆以混淆攻击者的防御。我们的研究结果表明,基于人口的优化为有效的无梯度黑盒攻击开辟了一个有前途的研究领域。[1805.11090v1] 我们展示GenAttack可以成功攻击最先进的ImageNet防御,整体对抗训练和不可区分的随机输入转换防御。GenAttack的成功对抗集合对抗训练表明,其查询效率使其能够利用防御的弱点来指导黑盒攻击。GenAttack成功地针对非可微分输入转换,表明它的无梯度特性使其适用于执行梯度掩蔽/混淆以混淆攻击者的防御。我们的研究结果表明,基于人口的优化为有效的无梯度黑盒攻击开辟了一个有前途的研究领域。[1805.11090v1] 集合对抗训练,以及不可区分的随机输入变换防御。GenAttack的成功对抗集合对抗训练表明,其查询效率使其能够利用防御的弱点来指导黑盒攻击。GenAttack成功地针对非可微分输入转换,表明它的无梯度特性使其适用于执行梯度掩蔽/混淆以混淆攻击者的防御。我们的研究结果表明,基于人口的优化为有效的无梯度黑盒攻击开辟了一个有前途的研究领域。[1805.11090v1] 集合对抗训练,以及不可区分的随机输入变换防御。GenAttack的成功对抗集合对抗训练表明,其查询效率使其能够利用防御的弱点来指导黑盒攻击。GenAttack成功地针对非可微分输入转换,表明它的无梯度特性使其适用于执行梯度掩蔽/混淆以混淆攻击者的防御。我们的研究结果表明,基于人口的优化为有效的无梯度黑盒攻击开辟了一个有前途的研究领域。[1805.11090v1] 反对集合对抗训练的成功表明其查询效率使其能够利用防御的弱点来指导黑盒攻击。GenAttack成功地针对非可微分输入转换,表明它的无梯度特性使其适用于执行梯度掩蔽/混淆以混淆攻击者的防御。我们的研究结果表明,基于人口的优化为有效的无梯度黑盒攻击开辟了一个有前途的研究领域。[1805.11090v1] 反对集合对抗训练的成功表明其查询效率使其能够利用防御的弱点来指导黑盒攻击。GenAttack成功地针对非可微分输入转换,表明它的无梯度特性使其适用于执行梯度掩蔽/混淆以混淆攻击者的防御。我们的研究结果表明,基于人口的优化为有效的无梯度黑盒攻击开辟了一个有前途的研究领域。[1805.11090v1] 我们的研究结果表明,基于人口的优化为有效的无梯度黑盒攻击开辟了一个有前途的研究领域。[1805.11090v1] 我们的研究结果表明,基于人口的优化为有效的无梯度黑盒攻击开辟了一个有前途的研究领域。[1805.11090v1]
Young-chul Yoon,Abhijeet Boragule,Kwangjin Yoon,Moongu Jeon
在本文中,我们提出了处理多目标跟踪过程中时间误差的方法。当对象被遮挡或在目标附近出现噪声检测时,会发生时间错误。在这种情况下,跟踪可能会失败,并发生各种错误,如漂移或ID切换。仅通过使用运动和形状信息很难克服时间错误。因此,我们提出了历史外观匹配方法和经过两步过程训练的联合输入连体网络。它可以防止跟踪失败,尽管对象被暂时遮挡或最后的匹配信息不可靠。根据现场情况,我们还提供有效的技术来有效地去除噪声检测。跟踪性能,特别是身份一致性,通过附加我们的方法得到很大改善。[1805.10916v1]
Elad Tzoreff,Olga Kogan,Yoni Choukroun
聚类是数据分析和机器学习中最基本的任务之一。许多数据驱动型应用程序的核心是旨在将数据分成具有相似模式的组。而且,聚类是一个复杂的过程,受数据表示方法的选择影响很大。最近的研究表明,通过有效地学习这些表示可以鼓励聚类结果。在大多数这些工作中,深度自动编码器最初被预先训练以最小化重建损失,然后与聚类质心一起进行联合优化以改进聚类目标。这些工作主要集中在程序的集群阶段,而没有利用初始阶段的潜在利益。在本文中,我们建议在自动编码器预训练阶段针对有差别的成对损失函数优化自动编码器。我们证明了所提出的方法获得的高精度以及其快速收敛(例如,在预训练阶段,在不到50个时期内MNIST达到92%以上的精度),甚至在小型网络中也是如此。[1805.10795v1]
Wojciech Czaja,Neil Fendley,Michael Pekala,Christopher Ratto,I-Jeng Wang
本文考虑针对遥感应用中使用的机器学习算法的攻击,该领域提出了一系列挑战,这些挑战目前尚未完全针对自然图像数据(如ImageNet)进行研究。特别是,我们提出了一个关于卫星图像分类问题背景下的对抗性实例的新研究。使用最近策划的数据集和关联的分类器,我们提供了对目标分类器允许对同一位置随时间进行多次观测的设置中的对抗示例的初步分析。尽管迄今为止我们的实验纯粹是数字化的,但是我们的问题设置明确纳入了一些实际考虑因素,实际攻击者在进行物理攻击时需要考虑这些因素。我们希望这项工作为未来研究这种环境中潜在的脆弱性提供了一个有用的起点。[1805.10997v1]
Ahmet Tuysuzoglu,Jeremy Tan,Kareem Eissa,Atilla P. Kiraly,Mamadou Diallo,Ali Kamen
前列腺在经直肠超声图像中的实时定位是使超声引导的前列腺活检程序自动化所需的关键技术。在本文中,我们提出了一种新的基于深度学习的方法,其目的是有效和稳健地定位几个前列腺地标。我们提出一种多任务学习方法,主要是为了使整体算法更具上下文意识。在这种方法中,我们不仅考虑了地标位置的显式学习,还建立了学习前列腺轮廓的机制。这种多任务学习进一步与敌对的手段相结合,以促进可行结构的产生。我们已经使用〜4000标记的经直肠超声图像训练了该网络,并在具有地面真实地标位置的独立图像集上进行了测试。我们在对手训练的多任务方法中获得了92.6%的整体Dice分数,显着优于仅通过学习地标位置获得的Dice分数为88.3%。与仅学习地标位置相比,使用敌对多任务方法的整体平均距离误差也提高了20%,同时减少了误差的标准偏差。在计算复杂性方面,两种方法都可以使用标准CUDA GPU实时处理图像。[1805.10737v1] 与仅学习地标位置相比,使用敌对多任务方法的整体平均距离误差也提高了20%,同时减少了误差的标准偏差。在计算复杂性方面,两种方法都可以使用标准CUDA GPU实时处理图像。[1805.10737v1] 与仅学习地标位置相比,使用敌对多任务方法的整体平均距离误差也提高了20%,同时减少了误差的标准偏差。在计算复杂性方面,两种方法都可以使用标准CUDA GPU实时处理图像。[1805.10737v1]
Daan Wynen,Cordelia Schmid,Julien Mairal
在本文中,我们介绍了一种无监督的学习方法,可以自动发现,总结和操纵大型绘画作品中的艺术风格。我们的方法基于原型分析,它是一种类似于稀疏编码和几何解释的无监督学习技术。当应用于来自艺术品集合的深度图像表示时,它会学习原型风格的字典,可以很容易地将其视觉化。在训练模型之后,以局部统计深度视觉特征为特征的新图像的样式通过原型的稀疏凸面组合来近似。这使我们能够解释输入图像中存在哪些原型样式,以及以何种比例。最后,我们的方法允许我们操作潜在原型分解的系数,并实现各种特殊效果,例如风格增强,转移和多个原型之间的插值。[1805.11155v1]
Namhyuk Ahn,Byung Kang,Kyung-Ah Sohn
图像失真分类和检测是许多应用中的重要任务。例如,在压缩图像时,如果我们知道失真的确切位置,则可以通过动态调整本地压缩级别来重新压缩图像。在本文中,我们解决了检测畸变区域和对给定图像的畸变类型进行分类的问题。我们表明,我们的模型显着优于最先进的失真分类器,并首次报告准确的检测结果。我们期望这样的结果证明了我们的方法在诸如图像压缩或失真恢复等许多潜在应用中的有用性。[1805.10881v1]
Patrick McClure,Charles Zheng,Francisco Pereira,Jakub Kaczmarzyk,John Rogers-Lee,Dylan Nielson,Peter Bandettini
收集训练深度神经网络所需的大型数据集可能非常困难,特别是对于实际,道德或法律方面的问题而言,共享和共享数据的许多应用程序都很复杂。但是,可能会出现这样的情况:在各个站点内开发的衍生数据集或预测模型可以共享并与更少的限制结合使用。对分布式数据集进行培训并将所得到的网络进行组合通常被视为持续学习,但这些方法需要对网络进行顺序培训。在本文中,我们引入平行权重合并(PWC),这是一种连续学习方法,用于合并在独立数据集上并行训练的神经网络的权重。我们使用PWC进行脑分割案例研究,以巩固在来自不同地点的独立结构磁共振成像(sMRI)数据集上平行训练的几个扩张卷积神经网络。我们发现PWC导致不同站点的外挂测试集以及非常大且完全独立的多站点数据集上的性能提高。这证明了PWC结合在不同数据集上训练的网络学到的知识的可行性。[1805.10863v1] 这证明了PWC结合在不同数据集上训练的网络学到的知识的可行性。[1805.10863v1] 这证明了PWC结合在不同数据集上训练的网络学到的知识的可行性。[1805.10863v1]
Gabriel Maicas,Andrew P. Bradley,Jacinto C. Nascimento,Ian Reid,Gustavo Carneiro
使用机器学习方法进行医学图像分析系统的培训遵循一个通用脚本:收集并注释一个大型数据集,在训练集上训练分类器,并在一个保留测试集上测试它。这个过程与放射科医师培训没有直接的相似之处,放射医师培训是基于解决一系列增加难度的任务,其中每个任务涉及比机器学习中使用的小得多的数据集。在本文中,我们提出了一种新的培训方法,受到放射科医师培训的启发。特别是,我们探索了使用基于一系列任务对分类器进行建模的元训练。任务选择使用师生课程学习,每个任务由包含小型训练集的简单分类问题组成。我们假设我们提出的元训练方法可以用于预训练医学图像分析模型。该假设在用弱标记数据集训练的DCE-MRI的自动乳房筛查分类上进行测试。通过我们的方法实现的分类性能在该应用领域表现出最好,与现有技术的基准方法相比:DenseNet,多实例学习和多任务学习。[1805.10884v1] 多实例学习和多任务学习。[1805.10884v1] 多实例学习和多任务学习。[1805.10884v1]
Liangqu Long, Wei Wang, Jun Wen, Meihui Zhang, Qian Lin, Beng Chin Ooi
少量镜头学习是针对每个类别的少数标记示例来训练图像分类器,这是一项具有挑战性的任务。在本文中,我们建议利用不同类别的额外大数据集来提高我们的目标数据集的少数学习的准确性。我们的方法基于观察结果,即图像可以分解为对象,这些对象可能出现在来自附加数据集和目标数据集的图像中。我们使用从附加数据集中学习的对象级关系来推断目标数据集中图像与未见类别的相似度。最近邻搜索被应用于图像分类,这是一个非参数模型,因此不需要微调。我们在两个流行的数据集上评估我们的算法,即Omniglot和MiniImagenet。我们获得8.5 \%和2。在MiniImagenet上分别进行5路单次和5次五次实验的7%绝对改进。源代码将在接受后发布。[1805.10777v1]
Shayan Sadigh,Pradeep Sen
我们描述了一类新的CNN子采样技术,称为多重采样,它通过子采样层显着增加了特征地图所保存的信息量。我们称之为方格子采样的一种方法,在没有任何附加参数的情况下显着提高了最先进的体系结构(如DenseNet和ResNet)的准确性,并且显着提高了某些预训练的ImageNet模型的准确性,而无需任何培训或微调。我们收集了关于数据增强本质的新洞察,并首次证明了粗略特征映射对于图像分类中神经网络的性能具有显着的瓶颈。[1805.10766v1]
Marcin Dymczyk,Marius Fehr,Thomas Schneider和Roland Siegwart
本文讨论了使用maplab开源框架的大规模和长期的映射和本地化方案。我们简要概述了系统中的特定算法,可以从多个会话构建一致的地图。然后我们证明,即使在几个月之后,这种地图也可以重用,以实现高效的6-DoF本地化,并且新的轨迹也可以在现有3D模型中注册。本文提供的数据集已公开发布。[1805.10994v1]
Jose Dolz, Xiaopan Xu, Jerome Rony, Jing Yuan, Yang Liu, Eric Granger, Christian Desrosiers, Xi Zhang, Ismail Ben Ayed, Hongbing Lu
精确分割膀胱壁和肿瘤区域是非侵入性识别肿瘤分期和分级的必要步骤,这对于膀胱癌(BC)患者的治疗决策和预后至关重要。然而,磁共振图像(MRI)中膀胱壁和肿瘤的自动描绘是一项具有挑战性的任务,这是由于膀胱形状的重要变化,尿液中强烈的不均匀性以及人群中非常高的变异性,特别是在肿瘤外观上。为了解决这些问题,我们建议使用深度完全卷积神经网络。拟议的网络包括扩张卷积以增加接受领域而不引起额外费用或降低其表现。此外,我们在每个卷积块中引入渐进式扩张,从而使广泛的接受领域不需要大的扩张率。所提出的网络在来自60位病理证实的BC患者的3.0T T2加权MRI扫描上进行评估。实验表明,所提出的模型实现了高精度,对于内壁,外壁和肿瘤区域,平均Dice相似系数分别为0.98,0.84和0.69。这些结果与参考轮廓非常吻合,与现有方法相比性能有所提高。此外,对于整个3D体积,推断时间不到一秒钟,这比该应用的相关最先进方法快2-3个数量级。我们发现CNN可以在MRI上对膀胱癌患者的膀胱壁和肿瘤进行精确分割。整个分割过程是全自动的,并产生与参考标准非常吻合的结果,证明了用于膀胱癌MRI图像的自动多区域分割的深度学习模型的可行性。[1805.10720v1]
Xiao Liu, Shengchuan Zhang, Hong Liu, Xin Liu, Rongrong Ji
在本文中,我们旨在通过单个基于GAN的模型以无监督的方式解决多领域图像到图像的转换问题。在图像到图像的翻译领域,大部分以前的工作主要集中在采用生成对抗网络,其中包含编码器,解码器和鉴别器三部分。这三部分经过训练,可以将编码器和解码器作为翻译器一起使用。然而,在训练过程之后,占用大量参数的鉴别器被放弃,这是计算和存储的浪费。为了解决这个问题,我们将传统框架的鉴别器和编码器集成到一个网络中,我们的框架中的解码器将鉴别器编码的信息转换为目标图像。结果是,我们的框架只包含解码器和鉴别器两部分,有效地减少了网络参数的数量,实现了更有效的训练。然后,将传统的二进制类鉴别器扩展为多类鉴别器,解决了传统设置中的多域图像到图像转换问题。最后,我们提出了标签编码器来自动将标签向量转换为高维表示,而不是手动设计一个热点向量。我们对许多图像到图像的翻译任务进行了广泛的实验,包括样式转换,季节转换,面部幻觉等。对统一模型进行了训练,以翻译从14个相当不同领域采样的图像,并将比较结果与最近提出的几种方法进行了比较,证明了我们框架的优越性和新颖性。[1805.10871v1]
Shubhra Aich,Ian Stavness
我们探讨训练一维回归模型的问题,该模型用于对包含少量高分辨率,可变形图像的数据集中的对象进行计数。为了减少训练全分辨率样本时的过拟合问题,我们建议在卷积神经网络的后端使用全局总和池(GSP)而不是全局平均池(GAP)或完全连接(FC)层。尽管在计算上等同于GAP,但我们通过详细的实验显示,GSP允许卷积网络将计数任务作为一个简单的线性映射问题进行学习,该问题笼统地描述了输入形状和存在的对象的数量。我们在四个不同的航空影像数据集上评估我们的方法 – 三个车辆计数数据集(CARPK,PUCPR +和COWC)以及一个用于小麦穗计数的具有挑战性的新数据集。我们的GSP方法在所有四个数据集上实现了最先进的性能,而使用较小尺寸图像修补程序进行训练的GSP模型比其GAP对象更好地定位对象。[1805.11123v1]
Danial Maleki,Soheila Nadalian,Mohammad Mahdi Derakhshani,Mohammad Amin Sadeghi
我们提出了执行伪像去除和图像压缩的通用技术。为了去除伪像,我们输入一个JPEG图像并尝试去除其压缩伪像。对于压缩,我们输入一个图像并按顺序处理它的8乘8块。对于每个区块,我们首先尝试根据之前的区块预测其强度; 然后,我们存储相对于输入图像的残差。我们的技术重用了JPEG的传统压缩和解压缩例程。我们的伪像去除和我们的图像压缩技术都使用相同的深度网络,但具有不同的训练权重。我们的技术简单快速,显着提高了伪像去除和图像压缩的性能。[1805.11091v1]
Hyo-Eun Kim,Seungwook Kim,Jaehwan Lee
数据是机器学习中最重要的因素之一。但是,即使我们有高质量的数据,也存在数据访问受限的情况。例如,由于隐私问题,从外部访问医疗数据的行为受到严格限制。在这种情况下,我们必须按顺序学习一个模型,只能在相应阶段访问数据。在这项工作中,我们提出了一种保留学习知识的新方法,通过对高层特征空间和输出空间进行建模以提供相互信息,并将特征向量限制在训练期间的建模空间中。所提出的方法很容易实现,因为它可以通过简单地将重建损失添加到目标函数来应用。我们评估在CIFAR-10/100和胸部X射线数据集上提出的方法,并且与以前的方法相比,在知识保存方面显示出优势。[1805.10784v1]
郑进斌Jung Wonmo Joong Ensik Park安永燮Ho Han韩李日崔雪安
MR成像将在肿瘤体积和器官分割的放疗治疗计划中发挥非常重要的作用。然而,由于高成本和老龄化社会中心脏起搏器和人造关节等金属植入物的使用增加,MR基放射治疗的使用受到限制。为了提高基于CT的放射治疗计划的准确性,我们提出了一种综合方法,使用配对和非配对训练数据将CT图像转换成MR图像。与目前用于医学图像的合成方法(其取决于稀疏的成对数据或大量的未配对数据)相比,所提出的方法缓解了配对训练的刚性配准挑战并且克服了未配对训练的上下文未对准问题。生成的对抗网络被训练成将2D脑CT图像切片转换成2D脑MR图像切片,结合对抗性损失,双周期一致性损失和体素方面的损失。使用202名患者的CT和MR图像分析实验。对独立配对训练和未配对训练方法的定性和定量比较证明了我们方法的优越性。[1805.10790v1]
Suofei Zhang, Wei Zhao, Xiaofu Wu, Quan Zhou
胶囊以及它们之间的动态路由是最近提出的用于深度神经网络的结构。胶囊将数据按照姿势分组到矢量或矩阵中,而不是传统标量来表示目标实例的特定属性。除了姿势之外,胶囊应该附带概率(通常表示为激活)以表示它的存在。动态路由可以帮助胶囊实现更多的泛化能力,并减少许多模型参数。然而,阻止胶囊广泛应用的瓶颈是路由期间计算的代价。为了解决这个问题,我们在加权核密度估计框架内概括了现有的路由方法,并提出了两种不同优化策略的快速路由方法。我们的方法提高了路由的时间效率近40%,性能下降可以忽略不计。通过堆叠卷积层和胶囊层的混合体,我们构建了一个网络体系结构来处理输入,分辨率为$ 64 \ times {64} $像素。所提出的模型与多个基准中的其他领先方法实现了并行性能。[1805.10807v1]
Rudresh Dwivedi,Somnath Dey
在生物识别验证系统中,由于原始生物特征数据固有地与用户相关联,所以生物特征数据的泄漏导致永久身份损失。此外,对生物测定系统的各种类型的攻击可以揭示其他应用中的原始模板和效用。为了解决这些安全和隐私问题,已经引入了可取消的生物特征。可取消生物特征使用变换函数从原始生物特征模板构造受保护模板,并执行变换域中模板之间的比较。最近的可消除指纹生成方法或者依赖于针对奇异点(核心/三角洲)对齐细节点,或者利用细节点的绝对坐标位置。在本文中,我们提出了一种新的不可逆脊特征变换方法来保护原有的指纹模板信息。所提出的方法使用基于脊的坐标系统参考每个细节点将指纹区域划分成多个扇区。识别每个扇区中最近邻的细节,并计算基于脊的特征。此外,通过应用Cantor配对函数,随后进行随机投影来生成可取消模板。我们用FVC2002,FVC2004和FVC2006数据库评估了我们的方法。从实验结果可以明显看出,所提出的方法优于文献中现有的方法。此外,安全分析表明,所提出的方法满足不可逆性,可撤销性,并且由于可消除的转变而导致性能下降较小。[1805.10853v1]
Taehyeong Kim,Min-Oh Heo,Seonil Son,Kyoung-Wha Park,Byoung-Tak Zhang
多图像预告故事生成的任务,如视觉故事叙述数据集(VIST)挑战,是从给定的图像序列组成多个连贯的句子。主要困难在于如何在整个图像的上下文中生成特定于图像的句子。在这里,我们提出了一个深度学习网络模型GLAC Net,它通过结合全球 – 本地(全球本地)注意力和上下文级联机制来生成视觉故事。该模型包含两个层次的关注,即整体编码级别和图像特征级别,以构建与图像相关的句子。虽然标准的注意配置需要大量的参数,但GLAC Net通过从编码器输出或图像特征到句子生成器的硬连接以非常简单的方式实现它们。通过将前一个句子的信息连续地传送(串接)到下一个句子,可以进一步提高生成故事的一致性。我们评估了GLAC网络在视觉叙事数据集(VIST)上的表现,并与最先进的技术相比,取得了非常有竞争力的结果。[1805.10973v1]
马西米利亚诺曼奇尼,利萨里奇,芭芭拉卡普托,塞缪尔罗塔布洛
目前需要视觉识别算法来展现自适应能力。给定针对特定任务进行训练的深层模型,能够逐步适应新任务,随着新任务数量的增加保持可扩展性,同时避免灾难性遗忘问题,这将是非常令人满意的。最近的研究表明,通过学习二元变量掩盖给定原始信任网络的内部权重是一种有前途的策略。我们建立在这个直觉之上,并考虑到包含学习二元掩模的卷积权重的更详细的仿射变换。我们表明,通过我们的泛化,可以实现更高级别的适应新任务,使该方法能够与微调策略竞争,每个附加任务每个网络参数需要略多于1位。两个流行基准的实验展示了我们的方法的力量,它实现了Visual Decathlon挑战赛的最新技术水平。[1805.11119v1]
Liqian Ma, Xu Jia, Stamatios Georgoulis, Tinne Tuytelaars, Luc Van Gool
图像到图像的翻译任务近来已成为一个热门话题。大多数作品着重于以无监督的方式进行一对一映射,或以监督的方式进行多对多映射。然而,更实际的设置是以无监督的方式进行多对多映射,由于缺乏监督以及复杂的内部和跨域变化,这更难实现。为了缓解这些问题,我们提出了Exemplar引导的UNSupervised图像到图像转换(EG-UNIT)网络,该网络对目标域中的图像进行图像转换处理。假定图像表示包括跨域共享的内容信息和特定于一个域的样式信息。通过将基于范例的自适应实例规范化应用于共享内容表示,EG-UNIT设法将目标域中的样式信息传送到源域。在各种数据集上的实验结果表明,EG-UNIT确实可以将源图像翻译成目标域中具有语义一致性的不同实例。[1805.11145v1]
Duhyeon Bang Hyunjung Shim
生成对抗网络(GAN)在生成高质量数据方面取得了显着的成功。关注生成过程,现有的GAN调查从潜在向量到数据的单向映射。后来各种研究指出,GAN的潜在空间在语义上是有意义的,可用于高级数据分析和操作。为了分析GAN潜在空间中的真实数据,有必要研究从数据到潜在向量的逆生成映射。为了解决这个问题,双向生成模型引入了编码器来实现生成过程的反向路径。不幸的是,这种努力会导致发电质量的下降,因为不完善的发电机会干扰编码器的培训,反之亦然。在本文中,我们提出了一种新的推断模型,它根据GAN鉴别器的特征估计潜在向量。虽然现有的双向模型将图像学习为潜在的翻译,但我们的算法通过特征将该推理映射制定为潜在的翻译。需要注意的是,我们的模型的培训与GAN培训无关。由于这种独立性的吸引力,所提出的算法可以生成与单向GAN相同的高质量样本,并且还忠实地重建原始数据。此外,我们的算法可以用于任何单向GAN,甚至是预训练的GAN。[1805.10717v1] 我们的算法通过该特征将这种推断映射制定为潜在的翻译。需要注意的是,我们的模型的培训与GAN培训无关。由于这种独立性的吸引力,所提出的算法可以生成与单向GAN相同的高质量样本,并且还忠实地重建原始数据。此外,我们的算法可以用于任何单向GAN,甚至是预训练的GAN。[1805.10717v1] 我们的算法通过该特征将这种推断映射制定为潜在的翻译。需要注意的是,我们的模型的培训与GAN培训无关。由于这种独立性的吸引力,所提出的算法可以生成与单向GAN相同的高质量样本,并且还忠实地重建原始数据。此外,我们的算法可以用于任何单向GAN,甚至是预训练的GAN。[1805.10717v1] 所提出的算法可以生成与单向GAN相同的高质量样本,并且可以忠实地重建原始数据。此外,我们的算法可以用于任何单向GAN,甚至是预训练的GAN。[1805.10717v1] 所提出的算法可以生成与单向GAN相同的高质量样本,并且可以忠实地重建原始数据。此外,我们的算法可以用于任何单向GAN,甚至是预训练的GAN。[1805.10717v1]
Shabab Bazrafkan,Peter Corcoran
能够生成约束样本是深度生成器最吸引人的应用之一。条件生成器是这种模型的成功实现之一,其中创建的样本被限制为特定的类。在这项工作中,这些网络的应用扩展到回归问题,其中条件发生器被限制在数据的任何连续方面。为回归网络提供了一个新的损失函数,并且还提供了用于生成具有任何特定一组地标的面的实现。[1805.10864v1]
Magnus Oskarsson
在本文中,我们提出了一种快速最小求解器,用于从位于一个平面中的四个已知点进行绝对相机姿态估计。我们假设具有未知焦距和未知径向失真的透视相机模型。使用具有一个参数的除法模型来对径向失真进行建模。我们证明这个问题的解决方案可以从单变量六次多项式中找到。这导致了一个非常快速和数字稳定的解算器。[1805.10705v1]
胡义鹏,Eli Gibson,Nooshin Ghavami,Este Bonmati,Caroline M. Moore,Mark Emberton,Tom Vercauteren,J. Alison Noble,Dean C. Barratt
我们描述了一种敌对学习方法来约束用于图像配准的卷积神经网络训练,取代了这些任务中经常使用的位移场的启发式光滑度量。以微创前列腺癌干预为例,我们证明了利用生物力学模拟来调整弱监督的解剖标记驱动的配准网络以对准手术前磁共振(MR)和3D手术中经直肠内超声的可行性(TRUS)图像。鉴别器网络经过优化,可将注册预测位移场与有限元分析模拟的运动数据进行区分。在训练中,登记网络同时旨在最大限度地提高解剖标记之间的相似性,以促进图像对准并最大限度地减少测量预测变形和模拟变形之间发散的对抗性发生器损失。端到端的训练网络可实现高效且全自动化的注册,仅需要MR和TRUS图像对作为输入,而无需解析标签或推理期间的模拟数据。本研究使用来自76名前列腺癌患者的108对标记的MR和TRUS图像和来自143名不同患者的71,500个非线性有限元模拟。我们表明,只有腺体分割作为训练标签,所提出的方法可以帮助预测物理上似真的变形,而没有任何其他的光滑度损失。基于使用834对独立验证界标的交叉验证实验,所提出的对抗 – 正则化配准实现了6.3mm的目标配准误差,其明显低于来自其他几种正则化方法的配准。[1805.10665v1]
Salman Ul Hassan Dar,Mahmut Yurt,Mohammad Shahdloo,Muhammed EmrullahIldız,TolgaÇukur
解剖的多对比MRI采集丰富了可用于诊断的信息量。然而,与额外对比度相关的过多扫描时间可能是限制因素。增强扫描效率的两种主流方法是重建欠采样并合成缺失采集。在重建过程中,性能会随着采样密度的降低而向更高的加速因子降低,特别是在高空间频率下。在综合中,目标对比度中不存在数据样本可能会导致人为的灵敏度或对图像特征的不敏感性。在这里我们提出了一种新的方法来协同重建 – 基于条件生成对抗网络的多对比MRI合成。所提出的方法通过依赖源对比度中可用的共享高频信息来保存目标对比度的高频细节,并且通过依赖于目标对比度的欠采样获取来防止特征泄漏或丢失。来自健康受试者和患者的脑部MRI数据集的示范表明,与先前的先进技术相比,所提出方法的优越性能。所提出的方法可以帮助提高多对比MRI检查的质量和扫描效率。[1805.10704v1] 来自健康受试者和患者的脑部MRI数据集的示范表明,与先前的先进技术相比,所提出方法的优越性能。所提出的方法可以帮助提高多对比MRI检查的质量和扫描效率。[1805.10704v1] 来自健康受试者和患者的脑部MRI数据集的示范表明,与先前的先进技术相比,所提出方法的优越性能。所提出的方法可以帮助提高多对比MRI检查的质量和扫描效率。[1805.10704v1]
Rui Wang, Xiao-Jun Wu, Josef Kittler
在基于图像集的分类领域,通过将原始图像集表示为典型位于黎曼流形中的协方差矩阵已经取得了相当大的进步。具体而言,它是一个对称正定(SPD)流形。传统的流形学习方法不可避免地具有计算复杂度高或特征表示性能差的特点。为了克服这些限制,我们提出了一个非常简单的黎曼流形网络用于图像集分类。受深度学习架构的启发,我们设计了一个完全连接的层来生成更新颖,更强大的SPD矩阵。然而,我们利用整流层防止输入SPD矩阵为单数。我们还引入了具有创新目标函数的提议网络的非线性学习。此外,我们设计了一个池化层来进一步减少输入SPD矩阵的冗余度,以及用于将SPD流形投影到欧几里德空间的对数图层。为了学习输入层和完全连接层之间的连接权重,我们使用了双向二维主成分分析((2D)2PCA)算法。所提出的黎曼流形网络(RieMNet)避免了复杂的计算,并且可以非常容易且高效地构建和训练。我们还开发了深度版RieMNet,名为DRieMNet。建议的RieMNet和DRieMNet在三项任务中进行评估:基于视频的人脸识别,基于集合的对象分类和基于集合的小区识别。广泛的实验结果表明我们的方法优于最先进的技术。[1805.10628v1]
Xinfeng Zhang, Su Yang, Xinjian Zhang, Weishan Zhang, Jiulong Zhang
在拥挤的场景中,异常行为的检测和定位具有挑战性,因为高密度人群使得对象分割和跟踪极其困难。我们将多个帧的光流联系起来以获取短期轨迹,并引入基于直方图的形状描述符(称为形状上下文)来描述这种短期轨迹。此外,我们提出了一种基于K-NN相似度的统计模型来检测时间和空间的异常情况,这是一种无监督的单类学习算法,不需要任何聚类,也不需要任何先验假设。首先,从训练集中检索关于测试样本的K-NN样本,然后使用每对K-NN样本之间的相似性来构建高斯模型。最后,以联合概率的形式计算在高斯模型下从测试样本到K-NN样本的相似度的概率。通过判断联合概率是否在时间和空间方面分别低于预定义的阈值来检测异常事件。这样的方案可以适应整个场景,因为这样计算的概率不受由透视失真引起的运动失真的影响。我们对现实世界的监控视频进行了实验,结果表明,所提出的方法能够可靠地检测和定位视频序列中的异常事件,超越了当前最先进的方法。[1805.10620v1] 通过判断联合概率是否在时间和空间方面分别低于预定义的阈值来检测异常事件。这样的方案可以适应整个场景,因为这样计算的概率不受由透视失真引起的运动失真的影响。我们对现实世界的监控视频进行了实验,结果表明,所提出的方法能够可靠地检测和定位视频序列中的异常事件,超越了当前最先进的方法。[1805.10620v1] 通过判断联合概率是否在时间和空间方面分别低于预定义的阈值来检测异常事件。这样的方案可以适应整个场景,因为这样计算的概率不受由透视失真引起的运动失真的影响。我们对现实世界的监控视频进行了实验,结果表明,所提出的方法能够可靠地检测和定位视频序列中的异常事件,超越了当前最先进的方法。[1805.10620v1] 我们对现实世界的监控视频进行了实验,结果表明,所提出的方法能够可靠地检测和定位视频序列中的异常事件,超越了当前最先进的方法。[1805.10620v1] 我们对现实世界的监控视频进行了实验,结果表明,所提出的方法能够可靠地检测和定位视频序列中的异常事件,超越了当前最先进的方法。[1805.10620v1]
Takuhiro Kaneko,Kaoru Hiramatsu,Kunio Kashino
本文提出了决策树潜在控制器生成对抗网络(DTLC-GAN),它是一个GAN的扩展,可以在不依赖详细监督的情况下学习分层解释表示。为了在潜在变量上实施分层包含结构,我们将一种称为DTLC的新架构纳入生成器输入中。DTLC具有多层树结构,其中子节点代码的ON或OFF由父节点代码控制。通过分层次使用这种体系结构,我们可以根据高层应用程序获得选择使用低层代码的潜在空间。为了使潜在代码在DTLC中以层级解开方式捕获图像的显着语义特征,我们还提出了一种分层的条件互信息正规化,并用我们提出的新定义的课程学习方法对其进行优化。这使得有可能通过仅使用单个DTLC-GAN模型的信息增益基于逐层方式来发现分层可解释的表示。我们评估了各种数据集(即MNIST,CIFAR-10,Tiny ImageNet,3D Faces和CelebA)上的DTLC-GAN,并确认DTLC-GAN可以通过无监督或弱监督设置学习分层可解释的表示。此外,我们将DTLC-GAN应用于图像检索任务,并表现出其在表示学习中的有效性。[1805.10603v1] 这使得有可能通过仅使用单个DTLC-GAN模型的信息增益基于逐层方式来发现分层可解释的表示。我们评估了各种数据集(即MNIST,CIFAR-10,Tiny ImageNet,3D Faces和CelebA)上的DTLC-GAN,并确认DTLC-GAN可以通过无监督或弱监督设置学习分层可解释的表示。此外,我们将DTLC-GAN应用于图像检索任务,并表现出其在表示学习中的有效性。[1805.10603v1] 这使得有可能通过仅使用单个DTLC-GAN模型的信息增益基于逐层方式来发现分层可解释的表示。我们评估了各种数据集(即MNIST,CIFAR-10,Tiny ImageNet,3D Faces和CelebA)上的DTLC-GAN,并确认DTLC-GAN可以通过无监督或弱监督设置学习分层可解释的表示。此外,我们将DTLC-GAN应用于图像检索任务,并表现出其在表示学习中的有效性。[1805.10603v1] 并确认DTLC-GAN可以通过无监督或弱监督设置学习分层可解释的表示形式。此外,我们将DTLC-GAN应用于图像检索任务,并表现出其在表示学习中的有效性。[1805.10603v1] 并确认DTLC-GAN可以通过无监督或弱监督设置学习分层可解释的表示形式。此外,我们将DTLC-GAN应用于图像检索任务,并表现出其在表示学习中的有效性。[1805.10603v1]
Zunlei Feng, Xinchao Wang, Chenglong Ke, Anxiang Zeng, Dacheng Tao, Mingli Song
学习可解释的解题表达是一项至关重要而又具有挑战性的任务。在本文中,我们提出了一种弱半监督方法,称为双交换解缠(DSD),用于使用标记数据和未标记数据进行解缠。与依赖于样本组的完整注释的传统弱监督方法不同,我们只需要配对样本上的有限注释来指示其颜色等共享属性。我们的模型采用双自编码器结构的形式。为了使用带标签的对进行解开,我们遵循“编码交换解码”过程,我们首先交换对应于共享属性的编码部分,然后对获得的混合编码进行解码以重构原始输入对。对于未标记的对,我们按照“ 我们强调了未标记样本的编码的维数模块性和可移植性,这隐含地鼓励在标记对的指导下解开。这种针对半监督设置的双重交换机制证明是非常有效的。对来自广泛领域的图像数据集进行的实验表明,我们的模型产生了最先进的解构性能。[1805.10583v1] 我们强调了未标记样本的编码的维数模块性和可移植性,这隐含地鼓励在标记对的指导下解开。这种针对半监督设置的双重交换机制证明是非常有效的。对来自广泛领域的图像数据集进行的实验表明,我们的模型产生了最先进的解构性能。[1805.10583v1]
Honggang Chen, Xiaohai He, Linbo Qing, Shuhua Xiong, Truong Q. Nguyen
JPEG是广泛使用的有损压缩方法之一。JPEG压缩图像通常遭受包括阻塞和模糊的压缩伪影,尤其是在低比特率下。软解码是提高压缩图像质量而不改变编解码器或引入额外编码位的有效解决方案。受深层卷积神经网络(CNNs)在低层和高层计算机视觉问题上的出色表现的启发,我们开发了一个双像素小波域深CNNs的JPEG压缩图像软解码网络,即DPW -SDNet。像素域深网络采用压缩图像的四个下采样版本来形成4通道输入并输出像素域预测,而小波域深度网络使用1级离散小波变换(DWT)系数来形成4通道输入以产生DWT域预测。像素域和小波域估计被组合以产生最终的软解码结果。实验结果证明了所提出的DPW-SDNet相对于几种最先进的压缩伪像减少算法的优越性。[1805.10558v1]
Naman Kohi,Mayank Vatsa,Richa Singh,Afzel Noor,Angshul Majumdar
亲缘关系验证有许多应用,例如组织大量图像并识别人类之间的相似性。在这项研究中,首先进行一项人类研究,以了解人类思维的能力,并确定促进亲属关系线索的面部歧视区域。利用从人类研究中获得的信息,利用通过表示学习(KVRL)框架的分层亲缘验证来以无监督的方式学习不同面部区域的表示。我们提出了一种新的特征表示方法,称为过滤收缩深信念网络(fcDBN)。所提出的特征表示使用滤波器和收缩正则化惩罚对图像中存在的关系信息进行编码。从学习模型的输出中提取亲属的面部图像的紧凑表示,并且利用多层神经网络来准确地验证亲属。创建一个新的WVU亲属关系数据库,该数据库由每个主题的多个图像组成,以促进亲属关系验证。结果表明,所提出的深度学习框架(KVRL-fcDBN)在WVU亲属关系数据库和四个现有的基准数据集上获得了最先进的亲属关系验证准确性。此外,亲缘关系信息被用作软生物特征模式,以通过似然比和基于支持向量机的方法的产物来提高人脸验证的性能。使用所提出的KVRL-fcDBN框架,在人脸验证的性能方面观察到超过20%的改善。[1805.10557v1] 结果表明,所提出的深度学习框架(KVRL-fcDBN)在WVU亲属关系数据库和四个现有的基准数据集上获得了最先进的亲属关系验证准确性。此外,亲缘关系信息被用作软生物特征模式,以通过似然比和基于支持向量机的方法的产物来提高人脸验证的性能。使用所提出的KVRL-fcDBN框架,在人脸验证的性能方面观察到超过20%的改善。[1805.10557v1] 结果表明,所提出的深度学习框架(KVRL-fcDBN)在WVU亲属关系数据库和四个现有的基准数据集上获得了最先进的亲属关系验证准确性。此外,亲缘关系信息被用作软生物特征模式,以通过似然比和基于支持向量机的方法的产物来提高人脸验证的性能。使用所提出的KVRL-fcDBN框架,在人脸验证的性能方面观察到超过20%的改善。[1805.10557v1] 亲缘关系信息被用作软生物特征模式以通过似然比和基于支持向量机的方法的产品来提高人脸验证的性能。使用所提出的KVRL-fcDBN框架,在人脸验证的性能方面观察到超过20%的改善。[1805.10557v1] 亲缘关系信息被用作软生物特征模式以通过似然比和基于支持向量机的方法的产品来提高人脸验证的性能。使用所提出的KVRL-fcDBN框架,在人脸验证的性能方面观察到超过20%的改善。[1805.10557v1]
Jen-Hao Rick Chang,BVK Vijaya Kumar,Aswin C. Sankaranarayanan
我们提供了一个能够生成深度/焦平面密集集合的虚拟现实显示器。这是通过驱动焦距可调镜头以高频率扫描一系列焦距并随后使用光学模块精确地以微秒时间分辨率跟踪焦距来实现的。精确跟踪焦距,加上高速显示,使我们的实验室原型能够每秒生成1600个焦平面。这使得能够解决当今显示器特有的聚散度调节冲突的新型虚拟现实多焦点显示器成为可能。[1805.10664v1]
Pratik Dubal,Rohan Mahadev,Suraj Kothawade,Kunal Dargan,Rishabh Iyer
本白皮书展示了我们定制的基于深度学习的视频分析系统在专注于安全性,安全性,客户分析和流程合规性的各种应用中的有效性。我们描述了我们的视频分析系统,包括搜索,总结,统计和实时警报,并概述其构建模块。这些构建块包括对象检测,跟踪,人脸检测和识别,人脸和人脸子属性分析。在每种情况下,我们都演示了如何使用部署场景中的数据进行训练的定制模型比现成的模型具有更高的精度。为此,我们描述了我们的数据处理和模型训练管道,可以快速周转时间从视频中训练和微调模型。最后,由于大多数这些模型都是现场部署的,拥有不需要GPU的资源受限模型非常重要。我们演示了我们如何定制培训资源约束模型并将它们部署在嵌入式设备上,而不会显着降低准确性。据我们所知,这是第一项工作,它提供了对监控视频分析的各种实际客户部署场景的不同深度学习模型的全面评估。通过分享我们的实施细节和为各种客户部署定制深度学习模式所获得的经验,我们希望定制的基于深度学习的视频分析广泛应用于世界各地的商业产品中。[1805.10604v1] 我们演示了我们如何定制培训资源约束模型并将它们部署在嵌入式设备上,而不会显着降低准确性。据我们所知,这是第一项工作,它提供了对监控视频分析的各种实际客户部署场景的不同深度学习模型的全面评估。通过分享我们的实施细节和为各种客户部署定制深度学习模式所获得的经验,我们希望定制的基于深度学习的视频分析广泛应用于世界各地的商业产品中。[1805.10604v1] 我们演示了我们如何定制培训资源约束模型并将它们部署在嵌入式设备上,而不会显着降低准确性。据我们所知,这是第一项工作,它提供了对监控视频分析的各种实际客户部署场景的不同深度学习模型的全面评估。通过分享我们的实施细节和为各种客户部署定制深度学习模式所获得的经验,我们希望定制的基于深度学习的视频分析广泛应用于世界各地的商业产品中。[1805.10604v1] 这是第一项能够针对监控视频分析的各种实际客户部署场景提供不同深度学习模型综合评估的工作。通过分享我们的实施细节和为各种客户部署定制深度学习模式所获得的经验,我们希望定制的基于深度学习的视频分析广泛应用于世界各地的商业产品中。[1805.10604v1] 这是第一项能够针对监控视频分析的各种实际客户部署场景提供不同深度学习模型综合评估的工作。通过分享我们的实施细节和为各种客户部署定制深度学习模式所获得的经验,我们希望定制的基于深度学习的视频分析广泛应用于世界各地的商业产品中。[1805.10604v1]
Yanjun Li, Yoram Bresler
多通道盲反卷积是从卷积测量$ y_i = x_i \ circledast f $($ i = 1,2,\ dots,N $)中恢复未知信号$ f $和多个未知通道$ x_i $的问题。我们考虑$ x_i $是稀疏的情况,并且$ f $的卷积是可逆的。我们的非凸优化公式解决了单位球上的滤波器$ h $产生稀疏输出$ y_i \ circledast h $的问题。在一些技术假设下,我们证明了目标函数的所有局部最小值对应于$ f $的逆滤波器,直到固有符号和移位模糊,并且所有的鞍点都有严格的负曲率。这种几何结构允许使用随机初始化的简单流形梯度下降算法成功恢复$ f $和$ x_i $。我们的理论研究结果得到了数值实验的补充,证明了所提出方法优于以前方法的优越性能。[1805.10437v1]
Mohammad Ahangar Kiasari,Dennis Singh Moirangthem,Minho Lee
受到生成模型的最新进展的启发,我们引入人类动作生成模型,以生成连续的人体运动序列来制定新的动作。我们提出了一个自动编码器和生成对抗网络(GAN)的框架,以产生以初始状态和给定类别标签为条件的多个连续的人类行为。所提出的模型以端到端的方式进行训练,其中自编码器与GAN联合训练。该模型是在NTU RGB + D数据集上进行训练的,我们证明了所提出的模型可以生成不同类型的动作。此外,模型可以成功地产生一系列新的行动,给予不同的行为标签作为条件。传统的人类行为预测和生成模型缺乏这些特征,这对于实际应用是必不可少的。[1805.10416v1]
Lichao Mou, Xiao Xiang Zhu
目标检测和语义分割是高分辨率遥感图像对象检索的两个主要主题,最近通过浏览深度学习波,尤其是卷积神经网络(CNN),取得了显着的性能。在本文中,我们感兴趣的是一个新颖,更具挑战性的车辆实例分割问题,它需要在像素级别识别车辆出现的位置,并将每个像素与车辆的物理实例相关联。相比之下,车辆检测和语义分割只涉及两者之一。我们提出用语义边界感知多任务学习网络来解决这个问题。进一步来说,我们利用剩余学习(ResNet)的哲学来构建完全卷积网络,该网络能够利用从不同残差块学习的多级上下文特征表示。我们从理论上分析和讨论为什么残余网络可以为像素分割任务生成更好的概率图。然后,基于这种网络架构,我们提出了一个统一的多任务学习网络,可以同时学习两个互补的任务,即分割车辆区域和检测语义边界。后一个子问题有助于区分紧密间隔的车辆,这些车辆通常没有正确分离成实例。目前,用于车辆提取的具有像素方式注释的数据集是Zeesbrugge上的ISPRS数据集和IEEE GRSS DFC2015数据集,专门从事语义分割。因此,我们为车辆实例分割建立了一个新的,更具挑战性的数据集,称为Busy Parking Lot无人机视频数据集,并且我们可以在http://www.sipeo.bgu.tum.de/download上获取我们的数据集,以便它可以用于基准未来的车辆实例分段算法。[1805.10485v1]
Ismail Elezi,Alessandro Torcinovich,Sebastiano Vascon,Marcello Pelillo
将深度学习应用于现实世界问题的主要障碍是标记数据的稀缺性。小型训练集对于深度网络实际上是没有用的,因为由于大量的可训练参数,它们很可能会出现过度拟合现象。另一方面,通过进一步的手动或半自动化标记增加训练集大小可能是昂贵的,如果不可能的话。因此,解决这个问题的标准技术是转移学习和数据增强,其中包括对现有的标记实例应用某种“转换”以使训练集的规模增大。虽然这种方法在图像分类等应用中运行良好,但设计合适的转换算子相对简单,如何将其应用于更多结构化的场景并不明显。受到观察的启发,在几乎所有的应用领域中,很容易获得未标记的数据,本文中我们采取不同的观点并提出了一种\ emph {标签增强}方法。我们从一个小型的有标签的数据集开始,并使用图形转换技术让标签通过一组更大的未标记数据进行传播。这允许我们自然地使用驻留在数据中的(二阶)相似性信息,这是通常由标准增强技术忽略的信息源。特别是,我们表明通过使用已知的博弈理论转导过程,我们可以创建更大,更准确的标记数据集,这些数据集使用更好的训练神经网络中的结果。报告初步实验显示了对标准图像分类数据集的一致改进。[1805.10546v1]
Mrigank Rochan, Linwei Ye, Yang Wang
本文讨论了视频摘要的问题。给定输入视频,目标是选择帧的子集来创建摘要视频,以最佳方式捕获输入视频的重要信息。通过在线提供大量视频,视频摘要为视频搜索,检索,浏览等提供了有用的工具。本文中,我们将视频摘要视为序列标签问题。与现有的使用循环模型的方法不同,我们提出完全卷积序列模型来解决视频摘要。我们首先在语义分割和视频摘要之间建立一种新的联系,然后使用流行的语义分割网络进行视频摘要。对两个基准数据集的大量实验和分析证明了我们模型的有效性。[1805.10538v1]
Lukas Tuggener,Ismail Elezi,Jurgen Schmidhuber,Thilo Stadelmann
光音乐识别(OMR)是音乐信息检索中的一个重要和具有挑战性的领域,音乐符号的数字图像的精确检测是任何OMR管道的核心功能。在本文中,我们介绍一种基于合成能量图和分水岭变换的新型物体检测方法,称为深度流域检测器(DWD)。我们的方法专门用于处理包含大量非常小的对象的高分辨率图像,因此能够处理整页书写音乐。我们目前常见的音乐符号的国家的最先进的检测结果,并显示DWD与合成分数同样作为手写音乐的工作能力。[1805.10548v1]
Wayne Wu, Chen Qian, Shuo Yang, Quan Wang, Yici Cai, Qiang Zhou
我们通过利用边界线作为人脸的几何结构来帮助面部地标定位,提出了一种新的边界感知人脸对准算法。与传统的基于热图的方法和基于回归的方法不同,我们的方法从边界线中导出面部标志,消除了界标定义中的模糊性。这项工作探讨并回答了三个问题:1.为什么使用边界?2.如何使用边界?3.边界估计和地标本地化之间的关系是什么?我们的边界意识面对齐算法在300W Fullset上实现了3.49%的均值误差,这大大超过了当前最先进的方法。我们的方法也可以轻松地整合来自其他数据集的信息。通过利用300W数据集的边界信息,我们的方法达到了3。92%的平均误差,COFW数据集的失败率为0.39%,AFLW-Full数据集的平均误差为1.25%。此外,我们提出了一个新的数据集WFLW,以统一不同因素的训练和测试,包括姿势,表情,照明,化妆,遮挡和模糊。数据集和模型将在https://wywu.github.io/projects/LAB/LAB.html [1805.10483v1]
Christopher A. Metzler,Ali Mousavi,Reinhard Heckel,Richard G. Baraniuk
从无标签和嘈杂的数据中学习是机器学习的巨大挑战之一。因此,它不断提出新思路的研究。在这项工作中,我们重新审视了一个经典的想法:Stein的无偏风险评估(SURE)。我们证明,在图像恢复的背景下,SURE及其推广可以用于训练卷积神经网络(CNN),用于一系列图像去噪和恢复问题{没有任何地面实况数据。}具体来说,我们的目标是从图像的{\ em噪声}线性变换(测量)重构图像$ x $。我们考虑两种情况:一种是没有额外数据可用的情况,另一种情况是我们测量的其他图像的测量值来自与$ x $相同的噪音分布,但无法访问干净的图像。情况就是如此,例如,在医学成像,显微镜和天文学的情况下,很少有无噪音的地面真实数据。我们证明在这种情况下,SURE可以用来估计与$ x $的估计相关的均方误差损失。使用这种损失估计,我们训练网络执行去噪和压缩感知恢复。此外,我们还使用SURE框架对Ulyanov等人提出的有趣结果进行部分解释和改进。在“Deep Image Prior”中:使用随机权重进行初始化并适合单个噪声图像的网络可以有效地消除该图像。[1805.10531v1] SURE可用于估计与$ x $估计相关的均方误差损失。使用这种损失估计,我们训练网络执行去噪和压缩感知恢复。此外,我们还使用SURE框架对Ulyanov等人提出的有趣结果进行部分解释和改进。在“Deep Image Prior”中:使用随机权重进行初始化并适合单个噪声图像的网络可以有效地消除该图像。[1805.10531v1] SURE可用于估计与$ x $估计相关的均方误差损失。使用这种损失估计,我们训练网络执行去噪和压缩感知恢复。此外,我们还使用SURE框架对Ulyanov等人提出的有趣结果进行部分解释和改进。在“Deep Image Prior”中:使用随机权重进行初始化并适合单个噪声图像的网络可以有效地消除该图像。[1805.10531v1] 使用随机权重进行初始化并适合单个噪声图像的网络可以有效地消除该图像。[1805.10531v1] 使用随机权重进行初始化并适合单个噪声图像的网络可以有效地消除该图像。[1805.10531v1]
YunKun Li, XiaoJun Wu, Josef Kittler
在本文中,我们提出了一种基于L1范数的双向二维主成分分析(L1-(2D)2PCA)的面向人脸识别的新型深度学习网络L1-(2D)2PCANet。在我们的网络中,L1-(2D)2PCA的作用是学习多个卷积层的滤波器。卷积图层之后,我们部署二元哈希和块方式直方图进行池化。我们在一些基准面部数据集YALE,AR,Extended Yale B,LFW-a和FERET上测试我们的网络,CNN,PCANet,2DPCANet和L1-PCANet作为对比。结果表明,L1-(2D)2PCANet在所有测试中的识别性能优于基线网络,特别是当测试数据中存在异常值时。由于L1-规范,L1-2D2PCANet对训练图像的异常值和变化具有鲁棒性。[1805.10476v1]
Deng-Ping Fan, Cheng Gong, Yang Cao, Bo Ren, Ming-Ming Cheng, Ali Borji
现有的二进制前景地图(FM)可以以像素或结构方式处理各种类型的错误。这些测量方法独立考虑像素级匹配或图像级信息,而认知视觉研究表明人类视觉对场景中的全局信息和局部细节高度敏感。在本文中,我们详细介绍了当前的二元调频评估指标,并提出了一种新颖有效的电子措施(增强对准措施)。我们的测量将局部像素值与一个术语中的图像级平均值相结合,共同捕获图像级统计信息和局部像素匹配信息。我们通过5个元量度来证明我们的测量优于4个常用数据集的可用度量,包括应用程序的排名模型,降级通用,随机高斯噪声图,地面真值开关,以及人的判断。我们发现几乎所有的元措施都有很大的改进。例如,在应用排名方面,我们观察到与其他流行措施相比,从9.08%提高到19.65%。[1805.10421v1]
Rudresh Dwivedi,Somnath Dey
尽管基于生物识别的认证系统有其优点,但由于生物识别数据对异常值的敏感性,由于类内变化而导致的低性能以及由信息泄露引起的隐私侵入,所以几乎没有引起关注。为了解决这些问题,我们提出了一种混合融合框架,其中只有受保护的模式被组合以满足保密和性能改进的要求。本文提出了一种利用均值封闭加权(MCW)得分水平和基于DS证据理论的可降解模式对虹膜和指纹进行决策级融合的方法,以减轻个体评分或决策融合机制的局限性。所提出的混合融合方案结合了来自与每个受保护模态相对应的不同匹配器的相似性分数。使用MCW评分融合方法将从每个模式的不同匹配器获得的个体分数组合。MCW技术为参与分数计算的每个匹配器实现最佳权重。此外,将DS理论应用于诱导分数以输出最终决定。对三个虚拟数据库进行严格的实验评估表明,所提出的混合融合框架优于组件级别或单独的融合方法(分数级别和决策级别融合)。因此,与Virtual_A的单峰可撤销虹膜和单峰可取消指纹验证系统相比,我们获得了性能提高的(48%,66%),(72%,86%)和(49%,38%Virtual_B和Virtual_C数据库。此外,所提出的方法足够强大,以满足安全认证要求的分数和异常值的可变性。[1805.10433v1]
Ke Zhang, Na Liu, Xingfang Yuan, Xinyao Guo, Ce Gao, Zhenbing Zhao
单人脸图像的年龄估计一直是人机交互和计算机视觉领域的一项重要任务,具有广泛的实际应用价值。针对现有方法对野外人脸图像年龄估计精度较低的问题,考虑到仅考虑人脸图像的整体特征而忽略了对年龄敏感区域的细粒度特征,我们提出了一种方法基于Fine-Grained分类和视觉注意机制的思想,基于Attention LSTM网络进行野外细粒度年龄估计。该方法将ResNets或RoR模型与LSTM单元相结合,构建AL-ResNets或AL-RoR网络,提取年龄敏感的局部区域,有效提高年龄估计的准确性。首先,选择在ImageNet数据集上预先训练的ResNets或RoR模型作为基本模型,然后在IMDB-WIKI-101数据集上对其进行微调以进行年龄估计。然后,我们对目标年龄数据集上的ResNets或RoR进行微调,以提取人脸图像的全局特征。为了提取年龄敏感区域的局部特征,然后提供LSTM单元以自动获得年龄敏感区域的坐标。最后,年龄组分类实验直接在Adience数据集上进行,年龄回归实验由MORPH相册2,FG-NET和LAP数据集上的Deep Expectation算法(DEX)执行。通过结合全球和本地特征,我们得到了最终的预测结果。我们的实验说明AL-ResNets或AL-RoR对野外年龄估计的有效性,它比Adience,MORPH Album 2,FG-NET和LAP数据集中的所有其他CNN方法都获得了最新的最新性能。[1805.10445v1]
Volkan Cirik,Taylor Berg-Kirkpatrick,Louis-Philippe Morency
我们引入了GroundNet,这是一种用于表达识别的神经网络 – 将自然语言表达引用的对象定位(或接地)在图像中的任务。我们的这个任务的方法是首先依赖输入引用表达式的句法分析来通知计算图的结构。给定输入表达式的解析树,我们明确地将树中存在的句法成分和关系映射到定义我们执行本地化的架构的神经模块组合图。这种基于语法的方法有助于\ textit {both}表达式中提到的目标对象和辅助支持对象的本地化。因此,GroundNet比以前的方法更能解释:我们可以(1)确定引用表达式中的哪一个词组指向图像中的哪个对象,以及(2)跟踪网络如何确定目标对象的定位。我们通过在GoogleRef数据集中引入一组新的注释来经验性地研究此属性,以评估支持对象的本地化。我们的实验表明,GroundNet在识别支持对象方面达到了最新的精确度,同时在目标对象的本地化方面保持了可比较的性能。[1805.10547v1] 我们的实验表明,GroundNet在识别支持对象方面达到了最新的精确度,同时在目标对象的本地化方面保持了可比较的性能。[1805.10547v1] 我们的实验表明,GroundNet在识别支持对象方面达到了最新的精确度,同时在目标对象的本地化方面保持了可比较的性能。[1805.10547v1]
Josh Fromm,Shwetak Patel,Matthai Philipose
最近的工作表明,快速,紧凑的低位宽度神经网络可以令人惊讶地准确。这些网络使用均匀二值化:每层或(更一般地)整个模型中的所有参数具有相同的低位宽度(例如2位)。然而,现代硬件允许有效的设计,其中每个算术指令可以具有自定义位宽,从而激励异构二进制化,其中网络中的每个参数可以具有不同的位宽。在本文中,我们表明在训练期间选择参数粒度的位宽是可行和有用的。例如,AlexNet和MobileNet等现代网络的异质量化版本以及平均只有1.4位的1位,2位和3位参数的正确组合可以等同于这些网络的同类2位版本的准确性。进一步,我们提供的分析表明,非均匀二进制系统可以产生基于FPGA和ASIC的实现方案,这些实现在电路面积和能效方面都比同类方案更高效。[1805.10368v1]
Dan Nguyen, Xun Jia, David Sher, Mu-Han Lin, Zohaib Iqbal, Hui Liu, Steve Jiang
头颈部(H&N)癌患者的治疗计划过程被认为是目标体积大,目标处方剂量水平高以及目标附近有许多辐射敏感的关键结构的最复杂之一。本网站的治疗规划需要高水平的人类专业知识和大量的努力来制作个性化的高质量计划,长达一周,这会恶化肿瘤控制和患者生存的可能性。为了解决这个问题,我们建议研究基于深度学习的剂量预测模型,层次密集连接的U网,基于两种非常流行的网络架构:U-net和DenseNet。我们发现这种新架构能够准确有效地预测剂量分布,优于其他两种模型,标准U-net和DenseNet,均匀性,剂量一致性和测试数据的剂量覆盖率。平均而言,我们提出的模型能够在测试数据中预测OAR最大剂量在6.3%以内,平均剂量在处方剂量的5.1%以内。其他模型,标准U型网和DenseNet表现较差,OAR最大剂量预测误差分别为8.2%和9.3%,平均剂量预测误差分别为6.4%和6.8%。此外,我们提出的模型使用的标准U型网的训练参数少12倍,并且预测患者的剂量比DenseNet快4倍。[1805.10397v1] 测试数据中处方剂量的1%。其他模型,标准U型网和DenseNet表现较差,OAR最大剂量预测误差分别为8.2%和9.3%,平均剂量预测误差分别为6.4%和6.8%。此外,我们提出的模型使用的标准U型网的训练参数少12倍,并且预测患者的剂量比DenseNet快4倍。[1805.10397v1] 测试数据中处方剂量的1%。其他模型,标准U型网和DenseNet表现较差,OAR最大剂量预测误差分别为8.2%和9.3%,平均剂量预测误差分别为6.4%和6.8%。此外,我们提出的模型使用的标准U型网的训练参数少12倍,并且预测患者的剂量比DenseNet快4倍。[1805.10397v1]
Zhoubing Xu, Yuankai Huo, JinHyeong Park, Bennett Landman, Andy Milkowski, Sasa Grbic, Shaohua Zhou
腹部超声检查是最常见的超声检查,需要大量的手动操作来获取标准的腹腔器官视野,注释文本中的观点,并记录临床相关的器官测量。因此,器官的自动视图分类和界标检测可以有助于简化检查工作流程。然而,这是一个具有挑战性的问题,不仅因为超声波模态的固有困难,例如低对比度和大变化,而且跨任务的异质性,即所有视图的一个分类任务,以及每个视图的一个标志检测任务相关观点。尽管卷积神经网络(CNN)在超声图像分析方面比传统的机器学习方法显示出更有希望的结果,由于大多数现有超声波扫描仪的计算和存储资源有限,部署多个网络(每个任务一个网络)变得不切实际。为了克服这些限制,我们提出了一个多任务学习框架来处理单个网络的所有任务。该网络被集成以同时执行视图分类和界标检测; 它还配备了全局卷积核,坐标约束和有条件的对抗模块以利用性能。在基于187,219个超声图像的实验研究中,使用所提出的简化方法,我们实现了(1)比两个临床专家之间的一致性更好的观察分类准确度,以及(2)与用户间可变性相当的基于地标的测量误差。多任务方法还可以在训练过程中共享所有任务期间的特征提取,并因此优于单独解决每个任务的方法。[1805.10376v1]
SemihGünel,Helge Rhodin,Pascal Fua
从单一图像中恢复一个人的身高对于虚拟服装的装配,自动驾驶和监控非常重要,但是,由于缺乏绝对的比例信息,它也非常具有挑战性。我们解决了很少遇到的情况,其中摄像机参数和场景几何体是未知的。然而,为了解决固有的尺度模糊性,我们从人体解剖学固有的统计数据推断身高,并且可以从图像中直接估计身高,如关节姿势,骨骼长度比例和面部特征。我们的贡献是双重的。首先,我们尝试使用不同的机器学习模型来捕捉图像内容与人体高度之间的关系。其次,我们表明,性能主要受数据集大小的限制,并创建一个三个数量级的新数据集,通过挖掘显式高度标签并通过面部识别和分配一致性将它们传播到附加图像。我们的评估显示单眼高度估计可能与MAE 5.56厘米。[1805.10355v1]
基于眼底图像模拟血流动力学的青光眼风险指数
若泽·伊格纳西奥·奥兰多,若昂·巴博萨·布雷达,卡雷尔·范·科尔,巴勃罗·布兰科,马修·布拉斯科,卡洛斯·布兰特
青光眼是世界上不可逆转但可预防失明的主要原因。其主要可治疗危险因素是眼内压,但正在探索其他生物标志物以改善对该病的病理生理学的理解。最近观察到,青光眼引起眼部血液动力学的变化。然而,它对视网膜小动脉功能行为的影响尚未研究。在本文中,我们提出了使用计算血液动力学来表征这些变化的第一种方法。使用0D模型在刚性域中对稳定的,不可压缩的非牛顿流体模拟视网膜血流。模拟在从眼底图像提取的患者特异性动脉树上执行。我们还提出了一种新颖的特征表示技术,将模拟阶段的结果组成一个固定长度的特征向量,可以用于分类研究。我们对一个新的眼底图像数据库进行的实验表明,我们的方法能够捕捉青光眼患者血液动力学的代表性变化。代码和数据可在https://ignaciorlando.github.io中公开获得。[1805.10273v2]
图胶囊卷积神经网络
Saurabh Verma, Zhi-Li Zhang
图形卷积神经网络(GCNN)是深度学习领域最新的令人兴奋的进步,其应用在包括生物信息学,化学信息学,社交网络,自然语言处理和计算机视觉等多个跨领域迅速传播。在本文中,我们揭示并解决了\ cite {hinton2011transforming}中介绍的GCNN模型的一些基本弱点,并提出了我们的Graph Capsule Network(GCAPS-CNN)模型。另外,我们设计我们的GCAPS-CNN模型来解决当前GCNN模型发现的具有挑战性的尤其是图分类问题。通过大量实验,我们证明了我们提出的Graph Capsule Network可以显着优于现有最先进的深度学习方法和基于图分类基准数据集的图内核。
TrajNet基准的轨迹预测方法和注释评估
Stefan Becker,Ronny Hug,WolfgangHübner,Michael Arens
近年来,从基于贝叶斯公式的跟踪问题到使用深度神经网络的建模发生了转变。为此,在本文中,评估了用于预测未来行人路径的各种深度神经网络的有效性。与传统方法一样,分析的深度网络完全依赖于观察到的轨迹,而没有人 – 人交互信息。该评估是在公开可用的TrajNet基准数据集上完成的,该基准数据集为基于轨迹的活动预测建立了大量和流行数据集的存储库。我们展示了一个密集层堆叠在顶部的循环编码器,称为RED预测器,与此类场景中的详细模型相比,能够实现复杂的结果。进一步,我们调查失败案例,并对观察到的现象进行解释,并提供一些建议来克服所显示的缺点。[1805.07663v3]
用于面部属性操作的稀疏分组多任务生成对抗网络
Jichao Zhang, Yezhi Shu, Songhua Xu, Gongze Cao, Fan Zhong, Xueying Qin
最近,图像到图像转换(IIT)在图像风格转换和图像语义上下文的处理方面取得了巨大进步。但是,现有的方法需要对培训数据进行详尽的标记,这对劳动力要求很高,难以扩大规模,难以适应新的领域。为了克服这种关键限制,我们提出了稀疏分组的生成对抗网络(SG-GAN),这是一种新颖的方法,可以在稀疏分组数据集中执行图像转换,大多数训练数据是混合的,只有少数被标记。具有单输入多输出体系结构的SG-GAN可用于多个组之间的翻译,只使用一个训练模型。作为实验验证我们模型优点的案例研究,我们应用该算法来解决面部图像属性操作的一系列任务。实验结果表明,SG-GAN可以在充分标记的数据集上获得比以前最先进的方法的竞争结果,同时在大多数数据混合且只有小部分被标记的稀疏分组数据集上获得优异的图像转译结果质量。[1805.07509v2]
识别烹饪相关图像中的对象状态
Ahmad Babaeian Jelodar,Md Sirajus Salekin,Yu Sun
了解对象状态与机器人任务计划和操作中的对象识别一样重要。本文首次明确介绍和解决了计算机视觉中的状态识别问题。在本文中,探索烹饪视频中的对象和成分,并分析最常见的对象。检查来自最频繁烹饪对象的11个状态,并创建包含这些对象及其状态的图像的数据集。作为状态识别问题的解决方案,提出了基于Resnet的深度模型。该模型用Imagenet权重进行初始化,并对11个类的数据集进行训练。经过训练的状态识别模型在Imagenet数据集的一个子集上进行评估,并且使用模型与手动检查的组合来提供状态标签。此外,使用最初训练的模型和特定于对象的图像对数据集中的每个对象进行单独模型的微调,其中显着的改进被证明。[1805.06956v2]
随机图像和形状匹配的字符串方法
Alexis Arnaudon,Darryl Holm,Stefan Sommer
传统上,图像的匹配和形状差异的分析通过变形的路径的能量最小化来起作用以匹配形状对象。在大变形区别度量映射(LDDMM)框架中,匹配函数上的迭代梯度下降导致匹配算法非正式地称为Beg算法。当引入随机性来模拟形状的随机变异性并提供更实际的观察形状数据模型时,相应的匹配问题可以用随机Beg算法来解决,类似于罕见事件采样中使用的有限温度串方法。在本文中,我们应用一个与LDDMM框架的几何结构兼容的随机模型来获得图像的随机模型,并且我们推导了Beg算法的随机版本,我们将这个随机版本与字符串方法和后验似然的期望最大化优化进行比较。该算法及其在统计推断中的用途在随机LDDMM地标和图像上进行测试。[1805.06038v2]
DeepEM:用于弱监督肺结节检测的EM深度3D隧道
Wentao Zhu, Yeeleng S. Vang, Yufang Huang, Xiaohui Xie
近来深度学习已经在各种医学图像应用中广泛采用。然而,训练复杂的深层神经网络需要用大地标记标记的大规模数据集,这在很多医学图像领域通常是不可用的。例如,为了训练深度神经网络来检测肺部计算机断层扫描(CT)图像中的肺结节,目前的做法是在许多CT图像上手动标记结节的位置和大小,以构建足够大的训练数据集,这是昂贵且困难的规模。另一方面,电子病历(EMR)包含大量关于每幅医学图像内容的部分信息。在这项工作中,我们探索如何挖掘这个庞大的,但目前尚未开发的数据源来改善肺结节检测。我们建议DeepEM,一种新的深度3D ConvNet框架增强了期望最大化(EM),用于挖掘EMR中用于肺结节检测的弱监督标签。实验结果表明,DeepEM可以分别导致LUNA16和天池数据集上自由响应接收机操作特征(FROC)得分的平均1.5%和3.9%的改善,证明了EMR中不完整信息对改进深度学习算法的效用。 \ footnote {https://github.com/uci-cbcl/DeepEM-for-Weakly-Supervised-Detection.git} [1805.05373v3]
重温扩张卷积:弱监督和半监督语义分割的简单方法
Yunchao Wei, Huaxin Xiao, Honghui Shi, Zequn Jie, Jiashi Feng, Thomas S. Huang
尽管取得了令人瞩目的进展,但监管不力的细分方法仍然逊于完全监督的细分方法。我们正面对表现差距主要来自他们对学习的限制,即从图像级监督中产生高质量的密集物体定位图。为了缓解这种差距,我们重新审视了扩张卷积[1],并揭示了如何以一种新颖的方式利用它来有效地克服弱监督分割方法的这种关键限制。具体而言,我们发现不同的膨胀率可以有效地扩大卷积核的感受域,更重要的是将周围的判别信息转移到无差别的目标区域,促进这些区域在目标定位图中的出现。然后,我们设计了一个通用的分类网络,配备了不同膨胀率的卷积分块。它可以产生密集而可靠的对象定位映射,并有效地受益于弱监督和半监督语义分割。尽管表面简单,我们提出的方法比现有技术获得更好的性能。尤其是,它在Pascal VOC 2012测试集中获得了60.8%和67.6%的mIoU分数(只有图像级标签可用)和半分割(1,464分割蒙版可用)监督设置,这是新的状态-艺术。[1805.04574v2] 我们提出的方法比现有技术获得更高的性能。尤其是,它在Pascal VOC 2012测试集中获得了60.8%和67.6%的mIoU分数(只有图像级标签可用)和半分割(1,464分割蒙版可用)监督设置,这是新的状态-艺术。[1805.04574v2] 我们提出的方法比现有技术获得更高的性能。尤其是,它在Pascal VOC 2012测试集中获得了60.8%和67.6%的mIoU分数(只有图像级标签可用)和半分割(1,464分割蒙版可用)监督设置,这是新的状态-艺术。[1805.04574v2]
MobileFaceNets:用于在移动设备上进行精确实时人脸验证的高效CNN
Sheng Chen, Yang Liu, Xiang Gao, Zhen Han
在本文中,我们提出了一类极其高效的CNN模型MobileFaceNets,它使用的参数少于100万,专门为移动和嵌入式设备上的高精度实时人脸验证量身定制。我们首先对普通移动网络面部验证的弱点做一个简单的分析。我们专门设计的MobileFaceNets已经很好地克服了这个弱点。在相同的实验条件下,我们的MobileFaceNets比MobileNetV2实现了更高的精度以及超过2倍的实际加速比。我们的单一MobileFaceNet 4.0MB大小的单一MobileFaceNet模型在从头开始经过精炼的MS-Celeb-1M的ArcFace损失培训后,在LFW上的面部验证准确度达到99.55%,在MegaFace Challenge 1上达到92.59%的TAR @ FAR1e-6,这甚至可以与几百MB大小的一些最先进的大型CNN模型相媲美。我们最快的MobileFaceNets在手机上的实际推断时间为18毫秒。我们在LFW,AgeDB和MegaFace上的实验表明,与最先进的轻量级和移动CNN进行人脸验证相比,我们的MobileFaceNets实现了显着提高的效率。[1804.07573v3]
丢失?使用可视化语义识别相反视点的外观不变位置识别
Sourav Garg,Niko Suenderhauf,Michael Milford
人类视觉场景的理解非常显着,我们能够从与第一次访问相反的方向进入它时识别出重新访问的地点,即使在外观极度变化的情况下也是如此。这种能力在驾驶过程中尤其明显:驾驶员可以识别出沿着路线第一次沿相反方向行驶时的位置,而不必回头看。这个问题的难度超过了过去在外观和视点不变的视觉地点识别(VPR)研究中所解决的任何问题,部分原因是由于大部分场景不能从相反方向观察到。因此,如本文所示,当前最先进的视点和外观不变VPR技术的精度 – 召回性能比闭环系统中可用的要低几个数量级。目前的工程解决方案主要依靠全景相机或LIDAR感应设置; 这是一个非常合适的工程解决方案,但与人类的导航方式明显不同,这也意味着人类可以与导航系统进行交互和通信。在本文中,我们开发了一套新颖的基于语义和外观的技术,以在这种具有挑战性的场景中首次实现高性能场所识别。我们首先使用来自最先进的密集语义分割网络的卷积特征映射来提出图像的新颖局部语义张量(LoST)描述符。然后,为了验证顶级匹配候选者的空间语义排列,我们开发了一种挖掘语义上突出的关键点对应关系的新方法。[1804.05526v3]
DeepScores – 微型对象的分割,检测和分类数据集
Lukas Tuggener,Ismail Elezi,JürgenSchmidhuber,Marcello Pelillo,Thilo Stadelman
我们介绍Deepscores数据集,其目标是推动小型物体识别的最新技术发展,并将场景识别背景下的物体识别问题。DeepScores包含高质量的乐谱图像,分成300,000张包含不同形状和大小符号的书写音乐。有近一亿的小物体,这使得我们的数据集不仅是唯一的,而且是最大的公共数据集。DeepScores提供对象分类,检测和语义分割的基本事实。因此,DeepScores总体上对计算机视觉提出了相关挑战,超出了光学音乐识别(OMR)研究的范围。我们提供了数据集的详细统计分析,将其与其他计算机视觉数据集比如Caltech101 / 256,PASCAL VOC,SUN,SVHN,ImageNet,MS-COCO,较小的计算机视觉数据集以及其他OMR数据集进行比较。最后,我们为对象分类提供基线性能,并为基于此数据集的未来研究提供指引。[1804.00525v2]
利用卷积神经网络进行局部点扩散函数估计的光学显微镜半盲空间变量解卷积
阿德里安沙杰科菲,迈克尔亲爱的
我们提出了一种针对光学显微镜的半盲,空间变化去卷积技术,该技术结合了点扩散函数(PSF)的局部估计步骤和使用空间变体,正则化的Richardson-Lucy算法的去卷积。为了以计算上易于处理的方式找到局部PSF映射,我们训练卷积神经网络来对合成模糊的图像块执行光学参数模型的回归。我们对合成和实验获取的数据进行了解卷积,与其他解卷积算法相比,平均图像SNR提高了1.00 dB。[1803.07452v2]
用指导特征反演解释基于DNN的预测
Mengnan Du, Ninghao Liu, Qingquan Song, Xia Hu
尽管深度神经网络(DNN)已经成为一种有效的计算工具,但预测结果往往因缺乏可解释性而受到批评,而这在许多现实世界的应用中是必不可少的,例如健康信息学。基于局部解释的现有尝试旨在通过​​监测给定输入的邻域来识别对DNN的预测最有贡献的相关特征。他们通常会忽略DNN的中间层,这些中间层可能包含丰富的解释信息。为了缩小差距,在本文中,我们建议调查一个指导性特征反演框架,以便利用深层架构进行有效的解释。所提出的框架不仅确定了每个特征在输入中的贡献,而且还提供了DNN模型的决策过程的见解。通过进一步与DNN输出层目标类别的神经元相互作用,我们将解释结果强制为类别判别。我们将建议的解释模型应用于不同的CNN体​​系结构,以提供图像数据的解释并对ImageNet和PASCAL VOC07数据集进行广泛的实验。解释结果证明了我们提出的框架在为基于DNN的预测提供类别判别解释方面的有效性。[1804.00506v2] 我们强调解释结果是歧视性的。我们将建议的解释模型应用于不同的CNN体​​系结构,以提供图像数据的解释并对ImageNet和PASCAL VOC07数据集进行广泛的实验。解释结果证明了我们提出的框架在为基于DNN的预测提供类别判别解释方面的有效性。[1804.00506v2] 我们强调解释结果是歧视性的。我们将建议的解释模型应用于不同的CNN体​​系结构,以提供图像数据的解释并对ImageNet和PASCAL VOC07数据集进行广泛的实验。解释结果证明了我们提出的框架在为基于DNN的预测提供类别判别解释方面的有效性。[1804.00506v2]
弹性源成像深度学习的数学框架
Jaejun Yoo,Abdul Wahab,Jong Chul Ye
具有稀疏测量的反弹性源问题值得关注。提出了一种通用数学框架,其在传统的源重建算法中包含低维流形正则化,从而利用稀疏数据集提高其性能。严格确定的是,所提出的框架相当于用于反演问题的机器学习文献中的所谓的\ emph {深卷积框架扩展}。提供了相应的数字例子来证实拟议框架的有效性。[1802.10055v3]
高光谱和高光谱遥感图像用于老主图监督层分解
AmirAbbas Davari,Nikolaos Sakaltra,Armin Haeberle,Sulaiman Vesal,Vincent Christlein,Adreas Maier,Christian Riess
旧的主图纸大多是使用不同的材料在几层中逐步创建的。对于艺术史学家和修复者来说,对这些层次的考察带来了对艺术作品过程的各种见解,并有助于回答关于对象,其归属和真实性的问题。然而,这些层通常重叠并且通常难以用肉眼分辨。例如,常见的图层组合是墨水下的红色粉笔。在这项工作中,我们提出了一个图像处理流水线,该流水线在高光谱图像上运行以分离这些图层。使用这个流水线,我们显示高光谱图像比RGB图像实现更好的图层分离,并且光谱焦点叠加有助于图层分离。具体而言,我们建议在高光谱历史文献分析中使用两个描述符,即超色调和扩展多属性配置文件(EMAP)。我们与其他特征的比较结果突出显示了三项改进措施的功效。[1801.09472v2]
使用深度学习进行异常心跳检测的心音图传感
Siddique Latif,Muhammad Usman,Rajib Rana,Junaid Qadir
心脏听诊包括使用听诊器对心音异常的专家解读。基于深度学习的心脏听诊对医疗界非常重要,因为它可以通过自动检测异常心跳来帮助减轻手动听诊的负担。然而,由于要求可靠性和高精度,并且由于心跳声中存在背景噪音,自动心脏听诊问题变得复杂。在这项工作中,我们提出了一种基于循环神经网络(RNNs)的自动心脏听诊解决方案。我们选择RNNs的动机是深度学习在医学应用中取得的巨大成功,以及观察到RNN代表了即使存在噪声时也适用于处理顺序或时间数据的深度学习配置。我们探索各种RNN模型的使用,并证明这些模型能够显着改善心跳分类得分。我们提出的使用RNN的方法可能潜在地用于远程监测应用的医疗物联网中的实时异常心跳检测。[1801.08322v2] 我们提出的使用RNN的方法可能潜在地用于远程监测应用的医疗物联网中的实时异常心跳检测。[1801.08322v2] 我们提出的使用RNN的方法可能潜在地用于远程监测应用的医疗物联网中的实时异常心跳检测。[1801.08322v2]
重访视频突出显示:大规模基准和新模式
Wenguan Wang, Jianbing Shen, Fang Guo, Ming-Ming Cheng, Ali Borji
在这项工作中,我们以两种方式为视频显着性研究做出贡献。首先,我们引入了一个新的基准,用于预测动态场景自由观看中的人眼运动,这是该领域长期以来的热门话题。我们的数据集名为DHF1K(动态人体固定),由1K高质量,精心挑选的视频片段组成,其中包含大量场景,动作,对象类型和背景复杂度。现有视频显着性数据集缺乏普通动态场景的多样性和普遍性,并且在覆盖无约束环境中的挑战性情况方面存在缺陷。相比之下,DHF1K在可扩展性,多样性和难度方面实现了重大飞跃,并有望推动视频显着性建模。第二,我们提出了一种新颖的视频显着性模型,通过注意机制增强了CNN-LSTM网络架构,以实现快速,端到端的显着性学习。注意机制明确地编码静态显着性信息,从而允许LSTM专注于学习连续帧上更灵活的时间显着性表示。这种设计充分利用了现有的大型静态固定数据集,避免了过度拟合,并显着提高了培训效率和测试性能。我们在三个大型数据集(即DHF1K,Hollywood2,UCF体育)上彻底检查了我们的模型在最先进的显着性模型方面的表现。在包含400K帧的超过1.2K个测试视频的实验结果表明,我们的模型胜过其他竞争对手。[1801.07424v3] 端到端显着性学习。注意机制明确地编码静态显着性信息,从而允许LSTM专注于学习连续帧上更灵活的时间显着性表示。这种设计充分利用了现有的大型静态固定数据集,避免了过度拟合,并显着提高了培训效率和测试性能。我们在三个大型数据集(即DHF1K,Hollywood2,UCF体育)上彻底检查了我们的模型在最先进的显着性模型方面的表现。在包含400K帧的超过1.2K个测试视频的实验结果表明,我们的模型胜过其他竞争对手。[1801.07424v3] 端到端显着性学习。注意机制明确地编码静态显着性信息,从而允许LSTM专注于学习连续帧上更灵活的时间显着性表示。这种设计充分利用了现有的大型静态固定数据集,避免了过度拟合,并显着提高了培训效率和测试性能。我们在三个大型数据集(即DHF1K,Hollywood2,UCF体育)上彻底检查了我们的模型在最先进的显着性模型方面的表现。在包含400K帧的超过1.2K个测试视频的实验结果表明,我们的模型胜过其他竞争对手。[1801.07424v3] 从而允许LSTM专注于学习跨越连续帧的更灵活的时间显着性表示。这种设计充分利用了现有的大型静态固定数据集,避免了过度拟合,并显着提高了培训效率和测试性能。我们在三个大型数据集(即DHF1K,Hollywood2,UCF体育)上彻底检查了我们的模型在最先进的显着性模型方面的表现。在包含400K帧的超过1.2K个测试视频的实验结果表明,我们的模型胜过其他竞争对手。[1801.07424v3] 从而允许LSTM专注于学习跨越连续帧的更灵活的时间显着性表示。这种设计充分利用了现有的大型静态固定数据集,避免了过度拟合,并显着提高了培训效率和测试性能。我们在三个大型数据集(即DHF1K,Hollywood2,UCF体育)上彻底检查了我们的模型在最先进的显着性模型方面的表现。在包含400K帧的超过1.2K个测试视频的实验结果表明,我们的模型胜过其他竞争对手。[1801.07424v3] 我们在三个大型数据集(即DHF1K,Hollywood2,UCF体育)上彻底检查了我们的模型在最先进的显着性模型方面的表现。在包含400K帧的超过1.2K个测试视频的实验结果表明,我们的模型胜过其他竞争对手。[1801.07424v3] 我们在三个大型数据集(即DHF1K,Hollywood2,UCF体育)上彻底检查了我们的模型在最先进的显着性模型方面的表现。在包含400K帧的超过1.2K个测试视频的实验结果表明,我们的模型胜过其他竞争对手。[1801.07424v3]
截断核范数正则化的低秩张量完成
Shengke Xue, Wenyuan Qiu, Fan Liu, Xinyu Jin
目前,低秩张量完成在恢复缺少部分元素的不完整视觉数据方面获得了累积的关注。通过将彩色图像或视频作为三维(3D)张量,以前的研究提出了张量核常数的几种定义。然而,它们有局限性,可能无法正确地逼近张量的真实等级。此外,他们没有在优化中明确使用低级属性。证明了最近提出的截断核范数(TNN)可以取代传统的核范数,作为对矩阵秩的更好估计。因此,本文提出了一种称为张量截断核范数(T-TNN)的新方法,该方法提出了张量核范数的一个新定义,并将截断核范数从矩阵情形扩展到张量情形。有益于TNN的低秩位,我们的方法提高了张量完成的效力。我们利用先前提出的张量奇异值分解和乘法器的交替方向法进行优化。对实际视频和图像进行大量实验表明,我们的方法性能优于现有方法。[1712.00704v5]
强大的PCA,子空间学习和跟踪
Namrata Vaswani,Thierry Bouwmans,Sajid Javed,Praneeth Narayanamurthy
PCA是最广泛使用的降维技术之一。一个相关的更容易的问题是“子空间学习”或“子空间估计”。给定相对干净的数据,都可以通过奇异值分解(SVD)轻松解决。存在异常值的子空间学习或PCA问题称为鲁棒子空间学习或强健PCA(RPCA)。对于长数据序列,如果试图使用单个较低维度的子空间来表示数据,则所需的子空间维度可能会相当大。对于这样的数据,更好的模型是假设它位于可以随时间变化的低维子空间中,尽管是逐渐变化的。跟踪这些数据(和子空间)同时对异常值具有鲁棒性的问题称为鲁棒子空间跟踪(RST)。本文提供了杂志风格的整体鲁棒子空间学习和跟踪领域的概述。具体讨论了三个问题的解决方案:通过稀疏+低秩矩阵分解(S + LR)的RPCA,通过S + LR的RST和“鲁棒子空间恢复(RSR)”。RSR假定整个数据向量是异常值或内部值。S + LR公式假定异常值仅出现在少数数据向量索引上,因此很好地建模为稀疏损坏。[1711.09492v3] S + LR公式假定异常值仅出现在少数数据向量索引上,因此很好地建模为稀疏损坏。[1711.09492v3] S + LR公式假定异常值仅出现在少数数据向量索引上,因此很好地建模为稀疏损坏。[1711.09492v3]
具有结构化知识图的多标签零点学习
Chung-Wei Lee, Wei Fang, Chih-Kuan Yeh, Yu-Chiang Frank Wang
在本文中,我们提出了一种用于多标签零点学习(ML-ZSL)的新型深度学习体系结构,它能够为每个输入实例预测多个看不见的类标签。受人类利用兴趣对象之间语义知识的方式的启发,我们提出了一个框架,其中包含用于描述多个标签之间关系的知识图。我们的模型从语义标签空间中学习信息传播机制,该机制可以用来模拟看到和看不见的类标签之间的相互依赖关系。通过对视觉推理的结构化知识图的调查,我们证明我们的模型可以用于解决多标签分类和ML-ZSL任务。与最先进的方法相比,我们的方法可以实现可比或改进的性能。[1711。
使用新颖的边缘描述符对多光谱图像进行配准和融合
Nati Ofir,Shai Silberstein,Dani Rozenbaum,Yosi Keller,Sharon Duvdevani Bar
在本文中,我们介绍了一种完全端到端的多光谱图像配准和融合方法。我们的融合方法通过不同的方法将来自不同频谱信道的图像组合成单个融合图像,用于低频和高频信号。融合的先决条件是谱带之间的几何对齐阶段,通常称为配准。遗憾的是,单一光谱通道的图像配准的常用方法不能对来自不同形式的图像产生合理的结果。为此,我们基于特征点的新边缘描述符引入了用于多光谱图像配准的新算法。我们的方法实现了准确的对齐水平,使我们能够进一步融合图像。如我们的实验所示,我们在许多具有挑战性的情况下生成高质量的多光谱图像配准和融合。[1711.01543v5]
PoseCNN:一种用于6D物体姿态估计的卷积神经网络
Yu Xiang, Tanner Schmidt, Venkatraman Narayanan, Dieter Fox
估算已知物体的6D姿态对于机器人与真实世界进行交互非常重要。由于物体的多样性以及由物体之间的杂波和遮挡引起的场景的复杂性,问题具有挑战性。在这项工作中,我们介绍PoseCNN,一种用于6D物体姿态估计的新型卷积神经网络。PoseCNN通过在图像中定位其中心并预测其距相机的距离来估计物体的3D平移。对象的3D旋转通过回归到四元数表示来估计。我们还引入了一种新型的损失函数,使PoseCNN能够处理对称对象。此外,我们还为6D对象姿态估计提供了一个名为YCB-Video数据集的大型视频数据集。我们的数据集提供了来自YCB数据集的21个对象的精确6D姿态,在92个视频中观察到133,827帧。我们对YCB-Video数据集和OccludedLINEMOD数据集进行了广泛的实验,以显示PoseCNN对遮挡具有高度的鲁棒性,可以处理对称对象,并且仅使用彩色图像作为输入提供准确的姿态估计。当使用深度数据进一步优化姿势时,我们的方法在具有挑战性的OccludedLINEMOD数据集上实现了最新的结果。我们的代码和数据集可在https://rse-lab.cs.washington.edu/projects/posecnn/上找到。[1711.00199v3] 并仅使用彩色图像作为输入提供准确的姿态估计。当使用深度数据进一步优化姿势时,我们的方法在具有挑战性的OccludedLINEMOD数据集上实现了最新的结果。我们的代码和数据集可在https://rse-lab.cs.washington.edu/projects/posecnn/上找到。[1711.00199v3] 并仅使用彩色图像作为输入提供准确的姿态估计。当使用深度数据进一步优化姿势时,我们的方法在具有挑战性的OccludedLINEMOD数据集上实现了最新的结果。我们的代码和数据集可在https://rse-lab.cs.washington.edu/projects/posecnn/上找到。[1711.00199v3]
双跳网络
Changmao Cheng, Yanwei Fu, Yu-Gang Jiang, Wei Liu, Wenlian Lu, Jianfeng Feng, Xiangyang Xue
受近期关于处理低和高空间频率信息时人脑左右不对称的神经科学研究的启发,本文引入了一个双重跳跃网络,实现粗到细的目标分类。这样的网络有两个分支来同时处理粗粒度和细粒度的分类任务。具体而言,我们提出了一种跳层机制,可以学习一个门控网络来预测在测试阶段跳过哪些层。这种跳层机制在实践中赋予网络以良好的灵活性和能力。评估是在几个广泛使用的从粗到细的目标分类基准上进行的,并且通过我们提出的网络模型实现了有前景的结果。[1710.10386v3]
无线胶囊内窥镜中基于超像素的息肉分割与息肉分类
Omid Haji Maghsoudi
无线胶囊内窥镜检查(WCE)是一项相对较新的技术,可记录体内的全身胃肠道踪迹。在检查过程中捕获的大量帧会给医生检查所有这些帧造成困难。使用一些智能方法减少审查时间的需求一直是一个挑战。息肉被认为是不在器官内部的肠道表面的生长组织。大多数息肉不是癌变的,但是如果一个变得大于一厘米,那么它很可能变成癌症。WCE帧为检测息肉提供了早期可能性。在这里,评估应用简单线性迭代聚类(SLIC)超像素来分割WCE帧中的息肉。检查不同的SLIC超像素数目以找到检测息肉的最高灵敏度。SLIC超像素分割有望改善以前的研究结果。最后,通过提取一些纹理和颜色特征,使用支持向量机(SVM)对超像素进行分类。分类结果显示灵敏度为91%。[1710.07390v2]
光滑正则嵌入非线性有监督降维
Cem Ornek,Elif Vural
数据收集的内在几何结构的恢复是数据分析中的一个重要问题。近年来已经提出了几种流形学习方法的监督扩展。同时,现有的方法主要集中在训练数据的嵌入上,而嵌入到最初看不见的测试数据的泛化被忽略。在这项工作中,我们基于监督流形学习算法的泛化性能的最新理论结果。受这些性能界限的启发,我们提出了一种监督流形学习方法,计算非线性嵌入,同时构造一个平滑且规则的插值函数,将嵌入扩展到整个数据空间,以实现令人满意的泛化。嵌入和内插器是共同学习的,因此内插器的Lipschitz规律是强加的,同时确保不同类别之间的分离。在多个图像数据集上的实验结果表明,所提出的方法在大多数设置中的分类精度方面优于传统分类器和监督降维算法。[1710.07120v2]
基于超像素的标记跟踪比。色调阈值在啮齿动物生物力学中的应用
Omid Haji Maghsoudi,Annie Vahedipour Tabrizi,Benjamin Robertson,Andrew Spence
检查运动能力提高了我们对运动控制的基本理解,并有助于治疗运动功能障碍。小鼠和大鼠是人类疾病的主要模型,并越来越成为基础神经科学选择的模型系统。需要高帧速率(250 Hz)来量化这些啮齿动物的运动。手动跟踪,特别是对于多个标记,对于大样本量而言,变得非常耗时且不可能。因此,近年来对这些标记的自动分割的需求已经增加。我们提出了两种分割和追踪这些标记的方法:首先,根据前一帧中分割区域的位置,速度,形状和颜色信息,使用SLIC超像素分割跟踪器; 其次,使用色调通道上的阈值跟踪跟踪相同的跟踪器。比较显示,SLIC超像素方法是优越的,因为分割更可靠并且基于颜色和空间信息。[1710.06473v4]
很少有提高自行车地图培训实例的对象识别
Christoph Reinders,Hanno Ackermann,Michael Ying Yang,Bodo Rosenhahn
近年来,数据驱动的方法在提取有关城市地区基础设施的信息方面取得了巨大成功。这些算法通常在包含数千或数百万个标记训练样例的大型数据集上进行训练。虽然已经发布了关于汽车的大数据集,但对于骑车人来说,尽管相关对象的外观,观点和位置不同,但很少有标记数据可用。不幸的是,标签数据代价昂贵,需要大量的工作。因此,在本文中,我们解决了很少标签学习的问题。其目的是识别众包数据中的特定交通标志,以收集骑行者感兴趣的信息。我们提出了一个对象识别系统,每个类平均只有15个例子。为了达成这个,我们结合了卷积神经网络和随机森林的优点来学习一种面向分片的分类器。在下一步中,我们将随机森林映射到神经网络,并将分类器转换为完全卷积网络。由此,全图像的处理显着加速并且可以预测边界框。最后,我们整合了全球定位系统(GPS)的数据,以在地图上定位预测。与更快的R-CNN和其他用于目标识别的网络或用于传输学习的算法相比,我们大大减少了标记数据的所需数量。我们在骑自行车者的交通标志识别和地图定位方面表现出色。[1709.05910v4] 在下一步中,我们将随机森林映射到神经网络,并将分类器转换为完全卷积网络。由此,全图像的处理显着加速并且可以预测边界框。最后,我们整合了全球定位系统(GPS)的数据,以在地图上定位预测。与更快的R-CNN和其他用于目标识别的网络或用于传输学习的算法相比,我们大大减少了标记数据的所需数量。我们在骑自行车者的交通标志识别和地图定位方面表现出色。[1709.05910v4] 在下一步中,我们将随机森林映射到神经网络,并将分类器转换为完全卷积网络。由此,全图像的处理显着加速并且可以预测边界框。最后,我们整合了全球定位系统(GPS)的数据,以在地图上定位预测。与更快的R-CNN和其他用于目标识别的网络或用于传输学习的算法相比,我们大大减少了标记数据的所需数量。我们在骑自行车者的交通标志识别和地图定位方面表现出色。[1709.05910v4] 完整图像的处理显着加速并且可以预测边界框。最后,我们整合了全球定位系统(GPS)的数据,以在地图上定位预测。与更快的R-CNN和其他用于目标识别的网络或用于传输学习的算法相比,我们大大减少了标记数据的所需数量。我们在骑自行车者的交通标志识别和地图定位方面表现出色。[1709.05910v4] 完整图像的处理显着加速并且可以预测边界框。最后,我们整合了全球定位系统(GPS)的数据,以在地图上定位预测。与更快的R-CNN和其他用于目标识别的网络或用于传输学习的算法相比,我们大大减少了标记数据的所需数量。我们在骑自行车者的交通标志识别和地图定位方面表现出色。[1709.05910v4] 我们在骑自行车者的交通标志识别和地图定位方面表现出色。[1709.05910v4] 我们在骑自行车者的交通标志识别和地图定位方面表现出色。[1709.05910v4]
基本问题的视觉QA模型稳健性分析
黄家红,Cuo Duc Dao,Alfadly Mod,C. Huck Yang,Bernard Ghanem
视觉问答应用(VQA)模型应具有较高的健壮性和准确性。不幸的是,目前的VQA研究大多只关注准确性,因为缺乏适当的方法来衡量VQA模型的稳健性。我们的算法中有两个主要模块。给定关于图像的自然语言问题,第一个模块将该问题作为输入,然后输出具有相似性分数的主要给定问题的排序基本问题。第二个模块将主要问题,图像和这些基本问题作为输入,然后输出关于给定图像的主要问题的基于文本的答案。我们声称一个强大的VQA模型是一个强大的VQA模型,当相关的基本问题也作为输入提供时,其性能没有太大变化。为了分析VQA模型的鲁棒性,我们将基本问题生成问题定义为LASSO优化问题,并提出了大规模基本问题数据集(BQD)和Rscore(新型鲁棒性度量)。我们希望我们的BQD将被用作衡量VQA模型稳健性的基准,以帮助社区构建更强大和更精确的VQA模型。[1709.04625v3]
直接从自然记录的数据中提取交通原语以获得自驾车应用程序
Wenshuo Wang, Ding Zhao
开发一种能够处理复杂驾驶情景并适合与其他道路使用者进行交互的自动驾驶车辆,需要通过分析海量自然驾驶数据,经常进行语义学习和理解驾驶环境的能力。一个重要的范例,允许自动驾驶汽车从人类驾驶学习和获得见解,是理解整个交通的主要组成部分,被称为交通原语。然而,数据爆炸式增长对于从各种类型的道路使用者参与的高维度时间序列交通数据中提取原语提出了巨大挑战。因此,自动提取原语正在成为帮助自动驾驶车辆了解和预测复杂交通场景的具有成本效益的方法之一。此外,从原始数据中提取的原语应该1)适用于自动驾驶应用程序,并且2)易于用于产生新的交通场景。然而,现有文献没有提供从大规模交通数据中自动学习这些基元的方法。本文的贡献有两个方面。第一个是我们提出了一个新的框架来从少量有限的流量数据中产生新的流量场景。第二个是我们引入一个非参数贝叶斯学习方法 – 粘滞层次Dirichlet过程隐马尔可夫模型 – 自动从多维流量数据中提取原语而不需要事先了解基元设置。然后使用一天的自然驾驶数据验证所开发的方法。实验结果表明,非参数贝叶斯学习方法能够从二元和连续事件共存的流量场景中提取原语。[1709.03553v3]
张量鲁棒主成分分析:通过凸优化精确恢复损坏的低位张量
Canyi Lu, Jiashi Feng, Yudong Chen, Wei Liu, Zhouchen Lin, Shuicheng Yan
本文研究张量鲁棒主成分(TRPCA)问题,将已知的Robust PCA(Candes等,2011)扩展到张量情况。我们的模型基于一种新的张量奇异值分解(t-SVD)(Kilmer和Martin 2011)及其诱导张量输管排序和张量核定律。考虑在\ mathbb {R} ^ {n_1 \ times n_2 \ times n_3} $中有一个三元张量$ {\ mathcal {X}} \,这样$ {\ mathcal {X}} = {\ mathcal { L}} _ 0 + {\ mathcal {E}} _ 0 $,其中$ {\ mathcal {L}} _ 0 $具有低输卵管排列,$ {\ mathcal {E}} _ 0 $是稀疏的。是否有可能恢复这两个组件?在这项工作中,我们证明了在某些合适的假设下,我们可以通过简单地求解一个凸项目来恢复低阶和稀疏分量,其目标是张量核范数和$ \ ell_1 $ -norm的加权组合即,$ \ min _ {{\ mathcal {L}},\ {\ mathcal {E}}} \ \ | {{\ mathcal {L}}} \ | _ * + \ lambda \ | {{\ mathcal {E}} },{\ mathcal {X}} = {\ mathcal {E}} $,其中$ \ lambda = {1} / {\ sqrt { \ MAX(N_1,N_2)N_3}} $。有趣的是,当$ n_3 = 1 $时,TRPCA作为一种特殊情况涉及RPCA,因此它是RPCA简单而优雅的张量扩展。数值实验也验证了我们的理论,并且图像去噪的应用证明了我们方法的有效性。[1708.04181v3] 数值实验也验证了我们的理论,并且图像去噪的应用证明了我们方法的有效性。[1708.04181v3] 数值实验也验证了我们的理论,并且图像去噪的应用证明了我们方法的有效性。[1708.04181v3]
EndNet:用于端元提取和高光谱分解的稀疏自动编码器网络
Savas Ozkan,Berk Kaya,Gozde Bozdagi Akar
从多通道传感器获取的数据是解释各种遥感应用环境的非常有价值的资产。然而,低空间分辨率是先前传感器的关键限制,并且由于它们的空间相互作用,场景的构成材料可以在不同的分数中混合。光谱解混是一种技术,可以让我们从高光谱数据中获取材料光谱特征及其分数。在本文中,我们提出了一种基于两级自动编码器网络的新型高光谱分解方案,即所谓的\ textit {EndNet}。通过引入附加层和投影度量(即光谱角距离(SAD)而不是内积),这种众所周知的结构被完全增强和重构,以实现最佳解决方案。此外,我们提出了一个新的损失函数,它由一个Kullback-Leibler散度项与SAD相似性和额外的惩罚项组成,以改善估计的稀疏性。这些修改使我们能够设置端元的共同属性,例如自编码器网络的非线性和稀疏性。最后,由于基于随机梯度的方法,该方法对于大规模数据是可扩展的,并且可以在图形处理单元(GPU)上加速。为了证明我们提出的方法的优越性,我们对几个众所周知的数据集进行了广泛的实验。结果证实,与文献中的最新技术相比,所提出的方法显着提高了性能。[1708.01894v3] 这些修改使我们能够设置端元的共同属性,例如自编码器网络的非线性和稀疏性。最后,由于基于随机梯度的方法,该方法对于大规模数据是可扩展的,并且可以在图形处理单元(GPU)上加速。为了证明我们提出的方法的优越性,我们对几个众所周知的数据集进行了广泛的实验。结果证实,与文献中的最新技术相比,所提出的方法显着提高了性能。[1708.01894v3] 这些修改使我们能够设置端元的共同属性,例如自编码器网络的非线性和稀疏性。最后,由于基于随机梯度的方法,该方法对于大规模数据是可扩展的,并且可以在图形处理单元(GPU)上加速。为了证明我们提出的方法的优越性,我们对几个众所周知的数据集进行了广泛的实验。结果证实,与文献中的最新技术相比,所提出的方法显着提高了性能。[1708.01894v3] 为了证明我们提出的方法的优越性,我们对几个众所周知的数据集进行了广泛的实验。结果证实,与文献中的最新技术相比,所提出的方法显着提高了性能。[1708.01894v3] 为了证明我们提出的方法的优越性,我们对几个众所周知的数据集进行了广泛的实验。结果证实,与文献中的最新技术相比,所提出的方法显着提高了性能。[1708.01894v3]
敌对擦除的对象区域挖掘:语义分割方法的简单分类
Yunchao Wei, Jiashi Feng, Xiaodan Liang, Ming-Ming Cheng, Yao Zhao, Shuicheng Yan
我们调查了一种逐步采用分类网络挖掘区分对象区域以解决弱监督语义分割问题的原则方法。分类网络只对来自感兴趣对象的小和稀疏区域敏感,这偏离了需要为密集的内部和整体区域定位像素方式推理的分割任务的需求。为了缓解这种差距,我们提出了一种新的敌对擦除方法,用于逐步定位和扩展目标区域。从单个小物体区域开始,我们提出的方法驱动分类网络通过以对抗方式擦除当前开采区域来顺序发现新的和补充的物体区域。这些局部区域最终构成用于学习语义分割的密集且完整的对象区域。为了进一步提高敌对擦除发现区域的质量,开发了一种在线禁止性分割学习方法,通过提供由更可靠的分类评分调节的辅助分割监督来与敌对擦除进行协作。尽管其表面简单,但所提出的方法在PASCAL VOC 2012 val和测试装置上获得了平均交叉点(mIoU)评分的55.0%和55.7%,这是最新的技术水平。[1703.08448v3] 通过提供由更可靠的分类评分调节的辅助分割监督,开发了在线禁止性分割学习方法以与敌对擦除合作。尽管其表面简单,但所提出的方法在PASCAL VOC 2012 val和测试装置上获得了平均交叉点(mIoU)评分的55.0%和55.7%,这是最新的技术水平。[1703.08448v3] 通过提供由更可靠的分类评分调节的辅助分割监督,开发了在线禁止性分割学习方法以与敌对擦除合作。尽管其表面简单,但所提出的方法在PASCAL VOC 2012 val和测试装置上获得了平均交叉点(mIoU)评分的55.0%和55.7%,这是最新的技术水平。[1703.08448v3]
通过形状全卷积网络进行三维形状分割
Pengyu Wang, Yuan Gan, Panpan Shui, Fenggen Yu, Yan Zhang, Songle Chen, Zhengxing Sun
我们设计了一种新的完全卷积网络体系结构,用形状完全卷积网络(SFCN)表示。基于新型图形卷积和合并操作,3D形状在SFCN体系结构中被表示为图形结构,这与图像上使用的卷积和合并操作相似。同时,为了在原始图像分割完全卷积网络(FCN)体系结构中构建SFCN体系结构,我们还设计并实现了具有桥接功能的生成操作。这确保了我们设计的卷积和合并操作可以在原始FCN架构中成功应用。在本文中,我们还提出了一种基于SFCN的新形状分割方法。此外,我们允许更普遍和具有挑战性的输入,例如不同类别形状的混合数据集},这可以证明我们的泛化能力。在我们的方法中,通过使用三个低级几何特征作为输入,SFCN被训练成三角形到三角形。最后,采用基于特征投票的多标签图切割来优化SFCN预测得到的分割结果。实验结果表明,我们的方法可以有效地学习和预测相似或不同特征的混合形状数据集,并实现出色的分割结果。[1702.08675v3] 采用基于特征投票的多标签图裁剪来优化SFCN预测得到的分割结果。实验结果表明,我们的方法可以有效地学习和预测相似或不同特征的混合形状数据集,并实现出色的分割结果。[1702.08675v3] 采用基于特征投票的多标签图裁剪来优化SFCN预测得到的分割结果。实验结果表明,我们的方法可以有效地学习和预测相似或不同特征的混合形状数据集,并实现出色的分割结果。[1702.08675v3]
凸稀疏光谱聚类:单视图到多视图
Canyi Lu, Shuicheng Yan, Zhouchen Lin
光谱聚类(SC)是数据聚类中使用最广泛的方法之一。它首先通过计算归一化拉普拉斯矩阵的特征向量找到低维嵌入的$ U $数据,然后在$ U ^ \ top $上执行k-means来获得最终的聚类结果。在这项工作中,我们观察到,在理想情况下,$ UU ^ \ top $应该是块对角线,因此是稀疏的。因此,我们提出了稀疏光谱聚类(SSC)方法,它在$ UU ^ \ top $上扩展了稀疏正则化的SC。为了解决非凸性SSC模型的计算问题,我们提出了一种基于固定秩投影矩阵的凸包的SSC的新型凸松弛。然后利用\ canyi {Multipliers}(ADMM)的交替方向法可以有效地求解凸SSC模型。此外,我们提出了通过使用数据的多视图信息来扩展SSC以提高聚类性能的成对稀疏光谱聚类(PSSC)。与现实世界数据集上的几个基线进行实验比较证明了我们提出的方法的有效性。[1511.06860v3]
广义奇异值阈值
Canyi Lu, Changbo Zhu, Chunyan Xu, Shuicheng Yan, Zhouchen Lin
本文研究广义奇异值阈值(GSVT)算子$ {\ text {Prox}} _ {g} ^ {{sigma}}(\ cdot)$,\ begin {equation *} {\ text {Prox}} (B)= \ arg \ min \ limits_ {X} \ sum_ {i = 1} ^ {m} g(\ sigma_ {i}(X))+ \ frac { 1} {2} || XB || _ {F} ^ {2},\ end {equation *}与在$ X $的奇异值上定义的非凸函数$ g $关联。由于$ \ text {Prox} _g(\ cdot)$是奇异值,我们证明GSVT可以通过$ g $(表示为$ \ text {Prox} _g(\ cdot)$)当$ g $下限时是单调的。如果nonconvex $ g $满足一些条件(许多流行的非凸代理函数,例如,$ \ ell_p $ -norm,$ 0 <p <1 $,$ \ ell_0 $ -norm是特殊情况),一般求解器$ \ text {Prox} _g(b)$建议用于任何$ b \ geq0 $。GSVT极大地推广了已知的奇异值阈值(SVT),它是许多凸低秩最小化方法中的基本子程序。我们能够通过使用GSVT代替SVT来解决非凸低秩最小化问题。[1412.2231v2]

转载请注明:《GenAttack:无梯度优化的实用黑盒攻击

发表评论