DSOD:从头开始学习深度监督物体检测器+视觉测量技术的演变

循环一致的深度生成散列用于跨模态检索

Lin Wu, Yang Wang, Ling Shao

在本文中,我们提出了一种新的深层生成方法来跨模态检索,以通过周期一致性丢失来避免配对训练样本中的散列函数。我们提出的方法采用对抗训练方案来倾斜一些哈希函数,使模态之间进行转换,同时假设基本的语义关系。为了将哈希码与输入输出对的语义联系起来,在对抗训练的基础上进一步提出了循环一致性损失,以加强输入和相应输出之间的相关性。我们的方法是生成学习哈希函数,使学习哈希代码可以最大限度地关联每个输入输出的对应关系,同时还可以重新生成输入,从而最大限度地减少信息丢失。散列嵌入的学习因此被执行以联合地优化散列函数的参数以及相关联的生成模型。对各种大规模跨模态数据集的大量实验表明,我们提出的方法比现有技术获得更好的检索结果。[1804.11013v1]

 

OMG – 情感挑战解决方案

Yuqi Cui, Xiao Zhang, Yang Wang, Chenfeng Guo, Dongrui Wu

这篇简短的论文描述了我们对2018IEEE世界大会计算智能一分钟渐进情绪行为挑战的解决方案,其目标是通过短视频估计持续唤醒和价值。我们使用视觉和音频功能设计了四个基本回归模型,然后使用谱方法将它们融合以获得改进的性能。[1805.00348v1]

 

4D时间相干光场视频

阿明穆斯塔法,Marco VolinoJean-yves Guillemaut,阿德里安·希尔顿

最近在虚拟和增强现实应用中使用了光场视频,以增加真实感和沉浸感。然而,由于需要获取密集的场景表示,现有的光场方法通常局限于静态场景。与传统视频相比,大量的数据和缺乏推断时间相干性的方法在存储,压缩和编辑方面构成重大挑战。在本文中,我们提出了第一种提取空间时间相干光场视频表示的方法。提出了一种从备用光场相机阵列中获得对极平面图像(EPI)的新方法。EPI被用来约束场景流估计以获得动态光场的4D时间相关表示。在各种光场数据集上实现时间一致性。针对现有的多视图密集对应方法对所提议的光场景流进行评估表明时间相干性的准确性显着提高。[1804.11276v1]

 

基于深度共同注意的比较对于人员重新识别中的相对表征学习

Lin Wu, Yang Wang, Junbin Gao, Dacheng Tao

人员重新识别(重新识别)需要快速,灵活但具有判别力的表示,以快速推广到不可见的观察,并在不相交的摄像机视图中识别相同的身份。在成对相似学习系统中开发了最近有效的方法,以从不同区域检测固定的一组特征,所述不同区域被映射到它们的用于距离测量的矢量嵌入。然而,每个图像中最相关和最关键的部分是独立检测的,而不涉及依赖于一个和另一个的依赖关系。而且,这些基于区域的方法依赖于空间操作来将局部特征定位在可比较的相似性测量中。为了克服这些限制,在本文中,我们介绍基于深度共同关注的比较器(DCC),它将成对图像的共依赖表示融合在一起,从而将注意力集中在两幅图像的相关部分并生成它们的\ textit {相对表示}。给定一对待比较的行人图像,所提出的模型模拟人眼的发育,以检测两幅图像上并行的不同区域,即共依赖特征,或者考虑相关区域以将它们融合到相似性学习中。我们的比较器每次都能够生成相对于特定样本的动态表示,因此非常适合于在行进中重新识别行人的情况。我们进行大量实验以提供见解并证明拟议的DCC在个人身份识别中的有效性。此外,我们的方法已经在三个基准数据集上达到了最先进的性能:DukeMTMC-reID \ cite {DukeMTMC}CUHK03 \ cite {FPNN}Market-1501 \ cite {Market1501}[1804.11027v1]

 

DTR-GAN:用于视频汇总的扩展时间关系对抗网络

Yujia Zhang, Michael Kampffmeyer, Xiaodan Liang, Dingwen Zhang, Min Tan, Eric P. Xing

大量的视频每天都在出现,因此视频中的关键信息可以在很短的时间内被提取和理解就显得越来越重要。视频摘要是查找帧的最小子集的任务,它仍能传达给定视频的整个故事,因此对提高视频理解的效率具有重要意义。在本文中,我们提出了一种新颖的扩展时间关系生成对抗网络(DTR-GAN)来实现帧级视频摘要。给定一个视频,它可以选择一组关键帧,其中包含最有意义和紧凑的信息。具体而言,DTR-GAN以对抗方式学习了一个扩展的时间关系生成器和一个三人游戏损失的鉴别器。引入了新的扩张时间关系(DTR)单元来增强时间表示捕获。该发生器旨在通过使用DTR单元来有效利用全球多尺度时间背景并补充常用的Bi-LSTM来选择关键帧。为了确保总结从全局角度捕捉到足够的关键视频表示而不是随机缩短的序列,我们提供了一个鉴别器,通过三名玩家的损失学会强化信息的完整性和总结的紧凑性。三人球员损失包括生成的总结损失,随机总结损失和真实总结(地面实情)损失,这对于更好地规范学习模型以获得有用的总结起着重要作用。对两个公共数据集SumMeTVSum的综合实验表明,我们的DTR-GAN优于最先进的方法。[1804.11228v1]

 

敌对图像配准与MRTRUS图像融合应用

Pingkun严,盛旭,Ardeshir R. Rastinehad,布拉德J.伍德

多模式医学图像的稳健和准确对齐是一项非常具有挑战性的任务,然而这对于许多临床应用非常有用。例如,磁共振(MR)和经直肠超声(TRUS)图像配准是MR-TRUS融合引导前列腺介入治疗中的关键部分。然而,由于图像外观与图像对应的巨大差异之间的巨大差异,MR-TRUS图像配准是一个非常具有挑战性的问题。在本文中,提出了一种敌对图像配准(AIR)框架。通过同时训练两个深度神经网络,一个用于发生器,另一个用于鉴别器,我们不仅可以获得图像配准网络,而且还可以获得一个度量网络,它可以帮助评估图像配准的质量。然后使用通过图像融合引导的前列腺活检程序获取的临床数据集对开发的AIR-net进行评估,并证明有希望的结果。[1804.11024v1]

 

使用先前的双线性模型解耦旋转X射线扫描中的呼吸和角度变化

Tobias GeimerPaul KeallKatharina BreiningerVincent CailletMichelle DunbarChristoph BertAndreas Maier

由旋转X射线扫描提取的数据驱动的呼吸信号一直是挑战性的,因为角度效应与场景中由呼吸引起的变化重叠。在运动建模的背景下,它们的主要缺点是这些方法中的大多数只提取1D信号,最多可以分解为幅度和相位。在本文中,我们使用Radon算子的线性来提出基于先前4D扫描的双线性模型以分离角度和呼吸变化。通过使用关于轨迹角度的先验知识的B样条插值来增强样本外扩展,以独立于获取角度来提取呼吸特征权重。虽然之前的四维扫描的先决条件似乎陡峭,我们提出的呼吸运动估计在放射治疗中的应用通常符合这一要求。我们测试了我们对患者4D CTDRR采取一次性留置法的方法,并在先前未见的视角的灰度值中实现了5.2%的平均估计误差。[1804.11227v1]

 

使用边缘GPGPU加速的实时3D手跟踪的可行性

阿马尔Qammaz,索科尔科斯塔,尼古拉斯Kyriazis,安东尼斯Argyros

本白皮书介绍了用于实时3D手部跟踪的非插入式C ++库的非侵入式移植到基于边缘的计算领域的案例研究。为了证明概念,案例研究考虑了一对工作站,一个计算强大且计算能力较弱的工作站。通过将C ++库封装在Java容器中,并利用基于Java的卸载基础结构(同时支持CPUGPGPU计算),我们能够自动建立所需的服务器客户端工作流程,以最佳地解决执行工作中的资源分配问题来自弱工作站。因此,尽管缺乏足够的硬件来在本地执行所需的计算,但弱工作站可以在任务中表现良好。这是通过卸载依赖于GPGPU的计算来实现的,通过连接它们的网络连接到功能强大的工作站。我们展示了与移植算法的信息流相关的基于边缘的计算挑战,展示了我们如何处理它们,并确定需要改进哪些方面以实现更好的性能。[1804.11256v1]

 

基于视觉证据的汽车保险索赔反欺诈系统

Pei Li, Bingyu Shen, Weishan Dong

使用机器学习算法自动进行场景理解已被广泛应用于不同的行业,以降低人工成本。如今,保险公司通过允许客户上传移动设备拍摄的照片来启动快速车辆保险索赔和结算。这种保险索赔被视为小额索赔,可以手动或自动快速处理。然而,由于每天索赔数量不断增加,系统或人员很可能被同一案件的重复索赔欺骗,从而导致保险公司遭受重大损失。因此,在处理索赔之前进行反欺诈检查是必要的。我们创建了从因特网和当地停车场收集的第一批汽车损坏图像数据集。此外,我们提出了一种通过在图像中准确有效地定位损害来生成强大深层特征的方法。最先进的实时对象检测器YOLO \ cite {redmon2016you}被修改以训练和发现损坏区域,作为管线的重要组成部分。使用VGG模型\ cite {Simonyan14c}提取局部和全局深度特征,之后将其融合以获得更强大的系统性能。实验表明,我们的方法可有效防止欺诈索赔,并符合加速保险索赔前提的要求。[1804.11207v1] 使用VGG模型\ cite {Simonyan14c}提取局部和全局深度特征,之后将其融合以获得更强大的系统性能。实验表明,我们的方法可有效防止欺诈索赔,并符合加速保险索赔前提的要求。[1804.11207v1] 使用VGG模型\ cite {Simonyan14c}提取局部和全局深度特征,之后将其融合以获得更强大的系统性能。实验表明,我们的方法可有效防止欺诈索赔,并符合加速保险索赔前提的要求。[1804.11207v1]

 

烹饪语境中的跨模态检索:学习语义文本图像嵌入

Micael CarvalhoRemi CadeneDavid PicardLaure SoulierNicolas ThomeMatthieu Cord

由于大量的可用数据以及能够分析它们的机器学习的最新进展,设计支持烹饪活动的强大工具已迅速流行起来。在本文中,我们提出了一个跨模态检索模型,在共享表示空间中对齐视觉和文本数据(如菜肴图片和食谱)。我们描述了一个有效的学习方案,能够解决大规模问题,并在包含近100万个图片配方对的Recipe1M数据集上进行验证。我们展示了我们的方法对先前的最新模型的有效性,并在计算烹饪用例上呈现定性结果。[1804.11146v1]

 

关于语义分割的密集连接表示层次的迭代改进

Arantxa CasanovaGuillem CucurullMichal DrozdzalAdriana RomeroYoshua Bengio

最先进的语义分割方法通过使用由汇集/跨度卷积或连续扩张卷积组成的下采样路径来增加其模型的接受场。但是,目前还不清楚哪种操作能够产生最佳结果。在本文中,我们系统地研究了不同的接收场扩大方法所引入的差异以及它们对称为完全卷积密集网(FC-DRN)的新型架构的性能的影响。FC-DRN具有由残余网络组成的密集连接主干。遵循标准图像分割体系结构,改变表示级别的接受域扩大操作在残余网络中交织。这使得该模型可以利用残差和密集连接模式的优点,即:梯度流,表示的迭代细化,多尺度特征组合和深度监督。为了突出我们模型的潜力,我们在具有挑战性的CamVid城市场景理解基准上进行了测试,并进行了以下观察:1)当从头开始训练模型时,降采样操作的性能优于膨胀量; 2)在微调步骤中, 3)较粗糙的表示法需要较少的细化步骤,以及4ResNets(通过模型构建)是良好的正则化器,因为它们可以在需要时降低模型容量。最后,我们将我们的体系结构与替代方法进行比较,并报告Camvid数据集的最新结果,并至少减少两次参数。[1804.11332v1] 多尺度特征组合和深度监督。为了突出我们模型的潜力,我们在具有挑战性的CamVid城市场景理解基准上进行了测试,并进行了以下观察:1)当从头开始训练模型时,降采样操作的性能优于膨胀量; 2)在微调步骤中, 3)较粗糙的表示法需要较少的细化步骤,以及4ResNets(通过模型构建)是良好的正则化器,因为它们可以在需要时降低模型容量。最后,我们将我们的体系结构与替代方法进行比较,并报告Camvid数据集的最新结果,并至少减少两次参数。[1804.11332v1] 多尺度特征组合和深度监督。为了突出我们模型的潜力,我们在具有挑战性的CamVid城市场景理解基准上进行了测试,并进行了以下观察:1)当从头开始训练模型时,降采样操作的性能优于膨胀量; 2)在微调步骤中, 3)较粗糙的表示法需要较少的细化步骤,以及4ResNets(通过模型构建)是良好的正则化器,因为它们可以在需要时降低模型容量。最后,我们将我们的体系结构与替代方法进行比较,并报告Camvid数据集的最新结果,并至少减少两次参数。[1804.11332v1] 我们在具有挑战性的CamVid城市场景理解基准上进行测试,并进行以下观察:1)当模型从零开始训练时,降采样操作的性能优于膨胀量; 2)在模型的微调步骤中,膨胀是有用的; 3)较粗糙的表示需要较少细化步骤,以及4ResNets(通过模型构建)是良好的正规化器,因为它们可以在需要时减少模型容量。最后,我们将我们的体系结构与替代方法进行比较,并报告Camvid数据集的最新结果,并至少减少两次参数。[1804.11332v1] 我们在具有挑战性的CamVid城市场景理解基准上进行测试,并进行以下观察:1)当模型从零开始训练时,降采样操作的性能优于膨胀量; 2)在模型的微调步骤中,膨胀是有用的; 3)较粗糙的表示需要较少细化步骤,以及4ResNets(通过模型构建)是良好的正规化器,因为它们可以在需要时减少模型容量。最后,我们将我们的体系结构与替代方法进行比较,并报告Camvid数据集的最新结果,并至少减少两次参数。[1804.11332v1] 4ResNets(通过模型构建)是良好的规则化器,因为它们可以在需要时减少模型容量。最后,我们将我们的体系结构与替代方法进行比较,并报告Camvid数据集的最新结果,并至少减少两次参数。[1804.11332v1] 4ResNets(通过模型构建)是良好的规则化器,因为它们可以在需要时减少模型容量。最后,我们将我们的体系结构与替代方法进行比较,并报告Camvid数据集的最新结果,并至少减少两次参数。[1804.11332v1]

 

面向使用密集连接的GAN更深入的生成架构

Samarth TripathiRenbo Tu

在本文中,我们将介绍在Fisher GAN实现中采用以前在图像分类任务中使用的跳过连接和稠密层的结果。我们已经尝试了不同数量的层,并将这些连接插入网络的不同部分。我们的研究结果表明,使用连接实现的网络比基线产生更好的图像,并且所添加的连接数量对结果仅有轻微影响。[1804.11031v1]

 

视觉测量技术的演变

Shashi PoddarRahul KottathVinod Karar

随着移动机器人和工业自动化领域的快速发展,对移动物体的精确导航和定位的需求不断增长。基于相机的运动估计是一种这样的技术,由于其简单性和在生成运动路径中使用有限的资源而获得了广泛的普及。在本文中,试图介绍这个主题,为初学者介绍基于视觉的运动估计任务的不同方面。VO计划在过去几十年的演变将在两大类中进行讨论,即几何和非几何方法。几何方法在三种不同的类别下进一步详细说明,即基于特征的,基于外观的以及基于特征和外观的方案的混合。非几何方法是传统姿态估计技术的最新范式转变之一,因此在单独的章节中进行了讨论。最后,为视觉测距和相关研究领域提供了一个不同数据集的列表供参考。[1804.11142v1]

 

从深度内核网络学习显式深度表示

Mingyuan Jiu, Hichem Sahbi

深度内核学习旨在通过训练深度网络来设计多个标准基本内核的非线性组合。该方案已被证明是有效的,但在处理大规模数据集时尤为棘手,特别是当训练网络的深度增加时实际上,评估这些网络的复杂性按照二次方对训练数据的大小进行缩放,并且线性地对训练网络的深度进行线性调整。在本文中,我们通过在底层复制核Hilbert空间中设计有效映射来解决深层核心网络(DKN)中高效计算的问题。鉴于预训DKN,我们的方法建立了其相关的深层地图网络(DMN),其内部产品接近原始网络,同时效率更高。我们的方法的设计原理是贪婪并且实现分层,通过查找在不同(输入层,中间层和输出层)层近似DKN的地图。该设计还考虑基于无监督学习的额外微调步骤,其进一步增强了训练的DMN的泛化能力。当插入SVM时,这些DMN的结果与底层DKNs一样精确,而在大规模数据集上至少快一个数量级,如通过对具有挑战性的ImageCLEFCOREL5k基准的大量实验所显示的。[1804.11159v1] 这些DMN结果与底层DKNs一样精确,而在大规模数据集上至少要快一个数量级,正如通过对具有挑战性的ImageCLEFCOREL5k基准的大量实验所显示的。[1804.11159v1] 这些DMN结果与底层DKNs一样精确,而在大规模数据集上至少要快一个数量级,正如通过对具有挑战性的ImageCLEFCOREL5k基准的大量实验所显示的。[1804.11159v1]

 

Sketch-a-Classifier:基于草图的照片分类器生成

Conghui Hu, Da Li, Yi-Zhe Song, Tao Xiang, Timothy M. Hospedales

当代深度学习技术已经使图像识别成为合理可靠的技术。然而,训练有效的照片分类器通常需要大量的例子,这些例子限制了图像识别的可扩展性和适用于图像可能不可用的情况。这激发了零点学习的调查,通过从文本等其他形式的知识转移来解决问题。在本文中,我们研究了一种合成图像分类器的替代方法:几乎直接从用户的想象中,通过自由手绘草图。这种方法并不要求类别可以通过零点学习的属性进行命名或描述。我们通过训练{模型回归}网络来实现这一点,从{手绘草图}空间映射到照片分类器的空间。事实证明,这种映射可以以与类别无关的方式学习,允许用户合成用于新类别的照片分类器,而不需要注释的训练照片。{我们还证明,这种分类器生成的方式也可以用来增强现有照片分类器的粒度,或者作为基于名称的零点学习的补充。[1804.11182v1]

 

用于左心室分割的杂种森林仅使用第一个切片标签

IsmaëlKonéLahsen Boulmane

机器学习模型在许多MRI图像分割中产生了最新的结果。但是,大多数这些模型都是在来自专家手动标记的非常大的数据集上进行培训的。这个标签过程非常耗时,而且成本专家也在工作。因此寻求一种降低成本的方法是高需求的。在本文中,我们提出了一种利用MRI图像序列结构的分割方法,几乎 剔除了这个标记任务。只有第一个切片需要手动标记以训练模型,然后推断下一个切片的分割。推断结果是用来再次训练模型的另一个数据。然后更新后的模型推断第三个切片,并执行相同的过程直到最后一个切片。所提出的模型是两种随机森林算法的组合:古典的和最近的一个,即蒙德里安森林。我们将该方法应用于人体左心室分割,结果非常有前景。这种方法也可以用来生成标签。[1804.11317v1]

 

针对移动和嵌入式应用的超高功效CNN域特定加速器,9.3TOPS /瓦特

Baohua Sun, Lin Yang, Patrick Dong, Wenhan Zhang, Jason Dong, Charles Young

卷积神经网络(CNN)近年来显着提高了计算机视觉性能。目前,使用CNN算法的应用程序主要部署在通用硬件上,如CPUGPUFPGA。但是,移动和嵌入式应用都应考虑功耗,速度,精度,内存占用空间和芯片尺寸。针对CNN的域特定体系结构(DSA)是CNN部署和实施的高效实用解决方案。我们设计并制造了28nm二维CNN-DSA加速器,具有9.3TOPS / Watt的超高功效性能,并且所有处理均在内部存储器中完成,而不是在外部DRAM中完成。它将224×224 RGB图像输入分类为超过140fps,峰值功耗低于300mW,准确度与VGG基准相当。CNN-DSA加速器可重新配置为支持不同层大小和层类型的CNN模型系数,包括卷积,深度卷积,快捷连接,最大池化和ReLU。此外,为了更好地支持各种应用场景的实际部署,特别是低端移动和嵌入式平台以及MCU(微控制器单元),我们还设计了算法,以充分利用CNN-DSA加速器,从而减少对外部加速器计算资源,包括在加速器内实现完全连接(FC)层以及从CNN-DSA加速器压缩提取的特征。我们在移动和嵌入式系统上使用CNN-DSA加速器的实时演示显示了其在现实世界中广泛和实际应用的能力。[1805.00361v1]

 

对端到端视听融合的调查

Michael WandNgoc Thang VuJuergen Schmidhuber

视听语音识别(AVSR)是一种缓解声信号中噪声的不利影响的方法。借助基于深度神经网络的语音识别的最新发展,我们提出了一种端对端训练的AVSR神经网络架构,无需像传统(如基于HMM的)系统那样单独对决策融合过程进行建模。融合系统在所有噪声条件下优于单模态识别。研究输入特征的显着性表明神经网络自动适应声信号中的不同噪声水平。[1804.11127v1]

 

机器学习考试分流

Xinyu Guan, Jessica Lee, Peter Wu, Yue Wu

在这个项目中,我们通过利用数据集中的附加非图像特征来扩展最先进的CheXNetRajpurkar et al[2017])。我们的模型比原来的CheXNet产生更好的AUROC分数。[1805.00503v1]

 

Stack-U-Net:光盘和杯子实例图像分割的细化网络

Artem SevastopolskyStepan DrapakKonstantin KiselevBlake M. SnyderAnastasia Georgievskaya

在这项工作中,我们提出了一个特殊的级联网络图像分割,它是基于U-Net网络作为构建模块和迭代改进的思想。该模型主要用于获得更高的识别质量,用于寻找与青光眼存在相关的视盘和杯的边界。与单个U-Net和调查任务的最新技术方法相比,无需增加数据集的数量即可实现非常高的分割质量。我们的实验包括与公共数据库DRIONS-DBRIM-ONE v.3DRISHTI-GS上最着名的方法的比较,以及与加利福尼亚大学旧金山医学院合作收集的私人数据集的评估。介绍了架构细节的分析,并且认为该模型可以用于范围很宽的相似性质的图像分割问题。[1804.11294v1]

 

Matryoshka网络:通过嵌套形状层预测3D几何

Stephan R. RichterStefan Roth

在本文中,我们开发了新颖,高效的3D几何体编码,可以从高分辨率的单个图像重建完整的3D形状。关键的想法是将三维形状重建作为二维预测问题。为此,我们首先开发一个简单的基线网络,可以在参考视图的每个像素处预测整个体素管。通过利用经过验证的二维像素预测任务架构,我们获得了最先进的结果,明显优于纯粹的基于体素的方法。我们通过提出一种高效的内存形状编码来将这个基线扩展到更高的分辨率,这种编码将3D形状递归分解为嵌套形状图层,类似于Matryoshka娃娃的片段。这可以通过复杂的拓扑结构重建高度详细的形状,如广泛的实验所证明的那样尽管采用标准网络组件的架构简单得多,但我们明显优于以前的基于八叉树的方法。我们的Matryoshka网络进一步支持从ID或形状相似性以及形状抽样重建形状。[1804.10975v1]

 

TreeSegNet:自动构建的树CNNs,用于Subdecimeter航空图像分割

Kai Yue, Lei Yang, Ruirui Li, Wei Hu, Fan Zhang, Wei Li

由于复杂的遥感内容和光学条件,对于亚高空航片图像分割任务来说,细粒度的语义分割结果通常很难获得。另外,遥感影像具有不平衡类分布的固有局限性。最近,卷积神经网络(CNN)在这项任务中表现出色。在本文中,我们提出了TreeSegNet来解决类不平衡问题,并进一步提高度量角度的准确性。基于DeepUNet的基础设施,根据混淆矩阵和最小图切割算法,自动构建每个节点代表ResNeXt单元的Tree-CNN模型。通过连接连接来传输特征地图,树CNN块融合多尺度特征并学习模型的最佳权重。在ISPRS 2D语义标注波茨坦数据集的实验中,TreeSegNet获得的结果优于开放的最先进的方法。对于容易混淆的类别,F1类别的测量分数得到了提高。进行全面和详细的比较和分析,以表明改进是由Tree-CNN模块的构建和嵌入带来的。[1804.10879v1] 进行全面和详细的比较和分析,以表明改进是由Tree-CNN模块的构建和嵌入带来的。[1804.10879v1] 进行全面和详细的比较和分析,以表明改进是由Tree-CNN模块的构建和嵌入带来的。[1804.10879v1]

 

无监督交叉模态域适应生物医学图像分割与敌对损失

Qi Dou, Cheng Ouyang, Cheng Chen, Hao Chen, Pheng-Ann Heng

卷积网络(ConvNets)在各种具有挑战性的视觉任务中取得了巨大成功。但是,遇到域名转移时,ConvNets的性能会下降。在生物医学图像分析领域,跨领域数据具有大不相同的分布,领域适应性更加显着,同时也面临挑战。鉴于对医疗数据进行注释特别昂贵,有监督的转移学习方法并不十分理想。在本文中,我们提出了一个无监督的领域适应框架与敌对学习跨模态生物医学图像分割。具体来说,我们的模型是基于扩展完全卷积网络的像素级预测。此外,我们构建了即插即用域自适应模块(DAM),将目标输入映射到与源域特征空间对齐的要素。域批评模块(DCM)用于区分两个域的特征空间。我们通过对抗性损失优化DAMDCM,而不使用任何目标域标签。我们所提出的方法通过将用MRI图像训练的ConvNet调整为用于心脏结构分割的未配对CT数据来验证,并且获得了非常有希望的结果。[1804.10916v1] 我们所提出的方法通过将用MRI图像训练的ConvNet调整为用于心脏结构分割的未配对CT数据来验证,并且获得了非常有希望的结果。[1804.10916v1] 我们所提出的方法通过将用MRI图像训练的ConvNet调整为用于心脏结构分割的未配对CT数据来验证,并且获得了非常有希望的结果。[1804.10916v1]

 

半参数图像合成

Xiaojuan Qi, Qifeng Chen, Jiaya Jia, Vladlen Koltun

我们提出了一种半参数方法从照片图像合成的语义布局。该方法结合了参数和非参数技术的互补优势。非参数组件是由一组训练图像构成的图像片段的存储器组。给定一个新的测试时间语义布局,记忆库用于检索作为源网络材料提供给深层网络的照相参考。该合成是通过利用提供的照相材料的深层网络进行的。在多个语义分割数据集上进行的实验表明,所提出的方法比最近的纯参数化技术产生更为真实的图像。结果显示在补充视频中https://youtu.be/U4Q98lenGLQ [1804.10992v1]

 

精确的盒子评分:从数据集中提取更多信息以提高人脸检测的性能

Ce Qi, Xiaoping Chen, Pingyu Wang, Fei Su

对于基于R-CNN框架的人脸检测网络的训练,如果与地面真值相交的联合(IoUs)高于第一阈值(例如0.7),则将锚定分配为正样本并且如果它们的IoU低于第二阈值(例如0.3)则为负样本。并且人脸检测模型由上述标签训练。但是,不使用IoU在第一阈值和第二阈值之间的锚。我们提出了一种新的培训策略,精确盒子评分(PBS),来训练对象检测模型。所提出的训练策略使用具有介于第一和第二阈值之间的IoU的锚点,其可以一致地改善人脸检测的性能。我们提出的培训策略从数据集中提取更多信息,更好地利用现有数据集。更重要的是,我们还介绍了一种简单而有效的模型压缩方法(SEMCM),它可以进一步提高面部检测器的性能。实验结果表明,基于我们提出的方案,人脸检测网络的性能可以持续改善。[1804.10743v1]

 

符号线性预测器的高效子像素细化

Vincent LuiJonathon GeevesWinston YiiTom Drummond

我们提出了一种高效的子像素细化方法,使用一种称为线性预测器的基于学习的方法。本文中显示了两个关键想法。首先,我们提出了一种叫做符号线性预测器的新技术,它使得子像素细化的学习步骤有效。这使我们的方法可以在不影响准确性的情况下在线应用,同时利用基于学习的方法的运行时效率。其次,我们展示了如何使用线性预测器来预测预期的对齐误差,从而使我们只能在资源受限的应用程序中使用最佳关键点。我们通过广泛的实验来展示我们方法的效率和准确性。[1804.10750v1]

 

少数族群增量整顿不平衡的深度学习

Qi Dong, Shaogang Gong, Xiatian Zhu

从班级失衡的培训数据中学习模型是机器学习长期存在的重大挑战。特别是,现有的深度学习方法主要考虑模型训练中的类平衡数据或适度不平衡的数据,忽略了从显着不平衡的训练数据中学习的挑战。为了解决这个问题,我们在模型训练过程中基于大部分(频繁采样)类别的硬采样挖掘基于分批增量少数(稀疏采样)类别纠正来制定类别不均衡深度学习模型。该模型旨在通过在迭代分批学习过程中发现少数类别的稀疏采样边界来最大限度地减少大多数类别的主导效应。为此目的,我们引入了可在深度网络架构中轻松部署的类整流损失(CRL)功能。对三个不平衡人员属性基准数据集(CelebAX-DomainDeepFashion)和一个平衡对象类别基准数据集(CIFAR-100)进行了广泛的实验评估。这些实验结果证明了提出的分批增量少数类整流模型相对于现有最先进模型的性能优势和模型可扩展性,以解决不平衡数据学习问题。[1804.10851v1] 这些实验结果证明了提出的分批增量少数类整流模型相对于现有最先进模型的性能优势和模型可扩展性,以解决不平衡数据学习问题。[1804.10851v1] 这些实验结果证明了提出的分批增量少数类整流模型相对于现有最先进模型的性能优势和模型可扩展性,以解决不平衡数据学习问题。[1804.10851v1]

 

CRAM:经常性注意模型

Minki ChungSungzoon Cho

为了克服卷积神经网络较差的可伸缩性,经常性关注模型(RAM)有选择地选择在图像上看什么和在哪里看。通过引导经常性关注模型如何看待图像,RAM可以更加成功,因为给定的线索缩小了可能关注区域的范围。从这个角度来看,这项工作提出了线索经常性注意模型(CRAM),它增加了对RAM更好的问题解决的线索或约束。CRAM遵循编码器解码器框架,编码器利用随着任务而变化的空间变换器网络和解码器的经常性关注模型。为确保性能,CRAM解决了两项计算机视觉任务。一个是图像分类任务,线索给出为二值图像显着性,表示对象的大致位置。另一个是修补任务,将线索作为表示被遮挡部分的二进制掩码给出。在这两项任务中,CRAM显示比现有方法更好的性能,显示RAM的成功扩展。[1804.10844v1]

 

基于模式内相似性监督的基于深度学习的模态间图像配准

Xiaohuan Cao, Jianhua Yang, Li Wang, Zhong Xue, Qian Wang, Dinggang Shen

非刚性的模式间注册可以促进不同模态之间的准确信息融合,但由于各种模态的图像外观差异很大,因此具有挑战性。在本文中,我们提出训练一个非刚性的模态图像配准网络,它可以直接预测输入多模态图像如CTMR图像的变换场。具体而言,我们的模式间注册网络的训练是通过基于可用配对数据的模式内相似性度量来监督的,其来自预先对准的CTMR数据集。具体而言,在训练阶段,为了注册输入的CTMR图像,在扭曲的MR图像和与输入CT配对的MR图像上评估它们的相似性。以便,模式内相似性度量可以直接用于测量输入CTMR图像是否良好地配准。此外,我们使用双模式时尚的概念,其中我们测量CT模态和MR模态的相似性。通过这种方式,可以共同考虑两种模式中的互补解剖结构,以更准确地训练模态间配准网络。在测试阶段,可以直接应用经过训练的多模态注册网络来注册新的多模态图像,而不需要任何配对数据。实验结果表明,所提出的方法能够为具有挑战性的非刚性多模间配准任务实现有前途的准确性和效率,并且还优于最先进的方法。[1804.10735v1] 我们测量了CT模态和MR模态的相似性。通过这种方式,可以共同考虑两种模式中的互补解剖结构,以更准确地训练模态间配准网络。在测试阶段,可以直接应用经过训练的多模态注册网络来注册新的多模态图像,而不需要任何配对数据。实验结果表明,所提出的方法能够为具有挑战性的非刚性多模间配准任务实现有前途的准确性和效率,并且还优于最先进的方法。[1804.10735v1] 我们测量了CT模态和MR模态的相似性。通过这种方式,可以共同考虑两种模式中的互补解剖结构,以更准确地训练模态间配准网络。在测试阶段,可以直接应用经过训练的多模态注册网络来注册新的多模态图像,而不需要任何配对数据。实验结果表明,所提出的方法能够为具有挑战性的非刚性多模间配准任务实现有前途的准确性和效率,并且还优于最先进的方法。[1804.10735v1] 训练的模式间注册网络可以直接用于注册新的多模式图像而不需要任何配对数据。实验结果表明,所提出的方法能够为具有挑战性的非刚性多模间配准任务实现有前途的准确性和效率,并且还优于最先进的方法。[1804.10735v1] 训练的模式间注册网络可以直接用于注册新的多模式图像而不需要任何配对数据。实验结果表明,所提出的方法能够为具有挑战性的非刚性多模间配准任务实现有前途的准确性和效率,并且还优于最先进的方法。[1804.10735v1]

 

检测,量化和整合数据集偏差:12,207个人的神经影像分析

克里斯琴Wachinger,本杰明古铁雷斯贝克尔,安娜Rieckmann

神经影像学数据集的规模不断扩大,以解决越来越复杂的医学问题。然而,即使是目前最大的数据集,对于训练复杂模型或寻找基因组范围的关联来说也太小。一种解决方案是通过跨多个数据集合并数据来增加样本大小。然而,数据集中的偏见使这种方法变得复杂,并且包括数据中的其他变化来源。在这项工作中,我们结合15个大型神经影像数据集来研究偏倚。首先,我们通过证明扫描能够以73.3%的准确度正确地分配给数据集来检测偏差。接下来,我们引入度量标准以量化数据集间的兼容性并创建神经影像站点的嵌入。最后,我们将偏见的存在纳入了用于预测自闭症的训练集的选择。为了量化数据集偏差,我们引入两个度量:数据集之间的Bhattacharyya距离和年龄预测误差。所呈现的神经影像站点的嵌入提供了关于不同站点的相似性的有趣的新可视化。这可以用来指导数据源的合并,同时限制引入不需要的变化。最后,我们证明了在自闭症预测中将训练集选择纳入数据集偏差时,性能明显提高。总体而言,我们认为,越来越多的神经影像学数据需要纳入数据驱动的方法来量化未来分析中的数据集偏差。[1804.10764v1] 所呈现的神经影像站点的嵌入提供了关于不同站点的相似性的有趣的新可视化。这可以用来指导数据源的合并,同时限制引入不需要的变化。最后,我们证明了在自闭症预测中将训练集选择纳入数据集偏差时,性能明显提高。总体而言,我们认为,越来越多的神经影像学数据需要纳入数据驱动的方法来量化未来分析中的数据集偏差。[1804.10764v1] 所呈现的神经影像站点的嵌入提供了关于不同站点的相似性的有趣的新可视化。这可以用来指导数据源的合并,同时限制引入不需要的变化。最后,我们证明了在自闭症预测中将训练集选择纳入数据集偏差时,性能明显提高。总体而言,我们认为,越来越多的神经影像学数据需要纳入数据驱动的方法来量化未来分析中的数据集偏差。[1804.10764v1] 当在自闭症预测中将训练集选择纳入数据集偏差时,我们表现出明显的性能提高。总体而言,我们认为,越来越多的神经影像学数据需要纳入数据驱动的方法来量化未来分析中的数据集偏差。[1804.10764v1] 当在自闭症预测中将训练集选择纳入数据集偏差时,我们表现出明显的性能提高。总体而言,我们认为,越来越多的神经影像学数据需要纳入数据驱动的方法来量化未来分析中的数据集偏差。[1804.10764v1]

 

深度残留网络

Yangfan Hu, Huajin Tang, Yueming Wang, Gang Pan

最近,尖峰神经网络(SNN)因其生物合理性受到了重大关注。理论上SNN至少具有与传统人工神经网络(ANN)相同的计算能力,并且它有可能实现革命性的能效。然而,在现阶段,培养一个非常深的SNN仍然是一个巨大的挑战。在本文中,我们提出了一种有效的方法来构建代表最先进的卷积神经网络(CNN)的深度残留网络(ResNet)的尖峰版本。我们采用将经过训练的ResNet转换为Spiking神经元网络Spiking ResNet的想法。为了解决转换问题,我们提出了一种快捷标准化机制来适当缩放连续值激活以匹配SNN中的发射速率,以及一种逐层误差补偿方法来减少由离散导致的误差。在MNISTCIFAR-10CIFAR-100上的实验结果证明了所提出的Spiking ResNet能够产生SNN的最新性能。[1805.01352v1]

 

协助多感官效应同步的双模式学习方法

拉斐尔阿布雷乌,乔尔多斯桑托斯,爱德华多贝泽拉

mulsemedia应用中,传统媒体内容(文本,图像,音频,视频等)可以与针对其他人类感官(例如,气味,触觉,味觉)的媒体对象相关联。这种应用旨在通过传感器和执行器来弥合虚拟世界和现实世界。执行器负责执行对用户产生感官刺激的感官效果(例如,风,热,光)。在这些应用中,感官刺激必须及时地对其他传统媒体内容进行呈现。例如,在视听内容中出现爆炸的时刻,可能足以激活产生热量和光线的致动器。通常使用一些声明性的多媒体创作语言来将每个媒体对象将要呈现的时间戳与某种感官效果的执行关联起来。此设置中的一个问题是媒体对象和感官效果的同步是由应用程序的作者手动完成的,这是一个耗时且容易出错的过程。在本文中,我们提出了一种双模神经网络架构来协助mulsemedia应用中的同步任务。我们的方法基于这样的想法:可以同时使用音频和视频信号来识别应该执行一些感官效果的时间戳。我们的学习架构结合了音频和视频信号来预测场景组件。出于评估目的,我们构建基于Google AudioSet的数据集。我们提供实验来验证我们的双峰体系结构。我们的研究结果表明,与单峰架构的几种变体相比,双峰法可以产生更好的结果。[1804.10822v1]

 

面向特定任务的非凸优化设计收敛深层算子分裂方法

Risheng Liu, Shichao Cheng, Yi He, Xin Fan, Zhongxuan Luo

算子分裂方法已成功用于计算科学,统计学,学习和视觉领域,将复杂问题简化为一系列较简单的子问题。然而,流行的分裂方案大多仅基于一些通用优化模型的数学特性来建立。所以这是一个费力的过程,并且经常需要许多迭代的构思和验证才能获得实际的和特定任务的最优解决方案,特别是对于现实世界中的非凸性问题。为突破上述限制,我们引入了一种称为可学习Bregman分裂(LBS)的新算法框架,以基于特定任务模型执行基于深度架构的算子分裂,以实现非凸优化。由于数据依赖性(即可学习)的性质,我们的LBS不仅可以加速融合,还可以避免为实际任务提供不必要的琐碎解决方案。尽管采用不精确的深度迭代,但我们仍然可以通过强制执行一些相当宽松的假设来建立全局收敛和估计LBS的渐近收敛速度。对不同应用(例如图像完成和去模糊)的大量实验验证了我们的理论结果,并显示了LBS与现有方法的优越性。[1804.10798v1] 图像完成和去模糊)验证我们的理论结果并显示LBS与现有方法的优越性。[1804.10798v1] 图像完成和去模糊)验证我们的理论结果并显示LBS与现有方法的优越性。[1804.10798v1]

 

利用红外成像和深度网络对怠速车进行远程检测

Muhammet BastanKim-Hui YapLap-Pui Chau

怠速车辆通过废气排放浪费能源并污染环境。在某些国家,禁止将车辆空转超过预定的时间,并且执法机构需要自动检测怠速车辆。我们提出了第一个使用红外(IR)成像和深度网络来检测怠速车的自动系统。我们依靠怠速和停车时空热特征的差异,并使用长波红外摄像机监控车内温度。我们将怠速车检测问题制定为IR图像序列中的时空事件检测,并采用深度网络进行时空建模。我们收集了第一个IR图像序列数据集,用于怠速汽车检测。首先,我们使用卷积神经网络在每个红外图像中检测汽车,该系统在常规RGB图像上进行预先训练,并对IR图像进行微调以获得更高的精度。然后,我们跟踪检测到的汽车随着时间的推移,以识别停放的汽车。最后,我们使用每辆停放汽车的3D时空红外图像体积作为卷积和循环网络的输入,以将它们分类为空闲或不空闲。我们对各种卷积和循环体系结构的时间和时空建模方法进行了广泛的经验性评估。我们在我们的IR图像序列数据集上呈现出有前景的实验结果 [1804.10805v1] 我们使用每辆停放汽车的3D时空红外图像体积作为卷积和循环网络的输入,将它们分类为空闲或不空闲。我们对各种卷积和循环体系结构的时间和时空建模方法进行了广泛的经验性评估。我们在我们的IR图像序列数据集上呈现出有前景的实验结果 [1804.10805v1] 我们使用每辆停放汽车的3D时空红外图像体积作为卷积和循环网络的输入,将它们分类为空闲或不空闲。我们对各种卷积和循环体系结构的时间和时空建模方法进行了广泛的经验性评估。我们在我们的IR图像序列数据集上呈现出有前景的实验结果 [1804.10805v1]

 

学习使用文本和草图的多对象图像检索的跨模态深嵌入

Sounak DeyAnjan DuttaSuman K. GhoshErnest ValvenyJosepLladósUmapada Pal

在这项工作中,我们介绍一个跨模态图像检索系统,它允许文本和草图作为查询的输入形式。一个跨模态的深层网络架构被设计为联合建模草图和文本输入模式以及图像输出模态,学习文本和图像以及草图和图像之间的常见嵌入。另外,注意模型用于有选择地将注意力集中在图像的不同对象上,允许在查询中使用多个对象进行检索。实验表明,所提出的方法在标准数据集中的单个和多个对象图像检索中表现最好。[1804.10819v1]

 

用于检测PDAC的联合形状表示和分类

Fengze Liu, Lingxi Xie, Yingda Xia, Elliot K. Fishman, Alan L. Yuille

我们的目标是检测腹部CT扫描中的胰腺导管腺癌(PDAC),这为早期诊断胰腺癌提供了线索。这是一个几乎没有训练数据的3D体积分类任务。我们提出了一个两阶段框架,它首先将胰腺分割成二元掩模,然后将掩模压缩成一个形状矢量并执行异常分类。形状表示和分类以{em联合}方式进行,以利用PDAC经常改变胰腺的形状和防止过度拟合的知识。实验在$ 300 $正常扫描和$ 156 $ PDAC情况下执行。我们以$ 80.2 \$的灵敏度(小于$ 1/5 $ PDAC的情况未被检测到)获得$ 90.2 \$的特异性(在低于$ 1/10 $的正常情况下发生虚警),这对临床应用显示出了希望。[1804.10684v1]

 

使用完全卷积网络从CT图像中提取肺

JeovaneHonórioAlves,佩德罗马丁斯莫雷拉内托,卢卡斯法拉利奥利维拉

通常可以通过计算机断层扫描(CT)扫描分析癌症和其他病理疾病,如间质性肺病(ILDs)。为了解决这个问题,分割的预处理步骤被执行以减少要分析的区域,分割肺并去除不重要的区域。通常,开发复杂的方法来提取肺部区域,也使用手工特征提取器来增强分割。随着深度学习技术及其自动化特征学习的普及,我们提出了一种肺部分割方法,它使用完全卷积网络(FCN)和完全连接的条件随机场(CRF),并在许多最先进的分割工作中使用。为了开发一种通用的方法,研究了来自日内瓦大学医院(HUG)和VESSEL12挑战的公开数据集,包括许多健康和病理CT扫描用于评估。采用单独使用数据集的实验,其他数据集的训练模型和两个数据集的组合。骰子得分为HUG-ILD数据集的$ 98.67 \\ pm0.94 \$VESSEL12数据集的$ 99.19 \\ pm0.37 \$,其性能优于前者,并获得类似的状态在后面的数据集中展示了使用深度学习方法的能力。[1804.10704v1] HUG-ILD数据集的67\ pm0.94 \$VESSEL12数据集的$ 99.19 \\ pm0.37 \$得以实现,优于前者的作品并获得类似的最新结果在后面的数据集中,显示了使用深度学习方法的能力。[1804.10704v1] HUG-ILD数据集的67\ pm0.94 \$VESSEL12数据集的$ 99.19 \\ pm0.37 \$得以实现,优于前者的作品并获得类似的最新结果在后面的数据集中,显示了使用深度学习方法的能力。[1804.10704v1]

 

从叙述示范奖励学习

Hsiao-Yu Fish Tung, Adam W. Harley, Liang-Kang Huang, Katerina Fragkiadaki

人类通过以自然语言传达目标和欲望,毫不费力地编程彼此。相比之下,人类通过指示期望的物体位置和姿势来实现机器人行为,通过提供目标配置的RGB图像或者提供示范来模仿。这些方法都没有概括出各种环境变化,并且它们以尴尬的技术术语表达了目标。这项工作提出联合学习自然语言基础和指导性行为政策,这些政策基于自然语言表达的感知检测器,并基于机器人代理的感官输入。我们的监督是叙述视觉示范(NVD),这些视觉示范与口头叙述(而不是沉默)相配合。我们介绍一个NVD数据集,教师在进行活动的同时详细描述它们。我们将教师的描述映射到感知奖励检测器,并用它们来训练模拟中的相应行为策略。我们凭经验证明,我们的指导性代理人(i)通过利用示范中的硬性负面配置配置,通过少量例子学习视觉奖励检测器动态性,(ii)使用学习的视觉奖励探测器制定挑选和放置策略,(iii)受益于模仿自然语言目标表达式的语法结构的对象因子化状态表示,以及(iv)可以执行涉及新颖对象的行为在自然语言指导下的测试时间新地点。[1804.10692v1] 描述感知奖励探测器,并用它们来训练模拟相应的行为策略。我们凭经验证明我们的指导代理人(i)通过利用示范动力学中的硬性负面开采配置,使用少量例子来学习视觉报酬探测器,(ii iii)受益于模仿自然语言目标表达的句法结构的面向对象分解的状态表示,以及(iv)可以在测试时间执行涉及新颖位置的新对象的行为,由自然语言指导。[1804.10692v1] 描述感知奖励探测器,并用它们来训练模拟相应的行为策略。我们凭经验证明我们的指导代理人(i)通过利用示范动力学中的硬性负面开采配置,使用少量例子来学习视觉报酬探测器,(ii iii)受益于模仿自然语言目标表达的句法结构的面向对象分解的状态表示,以及(iv)可以在测试时间执行涉及新颖位置的新对象的行为,由自然语言指导。[1804.10692v1] 我们凭经验证明,我们的指导性代理人(i)通过利用示范动态中的硬性负面配置配置,使用少量示例学习视觉报酬探测器,(ii)使用学习视觉报酬探测器制定拣选和放置策略,(iii)面向对象的状态表示,模仿自然语言目标表达式的语法结构;以及(iv)可以在自然语言的指导下,在测试时间执行涉及新位置的新对象的行为。[1804.10692v1] 我们凭经验证明,我们的指导性代理人(i)通过利用示范动态中的硬性负面配置配置,使用少量示例学习视觉报酬探测器,(ii)使用学习视觉报酬探测器制定拣选和放置策略,(iii)面向对象的状态表示,模仿自然语言目标表达式的语法结构;以及(iv)可以在自然语言的指导下,在测试时间执行涉及新位置的新对象的行为。[1804.10692v1] 和(iv)可以在自然语言指导的测试时间执行涉及新颖地点的新行为。[1804.10692v1] 和(iv)可以在自然语言指导的测试时间执行涉及新颖地点的新行为。[1804.10692v1]

 

Charades-Ego:配对的第三人和第一人称视频的大规模数据集

Gunnar A. SigurdssonAbhinav GuptaCordelia SchmidAli FarhadiCardek Alahari

ActorObserver中,我们引入了一个连接第一人和第三人视频理解域的数据集Charades-Ego Dataset。在本文中,我们描述了数据集的以自我为中心的方面,并在第一和第三人视频的68.8小时内为Charades-Ego提供了68,536个活动实例的注释,使其成为可用的最大和最多样化的以自我为中心的数据集之一。Charades-Ego还与Charades数据集共享活动类别,脚本和方法,其中包括82.3小时的第三方视频和66,500个活动实例。Charades-Ego具有时间注释和文本描述,适合以自我为中心的视频分类,本地化,字幕以及利用数据的跨模式性质的新任务。[1804.09626v2]

 

免手写数字串识别的分割方法

Andre G HochuliLuiz ES OliveiraAlceu S Britto JrRobert Sabourin

本文提出了识别未知长度的手写数字串的无分割策略。为了训练基于卷积神经网络的端到端解决方案,创建了大小为2位,3位和4位的触摸数字串的合成数据集。一个强大的实验协议被用来表明,提出的无分割方法可以达到最先进的性能,而不会承受基于过分割方法的沉重负担。此外,他们证实了在设计端到端解决方案时引入上下文信息的重要性,例如在识别数字串时提出的长度分类器。[1804.09279v3]

 

基于序贯分解的联合增强和去噪方法

Xutong Ren, Mading Li, Wen-Huang Cheng, Jiaying Liu

许多低照度增强方法忽略原始图像中的强噪声。因此,他们通常也会同时增强噪音。此外,大多数方法采用的额外去噪程序破坏了细节。在本文中,我们介绍了一种低光强增强和去噪联合策略,旨在获得良好增强的低光图像,同时摆脱固有噪声问题。所提出的方法以连续序列执行基于Retinex模型的分解,其依次估计分段平滑照明和噪声抑制反射率。获得照明和反射率图后,我们调整照明层并生成我们的增强结果。在这种噪声抑制顺序分解过程中,我们强化每个组件的空间平滑度,并巧妙地利用权重矩阵来抑制噪声并提高对比度。广泛的实验结果证明了我们方法的有效性和实用性。它适用于各种图像,并且与最先进的方法相比,可以获得更好或可比的质量。[1804.08468v3]

 

用于人员重新识别的水平金字塔匹配

Yang Fu, Yunchao Wei, Yuqian Zhou, Honghui Shi, Gao Huang, Xinchao Wang, Zhiqiang Yao, Thomas Huang

尽管近期取得了令人瞩目的进展,但人身再识别(Re-ID)方法仍然存在身体部位缺失的失败案例。为了缓解这种情况,我们提出了一种简单而有效的水平金字塔匹配(HPM)方法,以充分利用特定人员的各种部分信息,以便即使某些关键部分丢失,仍然可以识别出正确的候选人。在HPM中,我们做出以下贡献以产生用于Re-ID任务的更强健的特征表示:1)我们学习使用不同水平金字塔尺度的部分特征表示进行分类,这成功地增强了各个人部分的判别能力; 2)我们利用平均和最大汇集策略来以全球当地的方式解释特定于人的歧视性信息; 3)我们在训练过程中引入了一种新颖的水平擦除操作,以进一步抵抗缺失部分的问题并提高特征表示的鲁棒性。对三个流行的基准进行了广泛的实验,包括Market-1501DukeMMC-reIDCUHK03。在这些基准测试中,我们获得了83.1%,74.5%和59.7%的mAP分数,这是最新的技术水平。[1804.05275v2] 在这些基准测试中,我们获得了83.1%,74.5%和59.7%的mAP分数,这是最新的技术水平。[1804.05275v2] 在这些基准测试中,我们获得了83.1%,74.5%和59.7%的mAP分数,这是最新的技术水平。[1804.05275v2]

 

闭式检测器,用于多变量t分布背景杂波中的实心亚像素目标

James TheilerBeate ZimmerAmanda Ziemann

使用广义似然比检验(GLRT)推导出高光谱影像中实心亚像素目标的检测器。当背景是胖尾椭圆轮廓多变量t分布时,获得封闭形式的解决方案以优化替换目标模型。这概括了基于GLRT的检测器,这些检测器以前是针对具有高斯背景的替换目标模型以及具有椭圆轮廓背景的加性目标模型而导出的。模拟高光谱数据的实验说明了这种探测器在各种参数状态下的性能。[1804.02062v2]

 

复制研究:开发和验证用于检测视网膜眼底照片中的糖尿病视网膜病变的深度学习算法

Mike VoetsKajsaMøllersenLars Ailo Bongo

复制研究对验证新方法至关重要,对于维持科学出版物的高标准以及在实践中使用结果至关重要。我们试图复制“JAMA 2016”发表的发展和验证深层学习算法检测视网膜眼底照片中的糖尿病视网膜病变的主要方法; 31622)。我们重新实施了该方法,因为源代码不可用,并且我们使用公开可用的数据集。最初的研究使用EyePACS和印度三家医院的非公开眼底图像进行培训。我们使用了Kaggle的一个不同的EyePACS数据集。最初的研究使用基准数据集Messidor-2来评估算法的性能。我们使用了类似的Messidor-Original数据。在最初的研究中,眼科医生将所有图像重新分级为糖尿病视网膜病变,黄斑水肿和图像分级。我们的数据集每个图像有一个糖尿病视网膜病变分级,我们自己评估图像分级。原始研究没有描述训练和验证的超参数设置。我们无法复制原来的研究。在原始研究中,我们的算法在Kaggle EyePACS测试集的接收器操作曲线(AUC)为0.74下和在Messidor-Original上为0.59的算法面积未接近报道的AUC 0.99。这可能是由于每个图像使用单个等级或不同的超参数设置造成的。通过改变预处理方法,我们的复制算法的AUC分别增加到0.940.82。这项研究显示了复制深度学习的挑战,以及需要更多复制研究来验证深度学习方法,特别是对于医学图像分析。我们的源代码和说明可在以下网址找到:https//github.com/mikevoets/jama16-retina-replication [1803.04337v2]

 

虹膜定位基准和深度学习探测器评估

Evair SeveroRayson LarocaCides S. BezerraLuiz A. ZanlorensiDaniel WeingaertnerGladston MoreiraDavid Menotti

虹膜被认为是独特概率最高的生物特征。虹膜位置是生物识别系统的一项重要任务,直接影响特定应用中获得的结果,如虹膜识别,欺骗和隐形眼镜检测等。这项工作将虹膜定位问题定义为包含虹膜区域的最小方形窗口的定界。为了建立虹膜位置的基准,我们从不同的生物识别应用中注释(虹膜平方包围盒)四个数据库,并将它们公开给社区。除了这4个带注释的数据库外,我们还包括文献中的其他两个数据库。我们在这六个数据库上进行了实验,其中五个采用近红外传感器,另一个采用可见光传感器。我们比较经典和出色的Daugman虹膜定位方法与两个基于窗口的检测器:1)基于面向方向梯度直方图(HOG)和线性支持向量机(SVM)分类器的特征的滑动窗口检测器; 2)从YOLO物体探测器微调的基于深度学习的探测器。实验结果表明,基于深度学习的检测器在精度和运行时间(GPU版本)方面优于其他类型,应尽可能选择。[1803.01250v5] 实验结果表明,基于深度学习的检测器在精度和运行时间(GPU版本)方面优于其他类型,应尽可能选择。[1803.01250v5] 实验结果表明,基于深度学习的检测器在精度和运行时间(GPU版本)方面优于其他类型,应尽可能选择。[1803.01250v5]

 

基于YOLO检测器的鲁棒性实时自动车牌识别

Rayson LarocaEvair SeveroLuiz A. ZanlorensiLuiz S. OliveiraGabriel ResendeGonçalvesWilliam Robson SchwartzDavid Menotti

由于许多实际应用,自动车牌识别(ALPR)一直是研究的一个常见话题。然而,目前许多解决方案在现实世界中仍然不健壮,通常取决于许多限制因素。本文提出了一个基于最先进的YOLO物体探测器的强大而高效的ALPR系统。卷积神经网络(CNN)针对每个ALPR阶段进行训练和微调,以便在不同条件下(例如,相机,照明和背景的变化)具有鲁棒性。特别是对于字符分割和识别,我们设计了一个两阶段方法,采用简单的数据增强技巧,例如倒转牌照(LP)和翻转字符。由此产生的ALPR方法在两个数据集中取得了可观的成果。首先,在SSIG数据集中,由2个,我们的系统的识别率达到了93.53%和47帧每秒(FPS),比SighthoundOpenALPR商业系统(分别为89.80%和93.03%)的性能都有所提高,并大大优于以前的结果(81.80 %)。其次,针对更现实的情况,我们引入了一个更大的公共数据集,称为UFPR-ALPR数据集,专为ALPR设计。这个数据集包含150个视频和4,500帧,当摄像头和车辆移动时,还包含不同类型的车辆(汽车,摩托车,公共汽车和卡车)。在我们提出的数据集中,商业系统的试用版达到了70%以下的识别率。另一方面,我们的系统表现更好,识别率为78.33%和35 FPS[1802.09567v6] 我们的系统的识别率达到93.53%和47帧每秒(FPS),比SighthoundOpenALPR商业系统(分别为89.80%和93.03%)的性能更好,并且比以前的结果(81.80%)有很大的提升。其次,针对更现实的情况,我们引入了一个更大的公共数据集,称为UFPR-ALPR数据集,专为ALPR设计。这个数据集包含150个视频和4,500帧,当摄像头和车辆移动时,还包含不同类型的车辆(汽车,摩托车,公共汽车和卡车)。在我们提出的数据集中,商业系统的试用版达到了70%以下的识别率。另一方面,我们的系统表现更好,识别率为78.33%和35 FPS[1802.09567v6] 我们的系统的识别率达到93.53%和47帧每秒(FPS),比SighthoundOpenALPR商业系统(分别为89.80%和93.03%)的性能更好,并且比以前的结果(81.80%)有很大的提升。其次,针对更现实的情况,我们引入了一个更大的公共数据集,称为UFPR-ALPR数据集,专为ALPR设计。这个数据集包含150个视频和4,500帧,当摄像头和车辆移动时,还包含不同类型的车辆(汽车,摩托车,公共汽车和卡车)。在我们提出的数据集中,商业系统的试用版达到了70%以下的识别率。另一方面,我们的系统表现更好,识别率为78.33%和35 FPS[1802.09567v6] 表现优于SighthoundOpenALPR商业系统(分别为89.80%和93.03%),明显优于以前的结果(81.80%)。其次,针对更现实的情况,我们引入了一个更大的公共数据集,称为UFPR-ALPR数据集,专为ALPR设计。这个数据集包含150个视频和4,500帧,当摄像头和车辆移动时,还包含不同类型的车辆(汽车,摩托车,公共汽车和卡车)。在我们提出的数据集中,商业系统的试用版达到了70%以下的识别率。另一方面,我们的系统表现更好,识别率为78.33%和35 FPS[1802.09567v6] 表现优于SighthoundOpenALPR商业系统(分别为89.80%和93.03%),明显优于以前的结果(81.80%)。其次,针对更现实的情况,我们引入了一个更大的公共数据集,称为UFPR-ALPR数据集,专为ALPR设计。这个数据集包含150个视频和4,500帧,当摄像头和车辆移动时,还包含不同类型的车辆(汽车,摩托车,公共汽车和卡车)。在我们提出的数据集中,商业系统的试用版达到了70%以下的识别率。另一方面,我们的系统表现更好,识别率为78.33%和35 FPS[1802.09567v6] 针对更现实的情况,我们引入了一个更大的公共数据集,称为UFPR-ALPR数据集,专为ALPR设计。这个数据集包含150个视频和4,500帧,当摄像头和车辆移动时,还包含不同类型的车辆(汽车,摩托车,公共汽车和卡车)。在我们提出的数据集中,商业系统的试用版达到了70%以下的识别率。另一方面,我们的系统表现更好,识别率为78.33%和35 FPS[1802.09567v6] 针对更现实的情况,我们引入了一个更大的公共数据集,称为UFPR-ALPR数据集,专为ALPR设计。这个数据集包含150个视频和4,500帧,当摄像头和车辆移动时,还包含不同类型的车辆(汽车,摩托车,公共汽车和卡车)。在我们提出的数据集中,商业系统的试用版达到了70%以下的识别率。另一方面,我们的系统表现更好,识别率为78.33%和35 FPS[1802.09567v6] 商业系统的试用版达到了70%以下的识别率。另一方面,我们的系统表现更好,识别率为78.33%和35 FPS[1802.09567v6] 商业系统的试用版达到了70%以下的识别率。另一方面,我们的系统表现更好,识别率为78.33%和35 FPS[1802.09567v6]

 

Deep BCD-Net使用相同的编码解码CNN结构进行迭代图像恢复

何勇春,Jeffrey A. Fessler

在收集严重欠采样或嘈杂测量的极端计算成像中,在合理的计算时间内获取准确的图像具有挑战性。将图像映射卷积神经网络(CNN)纳入迭代图像恢复有很大的潜力来解决这个问题。本文1)将编码器和解码器中使用相同卷积核的图像映射CNN结合到块坐标下降(BCD)信号恢复方法中,并且2)应用乘法器的交替方向方法来训练上述图像映射CNN。我们将所提出的经常性网络称为BCD-Net,使用相同的编码解码CNN结构。数值实验表明,对于a)对低信噪比图像进行去噪和b)极度欠采样的磁共振成像,与使用不同编码解码结构和/或使用小波和总变差的传统图像恢复模型的BCD-Net相比,所提出的BCD-Net实现了显着更准确的图像恢复。[1802.07129v2]

 

具有眼动追踪,稀疏注意模型和深度学习的协同计算机辅助诊断(C-CAD)系统

Naji KhosravanHaydar CelikTurkbey RowElizabeth JonesBradford WoodBagci Review

放射线筛查中至少有两类错误可导致次最佳诊断决策和干预:(i)人为错误和(ii)视觉搜索的复杂性。开发计算机辅助诊断(CAD)工具来帮助放射科医师弥补其中的一些错误。然而,尽管与传统的筛查策略相比,它们有显着的改进,但大多数CAD系统并没有超出它们作为第二意见工具的用途,因为产生了大量的误报,而人工解释器需要纠正。与放射线扫描计算机化分析的努力并行的是,一些研究人员在放射科医师的筛查过程中对放射科医师的行为进行了检查,以便更好地了解他们错过了肿瘤的方式和原因,他们如何与图像中的信息进行交互,以及他们如何在图像中搜索未知的病理。眼动追踪工具有助于探索这些基本问题的答案。在本文中,我们的目标是开发一种称为协同CADC-CAD)的范式转换CAD系统,该系统统一了上述研究方向:CAD和眼睛跟踪。我们设计了一个眼睛跟踪界面,为放射科医生提供真正的放射学阅览室体验。然后,我们提出了一种统一眼动数据和CAD系统的新算法。具体而言,我们提出了一种新的基于图形的聚类和稀疏算法,将眼动数据(凝视)转换为信号模型,以定量和定性地解释凝视模式。提议的C-CAD通过眼动追踪技术与放射科医生合作,帮助他们改进诊断决策。C-CAD通过处理他们的注视模式来学习放射科医师的搜索效率。为此,C-CAD在新设计的多任务学习平台中使用深度学习算法来同时分割和诊断癌症。[1802.06260v2]

 

3D卷积编码器解码器网络,用于通过2D训练网络的转移学习实现低剂量CT

Hongming Shan, Yi Zhang, Qingsong Yang, Uwe Kruger, Mannudeep K. Kalra, Ling Sun, Wenxiang Cong, Ge Wang

低剂量计算机断层扫描(CT)在医学成像领域引起了重大关注,因为CT相关的X射线辐射对患者带来健康风险。但是,CT辐射剂量的减少会影响信噪比,并可能影响图像质量和诊断性能。最近,基于深度学习的算法在低剂量CT去噪,尤其是卷积神经网络(CNN)和生成对抗网络(GAN)方面取得了令人鼓舞的结果。本文介绍了GAN框架内用于低剂量CT去噪的2D3D配置中的基于合同路径的卷积编码器解码器(CPCE)网络。我们的方法的一个新特征是可以通过扩展训练后的二维CNN直接获得初始3D CPCE去噪模型,然后进行微调以合并来自相邻切片的三维空间信息。基于从2D3D的传输学习,3D网络比从头开始训练的3D网络更快地收敛并实现更好的去噪性能。通过比较CPCE和基于模拟Mayo数据集和真实MGH数据集的最近公布的方法,我们证明3D CPCE去噪模型具有更好的性能,抑制图像噪声并保留微妙的结构。[1802.05656v2] 通过比较CPCE和基于模拟Mayo数据集和真实MGH数据集的最近公布的方法,我们证明3D CPCE去噪模型具有更好的性能,抑制图像噪声并保留微妙的结构。[1802.05656v2] 通过比较CPCE和基于模拟Mayo数据集和真实MGH数据集的最近公布的方法,我们证明3D CPCE去噪模型具有更好的性能,抑制图像噪声并保留微妙的结构。[1802.05656v2]

 

子空间支持向量数据描述

Fahad SohrabJenni RaitoharjuMoncef GabboujAlexandros Iosifidis

本文提出了一种求解一类分类问题的新方法。所提出的方法,即子空间支持向量数据描述,将数据映射到针对单类分类进行优化的子空间。在该特征空间中,然后确定包围目标类别的最佳超球面。该方法迭代地优化数据映射以及数据描述以便在低维特征空间中定义紧凑的类别表示。我们为所提出的方法提供线性和非线性映射。对14个公开可用数据集的实验表明,与基线和其他最近提出的一类分类方法相比,提出的子空间支持向量数据描述提供了更好的性能。[1802.03989v3]

 

虚拟到真实:在视觉语义分割中学习控制

Zhang-Wei Hong, Chen Yu-Ming, Shih-Yang Su, Tzu-Yun Shann, Yi-Hsiang Chang, Hsuan-Kung Yang, Brian Hsi-Lin Ho, Chih-Chieh Tu, Yueh-Chuan Chang, Tsu-Ching Hsiao, Hsin-Wei Hsiao, Sih-Pin Lai, Chun-Yi Lee

从现实世界中收集训练数据对于脆弱的机器人来说通常是耗时的,甚至是危险的,因此机器人学习的最近进展主张使用模拟器作为训练平台。不幸的是,合成视觉数据与真实视觉数据之间的现实差距阻碍了在虚拟世界中训练的模型直接迁移到现实世界。本文提出了一个解决虚拟到现实问题的模块化架构。所提出的架构将学习模型分为感知模块和控制策略模块,并且使用语义图像分割作为用于将这两个模块相关联的元表示。感知模块将感知的RGB图像转换为语义图像分割。控制策略模块被实现为深度强化学习代理,其基于翻译的图像分割来执行动作。我们的架构在避障任务和目标跟随任务中进行评估。实验结果表明,我们的架构在虚拟环境和真实环境中明显优于所有基准方法,并且展现出比他们更快的学习曲线。我们还为各种变体配置提供详细的分析,并验证模块化体系结构的可转移性。[1802.00285v3] 我们还为各种变体配置提供详细的分析,并验证模块化体系结构的可转移性。[1802.00285v3] 我们还为各种变体配置提供详细的分析,并验证模块化体系结构的可转移性。[1802.00285v3]

 

Hi-Fi:骨架检测的分层特征集成

Kai Zhao, Wei Shen, Shanghua Gao, Dandan Li, Ming-Ming Cheng

在自然图像中,物体和物体部分之间物体骨架的尺度(厚度)可能会发生显着变化,这使得物体骨架检测成为一个具有挑战性的问题。我们提出了一种新的卷积神经网络(CNN)架构,通过引入一种名为Hi-Fi的新型分层特征集成机制来解决骨架检测问题。所提出的基于CNN的方法具有强大的多尺度特征集成能力,其本质上捕获来自更深层的高级语义以及来自更浅层的低级细节。%通过将不同CNN特征等级与双向指导进行分层整合,我们的方法(1)能够跨不同等级的特征进行相互优化,并且(2)具备捕获丰富对象上下文和高分辨率细节的强大能力。实验结果表明,我们的方法在从不同尺度上有效融合特征的方面明显优于最先进的方法,这通过几个基准的相当大的性能改进来证明。[1801.01849v3]

 

正常和病理图像的脑部提取:联合PCA /图像重建方法

许汉,罗兰Kwitt,斯蒂芬AylwardSpyridon BakasBjoern Menze,亚历山大阿斯图里亚斯,保罗Vespa,约翰范霍恩,Marc Niethammer

从图像中提取脑部是一个常见的预处理步骤。存在许多方法,但它们通常仅设计用于从没有强病理的图像中提取脑部。从具有强烈病态的图像(例如肿瘤或创伤性脑损伤的存在)中提取大脑是具有挑战性的。在这种情况下,组织外观可能偏离正常组织,违反了这些方法的算法假设因此,大脑可能无法正确提取。本文提出了一种脑部提取方法,它可以通过联合建模正常组织和病理来明确地解释病理。具体而言,我们的模型使用三部分图像分解:(1)通过主成分分析捕获正常组织外观,(2)通过总变差项捕获病理学,和(3)通过稀疏术语捕获非脑组织。分解和图像配准步骤交替进行,以便在固定的阿特拉斯空间中进行统计建模。作为一种有益的副作用,该模型允许在阿特拉斯空间中识别潜在的病状和重建准正常图像。我们证明了我们的方法在四个数据集上的有效性:显示正常图像的IBSRLPBA40数据集,包含脑肿瘤图像的BRATS数据集和包含临床TBI图像的数据集。我们比较其他流行模型的性能:ROBEXBEASTMASSBETBSE和最近提出的深度学习方法。我们的模型在所有四个数据集上的表现都优于这些竞争方法。具体而言,我们的模型在所有数据集上获得最佳的中位数(97.11)和平均值(96.88)的骰子分数。两个表现最佳的竞争者ROBEXMASS分别获得96.23 / 95.6296.67 / 94.25分。因此,我们的方法是对各种图像进行高质量脑部提取的有效方法。[1711.05702v2]

 

随机非负矩阵分解

N. Benjamin ErichsonAriana MendibleSophie WihlbornJ. Nathan Kutz

非负矩阵分解(NMF)是数据挖掘的强大工具。然而,大数据的出现严重挑战了我们使用确定性算法计算这种基本分解的能力。本文提出了一种随机分层交替最小二乘(HALS)算法来计算NMF。通过从非负性输入数据中导出更小的矩阵,可以计算更高效的非负性分解。我们的算法扩展到大数据应用程序,同时获得接近最佳的因子分解。所提出的算法使用合成和真实世界的数据进行评估,并且与确定性HALS相比显示出显着的加速。[1711.02037v2]

 

K均值聚类技术可实现多视点点集的高效稳健配准

Zutao Jiang, Jihua Zhu, Georgios D. Evangelidis, Changqing Zhang, Shanmin Pang, Yaochen Li

一般来说,有三个主要因素决定了注册的实际可用性,即准确性,稳健性和效率。在实时应用中,效率和鲁棒性更重要。为了提升这两种能力,我们将多视图注册转换为聚类任务。所有质心均从多视图注册中涉及的初始对齐点集合中均匀采样,这使得聚类非常有效且有效。然后,将每个点分配给单个群集,并相应更新每个群集质心。随后,由所有聚类质心组成的形状被用来顺序估计每个点集的刚性变换。为了准确和稳定,聚类和变换估计交替地和迭代地应用于所有点集。我们在几个基准数据集上测试了我们提出的方法,并将其与最先进的方法进行了比较。实验结果验证了其多视点点集注册的效率和鲁棒性。[1710.05193v4]

 

通过动态图形学习的视觉跟踪

Chenglong Li, Liang Lin, Wangmeng Zuo, Jin Tang, Ming-Hsuan Yang

现有的视觉跟踪方法通常使用边界框来定位目标对象,其中前景对象跟踪器或检测器的性能通常受包含背景杂波的影响。为了解决这个问题,我们学习了基于补丁的图形表示以进行视觉追踪。通过将一组不重叠的图像块作为节点,其中每个节点的权重指示它可能属于前景的可能性,并且加权边缘以指示两个相邻节点的外观兼容性。此图形是动态学习的,可用于对象跟踪和模型更新。在跟踪过程中,所提出的算法在每个帧中执行三个主要步骤。第一,通过分配一些图像块的二进制权重来根据预测的边界框来指示对象和背景块,从而初始化该图。其次,通过使用乘法器的新型交替方向方法来优化该图以改进贴片权重。第三,通过在提取的图像特征上施加贴片的权重来更新对象特征表示。通过最大化结构化支持向量机中的分类分数来预测对象位置。大量实验表明,所提出的跟踪算法在大规模基准数据集上与最先进的方法相媲美。[1710.01444v2] 该图被优化以通过使用乘法器的新型交替方向方法来优化贴片权重。第三,通过在提取的图像特征上施加贴片的权重来更新对象特征表示。通过最大化结构化支持向量机中的分类分数来预测对象位置。大量实验表明,所提出的跟踪算法在大规模基准数据集上与最先进的方法相媲美。[1710.01444v2] 该图被优化以通过使用乘法器的新型交替方向方法来优化贴片权重。第三,通过在提取的图像特征上施加贴片的权重来更新对象特征表示。通过最大化结构化支持向量机中的分类分数来预测对象位置。大量实验表明,所提出的跟踪算法在大规模基准数据集上与最先进的方法相媲美。[1710.01444v2] 大量实验表明,所提出的跟踪算法在大规模基准数据集上与最先进的方法相媲美。[1710.01444v2] 大量实验表明,所提出的跟踪算法在大规模基准数据集上与最先进的方法相媲美。[1710.01444v2]

 

一种用于远程医疗应用的演化计算增强型RS攻击弹性医学图像隐写模型

Romany F. MansourElsaid MDAbdelrahim

计算技术和基于视觉的应用的最新进展产生了一种被称为远程医疗的新实践,该实践需要患者诊断图像或联合信息来推荐甚至执行远程定位的诊断实践。然而,为了确保准确和最佳的远程医疗,需要关于患者的无缝或完美的生物医学信息。相反,通过不安全渠道传输的医疗数据往往容易受到攻击者的操纵或破坏。现有的密码系统本身不足以解决这些问题,因此在本文中已经开发了用于秘密信息隐藏的高度可靠的可逆图像隐写模型。不像传统的小波变换技术,我们结合了离散Ripplet变换(DRT)技术用于消息嵌入到医学封面图像中。另外,为了确保在不安全信道上的无缝通信,已经开发了包含所提议的隐写方案和RSA密码系统的双密码系统模型。所提出的研究工作的关键创新之一是使用自适应遗传算法(AGA)实现最佳像素调整过程(OPAP),该算法丰富了数据隐藏能力以及不可感知性特征。性能评估表明,所提出的隐写模型在高PSNR,嵌入容量,不可感知性等方面优于其他基于小波变换的方法[1709.08362v2] 为了确保在不安全信道上的无缝通信,已经开发了包含所提议的隐写方案和RSA密码系统的双密码系统模型。所提出的研究工作的关键创新之一是使用自适应遗传算法(AGA)实现最佳像素调整过程(OPAP),该算法丰富了数据隐藏能力以及不可感知性特征。性能评估表明,所提出的隐写模型在高PSNR,嵌入容量,不可感知性等方面优于其他基于小波变换的方法[1709.08362v2] 为了确保在不安全信道上的无缝通信,已经开发了包含所提议的隐写方案和RSA密码系统的双密码系统模型。所提出的研究工作的关键创新之一是使用自适应遗传算法(AGA)实现最佳像素调整过程(OPAP),该算法丰富了数据隐藏能力以及不可感知性特征。性能评估表明,所提出的隐写模型在高PSNR,嵌入容量,不可感知性等方面优于其他基于小波变换的方法[1709.08362v2] 所提出的研究工作的关键创新之一是使用自适应遗传算法(AGA)实现最佳像素调整过程(OPAP),该算法丰富了数据隐藏能力以及不可感知性特征。性能评估表明,所提出的隐写模型在高PSNR,嵌入容量,不可感知性等方面优于其他基于小波变换的方法[1709.08362v2] 所提出的研究工作的关键创新之一是使用自适应遗传算法(AGA)实现最佳像素调整过程(OPAP),该算法丰富了数据隐藏能力以及不可感知性特征。性能评估表明,所提出的隐写模型在高PSNR,嵌入容量,不可感知性等方面优于其他基于小波变换的方法[1709.08362v2]

 

DSOD:从头开始学习深度监督物体检测器

Zhiqiang Shen, Zhuang Liu, Jianguo Li, Yu-Gang Jiang, Yurong Chen, Xiangyang Xue

我们提供深度监督物体探测器(DSOD),这是一个可以从头学习物体探测器的框架。最先进的对象反对者在很大程度上依赖于像ImageNet这样的大规模分类数据集预先训练的现成网络,由于丢失函数和分类之间的类别分布上的差异而导致学习偏差和检测任务。对检测任务进行模型微调可以在一定程度上缓解这种偏见,但不会从根本上缓解这种偏见。此外,将预先训练好的模型从分类转移到差异域之间的检测更加困难(例如RGB到深度图像)。解决这两个关键问题的更好的解决方案是从零开始培训物体探测器,这激励了我们提出的DSOD。由于更复杂的损失函数和有限的目标检测训练数据,以前在这方面的努力大都失败了。在DSOD中,我们提供了一套从零开始训练物体检测器的设计原则。其中一个关键发现是,通过密集的分层连接实现的深度监督在学习一个好的探测器方面起着关键作用。结合其他一些原则,我们开发DSOD,遵循单次检测(SSD)框架。对PASCAL VOC 2007,2012MS COCO数据集进行的实验表明,DSOD可以获得比拥有更紧凑型号的最新解决方案更好的结果。例如,在所有三个基准测试中,DSOD都以实时检测速度优于SSD,而SSD只需要一半参数,而较快RCNN仅需要1/10参数。我们的代码和模型可在以下网址获得:https//github.com/szq0214/DSOD[1708.01241v2]

 

迈向准确的无标记人体形态和时间姿态估计

英豪黄,费德里卡BOGO,克里斯托夫LassnerAngjoo金泽,彼得五GehlerIjaz Akhter,迈克尔·

现有的无标记运动捕捉方法通常假定已知背景,静态相机和序列特定的运动先验,这缩小了其应用场景。在这里我们提出了一个全自动的方法,给出多视角视频,估计3D人体运动和身体形状。我们以最近的SMPLify \ cite {bogo2016keep}为基础方法,并以几种方式扩展它。首先,我们将身体适合于在多视图图像中检测到的2D特征。其次,我们使用CNN方法来分割每个图像中的人物,并将3D身体模型拟合到轮廓上以进一步提高准确性。第三,我们在处理由2D姿态估计器有时引入的左侧和右侧交换问题之前利用通用且强健的DCT时间。标准基准的验证表明我们的结果与现有技术水平相当,并且还提供了逼真的3D形状化身。我们还在单眼情况下展示了HumanEva的精确结果以及来自YouTube的具有挑战性的舞蹈序列。[1707.07548v5]

 

AVA:时空本地化原子视觉行为的视频数据集

顾春晖,陈孙大卫·罗斯,卡尔Vondrick卡罗琳Pantofaru,李叶青,Sudheendra Vijayanarasimhan,乔治Toderici,苏珊娜Ricco的,拉胡尔Sukthankar,科黛拉施密德,吉滕德拉·马里克

本文介绍了时空局部原子视觉行为(AVA)的视频数据集。AVA数据集在43015分钟的视频剪辑中密集注释了80个原子视觉动作,其中动作在空间和时间上进行了本地化,从而产生了1.58M的动作标签,每个人经常出现多个标签。我们的数据集的关键特征是:(1)原子视觉行为的定义,而不是复合行为2)对于每个人可能具有多个注释的精确的时空注释3)通过15分钟的视频剪辑对这些原子动作进行详尽的注释4)人们在时间上连续连贯的部分和(5)使用电影来收集各种各样的动作表示。这与现有的时空动作识别数据集不同,它通常为短视频剪辑中的复合动作提供稀疏的注释。我们将公开发布数据集。AVA具有逼真的场景和行动复杂性,揭示了动作识别的内在困难。为了对此进行基准测试,我们提出了一种基于当前最先进方法的动作本地化的新方法,并且在JHMDBUCF101-24类别上表现出更好的性能。虽然在现有数据集上设置了最新的技术水平,但AVA的总体结果很低,为15.6%的mAP,这凸显了开发新视频理解方法的必要性。[1705.08421v4] 我们提出了一种基于当前最先进方法的动作本地化的新方法,并且在JHMDBUCF101-24类别上表现出更好的性能。虽然在现有数据集上设置了最新的技术水平,但AVA的总体结果很低,为15.6%的mAP,这凸显了开发新视频理解方法的必要性。[1705.08421v4] 我们提出了一种基于当前最先进方法的动作本地化的新方法,并且在JHMDBUCF101-24类别上表现出更好的性能。虽然在现有数据集上设置了最新的技术水平,但AVA的总体结果很低,为15.6%的mAP,这凸显了开发新视频理解方法的必要性。[1705.08421v4]

 

从深面模板重建人脸图像

Guangcan Mai, Kai Cao, Pong C. Yuen, Anil K. Jain

最先进的人脸识别系统基于深度(卷积)神经网络。因此,必须确定从深度网络导出的面部模板在多大程度上可以被倒置以获得原始面部图像。在本文中,我们研究了基于模板重构攻击的最先进的人脸识别系统的脆弱性。我们提出了一个邻域去卷积神经网络(\ textit {NbNet})来重建来自其深层模板的人脸图像。在我们的实验中,我们假设没有关于目标主题和深度网络的知识。为了训练\ textit {NbNet}重建模型,我们增加了两个基准人脸数据集(VGG-FaceMulti-PIE)以及使用人脸生成器合成的大量图像。使用类型I(比较重建图像与用于生成深度模板的原始人脸图像)和类型II(比较重建的图像针对同一主题的不同面部图像)来评估所提出的重建。给定从\ textit {NbNets}重建的图像,我们证明为了验证,我们在类型I(类型II)攻击@ FAR0.1 \%时在LFW上实现了95.20%(58.05%)的TAR。此外,从分区\ textit {fa}\ textit {fb})的模板重建的图像的96.58%(92.84%)可以从分区\ textit {fa}FERET颜色识别。我们的研究表明需要在人脸识别系统中保证深度模板。[1703.00832v4] I型(II型)攻击下,在LFW下达到20%(58.05%)@ FAR0.1%。此外,从分区\ textit {fa}\ textit {fb})的模板重建的图像的96.58%(92.84%)可以从分区\ textit {fa}FERET颜色识别。我们的研究表明需要在人脸识别系统中保证深度模板。[1703.00832v4] I型(II型)攻击下,在LFW下达到20%(58.05%)@ FAR0.1%。此外,从分区\ textit {fa}\ textit {fb})的模板重建的图像的96.58%(92.84%)可以从分区\ textit {fa}FERET颜色识别。我们的研究表明需要在人脸识别系统中保证深度模板。[1703.00832v4]

 

SSPP-DAN:人脸识别的深度域适应网络,每人单个样本

Sungeun香,林WoobinJongbin刘某,玄阳S.

使用每人一个样本(SSPP)的真实世界人脸识别是一项具有挑战性的任务。如果画廊图像和探针组的拍摄条件完全不同,则问题会加剧。为了从领域适应的角度来解决这些问题,我们引入了一个SSPP域适配网络(SSPP-DAN)。在所提出的方法中,领域适应,特征提取和分类是使用具有领域对抗训练的深层架构共同执行的。但是,每个班级的一个培训样本的SSPP特征不足以训练深层架构。为了克服这个缺点,我们使用3D人脸模型生成具有不同姿势的合成图像。使用现实的SSPP数据集进行的实验评估表明,深度域适应和图像合成相辅相成,并显着提高准确性。使用所提出的方法对基准数据集进行的实验显示了最新的性能。所有数据集和源代码都可以在我们的在线存储库中找到(https://github.com/csehong/SSPP-DAN)。[1702.04069v4]

 

ILGNet:具有连通的本地和全局特征的初始模块,可使用域适应进行高效的图像美学质量分类

Xin Jin, Le Wu, Xiaodong Li, Xiaokun Zhang, Jingying Chi, Siwei Peng, Shiming Ge, Geng Zhao, Shuying Li

在本文中,我们解决了审美图像分类的挑战性问题,即将输入图像标注为高或低审美质量。我们考虑到图像的局部和全局特征。提出了一种名为ILGNet的深层卷积神经网络,它将Inception模块和LocalGlobal特征的连通层相结合。ILGnet基于GoogLeNet。因此,很容易使用预先训练好的GoogLeNet进行大规模图像分类问题,并在大规模的审美相关图像数据库AVA(即\ emph {domain adaptation})上微调我们的连通图层。实验表明,我们的模型实现了AVA数据库中的艺术状态。我们模型的训练和测试速度都比原来的GoogLeNet更高。[1610.02256v3]

 

移动多视图对象图像搜索

法提赫卡利斯,穆罕默德Bastan,奥茨杰·卢索伊,维吾尔族Güdükbay

移动设备的高用户交互能力有助于提高移动视觉搜索系统的准确性。在查询时,可以使用移动设备相机从不同视角和不同比例捕捉对象的多个视图,以获得与单个视图相比更丰富的关于对象的信息,并因此返回更准确的结果。受此启发,我们开发了一个使用客户端服务器架构的移动多视图对象图像搜索系统。对移动客户端获取的对象的多视图图像进行处理,并将局部特征发送给服务器,服务器将查询图像表示与基于视觉词袋的早/晚融合方法相结合,并发回查询结果。我们使用各种相似函数对现有的单视图和新的多视图对象图像数据库进行了早期和晚期融合方法的综合分析。实验结果表明,与单视图搜索相比,多视图搜索提供显着更好的检索准确性。[1507.08861v2]

转载请注明:《DSOD:从头开始学习深度监督物体检测器+视觉测量技术的演变

发表评论