通过单次探测检测交通信号灯+面部微观表达分析综述:数据集,特征和指标

通过单次探测检测交通信号灯

JulianMüllerKlaus Dietmayer

卷积神经网络(CNN)的成功推动了目标检测方面的最新进展。他们能够学习超越手工功能的丰富功能。到目前为止,在交通灯检测方面的研究主要集中在手工制作的功能上,如交通灯灯泡的颜色,形状或亮度。本文提出了一种深度学习方法,用于采用单次探测(SSD)方法进行准确的红绿灯检测。SSD使用单个CNN执行对象建议创建和分类。原始固态硬盘在检测非常小的物体时遇到困难,这对于检测交通灯至关重要。通过我们的改编,可以在不增加输入图像大小的情况下检测比十个像素小得多的物体。我们对DriveU交通灯数据集(DTLD)进行了广泛的评估。我们达到了两者,高准确率和低误报率。训练有素的模型在Nvidia Titan Xp上可以实现每秒10帧的实时处理能力。[1805.02523v1]

 

基于骨架的动作识别与空间推理和时间堆栈学习

Chenyang Si, Ya Jing, Wei Wang, Liang Wang, Tieniu Tan

基于骨架的动作识别近来取得了很大进展,但许多问题仍未解决。例如,大多数先前的方法对骨架序列的表示进行建模,没有丰富的空间结构信息和详细的时间动态特征。在本文中,我们提出了一种基于空间推理网络(SRN)和时间堆栈学习网络(TSLN)的基于骨架的动作识别的空间推理和时间堆栈学习(SR-TSL)的新模型。SRN可以通过残差图形神经网络捕获每个帧内的高层空间结构信息,而TSLN可以通过多个跳跃片段LSTM的组合构建骨架序列的详细时间动态。在培训期间,我们提出了一个基于剪辑的增量损失来优化模型。我们在SYSU 3D人体对象交互数据集和NTU RGB + D数据集上进行了大量实验,并验证了我们模型的每个网络的有效性。比较结果表明,我们的方法比最先进的方法取得更好的结果。[1805.02335v1]

 

运动场景建模与增强运动动态的长期人体运动预测

Yongyi Tang, Lin Ma, Wei Liu, Weishi Zheng

人体运动预测旨在根据观察到的骨骼序列生成未来的人体运动帧。最近的方法采用循环神经网络(RNN)的最新隐藏状态来编码历史骨架,这只能解决短期预测问题。在这项工作中,我们通过总结与当前预测有关的历史人体运动来提出运动上下文建模。改进的公路单元(MHU)被提出用于有效地消除不动的关节并估计给定运动环境的下一个姿势。此外,我们通过最小化用于长期运动预测的克矩阵损失来增强运动动态。实验结果表明,所提出的模型可以有前途的预测人类未来的运动,相对于相关的最先进的方法,这种运动产生了优越的性能。而且,用活动标签指定运动上下文使我们的模型能够执行人体运动转移。[1805.02513v1]

 

使用局部分类器链的分层匹配器

Lingfeng Zhang, Ioannis A. Kakadiaris

本文着重于在不改变网络架构的情况下改进当前卷积神经网络在视觉识别中的性能。提出了一种分层匹配器,它在所有类别标签上的一个全局神经网络之后构建局部二进制神经网络链,称为基于局部分类器链的卷积神经网络(LCC-CNN)。每个样本的签名分为两部分:基于全球网络的全球组成部分基于本地二进制网络的本地组件。局部网络是基于由相似性矩阵和混淆矩阵创建的标签对构建的。在匹配过程中,每个样本都通过一个全局网络和一个本地网络链来获取其最终匹配以避免错误传播。所提出的匹配器已经通过图像识别进行了评估,字符识别和人脸识别数据集。实验结果表明,与仅使用全局深度网络的方法相比,所提出的匹配器实现了更好的性能。与UR2D系统相比,UHDB31数据集和IJB-A数据集的准确度分别提高了1%和0.17%。[1805.02339v1]

 

微创手术中仪器分割和跟踪方法的比较评价

塞巴斯蒂安Bodenstedt,最大阿伦,安东尼AGUSTINOS,小飞你,路易斯·加西亚,PERAZA埃雷拉,汉纳斯Kenngott,托马斯Kurmann,击败穆勒下,塞巴斯蒂安Ourselin,丹尼尔·帕克霍莫弗,拉斐尔Sznitman,马文跳Teichmann,马丁·托马,汤姆Vercauteren,桑德琳VÖRÖS马丁·瓦格纳,帕梅拉Wochner,莉娜麦尔海恩,Danail黄龙云孙燕姿SPEIDEL

微创手术的术中分割和追踪是计算机和机器人辅助手术的先决条件。由于跟踪系统或机器人编码器等附加硬件繁琐且精度不高,手术视野正在演变为有前途的技术,仅使用内窥镜图像分割和跟踪仪器。但是,到目前为止所缺少的是常见的图像数据集,以便对算法进行一致的评估和基准测试。该论文提出了一个比较验证研究,不同的基于视觉的方法用于仪器分割和跟踪机器人以及传统腹腔镜手术。该论文的贡献是双重的:我们引入了提供给研究参与者的综合验证数据集,并展示了比较验证研究的结果。基于验证研究的结果,我们得出的结论是,现代深度学习方法在仪器分割任务中优于其他方法,但结果仍不完美。此外,我们显示,与最佳独立方法相比,来自不同方法的合并结果实际上显着提高了准确性。另一方面,仪器追踪任务的结果表明,这仍然是一个公开挑战,特别是在传统腹腔镜手术中的挑战性情况下。[1805.02475v1] 我们得出的结论是现代深度学习方法在仪器分割任务中胜过其他方法,但结果仍不完美。此外,我们显示,与最佳独立方法相比,来自不同方法的合并结果实际上显着提高了准确性。另一方面,仪器追踪任务的结果表明,这仍然是一个公开挑战,特别是在传统腹腔镜手术中的挑战性情况下。[1805.02475v1] 我们得出的结论是现代深度学习方法在仪器分割任务中胜过其他方法,但结果仍不完美。此外,我们显示,与最佳独立方法相比,来自不同方法的合并结果实际上显着提高了准确性。另一方面,仪器追踪任务的结果表明,这仍然是一个公开挑战,特别是在传统腹腔镜手术中的挑战性情况下。[1805.02475v1] 仪器跟踪任务的结果表明,这仍然是一个公开挑战,特别是在常规腹腔镜手术的挑战性情况下。[1805.02475v1] 仪器跟踪任务的结果表明,这仍然是一个公开挑战,特别是在常规腹腔镜手术的挑战性情况下。[1805.02475v1]

 

通过双状态递归网络的图像超分辨率

Wei Han, Shiyu Chang, Ding Liu, Mo Yu, Michael Witbrock, Thomas S. Huang

图像超分辨率(SR)方面的进步最近受益于深度神经网络的快速发展。受这些最近发现的启发,我们注意到许多最先进的深度SR架构可以重新配置为具有有限展开的单状态递归神经网络(RNN)。在本文中,我们基于这种紧凑的RNN视图探索了SR的新结构,使我们成为双状态设计双状态回馈网络(DSRN)。与以固定空间分辨率运行的单一国家对应机构相比,DSRN共同利用低分辨率(LR)和高分辨率(HR)信号。经由延迟反馈在两个方向(LRHRHRLR)在这些状态之间交换复发信号。对基准数据集和最近的挑战进行广泛的定量和定性评估表明,所提出的DSRN在内存消耗和预测准确性方面均表现出优异的性能,能够与最先进的算法相媲美。[1805.02704v1]

 

标签炼油厂:通过标签进程改进ImageNet分类

Hessam BagherinezhadMaxwell HortonMohammad RastegariAli Farhadi

在任何监督学习系统的三个主要组成部分(数据,标签和模型)中,数据和模型一直是积极研究的主要课题。然而,研究标签及其属性却很少受到关注。目前的标签原理和范例对机器学习算法提出了几个挑战。标签通常不完整,含糊不清,而且多余。在本文中,我们研究标签的各种属性的影响,并介绍标签精炼:一种迭代过程,在检查整个数据集后更新地面真实标签。我们在各种模型中使用精制标签显示出显着的收益。使用标签炼油厂将(1AlexNet的最先进的前1精度从59.3提高到67.2,(2MobileNet70.673.39,(3MobileNet-0.2550.655.59,(4VGG1972.775.46,(5Darknet1972.974.47[1805.02641v1]

 

通过自适应采样进行人员重新识别的尖锐注意网络

Chen Shen, Guo-Jun Qi, Rongxin Jiang, Zhongming Jin, Hongwei Yong, Yaowu Chen, Xian-Sheng Hua

在本文中,我们通过自适应采样来自卷积神经网络(CNN)的人重新识别(重新识别)问题的特征映射来呈现新颖的尖锐关注网络。由于引入了基于抽样的注意模型,所提出的方法可以自适应地生成更敏锐的注意力特征掩码。这与基于门控的注意机制有很大的不同,后者依赖于软门控功能来为人员重新选择相关功能。相反,所提出的基于抽样的关注机制使我们能够通过强化所产生的特征掩模来关注最具有区别性的特征来有效地修剪不相关的特征。它可以产生更强烈的注意力,这些注意力更加自信地定位与重新识别相机中的人物有关的细微特征。以此目的,采用可微分的Gumbel-Softmax采样器来近似伯努利采样来训练尖锐的关注网络。广泛的实验评估证明了这个新的关于人员重新识别的尖锐关注模型在包括CUHK03Market-1501DukeMMC-reID在内的三个具有挑战性的基准测试中优于其他最先进方法的优势。[1805.02336v1]

 

面部微观表达分析综述:数据集,特征和指标

Walied MerghaniAdrian K. DavisonMoi Hoon Yap

面部微表情是非常短暂的,自发的面部表情,当他们故意或不自觉地隐藏情绪时,会出现在人脸上。微表达式比宏表达式的持续时间更短,这使得它对于人类和机器来说更具挑战性。在过去的十年中,自动微表达式识别已经引起了心理学,计算机科学,安全,神经科学和其他相关学科的研究人员的越来越多的关注。本文的目的是为未来研究提供自动微表达的见解和建议。过去十年间发布了许多数据集,这些数据集促进了该领域的快速发展。然而,由于实验方案的不一致性,在不同数据集之间进行比较是困难的,使用的功能和评估方法。为了解决这些问题,我们回顾了在文献中部署的数据集,功能和性能指标。相关的挑战,例如数据收集过程中的空间时间设置,数据标记中的情感类别与客观类别,数据分析中的面部区域,度量标准化以及实际实施要求等。我们通过提出一些有希望的未来方向来推进微表达研究的结论。[1805.02397v1] 讨论了度量的标准化和实际实现的要求。我们通过提出一些有希望的未来方向来推进微表达研究的结论。[1805.02397v1] 讨论了度量的标准化和实际实现的要求。我们通过提出一些有希望的未来方向来推进微表达研究的结论。[1805.02397v1]

 

通过正则化条件GAN产生不成对的多域图像

Xudong Mao, Qing Li

在本文中,我们研究多域图像生成问题,其目标是生成来自不同域的相应图像对。随着生成模型的近期发展,图像生成取得了很大进展,并已应用于各种计算机视觉任务。然而,由于学习不同区域图像的对应性的困难,特别是当未给出配对样本的信息时,多域图像生成可能无法达到期望的性能。为了解决这个问题,我们提出了Regularized Conditional GANRegCGAN),它能够在没有配对训练数据的情况下学习生成相应的图像。RegCGAN基于条件GAN,并引入两个正规化器来指导模型学习不同领域的相应语义。我们评估所提出的模型在几个没有配对训练数据的任务上,包括边缘和照片的生成,具有不同属性的人脸的生成等。实验结果表明,我们的模型可以成功地为所有这些生成相应的图像任务,同时胜过基准方法。我们还介绍了一种将RegCGAN应用于无监督域自适应的方法。[1805.02456v1] 实验结果表明,我们的模型可以成功地为所有这些任务生成相应的图像,同时胜过基线方法。我们还介绍了一种将RegCGAN应用于无监督域自适应的方法。[1805.02456v1] 实验结果表明,我们的模型可以成功地为所有这些任务生成相应的图像,同时胜过基线方法。我们还介绍了一种将RegCGAN应用于无监督域自适应的方法。[1805.02456v1]

 

空间注意下的深度序数散列

Lu Jin, Xiangbo Shu, Kai Li, Zechao Li, Guo-Jun Qi, Jinhui Tang

由于哈希算法在图像检索中具有很高的计算和存储效率,近年来已经引起越来越多的研究关注。最近的研究已经证明了用深度神经网络学习同时特征表示和散列函数的优越性。然而,大多数现有的深度哈希方法通过编码全局语义信息直接学习哈希函数,而忽略图像的局部空间信息。局部空间结构的损失使得哈希函数的性能瓶颈,因此限制了它在精确相似度检索中的应用。在这项工作中,我们提出了一种新的深度序数散列(DOH)方法,它通过利用来自本地和全局视图的特征空间的排序结构来学习序数表示。尤其是,为有效建立排序结构,我们提出通过全卷积网络(FCN)的局部空间信息和卷积神经网络(CNN)的全局语义信息同时学习等级相关空间。更具体地说,有效的空间关注模型被设计为通过选择性地学习与目标物体紧密相关的指定好的位置来捕捉局部空间信息。在这样的哈希框架中,图像的局部空间和全局语义特性以端到端的排序到哈希方式被捕获。在三个广泛使用的数据集上进行的实验结果表明,所提出的DOH方法明显优于最先进的哈希方法。[1805.02459v1] 我们提出通过利用全卷积网络(FCN)的局部空间信息和卷积神经网络(CNN)的全局语义信息同时学习等级相关空间。更具体地说,有效的空间关注模型被设计为通过选择性地学习与目标物体紧密相关的指定好的位置来捕捉局部空间信息。在这样的哈希框架中,图像的局部空间和全局语义特性以端到端的排序到哈希方式被捕获。在三个广泛使用的数据集上进行的实验结果表明,所提出的DOH方法明显优于最先进的哈希方法。[1805.02459v1] 我们提出通过利用全卷积网络(FCN)的局部空间信息和卷积神经网络(CNN)的全局语义信息同时学习等级相关空间。更具体地说,有效的空间关注模型被设计为通过选择性地学习与目标物体紧密相关的指定好的位置来捕捉局部空间信息。在这样的哈希框架中,图像的局部空间和全局语义特性以端到端的排序到哈希方式被捕获。在三个广泛使用的数据集上进行的实验结果表明,所提出的DOH方法明显优于最先进的哈希方法。[1805.02459v1] 一个有效的空间关注模型被设计为通过选择性地学习与目标对象密切相关的指定好的位置来捕捉局部空间信息。在这样的哈希框架中,图像的局部空间和全局语义特性以端到端的排序到哈希方式被捕获。在三个广泛使用的数据集上进行的实验结果表明,所提出的DOH方法明显优于最先进的哈希方法。[1805.02459v1] 一个有效的空间关注模型被设计为通过选择性地学习与目标对象密切相关的指定好的位置来捕捉局部空间信息。在这样的哈希框架中,图像的局部空间和全局语义特性以端到端的排序到哈希方式被捕获。在三个广泛使用的数据集上进行的实验结果表明,所提出的DOH方法明显优于最先进的哈希方法。[1805.02459v1] 在三个广泛使用的数据集上进行的实验结果表明,所提出的DOH方法明显优于最先进的哈希方法。[1805.02459v1] 在三个广泛使用的数据集上进行的实验结果表明,所提出的DOH方法明显优于最先进的哈希方法。[1805.02459v1]

 

30米分辨率基于Landsat图像和Google Earth Engine的全球年度烧毁区域绘图

Tengfei Long, Zhaoming Zhang, Guojin He, Weili Jiao, Chao Tang, Bingfang Wu, Xiaomei Zhang, Guizhou Wang, Ranyu Yin

迄今为止,全球燃烧区(BA)产品仅在粗空间分辨率下可用,因为大多数当前全球BA产品是在主动火灾探测或密集时间序列变化分析的帮助下生产的,这需要非常高的时间分辨率。然而,在这项研究中,我们专注于基于Landsat图像的自动化全球燃烧区域绘图方法。通过利用巨大的卫星图像目录以及Google Earth Engine的高性能计算能力,我们提出了一套自动化管道,可根据Landsat图像的时间序列生成30米分辨率的全球尺度年度烧毁区域地图, 2015年发布了新颖的30米全球年度燃烧面积地图(GABAM 2015)。GABAM 2015包括2015年发生的空间范围火灾,而不包括前几年发生的火灾。与最近Fire_cci版本5.0 BA产品的交叉比较发现两种产品的燃烧区域之间具有相似的空间分布和强相关性($ R ^ 2 = 0.74 $),尽管在特定的土地覆盖类别中发现差异(特别是在农业土地)。初步全球验证显示GABAM 2015的佣金和遗漏错误率分别为13.17%和30.13%。[1805.02579v1] 初步全球验证显示GABAM 2015的佣金和遗漏错误率分别为13.17%和30.13%。[1805.02579v1] 初步全球验证显示GABAM 2015的佣金和遗漏错误率分别为13.17%和30.13%。[1805.02579v1]

 

基于内容的索引和检索的多通道分布式本地模式

Sonakshi MathurMallika ChaudharyHemant VermaMurari MandalSK VipparthiSubrahmanyam Murala

本文提出了一种新颖的彩色特征描述符Multichannel Distributed Local PatternMDLP)。MDLP结合了邻域中局部二元和局部网格模式的显着特征。由MDLP计算的多距离信息有助于纹理排列的稳健提取。此外,为图像的每个颜色通道提取MDLP特征。在CBIR的三个基准数据集上分别评估MDLP的检索性能,即Corel-5000Corel-10000MIT-Color Vistex。与各种评估参数(如各个数据库上的ARPARR)相比,所提出的技术与其他现有技术特征描述符相比获得实质性改进。[1805.02679v1]

 

突触劈裂在非等向性体电子显微镜的完整果蝇脑

Larissa HeinrichJan Funke,君士坦丁教皇,Juan Nunez-IglesiasStephan Saalfeld

人们越来越认识到单突触分辨率下的神经回路重建对于破译生物神经系统的功能至关重要。已经证明串行传输或扫描模式下的体积电子显微镜提供了分割或追踪所有神经突并标注所有突触连接的必要分辨率。自动注释的突触连接已成功完成近脊椎动物模型生物各向同性电子显微镜。然而,昆虫模型中的非各向同性数据的结果还没有与人类的注释相提并论。我们设计了一种新的3D-U-Net架构,以优化地表示非各向同性数据中的各向同性视场。我们使用CREMI挑战数据集的手动注释突触间隙的带符号距离变换的回归来训练该模型,并观察到对现有技术的显着改进。我们开发了开源软件,用于在非常大的体积数据集上优化并行预测,并应用我们的模型预测完整果蝇大脑的50 tera-voxels数据集中的突触间隙。我们的模型适用于远离训练数据可用的地方。[1805.02718v1] 我们的模型适用于远离训练数据可用的地方。[1805.02718v1] 我们的模型适用于远离训练数据可用的地方。[1805.02718v1]

 

运动连续时间结构的轨迹表示与地标投影

HannesOvrénPer-Erik Forssnn

本文重新讨论了运动中连续时间结构的问题,并引入了一些扩展来提高收敛性和效率。具有用于轨迹的$ \ mathcal {C} ^ 2连续样条的公式自然地将惯性测量结合为寻求轨迹的导数。我们分析了$ \ mathbb {SO}3$$ \ mathbb {R} ^ 3 $上的分割插值行为以及$ \ mathbb {SE}3$上的联合插值,并显示后者隐含地结合了翻译和旋转的方向。这样的假设对于安装在机器人手臂上的照相机可能是有意义的,但对于手持式或车身安装的照相机则不是。我们的实验表明,在所有测试的情况下,$ \ mathbb {SO}3$$ \ mathbb {R} ^ 3 $上的分割插值优于$ \ mathbb {SE}3$插值。最后,

 

基于骨架的行为识别关系建模

Lin Li, Wu Zheng, Zhaoxiang Zhang, Yan Huang, Liang Wang

随着有效和低成本的人体骨骼捕获系统的快速发展,基于骨骼的动作识别近来备受关注。现有的大多数方法都是使用卷积神经网络(CNN)和递归神经网络(RNN)来提取嵌入骨架序列中的时空信息进行动作识别。然而,由于在转换原始骨架数据以适应CNNRNN输入时丢失重要的结构信息,这些方法在单个骨架中的关系建模能力方面受到限制。在本文中,我们提出了一个注意循环关系网络LSTMARRN-LSTM),用于同时为动作识别的骨架中的空间配置和时间动态建模。嵌入在单个骨架中的空间模式通过循环关系网络学习,然后是多层LSTM以提取骨架序列中的时间特征。为了利用骨架中不同几何之间的互补性来进行充分的关系建模,我们设计了一个双流体系结构来学习关节之间的关系,并同时探索行间的底层模式。我们还引入了一个适应性注意模块,用于将焦点放在骨骼的潜在区分部分上,以适应特定的动作。对几种流行的动作识别数据集进行了广泛的实验,结果表明,所提出的方法通过最先进的方法实现了竞争结果。[1805.02556v1] 接着是多层LSTM以提取骨架序列中的时间特征。为了利用骨架中不同几何之间的互补性来进行充分的关系建模,我们设计了一个双流体系结构来学习关节之间的关系,并同时探索行间的底层模式。我们还引入了一个适应性注意模块,用于将焦点放在骨骼的潜在区分部分上,以适应特定的动作。对几种流行的动作识别数据集进行了广泛的实验,结果表明,所提出的方法通过最先进的方法实现了竞争结果。[1805.02556v1] 接着是多层LSTM以提取骨架序列中的时间特征。为了利用骨架中不同几何之间的互补性来进行充分的关系建模,我们设计了一个双流体系结构来学习关节之间的关系,并同时探索行间的底层模式。我们还引入了一个适应性注意模块,用于将焦点放在骨骼的潜在区分部分上,以适应特定的动作。对几种流行的动作识别数据集进行了广泛的实验,结果表明,所提出的方法通过最先进的方法实现了竞争结果。[1805.02556v1] 我们设计了一个双流体系结构来学习关节之间的关系,并同时探索线条之间的底层模式。我们还引入了一个适应性注意模块,用于将焦点放在骨骼的潜在区分部分上,以适应特定的动作。对几种流行的动作识别数据集进行了广泛的实验,结果表明,所提出的方法通过最先进的方法实现了竞争结果。[1805.02556v1] 我们设计了一个双流体系结构来学习关节之间的关系,并同时探索线条之间的底层模式。我们还引入了一个适应性注意模块,用于将焦点放在骨骼的潜在区分部分上,以适应特定的动作。对几种流行的动作识别数据集进行了广泛的实验,结果表明,所提出的方法通过最先进的方法实现了竞争结果。[1805.02556v1] 对几种流行的动作识别数据集进行了广泛的实验,结果表明,所提出的方法通过最先进的方法实现了竞争结果。[1805.02556v1] 对几种流行的动作识别数据集进行了广泛的实验,结果表明,所提出的方法通过最先进的方法实现了竞争结果。[1805.02556v1]

 

具有可证保证的深度神经网络的可达性分析

Wenjie Ruan, Xiaowei Huang, Marta Kwiatkowska

验证深度神经网络(DNN)的正确性具有挑战性。我们研究前馈DNN的通用可达性问题,对于网络的给定输入集合和输出的Lipschitz连续函数,计算函数值的下限和上限。因为网络和函数是Lipschitz连续的,所以在下界和上界之间的所有值都是可达的。我们展示了如何通过实例化可达性问题来获得安全验证问题,输出范围分析问题和鲁棒性度量。我们提出了一种基于自适应嵌套优化的新算法来解决可达性问题。该技术已在一系列DNN上实施和评估,展示了其效率,可扩展性和处理比最先进的验证方法更广泛的网络类别的能力。[1805.02242v1]

 

一个统一的深度网络联合CS-MRI重建和分割

Liyan Sun, Zhiwen Fan, Yue Huang, Xinghao Ding, John Paisley

在大数据时代,快速采集和自动分析MRI数据的需求正在增长。尽管已经研究了压缩感测磁共振成像(CS-MRI)以通过减少k空间测量来加速MRI,但是在当前的CS-MRI技术中,当进行图像重建时,诸如分割的MRI应用被忽略。在本文中,我们测试CS-MRI方法在自动分割模型中的效用,并提出了统一的深度神经网络结构,称为SegNetMRI,我们将其应用于CS-MRI组合重建和分割问题。SegNetMRI建立在具有多个级联块的MRI重建网络上,每个块包含编码器解码器单元和数据保真度单元,以及具有相同编码器解码器结构的MRI分割网络。这两个子网络是预先训练的,并用共享重建编码器进行微调。输出被合并到最终的分割中。我们的实验显示,使用压缩测量时,SegNetMRI可以改善重建和分割性能。[1805.02165v1]

 

采用顺序门控集成网络的多尺度人脸恢复

Jianxin Lin, Tiankuang Zhou, Zhibo Chen

从人脸识别应用中恢复人脸图像的失真是很重要的,并且受到多个尺度问题的挑战,这在研究领域仍然没有得到很好的解决。在本文中,我们提出了一个用于多尺度人脸恢复问题的顺序门控集成网络(SGEN)。我们首先将集成学习原理应用于SGEN架构设计中,以加强网络的预测性能。SGEN将多级基本编码器和基本解码器集成到网络中,使网络能够包含多种比例的接受域。与其将这些base-en / decoders直接与非连续操作相结合,SGEN将来自不同级别的base-en / decoders作为连续数据。特别,SGEN学习以自下而上的方式从基本编码器顺序提取高级信息,并以自上而下的方式从基本解码器恢复低级信息。此外,我们还提出使用顺序门控单元(SGU)实现自下而上和自上而下的信息组合和选择。SGU依次从不同级别接收两路输入,并根据一路有效输入决定输出。实验结果表明,我们的SGEN在多尺度人脸恢复方面更为有效,图像细节更多,噪声更低,比现有技术的图像恢复模型更有效。通过使用对抗训练,SGEN还通过主观评估比其他模型产生更多视觉上优先的结果。[1805.02164v1] 我们建议使用顺序门控单元(SGU)实现自下而上和自上而下的信息组合和选择。SGU依次从不同级别接收两路输入,并根据一路有效输入决定输出。实验结果表明,我们的SGEN在多尺度人脸恢复方面更为有效,图像细节更多,噪声更低,比现有技术的图像恢复模型更有效。通过使用对抗训练,SGEN还通过主观评估比其他模型产生更多视觉上优先的结果。[1805.02164v1] 我们建议使用顺序门控单元(SGU)实现自下而上和自上而下的信息组合和选择。SGU依次从不同级别接收两路输入,并根据一路有效输入决定输出。实验结果表明,我们的SGEN在多尺度人脸恢复方面更为有效,图像细节更多,噪声更低,比现有技术的图像恢复模型更有效。通过使用对抗训练,SGEN还通过主观评估比其他模型产生更多视觉上优先的结果。[1805.02164v1] 实验结果表明,我们的SGEN在多尺度人脸恢复方面更为有效,图像细节更多,噪声更低,比现有技术的图像恢复模型更有效。通过使用对抗训练,SGEN还通过主观评估比其他模型产生更多视觉上优先的结果。[1805.02164v1] 实验结果表明,我们的SGEN在多尺度人脸恢复方面更为有效,图像细节更多,噪声更低,比现有技术的图像恢复模型更有效。通过使用对抗训练,SGEN还通过主观评估比其他模型产生更多视觉上优先的结果。[1805.02164v1]

 

SqueezeJet:深度卷积神经网络的高级综合加速器设计

Panagiotis G. MousouliotisLoukas P. Petrou

深卷积神经网络通过在诸如物体识别和物体检测等计算机视觉问题中提供更准确的解决方案,在模式识别场景中占据主导地位。这些解决方案中的大多数计算成本巨大,需要数十亿次的乘法累加运算,因此,使其在嵌入式移动(资源功耗受限)硬件上运行的实时应用程序中的使用非常具有挑战性。这项工作介绍了SqueezeJet的架构,高级综合设计以及SqueezeJet的实现,SqueezeJet是用于SqueezeNet DCNN架构推断阶段的FPGA加速器,专门用于嵌入式系统。结果显示SqueezeJet可以达到15。与嵌入式移动处理器上运行的SqueezeNet的软件实现相比,速度提高了16倍,精度前5的下降小于1%。[1805.08695v1]

 

通过向量外推加速RED

陶红,Yaniv RomanoMichael Elad

模型在反演问题中起着重要作用,作为表示要恢复原始信号的先验信息。通过去噪(RED)进行重新调整是最近引入的使用最先进的去噪算法来构建这种前景的一般框架。使用RED,解决逆向问题被证明相当于一个迭代的去噪过程。然而,由于去噪算法的复杂性通常较高,这可能导致整体较慢的算法。在本文中,我们建议基于矢量外推(VE)的加速技术来加速现有的RED求解器。数值实验验证了通过VE获得的增益,与原始求解器相比,计算量节省了近70%。[1805.02158v1]

 

基于图像的时尚产品推荐与深度学习

Hessel GardenhofClemens PirkerMarkus Haltmeier

我们开发了一个两阶段深度学习框架,基于其他类似风格的输入图像推荐时尚图像。为此,神经网络分类器被用作数据驱动的视觉感知特征提取器。后者然后作为基于相似性的建议的输入。我们的方法在公开可用的Fashion数据集上进行测试。介绍了使用大型产品数据库中的转换学习的初始化策略。[1805.08694v1]

 

一种基于CNN的相机模型识别的反取证方法

DavidGüeraYu WangLuca BondiPaolo BestaginiStefano TubaroEdward J. Delp

越来越多的数字图像正在通过网站,媒体和社交应用进行共享和访问。这些图像中的许多图像已被修改并且不可信。最近在使用深度卷积神经网络(CNN)方面的进展促进了分析大量分布图像数据集的准确性和真实性的任务。我们在本文中研究识别用于拍摄图像并可能被欺骗的相机型号或类型的问题。由于CNN的线性特性和图像的高维性,神经网络容易受到敌对攻击的攻击。这些例子与正确分类的图像有着不可察觉的不同,但被CNN高度置信地错误分类。在本文中,我们描述了一种能够巧妙地改变图像以改变其估计的相机模型,当它们被任何基于CNN的相机模型检测器分析时的反取证法。我们的方法既可以使用快速梯度符号法(FGSM),也可以使用基于雅可比矩阵的显着图攻击法(JSMA)制作这些对抗图像,并且不需要直接访问CNN。我们的研究结果表明,即使先进的深度学习体系结构经过训练分析图像和获取相机模型信息仍然容易受到我们提出的方法。[1805.02131v1] 我们的研究结果表明,即使先进的深度学习体系结构经过训练分析图像和获取相机模型信息仍然容易受到我们提出的方法。[1805.02131v1] 我们的研究结果表明,即使先进的深度学习体系结构经过训练分析图像和获取相机模型信息仍然容易受到我们提出的方法。[1805.02131v1]

 

DocFace:将ID文件照片与自拍相匹配

石宜春,Anil K. Jain

我们日常生活中的许多活动,包括交易,获得服务和交通,都要求我们通过显示包含面部图像的身份证件(例如护照和驾驶执照)来验证我们是谁。用于将ID文件照片与实时人脸图像实时高精度匹配的自动系统将加速验证过程并消除操作人员的负担。在本文中,我们通过采用转移学习技术,提出了一种新的方法DocFace,它可以在没有大数据集的情况下训练一个用于ID文档照片匹配的领域特定网络。与将现有的一般人脸识别方法应用于这个问题的基线相比,我们的方法取得了相当大的改进。ID-Selfie数据集上的交叉验证显示DocFaceFAR = 0时将TAR61.14%提高到92.77%。1%。实验结果还表明,给定更多的培训数据,可以开发和部署一个可行的自动识别文件照片匹配系统。[1805.02283v1]

 

直方图规范自动PDF生成的区间2型模糊方法

Vishal AgarwalDiwanshu JainA. Vamshi Krishna ReddyFrank Chung-Hoon Rhee

图像增强在计算机视觉和图像处理领域的几个应用中起着重要的作用。直方图规格(HS)是用于图像的对比度增强的最广泛使用的技术之一,其需要用于转换的适当的概率密度函数。在本文中,我们提出了一种基于输入图像直方图获得的模糊隶属度值,使用区间类型2IT2)模糊方法自动找到适合直方图指定的PDF的模糊方法。该算法分5个阶段进行,包括对直方图上的对称高斯拟合,IT2模糊隶属函数(MF)的提取以及因此不确定性的占用(FOU),获得隶属度值(MV),生成PDF以及HS的应用。我们提出了4种不同的方法来找到隶属度值逐点法,加权中心法,面积法和karnik-mendelKM)法。该框架对直方图中的局部变化敏感,并选择最佳的PDF以提高对比度增强。使用图像质量指数平均信息含量(AIC)或熵,通过与常用算法如直方图均衡化(HE),递归均值化算法(Recursive Mean-单独的直方图均衡(RMSHE)和保持模糊直方图均衡的亮度(BPFHE)。已经发现,与通过直方图均衡获得的指数相比,我们的算法平均提高了AIC指数11.5%。[1805.02173v1] 面积法和karnik-mendelKM)法。该框架对直方图中的局部变化敏感,并选择最佳的PDF以提高对比度增强。使用图像质量指数平均信息含量(AIC)或熵,通过与常用算法如直方图均衡化(HE),递归均值化算法(Recursive Mean-单独的直方图均衡(RMSHE)和保持模糊直方图均衡的亮度(BPFHE)。已经发现,与通过直方图均衡获得的指数相比,我们的算法平均提高了AIC指数11.5%。[1805.02173v1] 面积法和karnik-mendelKM)法。该框架对直方图中的局部变化敏感,并选择最佳的PDF以提高对比度增强。使用图像质量指数平均信息含量(AIC)或熵,通过与常用算法如直方图均衡化(HE),递归均值化算法(Recursive Mean-单独的直方图均衡(RMSHE)和保持模糊直方图均衡的亮度(BPFHE)。已经发现,与通过直方图均衡获得的指数相比,我们的算法平均提高了AIC指数11.5%。[1805.02173v1] 该框架对直方图中的局部变化敏感,并选择最佳的PDF以提高对比度增强。使用图像质量指数平均信息含量(AIC)或熵,通过与常用算法如直方图均衡化(HE),递归均值化算法(Recursive Mean-单独的直方图均衡(RMSHE)和保持模糊直方图均衡的亮度(BPFHE)。已经发现,与通过直方图均衡获得的指数相比,我们的算法平均提高了AIC指数11.5%。[1805.02173v1] 该框架对直方图中的局部变化敏感,并选择最佳的PDF以提高对比度增强。使用图像质量指数平均信息含量(AIC)或熵,通过与常用算法如直方图均衡化(HE),递归均值化算法(Recursive Mean-单独的直方图均衡(RMSHE)和保持模糊直方图均衡的亮度(BPFHE)。已经发现,与通过直方图均衡获得的指数相比,我们的算法平均提高了AIC指数11.5%。[1805.02173v1] 使用图像质量指数平均信息含量(AIC)或熵,通过与常用算法如直方图均衡化(HE),递归均值化算法(Recursive Mean-单独的直方图均衡(RMSHE)和保持模糊直方图均衡的亮度(BPFHE)。已经发现,与通过直方图均衡获得的指数相比,我们的算法平均提高了AIC指数11.5%。[1805.02173v1] 使用图像质量指数平均信息含量(AIC)或熵,通过与常用算法如直方图均衡化(HE),递归均值化算法(Recursive Mean-单独的直方图均衡(RMSHE)和保持模糊直方图均衡的亮度(BPFHE)。已经发现,与通过直方图均衡获得的指数相比,我们的算法平均提高了AIC指数11.5%。[1805.02173v1] 已经发现,与通过直方图均衡获得的指数相比,我们的算法平均提高了AIC指数11.5%。[1805.02173v1] 已经发现,与通过直方图均衡获得的指数相比,我们的算法平均提高了AIC指数11.5%。[1805.02173v1]

 

基于航空光场估计的图像去雾方法

Lijun Zhang, Yongbin Gao, Yujin Zhang

本文提出了一种基于空中照明场(ALF)估计的单幅图像雾霾消除方案。传统的基于物理模型的图像除雾方法通常将全球大气光作为常量。然而,恒定光线假设可能不适用于具有大天空区域的图像,这在恢复图像中导致不可接受的亮度失衡和颜色失真。本文将大气光模拟为一个场函数,并提出了一种用于联合估计空气场,透射率和无雾图像的最大先验(MAP)方法。我们还引入了一个有效的雾霾水平之前的有效估计传输。对真实世界图像的评估表明,所提出的方法优于单一图像除雾中的现有方法,特别是当包含大型天空区域时。[1805.02142v1]

 

通过非参数实例级别判别进行无监督特征学习

Zhirong Wu, Yuanjun Xiong, Stella Yu, Dahua Lin

对具有注释类标签的数据进行训练的神经网络分类器还可以捕获类别之间的明显的视觉相似性,而不用指示这样做。我们研究这种观察是否可以扩展到传统的监督学习领域之外:我们可以通过仅仅要求特征区分个体实例来学习一个很好的特征表示,该特征表示能够捕获实例之间的明显相似性,而不是类别之间的相似性?我们将此直觉作为实例级的非参数分类问题,并使用噪声对比估计来解决大量实例类带来的计算挑战。我们的实验结果表明,在无监督学习环境下,我们的方法大大超过了ImageNet分类技术的水平。我们的方法同样引人注目,可以通过更多的培训数据和更好的网络架构持续改进测试性能。通过微调学习功能,我们进一步获得半监督学习和物体检测任务的竞争结果。我们的非参数模型非常紧凑:每幅图像有128个特征,我们的方法仅需要600MB存储一百万张图像,从而实现运行时的快速最近邻域检索。[1805.01978v1] 我们的方法只需要600MB的存储空间,可以在运行时快速找到最近的邻居。[1805.01978v1] 我们的方法只需要600MB的存储空间,可以在运行时快速找到最近的邻居。[1805.01978v1]

 

基于无监督学习的摄像机位置估计

YanTong Wu, Yang Liu

从视频序列中恢复场景的三维结构和摄像机姿态是一项令人兴奋的任务。目前大多数解决方案将其分为两部分,单眼深度恢复和相机姿态估计。单眼深度恢复通常作为独立部分进行研究,并使用更好的深度估计来解决姿势。在大多数情况下,相机姿态仍然由传统的SLAM(同时定位和映射)方法估计。使用无监督方法进行单眼深度恢复和姿态估计已经从[1]的研究中受益,并取得了良好的效果。在本文中,我们改进了[1]的方法。我们重点放在理念和相关理论的改进上,引入更合理的帧间约束,并最终在统一的世界坐标系中将摄像机轨迹与帧间姿态估计进行合成。我们的结果会得到更好的表现。[1805.02020v1]

 

视频中弱监督的视觉乐器演奏动作检测

Jen-Yu Liu, Yi-Hsuan Yang, Shyh-Kang Jeng

乐器演奏是音乐相关视频中最常见的场景之一,它代表了当今最大的在线视频来源之一。为了理解视频中的乐器演奏场景,了解演奏什么乐器,何时演奏以及演奏场景中的演奏动作很重要。尽管已经广泛研究了基于音频的乐器识别,但音乐乐器演奏的视觉方面在文献中仍大部分未得到解决。其中一个主要障碍是难以收集基于训练方法的行动地点的注释数据。为了解决这个问题,我们提出了一个弱监督框架,以查找视频中演奏乐器的时间和地点。我们建议使用两个辅助模型,一个声音模型和一个对象模型,为培训乐器演奏模型提供监督。声音模型提供时间监视,而对象模型提供空间监视。它们可以同时提供时间和空间的监督。结果模型只需分析音乐视频的视觉部分即可推断乐器演奏的时间和地点。我们发现所提出的方法显着提高了定位精度。我们在时间上和空间上评估所提出的方法的结果,在小数据集上(总共5,400帧)我们手动注释。[1805.02031v1] 它们可以同时提供时间和空间的监督。结果模型只需分析音乐视频的视觉部分即可推断乐器演奏的时间和地点。我们发现所提出的方法显着提高了定位精度。我们在时间上和空间上评估所提出的方法的结果,在小数据集上(总共5,400帧)我们手动注释。[1805.02031v1] 它们可以同时提供时间和空间的监督。结果模型只需分析音乐视频的视觉部分即可推断乐器演奏的时间和地点。我们发现所提出的方法显着提高了定位精度。我们在时间上和空间上评估所提出的方法的结果,在小数据集上(总共5,400帧)我们手动注释。[1805.02031v1]

 

RiFCN:全卷积网络中的高分辨率遥感图像语义分割的递归网络

Lichao Mou, Xiao Xiang Zhu

高分辨率遥感图像中的语义分割是一项基础性和具有挑战性的任务。卷积神经网络(CNN),如完全卷积网络(FCN)和SegNet,在许多分割任务中表现出色。这些成功的关键支柱之一就是从卷积图层中的特征中挖掘出有用的信息来生成高分辨率的分割图。例如,FCN非线性地结合从最后的卷积层提取的高级特征SegNet利用一个去卷积网络,该网络只输入最后一个卷积层的粗糙,高级特征图。但是,如何更好地融合多级卷积特征地图用于遥感图像的语义分割尚处于探索阶段。在这项工作中,我们在全卷积网络(RiFCN)中提出了一种称为循环网络的新型双向网络,它是端到端可训练的。它有一个前向流和一个后向流。前者是一种用于特征提取的分类CNN体系结构,它采用输入图像并生成从浅到深的多级卷积特征图而后来,为了实现准确的边界推理和语义分割,在浅层中的边界感知高分辨率特征映射和高水平但低分辨率的特征被递归地嵌入到学习框架中(从深到浅)以产生融合特征表示,不仅可以绘制高级语义信息的整体画面,还可以绘制低级细粒度细节。针对语义分割任务的两种广泛使用的高分辨率遥感数据集ISPRS PotsdamInria航空图像标记数据集的实验结果证明了与其他研究方法相比,所提出方法获得的竞争性能。[1805.02091v1]

 

用于图像合成的快速收敛的条件生成对抗网络

Chengcheng Li, Zi Wang, Hairong Qi

除了生成对抗网络(GAN)的成功之外,条件GAN试图通过调整某些附加信息来更好地指导数据生成过程。受最近AC-GAN的启发,本文提出了一种快速收敛的条件GANFC-GAN)。除了在香草GAN中使用的真实/假分类器之外,我们的鉴别器还有一个先进的辅助分类器,可以将每个真实类与一个额外的类区分开来。类避免了将生成的数据与真实数据混合,这可能会混淆AC-GAN所做的真实数据的分类,并使高级辅助分类器表现为另一个真实/伪分类器。因此,FC-GAN可以加快所有类别的分化过程,从而提高收敛速度。图像合成的实验结果表明,我们的模型在获得更快的收敛速度的同时,在图像质量方面具有竞争力。[1805.01972v1]

 

骨髓细胞检测:一种用于显微图像分析的技术

Haichao Cao, Hong Liu, Enmin Song

在骨髓增生性疾病的检测中,每种类型的骨髓细胞(BMC)中的细胞数量是评估的重要参数。在这项研究中,我们提出了一种新的计数方法,它也包括三个模块,包括本地化,分割和分类。BMC的本地化是通过色彩转换增强的BMC样本图像和逐步平均法(SAM)实现的。在细胞核分割中,将SAMOtsu的方法应用于获得将贴片分割成核和非核的加权阈值。在细胞质分割中,使用弱色转换,改进的区域生长方法和K-Means算法。与BMC连接的细胞将通过标记控制的分水岭算法进行分离。分割后的特征将被提取用于分类。在这项研究中,BMC使用支持向量机,随机森林,人工神经网络,Adaboost和贝叶斯网络分为五类,包括一个异常点,即中性粒细胞分裂粒细胞,嗜中性粒细胞刺激粒细胞,metarubricyte,成熟淋巴细胞和异常值细胞未列出)。我们的实验结果表明SVM的最佳平均识别率为87.49%。[1805.02058v1] 我们的实验结果表明SVM的最佳平均识别率为87.49%。[1805.02058v1] 我们的实验结果表明SVM的最佳平均识别率为87.49%。[1805.02058v1]

 

基于CNN的相机模型归因的可靠性图估计

DavidGüeraSri Kalyan YarlagaddaPaolo Bestagini,朱凤清,Stefano TubaroEdward J. Delp

在过去几年中调查的图像取证问题中,盲目相机模型归因已经引起了极大的关注。这涉及通过仅利用像素信息来检测哪个相机模型已被用于获取图像的问题。解决这个问题对图像完整性评估和真实性验证都有很大的影响。在媒体取证领域使用卷积神经网络(CNN)的最新进展已使相机模型归因方法即使在小图像补丁上也能正常工作。这些改进对于确定伪造本地化也很重要。一些图像的补丁可能没有包含足够的与相机模型相关的信息(例如饱和补丁)。在本文中,我们提出了基于CNN的解决方案来估计给定图像片的相机模型归因可靠性。我们表明,我们可以估计一个可靠性图,指示图像的哪些部分包含可靠的相机轨迹。使用众所周知的数据集进行测试证实,通过使用此信息,可以在单个补丁上将小型斑点相机模型归因精度提高8%以上。[1805.01946v1]

 

MTFH:用于高效交叉模态检索的矩阵三因子分解哈希框架

Xin Liu, Zhikai Hu, Haibin Ling, Yiu-ming Cheung

由于存储成本低,查询速度快,哈希最近引发了跨模式检索方面的巨大革命。大多数现有的交叉模式散列方法在统一的汉明空间中学习统一的散列码,以表示所有多模态数据,并使其直观可比。然而,这种统一的散列码可能会固有地牺牲它们的表示可缩放性,因为来自不同模态的数据可能不具有一一对应关系,并且可能被不同长度的不同散列码更有效地存储。为缓解这一问题,本文提出了一种广义而灵活的跨模态哈希框架,称为矩阵三因子分解哈希(MTFH),它不仅保留了多模态数据点之间的语义相似性,而且可以在各种设置中无缝工作,包括配对或不配对的多模式数据,以及相等或不同的哈希长度编码方案。具体而言,MTFH利用高效的目标函数共同学习具有不同长度设置的灵活模态特定哈希码,同时挖掘两个语义相关矩阵以确保异类数据具有可比性。因此,对于各种具有挑战性的跨模式检索任务而言,派生的散列码在语义上更有意义。在公共基准数据集上评估的大量实验突出了MTFH在各种检索情景下的优越性,并展示了其与艺术级别的非常具有竞争力的表现。[1805.01963v1] MTFH利用高效的目标函数共同学习具有不同长度设置的灵活模态特定哈希码,同时挖掘两个语义相关矩阵以确保异类数据的可比性。因此,对于各种具有挑战性的跨模式检索任务而言,派生的散列码在语义上更有意义。在公共基准数据集上评估的大量实验突出了MTFH在各种检索情景下的优越性,并展示了其与艺术级别的非常具有竞争力的表现。[1805.01963v1] MTFH利用高效的目标函数共同学习具有不同长度设置的灵活模态特定哈希码,同时挖掘两个语义相关矩阵以确保异类数据的可比性。因此,对于各种具有挑战性的跨模式检索任务而言,派生的散列码在语义上更有意义。在公共基准数据集上评估的大量实验突出了MTFH在各种检索情景下的优越性,并展示了其与艺术级别的非常具有竞争力的表现。[1805.01963v1] 派生的哈希码对于各种具有挑战性的跨模式检索任务而言在语义上更有意义。在公共基准数据集上评估的大量实验突出了MTFH在各种检索情景下的优越性,并展示了其与艺术级别的非常具有竞争力的表现。[1805.01963v1] 派生的哈希码对于各种具有挑战性的跨模式检索任务而言在语义上更有意义。在公共基准数据集上评估的大量实验突出了MTFH在各种检索情景下的优越性,并展示了其与艺术级别的非常具有竞争力的表现。[1805.01963v1]

 

学习在黑暗中看到

Chen Chen, Qifeng Chen, Jia Xu, Vladlen Koltun

由于低光子数和低信噪比,在低光下成像具有挑战性。短时间曝光的图像会受到噪音的影响,而长时间曝光会导致模糊,而且通常不切实际。已经提出了各种去噪,去模糊和增强技术,但是它们的有效性在极端条件下是有限的,例如晚上的视频速率成像。为了支持低光图像处理的基于学习的流水线的开发,我们引入了原始短曝光低光图像的数据集以及相应的长曝光参考图像。使用所提供的数据集,我们开发了一个基于完全卷积网络端到端训练的低光图像处理流水线。网络直接依靠原始传感器数据进行操作,并取代了传统的图像处理流水线,这些数据往往表现不佳。我们对新数据集报告有前途的结果,分析影响性能的因素,并强调未来工作的机会。结果显示在https://youtu.be/qWKUFK7MWvg [1805.01934v1]的补充视频中

 

用于宏观和微观面部表情识别的先进局部运动模式

B. AllaertIMBilascoC. Djeraba

在本文中,我们开发了一种基于创新局部运动模式特征识别面部表情的新方法,其中有三个主要贡献。第一个是对表情期间脸部皮肤时间弹性和脸部变形的分析。第二个是宏观和微观表达识别的统一方法。第三个是向野外表情识别迈出的一步,应对各种强度和各种表情激活模式,光照变化和小头部姿势变化等挑战。我们的方法优于最先进的微表达识别方法,并将其定位于一流的宏观表达识别方法。[1805.01951v1]

 

SdcNet:用于物体识别的计算高效的CNN

Yunlong Ma, Chunyan Wang

从大量数据中提取特征用于对象识别是一项具有挑战性的任务。卷积神经网络可以用来迎接挑战,但它往往需要大量的计算资源。本文提出了一种计算效率高的卷积模块SdcBlock,并在此基础上引入卷积网络SdcNet进行物体识别任务。在所提出的模块中,通过适当的数据管理支持的优化的连续深度卷积被应用以生成包含高密度和更多种特征信息的向量。超参数可以很容易地进行调整,以适应不同计算限制下的各种任务,而不会显着影响性能。实验表明,SdcNet实现了5的错误率。在CIFAR-10中仅为55%,并且使用适量的103M触发器将差错率进一步降低至5.24%。SdcNet的预期计算效率已得到确认。[1805.01317v2]

 

使用深立体视觉进行快速视图合成

Tewodros HabtegebrialKiran VaranasiChristian BailerDidier Stricker

新颖的视图合成是计算机视觉和图形中的一个重要问题。多年来提出了大量解决方案来解决这个问题。然而,大基线新颖的视图合成问题远未被解决。最近的作品尝试使用卷积神经网络(CNN)来解决视图合成任务。由于学习场景几何和解释摄像机运动的困难,CNN往往无法产生逼真的新颖视图。在本文中,我们提出了一种基于立体视觉和CNN的新颖视图合成方法,它将问题分解为两个子任务:视图依赖几何估计和纹理修复。这两个任务都是结构化预测问题,可以有效地与CNN学习。KITTI Odometry数据集上的实验表明,我们的方法比当前的最新技术更精确,速度更快。代码和补充材料将公开发布。结果可以在这里找到https://youtu.be/5pzS9jc-5t0 [1804.09690v2]

 

ECO:用于在线视频理解的高效卷积网络

Mohammadreza ZolfaghariKamaljeet SinghThomas Brox

视频理解技术的最新进展存在两个问题:(1)推理的主要部分是在视频中本地执行的,因此,它忽略了跨越几秒钟的动作中的重要关系。(2)尽管本地方法具有快速的每帧处理,但整个视频的处理效率并不高,并且妨碍了快速视频检索或长期活动的在线分类。在本文中,我们介绍一种考虑长期内容的网络体系结构,并可同时实现快速的每个视频处理。该体系结构基于将网络中已有的长期内容进行合并而不是进行事后融合。与采用相邻帧的采样策略一起,这在很大程度上是多余的,这可以产生高质量的动作分类和视频字幕,每秒可处理多达230个视频,每个视频可以由几百帧组成。该方法实现了所有数据集的竞争性表现,而速度比现有技术快10倍至80倍。[1804.09066v2]

 

基于VH-HFCN的全景环绕视图中的停车位和车道标记分段

Yan Wu, Tao Yang, Junqiao Zhao, Linting Guan, Wei Jiang

自动停车正在由汽车制造商和供应商大规模开发。到目前为止,自动泊车有两个问题。首先,在全景环绕视图(PSV)数据集上没有可公开使用的停车位的分段标签。其次,如何稳健地检测停车位和道路结构。因此,在本文中,我们构建了一个公共PSV数据集。同时,我们基于PSV数据集提出了一种基于高融合卷积网络(HFCN)的停车位和车道标线分割方法。环视图像由四个鱼眼相机拍摄的四个校准图像组成。我们为此任务收集并标记了4,200多幅环视图像,其中包含不同类型停车位的各种照明场景。提出了VH-HFCN网络,它采用HFCN作为基础,具有更高效的VH级,可更好地分割各种标记。VH级包含两个独立的线性卷积路径,分别具有垂直和水平卷积核。这种修改使网络能够稳健并精确地提取线性特征。我们在PSV数据集上评估了我们的模型,结果显示在地面标记分割中表现出色。基于分段标记,通过骨架化,霍夫线变换和线排列来获得停车位和车道。[1804.07027v2] 这种修改使网络能够稳健并精确地提取线性特征。我们在PSV数据集上评估了我们的模型,结果显示在地面标记分割中表现出色。基于分段标记,通过骨架化,霍夫线变换和线排列来获得停车位和车道。[1804.07027v2] 这种修改使网络能够稳健并精确地提取线性特征。我们在PSV数据集上评估了我们的模型,结果显示在地面标记分割中表现出色。基于分段标记,通过骨架化,霍夫线变换和线排列来获得停车位和车道。[1804.07027v2]

 

用于无监督单目深度估计的双重CNN模型

Vamshi Krishna RepalaShiv Ram Dubey

已经取得了很多进展来解决立体视觉中的深度估计问题。虽然通过利用监督深度学习的深度估计来观察到非常令人满意的表现。这种方法需要大量的地面实况训练数据以及深度图,这些图非常费力地准备,并且很多时候在实际情况下不可用。因此,无监督深度估计是利用双目立体图像摆脱深度图地面真实的最新趋势。在无监督深度计算中,通过基于极线几何约束以图像重构损失对CNN进行训练来生成视差图像。需要解决使用CNN的有效方法以及调查该问题的更好的损失。在本文中,基于双重CNN的模型被提出用于具有单独CNN6个损失(DNM6)的无监督深度估计以用于每个视图以生成对应的视差图。所提出的双CNN模型也通过利用交叉差异扩大了12个损失(DNM12)。所提出的DNM6DNM12模型在KITTI驾驶和Cityscapes城市数据库上进行了试验,并与最近最先进的无监督深度估计结果进行了比较。[1804.06324v2] 所提出的DNM6DNM12模型在KITTI驾驶和Cityscapes城市数据库上进行了试验,并与最近最先进的无监督深度估计结果进行了比较。[1804.06324v2] 所提出的DNM6DNM12模型在KITTI驾驶和Cityscapes城市数据库上进行了试验,并与最近最先进的无监督深度估计结果进行了比较。[1804.06324v2]

 

基于条件递归对话网络的谈话人脸生成

Yang Song, Jingwen Zhu, Xiaolong Wang, Hairong Qi

鉴于任意人脸图像和任意语音剪辑,所提出的工作尝试生成具有准确唇部同步的讲话人脸视频,同时保持唇部和面部移动在整个视频剪辑上的平滑过渡。现有作品要么不考虑对不同视频帧中的脸部图像的时间依赖性,从而容易产生明显/突然的面部和唇部运动,或者仅限于针对特定人员的谈话面部视频的产生,因此缺乏泛化能力。我们提出了一种新的条件视频生成网络,其中音频输入被视为经常性对抗网络的条件,使得时间依赖性被结合以实现唇部和面部运动的平滑过渡。此外,我们在视频生成的环境中部署了多任务对抗训练方案,以改善照片真实感和嘴唇同步的准确性。最后,根据从音频剪辑中提取的音素发布信息,我们开发了一种样本选择方法,可以在不牺牲生成视频质量的情况下有效缩小训练数据集的大小。与最先进的技术相比,在控制和非控制数据集上进行的大量实验证明了所提出的方法在视觉质量,唇部同步精度以及唇部和面部运动的平滑过渡方面的优越性。[1804.04786v2] 基于从音频剪辑中提取的音素分布信息,我们开发了一种样本选择方法,可以在不牺牲生成视频质量的情况下有效缩小训练数据集的大小。与最先进的技术相比,在控制和非控制数据集上进行的大量实验证明了所提出的方法在视觉质量,唇部同步精度以及唇部和面部运动的平滑过渡方面的优越性。[1804.04786v2] 基于从音频剪辑中提取的音素分布信息,我们开发了一种样本选择方法,可以在不牺牲生成视频质量的情况下有效缩小训练数据集的大小。与最先进的技术相比,在控制和非控制数据集上进行的大量实验证明了所提出的方法在视觉质量,唇部同步精度以及唇部和面部运动的平滑过渡方面的优越性。[1804.04786v2] 与现有技术相比,嘴唇和面部运动的平滑过渡。[1804.04786v2] 与现有技术相比,嘴唇和面部运动的平滑过渡。[1804.04786v2]

 

使用滤波放大器网络检测小而密集的分布式对象和损失增强

陈振华,David CrandallRobert Templeman

检测小的,密集分布的对象是一个重大挑战:与较大的对象相比,小对象通常包含较少的独特信息,并且需要更精细的边界框边界。在本文中,我们提出了解决这个问题的两种技术。首先,我们通过提出一种称为滤波放大器网络(FAN)的新架构来估计每个像素属于对象边界的可能性,而不是预测边界框的坐标(如YOLOFaster-RCNNSSD)。其次,我们介绍一种称为损失增强(Loss BoostingLB)的技术,试图减轻每幅图像上的损失不平衡问题。我们测试我们的算法,检测在新的,现实的,不同的印刷电路板(PCB)数据集上检测电子元件的问题,以及在航空影像中的车辆检测(VEDAI)数据集中检测车辆的问题。实验表明,我们的方法在准确性,召回率和平均IoU方面比当前最先进的算法工作得更好。[1802.07845v2]

 

从单一图像去除雨滴的注意生成对抗网络

Rui Qian, Robby T. Tan, Wenhan Yang, Jiajun Su, Jiaying Liu

粘在玻璃窗口或相机镜头上的雨滴会严重妨碍背景场景的可见度并显着降低图像质量。在本文中,我们通过视觉上去除雨滴来解决问题,从而将雨滴降解图像转化为干净的图像。这个问题是棘手的,因为首先没有给出由雨滴遮挡的区域。其次,关于遮挡区域的背景场景的信息大部分完全丢失。为了解决这个问题,我们使用敌对培训来应用一个专注的生成网络。我们的主要想法是将注意力注入生成网络和区分网络。在训练过程中,我们的视觉注意力了解雨滴区域及其周围环境。因此,通过注入这些信息,生成网络将更加关注雨滴区域和周围结构,并且判别网络将能够评估恢复区域的局部一致性。这种将视觉注意力引入生成网络和辨别网络是本文的主要贡献。我们的实验显示了我们的方法的有效性,它在数量和质量上均优于现有技术方法。[1711.10098v4] 这在数量和质量上都优于现有技术方法。[1711.10098v4] 这在数量和质量上都优于现有技术方法。[1711.10098v4]

 

用于视频分类的外观和关系网络

Limin Wang, Wei Li, Wen Li, Luc Van Gool

视频中的时空特征学习是计算机视觉中的一个基本问题。本文提出了一种称为外观和关系网络(ARTNet)的新架构,以端到端的方式学习视频表示。ARTNets通过堆叠多个通用构建块(称为SMART)构建,其目标是以独立和明确的方式同时模拟RGB输入的外观和关系。具体而言,SMART块将时空学习模块解耦为用于空间建模的外观分支和用于时间建模的关系分支。外观分支是基于每帧中像素或滤波器响应的线性组合来实现的,而关系分支是基于像素之间的乘性交互或跨多帧的滤波器响应来设计的。我们在三个动作识别基准上进行实验:动力学,UCF101HMDB51,这表明SMART模块在时空特征学习方面获得了明显的改进,超越了三维卷积。在相同的培训环境下,ARTNets在这三个数据集上实现了现有最先进方法的卓越性能。[1711.09125v2]

 

利用深核化相关滤波器在航空高光谱影像中进行跟踪

Burak UzkentAneesh RangnekarMatthew J. Hoffman

高光谱成像具有巨大的潜力,可以改善空间飞行器跟踪的最新技术,并且具有较低的空间和时间分辨率。最近,自适应多模式高光谱传感器由于能够快速记录来自高空平台的扩展数据而引起了越来越多的兴趣。在这项研究中,我们将传统目标跟踪的流行概念,即(1)核化相关滤波器(KCF)和(2)深度卷积神经网络(CNN)特征应用于高光谱域中的航空跟踪。我们提出基于深超高光谱核化相关滤波器的跟踪器(DeepHKCF),以使用自适应多模式高光谱传感器来高效跟踪飞行器。我们通过设计单个KCF-in-multiple区域利益(ROIs)方法来解决低时间分辨率问题,以覆盖相当大的区域。为了提高从多个ROI中提取深度卷积特征的速度,我们设计了一个有效的ROI映射策略。所提出的跟踪器还提供了与更先进的相关滤波器跟踪器耦合的灵活性。DeepHKCF跟踪器在数字成像和遥感图像生成(DIRSIG)软件生成的合成高光谱视频中具有深层特征,表现出色。此外,我们使用DIRSIG生成大型合成单通道数据集,以在广域运动影像(WAMI)平台中执行车辆分类。这条路,证明了DIRSIG软件的高保真度,并且发布了大型航空器分类数据集,以支持WAMI平台中的车辆检测和跟踪研究。[1711.07235v3]

 

使用增强型卷积和递归神经网络监测手术视频中的工具使用情况

Hassan Al HajjMathieu LamardPierre-Henri ConzeBéatriceCochenerGwenoléQuellec

本文调查了手术过程中工具使用的自动监测,并在报告生成,手术培训和实时决策支持方面有潜在的应用。考虑两种手术:最常见的手术过程中的白内障手术和最常见的消化手术之一的胆囊切除术。通过显微镜(白内障手术)或内窥镜(胆囊切除术)记录的视频中监测工具使用情况。按照最先进的视频分析解决方案,视频的每一帧都通过卷积神经网络(CNN)进行分析,卷积神经网络的输出被馈送到递归神经网络(RNN),以考虑事件之间的时间关系。新奇在于那些CNNRNN的训练方式。计算复杂性阻碍了“CNN + RNN”的端到端培训 系统。因此,CNN通常首先受训,独立于RNN。这种方法对于手术工具分析来说显然不是最理想的:许多工具彼此非常相似,但通常可以根据过去的事件进行区分。CNN应该接受培训,结合时间背景提取最有用的视觉特征。为实现这一目标,提出了一种新的增强策略:通过逐步增加弱分类器(CNNRNN)来增强系统的CNNRNN部分,以提高整体分类精度。实验在50个白内障手术视频和80个胆囊切除视频的数据集中进行。在这两个数据集中都可以获得非常好的分类性能:在离线模式下(使用过去,现在和未来信息),$ A_z = 0.9957 $$ A_z分别在$ A_z = 0.9961 $$ A_z = 0.9939 $ROC曲线下标记刀具使用情况= 0.9936 $,分别在线模式(仅使用过去和现在的信息)。[1710.01559v2]

 

用于多向场景文本检测的融合文本分割网络

Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, Weidong Qiu

在本文中,我们从实例感知语义分割的角度介绍了一种用于多导向场景文本检测的新型端到端框架。我们提出融合文本分割网络,它结合了特征提取过程中的多级特征,因为与一般对象相比,文本实例可能依赖更精细的特征表达。它同时检测和分割文本实例,利用语义分割任务和基于区域提议的对象检测任务的优点。不涉及任何额外的流水线,我们的方法超越了目前最先进的多重场景文本检测基准:ICDAR2015附加场景文本和MSRA-TD500分别达到Hmean 84.1%和82.0%。Morever,我们报告了包含曲线文本的总文本的基线,这表明所提议方法的有效性。[1709.03272v4]

 

用于动态场景去模糊的深度多尺度卷积神经网络

Seungjun WellTae Hyun KimKyoung Mu Lee

对于一般动态场景的非均匀盲去模是一个具有挑战性的计算机视觉问题,因为模糊不仅来自多个对象运动,而且来自相机抖动,场景深度变化。为了去除这些复杂的运动模糊,基于常规能量优化的方法依赖于简单的假设,使得模糊核心部分均匀或局部线性。此外,最近的基于机器学习的方法也依赖于在这些假设下生成的合成模糊数据集。这使得传统的去模糊方法无法消除模糊内核难以近似或参数化(例如对象运动边界)的模糊。在这项工作中,我们提出了一种多尺度卷积神经网络,可以以各种来源造成模糊的端对端方式恢复清晰的图像。一起,我们提出了模拟传统的粗精方法的多尺度损失函数。此外,我们提出了一个新的大规模数据集,它提供了由高速摄像机获得的实际模糊图像和相应的基本真实清晰图像对。通过对这个数据集进行训练的模型,我们凭经验证明,我们的方法不仅在定性上,而且在数量上实现了动态场景去模糊的最新性能。[1612.02177v2] 我们凭经验证明,我们的方法不仅在定性上而且在数量上实现了动态场景去模糊的最新性能。[1612.02177v2] 我们凭经验证明,我们的方法不仅在定性上而且在数量上实现了动态场景去模糊的最新性能。[1612.02177v2]

转载请注明:《通过单次探测检测交通信号灯+面部微观表达分析综述:数据集,特征和指标

发表评论