用于高效行人检测的融合深度神经网络+基于深度学习的多光谱遥感图像语义分割算法

可学习的PIN:用于个人身份的跨模态嵌入

Arsha NagraniSamuel AlbanieAndrew Zisserman

我们提出并调查一个身份敏感的脸部和声音联合嵌入。这样的嵌入使得能够从语音到面部以及从面部到语音的跨模态检索。我们做了以下四点贡献:首先,我们展示了可以从谈话人脸的视频中学习嵌入,而不需要任何身份标签,使用跨模式自我监督的形式其次,我们制定了针对这项任务的硬性负面挖掘的课程学习时间表,这对学习顺利进行至关重要第三,我们展示和评估跨模态检索在许多场景的训练期间看不见和未听到的身份,并为此新任务建立基准最后,我们展示了使用联合嵌入来自动检索和标记电视剧中的角色的应用。[1805

 

SaaS:作为半监督学习的主管加快速度

Safa CicekAlhussein FawziStefano Soatto

我们介绍用于半监督学习的SaaS算法,该算法使用深度神经网络中的随机梯度下降期间的学习速度来测量未知标签的后验概率的迭代估计的质量。监督学习中的训练速度与正确标签的百分比强相关,所以我们将其用作未知标签的推理标准,而不是首先尝试推断模型参数。尽管它很简单,但SaaS在半监督式学习基准中取得了最先进的成果。[1805.00980v1]

 

卷积序列人体动力学序列模型

Chen Li, Zhen Zhang, Wee Sun Lee, Gim Hee Lee

人体运动建模是计算机视觉和图形中的经典问题。人体运动建模的挑战包括高维预测以及极其复杂的动力学。我们提出了一种基于卷积神经网络(CNN)的人体运动建模新方法。CNN的层次结构使其能够有效地捕获空间和时间相关性。在我们提出的方法中,使用卷积长期编码器将整个给定的运动序列编码成长期隐藏变量,其与解码器一起用于预测序列的剩余部分。解码器本身也具有编码器解码器结构,其中短期编码器将短序列编码为短期隐藏变量,并且空间解码器将长期和短期隐藏变量映射到运动预测。通过使用这样的模型,我们能够捕获人体运动的不变信息和动态信息,从而得到更准确的预测结果。实验表明,我们的算法优于Human3.6MCMU Motion Capture数据集上的最新方法。我们的代码可在项目网站上找到。[1805.00655v1]

 

用于高效行人检测的融合深度神经网络

杜先志,Mostafa El-KhamyVlad I. MorariuJungwon LeeLarry Davis

在本文中,我们提出了一个高效的行人检测系统,由多个深度神经网络(DNN)系统融合设计。首先通过单次卷积多盒探测器在具有不同比例和纵横比的不同位置生成行人候选者。候选发电机的设计目的是以大量误报为代价提供大部分地面真实行人注释。然后,采用集成学习思想的分类系统来提高检测的准确性。分类系统根据多个深度验证网络和融合网络的意见对生成的候选进一步进行分类,融合网络采用新型软排斥融合方法调整检测结果的置信度。为了改善深度验证网络的训练,设计了一种新的软标签方法来为生成的行人候选者分配浮点标签。深层上下文聚合语义分割网络还提供场景的像素级分类,并且其结果与单次探测器的检测结果软融合。我们的行人探测器与所有流行的行人探测数据集的最先进方法相比毫不逊色。例如,我们的融合DNNCaltech Pedestrian数据集上的检测精度比以往任何一种先进的方法都要好,同时也是最快的。我们将加州理工行人数据集的对数平均失误率显着提高至7.67%,并实现了最新的最新技术。[1805.08688v1] 设计了一种新的软标签方法来为生成的行人候选者分配浮点标签。深层上下文聚合语义分割网络还提供场景的像素级分类,并且其结果与单次探测器的检测结果软融合。我们的行人探测器与所有流行的行人探测数据集的最先进方法相比毫不逊色。例如,我们的融合DNNCaltech Pedestrian数据集上的检测精度比以往任何一种先进的方法都要好,同时也是最快的。我们将加州理工行人数据集的对数平均失误率显着提高至7.67%,并实现了最新的最新技术。[1805.08688v1] 设计了一种新的软标签方法来为生成的行人候选者分配浮点标签。深层上下文聚合语义分割网络还提供场景的像素级分类,并且其结果与单次探测器的检测结果软融合。我们的行人探测器与所有流行的行人探测数据集的最先进方法相比毫不逊色。例如,我们的融合DNNCaltech Pedestrian数据集上的检测精度比以往任何一种先进的方法都要好,同时也是最快的。我们将加州理工行人数据集的对数平均失误率显着提高至7.67%,并实现了最新的最新技术。[1805.08688v1] 深层上下文聚合语义分割网络还提供场景的像素级分类,并且其结果与单次探测器的检测结果软融合。我们的行人探测器与所有流行的行人探测数据集的最先进方法相比毫不逊色。例如,我们的融合DNNCaltech Pedestrian数据集上的检测精度比以往任何一种先进的方法都要好,同时也是最快的。我们将加州理工行人数据集的对数平均失误率显着提高至7.67%,并实现了最新的最新技术。[1805.08688v1] 深层上下文聚合语义分割网络还提供场景的像素级分类,并且其结果与单次探测器的检测结果软融合。我们的行人探测器与所有流行的行人探测数据集的最先进方法相比毫不逊色。例如,我们的融合DNNCaltech Pedestrian数据集上的检测精度比以往任何一种先进的方法都要好,同时也是最快的。我们将加州理工行人数据集的对数平均失误率显着提高至7.67%,并实现了最新的最新技术。[1805.08688v1] 我们的行人探测器与所有流行的行人探测数据集的最先进方法相比毫不逊色。例如,我们的融合DNNCaltech Pedestrian数据集上的检测精度比以往任何一种先进的方法都要好,同时也是最快的。我们将加州理工行人数据集的对数平均失误率显着提高至7.67%,并实现了最新的最新技术。[1805.08688v1] 我们的行人探测器与所有流行的行人探测数据集的最先进方法相比毫不逊色。例如,我们的融合DNNCaltech Pedestrian数据集上的检测精度比以往任何一种先进的方法都要好,同时也是最快的。我们将加州理工行人数据集的对数平均失误率显着提高至7.67%,并实现了最新的最新技术。[1805.08688v1]

 

多任务和多模式学习的联合手术手势和任务分类

Duygu SarikayaKhurshid A. GuruJason J. Corso

我们提出了一种新的多模式和多任务架构,用于机器人辅助手术(RAS)视频中的同时低级手势和手术任务分类。我们的端到端架构基于长期短期记忆网络(LSTM)共同学习视觉和运动特征的丰富表示的时间动态,同时分类低级手势和手术任务的活动。我们的实验结果表明,与分别在视觉线索和运动线索上分别对手势和手术任务进行分类的架构相比,我们的方法更为优越。我们在1200个手势视频片段的固定随机集上训练我们的模型,并使用其余的422进行测试。这导致大约42,000个手势帧被抽样用于训练,14,500个用于测试。对于6次分割实验,尽管传统方法的平均精确度(AP)仅为29%(29.13%),但我们的架构对于3个任务和14个可能的手势标签达到51%(50.83%)的AP,导致提高22%(21.7%)。我们的体系结构在丰富的视觉和运动特征表示上学习时间动态,这些特征相互补充,用于分类低级手势和手术任务。其多任务学习性质利用学习的联合关系以及共享和任务特定表示的组合。虽然基准研究关注于识别在特定任务下发生的手势,但我们专注于识别在不同任务和设置中重复出现的常见手势,并且与传统体系结构相比显着提高性能。[1805.00721v1] 而传统方法的平均精确度(AP)仅为29%(29.13%),我们的架构在3个任务和14个可能的手势标签上达到51%(50.83%)的AP,结果提高了22%(21.7 %)。我们的体系结构在丰富的视觉和运动特征表示上学习时间动态,这些特征相互补充,用于分类低级手势和手术任务。其多任务学习性质利用学习的联合关系以及共享和任务特定表示的组合。虽然基准研究关注于识别在特定任务下发生的手势,但我们专注于识别在不同任务和设置中重复出现的常见手势,并且与传统体系结构相比显着提高性能。[1805.00721v1] 而传统方法的平均精确度(AP)仅为29%(29.13%),我们的架构在3个任务和14个可能的手势标签上达到51%(50.83%)的AP,结果提高了22%(21.7 %)。我们的体系结构在丰富的视觉和运动特征表示上学习时间动态,这些特征相互补充,用于分类低级手势和手术任务。其多任务学习性质利用学习的联合关系以及共享和任务特定表示的组合。虽然基准研究关注于识别在特定任务下发生的手势,但我们专注于识别在不同任务和设置中重复出现的常见手势,并且与传统体系结构相比显着提高性能。[1805.00721v1] 83%)3个任务和14个可能的手势标签,导致改善22%(21.7%)。我们的体系结构在丰富的视觉和运动特征表示上学习时间动态,这些特征相互补充,用于分类低级手势和手术任务。其多任务学习性质利用学习的联合关系以及共享和任务特定表示的组合。虽然基准研究关注于识别在特定任务下发生的手势,但我们专注于识别在不同任务和设置中重复出现的常见手势,并且与传统体系结构相比显着提高性能。[1805.00721v1] 83%)3个任务和14个可能的手势标签,导致改善22%(21.7%)。我们的体系结构在丰富的视觉和运动特征表示上学习时间动态,这些特征相互补充,用于分类低级手势和手术任务。其多任务学习性质利用学习的联合关系以及共享和任务特定表示的组合。虽然基准研究关注于识别在特定任务下发生的手势,但我们专注于识别在不同任务和设置中重复出现的常见手势,并且与传统体系结构相比显着提高性能。[1805.00721v1] 我们的体系结构在丰富的视觉和运动特征表示上学习时间动态,这些特征相互补充,用于分类低级手势和手术任务。其多任务学习性质利用学习的联合关系以及共享和任务特定表示的组合。虽然基准研究关注于识别在特定任务下发生的手势,但我们专注于识别在不同任务和设置中重复出现的常见手势,并且与传统体系结构相比显着提高性能。[1805.00721v1] 我们的体系结构在丰富的视觉和运动特征表示上学习时间动态,这些特征相互补充,用于分类低级手势和手术任务。其多任务学习性质利用学习的联合关系以及共享和任务特定表示的组合。虽然基准研究关注于识别在特定任务下发生的手势,但我们专注于识别在不同任务和设置中重复出现的常见手势,并且与传统体系结构相比显着提高性能。[1805.00721v1] 虽然基准研究关注于识别在特定任务下发生的手势,但我们专注于识别在不同任务和设置中重复出现的常见手势,并且与传统体系结构相比显着提高性能。[1805.00721v1] 虽然基准研究关注于识别在特定任务下发生的手势,但我们专注于识别在不同任务和设置中重复出现的常见手势,并且与传统体系结构相比显着提高性能。[1805.00721v1]

 

改变的指纹:检测和本地化

Elham TabassiTarang ChughDebayan DebAnil K. Jain

指纹变更(也称为模糊呈现攻击)是有意篡改或破坏真实的摩擦脊图案以避免AFIS识别。本文提出了一种检测和定位指纹变化的方法。我们的主要贡献是:(i)设计和训练指纹图像上的CNN模型和图像中以细节点为中心的局部斑块,以检测和定位指纹变化区域,并(ii)训练生成对抗网络(GAN)合成变化的指纹其特征与真实改变的指纹相似。成功训练的GAN可以缓解研究中改变指纹图像的有限可用性。来自270个科目的4,815个改变指纹的数据库,并使用相同数量的滚动指纹图像来训练和测试我们的模型。所提出的方法在错误检测率(FDR)为2%时实现99.24%的真实检测率(TDR),优于公布的结果。改变后的指纹检测和定位模型和代码以及合成生成的改变后的指纹数据集将是开源的。[1805.00911v1]

 

MX-LSTM:混合trackletsvislets来联合预测轨迹和头部姿势

Irtiza HasanFrancesco SettiTheodore TsesmelisAlessio Del BueFabio GalassoMarco Cristani

最近的轨迹预测方法使用轨迹预测利用长期短期记忆(LSTM)体系结构的行人的未来位置。本文表明,添加小孔,即头部姿势估计的短序列,可以显着提高轨迹预测性能。然后,我们建议在一个名为MX-LSTM的新框架中使用vislets,由于LSTM反向传播期间完全协方差矩阵的无约束联合优化,捕获了trackletsvislets之间的相互作用。同时,MX-LSTM可以预测未来的头部姿势,提高长期轨迹预测方法的标准能力。使用标准头部姿势估计器和基于注意力的社交池,当行人减速时,MX-LSTM在所有考虑的数据集(Zara01Zara02UCYTownCentre)中对新的轨迹预测评分进行评分,这种情况下大多数预测方法难以达到提供准确的解决方案。[1805.00652v1]

 

使用ESN估计一分钟视频中的渐进情绪行为

田甜柳,阿维德卡帕斯

在本文中,我们描述了OMG-情绪挑战2018的方法。目标是对约1分钟长度的视频产生话语级的效价和唤醒估计。我们通过首先提取视频的面部表情特征作为时间序列数据,然后使用回声状态网络类型的回归神经网络来模拟时间序列数据和价唤醒值之间的对应关系来解决这个问题。通过实验我们证明了所提出的方法超越了组织者提供的基准方法。[1805.08690v1]

 

基于生成对抗网络的文本到图像合成

Cristian Bodnar

从自然语言生成图像是最近的条件生成模型的主要应用之一。除了测试我们模拟条件性高维度分布的能力之外,文本到图像合成还有很多令人兴奋和实际的应用,例如照片编辑或计算机辅助内容创作。使用生成对抗网络(GAN)已经取得了最近的进展。这些材料从对这些主题的温和介绍开始,并讨论了现有技术模型的现状。此外,我提出了Wasserstein GAN-CLS,这是一种基于Wasserstein距离提供稳定性保证的条件图像生成新模型。然后,我将展示Wasserstein GAN-CLS的新型损失函数如何用于条件渐进式增长GAN。加上建议的损失,该模型将仅使用句级视觉语义的模型的最佳入场分数(在加州理工学院鸟类数据集上)提高7.07%。最近提出的使用词级视觉语义的AttnGAN是唯一比条件Wasserstein渐进式增长GAN”表现更好的模型。[1805.00676v1]

 

图像和食谱:在烹饪环境中检索

Micael CarvalhoRemi CadeneDavid PicardLaure SoulierMatthieu Cord

机器学习社区的最新进展允许出现不同的使用案例,因为它与像烹饪这样的领域的关联创造了计算美食。在本文中,我们解决了图片配方对齐问题,将目标应用程序作为大规模检索任务(找到给定图片的配方,反之亦然)。我们的方法在Recipe1M数据集上得到验证,该数据集由一百万个图像配方对和附加的类信息组成,为此我们实现了最先进的结果。[1805.00900v1]

 

使用深度卷积网络的占用网格地图中的对象检测和分类

Sascha WirgesTom Fischer,耶稣巴拉多弗里亚斯,克里斯托夫斯蒂勒

详细的环境感知是自动驾驶汽车的重要组成部分。但是,为了处理感知信息的数量,我们还需要分割策略。基于网格地图环境表示,非常适合传感器融合,自由空间估计和机器学习,我们使用深度卷积神经网络来检测和分类对象。作为我们网络的输入,我们使用高效编码3D距离传感器信息的多层网格地图。推理输出由一系列带有相关语义类的旋转边界框组成。我们进行广泛的消融研究,突出显示使用网格地图时的重要设计考虑因素,并在KITTI Bird’s Eye View基准上评估我们的模型。定性和定量基准测试结果表明,我们仅使用距离传感器数据的顶视网格地图就可实现稳健的检测和最先进的精度。[1805.08689v1]

 

用于图像分类的结构化分析字典学习

文唐,阿什坎巴纳希,哈米德克里姆,李义岱

通过将分类结构信息融入分析字典学习中,我们提出了一种计算高效的高性能分类算法。为了实现更一致的分类,我们将独立子空间的类特征结构关联起来,并将其强加在分类错误约束分析字典学习上。实验证明,我们的方法在各种视觉分类任务中达到与最先进的算法相当或更好的性能。另外,我们的方法大大减少了训练和测试的计算复杂度。[1805.00597v1]

 

面向可解释的人脸识别

Bangjie Yin, Luan Tran, Haoxiang Li, Xiaohui Shen, Xiaoming Liu

深度CNN在过去几年一直在推动视觉识别的前沿。除了识别的准确性之外,对于深入研究CNN的强烈要求激发了工具的发展,以便对预先训练的模型进行剖析,从而可视化他们如何进行预测。最近的作品进一步推动了网络学习阶段的解释能力,以学习更有意义的表达。在这项工作中,我们将重点放在视觉识别的一个特定领域上,我们向可解释的人脸识别进行报告。我们提出了一种空间激活多样性损失来学习更多结构化的人脸表示。通过利用结构,我们进一步设计了一个特征激活多样性损失,以推动可解释的表示对于遮挡有区别性和鲁棒性。我们在三个人脸识别基准上进行演示,我们提出的方法能够通过易于解释的人脸表示来提高人脸识别的准确性。[1805.00611v1]

 

探索弱监督预训练的局限性

Dhruv MahajanRoss GirshickVignesh RamanathanKaiming HeManohar PaluriYixuan LiAshwin BharambeLaurens van der Maaten

用于各种任务的最先进的视觉感知模型依赖于受监督的预训练。ImageNet分类是这些模型事实上的训练任务。然而,ImageNet现在已经有近十年的历史了,现在的标准是。即使如此,对数据集预训练的行为的了解也相对较少,数据集的数量级要大几个数量级。原因很明显:这些数据集很难收集和注释。在本文中,我们提出了一个独特的转移学习研究,用大卷积网络训练预测数十亿社交媒体图像的主题标签。我们的实验证明,大规模标签预测的培训可以带来出色的结果。我们展示了几项图像分类和对象检测任务的改进,并报告迄今为止最高的ImageNet-1k单一作物精度185.4%(前97%)。我们还进行广泛的实验,提供关于大规模预训练和转移学习表现之间关系的新颖经验数据。[1805.00932v1]

 

具有标签不确定性的遥感数据的多分辨率多模态传感器融合

Xiaoxiao Du, Alina Zare

在遥感中,每个传感器都可以提供补充或补充信息。融合多个传感器的输出以提升整体性能是非常有价值的。先前的监督融合方法通常需要训练数据中每个像素的准确标签。但是,在许多遥感应用中,像素级标签很难或不可行。另外,来自多个传感器的输出可能具有不同的分辨率或模态水平(例如栅格化高光谱图像与LiDAR 3D点云)。本文提出了一种多实例多分辨率融合(MIMRF)框架,该框架可以融合多分辨率和多模态传感器输出,同时从不明确和不准确的标记训练数据中学习。在MUUFL Gulfport高光谱和LiDAR数据集以及遥感大豆和杂草数据集上进行了实验。与传统的融合方法相比,结果显示在场景理解和农业应用方面有改进的一致性能。[1805.00930v1]

 

用于检测块循环和块无环图中的簇的谱聚类算法

H. Van LierdeTWS ChowJ.C. Delvenne

我们提出了两种频谱算法用于分别在有向图中分割节点组之间的循环和非循环连接模式。我们的方法基于与有向图相关的转移矩阵的极值特征值的计算。这两种算法比合成数据集上的有向图聚类的现有技术方法优越,包括基于块模型,文献计量对称和随机游走的方法。我们的算法与无向图的经典谱聚类算法具有相同的空间复杂度,并且它们的时间复杂度在图的边数也是线性的。我们的一种方法被应用于基于捕食者猎物关系的营养网络。它成功地提取了食物链中常见的猎物和捕食者类别。同样的方法也被用来强调描述互联网服务提供商之间业务协议的自治系统的全球网络的层次结构。[1805.00862v1]

 

用于实时检测早期鳞状瘤形成的内部毛细血管回路的可解释完全卷积分类

Luis C. Garcia-Peraza-Herrera Martin Everson李文奇Inmanol Luengo Lorenz Berger奥默艾哈迈德劳伦斯洛沃特王秀宝王文伦Rehan Haidry Danail Stoyanov Tom Vercauteren Sebastien Ourselin

在这项工作中,我们集中精力研究来自完全卷积神经网络的分类结果的可解释性。在食管组织分类的基础上,实时检测亚洲地区最常见的食管癌早期鳞癌,我们提出了一种新的数据集和一种新的深度学习方法,通过深度监督和新引入的概念,嵌入式类激活图(eCAM)侧重于将结果的可解释性作为卷积网络的设计约束。我们提出了一种可视化注意力的新方法,旨在对食管组织的这些领域提供一些见解,从而使网络得出结论:图像属于特定类别,并将它们与临床医生用于产生临床诊断的那些视觉特征进行比较。与没有深度监督但通过移植类激活图提供注意的基线方法相比,我们将F1得分从87.3%提高到92.7%,并提供更详细的注意图。[1805.00632v1]

 

双人姿态估计的双向图结构信息模型

王静<wangjingzzu @ gsZZUEDU。孙俊义<jysun @ haEDUZe> <zpeng @ haEDUPei Lv <ielvpei @ zzuEDU。周冰<iebzhou @ zzuEDU。徐明亮<iexumingliang @ zzuEDUCN>

在本文中,我们提出了一种新的多阶段网络架构,在每个阶段有两个分支来估计图像中的多人姿势。第一个分支预测关节的置信度图,并使用几何变换核在置信水平上在相邻关节之间传播信息。第二个分支提出了一个双向图结构信息模型(BGSIM)来编码丰富的上下文信息并推断不同关节之间的遮挡关系。我们动态地确定信心映射的最高响应点作为BGSIM中消息传递的基点。根据所提出的网络结构,我们在COCO关键点挑战数据集上得到62.9的平均精度,在MPII(多人)数据集上得到77.6的平均精度。与其他最先进的方法相比,我们的方法可以在没有额外训练的情况下在我们选定的多人数据集上取得非常有前途的结果 [1805.00603v1]

 

声视觉线索唤醒情感预测的深度网络

Songyou Peng, Le Zhang, Yutong Ban, Meng Fang, Stefan Winkler

在本文中,我们全面描述了我们提交给2018年一分钟渐进情绪行为挑战的方法。[1805.00638v1]

 

对语篇短语接地进行弱引导注意学习

Zhiyuan Fang, Shu Kong, Tianshu Yu, Yezhou Yang

在视觉内容中嵌入文本短语对于诸如图像文本推断或文本驱动的多媒体交互等各种潜在应用而言是有意义但具有挑战性的问题。目前大多数现有的方法采用监督学习机制,在训练过程中需要像素级的基础真实性。然而,细粒度的地面真实注释相当耗时,并严重缩小了更广泛应用的范围。在这个扩展的摘要中,我们探索了从自上而下信号(以单热标签或自然语言形式)和弱监督注意力学习机制灵活定位图像区域的方法。在我们的模型中,使用了两种类型的模块:用于视觉特征捕获的骨干模块,以及基于正则化双线性池生成地图的周密模块。我们以端到端的方式构建模型,通过鼓励空间专注地图进行移动,并专注于由自顶向下信号组成的最佳匹配视觉特征的区域进行训练。我们在与多标签MNIST数据合成的测试平台上展示初步但有前途的结果。[1805.00545v1]

 

完全同态加密的安全人脸匹配

毗湿奴Naresh Boddeti

由于代表性学习的进展,人脸识别技术在过去几年中取得了巨大的进步。当我们目睹这些系统的广泛采用时,必须考虑人脸表征的安全性。在本文中,我们提出了一个基于数据加密的框架来保护人脸表征的数据库,其目的是防止信息泄露并保护用户的隐私,同时保持其实用性。具体而言,我们探讨了使用完全同态加密的方案直接在加密域中匹配人脸表示以及维度降低方案以折衷人脸匹配精度和计算复杂度的可能性。基准人脸数据集(LFWIJB-AIJB-BCASIA)指出安全的人脸匹配实际上是可行的(每匹配匹配对于SphereFace512维特征为0.01秒),同时在匹配性能方面表现出最小的损失。[1805.00577v1]

 

在各种照明条件和仿射变换条件下对实物匹配的特征检测器描述符的评估

Novanto YudistiraAchmad RidokAli Fauzi

这项研究试图提供解释,描述和评价描述符和描述符框架的一些最流行和最新的组合,即SIFTSURFMSERBRISK,描述符的关键点提取器和SIFTSURFBRISKFREAK。根据关键点的匹配数量和各种图像变化的可重复性进行评估。它被用作主要参数来评估算法的组合如何在不同变化的匹配对象中进行匹配。有许多论文描述了检测和描述特征在各种条件下检测图像中的对象的比较,但是附加到它们的算法的组合还没有被讨论太多。问题域限于不同的光照水平和来自不同视角的仿射变换。为了评估所有算法组合的鲁棒性,我们使用立体图像匹配的情况。[1804.10855v2]

 

VLocNet ++:用于语义视觉本地化和内测的深度多任务学习

Noha RadwanAbhinav ValadaWolfram Burgard

语义理解和本地化是机器人自治的基本促成因素,其大部分被解决为不相交的问题。虽然深度学习使得各种场景理解任务的最新突破成为可能,但由于直接表述使其不能编码场景特定的约束,因此它对状态估计任务的适用性受到限制。在这项工作中,我们提出了采用多任务学习方法的VLocNet ++体系结构,以利用学习语义之间的任务间关系,回归6-DoF全局姿态和测距法,以实现这些任务中的每一个的共同利益。我们的网络通过将世界的几何和语义知识同时嵌入到姿势回归网络中来克服上述限制。我们提出了一种新的自适应加权融合层来聚合运动特定的时间信息并将语义特征融合到基于区域激活的本地化流中。此外,我们提出了一种自我监督的变形技术,该技术使用相对运动来弯曲分割流中的中间网络表示以学习一致的语义。最后,我们引入了具有像素级语义标签和多重环路的首个城市户外定位数据集,用于训练深度网络。在具有挑战性的Microsoft 7-Scenes基准测试和我们的DeepLo c数据集上进行的大量实验证明,我们的方法超越了最先进的性能优异的基于本地特征的方法,同时执行多项任务,并在具有挑战性的场景中显示出相当强大的稳健性。[1804

 

单个RGB-D图像的深度深度完成

Yinda ZhangThomas Funkhouser

我们的工作目标是完成RGB-D图像的深度通道。商品级深度摄像机通常无法感知有光泽,明亮,透明和远处表面的深度。为了解决这个问题,我们训练一个深度网络,将RGB图像作为输入,并预测密集的表面法线和遮挡边界。然后将这些预测与由RGB-D相机提供的原始深度观测相结合,以求解所有像素的深度,包括原始观测中缺失的像素。作为使用新的深度完成基准数据集进行大量实验的结果,该方法被选为其他方法(例如,直接修补深度),其中通过渲染由多视图RGB-D扫描创建的表面重建来填充训练数据中的空洞。不同网络输入的实验,深度表示,损失函数,优化方法,修补方法和深度估计网络表明,我们提出的方法提供了比这些替代方案更好的深度完成。[1803.09326v2]

 

图像中的文本检测和识别:一项调查

Tanvi GoswamiZankhana BaradNikita P. Desai

文本检测和识别是图像处理的一个重要方面。本文分析和比较了处理这个任务的方法。它总结了基本问题并列举了解决这些问题时需要考虑的因素。现有的技术被分类为分步或整合,突出的子问题包括数字定位,验证,分割和识别。还讨论了与加强退化文本以及处理视频文本和多面向文本相关的特殊问题。说明文本的类别和子类别,列举基准数据集,并比较最具代表性的方法的性能。这次审查还提供了对该领域剩余问题的基本比较和分析。[1803.07278v2]

 

基于知识的小目标检测递归神经网络

Kai Yi, Zhiqiang Jian, Shitao Chen, Yuedong Yang, Nanning Zheng

准确的交通标志检测(TSD)可以帮助智能系统根据交通法规做出更好的决策。TSD作为一种典型的小型物体检测问题,在高级驾驶辅助系统(ADAS)和自动驾驶中非常重要。然而,尽管深度神经网络在几项任务中实现了人类甚至超人的表现,但由于其自身的局限性,小物体检测仍然是一个悬而未决的问题。在本文中,我们提出了一个名为KB-RANN的大脑启发网络来处理这个问题。注意机制是我们大脑的基本功能,我们用一种新颖的周期性注意神经网络以细粒度的方式提高检测精度。此外,我们结合领域特定的知识和直观的知识来提高效率。实验结果表明,我们的方法比目前在物体检测中广泛使用的几种常用方法取得了更好的性能 更重要的是,我们将我们的方法移植到我们设计的嵌入式系统上,并成功部署在我们的自驾车上。[1803.05263v3]

 

为纹理分析快速准确地计算正交矩

C. Di RubertoL. PutzuG. Rodriguez

在这项工作中,我们描述了一个快速和稳定的计算图像正交矩的算法。事实上,正交矩的特点是具有高判别能力,但其一些可能的公式具有大的计算复杂度,这限制了它们的实时应用。本文详细描述了一种基于递推关系的方法,并提出了一种优化的相应计算程序的Matlab实现,旨在解决上述限制,并在社区处置一个高效和易于使用的软件。在我们的实验中,我们评估了递归公式的有效性及其在重建任务中的表现,与文献中经常使用的封闭形式表示相比。结果显示计算复杂度明显降低,再现精度更高。为了评估和比较纹理分析中计算矩的准确性,我们对6个着名的纹理图像数据库进行分类实验。同样,递归公式在分类方面表现比封闭形式表现更好。更重要的是,如果使用所提出的稳定程序从图像的GLCM计算出来,则在某些情况下,正交矩优于用于纹理分类的最分散的最先进的描述符。[1803.00638v2] 我们对6个着名的纹理图像数据库进行分类实验。同样,递归公式在分类方面表现比封闭形式表现更好。更重要的是,如果使用所提出的稳定程序从图像的GLCM计算出来,则在某些情况下,正交矩优于用于纹理分类的最分散的最先进的描述符。[1803.00638v2] 我们对6个着名的纹理图像数据库进行分类实验。同样,递归公式在分类方面表现比封闭形式更好。更重要的是,如果使用所提出的稳定程序从图像的GLCM计算出来,则在某些情况下,正交矩优于用于纹理分类的最分散的最先进的描述符。[1803.00638v2]

 

无需人工标注的图像检索二叉约束深散网络

Thanh-Toan DoDang-Khoa Le TanTrung PhamTuan HoangHu le LeNai-Man CheungIan Reid

学习使用深度神经网络的图像检索紧缩二进制编码问题近来引起越来越多的关注。然而,由于哈希码的二进制约束,相似性保持属性以及对大量标记图像的需求,训练深度哈希网络具有挑战性。据我们所知,现有的方法都没有在统一的框架中完全解决所有这些挑战。在这项工作中,我们提出了一种新颖的端到端深度哈希方法,该方法经过训练,无需人工干预即可直接从图像像素生成二进制代码。具体而言,我们的主要贡献是提出一种新的成对损失函数,它同时编码二进制码对之间的距离以及二进制量化误差。我们针对这种损失函数提出了一种有效的参数学习算法 此外,为了为成对损失函数提供相似/不相似的图像,我们利用从未标记图像重建的3D模型来自动生成巨大的相似/不相似对。在三个图像检索基准数据集上的大量实验证明了所提出方法的优越性能。[1802.07437v3]

 

用于高光谱图像分类的跨域CNN

Hyungtae晟敏一喜星权

在本文中,我们用高光谱图像分类来解决数据集稀缺问题。由于只有几千像素可用于训练,因此难以有效学习高容量卷积神经网络(CNN)。为了解决这个问题,我们提出了一种新的跨域CNN,其中包含可以跨多个高光谱数据集共同学习的共享参数。该网络还包含设计用于处理数据集特定光谱特性和相关分类任务的非共享部分。我们的方法是第一次尝试以端到端的方式学习多个高光谱数据集的CNN。此外,我们已经通过实验证明,所提出的关于三种广泛使用的数据集的训练网络优于所有在单一数据集上训练的基线网络。[1802.00093v2]

 

糖果:基于条件对抗网络的完全端到端系统,用于单个图像雾度消除

Kunal SwamiSaikat Kumar Das

单一图像阴霾清除是一个非常具有挑战性和不适合的问题。文献中的现有雾霾消除方法(包括最近引入的深度学习方法)将雾霾消除的问题模拟为估计中间参数,即场景透射图和大气光的问题。这些用于计算来自模糊输入图像的无雾图像。这种方法只侧重于精确估计中间参数,而在优化框架中不考虑无雾图像的审美质量。因此,估算中间参数的误差通常会导致产生质量较差的不含雾霾的图像。在本文中,我们提出CANDY(基于条件敌对网络的基于hazY图像的除雾),一个完全端到端的模型,可以从朦胧的输入图像直接生成干净的不含雾霾的图像。CANDY还将无雾图像的视觉质量融入优化功能从而产生高质量的无雾图像。据我们所知,这是文献中提出完全端对端模型去除单一图像雾霾的第一部作品。此外,这是第一个探讨新引入的生成敌对网络概念的单幅图像雾霾消除问题的工作。所提出的模型CANDY在合成创建的雾霾图像数据集上进行了训练,同时对具有挑战性的合成以及真实雾霾图像数据集进行了评估。CANDY的广泛评估和比较结果表明,它在数量和质量上都明显优于文献中现有的最先进的雾霾消除方法。[1801.02892v2]

 

检测和跟踪:视频中的高效姿态估计

Rohit Girdhar,格鲁吉亚GkioxariLorenzo TorresaniManohar PaluriDu Tran

本文讨论了在复杂的多人视频中估计和跟踪人体关键点的问题。我们提出了一种非常轻便但非常有效的方法,它建立在人体检测和视频理解方面的最新进展之上。我们的方法分为两个阶段:帧或短片段中的关键点估计,然后是轻量级跟踪,以生成关联整个视频的关键点预测。对于帧级姿态估计,我们尝试使用Mask R-CNN以及我们自己提出的此模型的3D扩展,该扩展利用小片段上的时间信息来生成更强健的帧预测。我们在新发布的多人视频姿态估计基准PoseTrack上进行了广泛的烧蚀实验,以验证我们模型的各种设计选择。我们的方法使用多目标跟踪精度(MOTA)指标实现验证的准确性为55.2%,测试集合的准确性为51.8%,并实现了ICCV 2017 PoseTrack关键点跟踪挑战的最新性能表现。[1712.09184v2]

 

SeDAR – 语义检测和测距:人类可以在没有LiDAR的情况下进行本地化,机器人可以吗?

奥斯卡门德斯,西蒙哈德菲尔德,尼古拉斯普吉诺,理查德鲍登

一个人如何使用平面布置图来制定他们的位置?可以肯定地说,我们没有明确测量每个可见表面的深度,并尝试将它们与平面布置图中的不同姿态估计进行匹配。然而,这正是大多数机器人扫描匹配算法的工作原理。同样,我们也不会将平面图中出现的2D几何图形挤压到3D中,并尝试将其与现实世界对齐。然而,这是大多数基于视觉的方法本地化的方式。人类完全相反。我们不使用深度,而是使用高级语义提示。我们将3D世界折叠成二维表示,而不是将平面布置图拉伸到第三维。有证据表明,我们在日常生活中使用的许多平面布置图不准确,而是选择高水平的区分性地标。在这项工作中,我们使用这种见解来展示一种全球定位方法,该方法完全依赖于平面图中存在且从RGB图像中提取的语义标签。虽然我们的方法能够使用范围测量(如果有的话),但我们证明它们是不必要的,因为我们可以在没有它们的情况下获得与最新技术相媲美的结果。[1709.01500v2]

 

可控生成对抗网络

Minhyeok LeeJunhee Seok

最近引入的生成对抗网络(GAN)已经显示出许多有希望的结果来生成逼真的样本。GAN的基本任务是控制随机分布产生的样本特征。尽管当前的GAN结构(如条件GAN)能够成功生成具有所需主要特征的样本,但它们往往无法生成能够在样本间带来特定差异的详细特征。为了克服这个限制,这里我们提出一个可控的GANControlGAN)结构。通过从鉴别器中分离特征分类器,ControlGAN的生成器被设计用于学习生成具有特定细节特征的合成样本。通过对多个图像数据集进行评估,ControlGAN显示出可以生成具有良好控制特征的改进样本的功能。此外,我们证明ControlGAN可以为训练过程中未使用的内插和外插输入标签生成中间特征和相反特征。这意味着ControlGAN可以对各种生成的样本做出重大贡献。[1708.00598v4]

 

利用组合和视频分析的人类和群体行为模拟评估框架

Rob DupreVasileios Argyriou

在这项工作中,我们提出了通过合成框架(CSEC)的模块化群众模拟评估,它提供了不同的行人和人群模拟方法之间的定量比较。评估是根据源片段与通过新颖合成技术创建的合成视频的比较进行的。该框架旨在降低仿真评估的复杂性,并提供一个平台,通过这个平台,可以进行不同仿真算法的比较以及参数调整,以提高仿真精度或提供人群仿真算法与源数据之间的相似性度量。通过使用旨在模拟人类视觉系统(HVS)的功能,可以相对于样本镜头评估特定的模拟属性。对许多流行的人群数据集进行验证,并通过比较多个行人和人群模拟算法进行验证。[1707.02655v2]

 

GXNOR-Net:在统一的离散化框架下训练具有三重权重和激活功能的深度神经网络,而不需要全精度内存

Lei Deng, Peng Jiao, Jing Pei, Zhenzhi Wu, Guoqi Li

迫切需要构建一个可以在统一框架下包含这些网络的体系结构,从而实现更高的性能和更低的开销。为此,两个基本问题尚未解决。第一个是如何实现神经元激活离散时的反向传播。第二个是如何去除训练阶段的全精度隐藏权重,以打破内存/计算消耗的瓶颈。为了解决第一个问题,我们提出了一种多步神经元激活离散化方法和一种衍生近似技术,可以实现离散DNN上的反向传播算法。虽然对于第二个问题,我们提出了一种离散状态转换(DST)方法来限制离散空间中的权重而不保存隐藏的权重。通过这种方式,我们构建了一个包含二元或三元网络的统一框架作为其特殊情况,并在网站https://github.com/AcrossV/Gated-XNOR上提供了启发式算法。更具体地说,我们发现,当权重和激活都变为三值时,可以将DNN简化为稀疏二元网络,称为门控XNOR网络(GXNOR-Nets),因为只有非零权重和非零激活的事件使控制门能够在原始二进制网络中启动XNOR逻辑运算。这保证了高效移动智能的事件驱动硬件设计。与最先进的算法相比,我们实现了先进的性能。此外,可以灵活地修改离散空间中的计算稀疏性和状态数,使其适用于各种硬件平台。[1705.09283v5]

 

基于深度学习的多光谱遥感图像语义分割算法

罗纳德凯姆克,卡尔萨尔瓦乔,克里斯托弗卡南

深卷积神经网络(DCNN)已经被用于在许多计算机视觉任务(例如,物体识别,物体检测,语义分割)上实现最新性能,这归功于大量的注释图像数据库。由于需要大量的成本和人力,其他传感器模态的大标记数据集(例如多光谱图像(MSI))不可用。在本文中,我们使用计算机视觉中的最先进的DCNN框架为MSI图像进行语义分割。为了克服MSI数据的标签稀缺性,我们用真正的MSI替代生成的合成MSI来初始化DCNN框架。我们在本文介绍的新RIT-18数据集上评估我们的网络初始化方案。该数据集包含由无人驾驶飞机系统收集的非常高分辨率的MSI。用合成图像初始化的模型不太容易过度拟合,并为未来的工作提供了最先进的基线。[1703.06452v3]

转载请注明:《用于高效行人检测的融合深度神经网络+基于深度学习的多光谱遥感图像语义分割算法

发表评论