端到端的弱监督语义对齐+ DenseFuse:融合红外和可见光图像的方法

用变分方法和经验小波分割扫描隧道显微图像

Bui KevinFauman JacobKes DavidTorres Mandiola LeticiaCiomaga AdinaSalazar RicardoBertozzi L. AndreaGilles JeromeGuttentag I. AndrewWeiss S. Paul

在纳米科学和纳米技术领域,能够化学表面化学用于各种应用是非常重要的。扫描隧道显微镜(STM)是用于测量表面结构和化学性能的重要仪器,其分辨率优于分子分辨率。自组装通常用于创建单分子层,重新定义单分子层厚的表面化学。事实上,STM图像揭示了关于自组装单层结构的丰富信息,因为它们传达了所研究材料的化学和物理特性。为了协助和加强对STM和其他图像的分析,我们提出并演示了一个图像处理框架,该框架可以产生两个图像分割:一种基于强度(STM图像中的明显高度),另一种基于纹理图案。所提出的框架从卡通+纹理分解开始,将图像分解为卡通和纹理组件。之后,卡通图像通过局部Chan-Vese模型的改进的多相版本进行分割,而纹理图像通过2D经验小波变换和聚类算法的组合进行分割。总体而言,我们提出的框架包含几个新功能,特别是展示卡通+纹理分解和经验小波变换的新应用程序,并开发专门的框架来分割STM图像和其他数据。为了证明我们的方法的潜力,我们将它应用于Au \ {111 \}上氰化物单分子层的实际STM图像并呈现其相应的分割结果。[1804.08890v1]

 

没有度量标准是完美的:针对视觉叙事的敌对奖励学习

Xin Wang, Wenhu Chen, Yuan-Fang Wang, William Yang Wang

虽然在视觉字幕中取得了令人印象深刻的结果,但从照片流中产生抽象故事的任务仍然是一个小问题。与标题不同,故事具有更多表现力的语言风格,并包含许多不存在于图像中的虚构概念。因此它对行为克隆算法提出了挑战。此外,由于评估故事质量的自动指标的局限性,手工奖励的强化学习方法在获得整体性能提升方面也面临困难。因此,我们提出了一个敌对的REward LearningAREL)框架,以从人类示威中学习隐式奖励功能,然后利用学习奖励功能优化政策搜索。虽然自动评估表明,克隆专家行为的技术水平略高于SOTA方法,但人类评估显示,我们的方法在产生比SOTA系统更类似人类的故事方面取得显着进步。[1804.09160v1]

 

是否可以从测量的VNIR高光谱数据中检索土壤含水量?

新浪凯勒,费利克斯·里塞,约翰娜·斯托泽尔,菲利普·迈尔,斯蒂芬·欣兹

在本文中,我们研究了基于VNIR高光谱数据结合IR数据估算土壤含水量的潜力。来自多传感器现场活动的测量数据代表了包含测量的高光谱,红外和土壤湿度数据的基准数据集。我们引入了一个由特征选择,预处理和精心选择的回归模型组成的三个步骤的回归框架。后者主要是有监督的机器学习模型。自组织地图是一个例外,它是无监督学习和监督学习的结合。我们分析了不同预处理方法对回归结果的影响。在所有回归模型中,没有预处理的极度随机化树模型提供了最佳估计性能。我们的结果揭示了相应的回归框架结合VNIR高光谱数据估算土壤水分的潜力。总之,本文的结果为进一步改进不同的研究方向提供了基础。[1804.09046v1]

 

使用深度图融合和姿态优化,使用RGB-D相机进行精确的3-D重建

MarkusYlimäkiJuho KannalaJanneHeikkilä

深度图融合是基于立体和RGB-D三维重建管线的重要组成部分。无论是使用被动立体重建还是使用主动深度传感器(如Microsoft Kinect)制作,深度图都有噪声,并且初始配准可能较差。在本文中,我们介绍一种能够处理异常值的方法,尤其是甚至是重大的配准误差。所提出的方法首先将一系列深度图融合成单个非冗余点云,从而通过给予更多的特定测量更多权重来将冗余点合并在一起。然后,将原始深度图重新注册到融合点云以优化原始相机外部参数。然后再用精炼的外部参数进行融合。重复该过程直到结果令人满意或在迭代之间没有发生显着变化。该方法对异常值和错误的深度测量结果是稳健的,并且由于初始相机姿态不准确而导致显着的深度图配准误差。[1804.08912v1]

 

深度卷积神经网络在路面分类中的评估

马库斯诺尔特,尼基塔克斯特,马库斯莫雷尔

当参数化车辆控制算法进行稳定性或轨迹控制时,道路轮胎摩擦系数是控制性能的重要模型参数。摩擦系数的一个主要影响是路面状况。基于照相机的前瞻性路面分类有助于实现车辆控制算法的早期参数化。在本文中,我们对两种不同的深度卷积神经网络模型进行了训练和比较,涉及它们在道路摩擦估计中的应用,并描述了根据可用的训练数据和合适的数据集构建训练分类器所面临的挑战。[1804.08872v1]

 

迈向语义SLAM:点,平面和对象

Mehdi HosseinzadehYasir LatifTrung PhamNiko SuenderhaufIan Reid

同时定位和映射(SLAM)是移动机器人技术中的一个基本问题。语义SLAM是一个努力构建有意义的地图表示,不仅提供丰富的环境信息,而且还有助于相机本地化。这项工作提出了一种使用二次函数来表示通用对象的方法,该方法允许SLAM框架中的无缝集成,并将额外的占优平面结构建模为无限平面。实验表明,所提出的点平面二次表示可以很容易地将曼哈顿和对象可供性约束结合起来,极大地改善了摄像机定位并导致了语义上有意义的地图。[1804.09111v1]

 

强大的视频内容对齐和补偿,让您透过雨水清晰视觉

陈杰,陈淳厚,侯俊辉,周立贝,何莉

基于户外视觉的系统受到大气湍流的影响,雨水是视觉退化最严重的因素之一。目前的除雨方法对于复杂的动态场景或暴露在具有不透明遮挡的暴雨中显示出局限性。我们提出了一种新颖的derain框架,它应用超像素(SP)分割将场景分解成深度一致的单元。场景内容的对齐是在SP级进行的,这证明对于雨遮挡干扰和快速摄像机运动是强健的。两个对准输出张量,即最佳时间匹配张量和排序空间时间匹配张量,为雨痕的位置和遮挡的背景内容提供了信息线索。不同的经典和新颖的方法,例如鲁棒主成分分析和卷积神经网络被应用并且比较它们各自的优点,以有效地利用由两个张量提供的丰富的时空特征。大量的评估表明,通过最先进的方法,在场景恢复PSNR上实现高达5dB的优势,而且对于高度复杂和动态的场景,其优势尤其明显。视觉评估表明,所提出的框架不仅能够抑制严重和不透明的遮挡雨痕,而且还具有大的半透明区域波动和扭曲。[1804.09555v1] 大量的评估表明,通过最先进的方法,在场景恢复PSNR上实现高达5dB的优势,而且对于高度复杂和动态的场景,其优势尤其明显。视觉评估表明,所提出的框架不仅能够抑制严重和不透明的遮挡雨痕,而且还具有大的半透明区域波动和扭曲。[1804.09555v1] 大量的评估表明,通过最先进的方法,在场景恢复PSNR上实现高达5dB的优势,而且对于高度复杂和动态的场景,其优势尤其明显。视觉评估表明,所提出的框架不仅能够抑制严重和不透明的遮挡雨痕,而且还具有大的半透明区域波动和扭曲。[1804.09555v1]

 

基于R-CNN的文本检测方法的无锚点区域提议网络

Zhuoyao Zhong, Lei Sun, Qiang Huo

更快的R-CNNSSD框架的锚定机制被认为对于场景文本检测不够有效,这可归因于其基于IoU的锚点和地面真值盒之间的匹配标准。为了更好地包围各种形状的场景文本实例,需要手动设计各种比例尺,高宽比,甚至方位的锚,这使得基于锚的方法复杂且效率低下。在本文中,我们提出了一种新的无锚区域提议网络(AF-RPN)来替代更快的R-CNN框架中原有的基于锚点的RPN来解决上述问题。AF-RPN与香草RPNFPN-RPN相比,可以摆脱复杂的锚定设计,在大规模COCO-Text数据集上实现更高的召回率。由于高质量的文本提案,我们更快的基于R-CNN的两阶段文本检测方法在使用单量程和单模式(ResNet50)测试时,在ICDAR-2017 MLTICDAR-2015ICDAR-2013文本检测基准上实现了最新的结果只要。[1804.09003v1]

 

面具感知的真实感人脸属性操纵

Ruoqi Sun, Chen Huang, Jianping Shi, Lizhuang Ma

面部属性操作的任务已经发现越来越多的应用,但仍然对编辑面部图像的属性的要求保持挑战,同时保留其独特的细节。在本文中,我们选择将Variational AutoEncoderVAE)和Generative Adversarial NetworkGAN)组合用于逼真图像生成。我们提出了一种有效的方法来修改编码器的特征映射中适量的像素,连续地改变属性强度而不妨碍全局信息。我们的VAEGAN培训目标通过监督面部识别损失和周期一致性损失来加强,以忠实保存面部细节。此外,我们生成面部面具以强化背景一致性,这允许我们的训练集中于操纵前景面而不是背景。实验结果表明,我们的方法称为Mask-Adversarial AutoEncoderM-AAE),可以生成高质量的图像,并且具有不断变化的属性,并且优于以前的细节保存方法。[1804.08882v1]

 

联合鉴别与可靠性学习相关性追踪

Chong Sun, Dong Wang, Huchuan Lu, Ming-Hsuan Yang

对于视觉跟踪,由相关滤波器(CF)方法学习的理想滤波器应该同时采用鉴别和可靠性信息。然而,现有的尝试通常集中在前者,而对可靠性学习的关注较少。这可能会使得学习过滤器被特征映射上的意外突出区域支配,从而导致模型退化。为了解决这个问题,我们提出了一种新的基于CF的优化问题来联合建模歧视和可靠性信息。首先,我们将过滤器视为基本过滤器和可靠性项的元素明智的产品。基本过滤器旨在学习目标和背景之间的区分信息,可靠性术语鼓励最终过滤器关注更可靠的区域。第二,我们引入了一个局部响应一致性正则项来强调不同区域的平等贡献,并避免跟踪者被不可靠区域统治。所提出的优化问题可以使用交替方向方法来解决,并且在傅里叶域中加速。我们在OTB-2013OTB-2015VOT-2016数据集上进行了广泛的实验,以评估所提议的跟踪器。实验结果表明,我们的跟踪器能够与其他最先进的跟踪器相媲美。[1804.08965v1] OTB-2015VOT-2016数据集来评估所提议的跟踪器。实验结果表明,我们的跟踪器能够与其他最先进的跟踪器相媲美。[1804.08965v1] OTB-2015VOT-2016数据集来评估所提议的跟踪器。实验结果表明,我们的跟踪器能够与其他最先进的跟踪器相媲美。[1804.08965v1]

 

使用完全卷积神经网络的胎儿超声自动头部生物测量学的人类表现

Matthew Sinclair基督教F. Baumgartner Jacqueline Matthew白文佳Juan Cerrolaza Martinez李元伟Sandra Smith Caroline L. Knight Bernhard Kainz Jo Hajnal Andrew P. King丹尼尔Rueckert

胎儿超声图像头部生物测量学的测量对于监测胎儿的健康发育至关重要。然而,相关解剖结构的准确测量在临床上易受到观察者间差异的影响。为了解决这个问题,提出了一种利用完全卷积网络(FCN)的自动化方法来确定胎儿头围(HC)和双顶径(BPD)的测量值。在常规筛查检查期间,由约45名不同超声检查员提供的注释在大约20002D超声头部图像上训练FCN,以执行头部的语义分割。将椭圆拟合到所产生的分割轮廓上以模仿通常由超声波检查师产生的注释。该模型‘ 他们的表现与观察者间的差异性进行了比较,其中两位专家手动注释了100张测试图像。HC的平均绝对模型专家误差稍好于观察者间误差(1.99mm2.16mm),BPD0.61mm0.59mm)和Dice系数(0.9800.980)可比。我们的研究结果表明,该模型在与人类专家相似的水平上执行,并学习从许多超声工作者注释的大型数据集中产生准确的预测。此外,在GPU上以近似实时15fps的速度生成测量数据,这可以加快熟练和受训超声工作者的临床工作流程。[1804.09102v1] BPD0.61mm0.59mm)以及Dice系数(0.9800.980)相当。我们的研究结果表明,该模型在与人类专家相似的水平上执行,并学习从许多超声工作者注释的大型数据集中产生准确的预测。此外,在GPU上以近似实时15fps的速度生成测量数据,这可以加快熟练和受训超声工作者的临床工作流程。[1804.09102v1] BPD0.61mm0.59mm)以及Dice系数(0.9800.980)相当。我们的研究结果表明,该模型在与人类专家相似的水平上执行,并学习从许多超声工作者注释的大型数据集中产生准确的预测。此外,在GPU上以近似实时15fps的速度生成测量数据,这可以加快熟练和受训超声工作者的临床工作流程。[1804.09102v1] 这可以加速熟练和实习超声科医师的临床工作流程。[1804.09102v1] 这可以加速熟练和实习超声科医师的临床工作流程。[1804.09102v1]

 

MaskFusion:实时识别,跟踪和重建多个移动物体

马丁Rünz,卢尔德Agapito

我们提供MaskFusion,一种实时的,对象感知的,语义和动态的RGB-D SLAM系统,超越了传统系统的输出几何图形 – MaskFusion识别,分割和分配语义类标签给场景中的不同对象,即使在他们独立于相机移动时也能跟踪和重建它们。当RGB-D相机扫描杂乱的场景时,基于图像的实例级语义分割会创建语义对象遮罩,以启用实时对象识别并创建世界地图的对象级别表示。与以往基于识别的SLAM系统不同,MaskFusion不需要事先知道或已知的可识别物体模型,并且可以处理多个独立运动。与最近启用语义的SLAM系统执行体素级语义分割不同,MaskFusion充分利用实例级语义分割功能将语义标签融合到对象感知图中。我们展示增强现实应用程序,演示MaskFusion的地图输出的独特功能:实例感知,语义和动态。[1804.09194v1]

 

自动鼠器官分割:基于深度学习的解决方案

Naveen AshishMi-Youn Brusniak

动物横切面图像的分析,如实验室小鼠的横切面,对评估实验药物的效果至关重要,例如候选化合物在临床前药物开发阶段的生物分布。放射性标记的候选治疗化合物的组织分布可以使用诸如定量全身放射自显影(QWBA)之类的技术来量化。除其他方面外,QWBA依赖于动物横截面图像中的关键关键器官例如脑的准确分割或鉴定,脊椎,心脏,肝脏等。我们提出了一个基于深度学习的器官分割解决方案来解决这个问题,利用这个解决方案,我们可以实现对关键器官的高精度自动器官分割(根据器官的0.83-0.95范围内的芯片系数)。[1804.09205v1]

 

人脸识别:野外灵长类动物

Debayan DebSusan WiperAlexandra RussoSixue GongYichun ShiCori TymoszekAnil Jain

我们提出了一种灵长类人脸识别的新方法,并对几种濒危灵长类动物(包括金猴,狐猴和黑猩猩)进行评估。这三个数据集共包含来自14个物种的280个个体灵长类动物的11,637幅图像。灵长类人脸识别性能评估使用两个现有的最先进的开源系统,(iFaceNet和(iiSphereFace,(iii)来自文献的狐猴人脸识别系统,以及(iv)我们的新卷积神经网络(CNN)架构称为PrimNet。考虑三种识别方案:验证(11比较)以及开放式和闭合式识别(1N搜索)。我们证明PrimNet在所有三种情况下对所有测试的灵长类物种都优于所有其他系统。最后,我们实施了这种识别系统的Android应用程序,以协助灵长类动物研究人员和野生动物保护主义者对灵长类动物进行个体识别。[1804.08790v1]

 

学习看到无形:端到端的可训练的Amodal实例分割

Patrick FollmannRebecca KingPhilippHärtingerMichael Klostermann

语义amodal分割是最近提出的实例感知分割的扩展,包括预测每个对象实例的不可见区域。我们提出了第一个用于语义amodal分割的一体化端到端可训练模型,该模型可预测单个正向通道中的amodal实例蒙版以及其可见和不可见部分。在详细的分析中,我们提供实验来展示哪种体系结构选择对于一体式amodal分割模型有利。在COCO amodal数据集上,我们的模型大大优于目前的amodal分割基线。为了进一步评估我们的模型,我们为语义amodal分割,D2S amodalCOCOA cls提供了两个新的数据集。对于这两个数据集,我们的模型都提供了强大的基准性能。使用特殊数据增强技术,我们表明,即使没有提供节律训练数据,D2S amodal上的amodal分割也可能具有合理的性能。[1804.08864v1]

 

三维点云数据动态手势的时空学习

约书亚Owoyemi,桥本光一

在本文中,我们使用从3D传感器获取的点云的新手势数据集演示了3D点云数据的端到端时空手势学习方法。从手势示例数据中学习了九类手势。我们将点云数据映射到密集的占用网格,然后将占用网格的时间步长用作三维卷积神经网络的输入,该神经网络学习数据中的时空特征,而没有明确的手势动态建模。我们还为点云数据增强引入了三维兴趣区抖动方法。当增加的数据被添加到原始训练数据时,这导致分类准确度提高高达10%。所开发的模型能够以84.44%的准确度对来自数据集的手势进行分类。我们建议点云数据将成为场景理解和动作识别的更可行的数据类型,因为3D传感器在未来数年内将无处不在。[1804.08859v1]

 

机器视觉算法在镇流器退化评估中的Matlab实现

Zixu Zhao

美国拥有庞大的铁路系统。截至2006年,美国货运铁路拥有标准轨距140,490英里,但保持如此庞大的系统并消除由铁路道degradation降低引起的轨道稳定性和排水不良等危险性,需要大量的人力。量化压载水降解的传统方法是通过压载水采样和筛分分析使用称为结垢指数(FI)的指标。然而,确定实验室中的FI值是非常耗时和费力的,但是借助计算机视觉领域的最新发展,可以采用潜在的基于机器视觉的压载检查系统的新方法,其可以有望替代传统的机械方法。新的机器视觉方法分析了在线镇流器的图像,然后利用图像分割算法得到压载段。通过比较分段结果及其相应的FI值,这种新方法产生了一个与FI具有最佳拟合关系的基于机器视觉的索引。本报告讨论了该算法的实现细节。[1804.08835v1]

 

解释基于高光谱成像的植物病害鉴定:3D CNN和显着图

Koushik NagasubramanianSarah JonesAsheesh K. SinghArti SinghBaskar GanapathysubramanianSoumik Sarkar

我们的首要目标是利用高光谱数据开发一个准确和可解释的植物病害鉴定模型。木炭腐烂是一种土壤传播的真菌病,影响全球大豆作物的产量。在383-1032nm范围内的240个不同波长捕获高光谱图像。我们开发了用于大豆炭腐病鉴定的三维卷积神经网络模型。我们的模型具有95.73%的分类准确率和0.87的感染类F1分数。我们使用显着图推断训练模型,并将启用分类的最敏感像素位置可视化。使用显着图可视化也确定了单个波长对分类的灵敏度。我们使用显着图可视化将最敏感的波长确定为733 nm。由于最敏感的波长位于电磁频谱的近红外区域(700 – 1000 nm),这也是确定植物植物健康状况的常用光谱区域,我们对使用我们的模型的预测更有信心。[1804.08831v1]

 

DeepDIVA:可重复实验的高性能Python框架

Michele AlbertiVinaychandran PondenkandathMarcelWürschRolf IngoldMarcus Liwicki

我们引入DeepDIVA:基础设施,旨在通过大量有用的分析功能,快速,直观地设置可重复实验。重现科学结果可能是令人沮丧的体验,不仅在文档图像分析方面,而且在整体机器学习方面。使用DeepDIVA,研究人员可以使用非常有限的信息重现给定的实验,或与其他人共享他们自己的实验。此外,该框架提供了大量的功能,例如样板代码,跟踪实验,超参数优化以及数据和结果的可视化。为了证明这个框架的有效性,本文介绍了手写文档分析领域的案例研究,研究人员从集成功能中受益。DeepDIVAPython中实现,并使用深度学习框架PyTorch。它是完全开源的,可以通过DIVAServices作为Web服务访问。[1805.00329v1]

 

通过深度视觉意识潜在物品嵌入发现风格趋势

Murium IqbalAdair KovacKamelia Aryafar

在本文中,我们探讨了潜在狄利克雷分配(LDA)和多语言潜在狄利克雷分配(PolyLDA),作为从预训练卷积神经网络和基于文本的项目属性中转移来的深度视觉语义特征来发现库存趋势风格的一种手段。为了利用与LDA相结合的深层视觉语义特征,我们开发了一种创建展开图像矢量的单词表示的方法。通过查看Resnet-50的卷积层内的通道作为单词的代表,我们可以索引这些激活以创建可视文档。然后,我们通过这些文档训练LDA来发现图像中的潜在风格。我们还将基于文本的数据与PolyLDA结合在一起,其中每个表示都被视为试图描述相同样式的独立语言。结果主题被证明是我们平台上视觉风格的绝佳指标。[1804.08704v1]

 

DenseFuse:融合红外和可见图像的方法

Hui Li, Xiao-Jun Wu

在本文中,我们提出了一种新颖的红外和可见光图像融合问题的深度学习体系结构。与传统的卷积网络相比,我们的编码网络由卷积神经网络层和密集块组合,其中每层的输出连接到每个其他层。我们试图使用这种架构在编码过程中从源图像中获得更多有用的特性。两种融合策略旨在融合这些功能。最后,融合图像由解码器重建。与现有的融合方法相比,所提出的融合方法在客观和主观评估方面达到了最高水平的性能。代码和预训练模型可在https://github.com/exceptionLi/imagefusion_densefuse [1804.08361v2]

 

生物识别数据的连体生成对抗私有化者

Witold OleszkiewiczTomaszWłodarczykKarol PiczakTomasz TrzcinskiPeter KairouzRam Rajagopal

最先进的机器学习算法可能会被精心设计的敌对示例所迷惑。因此,对抗性的例子提出了人工智能安全的具体问题。在这项工作中,我们转换表格并提出以下问题:我们是否可以利用对抗性示例的力量来防止恶意对手学习敏感信息,同时允许非恶意实体充分受益于已发布数据集的效用?为了回答这个问题,我们提出了一种新型的连体生成敌对私有化者,利用连体神经网络的属性来发现传达私人信息的区分特征。当与生成对抗网络相结合时,我们的模型能够正确定位和掩饰敏感信息,而最小的失真约束则禁止网络降低所得数据集的效用。我们的方法在指纹生物识别数据集上显示出有希望的结果。[1804.08757v1]

 

从不同大小的离线手写签名中学习固定大小的表示法

Luiz G. HafemannRobert SabourinLuiz S. Oliveira

在最近的文献中已经成功地提出了用于离线手写签名验证的学习特征表示的方法,使用深度卷积神经网络来学习来自签名像素的表示。与手工制作的特征提取器相比,这些方法报告有大的性能改进。然而,他们还引入了一个重要的约束:神经网络的输入必须具有固定的大小,而不同用户之间的签名大小差别很大。在本文中,我们提出通过使用空间金字塔池来修改网络体系结构,从可变大小的签名中学习一个固定大小的表示来解决这个问题。我们还调查了用于培训的图像分辨率的影响,以及适应(微调)表示到新的操作条件(不同的采集协议,如书写工具和扫描分辨率)的影响。在GPDS数据集上,我们实现了与最先进技术相媲美的结果,同时消除了要处理签名的最大大小的限制。我们还表明,使用更高的分辨率(300600dpi)可以提高性能,当来自用户子集的熟练伪造可用于特征学习时,如果只使用真正的签名,则可以使用较低的分辨率(大约100dpi)。最后,我们证明,当操作条件改变时,微调可以提高性能。[1804.00448v2] 我们取得了与现有技术相媲美的结果,同时消除了要处理签名的最大尺寸的限制。我们还表明,使用更高的分辨率(300600dpi)可以提高性能,当来自用户子集的熟练伪造可用于特征学习时,如果只使用真正的签名,则可以使用较低的分辨率(大约100dpi)。最后,我们证明,当操作条件改变时,微调可以提高性能。[1804.00448v2] 我们取得了与现有技术相媲美的结果,同时消除了要处理签名的最大尺寸的限制。我们还表明,使用更高的分辨率(300600dpi)可以提高性能,当来自用户子集的熟练伪造可用于特征学习时,如果只使用真正的签名,则可以使用较低的分辨率(大约100dpi)。最后,我们证明,当操作条件改变时,微调可以提高性能。[1804.00448v2] 但如果只使用真正的签名,则可以使用较低的分辨率(约100dpi)。最后,我们证明,当操作条件改变时,微调可以提高性能。[1804.00448v2] 但如果只使用真正的签名,则可以使用较低的分辨率(约100dpi)。最后,我们证明,当操作条件改变时,微调可以提高性能。[1804.00448v2]

 

对神经网络超参数的一种严谨的方法:第1部分学习速度,批量大小,动量和重量衰减

莱斯利N.史密斯

虽然深度学习在过去几年中为图像,语音和视频处理应用带来了令人瞩目的成功,但大多数训练的超参数并不理想,需要不必要的长时间训练。设置超参数仍然是一种黑色艺术,需要多年的经验才能获得。本报告提出了几种有效的方法来设置超参数,从而显着缩短培训时间并提高性能。具体而言,本报告展示了如何检查训练验证/测试损失函数以寻找适合不足和过度拟合的细微线索,并提出了走向最佳平衡点的指导方针。然后讨论如何增加/减少学习速度/动力来加速训练。我们的实验表明,平衡每种数据集和体系结构的正规化方式至关重要。重量衰减被用作样本调节器来显示其最优值与学习速率和动量紧密结合的方式。有助于复制此处报告的结果的文件可用。[1803.09820v2]

 

组标准化

Yuxin Wu, Kaiming He

批量标准化(BN)是深度学习发展中的一项里程碑式技术,可让各种网络进行培训。但是,沿着批量维度进行归一化会带来一些问题批量统计估算不准确导致批量变小时,BN的误差迅速增加。这限制了BN用于培训更大型号的功能,并将功能转移到计算机视觉任务,包括检测,分割和视频,这些任务都需要小批量的内存消耗。在本文中,我们提出组标准化(GN)作为BN的简单替代方案。GN将通道分成组,并在每组内计算标准化的均值和方差。GN的计算与批量大小无关,并且其准确度在各种批量大小下都很稳定。在ImageNet上训练的ResNet-50上,GN使用批量大小为2时的错误率比BN对手低10.6当使用典型的批量时,GNBN相当,并且优于其他标准化变量。而且,GN可以自然地从预培训转向微调。GN可以胜过其基于国阵的同行在COCO中进行目标检测和分割,以及在Kinetics中进行视频分类,表明GN可以在各种任务中有效地取代强大的BNGN可以通过现代库中的几行代码轻松实现。[1803.08494v2] GN可以自然地从预培训转向微调。GN可以胜过其基于国阵的同行在COCO中进行目标检测和分割,以及在Kinetics中进行视频分类,表明GN可以在各种任务中有效地取代强大的BNGN可以通过现代库中的几行代码轻松实现。[1803.08494v2] GN可以自然地从预培训转向微调。GN可以胜过其基于国阵的同行在COCO中进行目标检测和分割,以及在Kinetics中进行视频分类,表明GN可以在各种任务中有效地取代强大的BNGN可以通过现代库中的几行代码轻松实现。[1803.08494v2]

 

用深像素级先验求解反演计算成像问题

Akshat DaveAnil Kumar VadathyaRamana SubramanyamRahul BaburajanKaushik Mitra

信号重建是计算成像的一个具有挑战性的方面,因为它通常涉及解决不适定的反问题。最近,深度前馈神经网络导致了解决各种逆成像问题的最新成果。然而,作为特定任务,这些网络必须针对每个反向问题进行学习。另一方面,更灵活的方法是先学习一个深度生成模型,然后在解决各种反问题之前用它作为信号。我们表明,在各种艺术深度生成模型中,自回归模型特别适合我们的目的,原因如下。首先,他们明确地建模像素级依赖关系,因此能够更好地重构低级细节,如纹理图案和边缘。第二,它们为之前的图像提供了明确的表达,然后可以将其用于基于MAP的推理以及正向模型。第三,它们可以对图像中的长距离依赖进行建模,这使得它们成为处理各种压缩成像系统遇到的全局多路复用的理想选择。我们证明了我们提出的方法在解决三个计算成像问题方面的功效:单像素相机(SPC),LiSensFlatCam。对于真实和模拟的情况,我们在感知和量化指标方面获得比最先进的方法更好的重建。[1802.09850v2] 他们可以对图像中的长距离依赖进行建模,使其成为处理各种压缩成像系统遇到的全局多路复用的理想选择。我们证明了我们提出的方法在解决三个计算成像问题方面的功效:单像素相机(SPC),LiSensFlatCam。对于真实和模拟的情况,我们在感知和量化指标方面获得比最先进的方法更好的重建。[1802.09850v2] 他们可以对图像中的长距离依赖进行建模,使其成为处理各种压缩成像系统遇到的全局多路复用的理想选择。我们证明了我们提出的方法在解决三个计算成像问题方面的功效:单像素相机(SPC),LiSensFlatCam。对于真实和模拟的情况,我们在感知和量化指标方面获得比最先进的方法更好的重建。[1802.09850v2]

 

多视点一致性作为学习形状和姿态预测的监控信号

Shubham TulsianiAlexei A. EfrosJitendra Malik

我们提出了一个学习单视图形状和姿态预测的框架,而无需使用直接监督。我们的方法允许利用来自未知姿势的多视角观察作为训练期间的监督信号。我们提出的训练设置强化独立预测的形状和来自同一实例的两个视图的姿势之间的几何一致性。因此,我们学习在一个新兴的规范(视图不可知)框架中预测形状以及相应的姿态预测器。我们展示了使用ShapeNet数据集的经验和定性结果,并观察到依靠更强大的监督形式的先前技术的鼓励性竞争表现。我们还展示了我们的框架在超出现有技术范围的现实环境中的适用性:使用包含在线产品图像的基础形状和姿势未知的训练数据集。[1801.03910v2]

 

端到端的弱监督语义对齐

Ignacio RoccoRelja ArandjelovicJosef Sivic

我们处理语义对齐的任务,其目标是计算密集的语义对应关系,以对齐描述同一类别的对象的两幅图像。这是一个具有挑战性的任务,因为课堂内部变化很大,视点和背景混乱。我们提出以下三个主要贡献。首先,我们开发了一种语义对齐的卷积神经网络体系结构,可以以匹配图像对的形式从弱图像级监督中以端对端的方式进行训练。结果是参数是从不同但语义相关的图像中出现的丰富外观变化中学习的,而不需要在训练时间对繁琐的人工信函进行手动注释。其次,这种架构的主要组成部分是一个可区分的软件内部评分模块,受RANSAC inlier评分程序的启发,该程序仅基于几何一致的对应关系计算对齐的质量,从而减少背景杂乱的影响。第三,我们证明了所提出的方法在多个标准基准语义对齐方面实现了最先进的性能。[1712.06861v2]

 

3D场景的2D图像中分解形状,姿态和布局

Shubham TulsianiSaurabh GuptaDavid FouheyAlexei A. EfrosJitendra Malik

本文的目标是根据一小组因素来获取场景的单个2D图像并恢复3D结构:代表封闭曲面的布局以及用形状和姿势表示的一组对象。我们提出了一种基于卷积神经网络的方法来预测这种表示,并在一个大型的室内场景数据集上进行基准测试。我们的实验评估了一些实际的设计问题,证明我们可以推断出这种表示,并且与替代表示相比,我们可以定性和定性地展示它的优点。[1712.01812v2]

 

胸部疾病的识别和定位有限的监督

Zhe Li, Chong Wang, Mei Han, Yuan Xue, Wei Wei, Li-Jia Li, Li Fei-Fei

准确识别和定位放射图像中的异常是临床诊断和治疗计划中不可或缺的一部分。为这些任务构建高度准确的预测模型通常需要大量手动标注标签并找到异常位置的图像。但实际上,这些注释数据的获取成本很高,尤其是那些带有位置注释的数据。我们只需要少量的位置注释即可使用这些方法。为了应对这一挑战,我们提出了一个统一的方法,通过所有图像的相同基础模型同时进行疾病识别和定位。我们证明我们的方法可以有效地利用类信息以及有限的位置注释,并且在分类和本地化任务中都明显优于比较参考基准。[1711.06373v5]

 

Wasserstein距离和感知损失生成敌对网络的低剂量CT图像去噪

Qingsong Yang, Pingkun Yan, Yanbo Zhang, Hengyong Yu, Yongyi Shi, Xuanqin Mou, Mannudeep K. Kalra, Ge Wang

本文介绍一种基于生成对抗网络(GAN)的新的CT图像去噪方法,具有Wasserstein距离和感知相似性。Wasserstein距离是最优变换理论的一个关键概念,并有望改善GAN的性能。感知损失将已去噪输出的感知特征与已建立特征空间中的基本事实的感知特征进行比较,而GAN有助于将数据噪声分布从强到弱迁移。因此,我们提出的方法将我们的视觉感知知识转移到图像去噪任务上,不仅能够降低图像噪声水平,而且能够同时保持关键信息。我们在临床CT图像实验中取得了有希望的结果。[1708.00961v2]

 

迈向基于视觉的智能医院:跟踪和监测手部卫生合规性的系统

Albert Haque, Michelle Guo, Alexandre Alahi, Serena Yeung, Zelun Luo, Alisha Rege, Jeffrey Jopling, Lance Downing, William Beninati, Amit Singh, Terry Platchek, Arnold Milstein, Li Fei-Fei

25名入院的患者中有一名会患上医院获得性感染。如果我们能够智能跟踪医疗人员,患者和访问者,我们可以更好地了解这些感染的来源。我们设想一家智能医院能够以更少的开支提高运营效率并改善患者护理。在本文中,我们提出了一种用于跟踪人们在医院中的活动的非侵入式基于视觉的系统。我们评估我们的测量手部卫生依从性问题的方法。在经验上,我们的方法胜过现有的解决方案,如基于接近度的技术和隐蔽的个人观察研究。我们提供直观的定性结果,分析人体运动模式,并进行空间分析,传达我们方法的解释性。这项工作是迈向基于计算机视觉的智能医院的一个步骤,并展示了减少医院获得性感染的可喜成果。[1708.00163v3]

 

学习视觉跟踪的空间感知回归

Chong Sun, Dong Wang, Huchuan Lu, Ming-Hsuan Yang

在本文中,我们分析深部特征的空间信息,并提出两个互补的回归用于稳健的视觉跟踪。首先,我们提出了一个核化岭回归模型,其中核值被定义为两个样本之间所有斑块对的相似性得分的加权和。我们表明,这个模型可以被制定为一个神经网络,因此可以有效地解决。其次,我们提出了一个具有空间正则化内核的完全卷积神经网络,通过这个网络,与每个输出通道对应的滤波器内核被迫集中在目标的特定区域。进一步利用距离变换池来确定卷积层的每个输出通道的有效性。将核化岭回归模型和完全卷积神经网络的输出结合起来以获得最终响应。两个基准数据集上的实验结果验证了所提出方法的有效性。[1706.07457v2]

 

基于三维模型的坐标指标学习生成模型在物体识别中的应用

Yida Wang, Weihong Deng

鉴于大量的真实照片用于训练,卷积神经网络在物体识别任务上表现出优异的性能。但是,收集数据的过程非常繁琐,背景也非常有限,难以建立完美的数据库。在本文中,我们的生成模型使用3D模型生成的合成图像进行训练,减少了数据收集和条件限制的工作量。我们的结构由两个子网络组成:基于贝叶斯推理和基于多三元代价函数的分类网络的语义前景对象重建网络,通过在每个类别中建立描述符的球状分布来避免单调表面上的过拟合问题,充分利用姿态信息,有助于识别根据渲染图像的姿势,照明条件,背景和类别信息定期拍摄照片。首先,我们的共轭结构称为具有度量学习的生成模型,利用由贝叶斯渲染生成的附加前景对象通道作为两个子网络的联合。基于物体识别姿态的多三元成本函数被用于度量学习,这使得可以纯粹基于合成数据训练类别分类器。其次,我们利用自适应噪声作为输入图像的腐败来设计协调训练策略,以帮助两个子网络相互获益,并避免由于两个子网络的不同收敛速度而导致参数调谐不协调。我们的结构在ShapeNet数据库上实现了超过50%的最高精度,并具有从合成图像到真实照片的数据迁移障碍。该流水线使其仅适用于基于3D模型对真实图像进行识别。[1705.08590v2] 我们的结构在ShapeNet数据库上实现了超过50%的最高精度,并具有从合成图像到真实照片的数据迁移障碍。该流水线使其仅适用于基于3D模型对真实图像进行识别。[1705.08590v2] 我们的结构在ShapeNet数据库上实现了超过50%的最高精度,并具有从合成图像到真实照片的数据迁移障碍。该流水线使其仅适用于基于3D模型对真实图像进行识别。[1705.08590v2]

 

用于多目标跟踪的头部和全身检测器的融合

Roberto HenschelLaura Leal-TaixéDaniel CremersBodo Rosenhahn

为了跟踪场景中的所有人,逐个检测范例已被证明是一种非常有效的方法。然而,仅仅依靠单个探测器也是一个主要限制,因为有用的图像信息可能被忽略。因此,这项工作演示了如何将两个探测器融合到跟踪系统中。为了获得轨迹,我们建议将追踪制定为加权图标记问题,从而产生二元二次程序。由于这些问题是NP难题,因此解决方案只能近似。基于Frank-Wolfe算法,我们提出了一种解决这些难题的关键解决方案。针对多种情况提供了行人跟踪评估,与单个检测器跟踪和标准QP解算器相比,显示出优越的效果。最后,我们的追踪器在MOT16基准测试中名列第二,在新的MOT17基准测试中名列第一,超过90个追踪器。[1705.08314v4]

 

使用不确定性对场景几何和语义的损失进行多任务学习

Alex KendallYarin GalRoberto Cipolla

众多深度学习应用程序受益于具有多重回归和分类目标的多任务学习。在本文中,我们观察到这种系统的性能强烈依赖于每个任务损失之间的相对权重。手动调整这些权重是一个困难且昂贵的过程,使得多任务学习在实践中受到限制。我们提出了一个多任务深度学习的原理方法,通过考虑每个任务的同方差不确定性来权衡多个损失函数。这使我们能够在分类和回归设置中同时学习具有不同单位或比例的各种数量。我们演示了我们的模型学习单像素输入图像的每像素深度回归,语义和实例分割。也许令人惊讶的是 我们展示了我们的模型可以学习多任务权重并且胜过在每个任务上单独训练的单独模型。[1705.07115v3]

转载请注明:《端到端的弱监督语义对齐+ DenseFuse:融合红外和可见光图像的方法

发表评论