金字塔注意力网络的语义分割

机器学习在MR光谱成像中代谢产物的量化

Dhritiman DasEduardo CoelloRolf F SchulteBjoern H Menze

磁共振波谱成像(MRSI)是一种用于体内测量组织代谢物水平的临床成像模式。准确估计光谱参数可以更好地评估光谱质量和代谢物浓度水平。目前的黄金标准量化方法是LCModel–一种商业拟合工具。然而,这对于信噪比(SNR)差或者大量伪像的谱来说是失败的。本文介绍了一种基于随机森林回归的框架,用于精确估计基于模型的MR光谱数据分析的输出参数。我们提出的框架的目标是从包含模拟和体内脑部光谱的不同变化的训练集中学习谱特征,然后将此学习用于随后的代谢物量化。实验涉及训练和测试模拟和体内人类大脑光谱。我们估计代谢物浓度等参数,并将我们的结果与LCModel的结果进行比较。[1805.10201v1]

并行体系结构和超参数搜索通过连续对分和分类

马诺伊库马尔,乔治E.达尔,维杰瓦苏德万,穆罕默德诺罗齐

我们提出了一个简单而强大的并行黑盒优化算法,称为连续对分和分类(SHAC)。该算法在$ K $阶段的并行函数评估中运行,并训练级联二进制分类器以反复剔除搜索空间中不需要的区域。SHAC易于实现,不需要调整自己的配置参数,对目标函数的规模不变,并且可以使用任何二进制分类器的选择来构建。我们在SHAC中采用基于树的分类器,并针对几个强大的基线实现竞争性性能,以优化合成函数,超参数和体系结构。[1805.10255v1]

利用coprime映射转换生成受保护的指纹模板

Rudresh DwivediSomnath Dey

由于生物特征信息是不可替代且不可撤销的,因此如果生物特征数据受到损害,用户的身份将永久丢失。为了撤销并重新发布新的模板以代替受损的生物特征模板,已经引入了可取消的生物特征识别的思想。可撤销生物特征背后的概念是不可逆地转换原始生物特征模板并在受保护的域中执行比较。在本文中,提出了一种互质转换方案来导出受保护的指纹模板。该方法将指纹区域相对于每个细节点划分为多个扇区,并识别每个扇区中的最近邻细节。然后,计算所有相邻细节点的脊特征并将其映射到随机矩阵的共素位上以生成可消除模板。所提出的方法在FVC2002DB1DB2DB3DB4数据集上获得1.82,1.39,4.025.77EER以及在FVC2004数据库的DB1DB2DB3DB4数据集上的8.70,7.95,5.234.87EER,分别。实验评估表明,与当前最先进的技术相比,该方法的性能优于传统技术。此外,从安全性分析已经证实,所提出的方法实现了多样性,可撤销性和不可逆性的期望特性,并且转换造成的性能降低很小。[1805.10108v1] FVC2002DB3DB4数据集以及分别在FVC2004数据库的DB1DB2DB3DB4数据集上的8.70,7.95,5.234.87EER。实验评估表明,与当前最先进的技术相比,该方法的性能优于传统技术。此外,从安全性分析已经证实,所提出的方法实现了多样性,可撤销性和不可逆性的期望特性,并且转换造成的性能降低很小。[1805.10108v1] FVC2002DB3DB4数据集以及分别在FVC2004数据库的DB1DB2DB3DB4数据集上的8.70,7.95,5.234.87EER。实验评估表明,与当前最先进的技术相比,该方法的性能优于传统技术。此外,从安全性分析已经证实,所提出的方法实现了多样性,可撤销性和不可逆性的期望特性,并且转换造成的性能降低很小。[1805.10108v1] 已经从安全性分析中证实,所提出的方法实现了多样性,可撤销性和不可逆性的期望特性,并且转换造成的性能降低很小。[1805.10108v1] 已经从安全性分析中证实,所提出的方法实现了多样性,可撤销性和不可逆性的期望特性,并且转换造成的性能降低很小。[1805.10108v1]

心理物理,Gestalts和游戏

JoséLezamaSamy BlusseauJean-Michel MorelGregory RandallGioiRafael Grompone

许多心理物理学研究致力于评估点或Gabor模式上的人类格式塔检测,并模拟其对模式和背景参数的依赖性。尽管如此,即使对于这些受限制的感知,心理物理学还没有达到具有挑战性的预测阶段,其中人类检测将通过(通用)模型进行定量预测。另一方面,计算机视觉试图定义自动检测阈值。本章勾勒出一个程序来面对这两种启发于格式主义的方法论。使用非偶然性原理的计算量化版本,我们提出了可能适用于点或Gabor模式的心理物理学和(较旧)格式概率设置在图灵测试中找到有用补充的可能性。在我们的感性Turing测试中,科学家将人类的表现与计算机给出的检测结果进行比较。这种对抗可以恢复废弃的格式游戏的方法。我们勾画了这种游戏的细节,其中实验的主题面向对齐检测算法,并被邀请画出可以欺骗它的例子。我们表明,通过这种方式,对齐形式和其计算公式的更精确的定义似乎出现了。检测算法也可能与更经典的心理物理学设置相关,他们可以再次扮演图灵测试的角色。在视觉实验中,受试者被邀请检测Gabor图案中的对齐,我们将单个函数关联起来,以一系列虚警(NFA)的形式测量对齐可检测性。第一个结果表明,作为所有模拟参数的函数,NFA的值与人体检测高度相关。这个事实,我们打算通过进一步的实验来支持,最终可能会证实人类定位检测是单一机制的结果。[1805.10210v1]

金字塔注意网络的语义分割

Hanchao Li, Pengfei Xiong, Jie An, Lingxue Wang

金字塔注意网络(PAN)被提出来利用全球语境信息在语义分割中的影响。与大多数现有的作品不同,我们结合注意机制和空间金字塔来提取精确的像素标记密集特征,而不是复杂的扩张卷积和人为设计的解码器网络。具体来说,我们引入了特征金字塔注意模块来对高层输出执行空间金字塔注意结构,并将全局池合并以学习更好的特征表示,并在每个解码器层上提供全局注意上升模块以提供全局上下文作为低级别的功能来选择类别本地化的细节。该提议的方法在PASCAL VOC 2012Cityscapes基准测试中实现了最新的性能,在PASCAL VOC 2012上新记录的mIoU准确率为84.0%,而没有COCO数据集的训练。[1805.10180v1]

用于X射线乳腺肿块分割和形状分类的条件生成对抗和卷积网络

Vivek Kumar SinghSantiago RomaniHatem A. RashwanFarhan AkramNidhi PandeyMdMostafa Kamal SarkerJordina Torrents BarrenaAdel SalehMeritxell ArenasDomenec Puig

本文提出了一种基于条件生成对抗网络的含有大规模投资回报率的乳腺肿块图像作物的乳腺肿块分割新方法,因为其结构非常适合准确描绘大规模边界,特别是当可用的培训样本很少时:生成网络学习而对抗性网络强制分割与地面真实样本相似。对从公共DDSM数据集和我们内部数据集提取的数十种恶性肿瘤进行的实验证实了我们的假设,JaccardDice系数非常高(分别> 89%,> 94%),超过了其他州最先进的方法。此外,为了检查生成的二元掩模描绘肿瘤的显着形态学特征,我们还设计了特定的卷积神经网络用于将肿瘤区域分为四种类型(圆形,椭圆形,小叶形或不规则形),其提供总体准确度的大约72 [1805.10207v1]

f-CNN $ ^ {\ text {x}} $:用于在FPGA上映射多个卷积神经网络的工具流程

Stylianos I. VenierisChristos-Savvas Bouganis

卷积神经网络(CNN)的预测能力已经成为新兴的延迟敏感型应用(如自主无人机和车辆)的一个必不可少的因素。这种系统使用多个CNN,每个CNN都受过特定任务的训练。在单个FPGA器件上有效地映射多个CNN是一项具有挑战性的任务,因为计算资源和外部存储器带宽的分配需要在设计时进行优化。本文提出了f-CNN $ ^ {\ text {x}} $,这是一种自动工具流程,用于优化FPGA上多个CNN的映射,包括一种新型多CNN硬件体系结构以及考虑用户的自动化设计空间探索方法为每个模型分配计算资源并生成可合成加速器的指定性能要求。此外,f-CNN $ ^ {\ text {x}} $采用了一种新颖的调度算法,可以缓解CNN之间存储器带宽争用的局限性并保持架构的高利用率。实验评估表明,在高度优化的多GPU设计中,f-CNN $ {\ text {x}} $的设计性能优于竞争未知的FPGA映射高达50%,并且每瓦性能提高了6.8-CNN系统。[1805.10174v1]

深层功能词典:从函数学习三维模型的一致语义结构

Minhyuk Sung,郝苏,Ronald YuLeonidas Guibas

各种3D语义属性(如分割蒙版,几何特征,关键点和材质)可以编码为3D几何上的按点探测功能。考虑到相关三维形状的集合,我们考虑如何联合分析不同形状的探测函数,以及如何使用神经网络发现常见的潜在结构即使没有任何对应信息。我们的网络接受关于该点云上的形状几何形状和相关语义函数的点云表示的训练。这些功能表达对形状的共同语义理解,但不以任何方式协调。例如,在分段任务中,这些功能可以是任意形状部件组的指示器功能,其中特定的组合不涉及网络。我们的网络能够为每个形状生成一个小型基础函数字典,一个字典,其范围包括为该形状提供的语义函数。尽管我们的形状具有独立的离散性,并且没有提供函数对应关系,但网络能够以一致的顺序生成潜在基,以反映形状之间共享的语义结构。我们证明了我们的技术在各种分段和关键点选择应用中的有效性。[1805.09957v1] 它们反映了形状之间共享的语义结构。我们证明了我们的技术在各种分段和关键点选择应用中的有效性。[1805.09957v1] 它们反映了形状之间共享的语义结构。我们证明了我们的技术在各种分段和关键点选择应用中的有效性。[1805.09957v1]

利用初始体系结构对图像进行状态识别

Md Sirajus SalekinAhmad Babaeian Jelodar

厨房机器人需要了解烹饪环境才能继续烹饪活动。但目标的状态检测还没有像目标检测那样得到很好的研究。在本文中,我们提出了一种深度学习方法来识别厨房机器人的不同烹饪状态。在我们的研究中,我们特别研究了Inception架构的性能,并提出了一种基于Inception模型的改进架构来分类不同的烹饪状态。该模型在不同层次和优化器方面进行了强大的分析。对烹饪数据集的实验结果表明,所提出的模型可能是烹饪状态识别问题的潜在解决方案。[1805.09967v1]

贪心图寻找血管追踪血管造影图像序列

Huihui Fang, Jian Yang, Jianjun Zhu, Danni Ai, Yong Huang, Yurong Jiang, Hong Song, Yongtian Wang

血管造影图像序列的跟踪是心脏疾病诊断评估和介入指导中最重要的临床任务之一。然而,由于血管造影图像质量不理想和血管结构复杂,这项任务可能难以完成。因此,本研究提出了一种新的基于贪心图搜索的血管追踪方法。每个血管分支从血管分离并且被独立地跟踪。然后,所有分支都使用拓扑优化进行组合,从而导致完整的脉管系统跟踪。采用基于灰度的图像配准方法确定跟踪范围,计算两个连续帧之间的变形场。使用血管中心线提取方法和多概率融合拓扑优化描述血管分支。我们介绍一种无向非循环图建立技术。提出了一种贪心搜索方法来获取图表中可能匹配被跟踪血管分支的所有可能路径。最终的跟踪结果是通过使用DAISY描述符进行动态时间规整的分支匹配来选择的。问题的解决方案反映了连续帧之间的空间和纹理信息。实验结果表明,所提出的方法对血管跟踪有效且鲁棒,在单个分支数据集上获得0.89F1分数,在血管树数据集上获得0.88。这种方法提供了解决丝状结构跟踪问题的通用解决方案。[1805

关键人物辅助重新识别部分有序行人集

Chen Chen, Min Cao, Xiyuan Hu, Silong Peng

理想情况下,人员重新识别寻求完美的特征表示和度量模型,以不同的摄像机配置在不同位置以不重叠的视图重新识别所有各种行人,这非常具有挑战性。然而,在大多数行人套装中,总会有一些相对容易重新识别的杰出人物。受到这种数据分割的启发,我们提出了一种基于重新定义的部分有序行人集的新型关键人员辅助人员重新识别框架。杰出人物,即关键人物,是通过基于K近邻的显着度测量来选择的。行人在监控中进入时间所定义的偏序在时间上将关键人员与查询人联系起来,并有助于找到可能的候选人。对两个视频数据集进行的实验表明,所提出的关键人物辅助框架优于最先进的方法,并且在各个级别大大提高了匹配精度。[1805.10017v1]

通过结构支持相关滤波器进行基于零件的视觉跟踪

Zhangjian Ji, Kai Feng, Yuhua Qian

最近,基于零件和支持向量机(SVM)的追踪器表现出良好的性能。尽管如此,耗时的在线培训和更新过程限制了他们的实时应用程序。为了更好地处理部分遮挡问题并提高其效率,本文提出了一种新颖的基于部分的结构支持相关滤波器跟踪方法,该方法吸收了支持向量机的强判别能力和部分跟踪方法的优越性对部分遮挡敏感。然后,我们提出的模型可以通过星型结构模型共同学习各部分的支持相关滤波器,保留部件之间的空间布局结构并容忍部件的异常值。另外,为了进一步缓解物体偏离的问题,我们将本地部分的帧间一致性引入到我们的模型中。最后,在我们的模型中,我们通过可靠部分之间的相对距离变化准确估计物体的尺度变化。对三个基准数据集(OTB2015TempleColor128VOT2015)进行的广泛的经验性评估表明,所提出的方法在追踪精确度,速度和鲁棒性方面对多个最先进的追踪器表现卓越。[1805.09971v1] TempleColor128VOT2015证明了所提出的方法在追踪精确度,速度和鲁棒性方面优于几个最先进的追踪器。[1805.09971v1] TempleColor128VOT2015证明了所提出的方法在追踪精确度,速度和鲁棒性方面优于几个最先进的追踪器。[1805.09971v1]

无监督地训练GANs,用自动生成的注释对数字病理进行分割

Michael GadermayrLaxmi GuptaBarbara M. KlinkhammerPeter BoorDorit Merhof

最近,生成对抗网络在半监督图像分析场景中表现出优异的性能。在本文中,我们甚至进一步提出了一种完全无监督的方法,用于事先知道对象形状的分割应用程序。我们提出并研究不同的策略来生成模拟标签数据,并使用敌对模型在图像和标签域之间执行图像到图像的转换。具体而言,我们评估了注释模型精度的影响以及模拟其他低级图像特征的影响。为了进行实验评估,我们考虑肾小球的分割,肾病理学的一个应用场景。实验提供概念证明,并且确认考虑到GAN培训的稳定性,用于创建模拟标签数据的策略是特别相关的。[1805.10059v1]

用于少量学习的传导传播网络

刘彦斌,Juho LeeMinseop ParkKim SaehoonYi Yang

少量学习的目标是建立一个学习者,即使在有限数量的标记示例(所谓的低数据问题)可用时,也可以快速推广到新类。元学习通常用于在训练阶段模仿测试环境进行良好的泛化,其中从训练集手动构建情节(即,学习问题)。尽管低数据问题没有得到充分解决,但该框架对于少量学习和令人印象深刻的性能得到了很多关注。在本文中,我们提出了传导性传播网络(Transductive Propagation NetworkTPN),这种传导性方法一次对整个测试集进行分类以缓解低数据问题。具体而言,我们提出的网络明确地学习了适合从少数几个例子中传播标签的底层流形空间,其中特征嵌入,流形结构和标签传播的所有参数在事件中以端对端方式估计。我们在常用的miniImageNettieredImageNet基准上评估所提出的方法,并在这些数据集上实现最先进的或有希望的结果。[1805.10002v1]

利用分布差异对健康成因图像进行病理分割

Simon AndermattAntalHorváthSimon PezoldPhilippe Cattin

我们提出了一种方法来模拟医疗数据中的病理,并对图像层次上标记为健康或包含视觉缺陷的数据进行训练。我们的模型不仅可以让我们创建像素化的语义分割,还可以为分割创建图像,使病理图像更加健康。此外,我们可以根据数据中的分布从这个模型中绘制新的未见病理样本。我们在数量上显示,我们的方法能够以令人惊讶的准确度细分病理并显示分割和修复的定性结果。与监督分割方法的比较表明,我们提出的弱监督分割的准确性仍然非常接近。[1805.10344v1]

用于大规模纤维检测和微观材料图像跟踪的无监督学习

Hongkai Yu, Dazhou Guo, Zhipeng Yan, Wei Liu, Jeff Simmons, Craig P. Przybyla, Song Wang

从连续部分数据构建3D结构是显微镜中长期存在的问题。纤维增强复合材料的结构可以使用逐个检测模型来重建。逐检测算法在很大程度上依赖于检测精度,特别是召回性能。最先进的光纤检测算法在理想条件下表现良好,但由于材料表面的污染物和/或散焦模糊,在图像质量出现局部劣化的地方并不准确。卷积神经网络(CNN)可用于此问题,但需要大量手动注释的光纤,这些光纤不可用。我们提出了一种无监督的学习方法来准确检测大规模的光纤,这对于图像质量的局部劣化是有效的。所提出的方法不需要手动注释,而是使用纤维形状/大小先验和时空一致性跟踪来模拟CNN培训中的监督。实验表明,相比先进的光纤检测算法,显着改进以及先进的跟踪性能。[1805.10256v1]

尺度空间分解的内在图像变换

Lechao Cheng, Chengyi Zhang, Zicheng Liao

我们引入了一种新的网络结构,用于将图像分解为其固有的反照率和阴影。我们将其视为一个图像到图像的转换问题,并探讨输入和输出的尺度空间。通过将输出图像(反照率和阴影)扩展到它们的拉普拉斯金字塔分量,我们开发了一个多通道网络结构,可以在并行的连续频带中学习图像到图像的变换函数,每个通道内都是完全卷积神经网络与跳过连接。该网络结构是通用的和可扩展的,并且已经在内在图像分解问题上表现出优异的性能。我们在两个基准数据集上评估网络:MPI-Sintel数据集和MIT Intrinsic Images数据集。定量和定性结果都表明,我们的模型能够在最先进的状态下提供明确的进展。[1805.10253v1]

基于光场人脸识别的双深度时空角学习框架

Alireza Sepas-MoghaddamMohammad A. HaquePaulo Lobato CorreiaKamal NasrollahiThomas B. MoeslundFernando Pereira

人脸识别由于其广泛的应用而受到越来越多的关注,但面对生物特征数据特征的巨大变化时仍面临挑战。最近,Lenslet光场相机突出捕获丰富的空间角度信息,从而为设计高级生物识别系统提供了新的可能性。本文提出了一种基于光场的人脸识别的双深度空间角学习框架,该框架能够从光场图像中学习卷积表示和角动力学这是一种新颖的识别框架,以前从未提出用于人脸识别或任何其他视觉识别任务。所提出的双深度学习框架包括一个长的短期记忆(LSTM)递归网络,其输入是VGG-Face描述,使用VGG-Very-Deep-16卷积神经网络(CNN)全光场图像,其被组织为伪视频序列。已经使用IST-EURECOM光场人脸数据库进行了一系列全面的实验,以进行各种挑战性的识别任务。结果表明,与最先进的技术相比,所提出的框架实现了卓越的人脸识别性能。[1805.10078v1] 已经使用IST-EURECOM光场人脸数据库进行了一系列全面的实验,以进行各种挑战性的识别任务。结果表明,与最先进的技术相比,所提出的框架实现了卓越的人脸识别性能。[1805.10078v1] 已经使用IST-EURECOM光场人脸数据库进行了一系列全面的实验,以进行各种挑战性的识别任务。结果表明,与最先进的技术相比,所提出的框架实现了卓越的人脸识别性能。[1805.10078v1]

DIF:用于醉酒者识别的醉酒面数据集

Devendra Pratap YadavAbhinav Dhall

交通事故每年导致超过一百万人死亡,其中很大一部分归因于酒后驾车。汽车中的自动醉酒检测系统对于减少交通事故和相关的财务成本是必要的。现有的解决方案需要特殊设备,如心电图,红外摄像机或呼吸测醉器。在这项工作中,我们提出了一个名为DIF(醉酒面孔数据集)的新数据集,其中包含从在线来源获得的醉人和清醒人物的RGB人脸视频。我们分析人脸视频以提取与眼睛注视,脸部姿势和面部表情相关的特征。使用递归神经网络来模拟这些多模式面部特征的演变。我们的实验显示,眼睛注视和面部表情特征对于我们的数据集特别具有区别性。我们在DIF数据集上实现了良好的分类准确性,并显示可以有效地使用面部视频来检测醉酒的人。这样的脸部视频可以通过相机容易地获取并用于防止醉驾事件。[1805.10030v1]

用于面部情感识别的元转移学习

Dung NguyenKien NguyenSridha SridharanIman AbbasnejadDavid DeanClinton Fookes

自动面部表情识别的深度学习技术的使用近来引起了极大的兴趣,但由于缺乏深度学习的大型情绪数据集,所以开发的模型仍不能很好地推广。为了克服这个问题,在本文中,我们提出利用一种依赖于PathNet的新型转移学习方法,并研究如何在给定的数据集中积累知识,以及如何将从一个情感数据集中获取的知识转移到另一个情感数据集中以改进整体表现。为了评估我们系统的稳健性,我们对两个情绪数据集进行了各种实验:SAVEEeNTERFACE。实验结果表明,我们提出的系统导致情感识别的性能得到改善,并且比采用精细/调谐/预先训练的方法的最近的最新技术方案表现得更好。[1805.09946v1]

超越纹理:从多领域艺术图像学习任意样式转换

Zheng Xu, Michael Wilber, Chen Fang, Aaron Hertzmann, Hailin Jin

我们为任意样式传输提供了一个快速前馈网络,可以为以前看不见的内容和样式图像对生成风格化的图像。除了基于深度特征和纹理统计的传统内容和风格表示外,我们还使用对抗网络来调整程式化图像的生成。我们的对抗网络从大型多领域艺术图像中学习图像风格的内在属性。对抗训练是具有挑战性的,因为我们的发生器的输入和输出都是不同的多域图像。我们使用条件生成器,通过移动深度特征的统计信息和基于粗略风格类别的条件判别器来对内容进行风格化。此外,我们提出了一个面具模块来空间地决定程式化水平,并通过避免模式崩溃来稳定对抗训练。作为副作用,我们的训练过的鉴别器可以用于排序和选择具有代表性的程式化图像。我们对所提出的方法进行了定性和定量评估,并与近期的风格转换方法进行了比较。[1805.09987v1]

使用卷积神经网络和深度学习的水下鱼种分类

Dhruv RathiSushant Jain博士 S. Indu

本文的目标是为鱼类物种的自动分类提供一种方法。为了更好地了解鱼类学和海洋生物学家的鱼类行为,需要高精度的鱼类分类。有关机构要求每个物种的鱼类数量保持一个分类,并在大小水域中标记濒危物种。大多数可用的方法都集中在水下的鱼类分类上,因为水下分类会带来诸如背景噪声,图像失真,图像中其他水体的存在,图像质量和遮挡等挑战。该方法使用基于卷积神经网络,深度学习和图像处理的新技术来实现96.29%的准确度。与先前提出的方法相比,该方法确保了显着的鉴别准确性改进 [1805.10106v1]

用于视觉识别的全球和本地关注网络

Drew LinsleyDan ScheiblerSven EberhardtThomas Serre

诸如挤压和激励(SE)残余网络之类的最先进的深度卷积网络(DCN)实现了一种形式的关注,也被称为上下文引导,其从全局图像特征导出。在这里,我们探索了一种补充形式的注意力,称为视觉显着性,它来源于局部图像特征。我们用一种新颖的全球和地方注意力(GALA)模块来扩展SE模块,该模块将两种形式的注意力结合在一起,从而在ILSVRC上获得最新的准确性。我们进一步描述了ClickMe.ai,这是一个为人类参与者设计的大型在线实验,用于识别诊断图像区域以共同训练GALA网络。显示添加人在环中显着提高了网络的准确性,同时也产生更多的可解释的视觉特征,并且更类似于人类观察者所使用的视觉特征。[1805.08819v2]

使用无解码器的卷积网络的语义二进制分割

Shubhra AichWilliam van der KampIan Stavness

在本文中,我们提出了一种使用深度到空间(D2S)操作的有效的语义图像分割体系结构。我们的D2S模型由一个标准的CNN编码器组成,然后对最终的卷积特征映射进行深度到空间的重新排序。我们的方法消除了传统编解码器分段模型的解码器部分,并将计算量减少了近一半。作为DeepGlobe道路提取竞赛的参与者,我们在相应的道路分割数据集上评估我们的模型。我们的高效D2S模型具有与标准分割模型相媲美的性能,且计算成本更低。[1805.00138v2]

CNNs中适当的变形稳定性来说,集中既不必要也不足够

Avraham RudermanNeil C. RabinowitzAri S. MorcosDaniel Zoran

我们关于神经网络如何运作的许多核心假设仍未经验证。一个常见的假设是卷积神经网络需要对小的平移和变形稳定以解决图像识别任务。多年以来,这种稳定性通过结合交错池化层而被纳入到CNN架构中。然而,最近,交错式联营在很大程度上已被放弃。这引发了许多问题:我们对变形稳定性的直觉是否正确?是不是重要?为变形不变性所需的池吗?如果不是,那么在不存在时如何实现变形不变性?在这项工作中,我们对这些问题进行了严格的测试,发现卷积网络中的变形稳定性比第一次出现时更加细致:(1)变形不变性不是二元性质,而是不同的任务需要不同层次的不同程度的变形稳定性。(2)变形稳定性不是网络的固定属性,并且在训练过程中进行了大量调整,主要是通过卷积滤波器的平滑性。(3)为实现自然图像分类的最佳形变稳定性,交织池层既不必要也不足够。(4)池在初始化时赋予图像分类太多的变形稳定性,并且在训练期间,网络必须学会抵消这种感应偏差。总之,这些发现提供了对CNN中交错汇集和变形不变性的作用的新见解,并证明即使我们对神经网络工作最基本的假设进行严格实证检验的重要性。[1804.04438v2]

在胎盘组织学中深层细胞表型的研究

Michael FerlainoCraig A. GlastonburyCarolina Motta-MejiaManu VatishIngrid GranneStephen KennedyCecilia M. LindgrenChristofferNellåker

胎盘是一个复杂的器官,在胎儿发育过程中扮演着多重角色。关于胎盘形态学异常与胎儿生理学之间的关系知之甚少。在这项工作中,我们提出了一个开源,计算易处理的深度学习管道,以分析细胞水平的胎盘组织学。通过使用两种深度卷积神经网络架构和转移学习,我们可以在5个类别内对胎盘细胞进行稳健定位和分类,准确率达89%。此外,我们学习深层嵌入编码表型知识,既能够分层五个不同的细胞群体,也可以学习类内表型差异。我们设想这种管道对胎盘组织学的人口规模研究的自动化有可能提高我们对基本细胞胎盘生物学及其变异的理解,特别是其在预测不良分娩结果中的作用。[1804.03270v2]

广义场景重建

John K. LeffingwellDonald J. MeagherKhan W. MahmudScott Ackerson

称为广义场景重建(GSR)的新的被动方法使得广义场景能够被有效地重构。广义场景被定义为包含非朗伯,部分透射,无纹理和精细结构的物质的无限空间。一种称为全光八叉树的新数据结构被引入,以实现诸如移动电话,增强现实(AR)眼镜和无人机之类的设备中的高效(数据库式)光和物质场重建。为了满足GSR准确度的阈值要求,场景被表示为部分偏振光的系统,与物质的辐射测量相互作用。为了演示GSR,原型成像旋光仪被用于重建(在广义光场中)高反射性,冰雹损坏的汽车车身面板。描述了后续的GSR实验。[1803.08496v3]

使用置换不变结构化预测将图像映射到场景图

Roei HerzigMoshiko RabohGal ChechikJonathan BerantAmir Globerson

对复杂图像的机器理解是人工智能的关键目标。这项任务的一个挑战是视觉场景包含多个相互关联的对象,并且全局环境在解释场景中扮演着重要的角色。捕捉这些效果的自然建模框架是结构化预测,它在对标签内部交互进行建模的同时优化了复杂标签。然而,目前还不清楚哪些原则应该指导设计利用深度学习组件的力量的结构化预测模型。在这里,我们提出了这样的体系结构的设计原则,其遵循排列不变性的自然要求。我们证明了遵循这种不变性的体系结构的必要和充分的特性,并讨论了它在模型设计上的含义。最后,我们展示了由此产生的模型在Visual Genome场景图形标签基准测试中实现了最新的状态结果,超越了所有最新的方法。[1802.05451v3]

深度视觉域适应:一项调查

Mei Wang, Weihong Deng

深度域适应已成为解决缺乏大量标记数据的新型学习技术。与传统的学习共享特征子空间或重用浅层表示重用源实例的方法相比,深层域自适应方法利用深度网络,通过在深度学习的管道中嵌入域自适应来学习更多可转换的表示。已经有关于浅层适应的全面调查,但很少及时回顾新兴的基于深度学习的方法。在本文中,我们提供了四个主要贡献的计算机视觉应用的深度域适应方法的综合调查。首先,根据定义两个域如何分离的数据属性,我们提出了不同深层域适应场景的分类。第二,我们基于训练损失将深度域适应方法归纳为几类,并对这些类别下的最新方法进行简要分析和比较。第三,我们概述超越图像分类的计算机视觉应用,例如人脸识别,语义分割和对象检测。第四,强调了当前方法的一些潜在缺陷和几个未来方向。[1802.03601v4] 突出了当前方法的一些潜在缺陷和几个未来方向。[1802.03601v4] 突出了当前方法的一些潜在缺陷和几个未来方向。[1802.03601v4]

相同的不同问题应变卷积神经网络

马修利玛窦,Junkyung KimThomas Serre

对图像中视觉关系的强大有效识别是生物视觉的一个标志。我们认为,尽管最近在视觉识别方面取得了进展,但现代机器视觉算法在学习视觉关系方面的能力受到严重限制。通过对照实验,我们证明视觉关系问题会卷积神经网络(CNN)。当死记硬背成为不可能的时候,网络最终会崩溃,因为当班内变异超过网络容量时。受到生物视觉相当成功的启发,我们认为包括注意力和感知分组在内的反馈机制可能是抽象视觉推理的关键计算组件。\ [1802.03390v3]

最优贝叶斯传递学习

Alireza KarbalaygharehXiaoning QianEdward R. Dougherty

转移学习最近吸引了大量的研究注意力,因为它从具有大量标记数据的不同来源领域同时学习,并将有关知识转移到具有有限标记数据的目标领域以提高预测性能。我们提出了一个贝叶斯转移学习框架,其中源和目标域通过模型参数的联合先验密度相关。联合先前密度的建模可以更好地理解域之间的可转移性。我们为源域和目标域中的高斯特征标签分布的精度矩阵定义联合Wishart密度,以充当传递源域的有用信息的桥,以通过改进目标后验来帮助在目标域中进行分类。利用多元统计学中的几个定理,推导出后验密度和后验密度是封闭形式的矩阵论域的超几何函数,从而导出了我们的新型闭式快速最优贝叶斯传递学习(OBTL)分类器。合成和现实世界基准数据的实验结果证实了与其他最先进的转移学习和领域适应方法相比,OBTL的卓越性能。[1801.00857v2] 后验密度和后验预测密度由矩阵变元的超几何函数的闭合形式导出,从而导致我们的新型闭式快速最优贝叶斯传递学习(OBTL)分类器。合成和现实世界基准数据的实验结果证实了与其他最先进的转移学习和领域适应方法相比,OBTL的卓越性能。[1801.00857v2] 后验密度和后验预测密度由矩阵变元的超几何函数的闭合形式导出,从而导致我们的新型闭式快速最优贝叶斯传递学习(OBTL)分类器。合成和现实世界基准数据的实验结果证实了与其他最先进的转移学习和领域适应方法相比,OBTL的卓越性能。[1801.00857v2] 合成和现实世界基准数据的实验结果证实了与其他最先进的转移学习和领域适应方法相比,OBTL的卓越性能。[1801.00857v2] 合成和现实世界基准数据的实验结果证实了与其他最先进的转移学习和领域适应方法相比,OBTL的卓越性能。[1801.00857v2]

基于狄克逊和ZTE MR图像的深度神经网络脑PET成像的衰减校正

Kuang GongJaewon YangKyongsang KimGeorges El FakhriYoungho Seo,李全正

正电子发射断层扫描(PET)是一种广泛用于神经科学研究的功能成像模式。为了从PET图像中获得有意义的定量结果,在图像重建期间需要衰减校正。对于PET / MR混合系统,由于磁共振(MR)图像不能直接反映衰减系数,因此PET衰减具有挑战性。为了解决这个问题,我们提出了深度神经网络方法来从MR图像导出脑PET成像的连续衰减系数。只有Dixon MR图像作为网络输入,采用了现有的U-net结构,并且使用四十个患者数据集的分析显示其优于其他基于狄克逊的方法。当Dixon和零回波时间(ZTE)图像都可用时,我们提出了一种改进的U网结构,名为GroupU-net,当网络变得更深时,通过组卷积模块有效地利用DixonZTE信息。基于14个真实患者数据集的定量分析表明,两种网络方法都可以比标准方法表现更好,并且与U网结构相比,所提出的网络结构可以进一步减少PET量化误差。[1712.06203v2]

对象检测中尺度不变性分析 – SNIP

巴拉特辛格,拉里S.戴维斯

提出了在极端尺度变化下识别和检测物体的不同技术的分析。通过训练不同配置的输入数据,比较探测器的比例尺和比例不变设计。通过评估不同网络架构在ImageNet上对小对象进行分类的性能,我们发现CNN在规模变化方面不够健壮。基于这种分析,我们建议在图像金字塔的相同尺度上训练和测试探测器。由于小尺寸和大尺寸的物体很难分别在更小和更大的尺度上识别,因此我们提出了一种称为图像金字塔(Scale PyramidsSNIP)的尺度标准化的新型训练方案,该方案选择性地将作为图像的函数的不同尺寸的对象实例的梯度规模。在COCO数据集上,我们的单一模型性能为45.7%,3个网络的整体获得48.3%的mAP。我们使用现成的ImageNet-1000预训练模型,并且只使用边界框监督进行训练。我们的投稿在COCO 2017挑战赛中赢得了最佳学生入围奖。代码将在\ url {http://bit.ly/2yXVg4c}上提供。[1711.08189v2]

精确摄像机位置恢复的最小非偏差

Gilad Lerman, Yunpeng Shi, Teng Zhang

我们为OzyesilSingerLeast Unsquared DeviationsLUD)算法建立精确恢复。更确切地说,我们证明,对于具有给定损坏的成对方向的足够多的相机,其中相机位置和成对方向由特殊概率模型生成,LUD算法正好以高概率恢复相机位置。HandLeeVoroninskiShapeFit算法建立了类似的精确恢复保证,但通常腐败较少。[1709.09683v3]

您所画的内容即是您获得的内容:使用多视图Deep Volumetric Prediction进行3D草图绘制

Johanna DelanoyAdrien BousseauMathieu AubryPhillip IsolaAlexei A. Efros

基于草图的建模力求将绘图的简易性和即时性带入3D世界。然而,虽然绘图对于人类来说很容易创建,但由于它们的稀疏性和含糊性,它们对于计算机来说很难解释。我们提出了一种数据驱动的方法,通过学习从一个或多个图纸重建3D形状来应对这一挑战。我们方法的核心是一个深度卷积神经网络(CNN),可以从线条图中预测体素网格的占用情况。只要用户完成所需形状的单个图形,该CNN就为我们提供了初始3D重建。我们使用更新CNN补充了这个单视图网络,该视图改进了现有的预测,给出了从新视角创建的形状的新图形。我们方法的一个关键优势是我们可以迭代地应用更新器来融合来自任意数量视点的信息,而不需要图纸之间明确的笔画对应。我们通过从手工建模的形状集合以及程序生成的抽象形状渲染合成轮廓图来训练CNN。最后,我们将我们的CNN集成到一个最小的建模界面中,允许用户无缝地绘制对象,旋转它以查看其三维重建,并通过使用三维重建作为指导从另一个有利位置重新绘制来优化它。我们的方法的主要优点是它对自由位图图形的鲁棒性,适应不同对象类别的能力以及它在单视图和多视图草图建模之间提供的连续性。[1707.08390v3] 而不需要图纸之间明确的笔划对应。我们通过从手工建模的形状集合以及程序生成的抽象形状渲染合成轮廓图来训练CNN。最后,我们将我们的CNN集成到一个最小的建模界面中,允许用户无缝地绘制对象,旋转它以查看其三维重建,并通过使用三维重建作为指导从另一个有利位置重新绘制来优化它。我们的方法的主要优点是它对自由位图图形的鲁棒性,适应不同对象类别的能力以及它在单视图和多视图草图建模之间提供的连续性。[1707.08390v3] 而不需要图纸之间明确的笔划对应。我们通过从手工建模的形状集合以及程序生成的抽象形状渲染合成轮廓图来训练CNN。最后,我们将我们的CNN集成到一个最小的建模界面中,允许用户无缝地绘制对象,旋转它以查看其三维重建,并通过使用三维重建作为指导从另一个有利位置重新绘制来优化它。我们的方法的主要优点是它对自由位图图形的鲁棒性,适应不同对象类别的能力以及它在单视图和多视图草图建模之间提供的连续性。[1707.08390v3] 我们通过从手工建模的形状集合以及程序生成的抽象形状渲染合成轮廓图来训练CNN。最后,我们将我们的CNN集成到一个最小的建模界面中,允许用户无缝地绘制对象,旋转它以查看其三维重建,并通过使用三维重建作为指导从另一个有利位置重新绘制来优化它。我们的方法的主要优点是它对自由位图图形的鲁棒性,适应不同对象类别的能力以及它在单视图和多视图草图建模之间提供的连续性。[1707.08390v3] 我们通过从手工建模的形状集合以及程序生成的抽象形状渲染合成轮廓图来训练CNN。最后,我们将我们的CNN集成到一个最小的建模界面中,允许用户无缝地绘制对象,旋转它以查看其三维重建,并通过使用三维重建作为指导从另一个有利位置重新绘制来优化它。我们的方法的主要优点是它对自由位图图形的鲁棒性,适应不同对象类别的能力以及它在单视图和多视图草图建模之间提供的连续性。[1707.08390v3] 并通过使用3D重建作为指导从另一个有利位置重新绘制来完善它。我们的方法的主要优点是它对自由位图图形的鲁棒性,适应不同对象类别的能力以及它在单视图和多视图草图建模之间提供的连续性。[1707.08390v3] 并通过使用3D重建作为指导从另一个有利位置重新绘制来完善它。我们的方法的主要优点是它对自由位图图形的鲁棒性,适应不同对象类别的能力以及它在单视图和多视图草图建模之间提供的连续性。[1707.08390v3]

转载请注明:《金字塔注意力网络的语义分割

发表评论