PSENet:用渐进式尺度扩展网络进行形状健壮的文本检测+ superpixPool:利用超像素共享的高效语义图像分割+DORN:用于单目深度估计的深度顺序回归网络

超分辨率使用卷积神经网络没有任何棋盘文物

Yusuke SugawaraSayaka SayotaHitoshi Kiya

众所周知,许多使用卷积神经网络(CNN)的优秀超分辨率(SR)方法会产生棋盘伪影。本文提出了避免棋盘文物的条件。到目前为止,线性多速率系统主要研究棋盘伪影,但由于CNN的非线性,避免棋盘伪影的条件不能应用于CNN。我们扩展了CNNs的避免条件,并将所提出的结构应用于一些典型的SR方法,以确认新方案的有效性。实验结果表明,所提出的结构可以完美避免在两种损失条件下产生棋盘伪影:均方误差和感知损失,同时保持SR方法具有的优良性能。[1806.02658v1]

 

用于人脸分析的互连卷积神经网络

Yisu Zhou, Xiaolin Hu, Bo Zhang

人脸解析是人脸图像分析的基本任务。它相当于用适当的面部部分例如眼睛和鼻子来标记每个像素。在这篇论文中,我们提出了一种互连的卷积神经网络(iCNN),以端到端的方式解决这个问题。它由多个卷积神经网络(CNN)以不同比例输入。一个特殊的链接层旨在允许CNN交换信息,使他们能够有效地整合本地和上下文信息。iCNN的标志是在互连层中广泛使用下采样和上采样,而传统的CNN通常只使用下采样。提出了一种两阶段流水线用于面部解析,并且两个阶段都使用iCNN。第一阶段在缩小尺寸的图像中定位面部部分,第二阶段在原始图像中标识所标识的面部部分中的像素。在基准数据集上,我们获得了比最先进的方法更好的结果。[1806.02479v1]

 

用于MRI强度归一化的非参数密度流

丹尼尔C.卡斯特罗,本Glocker

随着在医学图像分析中采用功能强大的机器学习方法,越来越需要汇总跨多个站点采集的数据。然而,在多中心数据库中常常违反了相应组织在所有图像中具有一致强度的许多分析技术的潜在假设。我们引入了一种基于密度匹配的新型强度归一化方案,其中直方图被建模为Dirichlet过程高斯混合。对源混合模型进行变换以使其对目标模型的散射最小化,然后将体素强度通过质量保持流传输以保持与移动密度一致。在一项有关脑部MRI数据的多中心研究中,我们表明所提出的技术在匹配的密度和直方图之间产生出色的对应关系。我们进一步证明,我们的方法使得组织强度统计数据在图像之间比基线仿射变换更加兼容,并且与最先进的技术相媲美,同时提供相当平滑的变换。最后,我们验证非线性强度归一化是实现有效成像数据协调的一个步骤。[1806.02613v1] 我们验证非线性强度归一化是实现有效成像数据协调的一个步骤。[1806.02613v1] 我们验证非线性强度归一化是实现有效成像数据协调的一个步骤。[1806.02613v1]

 

通过紧凑型空间聚类进行半监督学习

Konstantinos Kamnitsas,丹尼尔卡斯特罗,洛克勒福尔戈克,伊恩沃克,龙太郎丹诺,丹尼尔Rueckert,本Glocker,安东尼奥CriminisiAditya Nori

我们提出了一个新的神经网络半监督学习的成本函数,鼓励潜在空间紧凑聚类,以促进分离。关键的想法是动态创建一个训练批次的已标记和未标记样本的嵌入图,以捕获特征空间中的基础结构,并使用标签传播来估计其高密度区域和低密度区域。然后,我们设计一个基于马尔可夫链的成本函数来规范潜在空间,从而形成每个类的单个紧凑集群,同时避免在优化过程中干扰现有集群。我们在三个基准上评估我们的方法,并与具有前景的结果进行比较。我们的方法结合了基于图形的正则化与高效的归纳推理的好处,不需要对网络体系结构进行修改,因此可以很容易地应用于现有网络,以便有效使用未标记的数据。[1806.02679v1]

 

带有嘈杂标签的维度驱动学习

Xingjun Ma, Yisen Wang, Michael E. Houle, Shuo Zhou, Sarah M. Erfani, Shu-Tao Xia, Sudanthi Wijewickrema, James Bailey

具有显着比例的嘈杂(不正确)类别标签的数据集对训练准确的深度神经网络(DNN)提出了挑战。通过研究训练样本的深度表示子空间的维度,我们提出了一个理解这些数据集的DNN泛化的新视角。我们表明,从维度的角度来看,DNNs展示非常独特的学习风格,当用干净的标签进行训练时,与用一定比例的嘈杂标签进行训练相比。基于这一发现,我们开发了一种新的维度驱动的学习策略,该策略监控训练期间子空间的维度并相应地调整损失函数。我们凭经验证明我们的方法对相当大比例的嘈杂标签具有高度的耐受性,并且可以有效地学习捕捉数据分布的低维本地子空间。[1806.02612v1]

 

信息最大化采样以促进逐检测

Kourosh MeshgiMaryam Sadat MirzaeiShigeyuki Oba

自适应跟踪检测算法的性能不仅取决于分类和更新过程,还取决于采样。典型地,这样的跟踪器使用预定义的运动模型从最近预测的对象位置附近或者从其预期位置选择它们的样本,该预定义的运动模型不利用样本的内容或分类器提供的信息。我们介绍了大多数信息抽样的概念,其中采样器试图选择对判别式跟踪器的分类器有困难的样本。然后,我们提出了一种主动区分式跟踪器,嵌入对抗采样器以增强其抗各种跟踪挑战的稳健性。实验表明,我们提出的跟踪器在各种基准视频上优于最先进的跟踪器。[1806

 

用渐进式尺度扩展网络进行形状健壮的文本检测

Xiang Li, Wenhai Wang, Wenbo Hou, Ruo-Ze Liu, Tong Lu, Jian Yang

形状稳健文本检测的挑战在于两个方面:1)大多数现有的基于四边形边界框的检测器难以定位具有任意形状的文本,这些文本很难被完美地包围在矩形中; 2)大多数以像素为单位的基于分割的检测器可能不会分离彼此非常接近的文本实例。为了解决这些问题,我们提出了一种新型的渐进式扩展网络(PSENet),设计为基于分割的检测器,对每个文本实例进行多重预测。这些预测对应于通过将原始文本实例缩小到各种尺度而产生的不同内核。所以,最终的检测可以通过我们的渐进尺度扩展算法来进行,该算法逐渐将具有最小尺度的内核扩展到具有最大和完整形状的文本实例。由于这些最小内核之间存在较大的几何边界,因此我们的方法可以有效区分相邻文本实例,并且对任意形状都很有效。ICDAR 2015ICDAR 2017 MLT基准测试的最新成果进一步证实了PSENet的高效性。值得注意的是,PSENet在曲线文本数据集SCUT-CTW1500上胜过以前的最佳记录绝对值6.37%。代码将在https://github.com/whai362/PSENet中提供。[1806.02559v1] 我们的方法可以有效地区分相邻的文本实例,并且对任意形状都很有效。ICDAR 2015ICDAR 2017 MLT基准测试的最新成果进一步证实了PSENet的高效性。值得注意的是,PSENet在曲线文本数据集SCUT-CTW1500上胜过以前的最佳记录绝对值6.37%。代码将在https://github.com/whai362/PSENet中提供。[1806.02559v1] 我们的方法可以有效地区分相邻的文本实例,并且对任意形状都很有效。ICDAR 2015ICDAR 2017 MLT基准测试的最新成果进一步证实了PSENet的高效性。值得注意的是,PSENet在曲线文本数据集SCUT-CTW1500上胜过以前的最佳记录绝对值6.37%。代码将在https://github.com/whai362/PSENet中提供。[1806.02559v1]

 

论观察者变异性对医学图像分割不确定性可靠估计的影响

Alain JungoRaphael MeierEkin ErmisMarcela Blatti-MorenoEvelyn HerrmannRoland WiestMauricio Reyes

预期不确定性评估方法将提高医学应用中使用的计算机辅助方法(例如神经外科干预,放射治疗计划)的理解和质量,其中自动化医学图像分割至关重要。在有监督的机器学习中,生成地面实况标签数据的常见做法是合并观察者注释。然而,由于许多医学图像任务表现出由诸如图像质量,不同水平的用户专业知识和领域知识等因素导致的观察者间差异性较大,所以关于观察者间差异性和常用融合方法如何影响自动图像分割的不确定性。在本文中,我们分析了常用图像标签融合技术对不确定性估计的影响,并提出了解观察者之间的不确定性。结果强调了融合方法在深度学习中的不利影响,以获得可靠的分割不确定性估计。此外,我们表明,学习观察者的不确定性可以结合当前标准的蒙特卡洛退出贝叶斯神经网络来表征模型参数的不确定性。[1806.02562v1]

 

从驾驶中学习自主车辆的多模式自我意识模型

Mahdyar RavanbakhshMohamad BaydounDamian CampoPablo MarinDavid MartinLucio MarcenaroCarlo S. Regazzoni

本文提出了一种用于学习自主车辆自我认知模型的新方法。所提出的技术基于与由操作人员执行的不同机动任务有关的同步多传感器动态数据的可用性。结果表明,不同的机器学习方法可用于首先使用耦合动态贝叶斯网络学习单模态模型然后将这些模型在事件级相关联以发现上下文多模式概念。在所呈现的情况下,视觉感知和本地化被用作模态。时间模式之间的互相关是从数据中发现的,并被描述为在事件(离散)级别连接共享和私有多模式DBN的概率链接。结果显示在自主车辆上进行的实验中,强调所提出的基于学习的自我意识模型的异常检测和自主决策方法的潜力。[1806.02609v1]

 

利用超像素共享的高效语义图像分割

Mathijs SchuurmansMaxim BermanMatthew B. Blaschko

在这项工作中,我们评估深度网络体系结构中超像素池层的使用以进行语义分割。超像素池是一种灵活而高效的替代其他集合策略的集成空间先验信息。我们提出了一个简单而高效的图层GPU实现方法,并探讨了将图层集成到现有网络架构中的几种设计。我们在IBSRCityscapes数据集上提供了实验结果,证明可以利用超像素池技术以最小的计算开销持续提高网络准确性。源代码位于https://github.com/bermanmaxim/superpixPool [1806.02705v1]

 

零射击学习的概率与或属性分组

Yuval AtzmonGal Chechik

在零点学习(ZSL)中,分类器被训练成识别没有任何图像样本的视觉类。相反,它会提供关于类的语义信息,如文本描述或一组属性。从属性学习可以受益于显式建模属性空间的结构。不幸的是,从经验样本中学习一般结构对于典型的数据集大小来说很难。这里我们描述LAGO,这是一个概率模型,旨在捕捉属性组之间的自然软和关系。我们展示了如何利用深层的属性检测模型来端对端地学习这个模型。可以从数据中共同学习软组结构作为模型的一部分,并且如果可用的话,还可以容易地并入关于组的先前知识。软和结构成功地捕捉到有意义的和预测性的结构,提高了三个基准中的两个零点学习的准确性。最后,LAGO揭示了两种ZSL方法的统一表述:DAPLampert et al2009)和ESZSLRomera-ParedesTorr2015)。有趣的是,对于每个属性只采用一个单身人群,引入了一种新的DAP软松弛,其表现优于DAP40%。[1806.02664v1]

 

用于视觉和语言导航的扬声器跟随器模型

丹尼尔·弗里德,胡荣航,齐里克·沃尔坎,安娜·罗尔巴赫,雅各布·安德里亚斯,路易·菲利普·莫雷西,泰勒·伯格柯克帕特里克,凯特·萨恩科,丹·克莱因,特雷弗·达雷尔

以自然语言指导为指导的导航为教学追随者提出了具有挑战性的推理问题。自然语言指令通常只识别少数高层决策和地标,而不是完成低层次的运动行为大部分缺失的信息必须根据感知上下文来推断。在机器学习设置中,这提出了一个双重挑战:难以收集足够的注释数据以使得从头开始学习该推理过程,并且在经验上难以使用通用序列模型实施推理过程。这里我们介绍一种视觉和语言导航方法,用嵌入式扬声器模型解决这两个问题。我们使用这种说话人模型来综合数据增强的新指令,并实施用于评估候选动作序列的实用推理。这两个步骤都由全景动作空间支持,该动作空间反映了人为指令的粒度。实验表明,这种方法的三个部分演讲者驱动的数据增强,实用推理和全景动作空间显着提高了基线指令跟随者的性能,比现有最佳方法的成功率提高了一倍以上标准基准。[1806.02724v1] 实用推理和全景行动空间显着提高了基准指令跟随者的性能,比标准基准测试中最佳现有方法的成功率提高了一倍以上。[1806.02724v1] 实用推理和全景行动空间显着提高了基准指令跟随者的性能,比标准基准测试中最佳现有方法的成功率提高了一倍以上。[1806.02724v1]

 

使用卷积神经网络从运动学数据评估手术技巧

Hassan Ismail FawazGermain ForestierJonathan WeberLhassane IdoumgharPierre-Alain Muller

对自动手术技能评估的需求正在增加,尤其是因为观察外科医生的资深外科医生的手动反馈容易出现主观性和耗时。因此,自动化手术技能评估是改善手术操作的一个非常重要的步骤。在本文中,我们设计了一个卷积神经网络(CNN)来评估外科医生的技能,通过提取外科医生在机器人手术中进行的运动模式。所提出的方法在JIGSAWS数据集上得到了验证,并且在缝合和穿针任务中以100%的准确度取得了非常有竞争力的结果。尽管我们利用CNN的效率,但我们还设法使用类别激活地图来缓解黑盒效应。该功能使我们的方法能够自动突出显示手术任务的哪些部分影响了技能预测,并可用于解释分类并向受训者提供个性化反馈。[1806.02750v1]

 

用于高光谱样本实际合成的生成对冲网络

萨科AUDEBERT,伯特兰勒索克斯,塞巴斯蒂安·勒菲弗

这项工作解决了训练深度神经网络所需的标注高光谱数据的稀缺性。特别是,我们调查生成敌对网络及其在合成一致标记光谱中的应用。通过对公共数据集上的这些网络进行培训,我们显示这些模型不仅能够捕获底层分布,而且能够生成真实的和物理上可信的光谱。此外,我们通过实验验证合成样本可以用作有效的数据增强策略。我们使用各种深度分类器在几个公开的高光谱数据集上验证了我们的方法。[1806.02583v1]

 

NumtaDB – 组装的孟加拉手写数字

Samiul AlamTahsin ReasatRashed Mohammad DohaAhmed Imtiaz Humayun

为了对孟加拉数字识别算法进行基准测试,需要一个大型公开可用的数据集,该数据集不受源自地理位置,性别和年龄的偏差的影响。考虑到这一目标,NumtaDB是一个由超过85,000个手写孟加拉数字图像组成的数据集,已经组装完毕。本文记录了数字的收集和处理过程以及数据集的显着统计数据。[1806.02452v1]

 

余弦嵌入和循环沙漏网络的实例分割和跟踪

Christian PayerDarko SternThomas NeffHorst BischofMartin Urschler

与语义分割不同,实例分段为同一类的每个单独实例分配唯一标签。在这项工作中,我们提出了一种新颖的循环全卷积网络架构,用于跟踪这些实例分段随着时间的推移。网络体系结构将卷积门控循环单元(ConvGRU)合并到堆叠沙漏网络中以利用时间视频信息。此外,我们使用基于余弦相似性的新颖嵌入损失来训练网络,以便网络能够预测整个视频中每个实例的唯一嵌入。之后,这些嵌入在后续视频帧中聚集,以创建最终跟踪的实例分段。我们通过分割心脏的MR视频中的左心室来评估经常性沙漏网络,它的性能优于不包含视频信息的网络。此外,我们还展示了在植物静止图像上分割叶子实例的余弦嵌入损失的适用性。最后,我们评估了ISBI细胞追踪挑战的六个数据集上的实例分割和追踪框架,并显示了最先进的性能。[1806.02070v2]

 

模块构成的渐进推理

Seung Wook KimMakarand TapaswiSanja Fidler

人类学会通过建立在先前获得的知识之上来解决日益复杂的任务。通常,我们学习的任务存在自然进展大多数情况下不需要完全独立的解决方案,但可以分解为更简单的子任务。我们建议将每个任务的求解器表示为一个神经模块,以类似于程序的方式调用现有模块(用于更简单任务的求解器)。较低的模块是调用模块的黑盒子,只能通过查询和输出进行通信。因此,用于新任务的模块学习查询现有模块并组合它们的输出以产生它自己的输出。每个模块还包含一个剩余组件,学习解决下层模块无法解决的新任务的各个方面。我们的模型有效地结合了以前的技能,不会遗忘,而且完全可以区分。我们在学习一组视觉推理任务时测试我们的模型,并在Visual Question Answering中展示最新的性能,这是我们任务集中的最高级任务。通过评估使用非专业人士评判的推理过程,我们发现我们的模型比基于注意力的基准更能诠释。[1806.02453v1]

 

用于单目深度估计的深度顺序回归网络

Huan Fu, Mingming Gong, Chaohui Wang, Kayhan Batmanghelich, Dacheng Tao

单眼深度估计在理解3D场景几何中起着至关重要的作用,是一个不适合的问题。最近的方法通过探索来自深度卷积神经网络(DCNN)的图像级信息和分层特征而获得显着改善。这些方法将深度估计作为回归问题进行建模,并通过最小化均方误差来训练回归网络,其中收敛缓慢且局部解决方案不令人满意。此外,现有的深度估计网络采用重复的空间池操作,导致不合需要的低分辨率特征地图。为了获得高分辨率的深度图,需要跳过连接或多层去卷积网络,这使得网络训练变得复杂并且消耗更多的计算量。为消除或至少在很大程度上减少这些问题,我们引入了一种间距增加离散化(SID)策略来将深度和重铸深度网络学习作为序数回归问题进行离散化。通过使用普通回归损失对网络进行训练,我们的方法实现了更高的准确性和\ dd {更快的同步收敛}。此外,我们采用了多尺度网络结构,避免了不必要的空间合并,并行捕获多尺度信息。本文描述的方法在KITTI [17]ScanNet [9]Make3D [50]NYU Depth v2 [42]四个具有挑战性的基准测试中达到了最新的结果,并获得了一等奖在强健视力挑战2018年。代码已经提供:https//github.com/hufu6371/DORN[1806.02446v1] 我们引入了一种间距增加离散化(SID)策略来将深度和重铸深度网络学习作为一个序数回归问题进行离散化。通过使用普通回归损失对网络进行训练,我们的方法实现了更高的准确性和\ dd {更快的同步收敛}。此外,我们采用了多尺度网络结构,避免了不必要的空间合并,并行捕获多尺度信息。本文描述的方法在KITTI [17]ScanNet [9]Make3D [50]NYU Depth v2 [42]四个具有挑战性的基准测试中达到了最新的结果,并获得了一等奖在强健视力挑战2018年。代码已经提供:https//github.com/hufu6371/DORN[1806.02446v1] 我们引入了一种间距增加离散化(SID)策略来将深度和重铸深度网络学习作为一个序数回归问题进行离散化。通过使用普通回归损失对网络进行训练,我们的方法实现了更高的准确性和\ dd {更快的同步收敛}。此外,我们采用了多尺度网络结构,避免了不必要的空间合并,并行捕获多尺度信息。本文描述的方法在KITTI [17]ScanNet [9]Make3D [50]NYU Depth v2 [42]四个具有挑战性的基准测试中达到了最新的结果,并获得了一等奖在强健视力挑战2018年。代码已经提供:https//github.com/hufu6371/DORN[1806.02446v1] 通过使用普通回归损失对网络进行训练,我们的方法实现了更高的准确性和\ dd {更快的同步收敛}。此外,我们采用了多尺度网络结构,避免了不必要的空间合并,并行捕获多尺度信息。本文描述的方法在KITTI [17]ScanNet [9]Make3D [50]NYU Depth v2 [42]四个具有挑战性的基准测试中达到了最新的结果,并获得了一等奖在强健视力挑战2018年。代码已经提供:https//github.com/hufu6371/DORN[1806.02446v1] 通过使用普通回归损失对网络进行训练,我们的方法实现了更高的准确性和\ dd {更快的同步收敛}。此外,我们采用了多尺度网络结构,避免了不必要的空间合并,并行捕获多尺度信息。本文描述的方法在KITTI [17]ScanNet [9]Make3D [50]NYU Depth v2 [42]四个具有挑战性的基准测试中达到了最新的结果,并获得了一等奖在强健视力挑战2018年。代码已经提供:https//github.com/hufu6371/DORN[1806.02446v1] 我们采用多尺度网络结构,避免了不必要的空间合并,并行捕获多尺度信息。本文描述的方法在KITTI [17]ScanNet [9]Make3D [50]NYU Depth v2 [42]四个具有挑战性的基准测试中达到了最新的结果,并获得了一等奖在强健视力挑战2018年。代码已经提供:https//github.com/hufu6371/DORN[1806.02446v1] 我们采用多尺度网络结构,避免了不必要的空间合并,并行捕获多尺度信息。本文描述的方法在KITTI [17]ScanNet [9]Make3D [50]NYU Depth v2 [42]四个具有挑战性的基准测试中达到了最新的结果,并获得了一等奖在强健视力挑战2018年。代码已经提供:https//github.com/hufu6371/DORN[1806.02446v1]

 

Action4D:人群和杂波中的实时动作识别

Quanzeng You, Hao Jiang

认识到每个人在拥挤和混乱的环境中的行为是一项具有挑战性的任务。在本文中,我们提出了一种实时动作识别方法Action4D,它可以在现实环境中提供可靠和准确的结果。我们建议使用对杂乱场景的全面4D“扫描来处理动作识别问题,以包含有关人员和环境的每个细节。认识到多个人在混乱的4D表示中的行为是一个新问题。在本文中,我们提出了解决这个问题的新方法。我们提出了一种追踪4D人的新方法,可以实时可靠地检测并跟踪每个人。我们提出了一个新的深度神经网络Action4D-Net来识别每个被跟踪人的行为。Action4D-Net’ 它的新颖结构既利用了全球特点,也集中了注意力,以实现最新的结果。我们的实时方法对摄像机视角不变,抗杂乱和能够处理人群。实验结果表明,该方法快速,可靠,准确。我们的方法为实际应用中的动作识别铺平了道路,并准备部署以实现智能家居,智能工厂和智能商店。[1806.02424v1] 我们的方法为实际应用中的动作识别铺平了道路,并准备部署以实现智能家居,智能工厂和智能商店。[1806.02424v1] 我们的方法为实际应用中的动作识别铺平了道路,并准备部署以实现智能家居,智能工厂和智能商店。[1806.02424v1]

 

深入监督,为视网膜血管分割任务提供附加标签

Yishuo Zhang, Albert C. S. Chung

自动分析视网膜血液图像对于视网膜病变的诊断任务至关重要。准确分割血管是分析视网膜图像的基本步骤。然而,由于各种成像条件,低图像对比度以及诸如微动脉瘤等病变的出现,通常是困难的。在本文中,我们提出了一种新的深度神经网络方法来解决这个问题。我们利用剩余连接的U-Net来检测船只。为了获得更好的准确性,我们引入了边缘感知机制,其中我们通过在边界区域添加附加标签将原始任务转换为多任务任务。这样,网络将更加关注船舶的边界区域,并取得更好的性能,特别是在小型船舶检测中。除了,应用侧输出层以便给予深度监督,并因此有助于收敛。我们在三个数据库上训练和评估我们的模型:DRIVESTARECHASEDB1。实验结果表明,我们的方法具有与DRIVE上的97.99%的AUC相当的性能以及与最先进的方法相比有效的运行时间。[1806.02132v2]

 

MILD-Net:结肠组织学图像中腺体实例分割的最小信息损失扩张网络

Simon Graham, Hao Chen, Qi Dou, Pheng-Ann Heng, Nasir Rajpoot

结肠组织病理学图像中腺体形态的分析是确定结肠癌阶段的关键步骤。尽管这项任务非常重要,但手动分割费时费力,并且会受到病理学家之间的主观性的影响。计算病理学的兴起导致了腺体分割的自动化方法的发展,其目的是克服手动分割的挑战。然而,由于腺体外观的巨大变异性和区分某些腺体组织结构和非腺体组织结构的困难,这项任务并非微不足道。此外,在病理实践中,不确定性的度量对诊断决策至关重要。例如,模糊区域可能需要来自许多病理学家的进一步检查。为了应对这些挑战,我们提出了一个完全卷积神经网络,通过在网络内的多个点重新引入原始图像来对抗由最大共享引起的信息丢失。我们还使用具有不同扩张速率的空间金字塔池来解决维护和多级聚合。为了结合不确定性,我们在测试时间内引入随机变换,以获得增强的分割结果,同时生成不确定性图,突出显示不明确的区域。我们证明这张图可以用来定义一个不确定性高的预测的度量。拟议的网络在GlaS挑战数据集上获得了最先进的性能,作为MICCAI 2015的一部分,以及第二个独立的结肠直肠腺癌数据集。[1806.01963v2] 我们提出了一个完全卷积神经网络,通过在网络中的多个点重新引入原始图像来对抗由最大共享引起的信息丢失。我们还使用具有不同扩张速率的空间金字塔池来解决维护和多级聚合。为了结合不确定性,我们在测试时间内引入随机变换,以获得增强的分割结果,同时生成不确定性图,突出显示不明确的区域。我们证明这张图可以用来定义一个不确定性高的预测的度量。拟议的网络在GlaS挑战数据集上获得了最先进的性能,作为MICCAI 2015的一部分,以及第二个独立的结肠直肠腺癌数据集。[1806.01963v2] 我们提出了一个完全卷积神经网络,通过在网络中的多个点重新引入原始图像来对抗由最大共享引起的信息丢失。我们还使用具有不同扩张速率的空间金字塔池来解决维护和多级聚合。为了结合不确定性,我们在测试时间内引入随机变换,以获得增强的分割结果,同时生成不确定性图,突出显示不明确的区域。我们证明这张图可以用来定义一个不确定性高的预测的度量。拟议的网络在GlaS挑战数据集上获得了最先进的性能,作为MICCAI 2015的一部分,以及第二个独立的结肠直肠腺癌数据集。[1806.01963v2] 我们还使用具有不同扩张速率的空间金字塔池来解决维护和多级聚合。为了结合不确定性,我们在测试时间内引入随机变换,以获得增强的分割结果,同时生成不确定性图,突出显示不明确的区域。我们证明这张图可以用来定义一个不确定性高的预测的度量。拟议的网络在GlaS挑战数据集上获得了最先进的性能,作为MICCAI 2015的一部分,以及第二个独立的结肠直肠腺癌数据集。[1806.01963v2] 我们还使用具有不同扩张速率的空间金字塔池来解决维护和多级聚合。为了结合不确定性,我们在测试时间内引入随机变换,以获得增强的分割结果,同时生成不确定性图,突出显示不明确的区域。我们证明这张图可以用来定义一个不确定性高的预测的度量。拟议的网络在GlaS挑战数据集上获得了最先进的性能,作为MICCAI 2015的一部分,以及第二个独立的结肠直肠腺癌数据集。[1806.01963v2] 我们在测试时间内引入随机变换,以获得增强的分割结果,同时生成不确定性图,突出显示不明确的区域。我们证明这张图可以用来定义一个不确定性高的预测的度量。拟议的网络在GlaS挑战数据集上获得了最先进的性能,作为MICCAI 2015的一部分,以及第二个独立的结肠直肠腺癌数据集。[1806.01963v2] 我们在测试时间内引入随机变换,以获得增强的分割结果,同时生成不确定性图,突出显示不明确的区域。我们证明这张图可以用来定义一个不确定性高的预测的度量。拟议的网络在GlaS挑战数据集上获得了最先进的性能,作为MICCAI 2015的一部分,以及第二个独立的结肠直肠腺癌数据集。[1806.01963v2]

 

使用密集连接的卷积网络对CT扫描中的胰腺囊肿进行鉴别诊断

Hongwei Li, Kanru Lin, Maximilian Reichert, Lina Xu, Rickmer Braren, Deliang Fu, Roland Schmid, Ji Li, Bjoern Menze, Kuangyu Shi

胰腺导管腺癌(PDAC)的致死性质要求对早期鉴别诊断胰腺囊肿,其在正常受试者中高达16%确定,其中一些可能发展为PDAC。以前的计算机辅助开发已经在CT中分割出囊性病变的分类方面取得了一定的准确性。然而,胰腺囊肿在大小和形状上有很大的变化,并且它们的精确分割仍然相当具有挑战性,这限制了对于鉴别诊断所获得的CT图像的计算机辅助解释。我们提出了一个计算机辅助框架,用于胰腺囊肿的早期鉴别诊断,而不用使用密集连接的卷积网络(密集网络)预先分割病变。密集网从整个异常胰腺学习高级特征,并建立医学影像外观与不同病理类型胰腺囊肿之间的映射。为了提高临床适用性,我们在框架中整合了显着性图,以帮助医生理解深度学习方法的决定。对206例患有4种病理证实的胰腺囊肿的患者进行的一项队列试验的总体准确率为72.8%,明显高于48.1%的基线准确性,这有力地支持了我们开发的方法的临床潜力。[1806.01023v2] 我们在框架中整合了显着性地图,以帮助医生理解深度学习方法的决定。对206例患有4种病理证实的胰腺囊肿的患者进行的一项队列试验的总体准确率为72.8%,明显高于48.1%的基线准确性,这有力地支持了我们开发的方法的临床潜力。[1806.01023v2] 我们在框架中整合了显着性地图,以帮助医生理解深度学习方法的决定。对206例患有4种病理证实的胰腺囊肿的患者进行的一项队列试验的总体准确率为72.8%,明显高于48.1%的基线准确性,这有力地支持了我们开发的方法的临床潜力。[1806.01023v2]

 

对抗领域适应分类前列腺组织病理学全幻灯片图像

Jian Ren, Ilker Hacihaliloglu, Eric A. Singer, David J. Foran, Xin Qi

自动和准确的组织病理学组织切片的格里森分级对前列腺癌的诊断,治疗和预后至关重要。通常,由于不同的组织制备和染色程序,来自不同机构的组织病理学组织切片显示出不同的外观,因此从一个领域学习到的可预测模型可能不直接适用于新领域。这里我们建议采用无监督域自适应将从源域获得的区分性知识转移到目标域,而不需要在目标域上标记图像。通过对抗训练来实现自适应,以在目标域上找到不变的特征空间以及拟议的Siamese体系结构,以添加适合于整个幻灯片图像的正则化。我们验证了两种前列腺癌数据集的方法,并且与基线模型相比获得了格里森分数的显着分类改进。[1806.01357v2]

 

Respond-CAM:通过可视化分析3D成像数据的深层模型

Guannan Zhao, Bo Zhou, Kaiwen Wang, Rui Jiang, Min Xu

卷积神经网络(CNN)已成为各种生物医学图像分析任务的有力工具,但对CNN机器缺乏视觉解释。在本文中,我们提出了一种新颖的算法响应加权类激活映射(Respond-CAM),用于通过可视化输入对于预测非常重要的区域(特别是生物医学三维成像数据输入)来制作基于CNN的模型。我们的方法使用流入卷积层的任何目标概念的梯度(例如目标类的分数)。加权特征映射被组合起来产生一个热图,该图强调了图像中用于预测目标概念的重要区域。我们证明了Respond-CAM的一个较好的总和评分属性,并验证了其从当前最先进的方法对3D图像的显着改进。我们对细胞电子冷冻层析成像3D图像的测试表明,Respond-CAM实现了在使用3D生物医学图像输入对CNN进行可视化方面的卓越性能,并且能够在使用自然图像输入对CNN进行可视化时获得相当好的结果。Respond-CAM是一种高效可靠的CNN机械可视化方法,适用于各种CNN模型系列和图像分析任务。[1806.00102v2] 并且能够在用自然图像输入对CNN进行可视化时获得相当好的结果。Respond-CAM是一种高效可靠的CNN机械可视化方法,适用于各种CNN模型系列和图像分析任务。[1806.00102v2] 并且能够在用自然图像输入对CNN进行可视化时获得相当好的结果。Respond-CAM是一种高效可靠的CNN机械可视化方法,适用于各种CNN模型系列和图像分析任务。[1806.00102v2]

 

DEEPEYE:终端设备压缩量化和张量的紧凑和准确的视频理解

Yuan Cheng, Guangya Li, Hai-Bao Chen, Sheldon X. -D. Tan, Hao Yu

由于在视频检测和分类中暴露于高维度输入时需要大量参数,因此在终端设备上开发紧凑且精确的视频理解存在巨大挑战。当前的着作集中于视频检测和分类方面的优化。在本文中,我们介绍了终端设备的视频理解(对象检测和动作识别)系统,即DEEPEYE。基于你只看一次(YOLO),我们开发了一个8位量化方法来训练YOLO; 并开发了由YOLO提取的特征构成的递归神经网络(RNN)的张量压缩方法。开发出的量化和张量化能够在保持精确度的同时大幅度压缩原始网络模型。使用具有挑战性的视频数据集:MOMENTSUCF11作为基准,结果表明,提出的DEEPEYE达到了3.994倍的模型压缩率,仅有0.47%的mAP降低15,047x参数缩减和2.87倍加速,精度提高了16.58%。[1805.07935v2]

 

TrajNet基准的轨迹预测方法和注释评估

Stefan BeckerRonny HugWolfgangHübnerMichael Arens

近年来,从基于贝叶斯公式的跟踪问题到使用深度神经网络的建模发生了转变。为此,在本文中,评估了用于预测未来行人路径的各种深度神经网络的有效性。与传统方法一样,分析的深度网络完全依赖于观察到的轨迹,而没有人人交互信息。该评估是在公开可用的TrajNet基准数据集上完成的,该基准数据集为基于轨迹的活动预测建立了大量和流行数据集的存储库。我们展示了一个密集层堆叠在顶部的循环编码器,称为RED预测器,与此类场景中的详细模型相比,能够实现复杂的结果。进一步,我们调查失败案例,并对观察到的现象进行解释,并提供一些建议来克服所显示的缺点。[1805.07663v4]

 

量化模仿:面向对象检测的非常微小的CNN

Yi Wei, Xinyu Pan, Hongwei Qin, Wanli Ouyang, Junjie Yan

在本文中,我们提出了一个简单而通用的框架来训练非常微小的CNN用于物体检测。由于代表能力有限,培训非常小的网络以应对复杂的任务(如检测)非常具有挑战性。就我们所知,我们称之为量化模仿的方法是第一个专注于非常小的网络的方法。我们使用两种类型的加速方法:模拟和量化。Mimic通过从教师网络转移知识来提高学生网络的表现。量化将全精度网络转换为量化的网络,而不会导致性能的大幅降低。如果教师网络被量化,学生网络的搜索范围将会变小。使用这种量化特性,我们提出量化模拟。它首先量化大型网络,然后模仿量化的小型网络。我们建议量化操作可以帮助学生网络匹配教师网络中的特征地图。为了评估我们的假设的概括性,我们对包括VGGResnet在内的各种流行的CNN进行了实验,以及不同的检测框架,包括更快的R-CNNR-FCN。对Pascal VOCWIDER FACE的实验验证了我们的量化模拟算法可应用于各种设置,并在给定有限计算资源的情况下优于最先进的模型加速方法。[1805.02152v2] 以及不同的检测框架,包括更快的R-CNNR-FCN。对Pascal VOCWIDER FACE的实验验证了我们的量化模拟算法可应用于各种设置,并在给定有限计算资源的情况下优于最先进的模型加速方法。[1805.02152v2] 以及不同的检测框架,包括更快的R-CNNR-FCN。对Pascal VOCWIDER FACE的实验验证了我们的量化模拟算法可应用于各种设置,并在给定有限计算资源的情况下优于最先进的模型加速方法。[1805.02152v2]

 

具有取样相关字典的在线卷积稀疏编码

Yaqing Wang, Quanming Yao, James T. Kwok, Lionel M. Ni

卷积稀疏编码(CSC)已经广泛用于图像和信号处理中移位不变字典的学习。但是,现有方法的可伸缩性有限。在本文中,我们不是使用所有样本共享的字典进行卷积,而是使用样本相关字典,其中的过滤器是从数据中学习的一小组基本过滤器的线性组合。这种增加的灵活性允许捕捉大量依赖于样本的模式,而通过在线学习仍然可以有效地学习所得到的模型。大量的实验结果表明,所提出的方法优于现有的CSC算法,并且时间和空间要求大大降低。[1804.10366v2]

 

FaceShop:基于Deep Sketch的人脸图像编辑

Tiziano Portenier,胡启扬,AttilaSzabóSiavash Arjomand BigdeliPaolo FavaroMatthias Zwicker

我们提供了一个基于草图的人脸图像编辑的新系统,使用户可以通过在感兴趣的区域上勾画几个笔划,直观地编辑图像。我们的界面提供了工具,通过提供几何和颜色约束作为用户绘制的笔触来表达所需的图像操作。作为直接用户输入的替代方案,我们提出的系统自然支持复制粘贴模式,该模式允许用户通过使用另一个示例图像的部分来编辑给定的图像区域,而不需要手绘草图。建议的界面实时运行,并促进互动和迭代工作流程,以快速表达预期的编辑。我们的系统基于一个新颖的草图域和一个端到端训练的卷积神经网络,以自动学习渲染与输入笔划对应的图像区域。为了实现高质量和语义一致的结果,我们在两个同时完成的任务上训练我们的神经网络,即图像完成和图像平移。就我们所知,我们是第一个将这两项任务结合在一个统一的交互式图像编辑框架中的。我们的研究结果表明,所提出的草图域,网络结构和训练过程很好地适用于实际用户输入,并且无需额外的后处理即可实现高质量的综合结果。[1804.08972v2] 即图像完成和图像转换。就我们所知,我们是第一个将这两项任务结合在一个统一的交互式图像编辑框架中的。我们的研究结果表明,所提出的草图域,网络结构和训练过程很好地适用于实际用户输入,并且无需额外的后处理即可实现高质量的综合结果。[1804.08972v2] 即图像完成和图像转换。就我们所知,我们是第一个将这两项任务结合在一个统一的交互式图像编辑框架中的。我们的研究结果表明,所提出的草图域,网络结构和训练过程很好地适用于实际用户输入,并且无需额外的后处理即可实现高质量的综合结果。[1804.08972v2]

 

利用卷积神经网络进行局部点扩散函数估计的光学显微镜半盲空间变量解卷积

阿德里安沙杰科菲,迈克尔亲爱的

我们提出了一种针对光学显微镜的半盲,空间变量去卷积技术,该技术结合了点扩散函数(PSF)的局部估计步骤和使用空间变体,正则化的Richardson-Lucy算法的去卷积。为了以计算上易于处理的方式找到局部PSF映射,我们训练卷积神经网络来对合成模糊的图像块执行光学参数模型的回归。我们对合成和实验获取的数据进行了解卷积,与其他解卷积算法相比,平均图像SNR提高了1.00 dB[1803.07452v3]

 

AdaDepth:深度估计的无监督内容一致适应

Jogendra Nath KunduPhani Krishna UppalaAnuj PahujaR. Venkatesh Babu

受监督的深度学习方法对于单眼深度估计的任务已经显示出有前景的结果但是获得基础事实是昂贵的,并且容易产生噪音和不准确性。尽管合成数据集已被用于规避上述问题,但由于固有的域转移,所得模型不能很好地推广到自然场景。近来针对域自适应的对抗方法在减轻源域和目标域之间的差异方面表现良好。但是这些方法大多局限于分类设置,对于完全卷积体系结构并不能很好地扩展。在这项工作中,我们提出了AdaDepth – 一种无监督的域适应策略,用于单眼深度估计的逐像素回归任务。所提出的方法没有上述限制,通过a)敌对学习和b)在适应的目标表示上明确地施加内容一致性。我们的无监督方法与其他已建立的深度估计方法相竞争,并在半监督环境下实现最新的结果。[1803.01599v2]

 

SBNet:快速推理的稀疏块网络

Mengye RenAndrei PokrovskyBin YangRaquel Urtasun

常规的深度卷积神经网络(CNN)在所有特征图的空间中均匀地将卷积运算符应用于数百个层这为实时应用程序带来了高计算成本。对于诸如对象检测和语义分割等许多问题,我们能够从先验问题知识或低分辨率分割网络中获得低成本的计算掩模。我们证明这样的计算掩模可以用来减少高分辨率主网络中的计算。稀疏激活CNN的变体先前已经在小规模任务上进行了探索,并且在对象分类准确性方面没有显示出退化,但与高度优化的密集卷积实现相比,通常在理论FLOP方面测得的增益没有实现实际的加速。在这项工作中,我们利用计算掩码的稀疏结构,并提出了一种新的基于磁贴的稀疏卷积算法。我们验证了稀疏CNN在基于LiDAR的三维物体检测方面的有效性,并且我们报告了与密集卷积相比显着的时钟加速而没有明显的精度损失。[1801.02108v2]

 

用傅里叶变换方法降低深度网络复杂度

安德鲁Kiruluta

我们提出了一种使用浅密集连接的神经元网络架构的新颖方法,以获得优于基于卷积的神经网络(CNN)方法的性能,并具有较低计算负担的额外好处,需要大大减少训练实例以实现较高的预测准确度($> 98 \ $)。我们提出的方法的优点体现在对基准数据集的测试结果上,这些数据集比MNISTCIFAR-10CIFAR-100上现有的最新成果显示出显着的性能提升。通过对输入进行傅立叶变换,训练样本中的每个点都具有来自其他点的所有加权信息的表示能量。使用这种输入的结果是复杂性降低的神经元网络,减少计算负担并提高对大量训练实例的要求以实现高分类精度。[1801.01451v2]

 

使用深度学习从图像中识别果实

Horea MuresanMihai Oltean

在本文中,我们介绍一个新的,高质量的包含水果图像的数据集。我们还介绍了一些用于训练神经网络来检测水果的数值实验结果。我们通过提出一些可以使用这种神经网络的应用程序来讨论我们为什么选择在这个项目中使用水果的原因。[1712.00580v2]

 

CondenseNet:使用学习型卷积的高效DenseNet

Gao Huang, Shichen Liu, Laurens van der Maaten, Kilian Q. Weinberger

深度神经网络越来越多地用于计算资源有限的移动设备。在本文中,我们开发了具有前所未有的效率的新型网络架构CondenseNet。它将密集连接与称为学习群组卷积的新模块相结合。密集的连通性有助于网络中的特征重用,而学习到的组卷积消除了此特征重复使用的层之间的连接是多余的。在测试时,我们的模型可以使用标准组卷积来实现,从而在实践中实现高效的计算。我们的实验表明,CondenseNetsMobileNetsShuffleNets等先进的紧凑卷积网络效率更高。[1711.09224v2]

 

有效的多样性集成用于判别式共同追踪

Kourosh MeshgiShigeyuki ObaShin石井

集合区分性跟踪利用一个分类器委员会来标记数据样本,这些数据样本又被用于训练跟踪器,以使用委员会的集体知识来定位目标。委员会成员的特征,内存更新方案或培训数据可能会有所不同,但由于版本空间中的重叠较大,委员会成员之间不可避免地会产生过度的一致。为了消除这种冗余并进行有效的集成学习,委员会必须包含一致的假设,这些假设彼此不同,涵盖版本空间的最小重叠。在这项研究中,我们提出了一个在线合奏跟踪器,通过生成一组有效的人工培训来直接生成一个多样化的委员会。人造数据是从取自目标和背景的样本的经验分布中采样的,而该过程由逐个委员会查询以缩小分类器之间的重叠。实验结果表明,该方案在公共基准测试中优于传统的集成追踪器。[1711.06564v2]

 

综合鲁棒敌对示例

Anish AthalyeLogan EngstromAndrew Ilyas Kevin Kwok

用于生成神经网络的对抗性示例的标准方法由于视点移位,相机噪声和其他自然变换的组合,并不一致地欺骗物理世界中的神经网络分类器,从而限制了它们与真实世界系统的相关性。我们证明了强大的3D对抗对象的存在性,并且我们提出了第一种算法来合成对选定的变换分布有敌意的例子。我们合成了对噪声,失真和仿射变换稳健的二维对抗图像。我们将我们的算法应用于复杂的三维物体,使用3D打印来制造第一个物理敌对物体。我们的结果表明在物理世界中存在3D对抗物体。[1707.07397v3]

 

全球本地机载制图(GLAM):从航拍视频重建城市

Hasnain VohraMaxim BazikMatthew AntoneJoseph MundyWilliam Stephenson

单眼视觉SLAM已成为机器人定位和3D环境映射的一种有吸引力的实用方法,因为相机体积小,重量轻,价格低廉,可生成高速率,高分辨率的数据流。尽管已经开发了许多强大的工具,但由于计算和存储的限制,大多数现有系统设计为在地面环境中运行,并且规模相对较小(几千帧)。在本文中,我们提出了一种基于特征的视觉SLAM系统,用于航空视频,其简单设计允许近实时操作,并且其可扩展性允许使用成千上万帧的大面积映射,全部在单个常规计算机上。我们的方法由两个并行线程组成:第一个增量地创建小的局部一致的子图,并以视频速率估计相机姿态第二个将这些子地图彼此对齐,以通过因素图优化在姿势和地标上产生单个全局一致的地图。通过在子图对齐期间使用7自由度相似度转换来最小化尺度漂移。我们量化了我们的系统在模拟和真实数据集上的性能,并且使用近90,000个航空视频帧展示了城市规模的地图重建精确到2米以内据我们所知,这是迄今为止规模最大,速度最快的重建。[1706.01580v2] 通过在子图对齐期间使用7自由度相似度转换来最小化尺度漂移。我们量化了我们的系统在模拟和真实数据集上的性能,并且使用近90,000个航空视频帧展示了城市规模的地图重建精确到2米以内据我们所知,这是迄今为止规模最大,速度最快的重建。[1706.01580v2] 通过在子图对齐期间使用7自由度相似度转换来最小化尺度漂移。我们量化了我们的系统在模拟和真实数据集上的性能,并且使用近90,000个航空视频帧展示了城市规模的地图重建精确到2米以内据我们所知,这是迄今为止规模最大,速度最快的重建。[1706.01580v2]

 

使用3D卷积神经网络的与文本无关的说话者验证

Amirsina TorfiJeremy DawsonNasser M. Nasrabadi

在本文中,已经提出了一种使用三维卷积神经网络(3D-CNN)体系结构的新颖方法用于独立于文本的设置中的说话者验证。主要挑战之一是扬声器模型的创建。大多数先前报道的方法基于平均来自说话者话语的提取特征(其被称为d向量系统)来创建说话者模型。在我们的论文中,我们提出了一种自适应特征学习,利用3D-CNN进行直接说话人模型创建,其中对于发展阶段和登记阶段,每个说话人的口头发言的相同数量被馈送到网络以表示发言者的发言并创建演讲者模型。这导致同时捕捉与讲话人有关的信息并建立更强大的系统来应对讲话人内变化。我们证明了所提出的方法明显优于传统的d向量验证系统。此外,所提出的系统也可以替代传统的d-矢量系统,该系统是利用3D-CNN的一次性扬声器建模系统。[1705.09422v7]

 

单眼视觉内测中的挑战:光度校准,运动偏差和滚动快门效应

Nan Yang, Rui Wang, Xiang Gao, Daniel Cremers

单眼视觉测距法(VO)和同时定位与测绘法(SLAM)在准确性,稳健性和效率方面已经取得了巨大的进步,并且近年来越来越受欢迎。尽管如此,没有进行太多的讨论来揭示三个非常有影响但容易被忽视的方面:光度校准,运动偏差和卷帘快门效应的影响。在这项工作中,我们定量评估这三个方面的直接,基于特征和半直接的方法,为社区提供有用的实用知识,以更好地应用现有方法和开发VOSLAM的新算法。结论(其中有些是违反直觉的)是通过技术和经验分析对我们所有的实验进行的。有针对性地提出了对现有方法的可能改进,例如ORB-SLAM的子像素精度提高,从而提高了其性能。[1705.04300v4]

 

监督显着性图驱动分割镜像中的病变

Mostafa JahanifarNeda Zamani TajeddinBabak Mohammadzadeh AslAli Gooya

病变分割是大多数自动黑素瘤识别系统的第一步。dermoscopic图像中的缺陷和困难,如颜色不均匀性,头发堵塞,黑角和色彩图表使得病灶分割成为一项复杂的任务。为了在存在这些问题的情况下检测病变,我们提出了一种基于区分区域特征整合(DRFI)为皮肤镜图像量身定制的监督显着性检测方法。DRFI方法结合了多级分割,区域对比度,属性,背景描述符和随机森林回归器,为图像中的每个区域创建显着性分数。在我们改进的显着性检测方法mDRFI中,我们为区域属性描述符增加了一些新功能。另外,为了获得更强大的区域背景描述符,提出了阈值算法来获得新的伪背景区域。研究结果表明,mDRFI在检测皮肤镜像中突出物体的病灶时优于DRFI。提出的整体病变分割框架使用检测到的显着性图通过阈值处理和后处理操作来构建病变的初始掩模。最初的面具然后在水平集框架中演变以更好地适应病变的边界。对三个公共数据集的评估测试结果表明,我们提出的分割方法优于其他传统的最先进的分割算法,其性能与基于深度卷积神经网络的最新方法相当。[1703.00087v4] 研究结果表明,mDRFI在检测皮肤镜像中突出物体的病灶时优于DRFI。提出的整体病变分割框架使用检测到的显着性图通过阈值处理和后处理操作来构建病变的初始掩模。最初的面具然后在水平集框架中演变以更好地适应病变的边界。对三个公共数据集的评估测试结果表明,我们提出的分割方法优于其他传统的最先进的分割算法,其性能与基于深度卷积神经网络的最新方法相当。[1703.00087v4] 研究结果表明,mDRFI在检测皮肤镜像中突出物体的病灶时优于DRFI。提出的整体病变分割框架使用检测到的显着性图通过阈值处理和后处理操作来构建病变的初始掩模。最初的面具然后在水平集框架中演变以更好地适应病变的边界。对三个公共数据集的评估测试结果表明,我们提出的分割方法优于其他传统的最先进的分割算法,其性能与基于深度卷积神经网络的最新方法相当。[1703.00087v4] 提出的整体病变分割框架使用检测到的显着性图通过阈值处理和后处理操作来构建病变的初始掩模。最初的面具然后在水平集框架中演变以更好地适应病变的边界。对三个公共数据集的评估测试结果表明,我们提出的分割方法优于其他传统的最先进的分割算法,其性能与基于深度卷积神经网络的最新方法相当。[1703.00087v4] 提出的整体病变分割框架使用检测到的显着性图通过阈值处理和后处理操作来构建病变的初始掩模。最初的面具然后在水平集框架中演变以更好地适应病变的边界。对三个公共数据集的评估测试结果表明,我们提出的分割方法优于其他传统的最先进的分割算法,其性能与基于深度卷积神经网络的最新方法相当。[1703.00087v4] 对三个公共数据集的评估测试结果表明,我们提出的分割方法优于其他传统的最先进的分割算法,其性能与基于深度卷积神经网络的最新方法相当。[1703.00087v4] 对三个公共数据集的评估测试结果表明,我们提出的分割方法优于其他传统的最先进的分割算法,其性能与基于深度卷积神经网络的最新方法相当。[1703.00087v4]

 

概率顶点投票的视觉场所识别

Mathias GehrigElena StummTimo HinzmannRoland Siegwart

我们提出了一种基于最近邻居描述符投票的视觉地点识别的新颖评分概念,并演示了该算法如何自然地从问题描述中出现。基于观察到可以使用二项分布模型评估匹配地点的投票数量,可以高精度地检测环路闭合。通过将问题转换为概率框架,我们不仅可以消除对常用启发式参数的需求,还可以为匹配和非匹配地点分类提供强大的分数。基于上述得分,我们提出了用于2D-2D姿态图顶点匹配和2D-3D地标匹配的方法。该方法通过使用紧凑(低维)描述符和快速最近邻居检索技术来保持准确性,同时对于在线应用足够有效。所提出的方法在不同环境中的几个具有挑战性的数据集上进行评估,显示出具有高精度和高回忆率的最新结果。[1610.03548v2]

转载请注明:《PSENet:用渐进式尺度扩展网络进行形状健壮的文本检测+ superpixPool:利用超像素共享的高效语义图像分割+DORN:用于单目深度估计的深度顺序回归网络

发表评论