深度模糊映射:利用深度神经网络开发高级语义+基于改进的相关滤波器的工业中的物体检测和跟踪基准

不完美的细分标签:它们有多重要?

Nicholas HellerJoshua DeanNikolaos Papanikolopoulos

用于语义分割的标记数据集不完善,特别是在边界常常微妙或不明确的医学成像中。已经做了很少的工作来分析标签错误对分割方法性能的影响。在这里我们展示了一个模型性能的大规模研究,在训练数据中存在不同类型和程度的误差。我们几次用U-NetSegNetFCN32训练了10种不同模式的地面真实扰动的肝脏分割。我们的结果显示,对于每种体系结构,性能会随着边界局部化错误而稳步下降,但是,U-Net比锯齿状边界错误显着强于其他体系结构。我们还发现,每种架构对非边界局部化错误都非常健壮,这表明边界局部化误差与分类设置中的随机标签误差根本不同并且更具挑战性。[1806.04618v1]

 

结合无模型Q-集合和基于模型的方法进行有效的探索

Shricharan SankaranarayananRaghuram Mandyam AnnasamyKatia SycaraCarolyn PensteinRosé

Q-Ensembles是一种无模型的方法,输入图像输入不同的Q网络,探索是由不确定性与所获得的输出Q值的方差成比例的假设驱动的。与其他勘探策略相比,它们表现出相对较好的表现。此外,诸如编码器解码器模型的基于模型的方法已经成功用于给定前一帧的下一帧预测。本文提出将无模型Q-ensembles和基于模型的方法进行整合,希望能够兼顾两者的优点并实现卓越的勘探效果。结果表明,与仅使用Q-集合相比,基于模型的轨迹记忆方法与Q-ensembles相结合可产生出色的性能。[1806.04552v1]

 

iParaphrasing:通过图像提取视觉接地释义

陈慧珠,大谷麻谷,中岛裕太

换句话说就是重申文本的含义。为了提高许多自然语言处理任务的性能,对解释进行了研究。在本文中,我们提出了一个新的任务iParaphrasing来提取视觉基础释义(VGP),这是不同的短语表达,描述了图像中相同的视觉概念。这些提取的VGP有可能改善语言和图像多模式任务,如视觉问题回答和图像字幕。如何模拟VGP之间的相似性是iParaphrasing的关键。我们应用各种现有方法以及提出一种基于神经网络的图像注意方法,并报告第一次尝试iParaphrasing的结果。[1806.04284v1]

 

平均算子算法的扩展

MiguelSimõesJoséBioucas-DiasLuis B. Almeida

许多用于解决稀疏诱导正规化器的最小化问题的算法是通用的,因为它们没有以任何特定方式考虑解决方案的稀疏性。然而,称为半牛顿的算法能够利用这种稀疏性来加速它们的收敛。我们展示了如何将这些算法扩展到不同的方向,并通过证明它们是知名的Krasnosel’ski \ u {\ i} – Mann方案的扩展的特例来研究所得算法的收敛性。[1806.04561v1]

 

空间金字塔池层密集深度卷积神经网络检测室性早搏

Jianning Li

早产儿室性早搏(PVC)属于室间性早搏。自动化的方法准确和强大的检测聚氯乙烯是高度临床期望的。目前,这些方法大多是开发和测试使用相同的数据库分为训练和测试集,其泛化性能跨数据库尚未完全验证。本文提出了一种基于密集连接卷积神经网络和空间金字塔池化的PVC检测方法,该方法可以将任意大小的QRS波群作为输入进行训练和检测。通过更简单,更简单的体系结构,所提出的网络在当前的基于深度学习的方法方面达到了与准确性相当的结果,以MIT-BIH心律失常数据库为基准进行训练和测试,除了基准数据库之外,还从四个更开放的数据库中提取QRS波群,即圣彼得堡心脏病学技术研究所12导联心律失常数据库,MIT-BIH正常窦性心律数据库,MIT-BIH长期数据库和欧洲ST-T数据库。提取的QRS波群在5个数据库中的长度和采样率各不相同,并进行了全数据库的训练和测试。网络性能对基准数据库进行了改进,证明了使用多个数据库的优势仅使用单个数据库进行培训。该网络还在其他四个数据库上获得满意的分数,表现出良好的泛化能力。[1806

 

通过倾听和观看快速转发以自我为中心的视频

Vinicius S. FurlanRuzena BajcsyErickson R. Birth

装备精良的可穿戴设备的显着技术进步推动了长时间第一人称视频的产量不断增加。但是,由于这些视频中的大部分都具有漫长而乏味的部分,因此它们被遗忘或从未见过。尽管提出了大量技术来突出相关时刻来快速转发这些视频,但其中大多数仅基于图像。大多数这些技术忽略了当前设备中存在的其他相关传感器,例如高清麦克风。在这项工作中,我们提出了一种使用从配乐中提取的心理声学指标来快速转发视频的新方法。这些指标可用于评估细分市场的烦恼程度,从而使我们的方法能够强调愉悦的时刻。我们的方法的效率通过定性结果和定量结果来证明,就加速和不稳定性而言。[1806.04620v1]

 

学习3D MR-TRUS注册的深度相似度量

Grant HaskinsJochen KrueckerUwe KrugerXu XuPeter A. PintoBrad J. WoodPingkun Yan

目的:经直肠超声(TRUS)和磁共振(MR)图像融合以指导靶向前列腺活检显着提高了侵袭性癌症活检的产量。MR-TRUS融合的关键部分是图像配准。然而,由于两种成像模式之间的大的外观差异,获得鲁棒的自动MR-TRUS配准是非常具有挑战性的。本文提出的工作旨在通过解决两个挑战来解决这个问题:(i)定义合适的相似性度量和(ii)确定合适的优化策略。方法:本工作提出使用深度卷积神经网络来学习合适的相似性度量。我们还使用复合优化策略来探索优化图像配准的学习度量的解决方案空间。结果:学习相似性度量优于互信息,结果表明整体登记框架具有较大的捕获范围。所提出的基于深度相似性度量的方法针对这一具有挑战性的问题获得了4.24mm的平均TRE(初始TRE16mm)。结论:基于深度学习的学习度量可用于评估任何给定图像配准的质量,并可与上述优化框架结合使用,以执行对不良初始化有效的自动配准。[1806.04548v1] 学习的相似性度量优于互信息,结果表明整体注册框架具有较大的捕获范围。所提出的基于深度相似性度量的方法针对这一具有挑战性的问题获得了4.24mm的平均TRE(初始TRE16mm)。结论:基于深度学习的学习度量可用于评估任何给定图像配准的质量,并可与上述优化框架结合使用,以执行对不良初始化有效的自动配准。[1806.04548v1] 学习的相似性度量优于互信息,结果表明整体注册框架具有较大的捕获范围。所提出的基于深度相似性度量的方法针对这一具有挑战性的问题获得了4.24mm的平均TRE(初始TRE16mm)。结论:基于深度学习的学习度量可用于评估任何给定图像配准的质量,并可与上述优化框架结合使用,以执行对不良初始化有效的自动配准。[1806.04548v1] 基于深度学习的学习度量可用于评估任何给定图像配准的质量,并可与上述优化框架一起使用,以执行对不良初始化有效的自动配准。[1806.04548v1] 基于深度学习的学习度量可用于评估任何给定图像配准的质量,并可与上述优化框架一起使用,以执行对不良初始化有效的自动配准。[1806.04548v1]

 

飞行本机合奏的知识蒸馏

Xu Lan, Xiatian Zhu, Shaogang Gong

知识精馏有效地训练小型和一般性网络模型,以满足低内存和快速运行的需求。现有的离线蒸馏方法依赖于强大的预先训练的教师,这使得有利的知识发现和转移,但需要复杂的两阶段培训程序。在线同行以缺乏高容量教师的代价来解决这一限制。在这项工作中,我们提出了一个在线蒸馏的在线原生合奏(ONE)战略。具体来说,ONE只训练一个单一的多分支网络,同时建立一个强大的教师即时增强目标网络的学习。广泛的评估表明,与四种图像分类数据集上的替代方法相比,ONE可以更好地改善各种深度神经网络的泛化性能:CIFAR10CIFAR100SVHNImageNet,同时具有计算效率优势。[1806.04606v1]

 

U-SegNet:基于完全卷积神经网络的自动化脑组织分割工具

Pulkit KumarPraveen NagarChetan AroraAnubha Gupta

将自动脑组织分割成白质(WM),灰质(GM)和磁共振图像(MRI)脑脊液(CSF),可用于诊断神经障碍,如癫痫,阿尔茨海默氏症,多发性硬化症,然而,在皮层外围的薄的GM结构以及组织边界(例如GMWM,或WMCSF)之间的平滑过渡构成难以构建可靠的分割工具。本文提出了一种完全卷积神经网络(FCN)工具,它是两种广泛使用的深度学习分割体系结构SegNetU-Net的混合体,用于改善脑组织分割。我们提出了一个从U-Net启发的跳过连接,在SegNet architetcure中引入了精细的多尺度信息,以便更好地识别组织边界。我们表明,提出的U-SegNet体系结构可以改善分割性能,以平均骰子比率衡量,广泛使用的IBSR数据集包含18个受试者的T-1加权MRI体积,其分割性能为89.74%。[1806.04429v1]

 

通过迭代挖掘公共对象特征的弱监督语义分割

Xiang Wang, Shaodi You, Xi Li, Huimin Ma

图像标签监控下的弱监督语义分割是一项具有挑战性的任务,因为它直接将高级语义与低级外观联系起来。为弥补这一差距,本文提出了一种迭代自下而上和自上而下的框架,它可以扩展目标区域,优化分割网络。我们从分类网络的初始本地化开始。尽管分类网络只对小的和粗略的区分对象区域有反应,但我们认为,这些区域包含关于对象的重要共同特征。因此,在自下而上的步骤中,我们从初始本地化中挖掘常见的对象特征,并使用挖掘的特征扩展对象区域。为了补充非歧视性地区,然后在贝叶斯框架下考虑显着图来精炼对象区域。然后在自顶向下的步骤中,将细化对象区域用作监督来训练分割网络并预测对象遮罩。这些对象遮罩提供更准确的本地化并包含更多对象区域。此外,我们将这些对象遮罩作为初始定位,并从中挖掘它们的共同对象特征。迭代地执行这些过程以逐步产生精细的对象掩模并优化分割网络。Pascal VOC 2012数据集上的实验结果表明,所提出的方法大大优于先前的最先进方法。[1806.04659v1] 这些对象遮罩提供更准确的本地化并包含更多对象区域。此外,我们将这些对象遮罩作为初始定位,并从中挖掘它们的共同对象特征。迭代地执行这些过程以逐步产生精细的对象掩模并优化分割网络。Pascal VOC 2012数据集上的实验结果表明,所提出的方法大大优于先前的最先进方法。[1806.04659v1] 这些对象遮罩提供更准确的本地化并包含更多对象区域。此外,我们将这些对象遮罩作为初始定位,并从中挖掘它们的共同对象特征。迭代地执行这些过程以逐步产生精细的对象掩模并优化分割网络。Pascal VOC 2012数据集上的实验结果表明,所提出的方法大大优于先前的最先进方法。[1806.04659v1] Pascal VOC 2012数据集上的实验结果表明,所提出的方法大大优于先前的最先进方法。[1806.04659v1] Pascal VOC 2012数据集上的实验结果表明,所提出的方法大大优于先前的最先进方法。[1806.04659v1]

 

在本地行动之前进行全球初始化:使无地标3D美式磁共振成像注册成为可能

Julia RackersederMaximilian BaustRüdigerGöblNassir NavabChristoph Hennersperger

通过MRI数据注册部分视图3D美国卷受初始化影响。实践的标准是使用外在或内在的地标,这可能是非常乏味的获得。为了克服注册初始化的局限性,我们提出了一种新颖的方法,它基于从容易获得的粗分段导出的欧几里得距离图。我们在公开可用的RESECT数据集上定量评估我们的方法,并且显示它对于目标区域和初始位置的重叠是稳健的。此外,我们的方法提供了适合于最先进的非线性可变形图像配准算法捕捉范围的初始化。[1806.04368v1]

 

左心房和心房瘢痕分割的多视图双任务递归注意模型

Jun Chen, Guang Yang, Zhifan Gao, Hao Ni, Elsa Angelini, Raad Mohiaddin, Tom Wong, Yanping Zhang, Xiuquan Du, Heye Zhang, Jennifer Keegan, David Firmin

用于检测心房颤动(AF)患者心房瘢痕的晚期钆增强心脏MRILGE-CMRI)最近已成为一种有前途的技术,可将患者分层,指导消融治疗并预测治疗成功。瘢痕组织的可视化和量化需要从LGE-CMRI图像分割左心房(LA)和高强度瘢痕区域。由于消除了健康的组织信号,低信噪比和这些患者的图像质量通常受限,这两个分割任务是具有挑战性的。大多数方法需要手动监测和/或第二次明亮血液MRI采集用于解剖分割。从单个LGE-CMRI采集中自动分割LA解剖结构和瘢痕组织是非常需要的。在这个研究中,我们提出了一种直接在LGE-CMRI图像上工作的新型全自动多视图双任务(MVTT)递归关注模型,该模型结合了顺序学习和扩张残留学习来分割LA(包括附着的肺静脉)并通过同时描绘心房疤痕一种创新的关注模式。与其他最先进的方法相比,所提出的MVTT实现了令人信服的改善,从而能够生成患者特异性解剖和心房瘢痕评估模型。[1806.04597v1] 与其他最先进的方法相比,所提出的MVTT实现了令人信服的改善,从而能够生成患者特异性解剖和心房瘢痕评估模型。[1806.04597v1] 与其他最先进的方法相比,所提出的MVTT实现了令人信服的改善,从而能够生成患者特异性解剖和心房瘢痕评估模型。[1806.04597v1]

 

稀疏,协作或非负性表示:哪些有助于模式分类?

Xu Jun, An Wangpeng, Zhang Lei, Zhang David

在诸如人脸识别和对象分类之类的任务中,已经广泛研究了用于模式分类的稀疏表示(SR)和协作表示(CR)的使用。尽管基于SR / CR的分类器取得了成功,但它仍然是可争议的,无论是基于SR / CR的成功的$ \ ell_ {1} $范数稀疏还是$ \ ell_ {2} $ – 规范协作属性分类。在本文中,我们调查了非负性表示(NR)用于模式分类的情况,这在很大程度上被以前的工作忽略。我们的分析表明NR可以提高均匀样本的表示能力,同时限制非均匀样本的表示能力,同时使表示具有稀疏性和差异性,从而为基于表示的分类提供了比SR / CR更为有效的解决方案。我们的实验证明了所提出的基于NR的分类器(NRC)优于先前的基于表示的分类器。凭借深入的功能作为输入,它还可以实现各种视觉分类任务的最新性能。[1806.04329v1]

 

对变分自动编码器的敌对攻击

George Gondim-RibeiroPedro TabacofEduardo Valle

敌对攻击是破坏机器学习模型的恶意输入。我们提出攻击自动编码器的方案,以及与攻击的定性评估相关的定量评估框架。我们通过统计验证的实验评估在三个数据集(MNISTSVHNCelebA)中对三种变异自动编码器(简单,卷积和DRAW)攻击的抵抗能力,表明DRAW的复发和关注机制导致更好抵抗性。由于自动编码器被建议用于压缩数据一种安全性至关重要的场景我们期望对它们的对抗性攻击给予更多的关注。[1806.04646v1]

 

GAN训练中平均效应的异常效应

Yasin PrinterFoo Chuan-ShengStefan WinklerKim-Hui YapGeorgios PiliourasVijay Chandrasekhar

我们凭经验表明,最小最大凸凹游戏设置中的参数平均的最优策略在非凸凹GAN设置中也非常有效,具体地缓解了与在GAN中观察到的循环行为相关的收敛问题。我们证明,对trainig循环之外的发电机参数进行平均可以不断改进不同架构和不同GAN目标的初始和FID分数。我们在各种数据集,双线性游戏,高斯混合,CIFAR-10STL-10CelebAImageNet中提供全面的实验结果,以证明其有效性。我们在CIFAR-10上获得了最先进的成果,并生成了干净的CelebA人脸图像,证明平均是培训高性能GAN最有效的技术之一。[1806

 

使用数据驱动的互补性质的地图来增强临床MRI灌注图以用于病变结果预测

阿德里亚诺平托,塞尔吉奥佩雷拉,拉斐尔迈耶,维克多阿尔维斯,罗兰威斯特,卡洛斯A.席尔瓦,毛里西奥雷耶斯

中风是发达国家中第二大最常见的死亡原因,快速临床干预可能对患者的生活产生重大影响。为了进行血运重建手术,医生的决策制定基于多模态MRI和临床经验考虑其风险和益处。因此,缺血性卒中病变结局的自动预测可能有助于医生更好地评估卒中评估和有关组织结局的信息。通常,自动方法考虑扩散和灌注MRI的标准动力学模型(例如TmaxTTPMTTrCBFrCBV)的信息以执行损伤结果预测。在这项工作中,我们提出了一种深度学习方法,将这些信息与原始4D PWI图像信息的自动数据选择相融合,然后是基础血流血流动力学的数据驱动的深度学习模型。与仅使用标准的临床灌注图相比,我们证明了所提出的方法改善对治疗前风险组织的预测的能力,因此提出了所提出的数据驱动的原始灌注数据建模方法的潜在益处。[1806.04413v1]

 

快速旋转稀疏编码

Michael T. McCannMichael UnserAdrien Depeursinge

我们提出了一个旋转稀疏编码算法,以及一个使用可控性的有效实现。稀疏编码(也称为\ emph {字典学习})是图像处理中的一项重要技术,可用于逆向问题,压缩和分析然而,通常的公式不能捕捉到图像结构的重要方面:图像是由构建块形成的,例如边缘,线条或点,它们出现在不同的位置,方向和比例上。稀疏编码问题可以重新制定以明确说明这些变换,但代价是计算成本增加。在这项工作中,我们提出了一种基于K-SVD和其他旋转操作的稀疏编码旋转版本的算法。然后,我们提出一种通过在可操纵基础上学习字典来加速这些旋转的方法。我们将所提出的标准稀疏方法与补丁编码和纹理分类的实验进行了比较在后一种情况下,我们会报告Outex_TC_00010数据集的最新结果。[1806.04374v1]

 

基于多尺度旋转密集特征的自动船舶检测复杂场景中的谷歌地球遥感图像

Xue Yang, Hao Sun, Kun Fu, Jirui Yang, Xian Sun, Menglong Yan, Zhi Guo

船舶检测一直在遥感领域发挥着重要的作用,但它仍然充满了挑战。传统的船舶检测方法的主要局限性在于应用场景的复杂性,密集目标检测的难度以及检测区域的冗余性。为了解决上述问题,我们提出了一种称为旋转密集特征金字塔网络(R-DFPN)的框架,该框架可以在包括海洋和港口在内的不同场景中有效检测船舶。具体而言,我们提出了密集特征金字塔网络(DFPN),其目的是解决船舶宽度窄的问题。与先前的多尺度检测器如特征金字塔网络(FPN)相比,DFPN通过密集连接为所有尺度构建高级语义特征映射,通过该连接增强特征传播并鼓励特征重用。此外,在船舶旋转和密集布置的情况下,我们设计旋转锚定策略来预测对象的最小外接矩形,以减少冗余检测区域并改善召回。此外,为了保持语义和空间信息的完整性,我们还提出了多尺度ROI对齐。基于Google Earth遥感图像进行船舶检测的实验表明,我们基于R-DFPN表示的检测方法具有最先进的性能。[1806.04331v1] 在船舶旋转和密集布置的情况下,我们设计旋转锚点策略来预测物体的最小外接矩形,以减少冗余检测区域并提高召回率。此外,为了保持语义和空间信息的完整性,我们还提出了多尺度ROI对齐。基于Google Earth遥感图像进行船舶检测的实验表明,我们基于R-DFPN表示的检测方法具有最先进的性能。[1806.04331v1] 在船舶旋转和密集布置的情况下,我们设计旋转锚点策略来预测物体的最小外接矩形,以减少冗余检测区域并提高召回率。此外,为了保持语义和空间信息的完整性,我们还提出了多尺度ROI对齐。基于Google Earth遥感图像进行船舶检测的实验表明,我们基于R-DFPN表示的检测方法具有最先进的性能。[1806.04331v1] 为了保持语义和空间信息的完整性,我们还提出了多尺度ROI对齐。基于Google Earth遥感图像进行船舶检测的实验表明,我们基于R-DFPN表示的检测方法具有最先进的性能。[1806.04331v1] 为了保持语义和空间信息的完整性,我们还提出了多尺度ROI对齐。基于Google Earth遥感图像进行船舶检测的实验表明,我们基于R-DFPN表示的检测方法具有最先进的性能。[1806.04331v1]

 

精细粒度对象类别的三维姿态估计

Yaming Wang, Xiao Tan, Yi Yang, Xiao Liu, Errui Ding, Feng Zhou, Larry S. Davis

现有的对象姿态估计数据集与通用对象类型相关,并且目前还没有用于细粒度对象类别的数据集。在这项工作中,我们引入了一个新的大型数据集来对基于细粒度物体的姿态估计进行基准测试,这要归功于最近可用的2D3D细粒度数据。具体而言,我们通过为每个子类别找到细粒度的3D CAD模型并用3D姿势手动注释图像中的每个对象来增强两种流行的细粒度识别数据集(StanfordCarsCompCars)。我们证明,只要有足够的训练数据,就可以仅使用2D外观信息来估计具有连续参数的完整透视模型。我们通过基于Faster / Mask R-CNN的框架来实现这一目标。这超出了以前关于类别级别姿态估计的研究,其仅通过关键点的帮助来估计离散/连续视角或恢复旋转矩阵。此外,通过使用细粒度的3D模型,我们在基于CNN的姿态估计框架中引入了名为{\ em location field}的新颖3D表示形式,以进一步提高性能。[1806.04314v1]

 

利用多尺度密集卷积神经网络进行音频 场景分类的样本丢失

Dawei Feng, Kele Xu, Haibo Mi, Feifan Liao, Yan Zhou

声场分类是机器的一个复杂问题。作为一个新兴的研究领域,深度卷积神经网络(CNN)取得了令人信服的结果。在本文中,我们探索使用多尺度稠密连接卷积神经网络(DenseNet)进行分类任务,目标是提高分类性能,因为可以从音频的时频表示中提取多尺度特征信号。另一方面,以往基于CNN的音频场景分类方法大部分旨在通过采用不同的正则化技术(如隐藏单元丢失和数据增强)来减少过度拟合,从而提高分类精度。众所周知,训练集中的异常值对训练好的模型有很大的负面影响,并挑选出异常值可能会提高分类性能,但在以前的研究中往往没有得到充分研究。在本文中,受语音信号处理中沉默消除的启发,提出了一种新的样本丢失方法,旨在去除训练数据集中的异常值。使用DCASE 2017音频场景分类数据集,实验结果表明提出的多尺度DenseNet提供比传统单尺度DenseNet更优越的性能,而样本丢失方法可以进一步提高多尺度DenseNet的分类鲁棒性。[1806.04422v1] 提出了一种新的样本丢失方法,旨在消除训练数据集中的异常值。使用DCASE 2017音频场景分类数据集,实验结果表明提出的多尺度DenseNet提供比传统单尺度DenseNet更优越的性能,而样本丢失方法可以进一步提高多尺度DenseNet的分类鲁棒性。[1806.04422v1] 提出了一种新的样本丢失方法,旨在消除训练数据集中的异常值。使用DCASE 2017音频场景分类数据集,实验结果表明提出的多尺度DenseNet提供比传统单尺度DenseNet更优越的性能,而样本丢失方法可以进一步提高多尺度DenseNet的分类鲁棒性。[1806.04422v1]

 

Qiniu提交到2018年的ActivityNet挑战赛

Xiaoteng Zhang, Yixin Bao, Feiyun Zhang, Kai Hu, Yicheng Wang, Liang Zhu, Qinzhu He, Yining Lin, Jie Shao, Yao Peng

在本文中,我们介绍了我们提交的关于修剪活动识别(动力学)和修剪事件识别(时间矩)的任务2018年的活动网络挑战。在这两个任务中,非局部神经网络和时间段网络实现为我们的基础模型。多模式线索,如RGB图像,光流和声学信号也被用于我们的方法。我们还提出了新的非局部模型来进一步提高识别的准确性。在整合模型后的最终意见书中,动力学验证集的前1精度达到83.5%,前测精度达到96.8%,麻省理工学院验证集的前5个精度达到35.81%,精度达到了前者的62.59%。[1806.04391v1]

 

MSplit LBI:同时实现特征选择和密集估计的少量和零射击学习

Bo Zhao, Xinwei Sun, Yanwei Fu, Yuan Yao, Yizhou Wang

学习一个好的嵌入模型以有效地学习两个空间/子空间之间的表示系数是一个典型和普遍的话题。为了解决这个问题,$ L_ {1} $正则化被广泛用于追求特征选择和避免过拟合,而$ L_ {1} $正则化中特征的稀疏估计可能导致训练数据的不足。$ L_ {2} $正则化也经常使用,但它是一个有偏差的估计量。在本文中,我们提出这样的想法,即特征由三个正交部分组成,即稀疏强信号,密集弱信号和随机噪声,其中强信号和弱信号都有助于数据的拟合。为了促进这种新颖的分解,\ emph {MSplit} LBI首次被提出来同时实现特征选择和密集估计。我们提供了理论和仿真验证,证明了我们的方法超过$ L_ {1} $$ L_ {2} $正则化,并且广泛的实验结果表明,我们的方法在少数和零点处理中实现了最先进的性能,开枪学习。[1806.04360v1]

 

视觉分析数据库的基于物理表示的谓词优化

Michael R. AndersonMichael Cafarella,德国RosThomas F. Wenisch

查询图像,视频和其他非文本数据源的内容需要昂贵的内容提取方法。现代提取技术基于深度卷积神经网络(CNN),可以以惊人的准确性对图像中的对象进行分类。不幸的是,这些方法很慢:在现代基于GPU的硬件上处理单个图像可能需要大约10毫秒。随着海量视频库变得无处不在,在数百万视频帧中运行基于内容的查询是令人望而却步的。减少可视内容查询的运行时成本的一种有前途的方法是使用分层模型,例如级联,其中简单的情况由廉价的分类器处理。之前的工作试图设计级联,通过例如使用更小的CNN来优化推断的计算成本。然而,我们观察到,除了推理时间之外,还有一些关键因素会显着影响整个查询时间。值得注意的是,通过将输入图像的物理表示视为查询优化的一部分也就是说,通过在级联中包含图像转换(如分辨率缩放或颜色深度缩减)我们可以优化数据处理成本并能够大幅提高分类器的级联效率。在本文中,我们提出Tahoma,它生成和评估许多潜在的分类器级联,共同优化CNN体系结构和输入数据表示。我们对ImageNet的一个子集进行的实验表明,Tahoma的输入转换可以将级联速度提高35倍。我们还发现ResNet50分类器的速度提高了98倍,精度没有损失,如果牺牲一些准确性,则会提高280倍的速度。[1806.04226v1]

 

学习从3D对象估计室内照明

恩里克韦伯,唐纳德普雷沃斯特,让弗朗索瓦拉隆德

在这项工作中,我们提出了一个更加准确的预测环境光的步骤,只需一幅已知物体的照片即可。为此,我们开发了一种深度学习方法,能够使用少量参数对室内照明的潜在空间进行编码,并在环境地图数据库中进行训练。这个潜在的空间然后被用来产生比先前的方法更现实和准确的光的预测。为了实现这一点,我们的第一个贡献是一个深度自动编码器,它能够学习紧凑地模拟照明的特征空间。我们的第二个贡献是一个卷积神经网络,用于预测来自已知对象的单个图像的光线。为了培训这些网络,我们的第三个贡献是一个新颖的数据集,其中包含21,000HDR室内环境地图。结果表明,即使是漫反射物体,预测器也可以生成合理的照明估计。[1806.03994v2]

 

NeuroNet:多个脑图像分割管道的快速和可靠的再现

马丁Rajchl,尼克Pawlowski,丹尼尔Rueckert,保罗M.马修斯,本Glocker

NeuroNet是一个深度卷积神经网络,模仿多种流行的和最先进的大脑分割工具,包括FSLSPMMALPEM。该网络接受来自英国生物银行影像学研究的5,000T1加权脑MRI扫描的训练,该扫描已使用标准神经影像管道自动分割为脑组织和皮层以及亚皮层结构。从这些互补和部分重叠的标签地图中训练单一模型会产生新的强大的一体化多输出分割工具。与运行每个软件包相比,单个主题的处理时间减少了一个数量级。我们展示了原始输出的非常好的重现性,同时增加了对输入数据变化的鲁棒性。我们相信NeuroNet可能成为大规模人群影像学研究的重要工具,并通过降低选择特定软件包时引入偏倚的风险,成为神经科学的新标准。[1806.04224v1]

 

基于改进的相关滤波器的工业中的物体检测和跟踪基准

Shangzhen Luan, Yan Li, Xiaodi Wang, Baochang Zhang

实时对象检测和跟踪已被证明是工业4.0应用智能生产的基础。由于复杂工业环境中的各种扭曲数据,这是一项具有挑战性的任务。相关滤波器(CF)已被用于折衷低成本计算和高性能。然而,传统的CF培训策略不能得到各种行业数据满意的表现因为在训练过程中简单的抽样(装袋)不会在数据空间中找到具有多样性的确切解决方案。在本文中,我们提出了基于Dijkstra-distance的相关滤波器(DBCF),它建立了一个新的学习框架,将分布相关的约束嵌入到多通道相关滤波器(MCCF)中。DBCF能够通过改进基于所有解决方案中最短路径的约束来处理行业数据中存在的巨大变化。为了评估DBCF,我们建立了一个新的数据集作为工业4.0应用程序的基准。大量的实验表明,DBCF产生高性能并超越最先进的方法。数据集和源代码可以在https://github.com/bczhangbczhang找到[1806.03853v2]

 

通过视觉语境改善整体幻灯片的分割系统研究

Korsuk SirinukunwattanaNasullah Khalid AlhamClare VerrillJens Rittscher

虽然具有挑战性,但组织学图像的密集分割是评估组织结构和细胞形态学变化的必要的第一步。尽管具体的卷积神经网络架构已经被应用并取得了巨大的成功,但是很少有效地合并来自多个尺度的视觉上下文信息。在本文中,我们对不同体系结构进行了系统比较,以评估包含多尺度信息如何影响分段性能。本研究正在使用公开可用的乳腺癌和局部采集的前列腺癌数据集。结果支持我们的假设,即视觉情境和量表在组织学图像分类问题中起着至关重要的作用。[1806.04259v1]

 

以面部变形攻击为例的安全相关应用的精确鲁棒神经网络

Clemens SeiboldWojciech SamekAnna HilsmannPeter Eisert

人工神经网络倾向于只学习他们需要完成的任务。训练数据的操纵可以抵消这种现象。在本文中,我们研究了训练数据的不同变化的影响,这些变化限制了决策可用信息的数量和位置。我们分析了针对特定变形攻击示例的不同训练数据修改训练的网络上针对语义和黑盒攻击的准确性和鲁棒性。变形攻击是对生物识别面部识别系统的攻击,其中系统被愚弄以使具有相同合成面部图像的两个不同个体匹配。这样的合成图像可以通过对齐和混合应该与该图像匹配的两个个体的图像来创建。[1806.04265v1]

 

DPatch:用敌对修补程序攻击对象探测器

Xin Liu, Huanrui Yang, Linghao Song, Hai Li, Yiran Chen

近年来,物体探测器取得了长足的进步,并已广泛应用于各种重要的现实场景,如自动驾驶和人脸识别。因此,研究现代物体探测器对不同类型攻击的脆弱性越来越重要。在这项工作中,我们证明实际上很多主流探测器(例如更快的R-CNN)可以被微小的敌对补丁破解。这是一个不平凡的任务,因为原始的敌对修补方法只能应用于图像级分类器,并且不能处理现代检测器涉及的区域提案。相反,我们在这里迭代地在输入图像内部发展出一个小小的补丁,这样它会使提案生成和Faster R-CNN的后续区域分类无效,导致成功的攻击。具体而言,建议的敌对补丁(即DPatch)可以针对任何目标类别进行训练,以便场景任何区域中的所有对象都将被分类为该目标类别。一个有趣的现象是DPatch的效率不受其位置的影响:无论它位于何处,修补程序都会在相同的迭代次数后使RCNN失效。此外,我们发现不同的目标类别具有不同程度的脆弱性而更大尺寸的DPatch可以更有效地执行攻击。大量实验表明,我们的DPatch可以将PASCAL VOC 2012上一流的检测器的mAP71%降低到25%及以下。[1806.02299v2] DPatch)可以接受任何目标课程的训练,以便将场景中任何区域的所有对象都归类为该目标课程。一个有趣的现象是DPatch的效率不受其位置的影响:无论它位于何处,修补程序都会在相同的迭代次数后使RCNN失效。此外,我们发现不同的目标类别具有不同程度的脆弱性而更大尺寸的DPatch可以更有效地执行攻击。大量实验表明,我们的DPatch可以将PASCAL VOC 2012上一流的检测器的mAP71%降低到25%及以下。[1806.02299v2] DPatch)可以接受任何目标课程的训练,以便将场景中任何区域的所有对象都归类为该目标课程。一个有趣的现象是DPatch的效率不受其位置的影响:无论它位于何处,修补程序都会在相同的迭代次数后使RCNN失效。此外,我们发现不同的目标类别具有不同程度的脆弱性而更大尺寸的DPatch可以更有效地执行攻击。大量实验表明,我们的DPatch可以将PASCAL VOC 2012上一流的检测器的mAP71%降低到25%及以下。[1806.02299v2] 无论它位于何处,修补程序总是可以在相同次数的迭代后使RCNN无效。此外,我们发现不同的目标类别具有不同程度的脆弱性而更大尺寸的DPatch可以更有效地执行攻击。大量实验表明,我们的DPatch可以将PASCAL VOC 2012上一流的检测器的mAP71%降低到25%及以下。[1806.02299v2] 无论它位于何处,修补程序总是可以在相同次数的迭代后使RCNN无效。此外,我们发现不同的目标类别具有不同程度的脆弱性而更大尺寸的DPatch可以更有效地执行攻击。大量实验表明,我们的DPatch可以将PASCAL VOC 2012上一流的检测器的mAP71%降低到25%及以下。[1806.02299v2]

 

协作人类人工智能(CHAI):基于证据的可解释的黑色素瘤分类dermoscopic图像

Noel CF Codella,林青青,Allan HalpernMichael HindRogerio FerisJohn R. Smith

自动皮肤镜图像分析的诊断性能快速增长。然而,采纳会面临阻力,部分原因是没有证据支持决策。在这项工作中,提出了一种基于证据的分类方法。通过CNN学习特征嵌入,三重丢失和全局平均共享,并用于通过kNN搜索进行分类。证据既作为发现的邻居,也作为与测量查询和邻居之间距离最相关的局部图像区域提供。为了确保结果在任何技能水平的标签准确性和人类视觉相似性方面都是相关的,实现了一种新的分层三重逻辑,以根据疾病标签和非专家相似性共同学习嵌入。结果比仅在疾病标签上接受培训的基线有所改善,以及标准的多类丢失。根据非专家相似度以及局部图像区域,结果的定量相关性也得到显着改善。[1805.12234v2]

 

培训医学影像分析系统,如放射科医生

Gabriel MaicasAndrew P. BradleyJacinto C. NascimentoIan ReidGustavo Carneiro

使用机器学习方法进行医学图像分析系统的培训遵循一个通用脚本:收集并注释一个大型数据集,在训练集上训练分类器,并在一个保留测试集上测试它。这个过程与放射科医师培训没有直接的相似之处,放射医师培训是基于解决一系列增加难度的任务,其中每个任务涉及比机器学习中使用的小得多的数据集。在本文中,我们提出了一种新的培训方法,受到放射科医师培训的启发。特别是,我们探索了使用基于一系列任务对分类器进行建模的元训练。任务选择使用师生课程学习,每个任务由包含小型训练集的简单分类问题组成。我们假设我们提出的元训练方法可以用于预训练医学图像分析模型。该假设在用弱标记数据集训练的DCE-MRI的自动乳房筛查分类上进行测试。通过我们的方法实现的分类性能在该应用领域表现出最好,与现有技术的基准方法相比:DenseNet,多实例学习和多任务学习。[1805.10884v2] 多实例学习和多任务学习。[1805.10884v2] 多实例学习和多任务学习。[1805.10884v2]

 

不再问:决定何时在参考视觉对话中进行猜测

Ravi ShekharTim BaumgartnerAashish VenkateshElia BruniRaffaella BernardiRaquel Fernandez

我们的目标是探索如何将对话经理带来的能力纳入端到端的视觉基础会话代理。我们通过增加一个以任务为导向的视觉对话模型来决定是否要求后续问题来确定图像中的目标指示对象,或者停止对话以制作一个决策组件猜测。我们的分析表明,添加决策组件会产生重复性较低的对话,并且包含更少不必要的问题,因此可能导致更有效且更不自然的交互。[1805.06960v2]

 

可量化表示的高效端到端学习

Yeonwoo JeongHyun Oh Song

通过神经网络嵌入表示学习是现代相似性搜索的核心基础。尽管为了提高搜索效率而开发用于学习二进制汉明码表示的算法已经付出了很多努力,但是这仍然需要对每个查询的整个数据集进行线性扫描并且通过二值化将搜索精度折衷。为此,我们考虑直接学习可量化嵌入表示和端到端稀疏二进制散列码的问题,其可以用于构造高效散列表,不仅提供显着的数据数量搜索减少,而且实现现有技术的搜索准确性优于先前的现有技术深度量度学习方法。我们还表明,通过求解最小代价流问题,可以在多项式时间内精确计算最小稀疏二进制散列码。我们在Cifar-100ImageNet数据集上的结果显示了精度@ kNMI指标的最新搜索精度状态,同时通过彻底的线性搜索分别提供高达98X478X的搜索加速。源代码可在https://github.com/maestrojeong/Deep-Hash-Table-ICML18 [1805.05809v3]

 

像素,体素和视图:研究单视图3D对象形状预测的形状表示

Daeyun ShinCharless C. FowlkesDerek Hoiem

本白皮书的目标是比较基于表面的和体积的3D对象形状表示,以及用于单视图3D形状预测的以观察者为中心和以对象为中心的参考框架。我们提出了一种用于从多个视点预测深度图的新算法,其中单个深度或RGB图像作为输入。通过修改网络和评估模型的方式,我们可以直接比较体素与表面的优点,以及从RGB或深度图像预测的熟悉与陌生物体的以观察者为中心与以物体为中心的优点。在我们的研究结果中,我们显示基于表面的方法胜过来自新类别的对象的体素表示并产生更高分辨率的输出。我们还发现使用以观察者为中心的坐标对于新颖的物体是有利的,而以对象为中心的表示更适合更熟悉的对象。有趣的是,坐标系显着影响所学的形状表示,以物体为中心更重视隐式识别物体类别和以观察者为中心的生成形状表示,而对类别识别的依赖较小。[1804.06032v2]

 

用张量列车快速准确完成张量:系统辨识方法

Ching-Yun Ko, Kim Batselier, Wenjian Yu, Ngai Wong

本文提出了一种基于张量序列和系统辨识的张量完备方法。待完成的张量被建模为低秩张量系统,坐标和相应的张量条目分别被解释为系统输入和输出。提出了一种新的张量训练初始化程序,专门用于图像和视频的完成,保证了完成算法的收敛速度更快。由于它们的低秩张量训练表示,张量训练框架也显示出容易适应总变分和Tikhonov正则化。图像和视频修补实验验证了所提出的方案在速度,准确性和可伸缩性方面的优越性,在相似的精确度下,与最先进的张量完成方法相比,可以观察到高达60倍的加速。[1804.06128v2]

 

利用深CNN正向物理模型损失直接估计DCE-MRI的药代动力学参数

Cagdas UlasGiles TettehMichael J. ThrippletonPaul A. ArmitageStephen D. MakinJoanna M. WardlawMike E. DaviesBjoern H. Menze

动态对比增强(DCEMRI是一种不断发展的成像技术,可提供对人体组织中药物动力学(PK)参数的定量测量,其中采用顺磁造影剂后收集一系列T1加权像。不幸的是,在许多应用中,传统的临床DCE-MRI遭受低时空分辨率和不足容量覆盖。在本文中,我们提出了一种新颖的基于深度学习的方法来直接估算欠采样DCE-MRI数据的PK参数。具体而言,我们设计了一个自定义损失函数,我们将一个正向物理模型与PK参数相关联,这个模型将k因子空间中的子采样而获得的图像时间序列损坏。这使得网络可以直接利用训练阶段真实造影剂动力学的知识,从而提供更准确的PK参数恢复。临床大脑DCE数据集的实验证明了我们的方法在PK参数重构的保真度方面的效力以及与基于模型的迭代重建方法相比显着更快的参数推断。[1804.02745v2]

 

DeepASL:通过深度残留学习消除动脉自旋标记的MRI的动力学模型合并损失

Cagdas UlasGiles TettehStephan KaczmarzChristine PreibischBjoern H. Menze

动脉自旋标记(ASL)允许通过磁性标记动脉血液水来量化脑血流量(CBF)。由于无创性,可重复性和量化优势,ASL越来越多地用于临床研究。然而,ASL具有固有的低信噪比(SNR),要求重复测量控制/自旋标记(C / L)对以实现合理的图像质量,这反过来又增加了运动灵敏度。这导致临床上延长的扫描时间增加运动伪影的风险。因此,ASL需要先进的成像和处理技术。在本文中,我们提出了一种新的基于深度学习的方法来改善从所有可用的成对C / L减法子集获得的灌注加权图像质量。特别,我们训练一个深度完全卷积网络(FCN)来学习噪声灌注加权图像和干净图像中的减法(残差)映射。此外,我们将CBF估计模型纳入训练期间的损失函数中,使网络能够产生高质量图像,同时强制CBF估计值与参考CBF值相近。在合成和临床ASL数据集上的大量实验证明了我们的方法在改善ASL图像质量,准确的CBF参数估计和测试期间相当小的计算时间方面的有效性。[1804.02755v2] 我们将CBF估计模型纳入训练期间的损失函数中,使网络能够生成高质量图像,同时强制CBF估计值与参考CBF值相近。在合成和临床ASL数据集上的大量实验证明了我们的方法在改善ASL图像质量,准确的CBF参数估计和测试期间相当小的计算时间方面的有效性。[1804.02755v2] 我们将CBF估计模型纳入训练期间的损失函数中,使网络能够生成高质量图像,同时强制CBF估计值与参考CBF值相近。在合成和临床ASL数据集上的大量实验证明了我们的方法在改善ASL图像质量,准确的CBF参数估计和测试期间相当小的计算时间方面的有效性。[1804.02755v2] 准确的CBF参数估计和测试期间相当小的计算时间。[1804.02755v2] 准确的CBF参数估计和测试期间相当小的计算时间。[1804.02755v2]

 

介入应用的无标记内外跟踪

Benjamin BusamPatrick RuhkampSalvatore VirgaBeatrice LentesJulia RackersederNassir NavabChristoph Hennersperger

追踪医疗器械的旋转和平移在许多现代干预措施中起着重要作用。传统的外部光学跟踪系统经常受到视线问题的影响,特别是当感兴趣区域难以进入或者该程序仅允许有限的刚体标记时。引入内外跟踪系统旨在克服这些问题。我们提出了基于视觉SLAM的无标记追踪系统,以实现在介入场景中跟踪仪器。为了实现这一目标,我们在感兴趣的对象上安装一个微型多模式(单眼,立体,有源深度)视觉系统,并将其姿势重新定位在手术室的自适应地图中。我们比较了最先进的算法流水线,并将其应用于前列腺经直肠三维超声(TRUS)复合。使用商业光学跟踪系统以及机器人操纵器将获得的体积与重建进行比较。基于特征的双目SLAM被认为是最有前途的方法,并且在严重阻塞下的具有挑战性的临床环境中以及美国前列腺活组织检查的用例中进行了广泛的测试。[1804.01708v3]

 

组标准化

Yuxin Wu, Kaiming He

批量标准化(BN)是深度学习发展中的一项里程碑式技术,可让各种网络进行培训。但是,沿着批量维度进行归一化会带来一些问题批量统计估算不准确导致批量变小时,BN的误差迅速增加。这限制了BN用于培训更大型号的功能,并将功能转移到计算机视觉任务,包括检测,分割和视频,这些任务都需要小批量的内存消耗。在本文中,我们提出组标准化(GN)作为BN的简单替代方案。GN将通道分成组,并在每组内计算标准化的均值和方差。GN的计算与批量大小无关,并且其准确度在各种批量大小下都很稳定。在ImageNet上训练的ResNet-50上,GN使用批量大小为2时的错误率比BN对手低10.6当使用典型的批量时,GNBN相当,并且优于其他标准化变量。而且,GN可以自然地从预培训转向微调。GN可以胜过其基于国阵的同行在COCO中进行目标检测和分割,以及在Kinetics中进行视频分类,表明GN可以在各种任务中有效地取代强大的BNGN可以通过现代库中的几行代码轻松实现。[1803.08494v3] GN可以自然地从预培训转向微调。GN可以胜过其基于国阵的同行在COCO中进行目标检测和分割,以及在Kinetics中进行视频分类,表明GN可以在各种任务中有效地取代强大的BNGN可以通过现代库中的几行代码轻松实现。[1803.08494v3] GN可以自然地从预培训转向微调。GN可以胜过其基于国阵的同行在COCO中进行目标检测和分割,以及在Kinetics中进行视频分类,表明GN可以在各种任务中有效地取代强大的BNGN可以通过现代库中的几行代码轻松实现。[1803.08494v3]

 

综合例子的广义零点学习

Vinay Kumar VermaGundeep AroraAshish MishraPiy ush Rai

我们提出了一个广义零炮制学习的生成框架,其中训练和测试类不一定是不相交的。建立在基于变化的基于自编码器的架构上,由概率编码器和概率条件解码器组成,我们的模型可以从看到/看不见的类生成新的示例,并给出它们各自的类属性。随后可以使用这些范例来训练任何现成的分类模型。我们的编码器解码器架构的关键方面之一是反馈驱动机制,其中鉴别器(多变量回归器)学习将生成的范例映射到相应的类属性向量,从而导致改进的生成器。我们的模型‘ 通过生成和利用未知类的示例来训练分类模型的能力自然有助于减轻在广义零点学习设置中预测可见类的偏见。通过一系列全面的实验,我们展示了我们的模型在几个基准数据集上的表现优于几种最先进的方法,既适用于标准也适用于广义零点学习。[1712.03878v5]

 

GradNorm:用于深度多任务网络中自适应丢失平衡的梯度归一化

赵晨,Vijay Badrinarayanan,李晨宇,安德鲁拉比诺维奇

深度多任务网络,其中一个神经网络产生多个预测输出,可以提供比其单任务对应物更好的速度和性能,但是对于正确训练而言具有挑战性。我们提出了梯度归一化(GradNorm)算法,该算法通过动态调整梯度幅度来自动平衡深度多任务模型中的训练。我们展示了对于各种网络体系结构,对于回归和分类任务以及合成和真实数据集,与单任务网络,静态基线和其他自适应多任务丢失平衡技术相比,GradNorm可提高准确性并减少跨多个任务的过度拟合。尽管只涉及单个不对称超参数$ \ alpha $GradNorm也匹配或超过穷举网格搜索方法的性能。从而,无论任务的数量多少,现在都可以在几次训练中完成曾经繁琐的搜索过程,这些搜索过程为每个添加的任务带来指数级更多的计算。最终,我们将证明渐变操纵使我们能够很好地控制多任务网络的训练动态,并且可能是解锁多任务学习潜力的关键之一。[1711.02257v4]

 

在人类活动中发现和识别运动基元

Marta SanzariValsamis NtouskosFiora Pirri

我们提出了一个新的框架,用于自动发现和识别人类活动视频中的运动基元。考虑到视频中人的三维姿态,通过优化运动通量来发现人体运动基元,该运动通量是捕获一组骨骼关节的运动变化的量。提出基元的规范化以使它们相对于主题解剖变化和数据采样率不变。发现的基元是未知的,未标记的,并且通过分层非参数贝叶斯混合模型无监督地收集到类中。一旦确定并标记了类,就会进一步分析它们以建立识别发现的基元的模型。每个原始模型由一组学习参数定义。给定新的视频数据并给出出现在视频上的对象的估计姿态,运动被分割成基元,基元根据学习模型的参数给出概率。使用我们的框架,我们使用从众所周知的动作捕捉数据集中提取的序列,构建一个公开可用的人体运动基元数据集。我们期望我们的框架通过提供客观的方式来发现和分类人体运动,将成为众多研究领域的有用工具,包括视频分析,人体感应运动生成,示范学习,直观的人机交互以及人类行为分析。[1709.10494v5] 根据学习模型的参数给出概率。使用我们的框架,我们使用从众所周知的动作捕捉数据集中提取的序列,构建一个公开可用的人体运动基元数据集。我们期望我们的框架通过提供客观的方式来发现和分类人体运动,将成为众多研究领域的有用工具,包括视频分析,人体感应运动生成,示范学习,直观的人机交互以及人类行为分析。[1709.10494v5] 根据学习模型的参数给出概率。使用我们的框架,我们使用从众所周知的动作捕捉数据集中提取的序列,构建一个公开可用的人体运动基元数据集。我们期望我们的框架通过提供客观的方式来发现和分类人体运动,将成为众多研究领域的有用工具,包括视频分析,人体感应运动生成,示范学习,直观的人机交互以及人类行为分析。[1709.10494v5] 通过提供发现和分类人体运动的客观方法,将成为众多研究领域的有用工具,包括视频分析,人体感应运动生成,示范学习,直观的人机交互以及人类行为分析。[1709.10494v5] 通过提供发现和分类人体运动的客观方法,将成为众多研究领域的有用工具,包括视频分析,人体感应运动生成,示范学习,直观的人机交互以及人类行为分析。[1709.10494v5]

 

深单目深度估计中的妥协原理

Huan Fu, Mingming Gong, Chaohui Wang, Dacheng Tao

单眼深度估计在理解3D场景几何中起着关键作用,这基本上是一个不适合的问题。基于深度卷积神经网络(DCNN)的现有方法通过学习卷积网络来估计单眼图像的连续深度图,从而检验了这个问题。然而,我们发现,训练一个网络来预测高空间分辨率的连续深度图通常会遇到本地解决方案不佳的问题。在本文中,我们假设在空间和深度分辨率之间达成折衷可以改善网络训练。基于这个妥协原则,我们提出了一种回归分类级联网络(RCCN),其中包括预测低空间分辨率连续深度图的回归分支和预测高空间分辨率离散深度图的分类分支。这两个分支形成一个级联结构,允许分类和回归分支相互获益。通过利用大规模原始训练数据集和一些数据增强策略,我们的网络在纽约大学深度V2KITTIMake3D基准测试中获得最高或最先进的成果。[1708.08267v2]

 

代理思想:为有限沟通技巧的用户提供移动机器人服务助理

菲利克斯Burget,卢卡斯多米尼克约瑟夫Fiederer,丹尼尔Kuhner,马丁国家,约翰内斯ALDINGER,罗宾·蒂博尔中士,洲做的,约施卡·Boedecker,伯恩哈德·纳贝尔,托尼奥球,沃尔夫勒姆·伯加德

随着自主服务机器人变得更加实惠并且因此也可用于普通大众,对用户友好界面的控制机器人系统的需求日益增长。目前可用的控制模式通常希望用户能够通过触摸,语音或手势命令来表达他们的愿望。虽然大多数用户都满足了这一要求,但瘫痪的用户可能无法使用此类系统。在本文中,我们提出了一种新颖的框架,允许这些用户以闭环方式与机器人服务助手进行交互,只使用想法。脑机接口(BCI)系统由几个相互作用的组件组成,即非侵入式神经元信号记录和解码,高级任务规划,运动和操纵规划以及环境感知。在各种实验中,我们展示了它在现实世界场景中的适用性和鲁棒性,考虑了涉及人机器人交互的抓取和携带任务和任务。正如我们的结果所证明的,我们的系统能够适应环境中的频繁变化,并在合理的时间内可靠地完成给定的任务。结合高级别规划和自动机器人系统,开创了非侵入性基于BCI的人机交互的有趣新视角。[1707.06633v4] 我们的系统能够适应环境中的频繁变化,并在合理的时间内可靠地完成给定的任务。结合高级别规划和自动机器人系统,开创了非侵入性基于BCI的人机交互的有趣新视角。[1707.06633v4] 我们的系统能够适应环境中的频繁变化,并在合理的时间内可靠地完成给定的任务。结合高级别规划和自动机器人系统,开创了非侵入性基于BCI的人机交互的有趣新视角。[1707.06633v4]

 

学习三维点云的表示和生成模型

Panos AchlioptasOlga DiamantiIoannis MitliagkasLeonidas Guibas

三维几何数据为研究表示学习和生成建模提供了一个很好的领域。在本文中,我们将看到以点云表示的几何数据。我们引入了具有最先进的重建质量和泛化能力的深度自动编码器(AE)网络。学习表示的性能优于3D识别任务的现有方法,并通过简单的代数操作(如语义部分编辑,形状类比和形状插值以及形状完成)启用形状编辑。我们对不同的生成模型进行了深入研究,包括在原始点云上操作的GAN,在我们的AE的固定潜在空间中训练得到的显着改进的GAN以及高斯混合模型(GMM)。为了定量评估生成模型,我们基于点云之间的匹配来引入样本保真度和多样性的度量。有趣的是,我们对泛化,保真度和多样性的评估表明,在我们的AE中潜在空间培训的GMM产生了总体上最好的结果。[1707.02392v3]

 

深度模糊映射:利用深度神经网络开发高级语义

Kede Ma, Huan Fu, Tongliang Liu, Zhou Wang, Dacheng Tao

人类视觉系统擅长检测视觉图像的局部模糊,但其底层机制尚未得到很好的理解。模糊的传统观点,例如高频能量减少和局部特征相位相干性丧失具有根本的局限性。例如,他们不能很好地区分平坦区域和模糊区域。在这里,我们建议高级语义信息对于成功识别局部模糊至关重要。因此,我们求助于能够熟练学习高级特征的深度神经网络,并提出基于完全卷积网络的第一个端到端局部模糊映射算法。通过分析不同深度和设计理念的不同架构,我们凭经验证明,较深层次的高层特征比较浅层次的低层特征在解决此任务的具有挑战性的模糊性方面发挥更重要的作用。我们在标准模糊检测基准上测试了所提出的方法,并证明它显着地提高了最新的(ODS F-score 0.853)。此外,我们探讨了在三个应用中使用生成的模糊图,包括模糊区域分割,模糊度估计和模糊放大。[1612.01227v2] 包括模糊区域分割,模糊度估计和模糊放大。[1612.01227v2] 包括模糊区域分割,模糊度估计和模糊放大。[1612.01227v2]

 

CNN中学习判别式筛选银行进行细粒度识别

Yaming WangVlad I. MorariuLarry S. Davis

与早期的使用CNN特征的多级框架相比,最近用于细粒度识别的端到端深度方法基本上提高了CNN的中级学习能力。以前的方法通过引入辅助网络来将定位信息输入到主分类网络中,或者采用复杂的特征编码方法来捕获更高阶的特征统计量来实现这一点。我们证明,通过学习一组卷积过滤器,可以在CNN框架内增强中级表示学习,这些卷积过滤器可捕获特定于类别的区别性补丁,而无需额外的部分或边界框注释。这样的滤波器组结构良好,通过具有卷积滤波器监视和非随机层初始化的新型非对称多流体系结构适当初始化和区别性地学习。实验结果表明,我们的方法在三个公开可用的细粒度识别数据集(CUB-200-2011,斯坦福汽车和FGVC-飞机)上实现了最先进的技术。消融研究和可视化提供了解我们的方法。[1611.09932v3]

转载请注明:《深度模糊映射:利用深度神经网络开发高级语义+基于改进的相关滤波器的工业中的物体检测和跟踪基准

发表评论