我们提出了一种高效和有效的方法来学习非均匀采样点云的卷积,因为它们是通过现代采集技术获得的。学习是由四个关键的创新实现的:首先,将卷积核本身表示为多层感知器; 第二,作为蒙特卡洛积分问题的措词卷积,第三,构造用于合并的非结构化泊松盘层次结构,以及第四,使用蒙特卡洛卷积作为同时以不同分辨率进行汇集和上采样操作。所有这些贡献的关键思想是保证从蒙特卡罗的角度充分考虑潜在的非均匀样本分布函数。为了使拟议的概念适用于现实世界的任务,我们还提出了一个有效的实现方法,可以显着降低所需的GPU内存 通过在分层网络架构中采用我们的方法,我们可以在建立的点云分割,分类和正常估算基准上超越大多数最先进的网络。此外,与大多数现有方法相比,即使仅在均匀采样模型上进行训练,我们也可以证明我们的方法在采样变化方面的稳健性。[1806.01759v1] 我们还可以证明我们的方法在采样变化方面的鲁棒性,即使只在均匀采样模型上进行训练。[1806.01759v1] 我们还可以证明我们的方法在采样变化方面的鲁棒性,即使只在均匀采样模型上进行训练。[1806.01759v1]
我们为移动物体的视频呈现序贯参加,推断,重复(SQAIR),一种可解释的深层生成模型。它可以在整个帧序列中可靠地发现和跟踪对象,还可以在当前帧上生成未来的帧调节,从而模拟物体的预期运动。这是通过显式编码模型的潜在变量中的对象存在,位置和外观来实现的。SQAIR保留了其前任Attend,Infer,Repeat(AIR,Eslami et。al。,2016)的所有优势,包括以无人监督的方式学习,并解决其缺点。我们使用移动的多MNIST数据集来显示AIR检测重叠或部分遮挡物体的局限性,并展示SQAIR如何通过利用物体的时间一致性来克服它们。最后,我们还将SQAIR应用于现实世界的行人闭路电视数据,在那里它学会可靠地检测,跟踪和生成没有监督的步行行人。[1806.01794v1]
卷积运算主导着卷积神经网络(CNN)的整体执行时间。本文提出了一种简单而有效的卷积神经网络训练和测试技术。传统的卷积和池化操作被简易卷积和随机池(ECP)所取代。在ECP中,我们从四个中随机选择一个像素,并仅对所选像素进行卷积运算。结果,只需要传统卷积计算的四分之一。实验表明,EasyConvPooling的训练时间可以达到1.45倍,测试时间达到1.64倍。更重要的是,与传统的卷积运算相比,纯粹的Easy Convolution运算获得了5.09倍的加速比。[1806.01729v1]
图卷积网络(GCN)允许在非欧几里得域中应用传统的卷积运算,其中数据通常被建模为不规则图。医学影像学,尤其是神经科学研究通常依赖于这种图表示,其中大脑连接网络是一个典型的例子,同时最终寻找大脑中表型或疾病相关差异的位点。这些感兴趣区域(ROIs)被认为与功能和/或行为密切相关。在此基础上,我们探索了GCNs用于ROI识别的任务,并提出了基于类激活映射的视觉归属方法。通过进行性别分类任务作为概念证明,我们证明这种方法可以用来识别没有先前节点标签的显着节点(大脑区域)。根据对来自英国生物库的超过5000名参与者的神经影像数据进行的实验,我们证明了所提出方法在强调个体可重复区域的鲁棒性。根据大规模英国生物银行研究的证据,我们进一步评估确定区域的神经生物学相关性。[1806.01764v1]
让机器能够识别像人类一样的物体一直是机器视觉的主要目标之一。由于这些传感器提供的丰富信息,RGB-D摄像机的推出为这个方向的重大飞跃铺平了道路。然而,机器视觉社区仍然缺乏一种有效的方法来协同使用RGB和深度数据来改善对象识别。为了朝这个方向迈出一步,我们引入了一种称为循环卷积融合(RCFusion)的用于RGB-D物体识别的新型端到端体系结构。我们的方法通过结合表示不同抽象层次的互补RGB和深度信息,生成紧凑且具有高判别力的多模式特征。对两个流行数据集进行大量实验,RGB-D对象数据集和JHUIT-50,显示RCFusion在对象分类和实例识别任务中明显优于最先进的方法。[1806.01673v1]
端到端深度学习网络最近展示了极佳的立体匹配性能。然而,现有网络难以用于实际应用,因为(1)它们需要内存并且无法处理即使是中等大小的图像,(2)必须针对给定视差范围进行训练。我们提出的实用深立体(PDS)网络解决了这两个问题:首先,其架构依赖于新颖的瓶颈模块,可大幅减少推断中的内存占用量,并且额外的设计选择可在训练期间处理更大的图像大小。这导致利用大型图像上下文来解决匹配歧义的模型。其次,与MAP估计相结合的新颖的亚像素交叉熵损失使得该网络对模糊匹配较不敏感,并适用于任何视差范围而无需重新培训。我们将PDS与最近几个月发布的最先进的方法进行比较,并展示其在FlyingThings3D和KITTI套装上的出众表现。[1806.01677v1]
深度神经网络在单幅图像超分辨率(SISR)中取得了显着的成功。然而,这些方法的计算和存储要求阻碍了它们应用于具有有限计算能力的大量实际设备。解决这个问题的一种方法是轻量级的网络架构,以平衡超分辨率性能和计算负担。在这项研究中,我们从正视角度重新审视这个问题,并提出了一种新颖的学习策略,以最大限度地提高给定轻量级网络体系结构的逐像素拟合能力。考虑到轻量级网络的初始容量非常有限,我们提出了一个SISR的自适应重要性学习方案,通过动态更新图像像素在训练损失的基础上的重要性,以简单复杂的范例训练网络。具体而言,我们将网络训练和重要性学习制定为联合优化问题。通过精心设计的重要性惩罚函数,可以通过求解凸优化问题逐渐增加单个像素的重要性。因此训练过程开始于容易重构的像素,并随着拟合改进逐渐进入更复杂的像素。[1806.01576v1] 通过求解一个凸优化问题逐渐增加单个像素的重要性。因此训练过程开始于容易重构的像素,并随着拟合改进逐渐进入更复杂的像素。[1806.01576v1] 通过求解一个凸优化问题逐渐增加单个像素的重要性。因此训练过程开始于容易重构的像素,并随着拟合改进逐渐进入更复杂的像素。[1806.01576v1]
人类如何认识“打开书”的行为?我们认为有两个重要线索:建模时间形状动态和建模人与物体之间的功能关系。在本文中,我们建议将视频表示为捕获这两个重要线索的时空区域图。我们的图形节点由长距离视频中来自不同帧的对象区域提案定义。这些节点通过两种关系相连:(i)捕获相关对象之间的长距离依赖关系的相似关系和(ii)捕获附近对象之间相互作用的时空关系。我们通过图形卷积网络对这个图形表示进行推理。我们在Charades和Something-Something数据集上实现了最先进的结果。特别是对于Charades,当我们的模型应用于复杂环境时,我们获得了4.4%的巨大收益。[1806.01810v1]
学习速率调度器一直是深度神经网络训练中的关键问题。已经提出了几种调度器和方法,包括步骤衰减调度器,自适应方法,余弦调度器和循环调度器。本文提出了一种新的调度方法,称为双曲正切衰减(HTD)。我们在几个基准上运行实验,例如:ResNet,Wide ResNet和DenseNet,用于CIFAR-10和CIFAR-100数据集,LSTM用于PAMAP2数据集,ResNet on ImageNet和Fashion-MNIST数据集。在我们的实验中,几乎在所有情况下,HTD比逐步衰减和余弦调度器都要优越,同时比阶跃衰减需要更少的超参数,并且比余弦调度器更灵活。[1806.01593v1]
神经网络的泛化能力取决于用于训练它的优化程序。对于从业者和理论家而言,确定优化程序的哪些属性影响泛化至关重要。在本文中,我们观察到优先考虑网络中不同层次的训练显着影响其泛化能力,有时会导致测试精度高达30%的差异。为了更好地监控和控制这种优先级,我们提出将层级训练速度定义为层的权重向量的旋转速率(以下称为层旋转速率),并开发Layca,这是一种能够直接控制它的优化算法通过每层的学习速率参数,不受梯度传播现象的影响(例如,消失渐变)。我们发现,控制层转速可以使Layca在三个不同任务(高达10%的测试错误改进)上以相同的学习速率调整量显着优于SGD。此外,我们提供的实验表明,与深层模型的训练有关的几个有趣的观察结果,即学习曲线中的高原,重量衰减的影响以及自适应梯度方法的不良泛化性质都是由于特定的配置的层转速。总的来说,我们的工作表明层旋转速率是泛化的重要因素,并且监视它应该是任何深度学习实验的关键组成部分。[1806.01603v1] 我们发现,控制层转速可以使Layca在三个不同任务(高达10%的测试错误改进)上以相同的学习速率调整量显着优于SGD。此外,我们提供的实验表明,与深层模型的训练有关的几个有趣的观察结果,即学习曲线中的高原,重量衰减的影响以及自适应梯度方法的不良泛化性质都是由于特定的配置的层转速。总的来说,我们的工作表明层旋转速率是泛化的重要因素,并且监视它应该是任何深度学习实验的关键组成部分。[1806.01603v1] 我们发现,控制层转速可以使Layca在三个不同任务(高达10%的测试错误改进)上以相同的学习速率调整量显着优于SGD。此外,我们提供的实验表明,与深层模型的训练有关的几个有趣的观察结果,即学习曲线中的高原,重量衰减的影响以及自适应梯度方法的不良泛化性质都是由于特定的配置的层转速。总的来说,我们的工作表明层旋转速率是泛化的重要因素,并且监视它应该是任何深度学习实验的关键组成部分。[1806.01603v1] 我们提供的实验表明,与深层模型的训练有关的几个有趣的观察结果,即学习曲线中的高原,重量衰减的影响以及自适应梯度方法的不良泛化性质都是由于层的特定配置转速。总的来说,我们的工作表明层旋转速率是泛化的重要因素,并且监视它应该是任何深度学习实验的关键组成部分。[1806.01603v1] 我们提供的实验表明,与深层模型的训练有关的几个有趣的观察结果,即学习曲线中的高原,重量衰减的影响以及自适应梯度方法的不良泛化性质都是由于层的特定配置转速。总的来说,我们的工作表明层旋转速率是泛化的重要因素,并且监视它应该是任何深度学习实验的关键组成部分。[1806.01603v1] 我们的工作表明层旋转速率是泛化的重要因素,并且监测它应该是任何深度学习实验的关键组成部分。[1806.01603v1] 我们的工作表明层旋转速率是泛化的重要因素,并且监测它应该是任何深度学习实验的关键组成部分。[1806.01603v1]
我们目睹了自主驾驶汽车和社交机器人等自主平台的增长。这些移动机器需要安全地以社会可接受的方式驾驶动态人类环境。因此,了解人类行为和环境的物理限制至关重要。为了解决场景中多个交互代理的路径预测任务,我们提出了SoPhie; 基于生成敌对网络(GAN)的可解释框架。索菲利用两种信息来源:场景中所有代理的过去轨迹和导航场景的广角顶视图。我们的方法将身体关注机制与社会关注机制相结合。身体关注组件帮助模型学习在大场景中查看哪里以及提取与路径相关的图像中最显着的部分。而社交关注组件能够将信息聚合到不同的相关代理上,并从周围代理中提取最重要的轨迹信息,从而使我们的方法能够预测社交意识路径。SoPhie能够捕捉未来预测的多模态特性:考虑到轨迹和导航场景的历史,未来可能有多条可接受的路径。通过对几个轨迹预测基准的实验,我们证明了SoPhie在精度方面胜过了之前的工作,同时预测了物理上合适的路径。我们还表明,SoPhie能够对场景中的可穿越位置和不可穿越位置进行分类。[1806.01482v1]
深卷积神经网络(CNN)正日益成为预测视觉皮层中神经反应的流行模型。然而,在神经处理和感知中普遍存在的情境效应并未被当前的CNN所明确处理,包括用于神经预测的情况。在初级视觉皮层中,神经反应通过以丰富方式在空间上围绕经典感受野的刺激来调节。这些效应已经用分裂归一化方法建模,包括灵活模型,其中空间归一化仅被招募到来自中心和环绕位置的响应被视为统计学依赖。我们提出了一种灵活的归一化模型,将其应用于深层CNN的中层表示,作为研究中等视觉区域中的上下文标准化机制的易处理方式。这种方法捕捉CNN中的中级特征之间的非平凡的空间依赖性,例如在纹理和其他视觉刺激中出现的由平铺高阶特征产生的视觉刺激。我们预计该方法可以预测何时可能在中层皮质区域招募空间正常化。我们也希望这种方法作为CNN工具包的一部分是有用的,因此超越了更多限制性的标准化固定形式。[1806.01823v1] 例如在纹理和其他视觉刺激中出现的那些,这些刺激是由平面高阶特征在几何上产生的。我们预计该方法可以预测何时可能在中层皮质区域招募空间正常化。我们也希望这种方法作为CNN工具包的一部分是有用的,因此超越了更多限制性的标准化固定形式。[1806.01823v1] 例如在纹理和其他视觉刺激中出现的那些,这些刺激是由平面高阶特征在几何上产生的。我们预计该方法可以预测何时可能在中层皮质区域招募空间正常化。我们也希望这种方法作为CNN工具包的一部分是有用的,因此超越了更多限制性的标准化固定形式。[1806.01823v1]
最近,使用神经网络进行聚类证明了机器学习和计算机视觉应用领域的良好表现。然而,当前方法的表现受到无监督学习的限制,或者它们依赖于大量的标记数据样本。在本文中,我们提出ClusterNet,它使用来自极少数标记数据样本(<总数据的5%)的成对语义约束,并利用丰富的未标记数据来驱动聚类方法。我们定义了一个新的损失函数,它使用对象之间的成对语义相似度与约束k-均值聚类相结合,在同一个框架中有效地利用标记数据和未标记数据。所提出的网络使用容量自动编码器来学习将数据分组为k个指定聚类的潜在表示,同时还要同时学习聚类中心。我们评估和比较ClusterNet在多个数据集上的表现和最先进的深度聚类方法。[1806.01547v1]
卷积神经网络在计算机视觉系统中被广泛采用,在众多视觉识别任务中有许多应用。尽管卷积层的基本前提保持不变,但卷积神经网络架构和学习算法的进步促进了这方面的进展。在本文中,我们试图重新审视一直是最先进的视觉识别模型的主力的卷积层。我们引入了一个非常简单而有效的模块,称为扰动层,作为卷积层的替代。扰动层消除了传统意义上的卷积,而是将其响应计算为非线性激活的加性噪声扰动输入的加权线性组合。我们从分析和经验两方面证明,这个扰动层可以成为标准卷积层的有效替代。根据经验,具有扰动层的深层神经网络(称为扰动神经网络(PNN))代替卷积层与具有较少参数的一系列视觉数据集(MNIST,CIFAR-10,PASCAL VOC和ImageNet)上的标准CNN相比。[1806.01817v1]
我们提出了一种基于深度卷积神经网络(CNNs)的有损图像压缩方法,该方法在相同比特率下优于现有的BPG,WebP,JPEG2000和JPEG,通过多尺度结构相似性(MS-SSIM)测量。目前,大多数基于CNN的方法使用像素域中的重建和地面实况之间的L2损失来训练网络,这导致过度平滑的结果和视觉质量退化,尤其是在非常低的比特率下。因此,我们还通过感知损失和对抗性损失的组合来提高主观质量。为了实现更好的码率失真优化(RDO),我们在添加量化误差和速率约束时还引入了易于传输的学习。最后,我们评估了公共柯达公司的计算方法和苏黎世联邦理工学院计算机视觉实验室发布的测试数据集P / M,结果平均分别比BPG平均降低了7.81%和19.1%的BD率。[1806.01496v1]
从单眼RGB图像数据自动确定三维人体姿势是一个具有挑战性的问题。输入的二维性导致内在的模糊性,这使得推断深度特别困难。最近,研究人员已经证明,深度神经网络的灵活的统计建模能力足以以合理的精度进行这样的推理。然而,这些模型中的许多模型使用坐标输出技术,这些技术是内存密集型的,不可区分的,和/或不能很好地在空间上一般化。我们提出了三维坐标预测的改进方法,该方法通过在增强软argmax方案下预测2D边际热图来避免上述不良特征。我们最终的模型MargiPose可以产生视觉连贯的热图,同时保持可分辨性。我们还能够在公开可用的3D人体姿态估计数据上实现最新的准确性。[1806.01484v1]
本文论述了自动驾驶车辆的基本车道检测问题。我们的方法利用单个RGB-D摄像机记录的颜色和深度信息,以更好地处理照明条件和车道状物体等不利因素。在该方法中,颜色和深度图像首先被转换成半二进制格式和3D点的2D矩阵。然后将它们用作模板匹配和几何特征提取过程的输入,以形成响应图,以便其值表示像素成为车道标记的概率。为了进一步改善结果,模板和车道表面最终通过主成分分析和车道模型拟合技术来完善。已经对合成和真实数据集进行了大量实验。结果表明,所提出的方法可以有效地消除不必要的噪声,以在各种情况下准确检测车道标记。而且,在流行的膝上型计算机的硬件配置下每秒20帧的处理速度允许所提出的算法被实现用于实时自动驾驶应用。[1806.01621v1]
多模式斑块匹配解决了从两种不同模式(例如RGB与草图或RGB与近红外)找到图像斑块之间对应关系的问题。可以通过发现两种模态(连体模拟方法)或模态特定信息(假连体模拟方法)共有的信息来比较不同模态的补丁。我们观察到这两种情况都不是最佳的。这激励我们提出一种三流体系结构,称为TS-Net,结合了两者的优点。另外,我们显示在这种网络的中间层中增加额外的约束进一步提高了性能。与连体和伪连体网络相比,三个多模态数据集上的实验显示出显着的性能增益。[1806.01550v1]
较大的网络通常以增加的计算复杂度为代价具有更大的表示能力。分散这种网络一直是一个活跃的研究领域,但一般限于静态正则化或使用强化学习的动态方法。我们探索了多种专家(MoE)方法来实现深度动态路由,从而在每个示例的基础上激活网络中的某些专家。我们的小说DeepMoE体系结构通过自适应稀疏化和重新校准每个卷积层中的通道方面的特性,提高了标准卷积网络的代表性能力。我们采用多头稀疏选通网络来确定每个输入信道的选择和缩放,并利用单个卷积网络内专家的指数组合。我们提出的架构在几个基准数据集和任务上进行评估,我们证明DeepMoE能够以比标准卷积网络更低的计算实现更高的准确性。[1806.01531v1]
多焦点图像融合是一种用于获得全焦点图像的技术,其中所有物体都聚焦在一起以延伸成像系统的有限景深(DoF)。与传统的基于RGB的方法不同,本文提出了一种新的基于深度感知的多焦点图像融合方法。在这项工作中,深度传感器与彩色相机一起使用以捕捉场景的图像。使用基于图的分割算法来分割来自深度传感器的深度图,并且分割的区域被用于引导聚焦算法以从多聚焦源图像中定位聚焦图像块以构建参考全内 – 聚焦图像。五个测试场景和六个评估指标被用来比较所提出的方法和具有代表性的最先进的算法。实验结果在数量上证明,该方法在速度和质量(在综合融合度量方面)方面优于现有方法。生成的图像可以用作参考全焦点图像。[1806.01524v1]
深嵌入学习对于区分性特征学习变得更具吸引力,但许多方法仍然需要硬分类挖掘,这在计算上复杂并且对性能敏感。为此,我们提出自适应大容限N对丢失(ALMN)来解决上述问题。我们没有探索硬实例挖掘策略,而是引入了大量约束的概念。该约束旨在鼓励多模态特征空间中不同样本间的局部自适应大角度决策边界,从而显着提高类内紧致性和类间可分性。它主要通过简单而新颖的几何虚拟点生成(VPG)方法来实现,它将人工设定的固定边界转换为在特征空间中自动生成边界训练样本,并且是一个未解决的问题。我们证明了我们的方法在图像检索和聚类任务的几个流行数据集上的有效性。[1806.00974v2]
最近基于神经网络的图像分割架构广泛使用特征转发机制来整合来自多个尺度的信息。虽然产生了良好的结果,但对于医学应用来说,甚至更深层的体系结构和用于不同分辨率下的特征融合的替代方法已经很少被研究。在这项工作中,我们建议通过编码器 – 解码器架构来实现分割,该架构不同于任何其他先前公开的方法,因为(i)它采用基于残差学习的非常深的架构和(ii)通过卷积长短期存储器LSTM),而不是拼接或求和。直觉是,LSTMs实现的内存机制可以通过粗放到精细的策略更好地集成不同尺度的特征; 因此称为粗至细上下文存储器(CFCM)。我们证明了这种方法在两个数据集上的显着优势:蒙哥马利县肺部分割数据集和用于手术器械分割的EndoVis 2015挑战数据集。[1806.01413v1]
机器人和人机交互中的许多应用程序都可以从动态环境中对点的三维运动的理解中受益,广泛地称为场景流。尽管以前的大多数方法都着眼于解决立体和RGB-D图像的问题,但很少有人尝试直接从点云中估计场景流。在这项工作中,我们提出了一个名为$ \ textit {FlowNet3D} $的新型深度神经网络,它以端到端的方式从点云中学习场景流。我们的网络同时学习深层次点云特征,流嵌入以及如何平滑输出。我们对具有挑战性的合成数据和来自KITTI的真实LiDAR扫描进行评估。仅通过合成数据训练,我们的网络能够很好地推广到真实扫描。受益于直接在点云中学习,与立体图像和RGB-D图像的各种基线相比,我们的模型实现了更精确的场景流动结果。[1806.01411v1]
在本文中,我们提出分解对抗网络(FAN)来解决图像分类任务中的无监督域自适应问题。我们的网络将数据分布映射到一个潜在特征空间,该特征空间分别被分解成包含特定于域的特征的域特定子空间和保留源类别和目标域类别信息的任务特定子空间。无监督的领域适应是通过对抗训练来实现的,以最小化来自源和目标域的两个任务特定子空间的分布之间的差异。我们证明了所提出的方法优于文献中用于无监督域适应的多个基准数据集上的最新方法。此外,我们收集两个比现有基准数据集大得多的现实世界标记数据集,并在基线上取得显着改进,证明了我们方法的实用价值。[1806.01376v1]
自动和准确的组织病理学组织切片的格里森分级对前列腺癌的诊断,治疗和预后至关重要。通常,由于不同的组织制备和染色程序,来自不同机构的组织病理学组织切片显示出不同的外观,因此从一个领域学习到的可预测模型可能不直接适用于新领域。这里我们建议采用无监督域自适应将从源域获得的区分性知识转移到目标域,而不需要在目标域上标记图像。通过对抗训练来实现自适应,以在目标域上找到不变的特征空间以及拟议的Siamese体系结构,以添加适合于整个幻灯片图像的正则化。我们验证了两种前列腺癌数据集的方法,并且与基线模型相比获得了格里森分数的显着分类改进。[1806.01357v1]
使用彩色滤光片阵列(CFA)的数码相机需要进行去马赛克程序以形成完整的RGB图像。由于今天的相机用户通常需要立即查看图像,因此实际应用的去马赛克算法必须快速。此外,相关成本应低于使用CFA节省的成本。为此,我们重新审视经典的Hamilton-Adams(HA)算法,该算法在速度和准确性方面胜过了许多复杂的技术。受到房委会的优势和弱点的启发,我们设计了一个非常低成本的边缘感测方案。简而言之,它通过方向变化之间差异的逻辑函数指导去马赛克。我们通过在基准数据集上运行开源代码,广泛地将我们的算法与28种去马赛克算法进行比较。与具有类似计算成本的方法相比,我们的方法实现了更高的准确度,而与类似精度的方法相比,我们的方法具有显着更低的成本。此外,在目前流行的分辨率的测试图像上,我们的算法的质量可以与顶级执行者相媲美,而其速度要快几十倍。[1806.00771v2]
尽管深度神经网络(DNN)在医学图像计算中取得了令人瞩目的成就,但这些深度模型在应用于具有域偏移的新测试数据集时往往遭受性能下降的困扰。在本文中,我们通过设计语义感知生成对抗网络(GAN),提出了一种新的无监督领域适应分割任务的方法。具体而言,我们将测试图像转换成源域的外观,并且语义结构信息得到很好的保留,这是通过在语义标签空间中施加嵌套对抗学习来实现的。通过这种方式,从源域学习到的分割DNN能够被直接推广到变换后的测试图像,从而无需为每个新的目标数据集训练一个新的模型。我们的域名适应程序是无监督的,没有使用任何目标域名标签。我们网络的对抗性学习受GAN损失(用于映射数据分布),保留像素级内容的循环一致性损失和用于增强结构信息的语义感知损失的指导。我们验证了我们的方法在两个不同的胸部X射线公共数据集上进行左/右肺分割。实验结果表明,我们的无监督方法的分割性能与监督传递学习的上界高度竞争。[1806.00600v2] 和增强结构信息的语义意识损失。我们验证了我们的方法在两个不同的胸部X射线公共数据集上进行左/右肺分割。实验结果表明,我们的无监督方法的分割性能与监督传递学习的上界高度竞争。[1806.00600v2] 和增强结构信息的语义意识损失。我们验证了我们的方法在两个不同的胸部X射线公共数据集上进行左/右肺分割。实验结果表明,我们的无监督方法的分割性能与监督传递学习的上界高度竞争。[1806.00600v2]
对结构性磁共振成像(MRI)进行全脑分割对于神经解剖学的非侵入性研究至关重要。历史上,多图集分割(MAS)被认为是全脑分割的事实标准方法。最近,深度神经网络方法已经通过学习随机斑块或2D切片应用于全脑分割。然而,由于以下挑战,之前很少有人使用3D网络对详细的全脑分割做出了努力:(1)将整个大脑体积拟合到3D网络中受到当前GPU存储器的限制,以及(2)大量目标具有有限数量的训练3D体积(例如,<50次扫描)的标签(例如,> 100个标签)。在本文中,我们提出空间定位图谱网络方块(SLANT)方法来分布多个独立的3D完全卷积网络来覆盖标准图谱空间中的重叠子空间。该策略将整个大脑学习任务简化为本地化的子任务,这通过将规范注册和标签融合技术与深度学习相结合而得以实现。为解决第二个挑战,5111初始未标记扫描的辅助标签由MAS创建用于预培训。从经验验证中,最先进的MAS方法实现了0.76,0.71和0.68的平均Dice值,而所提出的方法在三个验证群组中达到0.78,0.73和0.71。而且,使用所提出的方法,使用MAS将计算时间从> 30小时减少到约15分钟。源代码可以在线获得https:// github。
大数据在计算机视觉深度学习的成功中占有很大的份额。最近的研究表明,通过利用更大的数据集,可以进一步提高目标检测性能。在本文中,我们介绍了EuroCity Persons数据集,该数据集为城市交通场景中的行人,骑车人和其他骑手提供了大量高度多样化,准确和详细的注释。这个数据集的图像是在12个欧洲国家的31个城市的机动车上收集的。在超过47300张图片中手动标记了238200人以上的实例,EuroCity人数比之前用于基准测试的个人数据集大将近一个数量级。该数据集还包含大量的面向人员的注释(超过211200)。我们优化了四项最先进的深度学习方法(更快的R-CNN,R-FCN,SSD和YOLOv3),作为新的对象检测基准的基线。在使用先前数据集的实验中,我们分析了使用新数据集进行训练时这些探测器的泛化能力。我们还研究了训练集大小,数据集多样性(白天与夜间,地理区域),数据集细节(即对象方向信息的可用性)和注释质量对检测器性能的影响。最后,我们分析错误来源并讨论前面的道路。[1805.07193v2] 在使用先前数据集的实验中,我们分析了使用新数据集进行训练时这些探测器的泛化能力。我们还研究了训练集大小,数据集多样性(白天与夜间,地理区域),数据集细节(即对象方向信息的可用性)和注释质量对检测器性能的影响。最后,我们分析错误来源并讨论前面的道路。[1805.07193v2] 在使用先前数据集的实验中,我们分析了使用新数据集进行训练时这些探测器的泛化能力。我们还研究了训练集大小,数据集多样性(白天与夜间,地理区域),数据集细节(即对象方向信息的可用性)和注释质量对检测器性能的影响。最后,我们分析错误来源并讨论前面的道路。[1805.07193v2]
人脸识别(FR)是计算机视觉中研究最广泛的问题之一。由于最近引入了更大规模的FR挑战,特别是受限的社交媒体网络图像,例如专业摄影记者拍摄的名人面部高分辨率照片,FR取得了重大进展。然而,无约束和低分辨率监视图像中更具挑战性的FR仍然大部分研究不足。为了促进更多关于开发对于低分辨率监视面部图像有效且鲁棒的FR模型的研究,我们引入了新的监视人脸识别挑战,我们称之为QMUL-SurvFace基准。这个新的基准是我们最了解的最大,也是更重要的唯一真正的监控FR基准,其中低分辨率图像不是通过对原始高分辨率图像进行人工下采样而合成的。这项挑战包含463,507张15,573个不同身份的脸部图像,可在广阔的空间和时间内捕捉到现实世界中不合作的监控场景。因此,它提出了一个极具挑战性的FR基准。我们使用五种具有代表性的深度学习人脸识别模型对FR挑战进行基准测试,并与现有基准进行比较。我们表明,目前的艺术状况还远远不能令人满意,以解决在实际法庭情况下的调查不足的监测FR问题。在监视场景中典型的开放式设置中,人脸识别通常更加困难,由于大量非目标人群(分心者)出现间隔开放的场景。很显然,在新的Surveillance FR Challenge上,MegaFace基准测试中性能卓越的CentreFace深度学习FR模型现在只能以10%的虚警率达到13.2%的成功率(Rank-20)。[1804.09691v4]
进化生物学的核心目标是解释生物多样性的起源和分布。除了物种或遗传多样性之外,我们还观察到复杂功能性状基础的多样性(遗传或其他)。然而,虽然遗传和物种多样性的起源和维护背后的理论已经研究了几十年,但关于各种功能回路起源的理论仍处于起步阶段。不知道有多少种不同的电路结构可以实现任何给定的功能,这些演化因素导致不同的电路,以及特定电路的演变是由于自适应还是非自适应过程。在这里,我们使用数字实验进化来研究在数字(人造)大脑中编码运动检测的神经回路的多样性。我们发现,演变会导致编码运动检测电路的潜在神经架构的巨大差异,即使对编码完全相同功能的电路也是如此。演化电路在冗余性和复杂性方面都有所不同(如以前在遗传电路中所见),表明类似的进化原理是使用任何衬底形成电路的基础。我们还表明,一个简单的(设计的)运动检测电路在进化过程中得到了最佳的适应性复杂度增加,并且突变稳健性的选择导致了复杂性的增加。[1804.02508v2] 演化电路在冗余性和复杂性方面都有所不同(如以前在遗传电路中所见),表明类似的进化原理是使用任何衬底形成电路的基础。我们还表明,一个简单的(设计的)运动检测电路在进化过程中得到了最佳的适应性复杂度增加,并且突变稳健性的选择导致了复杂性的增加。[1804.02508v2] 演化电路在冗余性和复杂性方面都有所不同(如以前在遗传电路中所见),表明类似的进化原理是使用任何衬底形成电路的基础。我们还表明,一个简单的(设计的)运动检测电路在进化过程中得到了最佳的适应性复杂度增加,并且突变稳健性的选择导致了复杂性的增加。[1804.02508v2]
图像分类数据集通常是不平衡的,其特征会对深度学习分类器的准确性产生负面影响。在这项工作中,我们建议平衡GAN(BAGAN)作为增强工具来恢复不平衡数据集中的平衡。这是具有挑战性的,因为少数几个级别的图像可能不足以训练GAN。我们通过在对抗训练期间包括大多数和少数人类的所有可用图像来克服这个问题。生成模型从大多数类学习有用的特征,并使用它们为少数类生成图像。我们在潜在空间中应用课堂调节来推动目标课程的生成过程。GAN中的发生器通过自动编码器的编码器模块进行初始化,使我们能够在潜在空间中学习准确的类调节。我们将所提出的方法与最先进的GAN进行比较,并证明BAGAN在使用不平衡数据集进行训练时可生成优质图像。[1803.09655v2]
本文介绍了预测编码类型的深循环神经网络如何通过使用真实的手臂机器人检查实验结果,基于先前的学习经验生成基于视觉的目标导向计划。所提出的深回复神经网络通过从与对象指导行为相关的各种视觉运动经验中提取适当的预测模型来学习预测视觉本体感觉序列。预测模型是根据从意图状态空间到预期的视觉本体序列空间通过迭代学习映射而开发的。我们的具有不同难度等级的三种不同任务采用的手臂机器人实验表明,预测编码框架中的误差最小化原理应用于对给定目标状态的最佳意图状态的推断,即使对于未训练的目标状态也可以产生目标指导的计划, 。然而,它表明足够的泛化需要相对大量的学习轨迹。本文讨论了克服这个问题的可能对策。[1803.02578v2]
心脏听诊包括使用听诊器对心音异常的专家解读。基于深度学习的心脏听诊对医疗界非常重要,因为它可以通过自动检测异常心跳来帮助减轻手动听诊的负担。然而,由于要求可靠性和高精度,并且由于心跳声中存在背景噪音,自动心脏听诊问题变得复杂。在这项工作中,我们提出了一种基于循环神经网络(RNNs)的自动心脏听诊解决方案。我们选择RNNs的动机是深度学习在医学应用中取得的巨大成功,以及观察到RNN代表了即使存在噪声时也适用于处理顺序或时间数据的深度学习配置。我们探索各种RNN模型的使用,并证明这些模型能够显着改善心跳分类得分。我们提出的使用RNN的方法可能潜在地用于远程监测应用的医疗物联网中的实时异常心跳检测。[1801.08322v3] 我们提出的使用RNN的方法可能潜在地用于远程监测应用的医疗物联网中的实时异常心跳检测。[1801.08322v3] 我们提出的使用RNN的方法可能潜在地用于远程监测应用的医疗物联网中的实时异常心跳检测。[1801.08322v3]
随着卷积神经网络在客户产品中应用的不断增加,模型需要在嵌入式移动硬件上高效运行。因此,Slimmer模型已经成为一个热门的研究课题,各种方法从二元网络到修正的卷积层都有所不同。我们为后者提供了我们的贡献,并提出了一种新颖的卷积模块,该模块显着减少了计算负担,同时超越了当前的最新技术水平。我们的模型,被称为EffNet,针对刚刚开始的模型进行了优化,旨在解决现有模型(如MobileNet和ShuffleNet)中的问题。[1801.06434v6]
皮肤图像中的病灶分割是计算机检测皮肤癌的重要步骤。黑素瘤被认为是这种癌症中最危及生命的类型之一。现有的方法往往不能准确地用模糊边界分割病变。在本文中,提出了一类新的全卷积网络,其中新的密集分层用于非皮肤镜图像中病变区域的分割。与其他现有的卷积网络不同,这个提出的网络被设计用来产生密集的特征图。这个网络导致高度准确的病灶分割。这里产生的骰子得分是91.6%,它优于基于Dermquest数据集的皮肤病变分割中的最新算法。[1712.10207v3]
在经济损失和人为因素方面,洪水是世界上成本最高的自然灾害类型。洪水监测的第一个基本步骤是基于确定最容易发生洪水的地区,这使当局有关地区得以关注。在这项工作中,我们提出了几种使用深度学习在高分辨率遥感图像中进行洪泛识别的方法。具体而言,一些提出的技术基于独特的网络,例如扩大的和去卷积的网络,而另一些被设想为利用不同网络的多样性以提取每个分类器的最大性能。所提出的算法的评估在高分辨率遥感数据集中进行。结果表明,所提出的算法胜过了几个最先进的基线,根据Jaccard指数提供了1%至4%的改进。[1711.03564v2]
我们引入了各种模型,在受监督的图像字幕语料库上进行训练,以预测给定字幕的图像特征,以执行句子表示接地。我们训练了一个可以在COCO字幕和图像检索中实现良好性能的扎实句子编码器,并且随后显示该编码器可以成功地转换为各种NLP任务,并且性能优于纯文本模型。最后,我们分析了接地的贡献,并且表明这个系统学习的字嵌入优于未接地的嵌入。[1707.06320v2]
本文为一类具有强几何结构的凸函数提供了一套灵敏度分析和活动识别结果,我们创造了“镜面可分层”。这些功能是这样的,即在空间的原始和双重分层之间存在双向注入分区集合,称为分层。这种配对对追踪可通过参数化优化问题的解决方案或迭代优化算法可识别的地层至关重要。这类功能包括在信号和图像处理,机器学习和统计中常规使用的所有调整器。我们证明这个“镜像 – 分层”结构具有良好的灵敏度理论,使我们能够研究优化问题解对小扰动的稳定性,以及一阶近邻分裂型算法的活动识别。文献中的现有结果通常假定,在非退化条件下,与最小值相关的有效集对小扰动是稳定的,并且在有限时间内通过优化方案来识别。相反,我们的结果不需要任何非退化假设:因此,最优有效集不一定是稳定的,但我们能够精确地追踪可识别层的集合。我们表明这些结果在求解时具有重要意义通过正规化挑战不适定的逆向问题,这是非简并条件未实现的典型情况。我们的理论结果,通过数值模拟来说明,可以表征正则化解的不稳定行为,通过定位可由这些解决方案潜在识别的所有低维地层的集合。[1707.03194v3]
道路和自由空间的检测对于非平面平面仍然具有挑战性,特别是随着纬度和纵向斜度的变化或在多地平面的情况下。在本文中,我们提出了一个立体视觉地平面检测框架。本文的主要贡献是在视差图像中实现的新提出的描述符以获得视差纹理图像。在视差纹理图像中可以有效地将接地平面区域与其周围环境区分开来。由于描述符是在图像的局部区域实现的,因此可以很好地解决非平面平面问题。我们还提出了一个基于卷积神经网络结构的基于视差纹理图像检测地平面区域的完整框架。[1609.08436v8]
本文介绍了一种使用RGB-D摄像机进行物体检测的新型加权无监督学习。这种技术对于检测由RGB-D相机捕获的嘈杂环境中的移动物体是可行的。本文的主要贡献是一个实时算法,用于将加权聚类作为一个单独的聚类来检测每个对象。在预处理步骤中,该算法计算每个数据点的姿态三维位置X,Y,Z和RGB颜色,然后使用该点的邻居计算每个数据点的法向量。预处理后,我们的算法计算每个数据点的k权重; 每个重量都表示会员资格 导致场景的聚集对象。[1602.05920v2]