用于语义分割的自动对焦层+深度人脸识别的最小边缘损失

SymmSLIC:对称感知超像素分割及其应用

Rajendra NagarShanmuganathan拉曼

将图像过分割成超像素已成为解决图像处理和计算机视觉中的各种问题的有用工具。反射对称在自然和人造物体中非常普遍,并且是理解和分组自然场景中物体的基本线索。用于估计超像素的现有算法不保留物体的反射对称性,其导致穿过对称轴的不同尺寸和形状的超像素。在这项工作中,我们提出了一种算法,通过在像素级将反射对称性传播到超像素边界来过度分割图像。为了实现这个目标,我们首先在图像中找到反射对称性,并用一组彼此镜像反射的像素来表示它。我们将图像划分为超像素,同时通过迭代算法保留这种反射对称性。我们将所提出的方法与最先进的超像素生成方法进行比较,并且显示了在保持反射对称轴上的超像素边界的大小和形状方面的有效性。我们还提出了两种应用,即对称轴检测和无监督对称对象分割,以说明所提出方法的有效性。[1805.09232v1] 对称轴检测和无监督对称对象分割,以说明所提出的方法的有效性。[1805.09232v1] 对称轴检测和无监督对称对象分割,以说明所提出的方法的有效性。[1805.09232v1]

 

基于牛顿的统计推断仅使用随机梯度

田扬李,Anastasios Kyrillidis,刘刘君士坦丁Caramanis

我们提出了一种新的用于凸经验风险最小化的推理框架,使用近似的随机牛顿步骤。所提出的算法基于有限差分的概念并且允许从一阶信息逼近Hessian向量乘积。理论上,我们的方法可以高效地计算$ M $ – 估计中的统计误差协方差,既可以用于非规范化凸学习问题,也可以用于高维LASSO回归,而无需使用精确的二阶信息或重新采样整个数据集。在实践中,我们证明了我们的框架在大规模机器学习问题上的有效性,甚至超越了凸性:作为一个亮点,我们的工作可以用来检测对神经网络的某些敌对攻击。[1805.08920v1]

 

学习最小超球能量

Weiyang Liu, Rongmei Lin, Zhen Liu, Lixin Liu, Zhiding Yu, Bo Dai, Le Song

神经网络是一类强大的非线性函数,可以在各种应用程序上进行端对端培训。虽然许多神经网络的过度参数化特性使得适应复杂函数的能力和处理具有挑战性任务的强大代表能力,但它也导致高度相关的神经元,这会伤害泛化能力并招致不必要的计算成本。因此,如何规范网络以避免不必要的表示冗余成为一个重要问题。为此,我们从物理学中一个众所周知的问题–Thomson问题中汲取灵感,在这个问题中,人们试图找到一种状态,尽可能地将N个电子分布在一个单位球上,并且具有最小势能。鉴于这种直觉,我们将冗余正则化问题简化为通用能量最小化,并提出了一个最小超球能量(MHE)目标作为神经网络的一般正则化。我们还提出了一些MHE的新颖变体,并从理论的角度提供了一些见解。最后,我们将具有MHE正则化的网络应用于几项具有挑战性的任务。通过展示MHE正则化的优越性能,大量实验证明了我们方法的有效性。[1805.09298v1] 通过展示MHE正则化的优越性能,大量实验证明了我们方法的有效性。[1805.09298v1] 通过展示MHE正则化的优越性能,大量实验证明了我们方法的有效性。[1805.09298v1]

 

降低复杂度深层模型肝脏病变的分割

Ram Krishna PandeyAswin VasanAG Ramakrishnan

我们提出了一种计算高效的体系结构,可以学习从肝脏的CT图像中分割病灶。所提出的架构在最后一层使用具有亚像素卷积的双线性插值来升级瓶颈架构中的课程特征。由于双线性插值和子像素卷积没有任何可学习的参数,因此我们的整体模型比传统的U网更快,占用的内存更少。我们在2017年肝肿瘤分割(LiTS)挑战竞争激烈的数据集上评估我们的建议架构。与原始的UNet模型相比,我们的方法实现了有竞争力的结果,同时将可学习参数的数量大约减少了13.8倍。[1805.09233v1]

 

综合分析的强大感知

Lukas SchottJonas RauberWieland BrendelMatthias Bethge

深度神经网络对最小输入扰动的敏感性表明人类和机器感知之间的差距仍然很大。我们在这里争辩说,尽管付出了很多努力,即使在MNIST上,最成功的防御措施仍然远离人类感知的稳健性。我们在这里重新考虑MNIST并建立一种新颖的防御方式,它受到人类视觉皮层中丰富的反馈联系的启发。我们建议这种反馈在估计感觉刺激与由皮层推断的隐藏原因相关的可能性中发挥作用,并允许大脑静音分散注意力的模式。我们使用一组有条件的变分自动编码器(VAEs)以有区别的微调贝叶斯分类器的形式,通过综合思想来实现这种分析。为了评估模型的鲁棒性,我们将竭尽全力寻找最有效的敌对攻击,包括基于决策的,基于分数的和基于梯度的攻击。结果表明,这ansatz产生MNISTL0L2L无穷大扰动的最先进的稳健性,我们证明,大多数敌对的例子强烈扰乱原始和对抗类之间的感知边界。[1805.09190v1] L2L无穷大扰动,并且我们证明大多数敌对的例子都对原始和对抗类之间的感知边界产生了强烈的干扰。[1805.09190v1] L2L无穷大扰动,并且我们证明大多数敌对的例子都对原始和对抗类之间的感知边界产生了强烈的干扰。[1805.09190v1]

 

细粒度文本总结的神经网络解读

裴国,康纳安德森,科隆皮尔逊,瑞安法雷尔

目前的基于可视化的网络解释方法,由于缺乏语义层次的信息,在本文中,我们介绍了使用细粒度文本摘要来解释分类模型的新任务。随着标签预测,网络将生成一个解释其决定的句子。由于图像过滤响应函数的复杂性,因此构造完整注释的过滤器|文本对的数据集是不现实的。相反,我们提出了一种利用现成图像标题注释的弱监督学习算法。我们算法的核心是滤波器级属性概率密度函数(PDF),通过贝叶斯推理将输入图像及其特征图作为潜在变量作为条件概率学习。我们展示了我们的算法忠实地反映了模型使用基于属性的图像检索和无监督文本接地等严格应用学习的特征。我们进一步表明,文本摘要过程可以帮助理解网络故障模式,并可以提供进一步改进的线索。[1805.08969v1]

 

多个面部图像中的属性

Xudong Liu, Guodong Guo

通常从单个图像计算面部属性识别。实际上,每个主题可能有多个脸部图像。以眼睛大小为例,它不应该改变,但它可能在多幅图像中有不同的估计,这会对人脸识别造成负面影响。因此,如何计算与每个主题相对应的这些属性而不是每个单个图像是一项深刻的工作。为了解决这个问题,我们部署了面部属性预测的深度训练,并且我们探索了从每个单个图像计算出的属性之间的不一致问题。然后,我们制定两种方法来解决不一致性问题。实验结果表明,所提出的方法可以处理多个静止图像或视频帧的面部属性估计,并可以纠正错误标注的标签。这些实验是在两个具有面部属性注释的大型公共数据库上进行的。[1805.09203v1]

 

通过块对角表示的子空间聚类

Canyi Lu, Jiashi Feng, Zhouchen Lin, Tao Mei, Shuicheng Yan

本文研究子空间聚类问题。给定从子空间联合近似得到的一些数据点,目标是将这些数据点分组到它们的基础子空间中。许多子空间聚类方法已经被提出,其中稀疏子空间聚类和低秩表示是两个有代表性的子空间聚类方法。尽管存在不同的动机,但我们观察到许多现有的方法都具有常见的块对角属性,这可能导致正确的聚类,然而它们的证明是逐个给出的。在这项工作中,我们考虑一个通用公式,并提供块对角线属性的统一理论保证。许多现有方法的块对角线属性属于我们的特例。第二,我们观察到,许多现有的方法通过使用不同的结构先验来近似块对角线表示矩阵,例如稀疏性和低秩度,这是间接的。我们提出了第一个块对角矩阵诱导正则化器直接追踪块对角矩阵。使用这个正则化器,我们通过块对角线表示法(BDR)解决了子空间聚类问题,其中使用了块对角线结构。BDR模型是非凸的,我们提出了交替最小化求解器并证明了它的收敛性。真实数据集上的实验证明了BDR的有效性。[1805.09243v1] 我们通过块对角线表示法(BDR)解决了子空间聚类问题,其中使用了块对角线结构。BDR模型是非凸的,我们提出了交替最小化求解器并证明了它的收敛性。真实数据集上的实验证明了BDR的有效性。[1805.09243v1] 我们通过块对角线表示法(BDR)解决了子空间聚类问题,其中使用了块对角线结构。BDR模型是非凸的,我们提出了交替最小化求解器并证明了它的收敛性。真实数据集上的实验证明了BDR的有效性。[1805.09243v1]

 

带时态GAN的端到端语音驱动人脸动画

Konstantinos VougioukasStavros PetridisMaja Pantic

语音驱动的面部动画是使用语音信号自动合成说话人物的过程。该领域的大部分工作创建了从音频功能到视觉功能的映射。这通常需要使用计算机图形技术进行后处理以产生真实的依赖于受试者的结果。我们提出了一种用于生成说话头的视频的系统,该系统使用人的静止图像和包含语音的音频片段,其不依赖任何手工制作的中间特征。就我们所知,这是第一种能够直接从原始音频生成主题独立真实视频的方法。我们的方法可以生成具有以下特征的视频:(a)与音频同步的嘴唇运动和(b)眨眼和眉毛运动等自然面部表情。我们通过使用具有2个鉴别器的时间GAN来实现这一点,这些鉴别器能够捕捉视频的不同方面。通过消融研究来量化我们系统中每个组分的影响。生成的视频根据其清晰度,重建质量和唇读精度进行评估。最后,进行用户研究,证实时间GAN比静态GAN方法导致更多的自然序列。[1805.09313v1] 证实时间GAN比静态GAN方法导致更多的自然序列。[1805.09313v1] 证实时间GAN比静态GAN方法导致更多的自然序列。[1805.09313v1]

 

利用卷积神经网络大规模建筑物提取:美国测绘

秀秀杨丽媛杨建业Dalton Lunga Melanie Laverdiere艾米玫瑰Budhendra Bhaduri

建立最新的大型建筑地图对于了解城市动态,如估算人口,城市规划和许多其他应用程序非常重要。虽然许多计算机视觉任务已经成功地用深度卷积神经网络进行,但人们越来越需要了解它们对遥感影像建筑物映射的大规模影响。利用CNN的可扩展性以及只有少数几个地区有足够的建筑足迹,我们首次对四个最先进的CNN进行比较分析,以提取整个美国大陆的建筑物足迹。四种CNN架构即:分支CNN,完全卷积神经网络(FCN),作为递归神经网络的条件随机场(CRFasRNN)和SegNet,支持语义像素标签,并专注于以多尺度捕获纹理信息。我们使用国家农业影像计划(NAIP)提供的1米分辨率航拍图像作为实验台,并比较四种方法的提取结果。此外,我们建议将带符号距离标签与我们广泛评估确定的首选CNN架构SegNet相结合,以将建筑物提取结果推进到实例级别。我们进一步证明将附加近红外信息融入建筑物提取框架的实用性。进行大规模实验评估并使用度量进行报告,这些度量包括:精确度,召回率,联合交集和提取的建筑物数量。随着CNN模型的改进以及不需要进一步的后处理,我们已经为美国生成了建筑图。提取建筑物的质量和处理时间表明,提出的基于CNN的框架适合大规模提取建筑物的需求。[1805.08946v1]

 

粒子滤波网络:从视觉观察到端到端的概率定位

Peter KarkusDavid HsuWee Sun Lee

粒子滤波器通过对代表点进行抽样并独立地更新它们来依次近似后验分布。这个想法被应用于各个领域,例如机器人学的不确定性推理。剩下的挑战是构建系统的概率模型,对于复杂的传感器(例如相机)可能特别困难。我们引入了粒子滤波网络(PF-nets),它在单个神经网络体系结构中对学习的概率系统模型和粒子滤波算法进行编码。统一表示允许学习模型端到端,避免了传统的基于模型的方法的困难。我们将PF网应用于具有挑战性的视觉定位任务,该任务需要将来自相机图像的视觉特征与二维地图中编码的几何图形相匹配。在初步实验中,端到端的PF网一直优于其他学习架构,以及传统的基于模型的方法。[1805.08975v1]

 

用关系网络进行三维人体姿态估计

Sungheon ParkNojun Kwak

在本文中,我们提出了一种基于神经网络的单幅图像的三维人体姿态估计算法。我们采用关系网络的结构来捕捉不同身体部位之间的关系。在我们的方法中,每一对不同的身体部位都会生成特征,并且来自所有对的特征的平均值被用于3D姿态估计。另外,我们提出了一个可以在关系模块中使用的退出方法,它固有地增强了对于遮挡的鲁棒性。所提出的网络在人类3.6M数据集中实现了3D姿态估计的最新性能,并且即使存在缺失关节,它也能有效地产生合理的结果。[1805.08961v1]

 

ICADx:可解释的计算机辅助诊断乳房肿块

Seong Tae KimHakmin LeeGu Kim RightsYong Man Ro

在这项研究中,设计了一种新颖的计算机辅助诊断(CADx)框架来研究乳腺肿块分类的可解释性。最近,深度学习技术已成功应用于包括CADx在内的医学图像分析。然而,现有的基于深度学习的CADx方法在解释诊断决策方面存在限制。在实际临床实践中,临床决策可以合理解释。因此,CADx当前的深度学习方法在实际部署中受到限制。在本文中,我们调查CADx中可解释性CADxICADx)框架的可解释性。提出的框架是用生成对抗网络设计的,由可解释的诊断网络和合成病变生成网络组成,以了解恶性肿瘤与标准化描述(BI-RADS)之间的关系。病变生成网络和可解释的诊断网络在对抗性学习中竞争,使得两个网络得到改善。所提出的方法的有效性在公共乳房X线照片数据库上得到验证。实验结果表明,提出的ICADx框架可以提供质量和质量分类的可解释性。这主要归因于所提出的方法经过有效训练以通过敌对性学习来发现恶性肿瘤与解释之间的关系。这些结果意味着提议的ICADx框架可能是开发CADx系统的一种有前途的方法。[1805.08960v1] 病变生成网络和可解释的诊断网络在对抗性学习中竞争,使得两个网络得到改善。所提出的方法的有效性在公共乳房X线照片数据库上得到验证。实验结果表明,提出的ICADx框架可以提供质量和质量分类的可解释性。这主要归因于所提出的方法经过有效训练以通过敌对性学习来发现恶性肿瘤与解释之间的关系。这些结果意味着提议的ICADx框架可能是开发CADx系统的一种有前途的方法。[1805.08960v1] 病变生成网络和可解释的诊断网络在对抗性学习中竞争,使得两个网络得到改善。所提出的方法的有效性在公共乳房X线照片数据库上得到验证。实验结果表明,提出的ICADx框架可以提供质量和质量分类的可解释性。这主要归因于所提出的方法经过有效训练以通过敌对性学习来发现恶性肿瘤与解释之间的关系。这些结果意味着提议的ICADx框架可能是开发CADx系统的一种有前途的方法。[1805.08960v1] 实验结果表明,提出的ICADx框架可以提供质量和质量分类的可解释性。这主要归因于所提出的方法经过有效训练以通过敌对性学习来发现恶性肿瘤与解释之间的关系。这些结果意味着提议的ICADx框架可能是开发CADx系统的一种有前途的方法。[1805.08960v1] 实验结果表明,提出的ICADx框架可以提供质量和质量分类的可解释性。这主要归因于所提出的方法经过有效训练以通过敌对性学习来发现恶性肿瘤与解释之间的关系。这些结果意味着提议的ICADx框架可能是开发CADx系统的一种有前途的方法。[1805.08960v1]

 

插值和CNN的混合方法获得超分辨率

Ram Krishna PandeyAG Ramakrishnan

我们提出了一种新颖的架构,可以学习端到端映射功能,以提高输入自然图像的空间分辨率。该模型在使用卷积神经网络形成三种传统插值技术的非线性组合方面是独一无二的。另一个提出的架构使用与最近邻居内插的跳过连接,实现几乎相似的结果。这些架构经过精心设计,以确保重建图像精确地位于高分辨率图像的流形中,从而以细节保留高频分量。我们已经与最先进的技术和最近基于深度学习的自然图像超分辨率技术进行了比较,发现我们的方法能够保留图像中的锐利细节,同时也获得可比的或更好的PSNR。由于我们的方法只使用传统插值和较少数量较小滤波器的浅CNN,所以计算成本保持较低。我们已经报告了五个标准数据集上提出的两种架构的结果,其中一个升级因子为2.我们的方法在大多数情况下具有很好的泛化能力,这可以从使用越来越复杂的数据集获得更好的结果中体现出来。对于4倍放大,我们设计了类似的架构来与其他方法进行比较。[1805.09400v1] 我们的方法在大多数情况下具有很好的泛化能力,这可以从越来越复杂的数据集获得更好的结果中看出。对于4倍放大,我们设计了类似的架构来与其他方法进行比较。[1805.09400v1] 我们的方法在大多数情况下具有很好的泛化能力,这可以从越来越复杂的数据集获得更好的结果中看出。对于4倍放大,我们设计了类似的架构来与其他方法进行比较。[1805.09400v1]

 

RGB-T对象跟踪:基准和基线

Chenglong Li, Xinyan Liang, Yijuan Lu, Nan Zhao, Jin Tang

由于热信息对可视数据的强大互补优势,RGB-ThermalRGB-T)对象跟踪受到越来越多的关注。但是,由于缺乏全面的评估平 台,RGB-T研究受到限制。在本文中,我们提出了一个用于RGB-T跟踪的大规模视频基准数据集,它具有三个主要优势:1)其大小足够大,用于大规模性能评估(总帧数:234K,最大帧数每个序列:8K)。2RGB-T序列对之间的对齐非常准确,不需要预处理或后处理。3)针对不同跟踪算法的遮挡敏感性能分析,对遮挡水平进行了标注。另外,我们提出了一种基于图的新方法来学习RGB-T跟踪的鲁棒对象表示。尤其是,被跟踪的对象用带有图像块的图形表示为节点。该图包括图结构,节点权重和边权重在动态学习的统一ADMM(交替方向乘法器)为基础的优化框架,其中模态权重也纳入多源数据的自适应融合。大量的实验大规模数据集被执行以证明所提议的跟踪器对付其他最先进的跟踪方法的有效性。我们还为RGB-T目标跟踪领域提供新的见解和潜在的研究方向。[1805.08982v1] 在统一的基于乘法器的ADMM(基于交替方向的乘法器方法)的优化框架中动态地学习节点权重和边权重,其中模态权重也被结合用于多源数据的自适应融合。在大规模数据集上执行大量实验以展示所提议的跟踪器与其他最先进的跟踪方法的有效性。我们还为RGB-T目标跟踪领域提供新的见解和潜在的研究方向。[1805.08982v1] 在统一的基于乘法器的ADMM(基于交替方向的乘法器方法)的优化框架中动态地学习节点权重和边权重,其中模态权重也被结合用于多源数据的自适应融合。在大规模数据集上执行大量实验以展示所提议的跟踪器与其他最先进的跟踪方法的有效性。我们还为RGB-T目标跟踪领域提供新的见解和潜在的研究方向。[1805.08982v1] 我们还为RGB-T目标跟踪领域提供新的见解和潜在的研究方向。[1805.08982v1] 我们还为RGB-T目标跟踪领域提供新的见解和潜在的研究方向。[1805.08982v1]

 

GPU加速级联散列图像匹配用于大型3D重建

陶旭,孙昆,文冰涛

图像特征点匹配是Structure from MotionSFM)中的关键步骤。但是,由于图像数量越来越大,它变得越来越耗时。在本文中,我们提出了一种改进的级联散列的GPU加速图像匹配方法。首先,我们提出了一种磁盘内存 – GPU数据交换策略,并优化了数据的加载顺序,使得该方法可以处理大数据。接下来,我们在GPU上并行化Cascade Hashing方法。提出了一种改进的并行压缩和改进的并行哈希排序来完成这项任务。最后,大量实验表明,我们的图像匹配比同一块图形卡上的SiftGPU快大约20倍,比CPU CasHash方法快近100倍,比基于CPU Kd-Tree的匹配方法快数百倍。进一步,我们将外极线约束引入到所提出的方法中,并且使用对极几何来指导特征匹配过程,这进一步降低了匹配成本。[1805.08995v1]

 

CNN + CNN:用于图像字幕的卷积解码器

Qingzhong Wang, Antoni B. Chan

图像字幕是结合了计算机视觉和自然语言处理领域的一项具有挑战性的任务。已经提出了各种方法来实现自动描述图像的目标,并且基于递归神经网络(RNN)或长期短期记忆(LSTM)的模型在这个领域占主导地位。但是,RNNLSTM不能并行计算,而忽略句子的底层分层结构。在本文中,我们提出了一个仅使用卷积神经网络(CNN)生成字幕的框架。由于并行计算,我们的基本模型在培训期间比NIC(基于LSTM的模型)快3倍,同时也提供了更好的结果。我们对MSCOCO进行了广泛的实验,并研究了模型宽度和深度的影响。与应用类似注意机制的基于LSTM的模型相比,我们提出的模型可以达到BLEU-1,2,3,4METEOR的可比分数,以及CIDEr的更高分数。我们还在段落注释数据集上测试我们的模型,并与层级LSTM [1805.09019v1]相比获得更高的CIDEr评分

 

极光深度嵌入极光图像搜索

Xi Yang, Xinbo Gao, Bin Song, Nannan Wang, Dong Yang

深度神经网络在图像搜索领域取得了显着的成功。然而,最先进的算法是训练和测试用普通相机拍摄的自然图像。在本文中,我们的目标是探索一种用圆形鱼眼镜头拍摄的图像的新搜索方法,特别是极光图像。为减少非信息区域的干扰并关注最感兴趣的区域,我们提出了一个显着性提案网络(SPN)来取代最近的Mask R-CNN中的区域提案网络(RPN)。在我们的SPN中,锚的中心不是以矩形啮合方式分布的,而是呈现出球形变形。另外,锚的方向沿着垂直于磁子午线的变形线,完全符合圆形鱼眼镜头的成像原理。对大极光数据进行了大量实验,证明了我们的方法在搜索精度和效率方面的优越性。[1805.09033v1]

 

通过估计本地补丁的频率分布来恢复图像

Jaeyoung YooSang-ho LeeNojun Kwak

在本文中,我们提出了一种解决图像恢复问题的方法,该方法试图恢复损坏图像的细节,特别是由于JPEG压缩造成的损失。我们已经在频域中处理了一幅图像,以明确地恢复在图像压缩期间丢失的频率分量。在这样做时,使用交叉熵损失来学习频域中的分布。与最近的方法不同,我们在不使用对抗训练方案的情况下重构了图像的细节。相反,图像恢复问题被视为分类问题,以确定图像块中每个频带的频率系数。在本文中,我们表明,所提出的方法有效地恢复JPEG压缩图像具有更详细的高频成分,使恢复的图像更鲜明。[1805.09097v1]

 

通过对抗扰动对k面部属性进行匿名化

Saheb ChhabraRicha SinghMayank胃,Gaurav Gupta

脸部图像不仅提供了关于对象身份的详细信息,还显示了诸如性别,种族,性取向和年龄等几个属性。机器学习算法的进步以及在万维网上共享图像(包括社交媒体网站)的普及增加了数据分析和信息分析的范围。这对不想被分析的人员构成严重的隐私威胁。这项研究提出了一种匿名化选择性属性的新算法,个人不希望在不影响图像视觉质量的情况下共享选择性属性。使用所提出的算法,用户可以选择单个或多个属性被超越,同时保存身份信息和可视内容。所提出的基于对抗扰动的算法将不可察觉的噪声嵌入图像中,使得针对所选属性的属性预测算法产生不正确的分类结果,从而根据用户的选择保存信息。在三个流行的数据库,即MUCTLFWcropCelebA上的实验表明,该算法不仅匿名K属性,而且还保留图像质量和身份信息。[1805.09380v1] 还保留了图像质量和身份信息。[1805.09380v1] 还保留了图像质量和身份信息。[1805.09380v1]

 

狙击手:高效的多尺度训练

巴拉特辛格,马亚尔纳吉比,拉里S.戴维斯

我们提出SNIPER,一种用于在实例级视觉识别任务中执行高效多尺度训练的算法。SNIPER不是处理图像金字塔中的每个像素,而是以适当的比例处理地面真实情况(称为芯片)周围的上下文区域。对于背景抽样,这些上下文区域是使用从短期学习计划培训的区域提案网络提取的提案生成的。因此,训练期间每个图像产生的码片的数量基于场景复杂度自适应地改变。与COCO数据集上800×1333像素的常用单尺度训练相比,SNIPER只能处理多30%的像素。但是,它也观察来自图像金字塔的极端分辨率的样本,如1400×2000像素。由于SNIPER在重采样低分辨率芯片(512×512像素)上运行,即使使用ResNet-101主干,单个GPU上的批量大小也可能高达20。因此,它可以在培训期间从批处理标准化中受益,而无需同步跨GPU的批处理标准化统计。SNIPER将实例级别识别任务(如对象检测)的训练带入图像分类协议更接近的地方,并建议普遍接受的指导方针是在高分辨率图像上训练实例级视觉识别任务,这一点很重要。我们基于带有ResNet-101骨干的Faster-RCNN的实现在COCO数据集上获得了47.6%的边界框检测mAP,并且每秒可以使用一个GPU处理5幅图像。[1805.09300v1] 即使使用ResNet-101主干,它也可以在单个GPU上拥有20个批量大小。因此,它可以在培训期间从批处理标准化中受益,而无需同步跨GPU的批处理标准化统计。SNIPER将实例级别识别任务(如对象检测)的训练带入图像分类协议更接近的地方,并建议普遍接受的指导方针是在高分辨率图像上训练实例级视觉识别任务,这一点很重要。我们基于带有ResNet-101骨干的Faster-RCNN的实现在COCO数据集上获得了47.6%的边界框检测mAP,并且每秒可以使用一个GPU处理5幅图像。[1805.09300v1] 即使使用ResNet-101主干,它也可以在单个GPU上拥有20个批量大小。因此,它可以在培训期间从批处理标准化中受益,而无需同步跨GPU的批处理标准化统计。SNIPER将实例级别识别任务(如对象检测)的训练带入图像分类协议更接近的地方,并建议普遍接受的指导方针是在高分辨率图像上训练实例级视觉识别任务,这一点很重要。我们基于带有ResNet-101骨干的Faster-RCNN的实现在COCO数据集上获得了47.6%的边界框检测mAP,并且每秒可以使用一个GPU处理5幅图像。[1805.09300v1] 因此,它可以在培训期间从批处理标准化中受益,而无需同步跨GPU的批处理标准化统计。SNIPER将实例级别识别任务(如对象检测)的训练带入图像分类协议更接近的地方,并建议普遍接受的指导方针是在高分辨率图像上训练实例级视觉识别任务,这一点很重要。我们基于带有ResNet-101骨干的Faster-RCNN的实现在COCO数据集上获得了47.6%的边界框检测mAP,并且每秒可以使用一个GPU处理5幅图像。[1805.09300v1] 因此,它可以在培训期间从批处理标准化中受益,而无需同步跨GPU的批处理标准化统计。SNIPER将实例级别识别任务(如对象检测)的训练带入图像分类协议更接近的地方,并建议普遍接受的指导方针是在高分辨率图像上训练实例级视觉识别任务,这一点很重要。我们基于带有ResNet-101骨干的Faster-RCNN的实现在COCO数据集上获得了47.6%的边界框检测mAP,并且每秒可以使用一个GPU处理5幅图像。[1805.09300v1] SNIPER将实例级别识别任务(如对象检测)的训练带入图像分类协议更接近的地方,并建议普遍接受的指导方针是在高分辨率图像上训练实例级视觉识别任务,这一点很重要。我们基于带有ResNet-101骨干的Faster-RCNN的实现在COCO数据集上获得了47.6%的边界框检测mAP,并且每秒可以使用一个GPU处理5幅图像。[1805.09300v1] SNIPER将实例级别识别任务(如对象检测)的训练带入图像分类协议更接近的地方,并建议普遍接受的指导方针是在高分辨率图像上训练实例级视觉识别任务,这一点很重要。我们基于带有ResNet-101骨干的Faster-RCNN的实现在COCO数据集上获得了47.6%的边界框检测mAP,并且每秒可以使用一个GPU处理5幅图像。[1805.09300v1] COCO数据集上6%用于边界框检测,并且可以使用单个GPU每秒处理5幅图像。[1805.09300v1] COCO数据集上6%用于边界框检测,并且可以使用单个GPU每秒处理5幅图像。[1805.09300v1]

 

WisenetMD:使用动态背景区域分析的运动检测

Sang-Ha LeeKwon-Chul KwonJin-Wook ShimJeong-Eun LimJisang Yoo

运动检测算法可以应用于监控摄像机,如CCTV(闭路电视)已广泛研究。运动检测算法主要基于背景减法。该技术的一个主要问题是可能会发生动态背景的错误肯定,例如风吹树木和流动的河流。在本文中,我们提出了一种通过分析视频并通过重新检查误报消除误报来搜索动态背景区域的方法。所提出的方法基于在“changedetection.net”网站获得的CDnet 2012/2014数据集进行评估。我们还将其处理速度与其他算法进行了比较。[1805.09277v1]

 

从物体识别中学习光源估计

Marco BuzzelliJoost van de WeijerRaimondo Schettini

在本文中,我们提出了一种深度学习方法来估计图像的光源。我们的模型没有使用光源标注进行培训,但其目标是提高辅助任务(如对象识别)的性能。就我们所知,这是深度学习架构的第一个例子,该架构用于未经地面真实光源训练的光源估计。我们在标准数据集上评估我们的解决方案的颜色恒常性,并将其与最先进的方法进行比较。我们的建议在跨数据集评估设置中表现出优于大多数深层次的学习方法,并与参数化解决方案进行比较以展示竞争结果。[1805.09264v1]

 

迈向思维显微镜:光学显微镜和图像重建的深度学习

Yair RivensonAydogan Ozcan

我们最近讨论了最新的深度学习方法在光学显微镜和显微图像重建中的应用,这些应用实现了不同模式和显微成像模式之间的新转换,完全由图像数据驱动。我们相信深度学习将从根本上改变光学显微镜所用的硬件和图像重建方法。[1805.08970v1]

 

激励辍学:鼓励深度神经网络的可塑性

Andrea ZuninoSarah Adel BargalPietro Morerio,张建明,Stan SclaroffVittorio Murino

我们提出了一个基于网络预测证据的深度网络的指导辍学调节器:在特定路径中发射神经元。在这项工作中,我们利用每个神经元的证据来确定辍学的概率,而不是像标准辍学生那样随机剔除神经元。实质上,我们以更高的概率辍学那些在训练时间对决策做出更多贡献的神经元。该方法惩罚与模型预测最相关的高显着性神经元,即那些具有更强证据的神经元。通过放弃这样的高显着性神经元,网络被迫学习替代路径以维持损失最小化,导致类似可塑性的行为,也是人类大脑的特征。我们表现 出更好的泛化能力,网络神经元的利用率提高,以及在四个图像/视频识别基准上使用多个度量标准提高网络压缩的恢复能力。[1805.09092v1]

 

具有稀疏高阶势的稠密CRF的高效松弛

Thomas JoyAlban DesmaisonThalaiyasingam AjanthanRudy BunelMathieu SalzmannPushmeet KohliPhilip HS TorrM. Pawan Kumar

具有高斯成对电势的稠密条件随机场(CRF)已经成为模拟计算机视觉中的几个问题的流行框架,例如立体对应和多类别语义分割。通过对长程相互作用进行建模,密集的CRF与稀疏的CRF相比可提供更详细的标签。目前,最先进的算法使用基于滤波器的方法执行平均场推断以获得准确的分段,但未能对解决方案的质量提供强有力的理论保证。虽然密集的CRF的基本模型提供了足够的信息来产生明确的分割,但它缺乏通过更高阶潜能引入的丰富性。平均场推断策略也扩展到包含更高阶的潜能,但再次未能获得解决方案质量的界限。就此而言,我们表明密集的CRF可以以适合持续放松的方式与稀疏的更高阶潜能集合。然后我们将展示,通过使用基于过滤器的方法,可以使用最先进的算法有效地优化这些连续松弛。具体而言,我们将使用Frank-Wolfe算法解决二次规划(QP)松弛问题,并通过开发近端最小化框架解决线性规划(LP)松弛问题。通过利用更高阶潜能中的标记一致性和利用基于滤波器的方法,我们能够制定上述算法,使得每次迭代在类和随机变量的数量上具有线性复杂性。实验是在标准的公开可用的MSRC数据集上进行的,并且证明了由最小化和所得到的分段的准确性所实现的低能量。[1805.09028v1]

 

做更好的ImageNet模型转移更好吗?

Simon KornblithJonathon ShlensQuoc V.

随着ImageNet特性的出现,转移学习已经成为计算机视觉的基石,但是很少有人在评估不同数据集中ImageNet体系结构的性能。现代计算机视觉研究中的一个隐含假设是,在ImageNet上执行得更好的模型必须在其他视觉任务上表现得更好。然而,这个假设从来没有经过系统的测试。在这里,我们比较了12种图像分类任务中的13种分类模型在三种设置下的性能:作为固定特征提取器,微调和从随机初始化训练。我们发现,当网络被用作固定特征提取器时,ImageNet的准确性只能对其他任务的准确性有微弱的预测($ r ^ 2 = 0.24 $)。在这种情况下,ResNet始终优于在ImageNet上实现更高精度的网络。当网络进行微调时,我们观察到一个更强的相关性($ r ^ 2 = 0.86 $)。我们通过微调最先进的ImageNet架构,在八种图像分类任务上实现了最先进的性能,超越了基于专门的转移学习方法的结果。最后,我们观察到,在三个小的细粒度图像分类数据集上,从随机初始化训练的网络执行类似于ImageNet预训练网络。我们的研究结果一起表明,ImageNet架构能够很好地跨数据集进行泛化,ImageNet准确度略有提高,可以在其他任务中实现改进,但是ImageNet功能比先前建议的要少。[1805.08974v1] 我们观察到一个相当强的相关性($ r ^ 2 = 0.86 $)。我们通过微调最先进的ImageNet架构,在八种图像分类任务上实现了最先进的性能,超越了基于专门的转移学习方法的结果。最后,我们观察到,在三个小的细粒度图像分类数据集上,从随机初始化训练的网络执行类似于ImageNet预训练网络。我们的研究结果一起表明,ImageNet架构能够很好地跨数据集进行泛化,ImageNet准确度略有提高,可以在其他任务中实现改进,但是ImageNet功能比先前建议的要少。[1805.08974v1] 我们观察到一个相当强的相关性($ r ^ 2 = 0.86 $)。我们通过微调最先进的ImageNet架构,在八种图像分类任务上实现了最先进的性能,超越了基于专门的转移学习方法的结果。最后,我们观察到,在三个小的细粒度图像分类数据集上,从随机初始化训练的网络执行类似于ImageNet预训练网络。我们的研究结果一起表明,ImageNet架构能够很好地跨数据集进行泛化,ImageNet准确度略有提高,可以在其他任务中实现改进,但是ImageNet功能比先前建议的要少。[1805.08974v1] 我们通过微调最先进的ImageNet架构,在八种图像分类任务上实现了最先进的性能,超越了基于专门的转移学习方法的结果。最后,我们观察到,在三个小的细粒度图像分类数据集上,从随机初始化训练的网络执行类似于ImageNet预训练网络。我们的研究结果一起表明,ImageNet架构能够很好地跨数据集进行泛化,ImageNet准确度略有提高,可以在其他任务中实现改进,但是ImageNet功能比先前建议的要少。[1805.08974v1] 我们通过微调最先进的ImageNet架构,在八种图像分类任务上实现了最先进的性能,超越了基于专门的转移学习方法的结果。最后,我们观察到,在三个小的细粒度图像分类数据集上,从随机初始化训练的网络执行类似于ImageNet预训练网络。我们的研究结果一起表明,ImageNet架构能够很好地跨数据集进行泛化,ImageNet准确度略有提高,可以在其他任务中实现改进,但是ImageNet功能比先前建议的要少。[1805.08974v1] 在三个小型细粒度图像分类数据集上,随机初始化训练的网络与ImageNet预训练网络类似。我们的研究结果一起表明,ImageNet架构能够很好地跨数据集进行泛化,ImageNet准确度略有提高,可以在其他任务中实现改进,但是ImageNet功能比先前建议的要少。[1805.08974v1] 在三个小型细粒度图像分类数据集上,随机初始化训练的网络与ImageNet预训练网络类似。我们的研究结果一起表明,ImageNet架构能够很好地跨数据集进行泛化,ImageNet准确度略有提高,可以在其他任务中实现改进,但是ImageNet功能比先前建议的要少。[1805.08974v1]

 

基于图像的定位的场景坐标和对应学习

Mai BuiShadi AlbarqouniSlobodan IlicNassir Navab

场景坐标回归已经成为当前相机重新定位方法的重要部分。以回归森林和深度学习方法为形式的不同版本已成功应用于估算给定单个输入图像的相应姿态。在这项工作中,我们建议使用深度学习对给定的RGB图像以像素为单位对场景坐标进行回归。与通常使用RANSAC从已建立的点对应关系获得稳健姿态估计的最近方法相比,我们建议对这些对应关系的置信度进行回归,这使我们能够立即丢弃错误的预测结果,从而提高初始姿态估计值。最后,由此产生的置信度可以用来评估初始姿势假设并帮助姿态细化,为解决这一任务提供了一个通用的解决方案。

 

医学图像翻译中的分布匹配损失可以抑制Hallucinate特征

Joseph Paul CohenMargaux LuckSina Honari

本文讨论分配匹配损失(如CycleGAN中使用的分配匹配损失)在用于合成医学图像时如何导致对医疗条件的错误诊断。使用这些新的图像合成方法将图像从源代码转换为目标域名似乎很有吸引力,因为它们可以生成高质量的图像,有些甚至不需要配对数据。然而,这些图像翻译模型如何工作的基础是通过将翻译输出与目标域的分布进行匹配。当目标域中提供的数据具有某些类的过度或不足表示时(例如健康或生病),这可能会导致问题。当算法的输出是变换图像时,是否存在所有已知和未知的类别标签已被保存或改变的不确定性。因此,我们建议这些翻译的图像不应该用于直接解释(例如由医生),因为它们可能导致基于与分布匹配的算法的幻觉图像特征对患者进行误诊。然而,最近有许多报道似乎认为这是目标。[1805.08841v1]

 

使用正则化超图匹配的无监督域调整

Debasmit DasCS乔治李

域适应(DA)解决了训练(源)和测试(目标)数据分布之间的差异的现实世界图像分类问题。我们提出了一种无监督的DA方法,该方法考虑目标域中仅存在未标记的数据。我们的方法致力于寻找源域和目标域样本之间的匹配。通过将源域和目标域视为超图并使用图之间的一阶,二阶和三阶相似性执行类调整的超图匹配来获得匹配。我们还开发了一种计算效率高的算法,最初选择样本的子集来构建图形,然后基于条件梯度和交替方向乘法器方法开发用于图匹配的定制优化例程。这允许所提出的方法被广泛使用。我们还对标准物体识别数据集进行了一系列实验,以验证我们的框架对最先进方法的有效性。[1805.08874v1]

 

用于语义分割的自动对焦层

姚琴,Konstantinos KamnitsasSiddharth AnchaJay NanavatiGarrison CottrellAntonio CriminisiAditya Nori

我们提出了用于语义分割的自动对焦卷积层,目的是提高神经网络在多尺度处理中的能力。自动对焦图层根据处理的上下文自适应地更改有效接受区域的大小,以生成更强大的功能。这是通过并行化具有不同膨胀率的多个卷积层,并结合注意机制来学习以关注由上下文驱动的最佳尺度。通过共享平行卷积的权重,我们只引入少量的可训练参数。所提出的自动对焦层可以很容易地集成到现有网络中,以提高模型的表现力。我们评估我们的模型,对骨盆CT中的多器官分割和MRI中的脑肿瘤分割的具有挑战性的任务进行评估,并获得非常有前途的表现。[1805.08403v2]

 

教师在课堂上的感知

奥马尔苏美尔,帕特里夏·戈德堡,凯瑟琳前锋,蒂娜赛德尔,彼得Gerjets,乌尔里希特劳特魏因,Enkelejda Kasneci

教师让所有学生参与课堂积极学习过程的能力是提高学生成就的关键先决条件。教师的注意程序提供了重要的见解,使教师能够将注意力集中在复杂的课堂互动中的相关信息上,并将他们的注意力分散给学生,以便认识到相关的学习需求。在这种情况下,移动眼动追踪是教学效能研究中的一种创新方法,可在教学过程中捕捉教师的注意过程。但是,手动分析手机眼动数据非常耗时,而且仍然有限。在本文中,我们介绍了一种新方法,通过将移动眼睛跟踪与计算机视觉相结合来增强其影响。在使用标准化小组情境进行教育研究的移动式眼睛追踪视频中,我们应用最先进的人脸检测器,创建脸部追踪,并引入一种新方法,将脸部群集成多个身份。随后,通过关联眼动追踪注视和面部追踪,教师在教学单元期间为每个学生计算教师的注意力。就我们所知,这是第一部将计算机视觉和移动眼动追踪相结合的模型,以指导教师的注意力。[1805.08897v1] 通过关联眼睛跟踪注视和面部跟踪,每个学生在教学单元期间计算注意力焦点。就我们所知,这是第一部将计算机视觉和移动眼动追踪相结合的模型,以指导教师的注意力。[1805.08897v1] 通过关联眼睛跟踪注视和面部跟踪,每个学生在教学单元期间计算注意力焦点。就我们所知,这是第一部将计算机视觉和移动眼动追踪相结合的模型,以指导教师的注意力。[1805.08897v1]

 

深度人脸识别的最小边缘损失

Xin Wei, Hui Wang, Bryan Scotney, Huan Wan

随着深度神经网络在过去几年的快速发展,人脸识别取得了很大的进展。作为深度神经网络中的指挥棒,已经提出了许多损失函数,其显着改善了最先进的方法。在本文中,我们提出了一种称为最小余量损失(MML)的新损失函数,旨在扩大那些过密类中心对的边际,从而提高深度特征的判别能力。MMLSoftmax损失和中心损失一起监督训练过程,也弥补了Softmax + Center损失的缺陷。在LFWYTF数据集上的实验结果表明,所提出的方法实现了最新的性能,这证明了所提出的MML的有效性。[1805.06741v2]

 

GAN进行医学图像的弹性配准

Dwarikanath MahapatraSuman SedaiRahil Garnavi

传统的图像注册方法由耗时的迭代方法组成。大多数当前的基于深度学习(DL)的注册方法提取深度特征以用于迭代设置。我们提出了一种用于注册多模式图像的端到端DL方法。我们的方法使用生成对抗网络(GAN),消除了耗时的迭代方法,并直接生成带有变形字段的注册图像。GAN成本函数中的适当约束可在不到一秒的时间内生成精确配准的图像。实验证明了他们对多模式视网膜和心脏MR图像配准的准确性。[1805.02369v3]

 

量化多模态数据集中词语和主题的视觉具体性

Jack HesselDavid MimnoLillian Lee

多模态机器学习算法旨在学习视觉文本对应。以前的工作表明,具有具体视觉表现的概念可能比抽象概念更容易学习。我们给出了一种算法,用于自动计算多模式数据集中单词和主题的视觉具体性。我们将这种方法应用于四种设置中,从图像标题到历史书籍中的图像/文本。除了对多模式数据集中的概念进行探索之外,我们的具体性分数还预测了机器学习算法学习文本/视觉关系的能力。我们发现:1)具体概念确实更容易学习; 2)我们考虑的大量算法有类似的失败案例; 3)数据集之间的具体性和性能之间的确切的正面关系是不同的。最后,我们推荐使用具体分数来促进未来的多模式研究。[1804.06786v2]

 

学习如何强健:深度多项式回归

Juan-Manuel Perez-RuaTomas CrivelliPatrick BouthemyPatrick Perez

多项式回归是大量应用程序经常遇到的问题。在计算机视觉中,它经常出现在运动分析中。无论什么应用,当输入数据被异常值严重污染时,用于回归多项式模型的标准方法倾向于提供偏差结果。此外,当异常值具有强大的结构时,问题更加严重。从针对参数模型的稳健估计的问题量化启发式出发,我们探索深度卷积神经网络。我们的工作旨在找到一种通用方法来训练深度回归模型,而不需要明确需要监督注释。通过在我们的模型上附加一个与当前多项式操作相对应的可微分硬连线解码器,我们绕过了对回归参数的定制损失函数的需求。我们通过与标准鲁棒回归方法进行比较来证明我们研究结果的价值。此外,我们演示如何将这些模型用于实际的计算机视觉问题,即视频稳定。定性和定量实验表明,神经网络能够学习一般多项式回归的鲁棒性,其结果是传统鲁棒估计方法的得分超过了分数。[1804.06504v2]

 

通过预测不同视角来学习姿势的具体表现

Georg PoierDavid SchinaglHorst Bishop

学习铰接物体姿态估计所需的标记数据难以提供所需数量,真实性,密度和准确性。为了解决这个问题,我们开发了一种学习表示的方法,这些方法对于表达的姿势非常具体,而不需要标记的训练数据。我们利用这样的观察,即已知对象的对象姿态可以预测任何已知视图中的外观。也就是说,只给出一只手的姿态和形状参数,可以近似估计来自任何视点的手的外观。为了利用这个观察,我们训练了一个模型根据一个视图的输入估计一个潜在的表示,它被训练成可以预测从另一个视点捕获的对象的外观。因此,唯一必要的监督是第二种观点。该模型的训练过程揭示了潜在空间中的隐式姿态表示。重要的是,在测试时间,姿态表示可以仅使用单个视图来推断。在定性和定量实验中,我们展示了学习表示捕捉详细的姿势信息。而且,当与标记数据和未标记数据联合训练所提出的方法时,它总是超过其完全监督对象的表现,同时将所需标记样本的数量减少至少一个数量级。[1804.03390v2] 在定性和定量实验中,我们展示了学习表示捕捉详细的姿势信息。而且,当与标记数据和未标记数据联合训练所提出的方法时,它总是超过其完全监督对象的表现,同时将所需标记样本的数量减少至少一个数量级。[1804.03390v2] 在定性和定量实验中,我们展示了学习表示捕捉详细的姿势信息。而且,当与标记数据和未标记数据联合训练所提出的方法时,它总是超过其完全监督对象的表现,同时将所需标记样本的数量减少至少一个数量级。[1804.03390v2]

 

培训没有地面实况数据的基于深度学习的denoisers

Shakarim SoltanayevSe Young Chun

最近,基于深度学习的分析器常常比最先进的传统分析器(例如BM3D)更胜一筹。它们通常经过训练以最小化深层神经网络输出与地面实况图像之间的均方误差(MSE)。在基于深度学习的分解器中,为高性能使用高质量的无噪声基本事实非常重要,但在高光谱遥感和医学成像等应用领域获得如此清晰的图像通常是具有挑战性的,甚至是不可行的。我们提出了一种基于Stein’s无偏风险估计器(SURE)的方法,仅用于噪声图像训练深度神经网络分解器。我们证明了我们基于SURE的没有基础事实的方法能够训练深度神经网络分解器来产生接近深度学习分解器的性能,这些深入学习分解器用基础事实进行训练并且超越了最先进的BM3D。通过使用我们提出的基于SURE的方法将训练降噪网络的噪声测试图像包含进来,实现了进一步的改进。[1803.01314v2]

 

单视图食物部分估计:使用生成敌对 网络学习图像对能量映射

Shaobo Fang, Zeman Shao, Runyu Mao, Chichen Fu, Deborah A. Kerr, Carol J. Boushey, Edward J. Delp, Fengqing Zhu

由于慢性病和与饮食有关的其他健康问题日益受到关注,有必要开发准确的方法来估计个体的食物和能量摄入量。测量准确的饮食摄入量是一个开放的研究问题。特别是,准确的食物部分估计是具有挑战性的,因为食物制备和消耗的过程对食物形状和外观施加了很大的变化。在本文中,我们提出了一种食物部分估计方法,以使用生成敌对 网络(GAN)从食物图像估计食物能量(千卡)。我们为每个食物图像引入能量分配的概念。为了训练GAN,我们基于每个食物图像的地面实况食物标签和分割掩模以及与食物图像相关的能量信息来设计食物图像数据集。我们的目标是学习食物图像与食物能量的映射。然后,我们可以根据能量分布来估计食物能量。我们表明,通过学习图像能量映射可以获得10.89%的平均能量估计误差率。[1802.09670v2]

 

从自然驾驶数据库中提取V2V遇到的情景

Zhaobin Mo, Sisi Li, Diange Yang, Ding Zhao

有必要在发布和部署前彻底评估连接车辆(CV)算法的有效性和安全性。目前的评估方法主要依靠单车驾驶模型的仿真平台。它的主要缺点是缺乏网络现实主义。为了克服这个问题,我们从数据库中提取自然V2V遇到的数据,然后通过聚类分离主要车辆遇到类别。提出了一种快速挖掘算法,该算法可以应用于进一步过程加速的并行查询。在美国密歇根州安娜堡的安全试点示范项目中收集的275 GB数据库中发现了4500次相遇。K-meansDynamic Time WarpingDTW)用于聚类。结果表明,该方法可以快速从大型数据库中挖掘和聚集主要驾驶场景。我们的结果将车辆跟随,交叉路口和旁路车分开,这是车辆碰撞的主要类别。我们预计文章中的工作可以成为从任何现有的包含车辆GPS信息的数据库中有效提取车辆碰撞的一般方法。此外,不同车辆遭遇的自然数据可以应用于连接车辆评估。[1802.09917v2] 更多地,不同车辆遭遇的自然数据可以用于连接车辆评估。[1802.09917v2] 更多地,不同车辆遭遇的自然数据可以用于连接车辆评估。[1802.09917v2]

 

Tree-CNN:用于增量学习的分层深度卷积神经网络

Deboleena RoyPriyadarshini PandaKaushik Roy

近年来,卷积神经网络(CNN)在诸如物体识别和检测等许多计算机视觉任务中表现出卓越的性能。然而,诸如灾难性遗忘和超参数调整等复杂的培训问题使CNN的增量学习成为一项艰巨的挑战。在本文中,我们提出了一个分层的深度神经网络,CNN在多个层次上,以及相应的增量学习训练方法。网络以树状方式增长,以适应新的数据类别,而不会失去识别先前训练过的类的能力。所提出的网络在CIFAR-100上进行了测试,与重新训练深层网络的最终层相比,准确性和训练效率分别降低了60.46%和20%。网络将传入的数据类组织到功能驱动的超类中,并通过增加自我增长的能力来改进现有的分层CNN模型。[1802.05800v2]

 

插值函数作为输出激活的深层神经网络

Bao Wang, Xiyang Luo, Zhen Li, Wei Zhu, Zuoqiang Shi, Stanley J. Osher

我们用一个新颖的插值函数替换深层神经网络的输出层,通常是softmax函数。我们为这种新架构提出了端到端的培训和测试算法。与具有softmax函数作为输出激活的经典神经网络相比,具有插值函数作为输出激活的替代项结合了深度和流形学习的优点。新框架显示出以下主要优势:首先,它适用于训练数据不足的情况。其次,它显着提高了各种网络的泛化精度。该算法在PyTorch中实现,代码将公开。[1802.00168v2]

 

使用不变描述符学习的深度多光谱配准

Nati OfirShai SilbersteinHila LeviDani RozenbaumYosi KellerSharon Duvdevani Bar

在本文中,我们介绍一种新的深度学习方法来对齐交叉光谱图像。我们的方法依赖于对不同光谱不变的学习描述符。同一场景的多模式图像捕捉不同的信号,因此它们的注册是具有挑战性的,并且它不是通过传统方法解决的。为此,我们开发了一种基于特征的方法,解决了可见(VIS)到近红外(NIR)注册问题。我们的算法通过Harris检测角点,并通过在CIFAR-10网络描述符之上学习的补丁度量来匹配它们。正如我们的实验所证明的那样,我们实现了具有亚像素精度的交叉光谱图像的高质量对齐。与其他现有方法相比,我们的方法在VISNIR注册任务中更加准确。[1801.05171v6]

 

SplineCNN:连续B样条内核的快速几何深度学习

Matthias FeyJan Eric LenssenFrank WeichertHeinrichMüller

我们提出基于样条线的卷积神经网络(SplineCNNs),这是一种用于不规则结构化和几何输入(例如图形或网格)的深度神经网络的变体。我们的主要贡献是基于B样条的新型卷积算子,由于B样条基函数的局部支持特性,计算时间与内核大小无关。因此,我们通过使用由固定数量的可训练权重进行参数化的连续核函数来获得传统CNN卷积算子的推广。与在频谱域中过滤的相关方法相反,所提出的方法纯粹在空间域中聚合特征。此外,SplineCNN允许深层架构的整个端到端培训,仅使用几何结构作为输入,而不是手工制作的特征描述符。为了进行验证,我们将这种方法应用于图像图形分类,形状对应和图形节点分类等领域的任务中,并且显示它比现有技术的方法更优异,同时速度更快,并且具有像域独立。[1711.08920v2]

 

图像匹配:一个面向应用的基准

JiaWang Bian, Le Zhang, Yun Liu, Wen-Yan Lin, Ming-Ming Cheng, Ian D. Reid

图像匹配方法已被广泛用于计算机视觉应用中,匹配器的图像级匹配性能至关重要。然而,以前的着作评价局部特征的工作并没有得到很好的调查。为此,我们提出了一个具有新颖评估指标和大规模数据集的统一基准,用于评估图像匹配方法的整体性能。所提出的指标是以应用为导向的,因为它们强调了匹配器的应用需求。该数据集包含两个部分,分别用于基准视频帧匹配和无序图像匹配,其中每个部分由真实世界的图像序列组成,每个序列具有特定的属性。后来,我们对各种最先进的方法进行综合绩效评估,并对应用需求,匹配类型和数据多样性等各方面进行深入分析。此外,我们阐述了如何根据实证结果和分析为不同应用选择合适的方法。这个基准的结论可以作为设计实用匹配系统的一般指导方针,同时也提倡这个领域潜在的未来研究方向。[1709.03917v3] 这个基准的结论可以作为设计实用匹配系统的一般指导方针,同时也提倡这个领域潜在的未来研究方向。[1709.03917v3] 这个基准的结论可以作为设计实用匹配系统的一般指导方针,同时也提倡这个领域潜在的未来研究方向。[1709.03917v3]

转载请注明:《用于语义分割的自动对焦层+深度人脸识别的最小边缘损失

发表评论