检测无人机图像中的哺乳动物:通过深度学习解决极端不平衡数据的最佳实践
Benjamin Kellenberger,Diego Marcos,Devis Tuia
关于大型野生动物保护区动物数量的知识对于公园护林员努力保护濒危物种至关重要。手动动物普查是危险和昂贵的,因此配备消费级数码相机的无人驾驶飞行器(UAV)正在成为评估牲畜的一种常用替代工具。已经提出了几种半自动处理无人机图像以检测动物的工作,其中一些使用卷积神经网络(CNN),这是最近的一系列深度学习算法,其被证明在来自计算机视觉的大数据集中的对象检测中非常有效。然而,与野生动物有关的大多数作品只关注小型数据集(通常是无人机活动的子集),这在向大型哺乳动物普查提供真正的研究区域时可能是有害的。在这种情况下,方法可能会产生数千次错误警报。在本文中,我们研究如何将CNN扩展到大型野生动植物普查任务,并提出若干建议,以在大型无人机数据集上训练CNN。我们进一步介绍新的评估协议,这些协议是为人口普查量身定制的,并且适用于后续人体检测验证的模型适用性。使用我们的建议,我们能够训练CNN,与以前的最新技术相比,将误报数量减少了一个数量级。将要求设置为90%召回,我们的CNN允许将手动验证所需的数据量减少三倍,从而使得护林员可以有效地筛选所有获取的数据并自动检测储备中的几乎所有动物。[1806.11368v1] 我们研究如何将CNN扩展到大型野生动植物普查任务,并提出一些建议,以便在大型无人机数据集上训练CNN。我们进一步引入了新的评估协议,这些协议适用于人口普查和模型适用性,以便随后对检测进行人工验证。使用我们的建议,我们能够训练CNN,与以前的最新技术相比,将误报数量减少了一个数量级。将要求设置为90%召回,我们的CNN允许将手动验证所需的数据量减少三倍,从而使得护林员可以有效地筛选所有获取的数据并自动检测储备中的几乎所有动物。[1806.11368v1] 我们研究如何将CNN扩展到大型野生动植物普查任务,并提出一些建议,以便在大型无人机数据集上训练CNN。我们进一步介绍新的评估协议,这些协议是为人口普查量身定制的,并且适用于后续人体检测验证的模型适用性。使用我们的建议,我们能够训练CNN,与以前的最新技术相比,将误报数量减少了一个数量级。通过将需求设置为90%的召回率,我们的CNN允许将手动验证所需的数据量减少三倍,从而使游侠能够有效地屏蔽所有获得的数据并自动检测保留区中的几乎所有动物。[1806.11368v1] 我们进一步介绍新的评估协议,这些协议是为人口普查量身定制的,并且适用于后续人体检测验证的模型适用性。使用我们的建议,我们能够训练CNN,与以前的最新技术相比,将误报数量减少了一个数量级。通过将需求设置为90%的召回率,我们的CNN允许将手动验证所需的数据量减少三倍,从而使游侠能够有效地屏蔽所有获得的数据并自动检测保留区中的几乎所有动物。[1806.11368v1] 我们进一步介绍新的评估协议,这些协议是为人口普查量身定制的,并且适用于后续人体检测验证的模型适用性。使用我们的建议,我们能够训练CNN,与以前的最新技术相比,将误报数量减少了一个数量级。通过将需求设置为90%的召回率,我们的CNN允许将手动验证所需的数据量减少三倍,从而使游侠能够有效地屏蔽所有获得的数据并自动检测保留区中的几乎所有动物。[1806.11368v1] 我们的CNN允许将手动验证所需的数据量减少三倍,从而使游侠能够有效地屏蔽所有获取的数据并自动检测保留区中的几乎所有动物。[1806.11368v1] 我们的CNN允许将手动验证所需的数据量减少三倍,从而使游侠能够有效地屏蔽所有获取的数据并自动检测保留区中的几乎所有动物。[1806.11368v1]
Davi Frossard,Raquel Urtasun
在本文中,我们提出了一种新颖的方法来跟踪检测,可以利用这两个相机以及激光雷达数据产生非常准确的三维轨迹。为了实现这个目标,我们将问题描述为一个线性程序,可以精确求解,学习卷积网络以进行检测以及以端到端的方式进行匹配。我们在富有挑战性的KITTI数据集中评估我们的模型,并显示非常有竞争力的结果 [1806.11534v1]
Yang Xiao, Jun Chen, Zhiguo Cao, Joey Tianyi Zhou, Xiang Bai
动态图像是最近出现的动作表示范式,能够紧凑地捕捉时间演变,特别是在深度卷积神经网络(CNN)的背景下。受到其对RGB视频的初步成功的启发,我们建议将其扩展到深度域。为了更好地利用深度视频的3D特性来提升性能,我们提出了多视角动态图像。具体地,通过围绕3D空间内的特定实例旋转虚拟相机,将原始深度视频密集地投影到不同的成像视点上。然后分别从产生的多视点深度视频中提取动态图像以构成多视点动态图像。通过这种方式,与单视图对应物相比,多视图动态图像中可能涉及更多的容忍宽容的代表性信息。因此,提出了一种新颖的CNN学习模型,以在多视图动态图像上执行特征学习。来自不同视图的动态图像将共享相同的卷积层,但具有不同的完全连接层。该模型旨在通过减轻梯度消失来增强浅层卷积层的调整。此外,为了解决空间变化的影响,提出了一种基于更快的R-CNN的行动建议方法。动态图像将仅从行动建议地区提取。在实验中,我们的方法可以在3个具有挑战性的数据集(即NTU RGB-D,西北UCLA和UWA3DII)上实现最先进的性能。[1806.11269v1] 因此,提出了一种新颖的CNN学习模型,以在多视图动态图像上执行特征学习。来自不同视图的动态图像将共享相同的卷积层,但具有不同的完全连接层。该模型旨在通过减轻梯度消失来增强浅卷积层的调整。此外,为了解决空间变化的影响,提出了一种基于更快的R-CNN的行动建议方法。动态图像将仅从行动建议地区提取。在实验中,我们的方法可以在3个具有挑战性的数据集(即NTU RGB-D,西北UCLA和UWA3DII)上实现最先进的性能。[1806.11269v1] 因此,提出了一种新颖的CNN学习模型,以在多视图动态图像上执行特征学习。来自不同视图的动态图像将共享相同的卷积层,但具有不同的完全连接层。该模型旨在通过减轻梯度消失来增强浅层卷积层的调整。此外,为了解决空间变化的影响,提出了一种基于更快的R-CNN的行动建议方法。动态图像将仅从行动建议地区提取。在实验中,我们的方法可以在3个具有挑战性的数据集(即NTU RGB-D,西北UCLA和UWA3DII)上实现最先进的性能。[1806.11269v1] 来自不同视图的动态图像将共享相同的卷积层,但具有不同的完全连接的层。该模型旨在通过减轻梯度消失来增强浅层卷积层的调整。此外,为了解决空间变化的影响,提出了一种基于更快的R-CNN的动作提议方法。仅从动作建议区域提取动态图像。在实验中,我们的方法可以在3个具有挑战性的数据集(即NTU RGB-D,西北UCLA和UWA3DII)上实现最先进的性能。[1806.11269v1] 来自不同视图的动态图像将共享相同的卷积层,但具有不同的完全连接层。该模型旨在通过减轻梯度消失来增强浅层卷积层的调整。此外,为了解决空间变化的影响,提出了一种基于更快的R-CNN的动作提议方法。仅从动作建议区域提取动态图像。在实验中,我们的方法可以在3个具有挑战性的数据集(即NTU RGB-D,西北UCLA和UWA3DII)上实现最先进的性能。[1806.11269v1] 为了解决空间变化的影响,提出了基于更快的R-CNN的行动建议方法。仅从动作建议区域提取动态图像。在实验中,我们的方法可以在3个具有挑战性的数据集(即NTU RGB-D,西北UCLA和UWA3DII)上实现最先进的性能。[1806.11269v1] 为了解决空间变化的影响,提出了基于更快的R-CNN的行动建议方法。动态图像将仅从行动建议地区提取。在实验中,我们的方法可以在3个具有挑战性的数据集(即NTU RGB-D,西北UCLA和UWA3DII)上实现最先进的性能。[1806.11269v1]
MRFusion:深度学习架构,用于融合PAN和MS图像以进行土地覆盖映射
Raffaele Gaetano,Dino Ienco,Kenji Ose,Remi Cresson
如今,地球观测系统提供了大量的异构遥感数据。如何利用其互补性来管理这种丰富性是现代遥感分析的关键挑战。数据融合技术处理这一点,提出了结合和利用不同数据传感器之间互补性的方法。考虑到光学超高空间分辨率(VHSR)图像,卫星以不同的空间分辨率获得多光谱(MS)和全色(PAN)图像。VHSR图像被广泛开发用于生成土地覆盖图,以处理农业,生态和社会经济问题,以及评估生态系统状况,监测生物多样性和提供投入以构想食品风险监测系统。从这样的VHSR图像产生土地覆盖图的常用技术通常选择先前对多分辨率源进行分辨率处理以进行全分辨率处理。在这里,我们提出了一种新的深度学习体系结构,在没有任何先前的图像融合或重采样过程的情况下共同使用PAN和MS图像进行直接分类。通过以其原生空间分辨率管理光谱信息,我们的方法,名为MRFusion,旨在避免由平滑或其他手工预处理引起的可能的信息损失。此外,所提出的体系结构适合于学习源的非线性转换,其明确目的是尽可能多地利用PAN和MS图像的互补性。实验是在描绘具有不同土地覆盖特征的大区域的两个真实世界场景中进行的。所提出的方案的特征强调了我们的方法在操作环境中的适用性和一般性。[1806.11452v1]
Jian Xu
作为人类,我们可以识别各种不断变化的环境条件,例如由天气,季节和昼夜周期引起的地方。我们可以挖掘和记忆不同地点和场景的稳定语义结构。例如,我们可以识别树木是冬天的光秃秃的树木还是夏天的郁郁葱葱的树木。因此,与特定语义内容和外观变化条件不变性相对应的内在特征可以显着提高长期地点识别的性能。在本文中,我们提出了一种新颖的内在编码器,在剧烈外观变化下挖掘不同地方的条件不变的潜在空间。我们的方法通过基于生成对抗网络(GAN)设计的自监督循环损失来挖掘内在结构特征的空间。与以往基于学习的场所识别方法不同,这些方法需要每个场所的配对训练数据和外观变化,我们采用弱监督策略来利用不同环境条件下的不成对的基于集合的训练数据。我们对标准数据集进行了全面的实验,结果表明,我们的半监督固有编码器在剧烈的外观变化下可以实现极佳的场所识别性能。[1806.11306v1] 我们采用弱监督策略来利用不同环境条件的不成对的基于集合的训练数据。我们对标准数据集进行了全面的实验,结果表明,我们的半监督固有编码器在剧烈的外观变化下可以实现极佳的场所识别性能。[1806.11306v1] 我们采用弱监督策略来利用不同环境条件下的不成对的基于集合的训练数据。我们对标准数据集进行了全面的实验,结果表明,我们的半监督固有编码器在剧烈的外观变化下可以实现极佳的场所识别性能。[1806.11306v1]
Matteo Poggi,Filippo Aleotti,Fabio Tosi,Stefano Mattoccia
单个图像的无监督深度估计是一种非常有吸引力的技术,在机器人,自主导航,增强现实等方面具有多种含义。这个话题代表了一个非常具有挑战性的任务,深度学习的出现使得这个问题得到了很好的解决。但是,这些体系结构非常复杂。因此,仅利用耗电量大的GPU可以实现实时性能,所述GPU不允许在以低功率约束为特征的应用领域中推断深度图。为了解决这个问题,在本文中,我们提出了一种新颖的架构,能够使用从单个输入图像中提取的特征金字塔快速推断出CPU上甚至是嵌入式系统上的精确深度图。类似于最先进的,我们以无监督的方式训练我们的网络,将深度估计作为图像重建问题。KITTI 2015数据集的广泛实验结果表明,与最佳性能方法相比,我们的网络具有相似的准确度,但复杂程度较低(约6%的参数),从而能够在1.7秒左右的树莓中推出KITTI图像的深度图Pi 3,在标准CPU上超过8 Hz。此外,通过提高效率的交易准确性,我们的网络可以分别推断出超过2 Hz和40 Hz的地图,但仍比大多数最先进的较慢方法更准确。就我们所知,这是第一种在CPU上实现这种性能的方法,即使在嵌入式系统上也可有效部署无监督单眼深度估计。[1806.11430v1] KITTI 2015数据集的广泛实验结果表明,与最佳性能方法相比,我们的网络具有相似的准确度,但复杂程度较低(约6%的参数),从而能够在1.7秒左右的树莓中推出KITTI图像的深度图Pi 3,在标准CPU上超过8 Hz。此外,通过提高效率的交易准确性,我们的网络可以分别推断出超过2 Hz和40 Hz的地图,但仍比大多数最先进的较慢方法更准确。就我们所知,这是第一种在CPU上实现这种性能的方法,即使在嵌入式系统上也可有效部署无监督单眼深度估计。[1806.11430v1] KITTI 2015数据集的广泛实验结果表明,与最佳性能方法相比,我们的网络具有相似的准确度,但复杂程度较低(约6%的参数),从而能够在1.7秒左右的树莓中推出KITTI图像的深度图Pi 3,在标准CPU上超过8 Hz。此外,通过提高效率的交易准确性,我们的网络可以分别推断出超过2 Hz和40 Hz的地图,但仍比大多数最先进的较慢方法更准确。就我们所知,这是第一种在CPU上实现这种性能的方法,即使在嵌入式系统上也可有效部署无监督单眼深度估计。[1806.11430v1] 通过交易准确性提高效率,我们的网络允许分别以超过2 Hz和40 Hz的频率推断地图,仍然比大多数最先进的慢速方法更准确。据我们所知,这是第一种在CPU上实现这种性能的方法,即使在嵌入式系统上也能为有效部署无监督单眼深度估计铺平道路。[1806.11430v1] 通过交易准确性提高效率,我们的网络允许分别以超过2 Hz和40 Hz的频率推断地图,仍然比大多数最先进的慢速方法更准确。据我们所知,这是第一种在CPU上实现这种性能的方法,即使在嵌入式系统上也能为有效部署无监督单眼深度估计铺平道路。[1806.11430v1]
Nevrez Imamoglu, Yu Oishi, Xiaoqiang Zhang, Guanqun Ding, Yuming Fang, Toru Kouyama, Ryosuke Nakamura
在彩色图像上使用有监督或无监督的方法对显着物体检测进行了许多工作。最近,一些研究表明,通过使用来自自然场景的高光谱图像的可见光谱中的光谱特征,也可以实现有效的显着物体检测。然而,这些关于高光谱显着物体检测的模型用从各种在线公共数据集中选择的极少数数据进行了测试,这些数据并非专门为物体检测目的而创建的。因此,在这里,我们的目标是通过发布高光谱显着目标检测数据集来提供该领域的贡献,该数据集包含60个高光谱图像以及它们各自的地面真实二值图像和代表性彩色图像(sRGB)。在数据收集过程中,我们考虑了几个方面,如对象尺寸的变化,对象的数量,前后景对比度,图像上的对象位置等。然后,我们为每个高光谱数据准备了地面真实二值图像,其中显着对象被标记在图像上。最后,我们在文献中对一些现有的高光谱显着性检测模型进行了使用曲面下面积(AUC)度量的性能评估。[1806.11314v1] 我们在文献中对某些现有的高光谱显着性检测模型进行了使用曲面下面积(AUC)度量的性能评估。[1806.11314v1] 我们使用文献中的一些现有高光谱显着性检测模型,使用曲线下面积(AUC)度量进行了性能评估。[1806.11314v1]
Ardymulya Iswardani,Wahyu Hidayat
摘要目的本研究旨在通过使用负像变换和直方图均衡在乳房X线照相术图像中执行图像增强来执行微量检测。.pgm格式的图像乳房X线照相改为。jpg格式,然后处理成负面的图像结果,然后再次使用直方图均衡进行处理。使用负图像技术和均衡直方图的图像增强处理的结果与每个乳房X射线照相图像上的MSE和PSNR进行比较和验证。结论:乳腺X线摄影图像的图像增强过程可以完成,但是只有一些图像质量有所提高,这受阈值使用的影响,对于获得更好的乳腺摄影图像可视化具有重要作用。关键词:组件; 图像增强,图像负片,直方图均衡化,
John K. Tsotsos,Iulia Kotseruba,Amir Rasouli,Markus D. Solbach
将注意力视为允许代理人,机器人或机器的设施将优先处理资源提供给相关刺激而忽略不相关的设备几乎是普遍的。然而,在人类所拥有的所有形式的感知和认知过程中,这种现象如何表现出来的现实并不是那么清楚。在此我们以广泛的视角审视这一现实,以突出注意过程对认知和认知的影响。本文最后通过展示两个现实世界的问题,这些问题表现出足够的复杂性来说明注意力和认知的联系方式。然后,这些研究指向可能阐明空间认知整体认知结构的新的研究途径。[1806.11530v1]
Mehdi Faraji,Anup Basu
我们提出了一种新的数学公式来估算活动或机器人平台中摄像机的内部参数。我们表明,可以仅使用一个点对应来估计焦距,该点对应关系是在相机退化旋转之前和之后拍摄的图像。然后将估计的焦距作为已知参数处理,以获得线性方程组以计算主要点。假设主点靠近图像中心,通过将图像中心整合到公式中来增加线性方程的精度。我们在模拟相机,3D场景和真实世界图像上广泛评估配方。我们对模拟和真实图像的误差分析表明,所提出的简化主动校准方法估计具有低错误率的摄像机参数,可用作进一步非线性细化程序的初始猜测。根据提出的封闭式解决方案,简化的主动校准可用于实时环境中进行自动校准。[1806.11468v1]
Deepa Gunashekar,Sailesh Conjeti,Abhijit Guha Roy,Nassir Navab,Kuangyu Shi
跨模态图像合成因其能够从一组给定的源图像估计不同模态的目标图像,如估计MR到MR,MR到CT,CT到PET等,而无需实际采集,因此获得了巨大的兴趣。虽然它们在放射治疗计划,图像超分辨率,图谱构建,图像分割等方面显示出应用潜力,但综合结果并不像实际采集那么准确。本文中,我们提出了一种多模式图像合成的问题完全卷积的深度学习架构,称为SynNet。我们扩展了各种输入输出配置的建议架构。最后,我们提出了一种保留自定义损失函数的结构,用于跨模态图像合成。我们通过与三种最先进的方法进行比较,验证了所提出的SynNet及其在BRATS数据集上的扩展框架。所提出的自定义损失函数的结果与现有技术中使用的传统损失函数进行了验证。交叉模态图像合成的方法。[1806.11475v1]
Rooz Mahdavian,Richard Diehl Martinez
我们引入Ignition:一种端到端的神经网络架构,用于在模拟环境中训练无约束的自驾车辆。该车型是ResNet-18车型,从模拟F1赛车的前部输入图像,并输出转向,油门,制动的最佳标签。重要的是,我们从不明确训练模型来检测道路特征,如轨道的轮廓或与其他车辆的距离; 相反,我们说明这些潜在特征可以被网络自动封装。[1806.11349v1]
GuilhemChéron,Ivan Laptev,Jean-Baptiste Alayrac,Cordelia Schmid
视频中的时空动作检测通常在完全监督的设置中进行解决,并且每帧需要手动标注培训视频。由于此类注释非常繁琐且禁止可扩展性,因此显然需要尽量减少手动监督的数量。在这项工作中,我们提出了一个统一的框架,可以处理和结合不同类型的要求不高的弱监督。我们的模型基于歧视性聚类,并将不同类型的监督作为优化的约束条件。我们调查这种模型的应用程序与训练设置替代监督信号范围从时间点或稀疏动作边界框视频级别标签到动作边界框的全帧每个注释。在具有挑战性的UCF101-24和DALY数据集上的实验证明了我们的方法在以前的方法所使用的一小部分监督下的竞争性表现。我们模型的灵活性使得能够从具有不同注释级别的数据中进行联合学习。实验结果表明,通过添加一些完全监督的例子,否则弱标签的视频会带来显着的收益。[1806.11328v1]
Pawan Kumar Singh,Supratim Das,Ram Sarkar,Mita Nasipuri
在过去的几十年里,人们对手写罗马字符和数字的识别进行了广泛的研究,其准确性达到了令人满意的状态。但在谈论梵文剧本时,同样不能说,这是印度最受欢迎的剧本之一。本文提出了一种有效的手写梵文脚本数字识别系统。该系统使用新颖的196元素面向定向(MOD)功能进行识别。该方法使用5000个手写数字样本上的五个常规分类器进行测试。在应用3倍交叉验证方案时,所提出的系统使用支持向量机(SVM)分类器产生95.02%的最高识别准确度。[1806.11517v1]
Yikang Li, Wanli Ouyang, Bolei Zhou, Yawen Cui, Jianping Shi, Xiaogang Wang
生成场景图来描述图像中的所有关系,这些年来越来越引起人们的兴趣。然而,大多数以前的方法使用的推理速度较慢的复杂结构或依赖于外部数据,这限制了模型在现实生活场景中的使用。为了提高场景图生成的效率,我们提出了一个基于子图的连接图,以便在推理过程中简洁地表示场景图。首先使用自下而上的聚类方法将整个场景图分解为子图,其中每个子图都包含多个对象及其关系的子集。通过用较少的子图和对象特征替换场景图的众多关系表示,中间阶段的计算显着减少。此外,空间信息由子图特征维护,其由我们提出的空间加权消息传递~(SMP)结构和空间敏感关系推理~(SRI)模块来利用以促进关系识别。在最近的视觉关系检测和视觉基因组数据集中,我们的方法在准确性和速度上均优于最先进的方法。[1806.11538v1]
弗兰克尼尔森,克孙
总变差距离是满足公制公理的概率测度之间的核心统计距离,其值始终在$ [0,1] $中。这个距离在机器学习和信号处理中起着重要作用:它是更广泛的$ f $ -divergence的成员,它与贝叶斯假设检验中的错误概率有关。由于总变差距离不允许统计混合的闭合表达式(如高斯混合模型),人们通常不得不依赖于昂贵的数值积分或快速蒙特卡罗近似的实践,但不保证确定性的下限和上限。在这项工作中,我们考虑两种方法来限制单变量混合模型的总变差:第一种方法是基于总变差的信息单调性,以设计有保证的嵌套确定性下界。第二种方法依赖于计算加权混合分量的几何下限和上限,从而根据密度比导出确定性边界。我们在高斯,伽马和瑞利混合模型的一系列实验中证明了我们界限的紧密性。[1806.11311v1]
Md Amirul Islam,Mrigank Rochan,Shujon Naha,Neil DB Bruce,Yang Wang
本地和全局情境信息的有效整合对于语义分割和密集图像标记至关重要。我们开发了两种基于编码器解码器的深度学习架构来解决这个问题。我们首先提出一种叫做标签细化网络(LRN)的网络架构,它以几种空间分辨率以粗到细的方式预测分割标签。在这个网络中,我们还定义了几个阶段的损失函数,以提供不同训练阶段的监督。但是,如果向前传递不明确的信息,则有可能限制提炼的质量。为了解决这个问题,我们还提出了解决这个限制的门控反馈细化网络(G-FRNet)。原来,G-FRNet进行粗粒度预测,通过在细化阶段有效地整合本地和全球上下文信息,G-FRNet逐步细化以恢复细节。这是通过在这项工作中提出的门控单元实现的,为了解决模糊性,控制信息被传递。在四个具有挑战性的密集标记数据集(CamVid,PASCAL VOC 2012,Horse-Cow Parsing,PASCAL-Person-Part和SUN-RGBD)上进行实验。G-FRNet在CamVid和Horse-Cow Parsing数据集上实现了最先进的语义分割结果,并且产生的结果与文献中出现的其他三个数据集的最佳表现方法相竞争。[1806.11266v1] 这是通过本工作中提出的门单元实现的,即控制信息向前传递以解决模糊性。在四个具有挑战性的稠密标记数据集(CamVid,PASCAL VOC 2012,Horse-Cow Parsing,PASCAL-Person-Part和SUN-RGBD)上进行实验。G-FRNet在CamVid和Horse-Cow Parsing数据集上实现了最先进的语义分割结果,并产生了与文献中出现的其他三种数据集中表现最佳的方法相媲美的结果。[1806.11266v1] 这是通过在这项工作中提出的门控单元实现的,为了解决模糊性,控制信息被传递。在四个具有挑战性的稠密标记数据集(CamVid,PASCAL VOC 2012,Horse-Cow Parsing,PASCAL-Person-Part和SUN-RGBD)上进行实验。G-FRNet在CamVid和Horse-Cow Parsing数据集上实现了最先进的语义分割结果,并产生了与文献中出现的其他三种数据集中表现最佳的方法相媲美的结果。[1806.11266v1] G-FRNet在CamVid和Horse-Cow Parsing数据集上实现了最先进的语义分割结果,并产生了与文献中出现的其他三种数据集中表现最佳的方法相媲美的结果。[1806.11266v1] G-FRNet在CamVid和Horse-Cow Parsing数据集上实现了最先进的语义分割结果,并产生了与文献中出现的其他三种数据集中表现最佳的方法相媲美的结果。[1806.11266v1]
Hyeji Kim,Chong-Min Kyung
低阶分解在加速卷积神经网络(CNN)中起着核心作用,分解核内张量的秩是决定神经网络复杂性和精确性的关键参数。在本文中,我们将秩选择定义为组合优化问题,并提出一种方法,以在保持所需精度的同时最小化网络复杂性。由于搜索空间限制,组合优化不可行。为了限制搜索空间并获得最优秩,我们用边界条件定义空间约束参数。我们还提出了一个线性近似精度函数来预测优化CNN模型在降低成本期间的精确调整精度。在AlexNet和VGG-16上的实验结果表明,所提出的秩选择算法满足精度约束。我们的方法结合截断-SVD在推理和训练时间方面优于最先进的方法,几乎 相同的精度。[1806.10821v2]
Maximilian Seitzer,Guang Yang,Jo Schlemper,Ozan Oktay,TobiasWürfl,Vincent Christlein,Tom Wong,Raad Mohiaddin,David Firmin,Jennifer Keegan,Daniel Rueckert,Andreas Maier
深度学习方法已经表现出对基于压缩传感的磁共振成像的有前景的性能。虽然用均方误差(MSE)损失函数训练的深度神经网络可以实现高峰值信噪比,但是重建的图像通常是模糊的并且缺乏清晰的细节,尤其是对于更高的欠采样率。最近,已经证明对抗性和感知性丧失功能可以获得更具视觉吸引力的结果。然而,如何(1)将这些损失函数与MSE损失函数进行最佳组合以及(2)评估这种感知增强仍然是一个悬而未决的问题。在这项工作中,我们提出了一种混合方法,其中在基于MSE损失的重建网络之上学习视觉细化组件。另外,我们引入了语义可解释性分数,测量地面实况和重建图像中感兴趣区域的可见性,这使我们能够客观地量化图像质量对图像后处理和分析的有用性。应用于用8倍欠采样模拟的大型心脏MRI数据集,我们证明了在人类观察者研究和语义解释性得分方面的显着改善($ p <0.01 $)超过了最新的水平。[1806.11216v1] 在人类观察者研究和语义可解释性评分方面的最新进展。[1806.11216v1] 在人类观察者研究和语义可解释性评分方面的最新进展。[1806.11216v1]
J. Tilak Ratnanather,Sylvain Arguillere,Kwame S. Kutten,Peter Hubka,Andrei Kral,Laurent Younes
描述了一种基于表面的微分形态算法,用于在皮质带中生成3D坐标网格。在网格中,通过从灰/白(内)表面到灰/ csf(外)表面的微分演化生成法线。具体地,皮质带由具有开放边界的两个三角形表面描述。从概念上讲,内表面位于白质结构的顶部和灰质顶部的外部。假定皮质带由与白质表面正交的皮质柱组成。这可能被视为胚胎中柱子发育的结果。还假设列与外表面正交,使得合成矢量场与演化表面正交。然后,轨迹距离矢量场的距离使得内表面朝向外部展开有限差分形式可以被解释为厚度的量度。描述了成年人和正常听力或听力丧失的猫的听觉皮层的应用。该方法为皮层形态测量提供了巨大的潜力。[1806.11169v1]
Yu Tian, Xi Peng, Long Zhao, Shaoting Zhang, Dimitris N. Metaxas
从单视图输入生成多视图图像是一个必不可少但又具有挑战性的问题。它在视觉,图形和机器人领域具有广泛的应用。我们的研究表明广泛使用的生成对抗网络(GAN)可能由于单路径框架而学习“不完整”表示:编码器 – 解码器网络后跟鉴别器网络。我们提出CR-GAN来解决这个问题。除了单一的重建路径之外,我们还引入了一代代,以保持学习嵌入空间的完整性。这两种学习途径以参数共享的方式进行协作和竞争,从而大大提高了“看不见”数据集的泛化能力。更重要的是,双路径框架可以将标记和未标记数据结合起来进行自我监督学习,从而进一步丰富了现实世代的嵌入空间。实验结果证明CR-GAN明显优于最先进的方法,特别是在野外条件下从“看不见的”输入产生时。[1806.11191v1]
小鼠伊克巴尔,阿代尔科瓦奇卡迈勒Aryafar
电子商务平台主要通过产品推荐来展示有趣的产品,这些推荐可以捕捉用户的风格和审美偏好 将建议作为一个完整的补充集或分类进行策划对于成功的电子商务体验至关重要,特别是对于产品类别,例如家具,其中的项目与整体主题,风格或空间氛围一起进行选择。在本文中,我们提出了两种视觉感知推荐系统,它们可以在房间的几个预先选定的种子片周围自动生成各种各样的客厅家具。第一个系统旨在通过利用转移学习和主题建模来最大化整个选择的视觉风格兼容性。第二个系统通过合并文本数据和应用多语言主题建模来推广第一个,以推断两种形式的风格。我们审查了生产渠道,以显示这些具有视觉意识的推荐系统,并通过离线验证和Overstock上的大规模在线A / B测试进行比较。我们的实验结果表明,当结合视觉和文本数据时,最好在产品集上发现互补风格。[1806.11226v1] 我们的实验结果表明,当结合视觉和文本数据时,最好在产品集上发现互补风格。[1806.11226v1] 我们的实验结果显示,当视觉和文本数据都被合并时,最好在产品集上发现免费样式。[1806.11226v1]
Thomas Tanay,路易斯D格里芬
设想两个高维聚类和一个超平面将它们分开。特别考虑以下角度:连接两个簇的质心的方向和超平面的法线。在线性分类中,这个角度取决于所使用的L2正则化水平。你能解释为什么吗?[1806.11186v1]
Subject2Vec:从一组图像补丁到矢量的生成 – 判别方法
Sumedha Singla,Mingming Gong,Siamak Ravanbakhsh,Frank Sciurba,Barnabas Poczos,Kayhan N. Batmanghelich
我们提出了一种基于注意力的方法,可将局部图像特征聚合到用于预测疾病严重程度的主体级别表示中。与需要固定尺寸输入的传统深度学习相比,我们的方法在一组图像补丁上运行; 因此它可以容纳可变长度的输入图像而不用调整图像大小。该模型学习可反映疾病严重程度的临床可解释的科目水平表示。我们的模型由三个相互依赖的模块组成,这些模块相互调节:(1)一个判别网络,它从局部特征中学习固定长度的表示,并将它们映射到疾病严重程度; (2)通过关注对预测任务贡献最大的解剖学区域来提供可解释性的注意机制; (3)鼓励当地潜在特征多样性的生成网络。生成术语确保注意力权重不退化,同时保持局部区域与疾病严重程度的相关性。我们在慢性阻塞性肺病(COPD)的大规模肺CT研究中对我们的模型进行端到端训练。我们的模型在预测慢性阻塞性肺病严重程度的临床措施方面提供了最先进的表现。注意的分布提供了肺组织对临床测量的区域相关性。[1806.11217v1] 我们在慢性阻塞性肺病(COPD)的大规模肺CT研究中对我们的模型进行端到端训练。我们的模型在预测慢性阻塞性肺病严重程度的临床措施方面提供了最先进的表现。注意的分布提供了肺组织对临床测量的区域相关性。[1806.11217v1] 我们在慢性阻塞性肺病(COPD)的大规模肺CT研究中对我们的模型进行端到端训练。我们的模型在预测COPD严重程度的临床指标方面具有最先进的性能。注意力的分布提供了肺组织与临床测量的区域相关性。[1806.11217v1]
Athanasios Tsiligkaridis,Theodoros Tsiligkaridis
我们提出了一种基于概率二分算法的新型高效目标检测和定位框架。卷积神经网络经过训练并用作嘈杂的oracle,为输入查询图像提供答案。响应以及从CNN获得的错误概率估计用于更新关于沿每个维度的对象位置的信念。我们表明,沿着每个维度的查询实现了与联合查询设计相同的定位误差下限。最后,我们提供了一个面部定位任务的实验结果,展示了我们的方法与滑动窗口技术相比的有效性。[1806.11223v1]
Yu Kong, Yun Fu
源于计算机视觉和机器学习的快速发展,视频分析任务已经从推断现状到预测未来状态。基于视觉的动作识别和视频预测是这样的任务,其中动作识别是基于完整动作执行来推断人类动作(当前状态),以及基于不完整动作执行来预测人类动作(未来状态)的动作预测。这两项任务最近成为特别普遍的主题,因为它们爆炸性地出现了现实世界的应用,例如视觉监控,自动驾驶车辆,娱乐和视频检索等。在过去的几十年里,为了为行动识别和预测建立一个强大而有效的框架。在本文中,我们调查了动作识别和预测中完整的最先进技术。系统讨论还提供了现有模型,流行算法,技术难点,流行行动数据库,评估协议以及有希望的未来方向
转载请注明:《在CPU上实现实时无监督单目深度估计+检测无人机图像中的哺乳动物:通过深度学习解决极端不平衡数据的最佳实践+ SynNet:结构保持的全卷积网络用于医学图像合成》