少量样本机器学习中的语义特征增强+RIFT:基于辐射不变特征变换的多模态图像匹配

应用Faster R-CNN对疟疾图像进行目标检测

简红,艾伦古德曼,斯蒂芬妮洛佩斯,加布里埃尔兰格尔,Deepali拉威尔,法比奥科斯塔,马诺伊杜拉辛格,马蒂亚斯马蒂,安妮卡彭特

基于深度学习的模型在物体检测方面取得了巨大的成功,但最新的模型尚未广泛应用于生物图像数据。我们首次申请了一种以前用于自然图像的物体检测模型,用于识别细胞并识别其在疟疾感染血液的明视野显微镜图像中的阶段。许多微生物如疟疾寄生虫仍然通过专家手工检查和手工计数进行研究。由于诸如细胞形状,密度和颜色的变化以及某些细胞类别的不确定性等因素,这种类型的目标检测任务具有挑战性。此外,对训练有用的注释数据很少,并且由于未受感染的红血细胞占主导地位,因此类别分布本质上非常不平衡。我们使用基于快速区域的卷积神经网络(Faster R-CNN),这是近年来表现最好的对象检测模型之一,在ImageNet上进行了预先训练,但是与我们的数据进行了微调,并将其与基于基线进行比较在传统的方法包括细胞分割,提取几个单细胞功能,并使用随机森林分类。为了进行我们的初步研究,我们收集并标注了由大约100,000个独立细胞组成的1300个视野的数据集。我们证明更快的R-CNN优于我们的基线,并将结果置于人类表现的背景下。[1804.09548v1] 它基于传统的方法,包括细胞分割,几个单细胞特征提取以及使用随机森林分类。为了进行我们的初步研究,我们收集并标注了由大约100,000个独立细胞组成的1300个视野的数据集。我们证明更快的R-CNN优于我们的基线,并将结果置于人类表现的背景下。[1804.09548v1] 它基于传统的方法,包括细胞分割,几个单细胞特征提取以及使用随机森林分类。为了进行我们的初步研究,我们收集并标注了由大约100,000个独立细胞组成的1300个视野的数据集。我们证明更快的R-CNN优于我们的基线,并将结果置于人类表现的背景下。[1804.09548v1]

 

利用空间传播的深度学习实现心脏图像的三维一致和鲁棒性分割

Qiao Zheng, Hervé Delingette, Nicolas Duchateau, Nicholas Ayache

我们提出了一种基于深度学习的方法,可以从顶部切片(基部周围)到底部切片(顶点周围)迭代地对短轴MRI图像堆栈执行心脏分割。在每次迭代中,应用U-net的新变体来将片段的分段传播到其下面的相邻片段。换句话说,切片的分割的预测取决于相邻切片的已经存在的分割。3D一致性因此被明确地强制执行。该方法接受来自英国生物库的3078例大型数据库的培训。然后对来自英国生物库和其他三个最先进的队列(ACDC 100例,Sunnybrook 30例,RVSC 16例)的756例不同病例进行测试。在距离测量方面达到了与现有技术相比甚至更好的结果。他们还强调我们方法的资产,即提高空间一致性(目前既不是由最先进的技术来考虑也不是实现的),以及从其他数据库看不到案例的泛化能力。[1804.09400v1]

 

通过模块化和抽象促进政策转移

MatthiasMüllerAlexey DosovitskiyBernard GhanemVladen Koltun

自动驾驶的端到端方法具有很高的样本复杂度,难以按比例逼近城市驾驶。仿真可以通过提供便宜,安全和多样的培训环境来帮助端到端驾驶系统。然而,在模拟中培训驾驶政策带来了将这些政策转移到现实世界的问题。我们提出了一种通过模块化和抽象将驾驶策略从仿真转移到现实的方法。我们的方法受到传统驾驶系统的启发,旨在将模块化架构和端到端深度学习方法的优势结合起来。关键的想法是封装驾驶策略,使其不直接暴露于原始感知输入或低级别车辆动态。我们评估在模拟城市环境和现实世界中提出的方法。特别是,我们将模拟培训的驾驶策略转移到1/5尺度的机器人卡车上,该机器人卡车在两个大陆以各种条件部署,无需调整。补充视频可通过https://youtu.be/BrMDJqI6H5U [1804.09364v1]查看

 

带有对抗残差变换网络的无监督域适应

Guanyu Cai, Yuqin Wang, Mengchu Zhou, Lianghua He

领域适应广泛用于学习缺乏标签的问题。最近的研究表明,深对抗领域适应模型可以在性能上做出显着的改进,包括对称和非对称架构。然而,前者泛化能力较差,后者则很难训练。在本文中,我们提出了一种新的对抗领域自适应方法,即Adversarial残余变换网络(ARTNs)来提高泛化能力,将源特征直接转换为目标特征空间。在这个模型中,残余连接用于共享特征,并且重构了对抗性损失,从而使得模型更普遍并且更易于训练。此外,正规化被添加到损失函数以减轻消失梯度问题,这使培训过程稳定。基于亚马逊评论数据集,数字数据集和Office-31图像数据集的一系列实验结果表明,所提出的ARTN方法大大超越了最新技术的方法。[1804.09578v1]

 

基于深度卷积自动编码器的有损图像压缩

Zhengxue Cheng, Heming Sun, Masaru Takeuchi, Jiro Katto

几十年来,图像压缩作为一个基础研究课题一直被研究。近来,深度学习在许多计算机视觉任务中取得了巨大成功,并逐渐被用于图像压缩。在本文中,我们提出了一种有损图像压缩体系结构,它利用卷积自动编码器(CAE)的优势来实现高编码效率。首先,我们设计了一种新颖的CAE架构来替代传统的变换,并使用速率失真损失函数来训练此CAE。其次,为了生成更紧凑的表示,我们利用主成分分析(PCA)旋转由CAE产生的特征映射,然后应用量化和熵编码器来生成代码。实验结果表明,与JPEG2000相比,我们的方法在柯达数据库图像上实现了13.7%的BD率下降,优于传统的图像编码算法。此外,我们的方法保持与JPEG2000类似的中等复杂度。[1804.09535v1]

 

通过多视图图像到图像转换的概率性植物建模

Takahiro IsokaneFumio OkuraAyaka IdeYasuyuki MatsushitaYasushi Yagi

本文描述了一种从多视角观测中推断隐藏在叶下的三维(3D)植物分支结构的方法。与以前几乎完全依赖分支可见性或使用参数分支模型的几何方法不同,我们的方法在概率框架中对分支结构进行统计推断。通过使用应用于每个多视图图像的图像到图像平移的贝叶斯扩展来推断分支存在的概率,我们的方法生成概率性植物3D模型,其表示不能直接观察到的3D分支模式。与先前的方法相比,实验证明了所提出的方法在产生令人信服的分支结构中的有用性。[1804.09404v1]

 

基于歼灭滤波器的低秩Hankel矩阵方法进行定量磁化率图重建

Hyun-Seo AhnSung-Hong ParkJong Chul Ye

定量磁化率映射(QSM)不可避免地会受到由k空间中偶极核的圆锥表面上的零引起的条纹伪影的影响。这项工作提出了一种基于直接k空间插值方法的新颖且准确的QSM重建方法,避免了过度平滑和裸奔伪影的问题。受最近的基于滤波器的低秩Hankel矩阵方法(ALOHA)理论的启发,QSM重构问题在k-空间中的低秩Hankel矩阵约束下被描述为解卷积问题。为了降低计算复杂度和存储器需求,该问题被表述为在傅里叶域中沿着三维相位图像的三个独立轴连续重建二维平面。进行了大量的实验来验证和比较所提出的方法与现有的QSM重建方法。与现有的QSM方法相比,所提出的ALOHA-QSM有效地减少了条纹伪影,并精确估计了深灰色结构中的磁敏度值。我们建议的ALOHA-QSM算法成功解决了三维QSM偶极子反演问题,无需附加解剖信息或先验假设,并提供了良好的图像质量和定量精度。[1804.09396v1] 我们建议的ALOHA-QSM算法成功解决了三维QSM偶极子反演问题,无需附加解剖信息或先验假设,并提供了良好的图像质量和定量精度。[1804.09396v1] 我们建议的ALOHA-QSM算法成功解决了三维QSM偶极子反演问题,无需附加解剖信息或先验假设,并提供了良好的图像质量和定量精度。[1804.09396v1]

 

演员和观察者:第一和第三人视频的联合建模

Gunnar A. SigurdssonAbhinav GuptaCordelia SchmidAli FarhadiCardek Alahari

认知神经科学中的几种理论认为,当人们与世界互动或模拟互动时,他们从第一人称的自我中心角度出发,并在第三人(观察者)和第一人称(演员)之间无缝地传递知识。尽管如此,由于缺乏数据,学习人类行为识别的这些模型并不可行。本文向这个方向迈出了一步,Charades-Ego是一个配对的第一人称视频和第三人视频的大型数据集,涉及112人,拥有4000对配对视频。这使得学习两者,演员和观察者观点之间的联系成为可能。因此,我们解决了面向自我中心视觉研究的最大瓶颈之一,它提供了从第一人称网络到大量第三人称数据的链接。我们利用这些数据来学习第一人称视频和第三人视频的联合表示,只有弱监督,并显示其将知识从第三人转移到第一人称领域的有效性。[1804.09627v1]

 

从泛锐化的高分辨率卫星图像中检测鲁棒的基于异常的船舶建议

Hung Luu,阮鸿銮,Quang Hung BuiThi Nhat Thanh Nguyen

船舶建议的预先筛选现在被顶级船舶检测器采用,以避免在整个图像上进行穷举搜索。在非常高分辨率(VHR)的光学图像中,船舶在开阔的海杂波(类似噪声的背景)中出现一簇异常明亮的像素。使用全色(PAN)数据的基于异常的检测器已经在许多研究中被广泛用于检测船舶,但是仍然面临两个主要缺点:1)检测率趋于较低,尤其是当船舶低对比度时; 2)这些模型需要选择阈值的高手动配置可以最好地将船舶与海面背景分开。本文旨在进一步研究基于异常的模型来解决这些问题。首先,将泛锐化的多光谱(MS)数据与PAN一起使用,以增强船舶辨别能力。第二,我们提出了一个结合了全局强度异常和局部纹理异常图的改进的基于异常的模型。针对由于海杂波的存在以及由于泛锐化过程而出现的噪声,引入了基于量化理论的纹理异常抑制项。VNREDSat-1 VHR光学卫星图像的实验结果表明,泛锐化近红外(P-NIR)波段可以改善对周围水域船舶的识别。与先进的异常检测器相比,我们提出的PANP-NIR数据结合的基于异常的模型不仅可以实现船舶最高检测的召回率(高对比度和低对比度的91.14%和45.9%分别对比数据集),但也对不同的自动阈值选择技术具有鲁棒性。[1804.09322v1] 针对由于海杂波的存在以及由于泛锐化过程而出现的噪声,引入了基于量化理论的纹理异常抑制项。VNREDSat-1 VHR光学卫星图像的实验结果表明,泛锐化近红外(P-NIR)波段可以改善对周围水域船舶的识别。与先进的异常检测器相比,我们提出的PANP-NIR数据结合的基于异常的模型不仅可以实现船舶最高检测的召回率(高对比度和低对比度的91.14%和45.9%分别对比数据集),但也对不同的自动阈值选择技术具有鲁棒性。[1804.09322v1] 针对由于海杂波的存在以及由于泛锐化过程而出现的噪声,引入了基于量化理论的纹理异常抑制项。VNREDSat-1 VHR光学卫星图像的实验结果表明,泛锐化近红外(P-NIR)波段可以改善对周围水域船舶的识别。与先进的异常检测器相比,我们提出的PANP-NIR数据结合的基于异常的模型不仅可以实现船舶最高检测的召回率(高对比度和低对比度的91.14%和45.9%分别对比数据集),但也对不同的自动阈值选择技术具有鲁棒性。[1804.09322v1] VNREDSat-1 VHR光学卫星图像的实验结果表明,泛锐化近红外(P-NIR)波段可以改善对周围水域船舶的识别。与先进的异常检测器相比,我们提出的PANP-NIR数据结合的基于异常的模型不仅可以实现船舶最高检测的召回率(高对比度和低对比度的91.14%和45.9%分别对比数据集),但也对不同的自动阈值选择技术具有鲁棒性。[1804.09322v1] VNREDSat-1 VHR光学卫星图像的实验结果表明,泛锐化近红外(P-NIR)波段可以改善对周围水域船舶的识别。与先进的异常检测器相比,我们提出的PANP-NIR数据结合的基于异常的模型不仅可以实现船舶最高检测的召回率(高对比度和低对比度的91.14%和45.9%分别对比数据集),但也对不同的自动阈值选择技术具有鲁棒性。[1804.09322v1] (分别为高对比度和低对比度数据集分别为91.14%和45.9%),但也对不同的自动阈值选择技术具有鲁棒性。[1804.09322v1] (分别为高对比度和低对比度数据集分别为91.14%和45.9%),但也对不同的自动阈值选择技术具有鲁棒性。[1804.09322v1]

 

使用低秩表示的多焦点噪声图像融合

Hui Li, Xiao-Jun Wu

在图像采集过程中,噪声源图像是不可避免的。多焦点噪声图像融合是一项非常具有挑战性的任务。然而,目前还没有真正的自适应噪声图像融合方法。众所周知,低秩表示(LRR)对噪声和异常值是强健的。在本文中,我们提出了一种基于LRR的多聚焦噪声图像融合融合方法。在离散小波变换(DWT)框架中,低频系数由空间频率融合,高频系数由LRR系数融合。最后,通过逆DWT获得融合图像。实验结果表明,当源图像包含噪声时,该算法可以获得最先进的性能。我们的融合方法的代码可在https// github上找到。

 

SegMap:使用数据驱动描述符的3D段映射

RenaudDubéAndrei CramariucDaniel DugasJuan NietoRoland SiegwartCesar Cadena

在进行定位和绘图时,在对环境变化的鲁棒性和照明差异方面,在结构层面进行工作可能是有利的。本文提出了SegMap:一种基于三维点云中片段提取的定位和映射问题的地图表示解决方案。除了促进处理3D点云的计算密集型任务之外,在段级别工作还解决了实时单机器人系统和多机器人系统的数据压缩需求。尽管当前的方法为单个本地任务提取描述符,但SegMap利用数据驱动的描述符来提取有意义的特征,这些特征也可用于重建环境的密集3D地图并提取语义信息。这对于导航任务以及向最终用户(例如机器人操作员)提供视觉反馈尤其有用,例如在搜索和救援场景中。这些功能在多个城市驾驶和搜索和救援实验中得到证明。我们的方法导致在使用基于特征值的特征的现有技术的ROC曲线下面积增加28.3%。我们也获得了与为这项任务专门培训的模型非常相似的重建能力。SegMap实施将在www.github.com/ethz-asl/segmap上提供开放源代码以及易于运行的演示。视频演示可在https://youtu.be/CMk4w4eRobg获取。[1804.09557v1] 例如在搜索和救援场景中。这些功能在多个城市驾驶和搜索和救援实验中得到证明。我们的方法导致在使用基于特征值的特征的现有技术的ROC曲线下面积增加28.3%。我们也获得了与为这项任务专门培训的模型非常相似的重建能力。SegMap实施将在www.github.com/ethz-asl/segmap上提供开放源代码以及易于运行的演示。视频演示可在https://youtu.be/CMk4w4eRobg获取。[1804.09557v1] 例如在搜索和救援场景中。这些功能在多个城市驾驶和搜索和救援实验中得到证明。我们的方法导致在使用基于特征值的特征的现有技术的ROC曲线下面积增加28.3%。我们也获得了与为这项任务专门培训的模型非常相似的重建能力。SegMap实施将在www.github.com/ethz-asl/segmap上提供开放源代码以及易于运行的演示。视频演示可在https://youtu.be/CMk4w4eRobg获取。[1804.09557v1] 我们也获得了与为这项任务专门培训的模型非常相似的重建能力。SegMap实施将在www.github.com/ethz-asl/segmap上提供开放源代码以及易于运行的演示。视频演示可在https://youtu.be/CMk4w4eRobg获取。[1804.09557v1] 我们也获得了与为这项任务专门培训的模型非常相似的重建能力。SegMap实施将在www.github.com/ethz-asl/segmap上提供开放源代码以及易于运行的演示。视频演示可在https://youtu.be/CMk4w4eRobg获取。[1804.09557v1]

 

适应和重新识别网络:一种无人监督的深度转移学习方法,用于人员重新识别

Yu-Jhe Li, Fu-En Yang, Yen-Cheng Liu, Yu-Ying Yeh, Xiaofei Du, Yu-Chiang Frank Wang

人员重新识别(Re-ID)旨在通过不同摄像机拍摄的图像识别同一人。为了解决这个任务,通常需要大量的标记数据来训练有效的Re-ID模型,这对于真实世界的应用可能不实际。为了减轻这种限制,我们选择利用来自不同(辅助)数据集的足够数量的预先存在的标记数据。通过共同考虑这样的辅助数据集和感兴趣的数据集(但没有标签信息),我们提出的适应和重新识别网络(ARN)执行无监督的域适应,其利用跨数据集的信息并且导出用于Re-ID的域不变特征目的。在我们的实验中,我们验证了我们的网络对最先进的无监督Re-ID方法有良好的表现,甚至胜过了一些需要完全监督数据进行培训的基线Re-ID方法。[1804.09347v1]

 

自动裁剪指纹:潜在指纹分割

Dinh-Luan NguyenKai CaoAnil K. Jain

我们提出了一种简单而有效的自动潜指纹分割方法,称为SegFinNetSegFinNet将潜像作为输入并输出突出显示摩擦脊图案的二进制蒙版。我们的算法将完全卷积神经网络和基于检测的方法结合在一起处理整个输入潜像,而不是使用潜在斑块。在三个不同的潜在数据库(即NIST SD27WVU和一个可操作取证数据库)上的实验结果表明,SegFinNet优于后期的人类标记和最先进的潜在分割算法。我们的潜伏分割算法在Nvidia GTX Ti 108012GB内存机器上平均需要457NIST SD27)和361WVUmsec /潜伏。我们表明,这种改良的耕作反过来,提高潜在指纹匹配器的命中率。[1804.09650v1]

 

电影问题回答:记住分层视觉内容的文本提示

Bo Wang, Youjiang Xu, Yahong Han, Richang Hong

电影为我们提供了大量的视觉内容以及吸引人的故事。现有的方法已经说明,仅通过视觉内容来理解电影故事仍然是一个难题。在本文中,为了回答关于电影的问题,我们提出了分层存储器网络(LMN),它分别由静态字存储器模块和动态字幕存储器模块表示帧级和片段级电影内容。特别是,我们首先从训练电影字幕中提取单词和句子。然后,从LMN中学习的分层次形成的电影表示不仅对帧内的单词和视觉内容之间的对应关系进行编码,而且对影片剪辑内的句子和帧之间的时间对准进行编码。我们还将我们的LMN模型扩展为三个变体框架来说明良好的可扩展功能。我们对MovieQA数据集进行了大量实验。只有可视内容作为输入,具有帧级表示的LMN获得大的性能改进。当将字幕合并到LMN中以形成剪辑级别表示时,我们在视频+字幕的在线评估任务中实现了最先进的性能。良好的表现成功地证明了所提出的LMN框架是有效的,并且分层次形成的电影表示对于电影问题回答的应用具有很好的潜力。[1804.09412v1] 具有帧级表示的LMN获得大的性能改进。当将字幕合并到LMN中以形成剪辑级别表示时,我们在视频+字幕的在线评估任务中实现了最先进的性能。良好的表现成功地证明了所提出的LMN框架是有效的,并且分层次形成的电影表示对于电影问题回答的应用具有很好的潜力。[1804.09412v1] 具有帧级表示的LMN获得大的性能改进。当将字幕合并到LMN中以形成剪辑级别表示时,我们在视频+字幕的在线评估任务中实现了最先进的性能。良好的表现成功地证明了所提出的LMN框架是有效的,并且分层次形成的电影表示对于电影问题回答的应用具有很好的潜力。[1804.09412v1] 良好的表现成功地证明了所提出的LMN框架是有效的,并且分层次形成的电影表示对于电影问题回答的应用具有很好的潜力。[1804.09412v1] 良好的表现成功地证明了所提出的LMN框架是有效的,并且分层次形成的电影表示对于电影问题回答的应用具有很好的潜力。[1804.09412v1]

 

3D-PhysNet:学习非刚性物体变形的直观物理

王志华,Stefano RosaBo Yang,王森,Niki TrigoniAndrew Markham

交互和理解环境的能力是从机器人到增强现实的广泛应用的基本先决条件。特别是,预测可变形物体如何实时对施加的力作出反应是一项重大挑战。这进一步混淆了这样的事实,即关于在真实世界中遇到的物体的形状信息常常受到遮挡,噪声和缺失区域的影响,例如操纵物体的机器人将只能观察整个固体的局部视图。在这项工作中,我们提出了一个框架,3D-PhysNet,它能够预测三维固体如何在使用直观的物理建模的应用力下变形。特别是,我们提出了一种新的方法来编码材料的物理性质和应用力,可以推广材料。关键是将深度变分自动编码器与对抗训练结合起来,以施加的力和材料属性为条件。我们进一步提出了一个级联体系结构,该体系结构采用对象的单个2.5D深度视图并预测其变形。训练数据由物理模 拟器提供。该网络速度足够快,可用于部分视图的实时应用程序。实验结果表明了所提出的体系结构的可行性和泛化性质。[1805.00328v1] 训练数据由物理模 拟器提供。该网络速度足够快,可用于部分视图的实时应用程序。实验结果表明了所提出的体系结构的可行性和泛化性质。[1805.00328v1] 训练数据由物理模 拟器提供。该网络速度足够快,可用于部分视图的实时应用程序。实验结果表明了所提出的体系结构的可行性和泛化性质。[1805.00328v1]

 

用于弱监督对象检测的锯齿形学习

Xiaopeng Zhang, Jiashi Feng, Hongkai Xiong, Qi Tian

本文针对训练阶段只有图像级监督的弱监督目标检测。以前的方法一次训练整个图像的检测模型,由于引入了假阳性例子,模型容易陷入次优。与他们不同,我们提出了一个曲折的学习策略,以同时发现可靠的对象实例并防止模型过度填充初始种子。为了实现这一目标,我们首先制定了一个名为平均能量积累分数(mEAS)的标准,用于自动测量和排序包含目标物体的图像的定位难度,并相应地通过增加难度来提供示例来逐步了解检测器。通过这种方式,该模型可以通过训练简单的示例以从更困难的示例中学习并且因此更有效地获得更强的检测能力而准备好。此外,我们在高级卷积特征映射上引入了一种新的掩蔽正则化策略,以避免过度拟合初始样本。这两个模块制定了一个曲折的学习过程,逐步学习尝试发现可靠的对象实例,掩蔽正则化增加了正确查找对象实例的难度。我们在PASCAL VOC 2007中实现了47.6%的mAP,大幅超越了艺术级。[1804.09466v1] 这两个模块制定了一个曲折的学习过程,逐步学习尝试发现可靠的对象实例,掩蔽正则化增加了正确查找对象实例的难度。我们在PASCAL VOC 2007中实现了47.6%的mAP,大幅超越了艺术级。[1804.09466v1] 这两个模块制定了一个曲折的学习过程,逐步学习尝试发现可靠的对象实例,掩蔽正则化增加了正确查找对象实例的难度。我们在PASCAL VOC 2007中实现了47.6%的mAP,大幅超越了艺术级。[1804.09466v1]

 

反折射相机中消失点和曲线的解析建模

Pedro MiraldoFrancisco EirasSrikumar Ramalingam

消失点和消失线是透视相机中经典的几何概念,具有可追溯至3个世纪的血统。消失点是像平面上的一个点,三维空间中的平行线似乎会聚合,而消失的线穿过两个或更多的消失点。尽管这些概念在透视相机中是简单直观的,但它们在反射折射相机中的相应部分(使用反射镜和透镜获得)更多地涉及。例如,3D空间中的线可以映射到折反射相机中更高程度的曲线。一组三维平行线的投影在透视图像中汇聚到一个点上,而在折反射相机中汇聚到一个以上点。据我们所知,我们并没有意识到任何系统的分析模型的发展,以消除不同类型的反射折射相机中的消失点和消失曲线。在本文中,我们使用校准参数,镜像形状系数和3D空间中平行线的方向矢量推导出消失点和消失曲线的参数方程。我们在广泛的反射折射相机的模拟和真实实验中,展示了消失点估计和绝对位姿估计的令人信服的实验结果。[1804.09460v1] 我们在广泛的反射折射相机的模拟和真实实验中,展示了消失点估计和绝对位姿估计的令人信服的实验结果。[1804.09460v1] 我们在广泛的反射折射相机的模拟和真实实验中,展示了消失点估计和绝对位姿估计的令人信服的实验结果。[1804.09460v1]

 

通过潜在2.5D热图回归估计手势

Umar IqbalPavlo MolchanovThomas BreuelJuergen GallJan Kautz

估计手的三维姿态是人机交互的重要部分。随着近期计算机视觉的进步,使用深度或多视角传感器估计3D姿态变得更加容易,然而,从单个RGB图像回归姿态不那么简单。主要困难来自3D姿态需要某种形式的深度估计,这只是给出了一个RGB图像模糊。在本文中,我们提出了一种通过新颖的2.5D姿态表示从单眼图像进行3D手姿态估计的新方法。我们的新的表示估计构成了一个缩放因子,如果给定手的大小之前,可以额外估计这个因子。我们用新颖的CNN 系结构隐式学习深度图和热图分布。我们的系统能够在存在严重遮挡的情况下,在几个具有挑战性的数据集上实现最先进的2D3D手姿态估计。[1804.09534v1]

 

动态的少量视觉学习而不忘记

Spyros GidarisNikos Komodakis

只有少数几个例子,人类视觉系统才能够毫不费力地学习新颖的概念。在机器学习视觉系统中模仿相同的行为是一个有趣且非常具有挑战性的研究问题,在真实世界视觉应用中具有许多实际优势。在这种情况下,我们工作的目标是设计一个几秒钟的视觉学习系统,在测试期间,它将能够从少量训练数据中有效地学习新类别,同时它不会忘记初始类别经过培训(这里称为基本类别)。为了实现这个目标,我们提出:(a)用基于注意力的少数分类权重生成器来扩展对象识别系统,和(b)重新设计ConvNet模型的分类器作为特征表示和分类权重向量之间的余弦相似度函数。后者除了统一对新颖类别和基本类别的认识之外,还导致更好地概括看不见类别的特征表示。我们广泛评估了我们在Mini-ImageNet上的方法,我们设法改进了先前的少镜头识别技术(即分别在1镜头和5镜头设置下分别达到56.20%和73.00%),同时我们不会牺牲基本类别的任何准确性,这是大多数先前方法缺乏的特征。最后,我们将我们的方法应用于最近推出的BharathGirshick的少数基准[4],我们也获得了最先进的结果。

 

基于多帧光流跟踪器的卫星视频中的目标跟踪

Bo Du, Shihan Cai, Chen Wu, Liangpei Zhang, Dacheng Tao

对象跟踪是计算机视觉领域的热门话题。由于高分辨率(VHR)遥感技术的蓬勃发展,现在有可能跟踪卫星视频中的感兴趣目标。然而,由于卫星视频中的目标通常与整个图像相比太小,并且与背景太相似,因此大多数最先进的算法未能以令人满意的精度跟踪卫星视频中的目标。由于光流显示检测目标轻微移动的巨大潜力,我们提出了一种用于卫星视频中目标跟踪的多帧光流跟踪器(MOFT)。Lucas-Kanade光流法与HSV彩色系统和积分图像融合,跟踪卫星视频中的目标,而光学流量跟踪器则采用了多帧差分方法来更好地解释。三个VHR遥感卫星视频数据集的实验表明,与最先进的目标跟踪算法相比,所提出的方法可以更准确地跟踪目标。[1804.09323v1]

 

RIFT:基于辐射不变特征变换的多模态图像匹配

Jiayuan Li, Qingwu Hu, Mingyao Ai

传统的尺度不变特征变换(SIFT)等特征匹配方法通常使用图像强度或梯度信息来检测和描述特征点,然而,强度和梯度都对非线性辐射失真(NRD)敏感。为了解决这个问题,本文提出了一种对大型NRD具有鲁棒性的新型特征匹配算法。该方法被称为辐射不变特征变换(RIFT)。在RIFT中有三个主要贡献:首先,RIFT使用相位一致性(PC)代替图像强度来进行特征点检测。RIFT考虑特征点的数量和可重复性,并检测PC地图上的角点和边缘点。其次,RIFT最初为特征描述提出了最大索引图(MIM)。MIM是由log-Gabor卷积序列构成的,对于NRD比传统的梯度图更加鲁棒。因此,RIFT不仅在很大程度上提高了特征检测的稳定性,而且克服了特征描述中梯度信息的局限性。第三,RIFT分析旋转对MIM值的固有影响,实现旋转不变性。我们使用六种不同类型的多模式图像数据集来评估RIFT,包括光学,红外光学,合成孔径雷达(SAR光学,深度光学,地图光学和日夜数据集。实验结果表明,RIFT优于SIFTSAR-SIFT。就我们所知,RIFT是第一个可以在所有上述类型的多模型图像上实现良好性能的特征匹配算法。RIFT和多模态遥感影像数据集的源代码已公开。[1804.09493v1]

 

弱共焦激光内窥镜下的基于学习的弱特征定位胶质瘤图像

Mohammadhassan Izadyyazdanabadi,叶甫Belykh,克劳迪奥卡瓦略,小春赵丝琳甘地,莱昂德罗博尔巴莫雷拉,詹妮弗Eschbacher,彼得中路,马克C. PreulYezhou

共聚焦激光内窥镜(CLE)是一种新型的手持式荧光成像设备,它显示了对脑肿瘤组织的快速术中诊断的承诺。目前CLE仅能够显示图像,并且缺少自动系统来帮助外科医生分析图像。该项目的目标是开发一种具有特征定位功能的人脑胶质瘤CLE成像的计算机辅助诊断方法。尽管近年来在物体检测和图像分割方法方面取得了巨大进步,但大多数此类方法需要用于训练的大量注释数据集。然而,由医生手动标注数千个组织病理图像是昂贵和耗时的。为了克服这个问题,我们提出了一种基于弱监督学习(WSL)的特征定位模型,该模型训练图像级注释,然后定位测试图像中感兴趣类别的发生率。我们开发了一种新颖的卷积神经网络,用于从CLE图像诊断特征定位,通过采用侧向抑制和并行整合的新型多尺度激活图。为了验证我们的方法,我们将提出的模型的输出与由四个神经外科医生在测试图像上执行的手动注释进行比较。建议的模型实现了88%的平均准确度和86%的中间特征的交叉点平均交叉点和87%的平均精确度和88%的交叉口平均交叉口限制性细节特征的联合,同时优于其他测试方法。该系统可以提高手术中胶质瘤组织CLE图像表征的准确性和有效性,增加肿瘤边缘的术中决策过程并影响切除率。[1804.09428v1]

 

可学习直方图:深度神经网络的统计上下文特征

Zhe Wang, Hongsheng Li, Wanli Ouyang, Xiaogang Wang

统计特征如直方图,Bag-of-WordsBoW)和费希尔矢量常用于传统分类方法中的手工特征,但由于深度学习方法的普及,其吸引力较小。在本文中,我们提出了一个可学习的直方图层,它可以在端到端训练中学习深度神经网络中的直方图特征。这样的层能够反向传播(BP)误差,学习最优的仓中心和仓宽,并且在训练期间与深层网络中的其他层一起被优化。通过将可学习直方图层集成到深度网络中,探索了两个视觉问题,语义分割和对象检测,表明所提出的层可以很好地推广到不同的应用。进行深入调查以提供关于新引入层的见解。[1804.09398v1]

 

学习判别特征网络进行语义分割

Changqian Yu, Jingbo Wang, Chao Peng, Changxin Gao, Gang Yu, Nong Sang

大多数现有的语义分割方法仍然面临挑战的两个方面:类内不一致和类内不明显。为了解决这两个问题,我们提出了一个判别特征网络(DFN),它包含两个子网络:平滑网络和边界网络。具体来说,为处理类内不一致问题,我们特别设计了一个包含频道注意块的平滑网络和全局平均池以选择更具辨别性的特征。此外,我们提出了边界网络,使边界的双边特征与深层语义边界监督相区分。基于我们提出的DFN,我们在PASCAL VOC 2012上获得了86.2%的平均欠IOU,在Cityscapes数据集上获得了80.3%的平均IOU[1804.09337v1]

 

实时人体检测作为轻量级CNN实现的边缘服务

Seyed Yahya Nikouei, Yu Chen, Sejun Song, Ronghua Xu, Baek-Young Choi, Timothy R. Faughnan

边缘计算允许更多计算任务在网络边缘的分布式节点上发生。今天,许多对延迟敏感的任务关键型应用程序可以利用这些边缘设备来缩短时间延迟,甚至可以通过现场存在实现实时的在线决策。智能监控中的人体检测,行为识别和预测属于这一类别,在这种情况下,大量视频流数据的转换会花费宝贵的时间,并给通信网络带来沉重的压力。人们普遍认为,视频处理和对象检测是计算密集型且太昂贵而无法由资源有限的边缘设备来处理。受深度可分离卷积和Single Shot Multi-Box DetectorSSD)的启发,本文介绍了一种轻量级的卷积神经网络(LCNN)。通过缩小分类器的搜索空间以专注于监控视频帧中的人体对象,所提出的LCNN算法能够以对于边缘设备的负担得起的计算工作量来检测行人。原型已经在使用openCV库的边缘节点(Raspberry PI 3)上实现,使用真实世界的监控视频流可以获得令人满意的性能。实验研究验证了LCNN的设计,并表明它是在边缘计算密集型应用的有前景的方法。[1805.00330v1] 所提出的LCNN算法能够以对于边缘设备的负担得起的计算工作量来检测行人。原型已经在使用openCV库的边缘节点(Raspberry PI 3)上实现,使用真实世界的监控视频流可以获得令人满意的性能。实验研究验证了LCNN的设计,并表明它是在边缘计算密集型应用的有前景的方法。[1805.00330v1] 所提出的LCNN算法能够以对于边缘设备的负担得起的计算工作量来检测行人。原型已经在使用openCV库的边缘节点(Raspberry PI 3)上实现,使用真实世界的监控视频流可以获得令人满意的性能。实验研究验证了LCNN的设计,并表明它是在边缘计算密集型应用的有前景的方法。[1805.00330v1]

 

细粒度的视频分类和标题

Farzaneh MahdisoltaniGuillaume BergerWaseem GharbiehDavid FleetRoland Memisevic

我们描述了细粒度动作分类和视频字幕的DNN。它在具有挑战性的Something-Something数据集上提供了最先进的性能,拥有超过220,000个视频和174个细致的操作。由于动作之间的微妙差异,成千上万种不同物体的使用以及人群演员所写的字幕的多样性,因此对该数据集进行分类和标题具有挑战性。该模型体系结构共享分类和字幕功能,并进行端对端培训。它比现有的Something-Something分类基准表现要好得多,并具有令人印象深刻的细致结果,并且它为新的Something-Something字幕任务产生了强大的基准。我们的研究结果表明,任务中的细节程度与学习功能转移到其他任务的能力之间有很强的相关性。[1804.09235v1]

 

基于神经形态事件传感器的稀疏编码多尺度精确定时机器学习算法

Germain HaessigRyad Benosman

本文介绍了一种无监督的紧凑型体系结构,该体系结构可以从基于神经形态异步事件的相机的时间输出中提取特征并对动态场景的内容进行分类。基于事件的摄像机是无时钟传感器,其中每个像素异步报告以微秒精度编码的强度变化。虽然这项技术正受到更多的关注,但它们的时间特性还缺乏方法和理解。本文介绍了一种基于时间的面向事件的无监督机器学习算法,该算法基于称为时间曲面的时间描述符层次概念。在这项工作中,我们表明使用稀疏编码可以实现非常紧凑且高效的基于时间的机器学习,从而降低计算成本和内存需求。我们表明,我们可以用一组有限的基本时间曲面表示视觉场景时间动态,同时通过使用聚类技术存储最具代表性的时间曲面,从而提供与未压缩版本类似的识别率。实验将说明实施在线连续学习与脱机学习方法时要考虑的主要优化和折衷。我们报告的结果与先前发布的36类字符识别任务和4类标准动态卡片点子任务相同,每个任务都达到100%的准确性。[1804.09236v1] 实验将说明实施在线连续学习与脱机学习方法时要考虑的主要优化和折衷。我们报告的结果与先前发布的36类字符识别任务和4类标准动态卡片点子任务相同,每个任务都达到100%的准确性。[1804.09236v1] 实验将说明实施在线连续学习与脱机学习方法时要考虑的主要优化和折衷。我们报告的结果与先前发布的36类字符识别任务和4类标准动态卡片点子任务相同,每个任务都达到100%的准确性。[1804.09236v1]

 

作为边缘网络服务的智能监控:从Harr-CascadeSVM到轻量级CNN

Seyed Yahya Nikouei, Yu Chen, Sejun Song, Ronghua Xu, Baek-Young Choi, Timothy R. Faughnan

边缘计算有效地将信息技术的领域拓展到云计算范例所定义的边界之外。在源和目标附近执行计算,边缘计算有望解决许多延迟敏感应用中的挑战,例如实时监视。利用无处不在的相机和智能移动设备,它可以在边缘进行视频分析。然而,传统的人体对象检测和跟踪方法对于边缘设备而言仍然在计算上过于昂贵。针对智能监控作为边缘网络服务,本研究探索了两种流行的人体对象检测方案Harr CascadeSVM在边缘的可行性。了解算法的现有限制,提出了一种使用深度可分卷积的轻量级卷积神经网络(LCNN)。所提出的LCNN在不影响输出质量的情况下大大减少了参数的数量,因此非常适合边缘设备的使用。通过使用单发多框检测器(SSD)进行训练以查明每个人体对象位置,它可以协调围绕对象的边界框。我们在使用Raspberry PI 3的边缘设备上实施并测试了LCNN。强化实验比较研究验证了所提出的LCNN作为边缘服务的实时人体对象检测的可行设计。[1805.00331v1] 通过使用单发多框检测器(SSD)进行训练以查明每个人体对象位置,它可以协调围绕对象的边界框。我们在使用Raspberry PI 3的边缘设备上实施并测试了LCNN。强化实验比较研究验证了所提出的LCNN作为边缘服务的实时人体对象检测的可行设计。[1805.00331v1] 通过使用单发多框检测器(SSD)进行训练以查明每个人体对象位置,它可以协调围绕对象的边界框。我们在使用Raspberry PI 3的边缘设备上实施并测试了LCNN。强化实验比较研究验证了所提出的LCNN作为边缘服务的实时人体对象检测的可行设计。[1805.00331v1]

 

超越叙事描述:通过多对抗训练从图像中产生诗歌

贝刘,傅建龙,Makoto P. Kato,吉川雅敏

从图像自动生成自然语言引起了广泛的关注。在本文中,我们更进一步研究诗歌语言的生成(多行)到自动诗歌创作的图像。这项任务涉及多重挑战,包括从图像中发现诗意线索(例如,从绿色中望出),以及生成诗歌以满足语言层面与形象和诗意的相关性。为了解决上述问题,我们通过策略梯度将诗歌生成任务通过多对抗训练形成两个相关的子任务,从而保证跨语言相关性和诗歌语言风格。为了从图像中提取诗意的线索,我们建议学习深度耦合的视觉诗意嵌入,其中来自对象的诗意表达,情绪和图像中的场景可以共同学习。进一步引入两个区别网络来指导诗歌的生成,包括多模式鉴别器和诗式鉴别器。为了便于研究,我们收集了两个具有两个不同属性的人类注释器的诗集数据集:1)第一个人注释的图像诗集对数据集(共8,292对); 2)迄今为止最大的公共英语诗集数据集(总共92,265首不同的诗)。用我们的模型生成的8K图像进行了大量的实验,其中1.5K图像被随机挑选用于评估。客观评价和主观评价都表明,与从图像中产生诗歌的最新方法相比,它们的优越表现。超过500人受试者进行图灵测试,其中30位评估人员是诗歌专家,展示了我们方法的有效性。[1804.08473v2]

 

使用双卷积神经网络的大规模自动正面和侧面胸部X射线阅读

Jonathan RubinDeepan SanghaviClaire ZhaoKathy LeeQadir AshequlMinnan Xu-Wilson

MIMIC-CXR数据集是(迄今为止)最大的已发布的胸部X射线数据集,包括473,064名胸部X射线和从63,478名患者收集的206,574名放射学报告。我们提供训练的结果和评估这个数据集上的深度卷积神经网络的集合,以识别多种常见的胸部疾病。就我们所知,这是第一个在这么大量的胸部X射线图像上训练CNN来完成这项任务的工作,这是以前发布的最大的胸部X射线语料库的大小的四倍以上(ChestX- Ray14)。我们描述和评估在正面和侧面CXR视图类型上训练的单个CNN模型。此外,我们提出了一种新颖的DualNet架构,它通过同时处理从放射检查获得的正面和侧面CXR图像来模拟常规临床实践。与应用单独的基线正面和侧面分类器相比,我们的DualNet架构在识别CXR图像中的发现方面表现出改进的性能。[1804.07839v2]

 

少量学习中的语义特征增强

Zitian Chen, Yanwei Fu, Yinda Zhang, Yu-Gang Jiang, Xiangyang Xue, Leonid Sigal

少数学习的一个根本问题是培训中数据的稀缺性。缓解这种稀缺性的一个自然办法是增加每个培训班的现有图像。然而,直接增加图像空间中的样本可能不一定,也不足以探究课堂内的变化。为此,我们建议通过利用每个类的语义直接综合实例特征。本质上,提出了一种新的自动编码器网络双TriNet,用于特征增强。编码器TriNet将深层CNN的多层视觉特征投影到语义空间中。在这个空间中,数据增强被诱导,并且增强实例表示由解码器TriNet投影回到图像特征空间中。探讨语义空间中的两种数据论证策略特别是这些在语义空间中看似简单的增强导致图像特征空间中复杂的增强特征分布,从而导致更好的性能。我们论文的代码和模型将发布在:https//github.com/tankche1/Semantic-Feature-Augmentation-in-Few-shot-Learning[1804.05298v2]

 

带隐式概念关联的跨模态检索

耶鲁歌曲,穆罕默德Soleymani

传统的跨模式检索假设各种形式的概念之间存在明确的关联,这些概念之间如何相互联系并不明确,例如,当我们用查询进行图像搜索时,我们期望看到狗图像。在本文中,我们考虑跨模态检索的不同设置,其中来自不同模态的数据通过必须由高层推理推断的概念隐式链接我们把这个设置称为隐式概念关联。为了促进未来的研究,我们提供了一个新的数据集,其中包含47K对动画GIF和从网络爬取的句子,其中GIF描述了对文本中描述的情景的物理或情绪反应(称为反应GIF”)。我们报告用户研究表明,尽管存在隐式概念关联,但人类能够识别具有匹配概念的视频句子对,从而表明我们任务的可行性。此外,我们提出了一种基于多实例学习的视觉语义嵌入网络。与传统方法不同,我们计算每个模态的多个嵌入,每个嵌入表示不同的概念,并通过在多实例学习框架中考虑视觉语义嵌入的所有可能组合来测量它们的相似度。我们评估我们的方法在两个视频句子数据集与明确和隐含的概念关联和报告竞争结果相比,现有的方法在跨模式检索。[1804.04318v2] 暗示我们任务的可行性。此外,我们提出了一种基于多实例学习的视觉语义嵌入网络。与传统方法不同,我们计算每个模态的多个嵌入,每个嵌入表示不同的概念,并通过在多实例学习框架中考虑视觉语义嵌入的所有可能组合来测量它们的相似度。我们评估我们的方法在两个视频句子数据集与明确和隐含的概念关联和报告竞争结果相比,现有的方法在跨模式检索。[1804.04318v2] 暗示我们任务的可行性。此外,我们提出了一种基于多实例学习的视觉语义嵌入网络。与传统方法不同,我们计算每个模态的多个嵌入,每个嵌入表示不同的概念,并通过在多实例学习框架中考虑视觉语义嵌入的所有可能组合来测量它们的相似度。我们评估我们的方法在两个视频句子数据集与明确和隐含的概念关联和报告竞争结果相比,现有的方法在跨模式检索。[1804.04318v2] 每个代表不同的概念,并通过在多实例学习框架中考虑视觉语义嵌入的所有可能组合来测量它们的相似性。我们评估我们的方法在两个视频句子数据集与明确和隐含的概念关联和报告竞争结果相比,现有的方法在跨模式检索。[1804.04318v2] 每个代表不同的概念,并通过在多实例学习框架中考虑视觉语义嵌入的所有可能组合来测量它们的相似性。我们评估我们的方法在两个视频句子数据集与明确和隐含的概念关联和报告竞争结果相比,现有的方法在跨模式检索。[1804.04318v2]

 

DeepIM:深度迭代匹配6D姿态估计

Yi Li, Gu Wang, Xiangyang Ji, Yu Xiang, Dieter Fox

根据图像估计物体的6D姿态是诸如机器人操纵和虚拟现实的各种应用中的重要问题。虽然图像直接回归到物体姿态的准确性有限,但是将物体的渲染图像与观察图像进行匹配可以产生精确的结果。在这项工作中,我们提出了一个新的深度神经网络6D姿态匹配命名为DeepIM。给定初始姿态估计,我们的网络能够通过将渲染图像与观察图像进行匹配来迭代地改进姿态。训练网络以预测使用3D位置和3D定向的解开表示和迭代训练过程的相对姿态变换。两个常用的6D姿态估计基准的实验表明,DeepIM实现了对最先进方法的巨大改进。我们还表明DeepIM能够匹配以前看不见的对象。[1804.00175v2]

 

TOMAAT:作为云服务的体积医学图像分析

Fausto MilletariJohann FreiSeyed-Ahmad Ahmadi

深度学习最近被应用于众多的计算机视觉和医学图像分析问题。尽管最近的研究工作已经改进了现有技术,但大多数方法不能被研究人员或普通大众轻易获取,比较或使用。研究人员经常在互联网上发布他们的代码和训练模型,但这并不总能使这些方法易于使用或集成到独立应用程序和现有工作流程中。在本文中,我们提出了一个框架,该框架允许通过基于云的架构轻松部署和访问深度学习方法进行细分。我们的方法包括三个部分:一个服务器,包含经过训练的深度学习模型及其处理前和处理后的数据管道,并使其可在云上使用与服务器接口以获得关于用户数据的预测的客户端一个服务注册表,通知客户有关云中可用的可用预测端点。这三部分构成了开源TOMAAT框架。[1803.06784v2]

 

基于卷积神经网络的驾驶员注视区域估计:一般框架和烧蚀分析

Sourabh VoraAkshay RangeshMohan M. Trivedi

驾驶者注视已被证明是智能车辆中驾驶员注意力的极佳替代品。随着近期高度自动驾驶汽车的涌现,驾驶员注视对于确定人类驾驶员的切换时间可能非常有用。尽管个性化驾驶员注视区域估计系统已经有了显着改善,但对于不同主题,视角和尺度不变的广义系统仍然缺乏。我们朝着这个使用卷积神经网络(CNN)的广义系统迈出了一步。我们为这项任务调整了4种流行的CNN架构,并对其输出进行了广泛的比较。我们另外尝试不同的输入图像补丁,并检查图像大小如何影响性能。为了培训和测试网络,我们收集了由11辆长驱动器组成的大型自然驾驶数据集,由两辆不同汽车中的10名驾驶员驾驶。我们的表现最佳的模型在跨学科测试中的准确率达到了95.18%,超越了目前这项任务的最新技术水平。最后,我们评估了公开发布的哥伦比亚凝视数据集上的最佳表演模型,该数据集包括来自56名具有不同头部姿势和凝视方向的受试者的图像。在没有任何训练的情况下,我们的模型能够成功地在不同的数据集上编码不同的注视方向,展现出良好的泛化能力。[1802.02690v2] 我们在公开发布的哥伦比亚凝视数据集上评估我们的最佳表现模型,该数据集由来自56个具有不同头部姿势和凝视方向的受试者的图像组成。在没有任何训练的情况下,我们的模型能够成功地在不同的数据集上编码不同的注视方向,展现出良好的泛化能力。[1802.02690v2] 我们在公开发布的哥伦比亚凝视数据集上评估我们的最佳表现模型,该数据集由来自56个具有不同头部姿势和凝视方向的受试者的图像组成。在没有任何训练的情况下,我们的模型能够成功地在不同的数据集上编码不同的注视方向,展现出良好的泛化能力。[1802.02690v2]

 

姿态规范化图像生成人重新识别

Xuelin Qian, Yanwei Fu, Tao Xiang, Wenxuan Wang, Jie Qiu, Yang Wu, Yu-Gang Jiang, Xiangyang Xue

人员重新识别(re-id)面临两大挑战:缺少交叉视角配对训练数据,以及在大姿态变化的情况下学习歧视性身份敏感和视图不变特征。在这项工作中,我们通过提出一种新颖的深度人物图像生成模型来解决这两个问题,以合成以姿势为条件的真实人物图像。该模型基于专门针对re-id中的姿态归一化而设计的生成对抗网络(GAN),因此被称为姿态归一化GANPN-GAN)。通过合成图像,我们可以学习一种没有姿态变化影响的新型深度重新识别特征。我们证明,这个特征本身很强大,并且与原始图像学习的特征相辅相成。重要的是,在转移学习设置下,我们证明我们的模型很好地适用于任何新的数据集,而无需收集模型微调的任何训练数据。因此,该模型有可能使re-id模型真正具有可扩展性。[1712.02225v6]

 

XGAN:无监督的多对多映射的图像到图像转换

AmélieRoyerKonstantinos BousmalisStephan GouwsFred BertschInbar MosseriForrester ColeKevin Murphy

样式转换通常指的是将颜色和纹理信息从特定样式图像应用到给定内容图像的任务,同时保留后者的结构。在这里,我们处理更通用的语义风格转移问题:给定两个不成对的图像集合,我们旨在学习每个集合的语料库级风格之间的映射,同时保留跨两个域共享的语义内容。我们引入了XGAN“Cross-GAN”),一种双向对抗自动编码器,它以无监督的方式捕获共同领域语义内容的共享表示,同时在两个方向联合学习领域到领域的图像翻译。我们利用领域适应文献中的想法,定义语义一致性损失,鼓励模型在学习的嵌入空间中保留语义。我们报告面向卡通翻译任务的有希望的定性结果。我们为此目的收集的卡通数据集正在作为语义风格转移的新基准发布。[1711.05139v5]

 

基于RGB-D的人体运动识别与深度学习:一项调查

Pichao Wang, Wanqing Li, Philip Ogunbona, Jun Wan, Sergio Escalera

人体运动识别是以人为中心的研究活动中最重要的分支之一。近年来,基于RGB-D数据的运动识别引起了越来越多的关注。随着人工智能的发展,深度学习技术在计算机视觉领域取得了显着的成功。特别是,卷积神经网络(CNN)在基于图像的任务中取得了巨大的成功,递归神经网络(RNN)以基于序列的问题而闻名。具体而言,基于CNNRNN架构的深度学习方法已经被采用,用于使用RGB-D数据的运动识别。在本文中,将详细介绍基于RGB-D的运动识别的最新进展。审查方法大致分为四类,具体取决于所承认的方式:基于RGB的,基于深度的,基于骨架的和基于RGB + D的。作为一项关于将深度学习应用于基于RGB-D的运动识别的调查,我们明确地讨论了现有技术的优点和局限性。特别是,我们强调了编码视频序列中固有的空间时间结构信息的方法,并讨论了未来研究的潜在方向。[1711.08362v2]

 

MR指纹深度记录指纹网络(DRONE

Ouri CohenBo ZhuMatthew S. Rosen

目的:利用深度学习方法演示一种用于重建多维MR指纹(MRF)数据的快速新方法。方法:使用TensorFlow框架定义神经网络(NN),并对使用Bloch方程计算的模拟MRF数据进行训练。噪声数据的NN重建的准确性与常规MRF模板匹配作为训练数据大小的函数进行比较,并且在模拟数字脑模型数据和来自ISMRM / NIST模型的采集数据中进行量化。结果:网络训练需要10分钟,一旦训练完毕,数据重建需要大约10 ms。使用NN重建模拟脑数据导致T17的均方根误差(RMSE)为3.5msT28 ms。训练稀疏词典的NNRMSET1相比大约低6倍,T2相比低2倍,比传统的MRF词典产品字典匹配相同的词典。虚拟测量结果显示,在NN和由ISMRM / NIST模型得出的参考值之间,T1T2之间有很好的一致性(R2 = 0.99)。结论:用神经网络重建MRF数据是准确的,比传统的MRF字典匹配快300倍,对噪声和欠采样更加鲁棒。[1710.05267v3] 99)在由NN估计的T1T2之间以及来自ISMRM / NIST体模的参考值之间。结论:用神经网络重建MRF数据是准确的,比传统的MRF字典匹配快300倍,对噪声和欠采样更加鲁棒。[1710.05267v3] 99)在由NN估计的T1T2之间以及来自ISMRM / NIST体模的参考值之间。结论:用神经网络重建MRF数据是准确的,比传统的MRF字典匹配快300倍,对噪声和欠采样更加鲁棒。[1710.05267v3]

 

GP-GAN:性别保持GAN,用于从地标合成脸部

Xing DiVishwanath A. SindagiVishal M. Patel

面部标志构成面部的最压缩表示,并被称为保存面部中存在的姿势,性别和面部结构等信息。存在几种尝试基于地标来执行高级面部相关分析任务的作品。相反,在这项工作中,试图解决从他们各自的地标合成面部的逆问题。这项工作的主要目的是证明通过利用生成模型合成相应的面孔,可以进一步加强由地标(特别是性别)保存的信息。虽然这个问题由于其不适当的性质而特别具有挑战性,我们相信,成功的综合将能够实现多种应用,例如使用界标点提升高级别人脸相关任务的性能并执行数据集增强。为此,提出了一种面向对抗性损失,感知损失和性别维护损失的新型面部综合方法性别保持生成对抗网络(GP-GAN)。此外,我们为GP-GAN提出了一种新型的发电机子网UDeNet,它利用了U-NetDenseNet架构的优势。为了验证所提出的方法的有效性,进行了大量实验并与最近的方法进行比较。[1710.00962v2] 介绍感知损失和性别维护损失。此外,我们为GP-GAN提出了一种新型的发电机子网UDeNet,它利用了U-NetDenseNet架构的优势。为了验证所提出的方法的有效性,进行了大量实验并与最近的方法进行比较。[1710.00962v2] 介绍感知损失和性别维护损失。此外,我们为GP-GAN提出了一种新型的发电机子网UDeNet,它利用了U-NetDenseNet架构的优势。为了验证所提出的方法的有效性,进行了大量实验并与最近的方法进行比较。[1710.00962v2]

 

Prototypical Priors:从改进分类到零射击学习

Saumya JetleyBernardino Romera-ParedesSadeep JayasumanaPhilip Torr

最近关于零点学习的研究利用视觉属性或自然语言语义等边信息来定义输出视觉类之间的关系,然后使用这些关系在测试时间对新的看不见的类进行推理。在这个想法的一个新颖的扩展中,我们提出使用视觉原型概念作为辅助信息。对于大多数真实世界的可视对象类别,可能难以建立独特的原型。但是,在诸如交通标志,品牌徽标,标志甚至自然语言字符的情况下,这些原型模板都可用,并可用于提高识别性能。目前的工作提出了一种将这种原型信息纳入深度学习框架的方法。使用原型作为先前的信息,深网管道将输入图像投影学习到最小化最终分类损失的原型嵌入空间中。基于我们对交通标志和品牌标志的两个不同数据集的实验,将常规卷积神经网络中包含的原型嵌入提高了识别性能。Belga徽标数据集的识别准确性尤其值得关注,并建立了一个新的最新技术。在零点学习场景中,只需在测试时添加这些新类的原型信息,就可以直接部署相同的系统来对未知类进行推理。因此,与早期的方法不同,对可见和不可见类的测试使用相同的流水线进行处理,并且系统可以根据任务要求进行调整以平衡看到和看不见的班级表现。与零点学习领域的最新作品之一进行比较,可以得出上述两个数据集的最佳结果。[1512.01192v2]

转载请注明:《少量样本机器学习中的语义特征增强+RIFT:基于辐射不变特征变换的多模态图像匹配

发表评论