用于B型主动脉夹层分割的多任务深度卷积神经网络+Syn2Real:合成到真实视觉域适应的新基准

SuperPCA:超像素PCA方法用于高光谱图像的无监督特征提取

Junjun Jiang, Jiayi Ma, Chen Chen, Zhongyuan Wang, Zhihua Cai, Lizhe Wang

作为一种无监督降维方法,主成分分析(PCA)已被广泛认为是高光谱图像(HSI)处理和分析任务的高效和有效的预处理步骤。它将每个乐队作为一个整体,并在全局范围内提取最具代表性的乐队。然而,不同的同质区域对应于不同的物体,其光谱特征是多样的。通过对整个恒指进行统一预测来降低维度显然是不合适的。在本文中,提出了一种简单但非常有效的超像素PCA方法SuperPCA,用于了解HSI的内在低维特征。与传统的PCA模型相反,SuperPCA有四个主要特性。(1)与基于整幅图像的传统PCA方法不同,SuperPCA考虑了不同同质区域的多样性,即不同地区应该有不同的预测。(2)大多数传统特征提取模型不能直接使用HSI的空间信息,而SuperPCA能够将空间上下文信息纳入超像素分割的无监督降维。(3)由于超像素分割得到的区域具有均匀性,SuperPCA即使在噪声下也可以提取潜在的低维特征。(4)虽然SuperPCA是一种无监督方法,但与监督方法相比,它可以获得有竞争力的表现。由此产生的特性具有区分性,紧凑性和抗噪声性,从而提高了HSI分类性能。三个公共数据集上的实验表明,SuperPCA模型显着优于常规基于PCAHSI分类降维基线。Matlab源代码可在https://github.com/junjun-jiang/SuperPCA上找到。[1806.09807v1]

 

具有可学习知识约束的深度生成模型

Zhiting Hu, Zichao Yang, Ruslan Salakhutdinov, Xiaodan Liang, Lianhui Qin, Haoye Dong, Eric Xing

广泛的深层生成模式(DGM)取得了显着的进步。但是,将丰富的结构化领域知识与端到端DGM结合起来往往很困难。后向正则化(PR)提供了一个原则性的框架来对概率模型施加结构化的约束,但是对于可能缺乏贝叶斯公式或甚至是显式密度评估的各种DGMs的适用性有限。PR还要求约束条件被完全指定,这对于具有可学习的不确定部分的复杂知识来说是不切实际或次优的。在本文中,我们建立了PR与强化学习(RL)之间的数学对应关系,并基于这种关系扩展PR来学习约束作为RL中的外部奖励。由此产生的算法是模型不可知的适用于任何DGMs,并且可以灵活地与模型共同适应任意约束。对人类图像生成和模板化句子生成的实验表明,通过我们的算法,学习知识约束的模型大大改善了基本生成模型。[1806.09764v1]

 

利用分层迁移学习进行交叉活动识别

Yiqiang Chen, Jindong Wang, Meiyu Huang, Han Yu

人类活动识别旨在通过在不同身体部位使用传感器来识别日常生活的活动。但是,如果缺少来自特定身体位置(即目标域)的标记数据,如何利用来自其他位置(即源域)的数据来帮助了解该位置的活动标签?当有多个可用的源域时,通常很难选择与目标域最相似的源域。通过选择的源域,我们需要在域之间进行准确的知识转移。现有方法只能了解域之间的全球距离,而忽略本地属性。在本文中,我们提出了一个分层转移学习STL)框架来执行源域选择和知识转移。STL基于我们提出的\ textit {分层}距离来捕获域的局部属性。STL由两部分组成:分层域选择(STL-SDS)可以选择与目标域最相似的源域分层活动转移(STL-SAT)能够执行准确的知识转移。在三个公共活动识别数据集上的大量实验证明了STL的优越性。此外,我们广泛调查跨域之间不同程度的相似性和活动水平的转移学习的表现。我们还讨论了STL在未来研究中普适计算其他领域的潜在应用。[1806.09776v1] 分层域选择(STL-SDS)可以选择与目标域最相似的源域分层活动转移(STL-SAT)能够执行准确的知识转移。在三个公共活动识别数据集上的大量实验证明了STL的优越性。此外,我们广泛调查跨域之间不同程度的相似性和活动水平的转移学习的表现。我们还讨论了STL在未来研究中普适计算其他领域的潜在应用。[1806.09776v1] 分层域选择(STL-SDS)可以选择与目标域最相似的源域分层活动转移(STL-SAT)能够执行准确的知识转移。在三个公共活动识别数据集上的大量实验证明了STL的优越性。此外,我们广泛调查跨域之间不同程度的相似性和活动水平的转移学习的表现。我们还讨论了STL在未来研究中普适计算其他领域的潜在应用。[1806.09776v1] 我们广泛调查了不同程度的相似性和域间活动水平的转移学习的表现。我们还讨论了STL在未来研究中普适计算其他领域的潜在应用。[1806.09776v1] 我们广泛调查了不同程度的相似性和域间活动水平的转移学习的表现。我们还讨论了STL在未来研究中普适计算其他领域的潜在应用。[1806.09776v1]

 

用密度自适应网络计算人群

Li Wang, Weiyuan Shao, Yao Lu, Hao Ye, Jian Pu, Yingbin Zheng

人群统计是各种监视应用的核心任务之一。实际系统涉及在不同的闪电,相机视角和遮挡状态下估计动态场景中的精确头部数量。先前的方法估计人头数,尽管他们可以在不同的密度设置中显着变化人群往往分布不均,结果令人不满意。在本文中,我们提出了一个轻量级的深度学习框架,可以自动估计人群密度水平,并自适应地选择不同的计数器网络,针对不同密度域进行明确的训练。最近的两个人群统计数据集UCF_CC_50ShanghaiTech的实验表明,所提出的机制相对于最先进的方法实现了有希望的改进。此外,单GPU上的运行速度为20 FPS[1806.10040v1]

 

CFENet:一种用于自主驾驶的精确高效的单发目标检测器

Qijie Zhao, Tao Sheng, Yongtao Wang, Feng Ni, Ling Cai

探测小物体的能力和物体探测器的速度对于自主驾驶的应用非常重要,本文中,我们提出了一种有效而高效的一级探测器,它在道路目标探测竞赛中获得第二名CVPR2018研讨会自动驾驶研讨会(WAD)。所提出的探测器继承了SSD的体系结构,并在其中引入了一种新型的综合功能增强(CFE)模块。该竞争数据集以及MSCOCO数据集上的实验结果表明,所提出的检测器(名为CFENet)比原始SSD和先进方法RefineDet性能更好,尤其是对于小物体,同时保持高效率接近原来的SSD。特别,

 

用自然语言生成反事实说明

丽莎安妮亨德里克斯,胡荣航,特雷弗达雷尔,Zeynep Akata

深层神经网络决策的自然语言解释为AI代理提供了一种直观的方式来阐明推理过程。目前的文本解释学习讨论图像中的类别判别特征。然而,理解哪些属性可能会改变图像中存在的分类决定也是有帮助的(例如,这不是黑猩猩的翅膀,因为它不是黑猩猩)。我们称这种文本解释为反事实解释,并提出一种直观的方法是通过检查输入中的哪些证据丢失来生成反事实的解释,但如果存在于图像中可能会导致不同的分类决定。为了演示我们的方法,我们考虑一个细粒度的图像分类任务,其中我们将图像和反事实类和输出文本作为输入,从而解释为什么图像不属于反事实类。然后,我们使用提出的自动度量标准定性和定量分析我们生成的反事实解释。[1806.09809v1]

 

耦合字典学习多重对比MRI重建

宋平凡,Lior WeizmanJoao FC MotaYonina C. EldarMiguel RD Rodrigues

医学成像任务通常涉及多种对比度,如T1T2加权磁共振成像(MRI)数据。这些对比捕捉与相同底层解剖结构相关的信息,并因此表现出相似性。在本文中,我们提出了一种基于耦合字典学习的多对比MRI重建(CDLMRI)方法,以利用可用的指导对比度来恢复目标对比度。我们的方法由三个阶段组成:耦合字典学习,耦合稀疏去噪和$ k $ – 空间一致性实施。第一阶段学习一组能够捕捉多种对比之间相关性的词典。通过利用已学习的自适应字典,第二阶段执行联合稀疏编码以借助于引导对比度对已损坏的目标图像进行去噪。第三阶段强制降噪图像与$ k $ -space域中的度量值之间的一致性。对临床MR图像进行回顾性欠采样的数值实验表明,与最先进的方法相比,通过我们的设计合并额外的引导对比改善了MRI重建。[1806.09930v1]

 

AirLabAutograd图像配准实验平台

罗宾沙冷器,克里斯多夫·贾德,西蒙·安德马特,菲利普·卡廷

医学图像配准是一个活跃的研究课题,是许多医学图像分析任务的基础。虽然图像注册是一个相当普遍的概念,但通常需要专门的方法来针对特定的注册问题。这种方法的发展和实施是非常艰难的,因为目标的梯度必须被计算出来。而且,其评估必须优选在GPU上执行以获得更大的图像以及更复杂的转换模型和正则化术语。这阻碍了研究人员从快速原型设计和构成重现研究成果的障碍。显然需要一个隐藏这种复杂性的环境,以将注册方法的建模和实验性探索置于前台。随着“Autograd图像注册实验室” AirLab)中,我们引入了一个用于图像配准任务的开放实验室,其中目标函数的分析梯度自动计算,并且执行计算的设备在CPUGPU上是透明的。它意味着作为研究人员和开发人员的实验室,使他们能够快速尝试注册图像的新想法并复制已发布的注册结果。AirLabPython中使用PyTorch作为张量和优化库,SimpleITK用于基本图像IO。因此,它受益于机器学习界关于优化和深度神经网络模型的最新进展。本文件的草案大致概述了AirLab的第一个代码片段和性能分析。更详尽的介绍将很快作为最终版本。[1806.09907v1]

 

用于B型主动脉夹层分割的多任务深度卷积神经网络

Jianning Li, Long Cao, Yangyang Ge, W Cheng, M Bowen, G Wei

B型主动脉夹层(TBAD)是一种罕见但危及生命的疾病。整个主动脉和真腔的分割对于TBAD血管内修复的规划和随访至关重要。以分片方式进行手动分段非常耗时,需要专家的经验。目前的计算机辅助方法有几个局限性,例如只需要在主动脉的特定部分进行定时或需要人工交互。最重要的是,这些方法不能分割整个主动脉并同时检测真假腔。我们在这项研究中报告了一种基于多任务深度卷积神经网络的全自动方法,该方法在统一框架中将CTA图像中的整个主动脉和真假腔分割开来。Fortrainingwebuiltadatabase包含来自术前和术后TBAD患者的254CTA图像。这些图像来自多个制造商。还提供了切片式手动分割整个主动脉和每个3-D CTA图像的真假假腔。我们的方法通过1 6CTA数据(术前11例和术后5例)进行评估,其中地面真实分割由经验丰富的血管外科医生提供。结果显示,我们的方法可以分割B型主动脉夹层,具有稳健性和准确性。此外,我们的方法可以很容易地扩展到整个主动脉的分割而不需要解剖。[1806.09860v1] 结果表明,我们的方法可以将B型主动脉夹层分割为鲁棒性和准确性。此外,我们的方法可以很容易地扩展到整个主动脉的分割而不需要解剖。[1806.09860v1] 结果表明,我们的方法可以将B型主动脉夹层分割为鲁棒性和准确性。此外,我们的方法可以很容易地扩展到整个主动脉的分割而不需要解剖。[1806.09860v1]

 

使用可解释图像表示的视觉感知个性化推荐

Charles PackerJulian McAuleyArnau Ramisa

视觉感知推荐系统使用基础数据中存在的视觉信号来对项目的视觉特性和用户对其的偏好进行建模。在服装推荐领域,合并物品的视觉信息(例如产品图像)尤其重要,因为服装商品的外观往往是影响用户购买决策的关键因素。当前最先进的视觉感知推荐系统利用从预先训练的深卷积神经网络提取的图像特征,但是这些极其高维的表示难以解释,尤其是与相对较少数量的视觉特性可以指导用户的决定。在本文中,我们提出了一种新颖的个性化服装推荐方法,可以模拟个人用户的视觉偏好动态。通过使用由独特的特征学习过程生成的可解释的图像表示,我们的模型学习如何解释用户对于特定视觉属性和风格的亲和力的先前反馈。我们的方法在个性化排名任务上实现了最先进的性能,并且可解释的视觉特征的结合考虑到了强大的模型内省,我们通过使用交互式推荐算法并随时间推移显示时尚趋势的兴衰。[1806.09820v1] 通过使用由独特的特征学习过程生成的可解释的图像表示,我们的模型学习如何解释用户对于特定视觉属性和风格的亲和力的先前反馈。我们的方法在个性化排名任务上实现了最先进的性能,并且可解释的视觉特征的结合考虑到了强大的模型内省,我们通过使用交互式推荐算法并随时间推移显示时尚趋势的兴衰。[1806.09820v1] 通过使用由独特的特征学习过程生成的可解释的图像表示,我们的模型学习如何解释用户对于特定视觉属性和风格的亲和力的先前反馈。我们的方法在个性化排名任务上实现了最先进的性能,并且可解释的视觉特征的结合考虑到了强大的模型内省,我们通过使用交互式推荐算法并随时间推移显示时尚趋势的兴衰。[1806.09820v1] 并且结合可解释的视觉特征允许强大的模型自省,我们通过使用交互式推荐算法并随时间推移显示时尚趋势的兴衰来证明。[1806.09820v1] 并且结合可解释的视觉特征允许强大的模型自省,我们通过使用交互式推荐算法并随时间推移显示时尚趋势的兴衰来证明。[1806.09820v1]

 

具有中央偏置标准化的多映射图像到图像转换

Xiaoming Yu, Zhenqiang Ying, Ge Li, Wen Gao

最近的图像到图像转换任务试图通过注入潜在代码将模型从一对一映射扩展到多个映射。基于现有潜在码注入方式的网络数学公式,我们表明潜在码的作用是控制卷积后特征映射的均值。然后我们发现常用的规范化策略可能会减少不同映射的多样性或者一个特定映射的一致性,这不适用于多映射任务。我们提供了数学推导,即在实例标准化之后消除潜在代码的影响并且在批量标准化之后相同映射的分布变得不一致。为了解决这些问题,我们针对多映射网络的多样性设计标准提出了一致性,并通过对现有的标准化策略应用轻微而显着的变化来提出中央偏置标准化。我们将潜在代码注入标准化图层,而不是空间复制并连接到输入图层,而是将特征映射的偏移量消除,以确保一个特定映射的输出一致性,并附加潜在代码计算的偏差以实现输出不同映射的多样性。通过这种方式,不仅满足了所提出的设计标准,而且修改后的发电机网络的参数数量也少得多。我们将这种技术应用于多模式和多领域的翻译任务。定量和定性评估都表明,我们的方法优于当前最先进的方法。代码和预训练模型可在https://github.com/Xiaoming-Yu/cbn获得。[1806.10050v1]

 

Syn2Real:合成到真实视觉域适应的新基准

彭星超,本·乌斯曼,齐藤国立,Neela KaushikJudy HoffmanKate Saenko

目标识别模型从合成到实际数据的无监督传输是许多潜在应用的一个重要问题。面临的挑战是如何适应在模拟图像上训练的模型,以便在没有任何额外监督的情况下在真实世界的数据上表现良好。不幸的是,这个问题的当前基准在尺寸和任务多样性方面有限。在本文中,我们提出了一个名为Syn2Real的新型大型基准测试程序,它由3D对象模型渲染的合成域和包含相同对象类别的两个实际图像域组成。我们在这个基准测试中定义了三个相关的任务:封闭式对象分类,开放式对象分类和对象检测。我们对多种最先进方法的评估揭示了较容易的闭合分类任务与较难开放和检测任务之间的适应性能差距较大。我们得出结论认为,开发适用于所有三项任务的适应方法,对于syn2real域迁移来说是一个重大的未来挑战。[1806.09755v1]

 

基于耦合词典学习的多模态图像处理

Pingfan SongMiguel RD Rodrigues

在现实场景中,许多数据处理问题通常涉及与不同成像模式相关的异构图像。由于这些多模态图像源于相同的现象,因此假定它们具有共同的属性或特性是现实的。在本文中,我们提出了基于耦合词典学习的多模式图像处理框架,以捕捉不同图像模式之间的相似性和差异性。特别是,我们的框架可以在不同的图像模态中捕获有利的结构相似性,例如学习稀疏变换域中的边缘,角点和其他基本图元,而不是原始像素域,可用于改进大量图像处理任务如去噪,修补或超分辨率。实际的实验表明,使用我们的框架结合多种信息带来显着的好处。[1806.09882v1]

 

利用疾病进展学习进行医学图像识别

Qicheng Lao, Thomas Fevens

与自然图像不同,医学图像通常具有可用于神经网络学习的内在特征。例如,属于疾病不同阶段的图像可能会持续遵循某种进展模式。在本文中,我们提出了一种利用疾病进展学习进行医学图像识别的新方法,其中按疾病阶段排序的图像序列由神经网络学习,所述神经网络包括用于特征提取的共享视觉模型和长期的短期记忆网络学习阶段序列。辅助视力输出也被包括用于捕捉在疾病进展中趋于离散的阶段特征。我们提出的方法在糖尿病性视网膜病变数据集上进行评估,并且在疾病分期准确性方面实现了约3.3%的改善,与不使用疾病进展学习的基线方法相比。[1806.10128v1]

 

使用多特征导向CNN从超声波同时分割和分类骨表面

Puyang Wang, Vishal M. Patel, Ilker Hacihaliloglu

各种成像伪影,低信噪比和出现几毫米厚度的骨表面阻碍了超声(美国)引导的计算机辅助整形外科手术程序的成功。在这项工作中,提出了一种多特征引导卷积神经网络(CNN)体系结构,用于根据美国数据同时增强,分割和分类骨表面。所提出的CNN由两个主要部分组成:预增强网络,其采用B模式US扫描和三个过滤图像特征的连接来增强骨表面,以及具有分类层的修改的U网。所提出的方法在使用两台美国机器收集的650次体内美国扫描中通过扫描膝盖,股骨,桡骨远端和胫骨进行了验证。验证,针对专家注释,与现有技术相比,在骨表面的分割方面取得统计学显着的改善。[1806.09766v1]

 

循环一致对抗去噪网络用于多相冠状动脉CT血管成像

Eunhee KangHyun Jung KooDong Hyun YangJoon Bum SeoJong Chul Ye

在冠状动脉CT血管造影术中,在检查过程中在不同辐射剂量水平下拍摄一系列CT图像。尽管这会减少总辐射剂量,但低剂量阶段期间的图像质量显着降低。为了解决这个问题,我们在这里提出了一种新的半监督学习技术,它可以通过从常规剂量阶段的CT图像中学习来消除低剂量阶段获得的CT图像的噪音。尽管由于两个阶段的基础心脏结构的差异,监督式学习方法是不可能的,但两个阶段中的图像密切相关,因此我们提出了一个循环一致的对抗去噪网络来学习两个阶段之间的非退化映射低和高剂量心脏阶段。实验结果表明,该方法有效降低了低剂量CT图像中的噪声,同时保留了细节的纹理和边缘信息。此外,由于循环一致性和身份损失,所提出的网络不会产生任何不存在于输入图像中的人造特征。视觉分级和质量评估也证实了所提出的方法在诊断质量方面提供了显着的改进。[1806.09748v1] 视觉分级和质量评估也证实了所提出的方法在诊断质量方面提供了显着的改进。[1806.09748v1] 视觉分级和质量评估也证实了所提出的方法在诊断质量方面提供了显着的改进。[1806.09748v1]

 

身份回归空间中的人物重新识别

Hanxiao Wang, Xiatian Zhu, Shaogang Gong, Tao Xiang

由于两个原因,大多数现有的人员重新识别(re-id)方法不适用于真实世界的部署:对大量人口的不可扩展性和随时间推移的不适应性。在这项工作中,我们提出了统一的解决方案来解决这两个问题。具体而言,我们建议在嵌入不同的培训人员身份(类别)的基础上构建身份回归空间(IRS),并将IR作为IRS中身份回归解决的回归问题。IRS方法的特点是具有高学习效率的封闭式解决方案,并具有人在回路中的固有增量学习能力。在四个基准数据集(VIPeRCUHK01CUHK03Market-1501)上进行的大量实验表明,IRS模型不仅比现有技术中的re-id方法优越,而且通过快速更新模型并通过减少人类标记努力来主动选择信息性样本,从而可以更大程度地扩展到大量重复人群规模。[1806.09695v1]

 

变分Wasserstein聚类

Liang Mi, Wen Zhang, Xianfeng Gu, Yalin Wang

我们提出了一种基于最优运输的新聚类方法。我们用变分原理解决最佳运输问题,并研究使用功率图作为将任意域聚合成固定数量集群的运输计划。我们迭代地通过目标域驱动质心,同时通过调整功率图来维持最小聚类能量。因此,我们同时进行聚类和质心和目标域之间的Wasserstein距离,从而产生一个稳健的保持测量的映射。总的来说,解决最优运输问题有两种方法 – Kantorovich vs Brenier’s。虽然大多数研究人员都关注Kantorovich的方法,但我们提出了一个解决Brenier’ 并采用最先进的方法实现竞争结果。我们向不同的领域展示了我们的应用,例如在合成和真实数据的领域适应,重新网格划分和表示学习。[1806.09045v2]

 

不仅感受阅读:使用场景文字来理解广告

Arka Ujjal deySuman K. GhoshErnest Valveny

我们提出了一个自动分类广告图像的框架,不仅使用视觉特征,还使用从嵌入文本中提取的文本提示。我们的方法从广告图像包含有意义的文本内容,可以提供有区别的语义解释并因此有助于分类任务的假设中获得灵感。为此,我们开发了一个使用现成组件的框架,并展示了语义指令在语义分类任务中的有效性。[1806.08279v2]

 

针对无线电应用的多视角学习动态投票

曹红柳,贝纳德西蒙,劳伦特赫特,罗伯特萨柏林

由于不同类型的肿瘤和患者之间的异质性,癌症诊断和治疗通常需要对当今每个患者进行个性化分析。Radiomics是近年来在过去几年中显示的实现这种个性化的最新医学成像领域。然而,最近的一项研究表明,Radiomics的大部分最先进的作品都无法将这个问题确定为多视角学习任务,而多视角学习技术通常更有效。在这项工作中,我们建议进一步研究一个基于多分类器系统的多视图学习方法家族的潜力,其中在每个视图上学习一个分类器,然后将所有分类器组合在一起。具体而言,我们提出了一个基于随机森林的动态加权投票方案,它为每个新患者的分类任务提供个性化的视图组合。所提出的方法在几个真实世界的Radiomics问题上得到验证。[1806.07686v2]

 

学习条件图解结构的可视化问答

诺尔克利夫布朗,Efstathios Vafeias,莎拉帕索

Visual Question Answering是一个具有挑战性的问题,需要结合计算机视觉和自然语言处理的概念。大多数现有的方法使用双流策略,计算图像和问题特征,因此使用各种技术合并。尽管如此,很少依赖更高级别的图像表示,这允许捕获语义和空间关系。在本文中,我们提出了一种新颖的基于图形的视觉问答方法。我们的方法结合了一个图形学习器模块,该模块学习输入图像的问题特定图形表示与最近的图形卷积概念,旨在学习捕获问题特定交互的图像表示。我们在VQA v2数据集上使用由图形学习器模块增强的简单基线架构来测试我们的方法。我们以65.77%的准确度获得了最新的结果,并证明了所提出方法的可解释性。[1806.07243v4]

 

空间金字塔池层密集深度卷积神经网络检测室性早搏

Jianning Li

室性早搏(PVC)是一种源于心室的异位性早搏。自动化的方法准确和强大的检测聚氯乙烯是高度临床期望的。目前,这些方法大多是开发和测试使用相同的数据库分为训练和测试集,其泛化性能跨数据库尚未完全验证。本文提出了一种基于密集连接卷积神经网络和空间金字塔池化的PVC检测方法,该方法可以将任意大小的QRS波群作为输入进行训练和检测。通过更简单,更简单的体系结构,所提出的网络在当前的基于深度学习的方法方面达到了与准确性相当的结果,以MIT-BIH心律失常数据库为基准进行训练和测试,除了基准数据库之外,还从四个更开放的数据库中提取QRS波群,即圣彼得堡心脏病学技术研究所12导联心律失常数据库,MIT-BIH正常窦性心律数据库,MIT-BIH长期数据库和欧洲ST-T数据库。提取的QRS波群在5个数据库中的长度和采样率各不相同,并进行了全数据库的训练和测试。网络性能对基准数据库进行了改进,证明了使用多个数据库的优势仅使用单个数据库进行培训。该网络还在其他四个数据库上获得满意的分数,表现出良好的泛化能力。[1806

 

通过图像到图像转换的相关强化学习任务的转移学习

Shani GamrianYoav Goldberg

Deep Reinforcement Learning已经成功实现了直接从原始像素学习控制策略的最新成果。然而,尽管它取得了显着的成功,但它没有概括出一个稳定的人工智能系统所需的基本组件。使用Atari游戏突破,我们证明了训练有素的代理人在调整原始图像中的简单修改方面的困难,这是人类可以轻易适应的。在转移学习中,目标是利用源任务获得的知识更快更好地完成目标任务的训练。我们表明,使用各种形式的微调,一种常用的转移学习方法,对于适应这种小的视觉变化无效。事实上,从头开始重新训练代理人比调整训练有素的代理人要容易得多。我们建议在某些情况下,转移学习可以通过添加一个专门的组件来改进,其目标是学习在已知域和新域之间进行可视化映射。具体来说,我们使用生成敌对 网络(GAN)来创建一个映射函数,将目标任务中的图像转换为源任务中的相应图像,从而允许我们在不同任务之间进行转换。我们表明,学习这种映射比再培训更有效。在https://youtu.be/e2TwjduPT8g中可以看到有经过训练的代理人在经过修改的情况下进行的可视化,无论是否有GAN转移。[1806.07377v3] 我们使用Generative Adversarial NetworksGAN)创建一个映射函数,将目标任务中的图像转换为源任务中的相应图像,从而允许我们在不同任务之间进行转换。我们表明,学习这种映射比再培训更有效。在https://youtu.be/e2TwjduPT8g中可以看到有经过训练的代理人在经过修改的情况下进行的可视化,无论是否有GAN转移。[1806.07377v3] 我们使用Generative Adversarial NetworksGAN)创建一个映射函数,将目标任务中的图像转换为源任务中的相应图像,从而允许我们在不同任务之间进行转换。我们表明,学习这种映射比再培训更有效。在https://youtu.be/e2TwjduPT8g中可以看到有经过训练的代理人在经过修改的情况下进行的可视化,无论是否有GAN转移。[1806.07377v3] //youtu.be/e2TwjduPT8g[1806.07377v3] //youtu.be/e2TwjduPT8g[1806.07377v3]

 

IntPhys:视觉直观物理推理的框架和基准

Ronan RiochetMario Ynocente CastroMathieu BernardAdam LererRob FergusVéroniqueIzardEmmanuel Dupoux

为了在复杂的视觉任务上达到人类的表现,人造系统需要在宏观对象,运动,力量等方面加入对世界的大量理解。受到婴幼儿直觉物理学研究的启发,我们提出了一个评估框架通过测试它是否能够很好地分辨可能与不可能事件的匹配视频,从而诊断给定系统对物理学的理解程度。该测试要求系统在整个视频上计算物理可信度分数。它没有偏见,可以测试一系列特定的物理推理技能。然后我们描述基准数据集的第一个版本,该数据集旨在以无监督的方式学习直观的物理,使用用游戏引擎构建的视频。我们描述了两个深度神经网络基线系统,这些基线系统用未来的帧预测目标进行训练,并在可能与不可能的区分任务上进行测试 与人类数据相比,他们的结果分析为下一帧预测体系结构的潜力和局限性提供了新的见解。[1803.07616v2]

 

利用域内转移学习的文档图像分类和深度卷积神经网络的层叠泛化

阿瑞丹姆达斯,Saikat罗伊,Ujjwal巴塔查里亚,Swapan库马尔服从

在这项工作中,基于区域的深度卷积神经网络框架被提出用于文档结构学习。这项工作的贡献涉及基于区域的分类器的有效训练和文档图像分类的有效整合。通过从ImageNet数据集上的预先训练的VGG16体系结构中导出权重来使用域间转移学习的初级水平,以在整个文档图像上训练文档分类器。利用基于区域的影响建模的本质,域内转移学习的第二层级被用于快速训练图像片段的深度学习模型。最后,基于堆叠泛化的合成被用于结合基础深度神经网络模型的预测。所提出的方法达到了92的最高精度。在流行的RVL-CDIP文档图像数据集中为2%,超过了现有算法设置的基准。[1801.09321v2]

 

使用Wasserstein GAN进行视觉特征归因

Christian F. BaumgartnerLisa M. KochKerem Can TezcanJia Xi AngEnder Konukoglu

将输入图像的像素归为特定类别是计算机视觉中的一个重要而且研究得很好的问题,其应用范围从弱监督定位到理解数据中的隐藏效果。近年来,基于解释先前训练的神经网络分类器的方法已经成为事实上的最新技术,并且通常用于医学和自然图像数据集。在本文中,我们讨论了这些方法的局限性,这些方法可能会导致仅检测到类别特定功能的子集。为了解决这个问题,我们开发了一种基于Wasserstein生成敌对网络(WGAN)的新颖特征归因技术,该技术不受此限制。我们表明,我们提出的方法比合成数据集上的视觉归因和来自轻度认知障碍(MCI)和阿尔茨海默病(AD)患者的真实3D神经影像数据的现状表现要好得多。对于AD患者,该方法产生非常接近观察效果的逼真的疾病效应图。[1711.08998v3]

 

一种新的SDASS描述符完全编码三维局部曲面信息

Bao Zhao, Xinyi Le, Juntong Xi

局部特征描述是三维计算机视觉中的一项基本而又具有挑战性的任务 本文提出了一种新的描述符,称为细分空间上的偏差角度统计(SDASS),用于编码局部参考轴(Local Reference AxisLRA)上局部表面的几何和空间信息。在编码几何信息方面,考虑到通常用于编码局部表面几何信息的表面法线容易受到各种干扰(例如噪声,变化的网格分辨率等)的影响,我们提出了一个强健的几何属性,称为本地最小轴(LMA),替换SDASS描述符中用于生成几何特征的法线。为了编码空间信息,我们使用两个空间特征来完全编码基于LRA的局部表面的空间信息,其通常呈现比局部参考轴(LRF)高的整体可重复性。此外,还提出了一种改进的LRA,用于提高SDASS对噪声和不同网格分辨率的鲁棒性。SDASS描述符的性能在四个流行数据集上进行了严格测试。结果表明,描述符描述性强,鲁棒性强,性能优于现有算法。最后,所提出的描述符被应用于3D注册。准确的结果进一步证实了我们SDASS方法的有效性。[1711.05368v3] 提出了一种改进的LRA来提高SDASS对噪声和不同网格分辨率的鲁棒性。SDASS描述符的性能在四个流行数据集上进行了严格测试。结果表明,描述符描述性强,鲁棒性强,性能优于现有算法。最后,所提出的描述符被应用于3D注册。准确的结果进一步证实了我们SDASS方法的有效性。[1711.05368v3] 提出了一种改进的LRA来提高SDASS对噪声和不同网格分辨率的鲁棒性。SDASS描述符的性能在四个流行数据集上进行了严格测试。结果表明,描述符描述性强,鲁棒性强,性能优于现有算法。最后,所提出的描述符被应用于3D注册。准确的结果进一步证实了我们SDASS方法的有效性。[1711.05368v3] 准确的结果进一步证实了我们SDASS方法的有效性。[1711.05368v3] 准确的结果进一步证实了我们SDASS方法的有效性。[1711.05368v3]

 

通过网络解剖解释深度视觉表现

Bolei ZhouDavid BauAude OlivaAntonio Torralba

最近的深度卷积神经网络(CNNs)的成功取决于学习隐藏的表示,它可以总结数据背后变化的重要因素。然而,CNN经常被批评为缺乏可解释性的黑盒子,因为它们有数以百万计的无法解释的模型参数。在这项工作中,我们描述了Network Dissection,一种通过为其深层视觉表示单位提供标签来解释网络的方法。所提出的方法通过评估个体隐藏单元与一组视觉语义概念之间的对齐来量化CNN表示的可解释性。通过识别最佳路线,单元可以在一系列物体,零件,场景,纹理,材质和颜色上获得人类可解释的标签。该方法揭示了深层表示比预期更加透明和可解释:我们发现表示比在随机等价强大的基础下表达更具可解释性。我们应用该方法来解释和比较各种网络架构的潜在表示,这些网络架构经过训练以解决不同的监督和自我监督训练任务。然后,我们研究影响网络可解释性的因素,如训练迭代的次数,正则化,不同的初始化以及网络的深度和宽度。最后我们展示解释的单位可以用来提供CNN给出的图像预测的明确解释。我们的研究结果强调,可解释性是深层神经网络的一个重要特性,为其层次结构提供了新的见解。[1711.05611v2]

 

深频谱描述符:通过连体深层神经网络学习点对应的对应度量

孙志宇,余森森,安德烈格里森科,阿毛里伦德斯,斯蒂芬贝克

一个强大而丰富的局部形状描述符在网格注册中起着重要的作用。在这方面,基于拉普拉斯贝尔特拉米算子谱的光谱描述符在过去十年里因研究人员希望得到的特性如等长不变而成为研究人员关注的焦点。但是,尽管如此,光谱描述符通常无法给出模型之间的度量失真很大的非等距情况的正确相似性度量。因此,除了模型接近等距的特殊情况外,它们通常不适用于注册问题。在本文中,我们通过将频谱形状描述符嵌入不同的度量空间来研究一种开发用于非等长配准任务的形状描述符的方法,其中元素之间的欧几里得距离直接指示几何不相似性。我们设计和训练一个连体深层神经网络来找到这样的嵌入,嵌入的描述符根据几何相似性被提升为重新排列。我们发现我们的方法可以显着提高常规光谱描述符在非等距配准任务中的性能,并且超过了文献中报道的最新的最先进的方法。[1710.06368v2] 嵌入描述符根据几何相似性被提升为重新排列。我们发现我们的方法可以显着提高常规光谱描述符在非等距配准任务中的性能,并且超过了文献中报道的最新的最先进的方法。[1710.06368v2] 嵌入描述符根据几何相似性被提升为重新排列。我们发现我们的方法可以显着提高常规光谱描述符在非等距配准任务中的性能,并且超过了文献中报道的最新的最先进的方法。[1710.06368v2]

 

二阶一阶常微分方程在计算机视觉问题中的应用

大卫卡西利亚斯佩雷斯,丹尼尔皮萨罗

本文证明了由平面透视方程和初始条件构成的初始值问题最大存在两个可能的解。这个初始值问题有几何解释。解决方案是通过曲线而不是初始条件,这是飞机的一个点。[1710.04265v2]

 

PWC-Net:使用金字塔,变形和成本体积的光流量的CNN

Deqing Sun, Xiaodong Yang, Ming-Yu Liu, Jan Kautz

我们提出了一种紧凑但有效的光纤流量CNN模型,称为PWC-NetPWC-Net的设计遵循了简单明了的原则:锥体加工,翘曲和成本卷的使用。在可学习的特征金字塔中,PWC-Net使用当前的光流估计扭曲第二幅图像的CNN特征。然后它使用第一幅图像的变形特征和特征来构造成本体积,由CNN处理该成本体积以估计光流。与最近的FlowNet2型号相比,PWC-Net的尺寸缩小了17倍,并且更容易培训。此外,它在Sintel分辨率(1024×436)图像上的运行速度大约为35 fps,优于MPI Sintel最终通过版和KITTI 2015基准测试版上发布的所有光学流方法。我们的模型可在https://github.com/NVlabs/PWC-Net上找到。[1709.02371v3]

 

数据集合增加合成图像改善语义分割

Manik GoyalParam RajpuraHristo BojinovRavi Hegde

尽管用强像素级注释训练的深度卷积神经网络已经显着地推动了语义分割的性能,但创建训练数据所需的注解努力仍然是进一步改进的障碍。我们表明,使用合成图像对弱注释训练数据集进行增强可以最大限度地减少注释的工作量,并且还可以捕获足够多种图像的成本。对PASCAL 2012验证数据集的评估显示,平均IOU52.80%增加到55.47%,每个对象类别仅添加100个合成图像。因此,我们的方法是注解和数据集收集问题的有前途的解决方案。[1709.00849v3]

 

使用卷积神经网络的SAR图像去斑

Puyang Wang, He Zhang, Vishal M. Patel

合成孔径雷达(SAR)图像经常被称为散斑的乘性噪声污染。散斑使SAR图像的处理和解释变得困难。我们提出了一种基于深度学习的方法,称为图像去斑点卷积神经网络(ID-CNN),用于从输入噪声图像中自动去除斑点。具体而言,ID-CNN使用一组卷积层以及批量归一化和整流线性单元(ReLU)激活函数和分量分割残差层来估计斑点,并且使用一个端点到端的方式训练它欧几里德损失和总变化(TV)损失的组合。对合成SAR图像和实际SAR图像进行大量实验表明,所提出的方法比现有技术的散斑减少方法获得显着改进。

转载请注明:《用于B型主动脉夹层分割的多任务深度卷积神经网络+Syn2Real:合成到真实视觉域适应的新基准

发表评论