视觉表示无监督学习的分类方法

AndrijaŠtajduhar,DomagojDžaja,MilošJudaš,SvenLončarić
在本文中,我们提出了一种新颖的用于自动检测成人类大脑皮层组织切片中神经元的各向异性扩散模型。我们使用偏微分方程模型来处理高分辨率图像以获取神经元体的位置。我们还提出了一种模型训练和评估的新方法,它考虑了人类专家之间的差异性,解决了大多数相关论文中使用的神经元和细胞计数的黄金标准存在和正确性的问题。我们的方法经过三位专家手动标记的数据集的训练,已经正确区分了95%以上的测试数据中的神经元体,在时间上比其他类似的方法短得多。[1806.00292v1]
Aditya Vora
在本文中,我们提出了一种无监督学习视觉表示的技术。具体而言,我们训练前景和背景分类任务的模型,在其中学习视觉表示。用于训练的前景和背景补丁是在从网上提供的成千上万的未标记视频中挖掘这些补丁之后进行的,我们使用所提议的补丁提取算法对其进行了解。在没有使用任何监督的情况下,仅使用150,000个未标记的视频和PASCAL VOC 2007数据集,我们训练的对象识别模型达到45.3 mAP,这接近最佳性能的无监督特征学习技术,而优于许多其他提议的算法。修补程序提取代码在Matlab中实现,可以在以下链接获得开源代码。[1806.00428v1]
乔治菲利普,海梅G.卡博内尔
长期以来,设计表现出高性能的神经架构被认为是需要专家手动调整的黑暗艺术。为数不多的众所周知的建筑设计准则之一是避免了梯度的爆炸,尽管这个准则仍然相对模糊和间接。我们引入非线性系数(NLC),这是一种基于梯度大小的神经网络计算函数复杂性的度量。通过广泛的实证研究,我们证明NLC是测试错误的强大预测因子,并且获得正确尺寸的NLC对于获得最佳性能至关重要。NLC展示了一系列有趣且重要的特性。它与计算单个网络梯度所获得的信息量密切相关。它与用线性运算代替网络中的非线性运算时产生的误差有关。它不容易受到倍增缩放,叠加偏移和层宽的混杂因素影响。它从一层到另一层都是稳定的。因此,我们认为NLC是深度网络中过度拟合的第一个强有力的预测器。[1806.00179v1]
万尼亚五Valindria,扬Lavdas,Wenje白,康斯坦丁Kamnitsas,埃里克O. Aboagye,安德烈G.罗卡尔,丹尼尔Rueckert,本Glocker
医学影像研究中多中心数据的变化带来了领域适应的必要性。尽管在自动分割中机器学习的进步,但当将算法应用于从不同扫描仪或序列获取的新数据而不是训练数据时,性能通常会降低。如果必须针对每个新的目标域执行手动注释,则代价高且耗时。在这项工作中,我们调查自动选择合适的科目,以监督领域适应使用反分类准确性(RCA)的概念进行注释。RCA预测了新领域数据的训练模型的表现,并评估了通过转移学习选择将包括在适应中的主题的不同策略。我们在两个中心的MR数据库上进行了器官分割任务的实验。我们显示通过RCA选择主题可以减轻目标域新数据注释的负担。[1806.00363v1]
Nayyer Aafaq,Syed Zulqarnain Gilani,Wei Liu,Ajmal Mian
自动视频描述对于帮助视障人士,人机交互,机器人和视频索引非常有用。由于计算机视觉和自然语言处理方面的深度学习取得了前所未有的成功,过去几年来,在这方面的研究兴趣激增。在文献中已经提出了许多方法,数据集和评估方法,这些方法称需要进行全面的调查以更好地将研究工作集中在这个繁荣的方向上。本文通过调查包括深度学习模型在内的最先进的方法来准确回答这种需求; 比较基准数据集的域名,类别数量和存储库大小; 并确定诸如BLEU,ROUGE,METEOR,CIDEr,SPICE和WMD等各种评估指标的优缺点。我们的调查显示,视频描述研究在匹配人类表现之前还有很长的路要走,而造成这种不足的主要原因是双重的。首先,现有的数据集不足以代表开放域视频和复杂语言结构的多样性。其次,目前的评估措施不符合人的判断。例如,同一个视频可能会有非常不同但正确的描述。我们得出结论认为,需要改进评估措施以及数据集的大小,多样性和注释准确性,因为它们直接影响着更好的视频描述模型的发展。从算法的角度来看,描述质量的诊断是具有挑战性的,因为与从采用的语言模型自然产生的偏见相比,难以评估视觉特征的贡献水平。[1806.00186v1]
Ce Qi, Zhizhong Liu, Fei Su
借助深度神经网络的判别特征,人脸验证是一项相对容易的任务。然而,在保持高性能和高效率的同时识别数百万身份的人脸仍然是一项挑战。MS-Celeb-1M的挑战2是分类任务。但是,身份数量太大,将任务视为图像分类任务并不那么高雅。我们将分类任务视为相似性搜索,并针对不同的相似性搜索策略进行实验。相似性搜索策略加快搜索速度并提高最终结果的准确性。用于提取特征的模型是在CASIA-Webface上预训练的单个深度神经网络,该网络未经过官方提供的基本集或小说集的训练。最后,我们排列\ textbf {3rd},而搜索速度为1ms /图像。[1806.00365v1]
Ting-Ting Liang, Satoshi Tsutsui, Liangcai Gao, Jing-Jing Lu, Mengyan Sun
放射科医生耗时的日常工作之一是从断层扫描图像中辨别解剖结构。为了辅助放射科医师,本文开发了一种盆腔磁共振(MR)图像的自动分割方法。该任务有三个主要挑战1)根据轴位图像,盆腔器官可以具有各种尺寸和形状,这要求本地环境正确分割。2)不同的器官在MR图像中通常具有非常相似的外观,这需要全局范围来分割。3)可用注释图像的数量非常小,以使用最新的分割算法。为了应对这些挑战,我们提出了一种称为注意 – 金字塔网络(APNet)的新型卷积神经网络,它有效地利用了当地和全球的情况,除了对MR图像特别有效的数据增强技术之外。为了评估我们的方法,我们构建了细粒度(50个盆腔器官)MR图像分割数据集,并通过实验证实了我们的技术优于最先进的图像分割方法的优越性能。[1806.00264v1]
Zhixian Ma, Jie Zhu, Weitian Li, Haiguang Xu
一个射电星系的形态受其中心活动星系核(AGN)的高度影响,该星系核被研究用于揭示超大质量黑洞(SMBH)的演变。在这项工作中,我们提出了一个基于深度神经网络自编码器(DNNAE)和高斯混合模型(GMM)的两个典型无线电星系的形态学生成框架,即Fanaroff-Riley I型(FRI)和II型(FRII)。DNNAE中的编码器和解码器子网在完全连接的层(即承载提取的特征向量的代码层)之外是对称的。通过随后用三分量高斯混合模型随机生成特征向量,模拟新的FRI或FRII射电星系形态。在真实的射电星系图像上展示了实验,我们讨论了特征向量的长度,丢失函数的选择,并对批量标准化和退出技术进行了比较,以训练网络。结果表明我们的形态生成框架具有高效率和高性能。代码位于:https://github.com/myinxd/dnnae-gmm。[1806.00398v1]
Alberto Gomez,Veronika A. Zimmer,Bishesh Khanal,Nicolas Toussaint,Julia A. Schnabel
我们提出了一种新的方法来适应图形图像数据。该方法驱动图的节点朝向图像特征。自适应过程自然适用于特征显着性的度量,然后可以用它来保留图中有意义的节点和边。从适应图中,我们提出了一个双图的计算,该图继承了自适应图的显着性度量,并且其边缘沿着图像特征运行,从而产生了一个正视图。该双重图形捕捉底层图像的结构,因此构成图像特征及其拓扑的稀疏表示。所提出的方法在计算上是有效的并且是完全可并行的。我们提出两个距离度量沿着图边寻找图像显着性,并评估其在合成图像和公开可用数据库的自然图像上的表现。在这两种情况下,图中最显着的节点都实现了90%以上的平均边界回忆。我们还提供了两个相关技术的定性比较:超像素聚类和变分图像网格划分,显示了大量应用的潜力。[1806.00411v1]
Junsuk Choe,Joo Hyun Park,Hyunjung Shim
本文首次引入了一种用于无监督对象定位的新型端到端深度神经网络模型。我们采用生成对手网络(GAN)来反对本地化框架,其中GAN是以无监督方式隐式学习未知数据分布的强大工具。这是因为我们观察到GAN鉴别器受物体出现像素的高度影响。受此观察的启发,我们应用现有技术,将重要像素可视化以用于鉴别器的分类。基于广泛的评估和实验研究,所提出的方法使用公共基准数据集为无监督对象定位实现了有意义的准确性,甚至可以与先进的弱监督方法相媲美。[1806.00236v1]
Chen Huang, Yining Li, Chen Change Loy, Xiaoou Tang
用于人脸分析的数据通常表现出高度倾斜的类别分布,即大多数数据属于少数多数类别,而少数类别仅包含少量实例。为了缓解这个问题,当代的深度学习方法通​​常遵循传统的策略,例如课堂重新抽样或成本敏感的培训。在本文中,我们进行了广泛而系统的实验来验证这些经典的表征学习方法对类不平衡数据的有效性。我们进一步证明,通过执行深度网络来维持班级内部和班级之间的团体间利润率,可以学习到更多有区别的深度表达。这种严格的约束有效地减少了本地数据邻域中固有的类别不平衡,从而在本地刻划更平衡的类别边界。我们证明,在超球体流形上的集群分布之间部署角度边界是很容易的。这种学习到的基于群集的大型边缘局部嵌入(CLMLE)与简单的k-最近群集算法相结合时,在人脸识别和表现出不平衡类别分布的人脸属性预测任务上,与现有方法相比,精度显着提高。[1806.00194v1]
Firat Ozdemir,Philipp Fuernstahl,Orcun Goksel
深度学习已被广​​泛接受为医学图像分割的一种有前途的解决方案,给出足够大的具有相应注释的图像的代表性数据集。随着注释医疗数据集数量的不断增加,始终从头开始训练所有数据的学习方法是不可行的。这也注定要达到计算限制,例如,可用于训练的存储器或运行时间。增量学习可能是一个潜在的解决方案,迭代地引入新信息(图像或解剖结构)。尽管如此,为了保存集体信息,在添加新信息的同时,保留过去的一些“重要”(即具有代表性的)图像和注释至关重要。在本文中,我们引入了一个应用增量学习进行分割的框架,并提出了在其中选择代表性数据的新方法。我们比较评估我们的方法在使用MR图像的不同场景中,并使用我们的方法验证增加的学习能力。[1806.00265v1]
Qiangqiang Yuan, Qiang Zhang, Jie Li, Huanfeng Shen, Liangpei Zhang
高光谱图像(HSI)去噪是提高后续HSI解释和应用性能的关键预处理程序。本文提出了一种新的基于深度学习的方法,该方法通过学习噪声和干净HSI之间的非线性端到端映射与组合空间谱深度卷积神经网络(HSID-CNN) 。空间和频谱信息同时被分配给建议的网络。此外,分别采用多尺度特征提取和多尺度特征表示来捕获多尺度空间光谱特征,并将最终恢复的特征表征与不同水平融合。另外,为了保持学习过程的稳定性和效率,重构的输出用残余模式表示,而不是直接的结果。模拟和实际数据实验表明,所提出的HSID-CNN在量化评估指标,视觉效果和HSI分类准确性方面均优于许多主流方法。[1806.00183v1]
Ke Sun, Mingjie Li, Dong Liu, Jingdong Wang
在本文中,我们有兴趣构建轻量级和高效的卷积神经网络。受两种设计模式的成功启发,如结构化稀疏内核的组合,例如交错组卷积(IGC)和低秩内核的组合,例如瓶颈模块,我们研究了这两种设计模式的组合,构造稀疏低秩内核的组合,形成卷积核。我们引入了一个宽松的互补条件,它通过在超级通道上施加互补条件来制定,而不是引入通道间的互补条件,来指导生成密集卷积核的设计。最终的网络被称为IGCV3。我们凭经验证明,低级别和稀疏内核的组合增强了我们提议的方法在艺术级,IGCV2和MobileNetV2上对CIFAR和ImageNet上的图像分类以及COCO上的对象检测的优越性。[1806.00178v1]
Aneeq Zia,Andrew Hung,Irfan Essa,Anthony Jarc
不良的手术结果对患者和医院来说是昂贵的。基准手术护理的方法往往局限于整个手术过程中的总体措施,尽管特定任务的执行主要是造成不良后果的原因。为了从任务产生度量而不是整个程序,需要自动识别个体手术任务的方法。在本文中,我们提出了几种方法来识别使用深度学习的机器人辅助微创手术中的手术活动。我们收集了100个机器人辅助根治性前列腺切除术(RARP)的临床数据集,每个12个任务,并提出基于图像的手术活动识别的“RP-Net”,InceptionV3模型的修改版本。我们的平均精确度为80.9%,平均召回率为76。在所有使用RP-Net的任务中占7%,超出了本文探讨的所有其他基于RNN和CNN的模型。我们的研究结果表明,在RARP期间识别自动手术活动是可行的,并且可以成为高级分析的基础。[1806.00466v1]
Juyoung Lee,Yoseob Han,Jong Chul Ye
奈奎斯特鬼影伪影在EPI图像中起源于偶数和奇数回波之间的相位失配。然而,由于非线性和随时间变化的局部磁场变化,使用参考扫描的传统校正方法经常产生错误的结果,尤其是在高场MRI中。已经证明,可以将重影校正问题转化为可以使用基于消除滤波器的低秩汉克尔结构化矩阵完成方法(ALOHA)来解决的k空间数据内插问题。最近的另一个发现表明深度卷积神经网络与数据驱动的汉克尔矩阵分解密切相关。通过协同结合这些研究结果,我们在这里提出了一种k空间深度学习方法,可以在没有参考扫描的情况下立即纠正k空间相位失配。使用7T体内数据的重建结果表明,与现有方法相比,提出的用于EPI鬼影校正的无参考k空间深度学习方法显着改善了图像质量,并且计算时间快几个数量级。[1806.00153v1]
Jonathan Vacher,Pascal Mamassian,Ruben Coen-Cagli
视觉分割是一种关键的感知功能,它划分视觉空间并允许在复杂环境中检测,识别和区分对象。人类自然图像分割的过程仍然不甚了解。现有的数据集依赖手动标记,将感知,运动和认知因素混为一谈。部分原因是,这是因为我们缺乏理想的分割观察模型来指导受约束的实验。另一方面,尽管最近在机器学习方面取得了进展,但现代算法仍然缺乏人类细分表现。我们的目标是双重的(i)提出一个模型来探测人类视觉分割机制和(ii)开发一个有效的图像分割算法。为此目的,我们提出了一种新颖的视觉分割的概率生成模型,它首次将1)关于视觉皮层中神经元的敏感性的知识与自然图像中的统计规律相结合; 和2)在分割图(即视觉空间的分割)上的非参数贝叶斯先验。我们提供了一种学习和推理算法,在合成数据上进行验证,并说明我们模型的两个组件如何改进自然图像的分割。然后,我们表明,分段后验分布很好地捕捉了人类主体之间的变异性,表明我们的模型提供了探索人类视觉分割的可行方法。[1806.00111v1] 和2)在分割图(即视觉空间的分割)上的非参数贝叶斯先验。我们提供了一种学习和推理算法,在合成数据上进行验证,并说明我们模型的两个组件如何改进自然图像的分割。然后,我们表明,分段后验分布很好地捕捉了人类主体之间的变异性,表明我们的模型提供了探索人类视觉分割的可行方法。[1806.00111v1] 和2)在分割图(即视觉空间的分割)上的非参数贝叶斯先验。我们提供了一种学习和推理算法,在合成数据上进行验证,并说明我们模型的两个组件如何改进自然图像的分割。然后,我们表明,分段后验分布很好地捕捉了人类主体之间的变异性,表明我们的模型提供了探索人类视觉分割的可行方法。[1806.00111v1] 然后,我们表明,分段后验分布很好地捕捉了人类主体之间的变异性,表明我们的模型提供了探索人类视觉分割的可行方法。[1806.00111v1] 然后,我们表明,分段后验分布很好地捕捉了人类主体之间的变异性,表明我们的模型提供了探索人类视觉分割的可行方法。[1806.00111v1]
Ibrahim Alsolami,Wolfgang Heidrich
本文讨论了存在衍射 – 光子时的成像问题。衍射光子产生于DMD的低对比度($ \ sim 1000:1 $),并且极大地降低了基于SPAD系统捕获的图像的质量。在此,设计联合照明/解卷积方案以克服衍射 – 光子,使得能够获取强度和深度图像。此外,还进行了概念证明实验来证明设计方案的可行性。显示通过共同设计成像的照明和解卷积阶段,可以基本上克服衍射光子。[1806.00094v1]
Guannan Zhao, Bo Zhou, Kaiwen Wang, Rui Jiang, Min Xu
卷积神经网络(CNN)已成为各种生物医学图像分析任务的有力工具,但对CNN机器缺乏视觉解释。在本文中,我们提出了一种新颖的算法 – 响应加权类激活映射(Respond-CAM),用于通过可视化输入对于预测非常重要的区域(特别是生物医学三维成像数据输入)来制作基于CNN的模型。我们的方法使用流入卷积层的任何目标概念的梯度(例如目标类的分数)。加权特征映射被组合起来产生一个热图,该图强调了图像中用于预测目标概念的重要区域。我们证明了Respond-CAM的一个较好的总和评分属性,并验证了其从当前最先进的方法对3D图像的显着改进。我们对细胞电子冷冻层析成像3D图像的测试表明,Respond-CAM实现了在使用3D生物医学图像输入对CNN进行可视化方面的卓越性能,并且能够在使用自然图像输入对CNN进行可视化时获得相当好的结果。Respond-CAM是一种高效可靠的CNN机械可视化方法,适用于各种CNN模型系列和图像分析任务。[1806.00102v1] 并且能够在用自然图像输入对CNN进行可视化时获得相当好的结果。Respond-CAM是一种高效可靠的CNN机械可视化方法,适用于各种CNN模型系列和图像分析任务。[1806.00102v1] 并且能够在用自然图像输入对CNN进行可视化时获得相当好的结果。Respond-CAM是一种高效可靠的CNN机械可视化方法,适用于各种CNN模型系列和图像分析任务。[1806.00102v1]
Yasamin Jafarian,袁瑶,玄秀公园
本文介绍了MONET–一种使用多视图图像流的姿态检测器的端到端半监督学习框架。MONET与现有模型的不同之处在于它能够在没有预先训练的模型的情况下检测一般主题,包括非人类物种。这些主题的关键挑战在于专家手动注释的有限可用性,这经常导致检测模型中的大偏差。我们通过以两种方式使用嵌入在未标记数据中的极线约束来解决这个挑战。首先,给定一组标记的数据,可以使用多视图光流在3D中可靠地重建关键点轨迹,从几乎穷举的视图导致空间和时间上可观的数据增强。其次,跨视点的检测必须在几何上彼此一致。我们在关键点分布中引入了一种新的几何一致性度量,称为极向散度—从极线到对应关键点分布的广义距离。当两个视点关键点分布产生零重投影误差时,极面分歧是特征。我们设计了一个双胞胎网络,通过立体校正将极线分歧降到最低,可显着减轻训练中的计算复杂度和采样混叠。我们证明我们的框架可以定位不同物种的定制关键点,例如人类,狗和猴子。[1806.00104v1] 当两个视点关键点分布产生零重投影误差时,极面分歧是特征。我们设计了一个双胞胎网络,通过立体校正将极线分歧降到最低,可显着减轻训练中的计算复杂度和采样混叠。我们证明我们的框架可以定位不同物种的定制关键点,例如人类,狗和猴子。[1806.00104v1] 当两个视点关键点分布产生零重投影误差时,极面分歧是特征。我们设计了一个双胞胎网络,通过立体校正将极线分歧降到最低,可显着减轻训练中的计算复杂度和采样混叠。我们证明我们的框架可以定位不同物种的定制关键点,例如人类,狗和猴子。[1806.00104v1]
Jan Svoboda,Jonathan Masci,Federico Monti,Michael M. Bronstein,Leonidas Guibas
深度学习系统在我们生活的许多方面已经无处不在。不幸的是,已经表明这样的系统容易受到对抗性攻击,使得它们容易出现潜在的非法使用。设计对抗攻击强大的深层神经网络是使这些系统更安全并可用于更广泛的应用(例如自动驾驶)的基本步骤,但更重要的是设计新型和更高级架构的必要步骤计算范式,而不是在现有的基础上构建。在本文中,我们介绍PeerNets,一种新的卷积网络家族,它将经典的欧几里得卷积与图形卷积交替使用,以利用来自同位素样本图形的信息。这导致了模型中的一种非局部前向传播形式,其中潜在特征受到由该图引发的全局结构的限制,其强度比对比各种白色和黑盒对抗攻击的强度高3倍到传统架构,精度几乎没有下降。[1806.00088v1]
改进的混合示例数据增强
Cecilia Summers,Michael J. Dinneen
为了减少过拟合,神经网络通常使用数据增强进行训练,即通过对现有训练样例进行标记保留转换来人工生成额外的训练数据。最近的工作已经证明了令人惊讶的有效类型的非标签保存数据增强,其中将成对的训练样例平均在一起。在这项工作中,我们概括了这个“混合示例数据增强”,它使我们能够找到改进以前工作的方法。这种一般化还表明,为了使混合示例数据增加有效,线性并不是必要的,这为归纳偏差提供了证据,反对之前工作的主要理论假设。[1805.11272v2]
反思知识图谱传播的零点学习
Michael Kampffmeyer, Yinbo Chen, Xiaodan Liang, Hao Wang, Yujia Zhang, Eric P. Xing
最近已经证明了图卷积神经网络在零点学习任务中的潜力。这些模型具有很高的样本效率,因为图结构中的相关概念共享统计强度,允许在遇到缺乏数据时推广到新类。然而,当通过中间节点传播时,来自远处节点的知识可能会被稀释,因为当前的零射击学习方法使用在每层执行拉普拉斯平滑的图传播方案。我们表明,广泛的平滑不能帮助归零分类器权重的零任务学习任务。为了仍然结合来自遥远节点的信息并利用图结构,我们提出了一个专注密集图传播模块(ADGPM)。ADGPM允许我们通过附加连接来利用知识图的分层图结构。这些连接是基于节点与其祖先和后代的关系而添加的,并且还使用注意方案根据到节点的距离来衡量它们的贡献。最后,我们说明在ADGPM训练之后对特征表示进行微调可以带来相当大的改进。我们的方法取得了有竞争力的结果,超越了以前的零点学习方法。[1805.11724v2] 我们说明在训练ADGPM之后对特征表示进行微调可以带来相当大的改进。我们的方法取得了有竞争力的结果,超越了以前的零点学习方法。[1805.11724v2] 我们说明在训练ADGPM之后对特征表示进行微调可以带来相当大的改进。我们的方法取得了有竞争力的结果,超越了以前的零点学习方法。[1805.11724v2]
跨域解开的图像到图像转换
Abel Gonzalez-Garcia,Joost van de Weijer,Yoshua Bengio
最近,深度图像转换方法显示出优异的结果,输出覆盖多种数据分布模式的高质量图像。人们对解决深层方法所学的内部表示以进一步改善其表现和实现更好的控制也越来越感兴趣。在本文中,我们弥合了这两个目标,并引入了跨域解开的概念。我们旨在将内部表示分成三部分。共享部分包含两个域的信息。另一方面,专有部分仅包含每个域特有的变化因素。我们通过基于生成敌对网络和跨域自动编码器(一种新颖的网络组件)的双向图像转换来实现这一目标。所获得的模型提供了多个优点。我们可以输出涵盖这两个域的多种分布模式的不同样本。我们可以在不需要标记数据的情况下执行跨域检索。最后,我们可以执行特定领域的图像传输和插值。我们将我们的模型与多模态图像转换中的最新技术进行比较,并获得更好的结果。[1805.09730v2]
战斗假新闻:通过学习自我一致性的图像拼接检测
Minyoung Huh,Andrew Liu,Andrew Owens,Alexei A. Efros
照片编辑和操作工具的进步使制作假影像变得更加容易。然而,学习检测这种操作仍然是一个具有挑战性的问题,因为缺乏足够数量的操纵训练数据。在本文中,我们提出了一种学习算法,用于检测仅使用真实照片的大型数据集进行训练的视觉图像操作。该算法使用自动记录的照片EXIF元数据作为监督信号来训练模型,以确定图像是否具有自洽性 – 也就是说,其内容是否可能由单个成像管道生成。我们将这种自我一致性模型应用于检测和定位图像拼接的任务。所提出的方法在几个图像取证基准上获得了最先进的性能,尽管在训练中从未看到任何操纵的图像。这就是说,这只是寻求一个真正的通用视觉取证工具的长期追求。[1805.04096v2]
利用敌对语义对齐改进图像字幕
Pierre L. Dognin,Igor Melnyk,Youssef Mroueh,Jarret Ross,Tom Heart
我们将图像字幕作为条件GAN训练进行研究,提出了情景感知LSTM字幕和共同注意识别器,它们实现了图像和字幕之间的语义对齐。我们通过实证研究两种训练方法的可行性:自我批评序列训练(SCST)和Gumbel直通训练(ST)。令人惊讶的是,我们发现SCST(一种策略梯度法)在Gumbel ST上显示出更稳定的梯度行为和更好的结果,即使不直接访问鉴别器梯度。我们还解决了这些模型的自动评估问题,并引入了新的语义评分,并展示了它与人类判断的强相关性。作为一个评估范例,我们建议一个重要的标准是字幕的能力,推广对象之间通常不会一起出现的对象之间的合成,为此我们引入了一个字幕上下文(OOC)测试集。OOC数据集结合我们的语义评分是字幕社区的新基准。在这个OOC基准和传统的MSCOCO数据集中,我们显示SCST在语义评分和人类评估方面都有很强的表现。[1805.00063v2]
卷积神经网络如何看待世界 – 卷积神经网络可视化方法综述
Zhuwei Qin, Fuxun Yu, Chenchen Liu, Xiang Chen
目前,卷积神经网络(CNNs)已经在许多计算机视觉相关任务上取得了令人印象深刻的性能,如对象检测,图像识别,图像检索等。这些成果受益于CNN具有深入学习输入特征的出色能力神经元结构和迭代训练过程。然而,从人类视觉角度来看,这些学习功能很难被识别和解释,导致对CNN内部工作机制的理解不足。为了提高CNN可解释性,CNN可视化被很好地用作定性分析方法,其将内部特征转化为视觉可察觉模式。许多CNN可视化工作已经在文献中被提出来从网络结构,操作的角度来解释CNN,和语义概念。在本文中,我们期望对包括激活最大化,网络反演,解卷积神经网络(DeconvNet)和基于网络解剖的可视化在内的几种代表性CNN可视化方法进行全面的调查。这些方法以动机,算法和实验结果的形式呈现。基于这些可视化方法,我们还讨论了它们的实际应用,以证明CNN在网络设计,优化,安全增强等领域的解释性的重要性[1804.11191v2] 和基于网络解剖的可视化。这些方法以动机,算法和实验结果的形式呈现。基于这些可视化方法,我们还讨论了它们的实际应用,以证明CNN在网络设计,优化,安全增强等领域的解释性的重要性[1804.11191v2] 和基于网络解剖的可视化。这些方法以动机,算法和实验结果的形式呈现。基于这些可视化方法,我们还讨论了它们的实际应用,以证明CNN在网络设计,优化,安全增强等领域的解释性的重要性[1804.11191v2]
用于高分辨率3D对象表示的多视图轮廓和深度分解
爱德华史密斯,斯科特藤本,大卫梅格尔
我们考虑将深度生成形状模型缩放到高分辨率的问题。从对象的典型视图表示中吸取动力,我们引入了一种新的方法,通过对六个正交深度投影执行超分辨率的网络,在体素空间中快速上采样三维对象。这使我们能够生成高分辨率的对象,比直接在3D中工作的方法具有更高的缩放比例。我们将二维深度超分辨率问题分解为轮廓和深度预测,以捕捉结构和细节。这使得我们的方法比单个网络更容易产生锐利的边缘。我们评估了关于高分辨率三维物体的多项实验的工作,并显示我们的系统能够以512×512的分辨率准确地产生对象。据我们所知,这是该任务报告的最高分辨率。我们通过ShapeNet数据集上的RGB图像实现了三维物体重建的最新性能,并进一步演示了第一种有效的3D超分辨率方法。[1802.09987v2]
DARTS:欺骗有毒标志的自动驾驶汽车
Chawin Sitawarin,Arjun Nitin Bhagoji,Arsalan Mosenia,Mung Chiang,Prateek Mittal
标志识别是自动驾驶汽车的一个组成部分。任何交通标志分类错误都可能导致多种灾难性后果,从威胁生命的事故到依赖自动驾驶汽车的大规模交通服务中断。在本文中,我们提出并研究了针对具有毒性标志的欺骗性自主计算机的标志识别系统的安全攻击(我们称之为建议的攻击DARTS)。特别是,我们介绍了两种创建这些有毒标志的新方法。首先,我们提出了“分布式外”(Out-of-Distribution)攻击,它通过使攻击者能够从图像空间中的任意点开始产生这些攻击,而先前的攻击仅限于现有的训练/测试数据(In-分配)。第二,我们介绍了光栅打印攻击,它依赖光学现象欺骗交通标志识别系统。我们广泛评估虚拟和现实环境中提出的攻击的有效性,并考虑白盒和黑盒威胁模型。我们的结果表明,在设置和威胁模型下,建议的攻击都是成功的。我们进一步表明,超出分配的攻击可以超越使用对抗训练防御辩护的分类器的分布式攻击,为这些防御揭露新的攻击媒介。[1802.06430v3] 我们广泛评估虚拟和现实环境中提出的攻击的有效性,并考虑白盒和黑盒威胁模型。我们的结果表明,在设置和威胁模型下,建议的攻击都是成功的。我们进一步表明,超出分配的攻击可以超越使用对抗训练防御辩护的分类器的分布式攻击,为这些防御揭露新的攻击媒介。[1802.06430v3] 我们广泛评估虚拟和现实环境中提出的攻击的有效性,并考虑白盒和黑盒威胁模型。我们的结果表明,在设置和威胁模型下,建议的攻击都是成功的。我们进一步表明,超出分配的攻击可以超越使用对抗训练防御辩护的分类器的分布式攻击,为这些防御揭露新的攻击媒介。[1802.06430v3]
用于深度图像压缩的条件概率模型
Fabian Mentzer,Eirikur Agustsson,Michael Tschannen,Radu Timofte,Luc Van Gool
作为图像自动编码器训练的深度神经网络最近成为推进图像压缩技术发展的一个有希望的方向。学习这种网络的关键挑战是双重的:处理量化,并控制潜在图像表示的重构误差(失真)和熵(速率)之间的平衡。在本文中,我们将重点放在后面的挑战上,并提出一种新的技术来导航图像压缩自动编码器的码率失真折衷。主要思想是通过使用上下文模型直接对潜在表示的熵进行建模:3D-CNN,其学习自动编码器的潜在分布的条件概率模型。在训练期间,自动编码器利用上下文模型来估计其表示的熵,并且同时更新上下文模型以学习潜在表示中的符号之间的依赖关系。我们的实验表明,这种方法在MS-SSIM中测量时,可以产生基于简单卷积自动编码器的最先进的图像压缩系统。[1801.04260v2]
视觉到声音:在野外为视频生成自然声音
Yipin Zhou, Zhaowen Wang, Chen Fang, Trung Bui, Tamara L. Berg
作为五种传统人类感官(视觉,听觉,味觉,嗅觉和触觉)中的两种,视觉和声音是人类理解世界的基本来源。通常在自然事件中相互关联,这两种方式结合起来共同影响人类的感知。在本文中,我们提出了给定视觉输入的声音任务。这些功能可以帮助在虚拟现实中启用应用程序(自动生成虚拟场景的声音),或为视觉障碍人士提供对图像或视频的附加访问。作为这个方向的第一步,我们应用基于学习的方法来生成输入视频帧的原始波形采样。我们在包含各种声音(如环境声音和人/动物声音)的视频数据集上评估我们的模型。我们的实验表明,生成的声音相当逼真,并且与视觉输入具有良好的时间同步。[1712.01393v2]
NeST:基于增长和修剪范例的神经网络综合工具
Xiaoliang Dai, Hongxu Yin, Niraj K. Jha
深度神经网络(DNN)已经开始对机器学习的各种应用产生普遍影响。但是,为大型应用程序寻找最佳DNN体系结构的问题具有挑战性。常见的方法是更深更大的DNN体系结构,但可能会产生大量冗余。为了解决这些问题,我们引入了一种网络增长算法,它补充了网络修剪,以在训练期间学习权重和紧凑的DNN体系结构。我们提出了一种DNN综合工具(NeST),它结合了这两种方法来自动生成紧凑而准确的DNN。NeST从一个被称为种子架构的随机初始化稀疏网络开始。它通过基于梯度的增长和基于幅度的神经元和连接修剪来迭代地调整架构。我们的实验结果表明,NeST产生准确,但非常紧凑的DNNs,具有广泛的种子架构选择。对于LeNet-300-100(LeNet-5)架构,我们将网络参数减少了70.2倍(74.3倍)和浮点运算(FLOP)79.4倍(43.7倍)。对于AlexNet和VGG-16架构,我们分别将网络参数(FLOP)分别缩小15.7倍(4.6倍)和30.2倍(8.6倍)。NeST的增长和修剪范例提供了相对于仅修剪方法而言显着的附加参数和FLOP减少。[1711.02017v3] 我们分别将网络参数(FLOP)减少了15.7倍(4.6倍)和30.2倍(8.6倍)。NeST的增长和修剪范例提供了相对于仅修剪方法而言显着的附加参数和FLOP减少。[1711.02017v3] 我们分别将网络参数(FLOP)减少了15.7倍(4.6倍)和30.2倍(8.6倍)。NeST的增长和修剪范例提供了相对于仅修剪方法而言显着的附加参数和FLOP减少。[1711.02017v3]
卷积神经网络的主动学习:核心集方法
Ozan Sener,Silvio Savarese
卷积神经网络(CNNs)已经成功应用于许多识别和学习任务,使用通用配方; 在监督例子的非常大的数据集上训练深层模型。然而,这种方法在实践中是相当严格的,因为收集大量标记图像是非常昂贵的。缓解这一问题的一种方法是提供智能的方法来选择从非常大的集合中标记图像(即主动学习)。我们的实证研究表明,文献中的许多主动学习启发式算法在应用于批处理中的CNN时并不有效。受这些限制的启发,我们将主动学习的问题定义为核心集选择,即。选择一组点,使得在所选择的子集上学习的模型对于剩余的数据点是有竞争力的。我们进一步提出一个理论结果,用数据点的几何特征来表征任何选定子集的性能。作为一种主动学习算法,我们根据我们的表征选择预期产生最佳结果的子集。我们的实验表明,所提出的方法大大优于图像分类实验中的现有方法。[1708.00489v4]
通过强化学习实现端到端主动对象跟踪
Wenhan Luo, Peng Sun, Fangwei Zhong, Wei Liu, Tong Zhang, Yizhou Wang
我们研究活动对象跟踪,其中跟踪器将视觉观察(即帧序列)作为输入并产生摄像机控制信号(例如向前移动,向左转动等)。常规方法分别处理跟踪和相机控制,这对于共同调谐具有挑战性。它还招致了许多人类在标签上的努力以及现实世界中许多昂贵的试验和错误。为了解决这些问题,我们在本文中提出了一种通过深入强化学习的端到端解决方案,其中采用ConvNet-LSTM函数逼近器来进行直接帧 – 预测。我们进一步提出了环境增强技术和定制奖励功能,这对于成功的培训至关重要。跟踪器在模拟器(ViZDoom,虚幻引擎)在看不见的对象移动路径,看不见的对象外观,看不见的背景和分散注意力的对象的情况下显示出良好的概括性。它可以在偶尔丢失目标时恢复跟踪。通过VOT数据集上的实验,我们还发现,仅从模拟器获得的跟踪能力可能会转移到真实世界的场景。[1705.10561v3]
理解卷积进行语义分割
Panqu Wang, Pengfei Chen, Ye Yuan, Ding Liu, Zehua Huang, Xiaodi Hou, Garrison Cottrell
深度学习方面的最新进展,尤其是深度卷积神经网络(CNNs),已经导致了对先前的语义分割系统的显着改进。在这里,我们展示了如何通过操纵卷积相关的操作来提高像素级语义分割,这些操作既具有理论价值,也具有实用价值。首先,我们设计密集上采样卷积(DUC)来生成像素级预测,它能够捕获和解码双线性上采样中通常缺少的更详细的信息。其次,我们在编码阶段提出了一个混合扩张卷积(HDC)框架。该框架1)有效扩大网络的接受域(RF)以聚合全球信息; 2)减轻了我们所称的由标准膨胀卷积操作引起的“网格问题”。我们在Cityscapes数据集中彻底评估我们的方法,并在提交时达到测试集中80.1%mIOU的最新结果。我们还在KITTI道路评估基准和PASCAL VOC2012细分任务方面取得了最先进的成果。我们的源代码可以在https://github.com/TuSimple/TuSimple-DUC找到。[1702.08502v3]

转载请注明:《视觉表示无监督学习的分类方法

发表评论