Junjie Zhang, Yong Xia, Yanning Zhang
胸部CT检测肺结节是肺癌早期诊断的重要步骤,这对于最佳患者护理至关重要。尽管文献中已经公布了许多计算机辅助结节检测方法,但这些方法仍然存在两个主要缺点:在检测结节候选物期间遗漏了真正的结节,并且从非结节中识别出结节的准确性较低。在本文中,我们提出了一种自动肺结节检测算法,它结合了渐进分辨率和分层显着性。具体来说,我们设计了一个基于3D渐进分辨率的密集扩张FCN,即渐进分辨率网络(PRN),用于检测肺内结节候选,并构建具有分层显着性的密集扩张的3D CNN,即分层显着性网络(HSN),用于同时识别那些候选者的真实结节并估计结节的直径。我们在基准LUng Nodule Analysis 2016(LUNA16)数据集上评估了我们的算法,并获得了最先进的检测分数。我们的研究结果表明,该算法能够有效地检测胸部CT上的肺结节并准确估计其直径。[1807.00598v1]
Xinhan Di, Pengqian Yu, Meng Tian
生成对抗模型是在各种任务的复杂分布中为结构建模的强大工具。用于学习生成模型的当前技术需要访问具有高质量的样本,并且应用高级生成模型以通过环境模块从嘈杂的训练数据生成样本。然而,这些模块仅适用于发电机的输出空间,并且它们在隐藏空间中的应用尚未得到很好的研究。在本文中,我们将环境模块扩展到发生器的隐藏空间,并为对抗训练过程中的环境隐藏发生器提供唯一性条件和相应的策略。我们在基准数据集上报告了所提方法的实用性。[1807.00780v1]
通过梯度分析理解Lipschitz约束在GAN训练中的有效性
Zhiming Zhou, Yuxuan Song, Lantao Yu, Yong Yu
本文旨在通过深入研究导致GAN训练失败和成功的关键因素,为理解GAN带来新的视角。具体而言,(i)我们研究了最优判别函数的价值面,从中我们证明了GAN训练失败的根本原因在于无根据的梯度方向; (ii)我们证明Lipschitz约束对于评估Wasserstein距离并不总是必要的,并且我们进一步证明,如果没有Lipschitz约束,Wasserstein GAN也可能以与其他GAN相同的方式失败; (iii)我们理论上表明Lipschitz约束通常是保证有意义的梯度方向的有力工具,我们进一步提出了基于Lipschitz约束的广义GAN公式族,Wasserstein GAN是一个特例。[1807.00751v1]
Fabio Ferreira,Jonas Rothfuss,Eren Erdal Aksoy,You Zhou,Tamim Asfour
我们发布了两个人工数据集,模拟飞行形状和模拟平面机械手,可以测试视频处理系统的学习能力。特别地,数据集意味着允许容易地评估旨在编码,重建或预测视频帧序列的深度神经网络模型的健全性的工具。每个数据集包含90000个视频。模拟飞行形状数据集包括显示两个具有相同形状(矩形,三角形和圆形)和大小的对象的场景,其中一个对象接近其对应物。模拟平面机械手显示了一个3自由度平面机械手,它执行拾取和放置任务,在这个任务中,它必须在平方平台上放置一个尺寸变化的圆。与其他广泛使用的数据集不同,如移动MNIST [1],[2],两个呈现的数据集涉及面向目标的任务(例如,操纵者抓住一个物体并将其放置在平台上),而不是显示随机运动。这使得我们的数据集更适合于通过机器学习模型测试预测能力和复杂运动的学习。该技术文档旨在介绍两个数据集的使用。[1807.00703v1]
Jasper Linmans,Jim Winkens,Bastiaan S. Veeling,Taco S. Cohen,Max Welling
我们提出了一种利用旋转和反射对称性的语义分割模型。由于增加的重量分配以及对称变换的鲁棒性的改进,我们证明了样本效率的显着提高。通过引入将组上的特征映射转换为平面特征映射的新等变(G-> Z2) – 卷积,扩展了组等变CNN框架以用于分割。此外,等变量转置卷积被公式化用于在编码器 – 解码器网络中进行上采样。为了证明样本效率的改进,我们评估了旋转等变分割任务的多种数据方案:组织病理学图像中的癌转移检测。我们进一步展示了通过改变组的大小来利用更多对称性的有效性。[1807.00583v1]
Chengxi Ye, Chinmaya Devaraj, Michael Maynord, Cornelia Fermüller, Yiannis Aloimonos
在本文中,我们证明了最先进的卷积神经网络可以使用级联算法构建深度网络,其灵感来自小波分析中的级联算法。对于每个网络层,级联算法从前一层创建两个特征流:一个流调制现有特征,产生低级特征,另一个流产生更高级别的新特征。我们通过以一致的比例调整特征地图尺寸来均匀地构建我们的网络。我们的网络产生人性可解释的特征图,这种结果的直觉可以在尺度空间理论的背景下理解。我们证明了我们的级联设计通过提供易于训练的快捷方式来促进培训过程。我们为小型网络报告了最新的最新结果 – 这是我们的架构结构简单,直接培训的结果,无需修剪或压缩等额外处理。我们的6级联设计,参数低于500k,分别在CIFAR-10和CIFAR-100数据集上实现了95.24%和78.99%的准确度。[1807.00456v1]
SphereReID:Deep Hypersphere流形嵌入用于行人重识别
Xing Fan, Wei Jiang, Hao Luo, Mengjuan Fei
许多当前成功的人员重新识别(ReID)方法训练具有softmax损失函数的模型以对不同人的图像进行分类并同时获得特征向量。但是,忽略了底层特征嵌入空间。在本文中,我们使用改进的softmax函数,称为Sphere Softmax,来解决分类问题并同时学习超球面流形嵌入。还引入了平衡抽样策略。最后,我们提出了一个名为SphereReID的卷积神经网络,采用Sphere Softmax,并在四个具有挑战性的数据集(包括Market-1501,DukeMTMC-reID,CHHK-03)和一个新的预热学习速率计划中端到端地训练单个模型。香港中文大学,中山大学。实验结果表明,该单一模型在所有四个数据集上均优于最先进的方法,无需进行微调或重新排序。例如,它在Market-1501上达到94.4%的一级准确度,在DukeMTMC-reID上达到83.9%的一级精度。我们的模型的代码和训练权重将开源。[1807.00537v1]
Lingbo Liu, Hongjun Wang, Guanbin Li, Wanli Ouyang, Liang Lin
从无约束的场景图像中计算人群是许多现实世界应用中的一项重要任务,例如城市监控和管理,但是相机的视角极大地挑战了人们的尺度和旋转造成巨大的外观变化。传统方法通过采用固定的多尺度架构来解决这些挑战,这些架构通常无法覆盖很大程度上不同的尺度而忽略了旋转变化。在本文中,我们提出了一个统一的神经网络框架,名为Deep Recurrent Spatial-Aware Network,它自适应地解决了可学习的空间变换模块中的两个问题,并采用了区域精化过程。具体来说,我们的框架包含一个循环空间感知细化(RSAR)模块,迭代地执行两个组件:i)空间变换器网络,其从人群密度图中动态地定位注意区域并将其转换为适当的比例和旋转以用于最佳人群估计; ii)局部细化网络,其利用剩余学习来细化所关注区域的密度图。对四个具有挑战性的基准测试的广泛实验表明了我们方法的有效性。具体而言,与现有的最佳表现方法相比,我们在最大的数据集WorldExpo’10上实现了12%的提升,在最具挑战性的数据集UCF_CC_50上实现了22.8%的提升。[1807.00601v1] ii)局部细化网络,其利用剩余学习来细化所关注区域的密度图。对四个具有挑战性的基准测试的广泛实验表明了我们方法的有效性。具体而言,与现有的最佳表现方法相比,我们在最大的数据集WorldExpo’10上实现了12%的提升,在最具挑战性的数据集UCF_CC_50上实现了22.8%的提升。[1807.00601v1] ii)局部细化网络,其利用剩余学习来细化所关注区域的密度图。对四个具有挑战性的基准测试的广泛实验表明了我们方法的有效性。具体而言,与现有的最佳表现方法相比,我们在最大的数据集WorldExpo’10上实现了12%的提升,在最具挑战性的数据集UCF_CC_50上实现了22.8%的提升。[1807.00601v1]
Terrance DeVries,Graham W. Taylor
利用深度学习进行医学成像已经在研究界取得了巨大的发展。在临床环境中缓慢摄取这些系统的一个原因是它们复杂,不透明并且倾向于无声地失败。在医学成像领域之外,机器学习社区最近提出了几种用于量化模型不确定性的技术(即知道何时失败的模型)。这在实际环境中很重要,因为我们可以将这些情况提交给人工进行人工检查或校正。在本文中,我们的目标是将这些最近的结果用于估计不确定性,以支持基于深度学习的分割中的两个重要输出。第一个是生成空间不确定性图,临床医生可以从中观察系统认为失败的位置和原因。第二个是量化图像级别的故障预测,这对于隔离特定情况并从自动化管道中删除它们非常有用。我们还表明,关于空间不确定性的推理,第一个输出,是用于生成分割质量预测的有用中间表示,第二个输出。我们提出了一种用于产生这些不确定性测量的两阶段架构,它可以适应任何基于深度学习的医学分割管道。[1807.00502v1] 我们提出了一种用于产生这些不确定性测量的两阶段架构,它可以适应任何基于深度学习的医学分割管道。[1807.00502v1] 我们提出了一种用于产生这些不确定性测量的两阶段架构,它可以适应任何基于深度学习的医学分割管道。[1807.00502v1]
Shaked Perek,Alon Hazan,Ella Barkan,Ayelet Akselrod-Ballin
标准乳腺癌筛查涉及为每个乳房采集两个乳房摄影X射线投影。通常,两种观点的比较支持肿瘤检测和定位的挑战性任务。我们介绍了一种深度学习,基于补丁的Siamese网络,用于双视图乳房X线照相术中的病变匹配。我们的本地拟合方法生成联合补丁对表示,并与两个视图之间的共享配置进行比较。我们在标准数据集上对网络进行了一系列全面的实验,其中包括用于筛查乳腺摄影的大型数字数据库(DDSM)。我们分析了不同类型数据集之间的网络转移学习的效果,并将基于网络的匹配与通过模板匹配使用欧几里德距离进行了比较。最后,我们评估了匹配网络在完整检测流水线中的贡献。实验结果表明,使用我们的方法可以提高检测精度。[1807.00637v1]
Zhouxia Wang, Tianshui Chen, Jimmy Ren, Weihao Yu, Hui Cheng, Liang Lin
社交关系(例如,朋友,夫妻等)构成了我们日常生活中社交网络的基础。自动解释这种关系具有很大的潜力,使智能系统能够深入了解人类行为,并在社会层面更好地与人们互动。人类不仅仅基于人们来解释群体内的社会关系,而且这种社会关系与人们周围环境信息之间的相互作用也起着重要作用。然而,这些额外的线索在很大程度上被先前的研究所忽视。我们发现这两个因素之间的相互作用可以通过具有适当的消息传播和关注的新颖结构化知识图来有效地建模。这种结构化知识可以有效地集成到深度神经网络体系结构中,通过端到端可训练的图形推理模型(GRM)促进社会关系理解,其中学习传播机制以通过图形传播节点消息以进行探索感兴趣的人和情境对象之间的相互作用。同时,引入图形注意机制来明确推理判别对象以促进识别。公共基准测试的广泛实验证明了我们的方法优于现有的主要竞争对手。[1807.00504v1] 其中学习传播机制以通过图传播节点消息以探索感兴趣的人与上下文对象之间的交互。同时,引入图形注意机制来明确推理判别对象以促进识别。公共基准测试的广泛实验证明了我们的方法优于现有的主要竞争对手。[1807.00504v1] 其中学习传播机制以通过图传播节点消息以探索感兴趣的人与上下文对象之间的交互。同时,引入图形注意机制来明确推理判别对象以促进识别。公共基准测试的广泛实验证明了我们的方法优于现有的主要竞争对手。[1807.00504v1]
Julia Lasserre,Katharina Rasch,Roland Vollgraf
时尚是计算机视觉中越来越重要的话题,特别是所谓的街道到店铺任务,其将街道图像与包含类似时尚物品的商店图像相匹配。解决这个问题有望实现时尚搜索的新方法,并帮助购物者找到他们正在寻找的文章。本文的重点是找到一个人穿着中性背景的全身或半身图像的衣服。这些图像在网络和时尚博客中无处不在,并且通常是工作室照片,我们将此设置称为工作室到商店。计算方式的最新进展包括特定领域数值表示的开发。我们的模型Studio2Shop建立在这样的表示之上,并使用训练的深度卷积网络将查询图像与此图像中注释的所有文章的数字特征向量相匹配。对测试查询图像的Top $ $ $检索评估表明,正确的项目通常在足够小的范围内找到,以便为工作室到商店设置构建逼真的视觉搜索引擎。[1807.00556v1]
Tianshui Chen, Liang Lin, Riquan Chen, Yang Wu, Xiaonan Luo
借助日常生活或职业积累的丰富知识,人类可以自然地理解深度图像。例如,为了实现细粒度图像识别(例如,对数百个从属类别的鸟类进行分类),通常需要包括类别标签和部分级属性的综合视觉概念组织。在这项工作中,我们研究如何用深度神经网络架构统一丰富的专业知识,并提出一个知识嵌入式表示学习(KERL)框架来处理细粒度图像识别问题。具体来说,我们以知识图的形式组织丰富的视觉概念,并使用门控图神经网络通过图传播节点消息以生成知识表示。通过引入新的门控机制,我们的KERL框架将该知识表示结合到辨别图像特征学习中,即隐含地将特定属性与特征图相关联。与现有的细粒度图像分类方法相比,我们的KERL框架具有以下几个吸引人的特性:i)嵌入式高级知识增强了特征表示,从而有助于区分从属类别之间的细微差别。ii)我们的框架可以学习具有有意义配置的特征映射,突出显示的区域与知识图的节点(特定属性)完全一致。对广泛使用的Caltech-UCSD鸟类数据集进行了大量实验,证明了我们的KERL框架优于现有最先进的方法。[1807。
伊尔克博兹坎,思南卡尔坎
场景建模对于需要在其环境中感知,推理和操纵对象的机器人非常重要。在本文中,我们调整和扩展Boltzmann机器(BM)用于情境化场景建模。虽然有很多关于这个主题的模型,但是我们是第一个将物体,关系和可供性集中在一个高能力的生成模型中的模型。为此,我们引入了BM的混合版本,其中关系和可用性通过共享的三向连接引入到模型中。此外,我们为关系估计和建模研究贡献了一个数据集。我们与对象估计,上下文对象检测,关系估计和可供性估计任务的几个基线进行比较来评估我们的方法。而且,为了说明模型的生成能力,我们展示了模型能够生成的几个示例场景。[1807.00511v1]
Lisa Anne Hendricks,Kaylee Burns,Kate Saenko,Trevor Darrell,Anna Rohrbach
已知大多数机器学习方法捕获和利用训练数据的偏差。虽然一些偏见有利于学习,但其他偏见是有害的。具体而言,图像字幕模型倾向于夸大训练数据中存在的偏差。由于过度依赖学习的先前和图像上下文,这可能导致需要或需要无偏字幕的域中的字幕不正确。我们根据人的外表或图像背景调查性别特定字幕词(例如男人,女人)的生成。我们引入了一种新的均衡器模型,该模型可确保在场景中出现性别证据时保持相同的性别概率,并在出现性别证据时进行自信的预测。由此产生的模型被迫查看一个人,而不是使用上下文提示来进行性别特定的预测。构成我们模型的损失,外观混淆损失和置信损失,是一般性的,可以添加到任何描述模型中,以减轻描述数据集中不需要的偏差的影响。我们提出的模型在与人们描述图像并提及他们的性别时比先前的工作具有更低的误差,并且更接近地匹配包括女性在内的句子(包括男性)在内的句子的真实比率。[1807.00517v1] 我们提出的模型在与人们描述图像并提及他们的性别时比先前的工作具有更低的误差,并且更接近地匹配包括女性在内的句子(包括男性)在内的句子的真实比率。[1807.00517v1] 我们提出的模型在与人们描述图像并提及他们的性别时比先前的工作具有更低的误差,并且更接近地匹配包括女性在内的句子(包括男性)在内的句子的真实比率。[1807.00517v1]
Yue Bai,Shuvra S. Bhattacharyya,Antti P. Happonen,Heikki Huttunen
我们提出了一种新的深度神经网络图像分类框架。该框架将中间输出引入网络的计算图。这使得能够灵活地控制计算负荷并平衡准确性和执行时间之间的折衷。此外,我们提出了一个有趣的发现,即中间输出可以在训练时充当正则化器,提高预测精度。在实验部分,我们在表观年龄估计的用例中证明了我们提出的框架与各种常用的预训练深度网络的性能。[1807.00453v1]
Roshan Gopalakrishnan,Yansong Chua,Laxmi R Iyer
在人工智能领域,神经形态计算已经存在了几十年。然而,深度学习取得了很多进展,使得它在准确性方面始终优于分类任务中的神经形态学习算法。具体地,在图像分类领域中,神经形态计算传统上使用时间或速率代码将数据集中的静态图像编码成尖峰序列。直到最近,神经形态视觉传感器才被神经形态研究界广泛使用,并提供了这种编码方法的替代方案。从那时起,已经引入了通过在图像数据集(例如,神经形态CALTECH 101)上应用这样的传感器而获得的几个神经形态数据集。这些数据在尖峰序列中编码,因此似乎是神经形态学习算法基准测试的理想选择。具体来说,我们在CALTECH 101上训练用于图像分类的深度学习框架,以及神经形态CALTECH 101数据集的折叠版本。我们分别获得了CALTECH 101和神经形态CALTECH 101数据集的准确度分别为91.66%和78.01%。对于CALTECH 101,我们的准确度接近于报告的最佳准确度,而对于神经形态CALTECH 101,它的性能优于最后报告的最佳准确度超过10%。这提出了这样的数据集作为神经形态学习算法的基准的适用性的问题。[1807.00578v1] 我们在CALTECH 101上训练用于图像分类的深度学习框架,以及神经形态CALTECH 101数据集的折叠版本。我们分别获得了CALTECH 101和神经形态CALTECH 101数据集的准确度分别为91.66%和78.01%。对于CALTECH 101,我们的准确度接近于报告的最佳准确度,而对于神经形态CALTECH 101,它的性能优于最后报告的最佳准确度超过10%。这提出了这样的数据集作为神经形态学习算法的基准的适用性的问题。[1807.00578v1] 我们在CALTECH 101上训练用于图像分类的深度学习框架,以及神经形态CALTECH 101数据集的折叠版本。我们分别获得了CALTECH 101和神经形态CALTECH 101数据集的准确度分别为91.66%和78.01%。对于CALTECH 101,我们的准确度接近于报告的最佳准确度,而对于神经形态CALTECH 101,它的性能优于最后报告的最佳准确度超过10%。这提出了这样的数据集作为神经形态学习算法的基准的适用性的问题。[1807.00578v1] 它超过最后报告的最佳准确度超过10%。这提出了这样的数据集作为神经形态学习算法的基准的适用性的问题。[1807.00578v1] 它超过最后报告的最佳准确度超过10%。这提出了这样的数据集作为神经形态学习算法的基准的适用性的问题。[1807.00578v1]
GD Illeperuma
计算叶面积非常重要。计算机辅助图像处理可以使这更快,更准确。这包括扫描叶子,将其转换为二进制图像并计算所覆盖的像素数。稍后将其转换为mm2。[1807.00487v1]
Javier Ribera, Fangning He, Yuhao Chen, Ayman F. Habib, Edward J. Delp
在许多农业应用中,人们想要表征植物的物理特性并使用测量来预测例如生物量和环境影响。该过程称为表型分型。传统的表型信息收集是劳动密集型和耗时的。图像的使用越来越受到表型的欢迎。在本文中,我们提出了从无人驾驶飞行器(UAV)上的RBG摄像机估计高粱植物性状的方法。通过新的三角测量方法导出图像的位置和方向以及沿着感兴趣区域的稀疏点的坐标。然后从图像生成矫正的正射影像马赛克。估计叶片数量,并提出了一种基于模型的方法来分析叶片形态的叶片分割。我们提出了一个统计模型来找出每个高粱植物的位置。[1807.00498v1]
MehmetAliArabacı,Fatih Ozkan,Elif Surer,PeterJančovič,Alptekin Temizel
第一人称视频中的以自我为中心的活动识别在各种应用中具有越来越重要的意义,例如生活,摘要,辅助生活和活动跟踪。用于该任务的现有方法基于使用每个特征的预定权重来解释各种传感器信息。在这项工作中,我们提出了一个基于视听特征与多核学习(MKL)和多核提升(MKBoost)相结合的自我中心活动识别问题的新框架。为此,首先从视频中提取网格光流,虚拟惯性特征,对数协方差,长方体。使用“超矢量”来表征音频信号,该“超矢量”基于帧级特征的高斯混合建模而获得,随后是最大的后验自适应。然后,提取的多模态特征由MKL分类器自适应地融合,其中特征和核选择/加权和识别任务一起执行。拟议的框架在许多以自我为中心的数据集上进行了评估。结果表明,使用MKL的多模态特征优于现有方法。[1807.00612v1]
PointSIFT:一种类似SIFT的网络模块,用于3D点云语义分割
Mingyang Jiang, Yiran Wu, Cewu Lu
最近,3D理解研究更加注重直接从点云中提取特征。因此,探索形状模式描述是必不可少的。受SIFT的启发,这是一种出色的2D形状表示,我们设计了一个PointSIFT模块,可以对不同方向的信息进行编码,并且可以适应形状的比例。特别地,定向编码单元被设计为描述八个关键定向。因此,通过堆叠多个方向编码单元,我们可以得到多尺度表示。大量实验表明,基于PointSIFT的框架在标准基准数据集上优于最先进的方法。代码和训练模型将随本文一起发布。[1807.00652v1]
John R. Zech,Marcus A. Badgeley,Manway Liu,Anthony B. Costa,Joseph J. Titano,Eric K. Oermann
在X射线上使用卷积神经网络(CNN)诊断疾病的早期结果一直很有希望,但尚未证明从一家医院或一组医院接受X射线训练的模型在不同的医院同样有效。在将这些工具用于实际临床环境中的计算机辅助诊断之前,我们必须验证其在各种医院系统中进行推广的能力。横断面设计用于训练和评估来自NIH(n = 112,120,来自30,805名患者),西奈山(来自12,904名患者的42,396名)和印第安纳州(来自3,683名患者,n = 3,807)的158,323例胸部X射线照射和评估肺炎CNN的肺炎。 。在3/5的自然比较中,来自外部医院的胸部X射线的性能显着低于来自原始医院系统的持续X射线。CNN能够以极高的准确度检测X射线的获取位置(医 院系统,医院部门)并相应地校准预测。CNN在诊断X射线疾病方面的表现不仅可以反映他们识别X射线疾病特异性成像结果的能力,还可以反映他们利用混杂信息的能力。基于来自用于模型训练的医院系统的测试数据估计CNN性能可能夸大其可能的实际表现。[1807.00431v1] 还有他们利用混杂信息的能力。基于来自用于模型训练的医院系统的测试数据估计CNN性能可能夸大其可能的实际表现。[1807.00431v1] 还有他们利用混杂信息的能力。基于来自用于模型训练的医院系统的测试数据估计CNN性能可能夸大其可能的实际表现。[1807.00431v1]
ErikLindén,JonasSjöstrand,Alexandre Proutiere
我们提出了一种将个人校准结合到基于视频的凝视估计的深度学习模型中的方法。使用我们的方法,我们证明通过每人校准六个参数,精度可以提高2.2到2.5倍。个人参数的数量,每只眼睛三个,与几何模型预测的数量相似。在MPIIGaze数据集上进行评估时,我们的估算器的性能优于人员特定的估算器。为了改善泛化,我们预测3D中的凝视射线(凝视的起源和方向)。在现有数据集中,3D凝视是不确定的,因为所有凝视目标与摄像机在同一平面中。对合成数据的实验表明,只有注释的凝视目标才能学习准确的3D凝视,而没有注释的眼睛位置。[1807.00664v1]
Shasha Li,Ajaya Neupane,Sujoy Paul,Chengyu Song,Srikanth V. Krishnamurthy,Amit K. Roy Chowdhury,Ananthram Swami
最近的研究表明机器学习系统对对抗性扰动的脆弱性。然而,研究主要局限于图像的扰动,更一般地说,分类不涉及时间上变化的输入。在本文中,我们问“在实时视频分类系统中是否可能存在对抗性扰动,如果是这样,它们必须满足哪些属性?” 这样的系统可应用于监视应用,智能车辆和智能老人护理,因此,错误分类可能特别有害(例如,可能错过老年护理机构的事故)。我们表明,时间结构的计算是在这种系统中产生对抗性例子的关键。我们利用生成对抗网络(GAN)架构的最新进展来解释时间相关性并生成可能导致针对目标活动的错误分类率超过80%的对抗性样本。更重要的是,这些样本还会使其他活动在很大程度上不受影响,使其非常隐蔽。最后,我们还惊奇地发现,在许多场景中,相同的扰动可以应用于视频剪辑中的每个帧,这使得对手能够相对容易地实现错误分类。[1807.00458v1] 相同的扰动可以应用于视频剪辑中的每个帧,这使得对手能够相对容易地实现错误分类。[1807.00458v1] 相同的扰动可以应用于视频剪辑中的每个帧,这使得对手能够相对容易地实现错误分类。[1807.00458v1]
Phuc Nguyen,Deva Ramanan,Charless Fowlkes
最近关于视觉识别的许多工作旨在将学习扩展到大规模,嘈杂注释的数据集。我们解决了将此类模型的评估扩展到具有噪声标签的大规模数据集的问题。这样做的当前协议要求人类用户审核(重新注释)测试集的一小部分并忽略其余部分,或者通过手动检查结果找到注释中的错误。在这项工作中,我们将问题重新制定为主动测试之一,并检查有效查询用户的策略,以便以最少的审查获得准确的性能估计。我们展示了我们提出的主动测试框架在估算两个流行计算机视觉任务的两个性能指标Precision @ K和平均平均精度方面的有效性,多标签分类和实例分割。我们进一步表明,我们的方法能够节省大量的人工注释工作,并且比其他评估协议更强大。[1807.00493v1]
JanRühaak,Thomas Polzin,Stefan Heldmann,Ivor JA Simpson,Heinz Handels,Jan Modersitzki,Mattias P. Heinrich
我们提出了一种新的肺部CT扫描登记算法。我们的方法是通过将稀疏关键点对应关系集成到密集的连续优化框架中来设计用于大呼吸运动。关键点对应的检测通过联合优化大量潜在的离散位移来实现对抗大变形的鲁棒性,而密集连续配准通过平滑变换实现子体素对准。两个步骤均由相同的标准化梯度场数据项驱动。我们采用曲率正则化和体积变化控制机制来防止变形网格的折叠,并将雅可比行列式的行列式限制为生理上有意义的值。通过具有自适应确定权重的二次惩罚将关键点对应关系整合到密集登记中。使用无并行无矩阵导数计算方案,在标准PC上实现了大约5分钟的运行时间。所提出的算法在肺部图像配准的EMPIRE10挑战中排名第一。此外,它在DIR-Lab COPD数据库上实现了0.82mm的平均界标距离,从而将现有技术的精度提高了15%。我们的算法是第一个在该数据集上达到地标注释的观察者间变异性的算法。[1807.00467v1] 此外,它在DIR-Lab COPD数据库上实现了0.82mm的平均界标距离,从而将现有技术的精度提高了15%。我们的算法是第一个在该数据集上达到地标注释的观察者间变异性的算法。[1807.00467v1] 此外,它在DIR-Lab COPD数据库上实现了0.82mm的平均界标距离,从而将现有技术的精度提高了15%。我们的算法是第一个在该数据集上达到地标注释的观察者间变异性的算法。[1807.00467v1]
Sang-gil Lee,Jae Seok Bae,Kim Hyunjae,Jung Hoon Kim,Sungroh Yoon
我们提出了一个利用定制设计的多阶段计算机断层扫描(CT)体积的局灶性肝脏病变检测模型,该模型使用单次多盒检测器(SSD)反映真实世界的临床病变检测实践。我们展示了分组卷积有效地利用了对象检测模型的多阶段数据的更丰富信息,而SSD的朴素应用遭受了泛化差距。我们通过五次交叉验证训练和评估了修改后的SSD模型和最近提出的具有64个受试者的CT数据集的变体。我们的模型平均精度得分为53.3%,每卷不超过3秒,优于原始模型和最先进的变体。结果表明,一阶段目标检测模型是一个实用的解决方案,它几乎可以实时运行,并且可以从大容量的现实世界检测数据集中学习无偏的特征表示,这需要较少的繁琐和耗时的弱相位边界框标签的构造。[1807.00436v1]
马方昌,Guilherme Venturelli Cavalheiro,Sertac Karaman
深度完成是从稀疏深度测量估计密集深度图像的技术,在机器人和自动驾驶中具有多种应用。然而,深度完成面临三个主要挑战:稀疏深度输入中的不规则间隔图案,处理多个传感器模态的困难(当彩色图像可用时),以及缺少密集的像素级地面实况深度标签。在这项工作中,我们解决了所有这些挑战。具体来说,我们开发了一个深度回归模型来学习从稀疏深度(和彩色图像)到密集深度的直接映射。我们还提出了一种自我监督的训练框架,它只需要一系列颜色和稀疏深度图像,而不需要密集的深度标签。我们的实验证明了我们的网络,当用半密集注释训练时,获得最先进的准确性,是提交时KITTI深度完成基准的获胜方法。此外,自我监督的框架优于使用半密集注释训练的许多现有解决方案。[1807.00275v1]
Julian Faraone,Nicholas Fraser,Michaela Blott,Philip HW Leong
对最先进的深度神经网络的推断在计算上是昂贵的,使得它们难以在受约束的硬件环境上部署。降低这种复杂性的有效方法是通过用有限的入口码本近似它们的分布来量化训练期间的权重参数和/或激活。对于非常低的精度,例如具有1-8位激活的二进制或三进制网络,由于前向和后向功能之间的大的梯度失配,来自量化的信息损失导致显着的精度降级。在本文中,我们介绍了一种量化方法,通过学习特定权重子群的对称码本来减少这种损失。这些子组是根据它们在权重矩阵中的位置确定的,这样可以保持低精度表示的硬件简单性。根据经验,我们证明了对称量化可以显着提高具有极低精度权重和激活的网络的准确性。我们还证明了这种表示对更粗粒度的方法施加了最小的硬件含义或没有硬件含义。源代码可在https://www.github.com/julianfaraone/SYQ获得。[1807.00301v1]
Michael Honke,Rahul Iyer,Dishant Mittal
真实感风格转移是一种通过使用深度学习和优化技术将颜色从一个参考域转移到另一个域的技术。在这里,我们提出了一种技术,用于将样式和颜色从参考图像传输到视频。[1807.00273v1]
Xinhan Di, Pengqian Yu, Meng Tian
已经证明深度神经网络在推理过程中容易出现特定对抗样本的噪声示例。现实世界应用中的鲁棒深度学习系统与易受攻击的神经网络之间的差距仍然很大。目前的对抗性训练策略提高了对抗对抗性样本的稳健性。然而,当输入实例是清洁时,这些方法导致精度降低,因此妨碍了实用性。在本文中,我们研究了一种方法,该方法保护神经网络分类免受敌对样本的影响,并在输入示例清晰时提高其准确性。我们在各种不同的网络和数据集上展示了我们提出的方法的多功能性和有效性。[1807.00340v1]
Benteng Ma, Yong Xia
近年来,深度卷积神经网络(DCNN)在图像分类和其他视觉应用方面取得了突破性成功。虽然通过提供统一的特征提取 – 分类框架使用户免于麻烦的手工特征提取,但DCNN仍然需要手工设计他们的架构。在本文中,我们提出了遗传DCNN设计器,一种自主学习算法可以根据可用于特定图像分类问题的数据自动生成DCNN架构。我们首先将DCNN划分为多个堆叠的元卷积块和完全连接的块,每个块包含卷积,池化,完全连接,批量归一化,激活和丢弃的操作,从而将架构转换为整数向量。然后,我们使用精细的进化操作,包括选择,变异和交叉来演化一群DCNN架构。我们在MNIST,Fashion-MNIST,EMNISTDigit,EMNIST-Letter,CIFAR10和CIFAR100数据集上的结果表明,所提出的基因DCNN设计师能够自动生成DCNN架构,其性能可与下述状态相媲美,如果不是更好的话 – 最先进的DCNN模型[1807.00284v1]
Konstantinos Zampogiannis,Cornelia Fermuller,Yiannis Aloimonos
我们介绍了cilantro,一个用于几何和通用点云数据处理的开源C ++库。该库提供的功能涵盖了低级点云操作,空间推理,各种点云分割方法和通用数据聚类,灵活或局部几何对齐的灵活算法,模型拟合以及强大的可视化工具。为了适应各种工作流程,cilantro几乎完全模板化,其大多数通用算法都在任意数据维度上运行。同时,该库易于使用且具有高度表现力,促进了简洁的编码风格。cilantro经过高度优化,具有最小的外部依赖性,并支持在各种环境中快速开发高性能点云处理软件。
Li Liu, Jiasong Wu, Dengwang Li, Lotfi Senhadji, Huazhong Shu
目的:本研究介绍了一种分数小波散射网络(FrScatNet),它是经典小波散射网络(ScatNet)的广义平移不变量。方法:在我们的方法中,FrScatNet是基于分数小波变换(FRWT)构建的。使用FRWT和模运算符迭代计算分数散射系数。由分数散射系数构造的特征向量通常用于信号分类。在这项工作中,提供了FrScatNet的应用示例,以评估其在病理图像上的性能。首先,FrScatNet从不同顺序的原始组织学图像的片段中提取特征向量。然后我们将这些补丁分类为目标(良性或恶性)和背景组。并且通过分别比较从不同分数阶计算的错误率来分析FrScatNet属性。基于上述病理图像分类,结合边界信息和腺体位置,提出了一种腺体分割算法。结果:检验了FrScatNet不同分数阶的误差率,表明分数散射域的分类精度得到显着提高。我们还将基于FrScatNet的腺体分割方法与2015年MICCAI腺体分割挑战中提出的方法进行了比较,我们的方法获得了可比较的结果。结论:FrScatNet可以获得准确而强大的结果。在这项工作中,FrScatNet获得了更稳定和有区别的分数散射系数。意义:添加的分数阶参数能够分析分数散射域中的图像。[1807.00141v1]
Keze Wang, Liang Lin, Xiaopeng Yan, Ziliang Chen, Dongyu Zhang, Lei Zhang
虽然非常具有挑战性,但使用大规模未标记或部分标记的数据集的物体探测器的训练由于其对 神经网络和学习系统的应用具有根本重要性而引起了研究人员越来越多的兴趣。为了解决该问题,已经提出了许多主动学习(AL)方法,其采用最新的检测器来根据预定义的置信度或不确定性阈值来检索代表性的少数样本。然而,这些AL方法使得检测器忽略剩余的大多数样本(即,具有低不确定性或高预测置信度的样本)。在这项工作中,通过开发原则主动样本挖掘(ASM)框架,我们证明,从这些未标记的大多数数据中获得经济有效的采样样本是培养更强大的物体探测器同时最大限度减少用户工作量的关 具体而言,我们的ASM框架涉及选择性可切换的样本选择机制,用于确定是否应通过AL手动注释未标记的样本或通过新颖的自学过程自动伪标记。所提出的过程可以与基于小批量的训练(即,使用一批未标记或部分标记的数据作为一次性输入)兼容以用于对象检测。对两个公共基准的广泛实验清楚地表明,我们的ASM框架可以实现与替代方法相当的性能,但注释明显更少。[1807.00147v1] 我们的ASM框架涉及一种选择性可切换的样本选择机制,用于确定是否应通过AL手动注释未标记的样本,或通过新颖的自学过程自动伪标记。所提出的过程可以与基于小批量的训练(即,使用一批未标记或部分标记的数据作为一次性输入)兼容以用于对象检测。对两个公共基准的广泛实验清楚地表明,我们的ASM框架可以实现与替代方法相当的性能,但注释明显更少。[1807.00147v1] 我们的ASM框架涉及一种选择性可切换的样本选择机制,用于确定是否应通过AL手动注释未标记的样本,或通过新颖的自学过程自动伪标记。所提出的过程可以与基于小批量的训练(即,使用一批未标记或部分标记的数据作为一次性输入)兼容以用于对象检测。对两个公共基准的广泛实验清楚地表明,我们的ASM框架可以实现与替代方法相当的性能,但注释明显更少。[1807.00147v1] 所提出的过程可以与基于小批量的训练(即,使用一批未标记或部分标记的数据作为一次性输入)兼容以用于对象检测。对两个公共基准的广泛实验清楚地表明,我们的ASM框架可以实现与替代方法相当的性能,但注释明显更少。[1807.00147v1] 所提出的过程可以与基于小批量的训练(即,使用一批未标记或部分标记的数据作为一次性输入)兼容以用于对象检测。对两个公共基准的广泛实验清楚地表明,我们的ASM框架可以实现与替代方法相当的性能,但注释明显更少。[1807.00147v1]
Yong Liu, Ruiping Wang, Shiguang Shan, Xilin Chen
上下文对于准确的视觉识别很重要。在这项工作中,我们提出了一种物体检测算法,它不仅可以考虑物体的视觉外观,还可以利用两种上下文,包括单个图像中的场景上下文信息和对象关系。因此,当利用这些结构化信息时,对象检测被认为是认知问题和推理问题。具体而言,本文将对象检测制定为图结构推理的问题,其中给定图像,对象被视为图中的节点,并且对象之间的关系被建模为这种图中的边。为此,我们提出了一种所谓的结构推理网络(SIN),一种结合到典型检测框架中的检测器(例如,更快的R-CNN)具有旨在推断对象状态的图形模型。PASCAL VOC和MS COCO数据集的综合实验表明,场景环境和物体关系真正提高了物体检测的性能,提供了更理想和合理的输出。[1807.00119v1]
基于微分几何中Wasserstein距离的CT图像肺结节分类
Min Zhang, Qianli Ma, Chengfeng Wen, Hai Chen, Deruo Liu, Xianfeng Gu, Jie He, Xiaoyin Xu
肺结节通常在筛查患有肺癌风险的患者时被检测到。尽管通过细针穿刺活检或支气管镜检查可以很容易地诊断大结节的状态,但是小结节通常很难在计算机断层扫描(CT)上进行分类。最近的研究表明,肺结节的形状分析可用于区分良性病变和恶性病变,尽管现有方法的敏感性和特异性有限。在这项工作中,我们在微分几何框架内引入了一种新的三维形状分析,以计算良性和恶性肺结节之间的Wasserstein距离,从而得出准确的分类方案。结节之间的Wasserstein距离是根据我们新的球形最佳质量传递计算的,这种新算法通过使用球形度量直接在球体上工作,这比以前的方法更准确和有效。在变形过程中,面积 – 畸变因子给出了单位球面上的概率测度,形成了瓦瑟斯坦空间。从已知的良性和恶性肺结节病例中,我们可以计算出相应变形的Wasserstein空间之间唯一的最佳质量传递图。这种运输成本定义了它们之间的Wasserstein距离,可用于将新的肺结节分为良性或恶性类。据我们所知,这是第一项利用Wasserstein距离进行肺结节分类的工作。Wasserstein距离的优点是在刚性运动和缩放下是不变的,因此,即使下面的形状具有高复杂性,它本质上也可以测量形状距离,因此它很适合对肺结节进行分类,因为它们具有不同的尺寸,方向和外观。[1807.00094v1]
Yu Liu, Guanlong Zhao, Boyuan Gong, Yang Li, Ritu Raj, Niraj Goel, Satya Kesav, Sandeep Gottimukkala, Zhangyang Wang, Wenqi Ren, Dacheng Tao
本文回顾了作者团队在最近发布的REalistic Single Image DEhazing(RESIDE)基准测试中探索两个相互关联的重要任务的集体努力:i)单图像去雾作为低级图像恢复问题; ii)来自模糊图像的高级视觉理解(例如,对象检测)。对于第一项任务,作者研究了各种损失函数,并发现感知驱动的损失非常显着地改善了除雾性能。对于第二项任务,作者提出了多种解决方案,包括在去雾检测级联中使用更高级的模块,以及域自适应对象检测器。在这两项任务中,我们提出的解决方案都经过验证,可以显着提升最先进的性能。。
Bruno Korbar,Du Tran,Lorenzo Torresani
视频的视觉和听觉元素之间存在自然关联。在这项工作中,我们利用此连接来学习自我监督时间同步的音频和视频分析的一般和有效功能。我们证明校准的课程学习方案,仔细选择反面例子和使用对比度损失是从优化的模型中获得强大的多感官表示以识别音频 – 视频对的时间同步的关键因素。在没有进一步微调的情况下,所产生的音频功能可以达到性能优于现有音频分类基准(DCASE2014和ESC-50)的最新技术水平。与此同时,我们的视觉子网提供了非常有效的初始化,以提高基于视频的动作识别模型的准确性:与从头开始学习相比,我们的自我监督预训练在UCF101上的动作识别准确度上获得了+ 16.7%的显着增益,并且提升了+ HMDB51为13.0%。[1807.00230v1]
A Pulmonary Nodule Detection Model Based on Progressive Resolution and Hierarchical Saliency
Junjie Zhang, Yong Xia, Yanning Zhang
Ambient Hidden Space of Generative Adversarial Networks
Xinhan Di, Pengqian Yu, Meng Tian
Understanding the Effectiveness of Lipschitz Constraint in Training of GANs via Gradient Analysis
Zhiming Zhou, Yuxuan Song, Lantao Yu, Yong Yu
Introducing the Simulated Flying Shapes and Simulated Planar Manipulator Datasets
Fabio Ferreira, Jonas Rothfuss, Eren Erdal Aksoy, You Zhou, Tamim Asfour
Sample Efficient Semantic Segmentation using Rotation Equivariant Convolutional Networks
Jasper Linmans, Jim Winkens, Bastiaan S. Veeling, Taco S. Cohen, Max Welling
Evenly Cascaded Convolutional Networks
Chengxi Ye, Chinmaya Devaraj, Michael Maynord, Cornelia Fermüller, Yiannis Aloimonos
SphereReID: Deep Hypersphere Manifold Embedding for Person Re-Identification
Xing Fan, Wei Jiang, Hao Luo, Mengjuan Fei
Crowd Counting using Deep Recurrent Spatial-Aware Network
Lingbo Liu, Hongjun Wang, Guanbin Li, Wanli Ouyang, Liang Lin
Leveraging Uncertainty Estimates for Predicting Segmentation Quality
Terrance DeVries, Graham W. Taylor
Mammography Dual View Mass Correspondence
Shaked Perek, Alon Hazan, Ella Barkan, Ayelet Akselrod-Ballin
Deep Reasoning with Knowledge Graph for Social Relationship Understanding
Zhouxia Wang, Tianshui Chen, Jimmy Ren, Weihao Yu, Hui Cheng, Liang Lin
Studio2Shop: from studio photo shoots to fashion articles
Julia Lasserre, Katharina Rasch, Roland Vollgraf
Knowledge-Embedded Representation Learning for Fine-Grained Image Recognition
Tianshui Chen, Liang Lin, Riquan Chen, Yang Wu, Xiaonan Luo
COSMO: Contextualized Scene Modeling with Boltzmann Machines
Ilker Bozcan, Sinan Kalkan
Women also Snowboard: Overcoming Bias in Captioning Models (Extended Abstract)
Lisa Anne Hendricks, Kaylee Burns, Kate Saenko, Trevor Darrell, Anna Rohrbach
Elastic Neural Networks: A Scalable Framework for Embedded Computer Vision
Yue Bai, Shuvra S. Bhattacharyya, Antti P. Happonen, Heikki Huttunen
Classifying neuromorphic data using a deep learning framework for image classification
Roshan Gopalakrishnan, Yansong Chua, Laxmi R Iyer
An initial study on estimating area of a leaf using image processing
G. D. Illeperuma
Estimating Phenotypic Traits From UAV Based RGB Imagery
Javier Ribera, Fangning He, Yuhao Chen, Ayman F. Habib, Edward J. Delp
Multi-modal Egocentric Activity Recognition using Audio-Visual Features
Mehmet Ali Arabacı, Fatih Özkan, Elif Surer, Peter Jančovič, Alptekin Temizel
PointSIFT: A SIFT-like Network Module for 3D Point Cloud Semantic Segmentation
Mingyang Jiang, Yiran Wu, Cewu Lu
Confounding variables can degrade generalization performance of radiological deep learning models
John R. Zech, Marcus A. Badgeley, Manway Liu, Anthony B. Costa, Joseph J. Titano, Eric K. Oermann
Appearance-Based 3D Gaze Estimation with Personal Calibration
Erik Lindén, Jonas Sjöstrand, Alexandre Proutiere
Adversarial Perturbations Against Real-Time Video Classification Systems
Shasha Li, Ajaya Neupane, Sujoy Paul, Chengyu Song, Srikanth V. Krishnamurthy, Amit K. Roy Chowdhury, Ananthram Swami
Active Testing: An Efficient and Robust Framework for Estimating Accuracy
Phuc Nguyen, Deva Ramanan, Charless Fowlkes
Estimation of Large Motion in Lung CT by Integrating Regularized Keypoint Correspondences into Dense Deformable Registration
Jan Rühaak, Thomas Polzin, Stefan Heldmann, Ivor J. A. Simpson, Heinz Handels, Jan Modersitzki, Mattias P. Heinrich
Liver Lesion Detection from Weakly-labeled Multi-phase CT Volumes with a Grouped Single Shot MultiBox Detector
Sang-gil Lee, Jae Seok Bae, Hyunjae Kim, Jung Hoon Kim, Sungroh Yoon
Self-supervised Sparse-to-Dense: Self-supervised Depth Completion from LiDAR and Monocular Camera
Fangchang Ma, Guilherme Venturelli Cavalheiro, Sertac Karaman
SYQ: Learning Symmetric Quantization For Efficient Deep Neural Networks
Julian Faraone, Nicholas Fraser, Michaela Blott, Philip H. W. Leong
Photorealistic Style Transfer for Videos
Michael Honke, Rahul Iyer, Dishant Mittal
Towards Adversarial Training with Moderate Performance Improvement for Neural Network Classification
Xinhan Di, Pengqian Yu, Meng Tian
Autonomous Deep Learning: A Genetic DCNN Designer for Image Classification
Benteng Ma, Yong Xia
cilantro: a lean, versatile, and efficient library for point cloud data processing
Konstantinos Zampogiannis, Cornelia Fermuller, Yiannis Aloimonos
Fractional Wavelet Scattering Network and Applications
Li Liu, Jiasong Wu, Dengwang Li, Lotfi Senhadji, Huazhong Shu
Cost-effective Object Detection: Active Sample Mining with Switchable Selection Criteria
Keze Wang, Liang Lin, Xiaopeng Yan, Ziliang Chen, Dongyu Zhang, Lei Zhang
Structure Inference Net: Object Detection Using Scene-Level Context and Instance-Level Relationships
Yong Liu, Ruiping Wang, Shiguang Shan, Xilin Chen
Classification of lung nodules in CT images based on Wasserstein distance in differential geometry
Min Zhang, Qianli Ma, Chengfeng Wen, Hai Chen, Deruo Liu, Xianfeng Gu, Jie He, Xiaoyin Xu
Improved Techniques for Learning to Dehaze and Beyond: A Collective Study
Yu Liu, Guanlong Zhao, Boyuan Gong, Yang Li, Ritu Raj, Niraj Goel, Satya Kesav, Sandeep Gottimukkala, Zhangyang Wang, Wenqi Ren, Dacheng Tao
Co-Training of Audio and Video Representations from Self-Supervised Temporal Synchronization
Bruno Korbar, Du Tran, Lorenzo Torresani
转载请注明:《SphereReID:Deep Hypersphere流形嵌入用于行人重识别+经济高效的对象检测:具有可切换选择标准的主动样本挖掘+使用旋转等变卷积网络的样本高效语义分割》