Hajar Sadeghi Sokeh,Vasileios Argyriou,Dorothy Monekosso,Paolo Remagnino
视频分割的目标是将视频数据转换为一组可以轻松解释为视频构建块的具体运动集群。有一些类似主题的作品,比如检测视频中的场景剪辑,但很少有关于将视频数据聚类到所需数量的紧凑片段的具体研究。与从我们称之为超帧的低级分组过程获得的具有感知上有意义的实体一起工作会更直观,更高效。本文提出了一种新的简单而有效的技术来检测视频中类似内容模式的超帧。我们计算内容运动的相似度以获得连续帧之间的变化强度。借助使用深模型的现有光流技术,所提出的方法能够有效地执行更准确的运动估计。我们还提出了两个衡量和比较各种数据库上不同算法性能的标准。来自基准数据库的视频实验结果证明了该方法的有效性。[1804.06642v1]
Kairen Liu,Rana Ali Amjad,Bernhard C. Geiger
在这项工作中,我们通过熵,与类变量的互信息以及基于Kullback-Leibler散度的类选择性度量来描述训练前馈神经网络中单个神经元的输出。通过累积消融网络中的神经元,我们将这些信息理论措施与其去除对测试集分类性能的影响联系起来。我们观察到,从整体上看神经网络,这些度量都不是分类性能的好指标,因此证实了Morcos等人最近的结果。但是,分别查看特定层次,互信息和类选择性与分类性能呈正相关。因此,我们得出结论认为,不同层次的这些措施相比较是不明智的,并且不同的层可以通过不同的措施来最恰当地表征。然后我们讨论从神经网络修剪神经元以减少推理的计算复杂度。从我们的结果中,我们基于信息理论测量对具有在MNIST数据集上训练的两个隐藏层的全连接前馈神经网络执行修剪,并将结果与 最近提出的修剪方法进行比较。我们还表明,修剪后重新训练的常见做法可以部分通过称为偏差平衡的手术步骤来消除,而不会导致显着的性能下降。[1804.06679v1] 我们基于信息理论测量对基于MNIST数据集训练的具有两个隐层的全连接前馈神经网络进行修剪,并将结果与 最近提出的修剪方法进行比较。我们还表明,修剪后重新训练的常见做法可以部分通过称为偏差平衡的手术步骤来消除,而不会导致显着的性能下降。[1804.06679v1] 我们基于信息理论测量对基于MNIST数据集训练的具有两个隐层的全连接前馈神经网络进行修剪,并将结果与 最近提出的修剪方法进行比较。我们还表明,修剪后重新训练的常见做法可以部分通过称为偏差平衡的手术步骤来消除,而不会导致显着的性能下降。[1804.06679v1]
郝谭,Mohit Bansal
例如基于新发布的康奈尔自然语言视觉推理(NLVR)数据集的组成性自然语言指令的视觉推理是一项具有挑战性的任务,其中该模型需要能够创建不同短语和几个物体放置在图像中的复杂排列中。此外,需要对这个映射进行处理,以在给定三个相似图像上对象的排序和关系的情况下回答声明中的问题。在本文中,我们针对NLVR任务提出了一种新颖的端到端神经模型,我们首先使用联合双向注意来构建视觉信息和语言短语之间的双向调节。下一个,我们使用基于RL的指针网络对三个图像中的每一个中的不同数量的无序对象进行排序和处理(以便匹配语句短语的顺序),然 后汇总三个决策。我们的模型在数据集的结构化表示和原始图像版本上实现了比现有技术更强的改进(绝对值为4-6%)。[1804.06870v1]
AnaGarcíadel Molino,Michael Gygli
突出显示检测模型通常经过培训以识别使视觉内容对普通大众有吸引力或有趣的线索,目的是将视频减少到这样的时刻。然而,视频片段或图像的“趣味性”是主观的。因此,这样的突出模型提供了针对个人用户的有限相关性的结果。另一方面,为每个用户培训一个模型效率低下,并且需要大量通常不可用的个人信息。为了克服这些限制,我们提出了一个全球排名模型,该模型对每个特定用户的兴趣进行了规定 我们的模型不是为每个用户培训一个模型,而是通过其输入来进行个性化设置,这样只有少数用户特定的示例,才能有效地调整其预测。为了训练这个模型,我们创建了一个大规模的用户数据集和他们创建的GIF,为我们提供了他们的兴趣准确指示。我们的实验表明,使用用户历史可以大大提高预测的准确性。在我们的850个视频测试集中,我们的模型相对于通用高亮度检测器将回忆提高了8%。此外,即使仅使用一个人特定的示例,我们的方法也比用户不可知基线更精确。[1804.06604v1] 即使只有一个人特定的示例,我们的方法也比用户不可知的基线更精确。[1804.06604v1] 即使只有一个人特定的示例,我们的方法也比用户不可知的基线更精确。[1804.06604v1]
忠总管Hieu陈,王喆,西蒙·斯文
本文提出了一个精确估计全光图像视差图的计算框架。所提出的框架基于变分原理并提供固有的子像素精度。该框架中引入的光场运动张量允许我们结合先进的强大数据项,并为不同颜色通道提供明确的处理。我们的框架中嵌入了扭曲战略来解决大型流离失所问题。我们还表明,通过应用简单的正则化项和导向中值滤波,可以大大提高遮挡区域位移场的精度。我们通过与Lytro软件和当代合成和现实世界数据集进行深入比较,展示了所提议的框架的出色表现。[1804。
Xinpeng Xie, Yuexiang Li, Linlin Shen
乳腺癌是女性中第二大常见恶性肿瘤,已成为当前社会的主要公共卫生问题。传统的乳腺癌鉴定需要经验丰富的病理学家仔细阅读乳房切片,这是很费力的,并且受到观察者间差异的影响。因此,乳腺癌鉴定的自动分类框架是值得开发的。近年来见证了深度学习技术的发展。越来越多的医疗应用开始使用深度学习来提高诊断的准确性。在本文中,我们提出了一种新颖的训练策略,即逆转主动学习(RAL),以训练网络自动分类乳腺癌图像。我们的RAL被应用于简单卷积神经网络(CNN)的训练集以去除错误标记的图像。我们评估在公开可用的ICIAR 2018乳腺癌数据集(IBCD)中使用RAL训练的CNN。实验结果表明,我们的RAL将CNN的基于片段的准确度从93.75%提高到96.25%。[1804.06670v1]
Goutam Bhat,Joakim Johnander,Martin Danelljan,Fahad Shahbaz Khan,Michael Felsberg
在通用对象跟踪领域,已经进行了许多尝试来利用深度特征。尽管有所有的期望,但与仅基于手工功能的方法相比,深度跟踪器仍未达到出色的性能水平。在本文中,我们调查了这个关键问题,并提出了解决深度特征追踪真实潜力的方法。我们系统地研究了深和浅特征的特征,以及它们与跟踪精度和鲁棒性的关系。我们将有限的数据和低空间分辨率确定为主要挑战,并提出策略以在集成深度特征进行跟踪时解决这些问题。此外,我们提出了一种新的自适应融合方法,利用深度和浅层特征的互补特性来提高鲁棒性和准确性。对四个具有挑战性的数据集进行了大量实验。在VOT2017上,我们的方法明显优于EAO中最高性能跟踪器,相对增益为17%。[1804.06833v1]
Fenggen Yu, Yan Zhang, Kai Xu, Ali Mahdavi-Amiri, Hao Zhang
我们提出了一个半监督的协同分析方法,用于从投影要素线学习3D形状样式,实现只有弱监督的样式片定位。鉴于跨越多个对象类别和样式的3D形状集合,我们对每个3D形状的投影要素线执行样式协同分析,然后将学习样式要素反向投影到3D形状上。我们的核心分析流程始于中级补丁抽样和预选候选样式补丁。然后通过拼接卷积编码投影特征。多视点特征集成和风格聚类是在部分共享潜在因子(PSLF)学习框架下进行的,这是一种多视点特征学习方案。PSLF通过从多个视图中提取一致和互补的特征信息,同时从候选中选择样式补丁,实现有效的多视点特征融合。我们的风格分析方法支持无监督分析和半监督分析。对于后者,我们的方法接受用户指定的形状标签和风格排 列的三元组作为聚类约束条件。我们演示了3D形状样式分析和补丁定位的结果以及对最先进方法的改进。我们还通过我们的风格分析提供了几个应用程序。[1804.06579v1] 我们的方法接受用户指定的形状标签和风格排 列的三元组作为聚类约束条件。我们演示了3D形状样式分析和补丁本地化的结果以及相对于最先进方法的改进。我们还通过我们的风格分析提供了几个应用程序。[1804.06579v1] 我们的方法接受用户指定的形状标签和风格排 列的三元组作为聚类约束条件。我们演示了3D形状样式分析和补丁本地化的结果以及相对于最先进方法的改进。我们还通过我们的风格分析提供了几个应用程序。[1804.06579v1]
Santhosh Kelathodi库马兰,德碧PROSAD多格拉,帕塔Pratim罗伊
优化的场景表示是用于检测实况视频异常的框架的重要特征。检测实时视频异常的挑战之一是以非参数方式实时检测对象。另一个挑战是有效地表示跨帧的对象状态。在本文中,提出了一种基于Gibbs抽样的启发式模型,称为时间未知增量聚类(TUIC),用于将像素与运动聚类。首先使用光流检测像素运动,并且已经应用 贝叶斯算法将后续帧中属于相似群集的像素相关联。该算法速度快,并在$ \ Theta(kn)$ time中产生精确的结果,其中$ k $是聚类数量,$ n $是像素数量。我们使用公开可用的数据集进行的实验验证表明,所提出的框架具有很好的潜力来为实时流量分析开辟新的机会。[1804.06680v1]
太俊君,黄明阮,Daeyoun康,Dohyeun金,大荣金,扬鹤金
在本文中,我们提出了一种有效的心电图(心电图)心律失常分类方法,使用深度二维卷积神经网络(CNN),最近在模式识别领域表现出色。每个心电图节拍都被转换成二维灰度图像作为CNN分类器的输入数据。所提出的CNN分类器的优化包括各种深度学习技术,例如批量归一化,数据增强,Xavier初始化和丢失。另外,我们将我们提出的分类器与两个着名的CNN模型进行了比较; AlexNet和VGGNet。MIT-BIH心律失常数据库的ECG记录用于分类器的评估。因此,我们的分类器的平均准确度达到了99.05%,平均灵敏度达到了97.85%。为了准确验证我们的CNN分类器,在评估时进行了10次交叉验证,其中每次ECG记录都作为测试数据。我们的实验结果已经成功地验证了所提出的具有变换的ECG图像的CNN分类器可以实现优异的分类准确性,而不需要对ECG信号进行任何手动预处理,例如噪声滤波,特征提取和特征降低。[1804.06812v1]
Tae Joon Jun,康金康,June-Goo Lee,Jihoon Kweon,Wonjun Na,Daeyoun Kang,Dohyeun Kim,Daeyoung Kim,Young-Hak Kim
急性冠状动脉综合征(ACS)是一种由冠状动脉血流减少引起的综合征。ACS通常与冠状动脉血栓形成有关,主要由斑块破裂,斑块侵蚀和钙化结节引起。已知薄帽状纤维粥样瘤(TCFA)是与斑块破裂形态学上最相似的损伤。在本文中,我们提出了使用包括前馈神经网络(FNN),K-最近邻(KNN),随机森林(RF)和卷积神经网络(CNN)在内的各种机器学习分类器对TCFA进行分类的方法以找出分类器显示最佳的TCFA分类准确性。此外,我们建议使用基于像素范围的特征提取方法来提取不同兴趣区域的像素比例,以反映医生的TCFA区分标准。总共12,325个IVUS图像用相应的OCT图像标记以训练和评估分类器。按照使用FNN,KNN,RF和CNN分类器的顺序,我们在ROC曲线下面积(AUC)达到了0.884,0.890,0.878和0.933面积。因此,CNN分类器表现最佳,基于特征的分类器(FNN,KNN,RF)的前10个特征与医师的TCFA诊断标准类似。[1804.06817v1] TCFA诊断标准。[1804.06817v1] TCFA诊断标准。[1804.06817v1]
唐纳特,斯坦伯奇菲尔德,乔纳森特伦布莱
我们提出了一个名为Falling Things(FAT)的新数据集,用于推进机器人技术环境下的物体检测和3D姿态估计的最新技术。通过对复杂构图和高图形质量的对象模型和背景进行综合组合,我们能够为所有图像中的所有对象生成具有精确三维姿态注释的照片真实感图像。我们的数据集包含来自YCB数据集的21个家庭对象的60k注释照片。对于每个图像,我们为所有对象提供3D姿势,每像素类分割以及2D / 3D边界框坐标。为了便于测试不同的输入模式,我们提供单声道和立体声RGB图像以及注册的密集深度图像。我们详细描述了数据的生成过程和统计分析。[1804.06534v1]
Xiu Li, Hongdong Li, Hanbyul Joo, Yebin Liu, Yaser Sheikh
本文提出了一种新的非刚性运动结构(NRSfM)方法,该方法从长单眼视频序列观察非刚性物体执行循环和可能重复的动态行为。从传统的使用线性低阶或低阶形状模型的NRSfM任务出发,我们的方法利用了形状反复性的性质(即许多变形形状往往会在时间上重复出现)。我们表明,反复发生实际上是一种广义的僵化。基于此,我们将NRSfM问题简化为刚性问题,只要满足某些重复性条件。鉴于这种减少,标准的刚性SfM技术可直接应用于(不作任何改变)重构非刚性动态形状。为了实现这个想法作为一种实用的方法,本文开发了用于自动重复检测的高效算法,以及通过刚性检查进行摄像机视图聚类。对模拟序列和实际数据的实验证明了该方法的有效性。由于本文提供了一种反思运动结构的新视角,我们希望它能激发该领域的其他新问题。[1804.06510v1]
使用具有多尺寸胸部放射线图像的卷积神经网络的集合自动诊断气胸
Tae Joon Jun,Dohyeun Kim,Daeyoung Kim
气胸是一种相对常见的疾病,但在某些情况下,可能很难用胸部X光片找到。在本文中,我们提出了一种新的检测胸部X线胸片的方法。我们提出了具有三种不同尺寸的放射照相图像的相同卷积神经网络(CNN)的集合模型。传统方法可能无法正确表征丢失的特征,同时将大尺寸图像调整为256 x 256或224 x 224大小。我们的模型通过包含100,000多张胸部X光片图像的ChestX-ray数据集进行评估。作为实验的结果,所提出的模型显示AUC 0.911,这是气胸检测中的最先进结果。将CNN应用于大尺寸医学图像时,我们的方法预计会很有效。[1804.06821v1]
Robert J. Wang, Xiang Li, Shuang Ao, Charles X. Ling
在计算能力和内存资源有限的移动设备上运行卷积神经网络(CNN)模型的需求日益增加,这促使人们对有效的模型设计进行研究。近年来已提出了许多有效的体系结构,例如MobileNet,ShuffleNet和NASNet-A。然而,所有这些模型严重依赖于深度可分卷积,在大多数深度学习框架中缺乏有效的实现。在这项研究中,我们提出了一个名为PeleeNet的高效架构,它是用常规卷积代替的。在ImageNet ILSVRC 2012数据集中,我们提出的PeleeNet比MobileNet这种最先进的高效架构的准确度高0.6%(71.3%比70.7%)和计算成本低11%。同时,PeleeNet仅为MobileNet模型尺寸的66%。然后,我们通过将PeleeNet与Single Shot MultiBox Detector(SSD)方法相结合,并针对快速速度优化体系结构,提出了一种实时对象检测系统。我们建议的检测系统名为Pelee,在PASCAL VOC2007和MS COCO数据集上分别达到76.4%mAP(平均精确度)和17.4 FPS(iPhone 6s和23.6 FPS)。在COCO上的结果优于YOLOv2考虑更高的精度,13.6倍的低计算成本和11.3倍的模型尺寸。代码和模型是开源的。[1804.06882v1] MS COCO数据集上的4 mAP,iPhone 6上的速度为17.1 FPS,iPhone 8上的速度为23.6 FPS。考虑到更高的精度,13.6倍的计算成本和11.3倍的模型尺寸,考虑到COCO的结果优于YOLOv2。代码和模型是开源的。[1804.06882v1] MS COCO数据集上的4 mAP,iPhone 6上的速度为17.1 FPS,iPhone 8上的速度为23.6 FPS。考虑到更高的精度,13.6倍的计算成本和11.3倍的模型尺寸,考虑到COCO的结果优于YOLOv2。代码和模型是开源的。[1804.06882v1]
Mahdi Abavisani,Vishal M. Patel
我们提出了基于卷积神经网络(CNN)的无监督多模态子空间聚类方法。所提出的框架由三个主要阶段组成 – 多模式编码器,自我表现层和多模式解码器。编码器将多模态数据作为输入并将它们熔合成潜在的空间表示。我们调查早期,晚期和中期融合技术,并提出三种不同的编码器相应的空间融合。对于不同的基于空间融合的方法,自我表现层和多模式解码器基本相同。除了各种基于空间融合的方法之外,还提出了一种基于亲和融合的网络,其中与不同模态相对应的自我表现层被强制为相同。对三个数据集的大量实验表明,所提出的方法明显优于最先进的多模态子空间聚类方法。[1804.06498v1]
Xiaofeng Xu, Ivor W. Tsang, Chuancai Liu
零点学习(ZSL)旨在通过属性使用不相交的可见对象识别看不见的对象,以将语义信息从训练数据传输到测试数据。ZSL的泛化性能受属性的控制,这些属性代表了所看到的类和看不见的类之间的相关性。在本文中,我们提出了一种新的ZSL方法,使用互补属性作为原始属性的补充。我们首先用它们的补充形式来扩展属性,然后使用训练数据对原始属性和互补属性进行预分类。在对每个属性进行排序后,我们使用排名聚合框架来计算最高排序被指定为测试样本标签的测试类别中的优化排名。我们凭经验证明,互补属性对ZSL模型有一个有效的改进。实验结果表明,我们的方法优于标准ZSL数据集上的最新方法。[1804.06505v1]
Eric Hofesmann,Madan Ravi Ganesh,Jason J. Corso
行动分类是一项广为人知的流行任务,它提供了一种视频理解的方法。没有包含最新技术(SOTA)模型的易于使用的平台给社区带来了问题。考虑到单个研究代码并不是考虑最终用户编写的,并且在某些情况下代码没有发布,即使是已发布的文章,在减轻开发整个系统负担的同时,能够提供结果的通用统一平台的重要性不能夸大。为了试图克服这些问题,我们开发了一个基于张量流的统一平台,以抽象出端到端流水线设置方面不必要的开销,以便用户快速轻松地对动作分类模型进行原型设计。通过在不同模型之间使用一致的编码风格以及各种子模块之间的无缝数据流,该平台适用于各种数据集的各种SOTA方法的快速生成结果。所有这些功能都可以通过使用完全预定义的训练和测试模块来实现,这些模块基于一组小型但功能强大的模块化函数构建,用于处理异步数据加载,模型初始化,度量计算,检查点的保存和加载以及记录结果。该平台旨在轻松创建模型,最低要求是定义网络体系结构,并从大量自定义层选择和预处理功能中预处理步骤。M-PACT目前拥有四个SOTA活动分类模型,其中包括I3D,C3D,ResNet50 + LSTM和TSN。对于HMDB51,ResNet50 + LSTM的分类性能达到43.86%,而C3D和TSN分别达到UCF101的93.66%和85.25%。[1804.05879v2]
Ziang Cheng, Shaodi You, Viorela Ila, Hongdong Li
由于单个图像中包含的信息有限,因此单幅图像雾霾消除具有挑战性。以前的解决方案很大程度上依赖于手工制作的先验来弥补这一缺陷。最近的卷积神经网络(CNN)模型已经被用于学习与雾霾有关的先验,但它们最终用作先进的图像滤波器。在本文中,我们提出了一种新颖的单向图像雾霾去除语义方法。与现有方法不同,我们基于提取的语义特征推断颜色先验。我们认为,语义上下文可以被利用来提供信息提示(a)在清晰图像之前学习颜色和(b)估计环境照明。这种设计使我们的模型能够从具有强烈模糊性的具有挑战性的案例中恢复清晰的图像,例如饱和照明颜色和图像中的天空区域。在实验中,我们验证了我们的方法在合成和真实朦胧图像上的效果,其中我们的方法表现出优于最先进方法的性能,表明语义信息有助于消除雾霾任务。[1804.05624v2]
诺埃尔CF卡拉,达伦安德森,泰勒飞利浦,安东尼波尔图,凯文马西,简斯诺登,罗杰里奥费里斯,约翰史密斯
这项工作提出了从临床环境标准照相机照片中对患病和健康皮肤的第一次分割研究。各种照明条件,皮肤类型,背景和病理状态都会带来挑战。为了研究,回顾性地从初级保健网络收集代表皮肤的各种病理状态的400张临床照片(具有皮肤分割掩模)。100幅图像用于训练和微调,300幅用于评估。选择训练和测试分区之间的这种分布是为了反映在该领域中聚集大量标记数据的困难。采用深度学习方法,收集3个健康皮肤公共分割数据集,以研究预培训的潜在益处。评估U-Net的两种变体:U-Net和密集剩余U-Net。我们发现密集型残余U-net与经典的U-Net架构(0.55与0.51 Jaccard)相比,在Jaccard上有7.8%的提高,对于不使用微调数据的直接传输。然而,对于直接训练(0.83对0.80)和微调(0.89对0.88),U-Net优于密集残余U-Net。与直接转移和直接培训相比,微调显着的性能改善强调了对患病皮肤的充分代表性数据的需求以及其他公开数据源对此任务的实用性。[1804.05944v2] 对于直接训练(0.83对0.80)和微调(0.89对0.88),U-Net优于密集残余U-Net。与直接转移和直接培训相比,微调显着的性能改善强调了对患病皮肤的充分代表性数据的需求以及其他公开数据源对此任务的实用性。[1804.05944v2] 对于直接训练(0.83对0.80)和微调(0.89对0.88),U-Net优于密集残余U-Net。与直接转移和直接培训相比,微调显着的性能改善强调了对患病皮肤的充分代表性数据的需求以及其他公开数据源对此任务的实用性。[1804.05944v2]
RSGAN:在潜在空间中使用脸部和头发表示进行脸部交换和编辑
Ryota Natsume,Tatatya Yatagawa,Shigeo Morishima
在本文中,我们提出了一个通过面部交换,基于属性的编辑和随机面部分合成自动生成和编辑人脸图像的集成系统。所提出的系统基于深度神经网络,其通过大规模人脸图像数据集变化地学习脸部和头发区域。与传统的变分方法不同,所提出的网络代表个人面孔和头发的潜在空间。我们将所提出的网络称为区域分离生成对抗网络(RSGAN)。所提出的网络独立地处理潜在空间中的面部和头发外观,然后,通过替换面部的潜在空间表示来实现面部交换,并用它们重建整个面部图像。即使对于先前的方法由于不适合的拟合或3D形变模型而导致失败的图像,潜在空间中的这种方法也可以鲁棒地执行面部交换。此外,所提出的系统可以通过操纵视觉属性或通过将它们与随机生成的脸部或头发部分组合来进一步编辑具有相同网络的面部交换图像。[1804.03447v2]
Xiaobin Chang, Timothy M. Hospedales, Tao Xiang
有效的人重新识别(Re-ID)的关键是在高和低的语义层次上对人物外观的区别性和视角不变因素进行建模。最近开发的深度Re-ID模型要么学习整体单一语义级别的特征表示和/或需要这些因素的费力的人类注释作为属性。我们提出了多层次因子网(MLFN),这是一种新颖的网络架构,可将人的视觉外观在多种语义层次上分解为潜在的判别因子,无需人工注释。MLFN由多个堆叠块组成。每个块包含多个因子模块以模拟特定级别的潜在因子,因子选择模块动态选择因子模块以解释每个输入图像的内容。因子选择模块的输出还提供了一个紧凑的潜在因子描述符,它与传统的深度学习特征相辅相成。MLFN在三个Re-ID数据集上实现了最先进的结果,并在通用对象分类CIFAR-100数据集上获得了令人瞩目的结果。[1803.09132v2]
Pichao Wang, Wanqing Li, Zhimin Gao, Chang Tang, Philip Ogunbona
本文提出了三种简单,紧凑而有效的深度序列表示,分别称为动态深度图像(DDI),动态深度正常图像(DDNI)和动态深度运动正常图像(DDMNI),用于隔离和连续动作识别。这些动态图像是根据深度图的分段序列构建的,使用分层双向排序池来有效捕获时空信息。具体而言,DDI利用随时间推移的姿势动态,DDNI和DDMNI利用深度图捕获的3D结构信息。在提出的陈述中,基于ConvNet的方法被开发用于行动识别。基于图像的表示使我们能够微调在图像数据上训练的现有卷积神经网络(ConvNet)模型,而无需从头开始训练大量参数。所提出的方法在三个大型数据集(即大规模连续手势识别数据集(意味着Jaccard指数0.4109),大规模孤立手势识别数据集(59.21%)和NTU RGB + D数据集(87.08%交叉主题和84.22%交叉视角),尽管只使用了深度模式。[1804.01194v2] 和NTU RGB + D数据集(87.08%交叉主题和84.22%交叉视角),尽管只使用了深度模式。[1804.01194v2] 和NTU RGB + D数据集(87.08%交叉主题和84.22%交叉视角),尽管只使用了深度模式。[1804.01194v2]
Vandit Gajjar,Yash Khandhediya,Ayesha Gurnani,Viraj Mavani,Mehul S. Raval
本文介绍了一种使用深度学习来改善静止图像中的人体检测的技术。我们的新方法ViS-HuD从图像计算视觉显着图。然后将输入图像乘以该图并将产品馈送到检测图像中的人的卷积神经网络(CNN)。使用ML-Net生成视觉显着图,使用DetectNet进行人体检测。ML-Net在SALICON上进行预先训练,而DetectNet则在ImageNet数据库上预训练以分别进行视觉显着性检测和图像分类。ViS-HuD的CNN在两个具有挑战性的数据库Penn Fudan和TUD-Brussels Benchmark上进行了培训。实验结果表明,所提出的方法在Penn Fudan数据集上获得了91的最新性能。4%的人体检测准确度,并且在TUDBrussels基准测试中达到53%的平均错过率。[1803.01687v3]
高廷然,Shahar Z. Kovalsky,Doug M. Boyer,Ingrid Daubechies
作为改进生物形状分析的一种手段,我们提出了一种在高斯过程模型下贪婪选择具有最大不确定性的点来对黎曼流形进行抽样的算法。已知这种策略在实验设计文献中接近最佳,并且在我们的应用中似乎优于使用用户放置的地标来表示生物对象的几何形状。在无噪声情况下,我们根据样本数量和流形的几何量建立了均方差预测误差(MSPE)的上限,表明我们提出的序列设计的MSPE以与甲骨文相当的速率衰减通过任何顺序或非顺序优化设计可实现的速率; 据我们所知,这是这种连续实验设计的第一个结果。关键是在偏微分方程的模型约简的背景下将贪婪算法与简化基础方法联系起来。然后,我们将拟议的标志性算法应用于几何形态计量学,这是进化生物学的一个分支,专注于解剖形状的分析和比较,并将自动采样的地标与进化人类学家手动放置的“地面实况”地标进行比较; 结果表明,就空间覆盖度和下游统计分析而言,高斯过程标志表现同样好或更好。我们预计这种方法将在其他研究领域找到其他应用。[1802.03479v2] 然后,我们将拟议的标志性算法应用于几何形态计量学,这是进化生物学的一个分支,专注于解剖形状的分析和比较,并将自动采样的地标与进化人类学家手动放置的“地面实况”地标进行比较; 结果表明,就空间覆盖度和下游统计分析而言,高斯过程标志表现同样好或更好。我们预计这种方法将在其他研究领域找到其他应用。[1802.03479v2] 然后,我们将拟议的标志性算法应用于几何形态计量学,这是进化生物学的一个分支,专注于解剖形状的分析和比较,并将自动采样的地标与进化人类学家手动放置的“地面实况”地标进行比较; 结果表明,就空间覆盖度和下游统计分析而言,高斯过程标志表现同样好或更好。我们预计这种方法将在其他研究领域找到其他应用。[1802.03479v2] 进化人类学家手工放置的地标; 结果表明,就空间覆盖度和下游统计分析而言,高斯过程标志表现同样好或更好。我们预计这种方法将在其他研究领域找到其他应用。[1802.03479v2] 进化人类学家手工放置的地标; 结果表明,就空间覆盖度和下游统计分析而言,高斯过程标志表现同样好或更好。我们预计这种方法将在其他研究领域找到其他应用。[1802.03479v2]
Bugra Tekin,Sudipta N. Sinha,Pascal Fua
我们提出了一种单发方法,用于同时检测RGB图像中的对象,并预测其6D姿态,而不需要多个阶段或不必检查多个假设。与最近提出的这项任务的单发技术(Kehl等人,ICCV’17)不同,后者只能预测近似的6D姿态,然后必须进行改进,我们的准确性足以不需要额外的后处理。因此,它速度更快 – Titan X(Pascal)GPU上的每秒50帧 – 更适合实时处理。我们方法的关键部分是受YOLO网络设计启发的新CNN架构,该架构直接预测对象的3D边界框的投影顶点的2D图像位置。然后使用PnP算法估计物体的6D姿态。对于LINEMOD和OCCLUSION数据集上的单个对象和多个对象姿态估计,当我们的方法全部使用而没有后处理时,我们的方法远远优于其他最近基于CNN的方法。在后期处理过程中,可以使用姿态细化步骤来提高现有方法的精确度,但在10 fps或更低时,它们比我们的方法慢得多。[1711.08848v4]
Pedro O. Pinheiro
无监督域自适应的目标是利用来自标记源域的特征,并学习一个未标记目标域的分类器,并具有类似但不同的数据分布。对领域适应的深度学习方法大多由两个步骤组成:(i)学习标记样本(源域)上保持低风险的特征;(ii)使两个域中的特征尽可能不区分,以便分类器在源上训练也可以应用在目标域上。通常,步骤(i)中的分类器由直接应用于(ii)中学到的不可区分特征的完全连接层组成。在本文中,我们提出了一种使用相似性学习的分类方法。所提出的方法学习可以通过计算每个类别的原型表示之间的相似性来执行分类的成对相似性函数。领域不变特征和分类原型表示以共同和端对端的方式学习。在推断时,将来自目标域的图像与原型进行比较,并且与最匹配图像的标签相关联的标签被输出。该方法简单,可扩展且有效。我们表明,我们的模型在不同的无监督领域适应场景中实现了最先进的性能。[1711.08995v2] 在推断时,将来自目标域的图像与原型进行比较,并且与最匹配图像的标签相关联的标签被输出。该方法简单,可扩展且有效。我们表明,我们的模型在不同的无监督领域适应场景中实现了最先进的性能。[1711.08995v2] 在推断时,将来自目标域的图像与原型进行比较,并且与最匹配图像的标签相关联的标签被输出。该方法简单,可扩展且有效。我们表明,我们的模型在不同的无监督领域适应场景中实现了最先进的性能。[1711.08995v2]
Satoshi Tsutsui,Tommi Kerola,Shunta Saito,David J. Crandall
识别前方场景中的“自由空间”或安全驾驶区域是自主导航的基本任务。虽然可以使用语义分割来解决此任务,但创建像素注释以训练分割模型所涉及的手工劳动成本非常高。尽管弱监督分割解决了这个问题,但大多数方法并不适用于自由空间。在本文中,我们观察到均匀的纹理和位置是自由空间的两个关键特征,并且开发了一种新颖的,实用的自由空间分割框架,并且人为监控最小。我们的实验表明,我们的框架比其他弱监督方法执行得更好,同时使用更少的监督。
Dimity Miller,Lachlan Nicholson,Feras Dayoub,NikoSünderhauf
Dropout Variational Inference或Dropout Sampling最近被提出作为贝叶斯深度学习的一种近似技术,并对图像分类和回归任务进行评估。本文首次研究了Dropout Sampling用于物体检测的效用。我们演示如何通过Dropout Sampling从最先进的物体检测系统中提取标签不确定性。我们在包含30,000幅图像的大型合成数据集上评估此方法,并在多功能校园环境中通过移动机器人捕获真实世界的数据集。我们表明,这种不确定性可以用来增加在机器人视觉中通常遇到的开放条件下的物体检测性能。显示一个Dropout Sampling网络实现12。召回率提高3%(与标准网络相同的精度评分)和精确度提高15.1%(与标准网络相同的召回评分)。[1710.06677v2]
Ruiqi Gao, Yang Lu, Junpei Zhou, Song-Chun Zhu, Ying Nian Wu
本文提出了一种用于学习基于能量的生成ConvNet图像模型的多网格方法。对于每个网格,我们学习一个基于能量的概率模型,其中能量函数由自下而上的卷积神经网络(ConvNet或CNN)定义。学习这样的模型需要从模型中生成合成的例子。在我们学习算法的每次迭代中,对于每个观察到的训练图像,我们通过初始化来自训练图像的最小1×1版本的有限步MCMC采样来在多个网格处生成合成图像。在每个后续网格处的合成图像是通过从在先粗糙网格处生成的合成图像初始化的有限步MCMC获得的。在获得合成的例子之后,基于合成和观察示例之间的差异,多个网格处的模型的参数被分开和同时更新。我们表明,这种多网格方法可以学习现实的基于能量的生成型ConvNet模型,并且它胜过了原始的对比分歧(CD)和持久性CD。[1709.08868v2]
Kuan-Chuan Peng, Ziyan Wu, Jan Ernst
领域适应是将有关在源领域学习的任务(例如分类)的知识转移到第二个或目标领域的重要工具。目前的方法假定在训练期间可以获得与任务相关的目标域数据。我们演示如何在没有这种任务相关的目标域数据可用时执行域自适应。为了解决这个问题,我们提出零点深度域适配(ZDDA),它使用来自与任务无关的双域对的特权信息。ZDDA学习源域表示,该表示不仅针对感兴趣的任务而且也接近目标域表示。因此,感兴趣解决方案的源域任务(例如,用于分类任务的分类器)与源域表示共同训练可适用于源和目标表示。使用MNIST,Fashion-MNIST,NIST,EMNIST和SUN RGB-D数据集,我们证明ZDDA可以在分类任务中执行域自适应,而无需访问任务相关的目标域培训数据。我们还通过模拟与任务相关的源域数据的任务相关目标域表示来扩展ZDDA以在SUN RGB-D场景分类任务中执行传感器融合。就我们所知,ZDDA是第一个不需要任务相关目标域数据的领域自适应和传感器融合方法。基本原理不是特定于计算机视觉数据,而应该容易扩展到其他领域。[1707.01922v3] 我们表明,ZDDA可以在分类任务中执行域自适应,而无需访问任务相关的目标域训练数据。我们还通过模拟与任务相关的源域数据的任务相关目标域表示来扩展ZDDA以在SUN RGB-D场景分类任务中执行传感器融合。就我们所知,ZDDA是第一个不需要任务相关目标域数据的领域自适应和传感器融合方法。基本原理不是特定于计算机视觉数据,而应该容易扩展到其他领域。[1707.01922v3] 我们表明,ZDDA可以在分类任务中执行域自适应,而无需访问任务相关的目标域训练数据。我们还通过模拟与任务相关的源域数据的任务相关目标域表示来扩展ZDDA以在SUN RGB-D场景分类任务中执行传感器融合。就我们所知,ZDDA是第一个不需要任务相关目标域数据的领域自适应和传感器融合方法。基本原理不是特定于计算机视觉数据,而应该容易扩展到其他领域。[1707.01922v3] 就我们所知,ZDDA是第一个不需要任务相关目标域数据的领域自适应和传感器融合方法。基本原理不是特定于计算机视觉数据,而应该容易扩展到其他领域。[1707.01922v3] 就我们所知,ZDDA是第一个不需要任务相关目标域数据的领域自适应和传感器融合方法。基本原理不是特定于计算机视觉数据,而应该容易扩展到其他领域。[1707.01922v3]
使用半平行深度神经网络(SPDNN)混合架构从单目图像得到深度
S. Bazrafkan,H. Javidnia,J. Lemley,P. Corcoran
近年来,深度神经网络应用于广泛的问题。在这项工作中,卷积神经网络(CNN)被应用于从单个相机图像(单目深度)确定深度的问题。设计了八种不同的网络来执行深度估计,每种网络都适合于功能级别。具有不同池大小的网络确定不同的功能级别。在设计一组网络之后,可以使用图优化技术将这些模型组合成单个网络拓扑。这种“半平行深度神经网络(SPDNN)”消除了重复的通用网络层,并且可以通过重新训练进一步优化,以实现与各个拓扑相比改进的模型。在这个研究中,四个SPDNN模型被训练并且已经在KITTI数据集的两个阶段被评估。第一部分实验中的地面真实图像由基准提供,第二部分地面真实图像是应用最新立体匹配方法的深度图结果。评估结果表明,使用后处理技术来优化网络的目标会提高单个单幅图像深度估计的准确性。第二次评估显示,将分割数据与原始数据一起用作输入可以将深度估计结果提高到性能与立体深度估计相当的点。计算时间也在本研究中讨论。[1703.03867v3] 第一部分实验中的地面真实图像由基准提供,第二部分地面真实图像是应用最新立体匹配方法的深度图结果。评估结果表明,使用后处理技术来优化网络的目标会提高单个单幅图像深度估计的准确性。第二次评估显示,将分割数据与原始数据一起用作输入可以将深度估计结果提高到性能与立体深度估计相当的点。计算时间也在本研究中讨论。[1703.03867v3] 第一部分实验中的地面真实图像由基准提供,第二部分地面真实图像是应用最新立体匹配方法的深度图结果。评估结果表明,使用后处理技术来优化网络的目标会提高单个单幅图像深度估计的准确性。第二次评估显示,将分割数据与原始数据一起用作输入可以将深度估计结果提高到性能与立体深度估计相当的点。计算时间也在本研究中讨论。[1703.03867v3] 评估结果表明,使用后处理技术来优化网络的目标会提高单个单幅图像深度估计的准确性。第二次评估显示,将分割数据与原始数据一起用作输入可以将深度估计结果提高到性能与立体深度估计相当的点。计算时间也在本研究中讨论。[1703.03867v3] 评估结果表明,使用后处理技术来优化网络的目标会提高单个单幅图像深度估计的准确性。第二次评估显示,将分割数据与原始数据一起用作输入可以将深度估计结果提高到性能与立体深度估计相当的点。计算时间也在本研究中讨论。[1703.03867v3] 第二次评估显示,将分割数据与原始数据一起用作输入可以将深度估计结果提高到性能与立体深度估计相当的点。计算时间也在本研究中讨论。[1703.03867v3] 第二次评估显示,将分割数据与原始数据一起用作输入可以将深度估计结果提高到性能与立体深度估计相当的点。计算时间也在本研究中讨论。[1703.03867v3]
Seyed Ali Osia,Ali Shahin Shamsabadi,Ali Taheri,Kleomenis Katevas,Sina Sajadmanesh,Hamid R. Rabiee,Nicholas D. Lane,Hamed Haddadi
深度神经网络越来越多地用于各种应用于云用户数据的机器学习应用中。但是,这种方法引入了一些隐私和效率方面的挑战,因为云运营商可以对可用数据执行二级推断。最近,边缘处理技术的进步为更简单的任务和更轻的模型提供了更高效和私密的数据处理方式,尽管它们仍然是大型复杂模型的挑战。在本文中,我们提出了一种混合方法,用于分解大型,复杂的合作型隐私保护分析深层模型。我们通过打破流行的深层架构并以合适的方式对它们进行微调来实现这一点。然后,我们会根据暴露给云服务的信息评估此方法的隐私优势。我们还评估了现代手机应用中不同层次的本地推理成本。我们的评估显示,通过使用某种微调和嵌入技术并以较小的处理成本,我们可以大大降低可用于云上数据特征的意外任务的可用信息级别,从而实现所需的隐私和性能。[1703.02952v5] 我们可以大大降低可用于云上数据功能的意外任务的信息级别,从而实现隐私和性能之间的理想折衷。[1703.02952v5] 我们可以大大降低可用于云上数据功能的意外任务的信息级别,从而实现隐私和性能之间的理想折衷。[1703.02952v5]
JoãoF. Henriques,Andrea Vedaldi
卷积神经网络(CNN)非常有效,因为它们利用了自然图像的固有平移不变性。然而,翻译只是无数有用的空间转换之一。考虑其他空间不变性时,能否达到相同的效率?过去已经考虑过这种广义卷积,但是计算成本很高。我们提出了一个简单而精确的结构,但它具有与标准卷积相同的计算复杂度。它由一个恒定的图像扭曲和一个简单的卷积组成,它们是深度学习工具箱中的标准块。通过精心制作的经纱,可以使得到的结构等同于大范围的双参数空间变换。我们在现实场景中展示令人鼓舞的成果 包括估算Google Earth数据集中的车辆姿态(旋转和缩放)以及野外注释面部标志中的面部姿势(透视下的3D旋转)。[1609.04382v4]
转载请注明:《揭开深度追踪的力量+Pelee:移动设备上的实时对象检测系统》