似是而非:深入学习可解释的图像识别+使用Class-Conditional GANs自定义对抗样本生成器+拥挤人群头部统计的注意力模型

深度隐写分析:使用超级类别标签以外的监控信息进行端到端学习

Wei Wang, Jing Dong, Yinlong Qian, Tieniu Tan

最近,深度学习已经显示出它在隐写分析中的强大力量。然而,所提出的深度模型通常是通过使用固定高通滤波器的预先计算的噪声残差而不是从原始图像中学习的。在本文中,我们提出了一个新的端到端学习框架,可以直接从像素学习隐写分析特征。同时,高通滤波器也自动学习。除了类别标签之外,我们还利用覆盖隐秘图像对的附加像素级监督来共同迭代地训练由剩余计算网络和隐写分析网络组成的网络。实验结果证明了所提出的架构的有效性。[1806.10443v1]

 

QT-Opt:基于视觉的机器人操纵的可伸缩深度增强学习

德米特里·卡拉什尼科夫,亚历克斯·伊班,彼得·帕斯托尔,朱利安·伊巴兹,亚历山大·赫尔佐格,埃里克张,迪尔德雷奎勒伦,伊坦霍利,Mrinal Kalakrishnan,文森特Vanhoucke,谢尔盖莱文

在本文中,我们使用可扩展的强化学习方法来研究学习基于视觉的动态操作技能的问题。我们在抓住这个机器人操纵的长期挑战的背景下研究这个问题。与选择抓点然后执行所需抓握的静态学习行为相比,我们的方法实现闭环视觉控制,机器人根据最近的观察结果不断更新其抓握策略,以优化长时间抓取成功。为此,我们引入了QT-Opt,这是一种可扩展的自我监督的基于视觉的强化学习框架,可以利用超过580k的真实世界抓取尝试来训练具有超过1.2M参数的深度神经网络Q函数,以执行闭环,真实世界的把握使96%的人认识到未见物体的成功。除了获得非常高的成功率之外,我们的方法表现出与更多标准抓取系统截然不同的行为:我们的方法仅使用基于RGB视觉的感知,可以自动学习重新配准策略,探测要查找的对象最有效的抓握,学习重新定位对象并执行其他非易懂的预抓握操作,并动态响应干扰和扰动。[1806.10293v1] 探测对象以找到最有效的抓握,学习重新定位对象并执行其他非易懂的预抓握操作,并动态响应干扰和扰动。[1806.10293v1] 探测对象以找到最有效的抓握,学习重新定位对象并执行其他非易懂的预抓握操作,并动态响应干扰和扰动。[1806.10293v1]

 

Learn-to-Score:通过预测视图效用来进行高效的3D场景探索

Benjamin HeppDebadeepta DeySudipta N. SinhaAshish KapoorNeel JoshiOtmar Hilliges

现在正在使用配备相机的无人机来探索大型场景并重建详细的3D地图。当场景中的空闲空间大致已知时,离线计划员可以生成最佳计划以高效地探索场景。然而,为了探索未知的场景,规划者必须预测并最大限度地发挥实际应用的实用性。传统上,这是使用手工实用功能实现的。我们建议学习一个能够预测未来观点有用性的更好的效用函数。我们学到的效用函数基于三维卷积神经网络。该网络将输入的新体积场景表示隐式捕获先前访问过的视点并推广到新场景。我们使用模拟深度相机在几个城市场景的大型3D模型上评估我们的方法。我们表明,我们的方法在重建性能方面优于现有的实用性措施,并且对传感器噪声强劲。[1806.10354v1]

 

从类比对抗样本中学习基于视觉的语义

Haoyue Shi, Jiayuan Mao, Tete Xiao, Yuning Jiang, Jian Sun

我们研究视觉领域文本分布表示的基础问题,即视觉语义嵌入(visual-semantic embedding,简称VSE)。从对VSE嵌入的洞察力对抗攻击开始,我们从数量和质量上展示了当前框架和图像文本数据集(例如MS-COCO)的局限性。现实世界语义的可能构成数量与并行数据的大小之间的巨大差距在很大程度上限制了模型建立文本语义和视觉概念之间的联系。我们通过用文本对比对抗样本增强MS-COCO图像字幕数据集来缓解这个问题。这些样本是使用语言规则和WordNet知识库合成的。构造过程既是语法语义又是语义知识。这些样本强制模型将学习的嵌入基础映射到图像中的具体概念。这种简单而强大的技术除了可以防范已知类型的敌对攻击外,还可以显着改善各种下游任务的基线。我们在https://github.com/ExplorerFreda/VSE-C上发布代码。[1806.10348v1]

 

关于显着性检测的上下文建议

Aymen AzazaJoost van de WeijerAli DouikMarc Masana

显着目标区域的基本属性之一是其与直接上下文的对比。问题是存在许多可能都是显着的对象区域。阻止对所有对象区域进行穷举搜索的一种方法是使用对象提议算法。这些将返回一组最有可能包含对象的区域。一些显着性估计方法已经使用了对象提议。然而,他们只关注提案的显着性,其直接背景的重要性尚未得到评估。在本文中,我们旨在改善显着物体检测。因此,我们使用上下文提议来扩展对象提议方法,这允许在显着性计算中结合直接上下文。我们提出了几个显着性特征,这些特征是从上下文建议中计算出 在实验中,我们评估了针对显着分割任务的五种对象提议方法,并发现多尺度组合分组优于其他方法。此外,实验表明,提出的上下文特征提高了性能,并且我们的方法匹配了FT数据集上的结果,并获得了其他三个数据集(PASCAL-SMSRA-BECSSD)的竞争结果。[1806.10359v1] 并且我们的方法与FT数据集上的结果相匹配,并在另外三个数据集(PASCAL-SMSRA-BECSSD)上获得竞争结果。[1806.10359v1] 并且我们的方法与FT数据集上的结果相匹配,并在另外三个数据集(PASCAL-SMSRA-BECSSD)上获得竞争结果。[1806.10359v1]

 

LPRNet:通过深度神经网络进行车牌识别

谢尔盖Zherzdev,阿列克谢格鲁兹杰夫

本文提出了LPRNet – 自动车牌识别的端到端方法,没有初步的字符分割。我们的方法受深度神经网络最新突破的启发,并且实时工作,中文牌照识别精度高达95%:nVIDIA GeForce GTX 1080每秒3毫秒,英特尔酷睿i7-6700K每秒1.3毫秒中央处理器。LPRNet由轻量级的卷积神经网络组成,因此可以以端到端的方式进行训练。据我们所知,LPRNet是第一个不使用RNN的实时车牌识别系统。因此,LPRNet算法可用于为LPR创建嵌入式解决方案,即使在具有挑战性的中国车牌上也可获得高水平的精度。[1806.10447v1]

 

MTBI识别从扩散MR图像使用对抗视觉特征袋

Shervin Minaee, Yao Wang, Alp Aygar, Sohae Chung, Xiuyuan Wang, Yvonne W. Lui, Els Fieremans, Steven Flanagan, Joseph Rath

在这项工作中,我们通过引入无监督特征学习技术,提出了一系列用于从其弥散磁共振图像(MRI)(在受伤一个月内获得)中识别轻度创伤性脑损伤(MTBI)患者的敌对特征(BAF)。MTBI是一个日益严重的公共卫生问题,估计美国每年有超过170万人患病。诊断依据临床病史和症状,缺乏准确,具体的损伤措施。与大多数以前使用从大脑不同部位提取的手工特征进行MTBI分类的作品不同,我们使用特征学习算法来学习更多区分性表示来完成此任务。迄今为止,这一领域的主要挑战是可供培训的科目相对较少。这使得难以使用端到端卷积神经网络来从MR图像直接分类对象。为了克服这个挑战,我们首先应用对抗自动编码器(具有卷积结构)来学习从不同大脑区域提取的重叠图像补丁的补丁级特征。然后,我们通过一袋一袋的方式来汇总这些功能。我们对227名受试者(包括109MTBI患者和118名年龄和性别匹配的健康对照者)的数据集进行了广泛的实验研究,并将深度特征与以前的几种方法进行了比较。我们的实验结果显示BAF显着优于早期依赖于选定脑区MR指标平均值的作品。[1806.10419v1] 我们首先应用对抗自动编码器(具有卷积结构)来学习从不同大脑区域提取的重叠图像补丁的补丁级特征。然后,我们通过一袋一袋的方式来汇总这些功能。我们对227名受试者(包括109MTBI患者,以及118名年龄和性别匹配的健康对照者)的数据集进行广泛的实验研究,并将深度特征与以前的几种方法进行比较。我们的实验结果显示BAF显着优于早期依赖于选定脑区MR指标平均值的作品。[1806.10419v1] 我们首先应用对抗自动编码器(具有卷积结构)来学习从不同大脑区域提取的重叠图像补丁的补丁级特征。然后,我们通过一袋一袋的方式来汇总这些功能。我们对227名受试者(包括109MTBI患者和118名年龄和性别匹配的健康对照者)的数据集进行了广泛的实验研究,并将深度特征与以前的几种方法进行了比较。我们的实验结果显示BAF显着优于早期依赖于选定脑区MR指标平均值的作品。[1806.10419v1] 我们对227名受试者(包括109MTBI患者和118名年龄和性别匹配的健康对照者)的数据集进行了广泛的实验研究,并将深度特征与以前的几种方法进行了比较。我们的实验结果显示BAF显着优于早期依赖于选定脑区MR指标平均值的作品。[1806.10419v1] 我们对227名受试者(包括109MTBI患者和118名年龄和性别匹配的健康对照者)的数据集进行了广泛的实验研究,并将深度特征与以前的几种方法进行了比较。我们的实验结果显示BAF显着优于早期依赖于选定脑区MR指标平均值的作品。[1806.10419v1]

 

多粒度监督下图像语义对象的协同标注

Lishi Zhang, Chenghan Fu, Jia Li

语义对象的每像素掩码在许多应用程序中非常有用,然而,这些应用程序很难被注释。在本文中,我们提出了一种人工智能代理协作注释方法,该方法可以在多粒度监控下有效地生成标记图像中的语义对象的每像素蒙版。给定一组标记图像,首先动态生成计算机代理程序以大致定位由标记描述的语义对象。代理人首先从图像中提取大量的对象提议,然后在弱和强烈的监督下从语言和视觉上相似的图像以及之前注释过的对象蒙版推断与标签相关的提议。通过用超完整词典表示这些监督,标签相关对象提议可以根据其稀疏编码长度弹出,然后将其转换为带有二进制标签的超像素。之后,人类注释者通过翻转标签并用鼠标单击来划分超级像素来参与注释过程,这些用作点击监视器,用于教导代理人在处理具有相同标签的图像时的误报/否定。实验结果表明,我们的方法可以促进注释过程,并生成与LabelMe工具箱生成的高度一致的对象遮罩。[1806.10269v1] 

 

似是而非:深入学习可解释的图像识别

Chaofan Chen, Oscar Li, Alina Barnett, Jonathan Su, Cynthia Rudin

当我们面临挑战性的图像分类任务时,我们经常通过解剖图像来解释我们的推理,并指出某一类或另一类的原型方面。每个类越来越多的证据有助于我们做出最终决定。在这项工作中,我们引入了一个深度网络架构,其原因类似:网络通过寻找原型部件来分割图像,并结合原型的证据进行最终分类。因此,该算法的原因与鸟类学家,医生,地质学家,建筑师和其他人的方式在质量上类似,这将向人们解释如何解决具有挑战性的图像分类任务。网络仅使用图像级别的标签进行培训,这意味着图像部分没有标签。我们在CIFAR-10数据集和CUB-200-2011数据集的10个类中展示了该方法。[1806.10574v1]

 

圆柱形隧道的无特征拼接

Ramanpreet Singh PahwaWei Kiat LeongShaohui FoongKarianto LemanMinh N. Do

传统图像拼接算法使用诸如单应性的变换来组合场景的不同视图。当场景是平面的时候,或者当相机只旋转时,它们通常工作得很好,保持静态。这严重限制了其在无人驾驶飞行器(UAV)潜在地盘旋并在旋转以捕获视频序列时在封闭区域飞行的真实场景中的使用。我们利用已知的场景几何图形和记录的摄像机轨迹创建在给定环境中捕获的圆柱形图像,例如相机围绕其中心旋转的隧道。将捕捉到的给定场景内表面的图像组合起来,创建一个复合全景图像,并将其纹理化到Unity图形引擎中的3D几何对象上,为最终用户创建一个沉浸式环境。[1806

 

通过分层时间分割和协同分割在航拍视频中进行主要对象分割

Pengcheng Yuan, Jia Li, Daxin Gu, Yonghong Tian

主要对象分割在理解由无人驾驶飞行器产生的视频中扮演重要角色。在本文中,我们提出了一个包含500个航拍视频的大规模数据集APD,其中主要对象是在5,014个稀疏采样帧上手动标注的。就我们所知,它是迄今为止航空视频中主要对象分割任务的最大数据集。从这个数据集中,我们发现大多数航拍视频都包含大型场景,小尺寸的主要对象以及不断变化的尺度和视点。受此启发,我们提出了一种新颖的分层时间切片方法,它将视频分别重复分成由奇数帧和偶数帧组成的两个子视频。以这种方式,航拍视频可以由一组分层组织的短视频剪辑表示,并且他们共享的主要对象可以通过训练端到端的共分割CNN来分割,并且最终在邻域可逆流中被细化。实验结果表明,我们的方法在分割各种类型的航拍视频中的主要对象时显着优于24种最先进的方法。[1806.10274v1]

 

使用Class-Conditional GANs自定义对抗样本生成器

Shih-hong Tsai

敌对的例子是故意制作的数据,目的是欺骗神经网络进行错误分类。当我们讨论创建这些例子的策略时,我们通常会提到基于扰动的方法,通过在正常数据上应用不可见的扰动来制造敌对的例子。由此产生的数据将其视觉外观保留给人类观察者,但DNN模型完全无法识别,从而导致完全误导性的预测。然而,在本文中,我们考虑将现有数据中的敌对事例作为对示例多样性的限制。我们提出了一个基于非扰动的框架,该框架从类条件生成对抗网络生成原生对抗实例。因此,生成的数据不会与任何现有数据相似,从而扩大了示例多样性,增加了对抗防御的难度。然后,我们将这个框架扩展到预先训练的条件GAN,其中我们将现有的发电机变成一个敌对的示例发电机。我们针对MNISTCIFAR10数据集的方法进行了实验,结果令人满意,表明这种方法可以替代先前的攻击策略。[1806.10496v1] 表明这种方法可以成为以前攻击策略的潜在替代方案。[1806.10496v1] 表明这种方法可以成为以前攻击策略的潜在替代方案。[1806.10496v1]

 

利用时空建模和多模态融合进行人体动作识别

Dongliang He, Fu Li, Qijie Zhao, Xiang Long, Yi Fu, Shilei Wen

在本报告中,我们详细描述了我们处理ActivityNet 2018 Kinetics-600挑战任务的方法。尽管已经在现有技术水平中提出了采用I3D \ cite {i3d}这样的端对端框架或者两阶段框架(即CNN + RNN)的空间时间建模方法,这项任务,视频建模远未得到很好的解决。在这个挑战中,我们提出时空网络(StNet)来更好地联合时空建模和全面的视频理解。此外,考虑到视频源中包含多模态信息,我们通过我们提出的用于视频理解的改进时间Xception网络(iTXN)来设法整合多模态信息的早期融合和后期融合策略。我们的StNet RGB单模型达到78。在Kinetics-600验证集中99%的top-1精度以及我们改进的集成了RGB,流量和音频模式的时间Xception网络的精度高达82.35%。在模型集成之后,我们在验证集上达到了最高为1的精度,达到了85.0%,并在所有提交中排名第一。[1806.10319v1]

 

对数图像处理框架中一个区域的均匀性:应用于区域增长算法

米歇尔Jourlin,纪尧姆诺伊尔

本文论述了对数图像处理(LIP)算子在评估区域同质性方面所发挥的作用。引入了两个新的异质性标准,一个基于LIP加法,另一个基于LIP标量乘法。这些工具能够按照Revol的技术管理区域生长算法:从最初的种子开始,它们包括对生长区域应用特定的扩张,而其不均匀性水平不超过特定水平。我们引入的新方法通过使Revol的现有技术对图像中的变化进行对比来显着改善。这种属性大大降低了区域增长过程中产生的链接效应。[1806.10472v1]

 

每像素计数:无监督几何学习与整体三维动作理解

Zhenheng Yang, Peng Wang, Yang Wang, Wei Xu, Ram Nevatia

学习如何通过深卷积网络观察未标记的视频来估计单个图像中的三维几何图形近来已经成为重要的过程。目前的最新技术(SOTA)方法基于刚性运动结构的学习框架,其中仅3D相机自我运动被建模为用于几何估计。然而,移动物体也存在于许多视频中,例如在街头场景中移动汽车。在本文中,我们通过将每像素三维物体运动添加到学习框架中来解决此类运动,该框架提供整体三维场景流程理解并帮助单个图像几何估计。具体来说,如果连续两帧来自视频,我们采用运动网络来预测它们的相对3D相机姿态以及区分移动物体和刚性背景的分割掩模。使用光流网络来估计密集的2D每像素对应关系。单个图像深度网络可以预测两幅图像的深度图。四种类型的信息,即2D流,摄像机姿态,片段蒙板和深度图被集成到可微分整体3D运动分析器(HMP)中,其中刚性背景和移动物体的每像素3D运动被恢复。我们针对用于训练深度和运动网络的两种类型的3D运动设计各种损失,从而为估计的几何结构进一步减少误差。最后,为了解决单眼视频中的三维运动混淆问题,我们将立体图像结合到联合训练中。KITTI 2015数据集上的实验表明,我们估计的几何图形,三维运动和移动物体蒙版不仅受限于一致,但也显着优于其他SOTA算法,证明了我们方法的好处。[1806.10556v1]

 

3D RoI-aware U-Net用于准确高效的结直肠肿瘤分割

Yi-Jie Huang, Qi Dou, Zi-Xian Wang, Li-Zhi Liu, Ying Jin, Chao-Feng Li, Lisheng Wang, Hao Chen, Rui-Hua Xu

目的:从磁共振(MR)图像中分割结直肠癌区域是放疗的关键步骤,其需要准确描绘肿瘤的边界。这项工作旨在以准确和高效的方式解决这一重要挑战。方法:我们提出了一种新的多任务框架,称为3D RoI-aware U-Net3D RU-Net),用于RoI本地化和RoI内分割,其中两项任务共享一个骨干网络。通过本地化分支的区域提案,我们从骨干网络中裁剪出多层次的特征地图,形成一个类似于U-Net的内部RoI分割分支。为了有效地训练模型,我们提出了一种基于Dice的新型混合损失来解决多任务设置下的类失衡问题。此外,我们设计了一个多分辨率模型集成策略来提高框架的辨别能力。结果:我们的方法已通过四次交叉验证在64例癌症病例中得到验证,在准确性和速度方面均优于现有技术方法。结论:实验结果表明,所提出的方法能够实现准确和快速的整卷RoI定位和RoI内分割。意义:本文提出了一种通用的3D分割框架,可以快速定位RoI区域的大体积图像,并精确分割区域内目标。该方法有很大的潜力可以扩展到医学图像中的其他小型3D对象分割任务。[1806.10342v1] 我们的方法已经在64个癌症病例中进行了四次交叉验证,在准确性和速度方面均优于最先进的方法。结论:实验结果表明,所提出的方法能够实现准确和快速的整卷RoI定位和RoI内分割。意义:本文提出了一种通用的3D分割框架,可以快速定位RoI区域的大体积图像,并精确分割区域内目标。该方法有很大的潜力可以扩展到医学图像中的其他小型3D对象分割任务。[1806.10342v1] 我们的方法已经在64个癌症病例中进行了四次交叉验证,在准确性和速度方面均优于最先进的方法。结论:实验结果表明,所提出的方法能够实现准确和快速的整卷RoI定位和RoI内分割。意义:本文提出了一种通用的3D分割框架,可以快速定位RoI区域的大体积图像,并精确分割区域内目标。该方法有很大的潜力可以扩展到医学图像中的其他小型3D对象分割任务。

 

拥挤人群头部统计的注意力模型

Youmei Zhang, Chunluan Zhou, Faliang Chang, Alex C. Kot

在实际应用中,遮挡,复杂背景,尺度变化和非均匀分布对人群计数提出了巨大挑战。在本文中,我们提出了一种使用注意模型来开发头部位置的新方法,这是人群计数最重要的线索。注意模型估计概率图,其中高概率指示头可能存在的位置。估计概率图用于抑制来自卷积神经网络的多个多尺度特征提取分支的特征映射中的非头部区域以用于人群密度估计,这使得我们的方法对于复杂背景,尺度变化和非均匀分布是鲁棒的。另外,我们引入相对偏差损失来补偿常用的训练损失,欧几里得距离,以提高稀疏人群密度估计的准确性。上海科技,UCF_CC_50World-Expo’10数据集的实验证明了我们方法的有效性。[1806.10287v1]

 

用于膳食评估的多任务学习方法

亚露,达里奥阿莱格拉,马里奥斯艾西莫普洛斯,菲利波斯坦科,乔万尼玛丽亚法内拉,斯塔夫鲁拉穆贾卡库

在预防与饮食相关的慢性疾病方面发挥的关键作用是营养均衡的营养和适当的饮食。常规膳食评估方法耗时,昂贵并且容易出错。在过去的十年里,基于新技术的方法提供了可靠和方便的膳食评估。计算机视觉领域的进步允许使用膳食图像通常通过三个步骤来评估营养素含量:食物分割,识别和体积估计。在本文中,我们提出使用一个RGB膳食图像作为基于多任务学习的卷积神经网络(CNN)的输入。所提出的方法取得了优异的性能,而与最先进的方法进行比较表明,所提出的方法在准确性方面表现出明显的优势,同时大幅缩短处理时间。[1806.10343v1]

 

使用众包的感性判断学习显着性评估指标

Changqun Xia, Jia Li, Jinming Su, Ali Borji

在人体固定预测领域,提出了许多计算显着性模型来揭示不同假设和定义下的某些显着特征。因此,显着性模型基准测试通常需要多个评估指标来从多个角度同时评估显着性模型。然而,大多数计算度量不是直接测量显着性图的感知相似度,因此评估结果可能有时与主观印象不一致。为了解决这个问题,本文首先进行了广泛的主观测试,以了解人类如何感知显着性地图之间的视觉相似性。根据这些测试收集的众包数据,我们总结了评估显着图的几个关键因素,并量化了现有指标的表现。受这些因素的启发,我们建议基于使用众包的感知判断的双流卷积神经网络来学习显着性评估度量。具体而言,来自众包数据的每对的相对显着性分数被用来在训练过程中调整网络。通过捕捉各主题在显着性地图上的共享关键因素,学习指标更好地符合人类对显着性地图的感知,使其成为对现有指标的很好补充。实验结果验证了学习的度量可以推广到新图像,新数据集,新模型和合成数据的显着图的比较。由于学习度量的有效性,它也可以用来促进固定预测的新模型的开发。[1806.10257v1]

 

无背散形插值与对应

马文·艾森伯格,佐拉·莱纳,丹尼尔·克雷默斯

我们提出了一种新的方法来模拟和计算嵌入在$ \ mathbb {R} ^ D $中的形状之间的变形场。我们的框架自然地结合了两个输入形状并同时计算对应关系。关键的想法是使用Karhunen-Lo \ eve展开式来计算以粗到细的方式表示的无发散变形场。优点是不需要离散嵌入空间并且变形是容量保持的。此外,优化是在降低取样形状的版本上完成的,但变形可以适用于任何分辨率,而不会增加复杂性。我们在TOSCAFAUST数据集上展示形状对应,注册,内部和外推的结果。[1806.10417v1]

 

ADAS的视差图像分割

Viktor MukhaInon Sharony

我们提出了一个简单的解决方案,使用现有的连接组件标签(CCL)算法(通常应用于二进制图像)来分割灰度图像,该算法足够高效,可以在受限制(嵌入式汽车)体系结构中实施。我们的解决方案定制了区域生长和合并方法,主要针对立体视差图像,其中较近的物体具有更多的相关性。我们提供了一些基本案例的标准OpenCV实现结果以及Tsukuba立体对数据集的图像。[1806.10350v1]

转载请注明:《似是而非:深入学习可解释的图像识别+使用Class-Conditional GANs自定义对抗样本生成器+拥挤人群头部统计的注意力模型

发表评论