SkinNet:皮肤病变分割的深度学习框架+ RAM:用于车辆重新识别的区域感知深度模型+ 基于视觉的增强现实姿态估计:比较研究

级联卷积神经网络在CT扫描中的半自动RECIST标记

Youbao Tang, Adam P. Harrison, Mohammadhadi Bagheri, Jing Xiao, Ronald M. Summers

实体瘤中的反应评估标准(RECIST)是评估癌症患者治疗反应的肿瘤程度的标准测量。因此,RECIST注释必须准确。然而,由放射科医师手动标记的RECIST注释需要专业知识,且耗时,主观,并且倾向于不同观察者之间的不一致。为了缓解这些问题,我们提出了一种基于级联卷积神经网络的方法来半自动标注RECIST注释并大幅减少注释时间。所提出的方法由两个阶段组成:损伤区域归一化和RECIST估计。我们采用空间变换网络(STN)进行病变区域归一化,其中定位网络被设计为用多任务学习策略来预测损伤区域和转换参数。对于RECIST估计,我们调整堆积沙漏网络(SHN),引入关系约束损失来提高估计精度。STNSHN都可以以端到端的方式学习。我们在DeepLesion数据集上训练我们的系统,获得由多位放射科医师在多年的时间内对RECIST注释进行培训的共识模型。重要的是,当根据另外两名放射科医师评分员的读者间差异进行判断时,我们的系统执行更稳定且变异性更小,这表明RECIST注释可以在减少劳动力和时间的情况下可靠获得。[1806.09507v1] 我们调整堆积沙漏网络(SHN),引入关系约束损失来提高估计精度。STNSHN都可以以端到端的方式学习。我们在DeepLesion数据集上训练我们的系统,获得由多位放射科医师在多年的时间内对RECIST注释进行培训的共识模型。重要的是,当根据另外两名放射科医师评分员的读者间差异进行判断时,我们的系统执行更稳定且变异性更小,这表明RECIST注释可以在减少劳动力和时间的情况下可靠获得。[1806.09507v1] 我们调整堆积沙漏网络(SHN),引入关系约束损失来提高估计精度。STNSHN都可以以端到端的方式学习。我们在DeepLesion数据集上训练我们的系统,获得由多位放射科医师在多年的时间内对RECIST注释进行培训的共识模型。重要的是,当根据另外两名放射科医师评分员的读者间差异进行判断时,我们的系统执行更稳定且变异性更小,这表明RECIST注释可以在减少劳动力和时间的情况下可靠获得。[1806.09507v1] 获得由多位放射科医师在多年的时间内对RECIST注释进行培训的共识模型。重要的是,当根据另外两名放射科医师评分员的读者间差异进行判断时,我们的系统执行更稳定且变异性更小,这表明RECIST注释可以在减少劳动力和时间的情况下可靠获得。[1806.09507v1] 获得由多位放射科医师在多年的时间内对RECIST注释进行培训的共识模型。重要的是,当根据另外两名放射科医师评分员的读者间差异进行判断时,我们的系统执行更稳定且变异性更小,这表明RECIST注释可以在减少劳动力和时间的情况下可靠获得。[1806.09507v1]

 

FBI-Pose:利用前进或后退信息来缩小2D图像和3D人体姿势之间的差距

Yulong Shi, Xiaoguang Han, Nianjuan Jiang, Kun Zhou, Kui Jia, Jiangbo Lu

尽管使用深度卷积神经网络(ConvNet)从图像估计人体姿态方面取得了重大进展,但在野外进行3D姿势推断仍然是一个巨大的挑战。这是由于难以获得户外环境的三维姿势。在本文中,我们提出了一个新的框架来解决这个问题,通过利用每个骨骼的信息来指示它是相对于摄像机的视角(我们称之为Forwardor-Backward Information缩写为FBI)的前方还是后方。我们的方法首先训练带有两个分支的ConvNet,将人的图像映射到骨骼的2D关节位置和FBI。这些信息被进一步送入深度回归网络以预测关节的3D位置。为了支持培训,我们还开发了一个注释用户界面,并将这种FBI标记为从MPII2D姿态注释的公共数据集)中随机选择的12K左右的野外图像。我们在标准基准测试中的实验结果表明,我们的方法在性能和数量上均优于最先进的方法。[1806.09241v1]

 

具有结构化输出的统一模型用于时尚图像分类

Beatriz Quintino FerreiraLuísBaíaJoãoFariaRicardo Gamelas Sousa

一张图片胜过千言万语。虽然对于时尚界来说,一件衣服的图像可以让人感受到它的类别(例如服饰),子类别(例如日常服饰)和属性(例如带有花卉图案的白色) 。时尚产业的季节性创造了一个高度动态和创造性的领域,拥有更多的数据,使得手动描述大量图像(产品)变得不切实际。在本文中,我们通过将注释的分层特性直接嵌入到模型中的端到端体系结构来探讨时尚图像的视觉识别概念。为了实现这一目标,并受到[7]工作的启发,我们修改并修改了原始架构建议。也就是说,我们已经移除了消息传递层对称来应对Farfetch类树,为层次级别特性添加额外的层次,并将消息传递层转移到丰富的潜在空间中。我们将建议的统一体系结构与最先进的模型进行比较,并展示我们的模型对大约350k时尚产品图像的数据集进行结构化多级分类时的性能优势。[1806.09445v1]

 

通过着色视频来追踪

Carl VondrickAbhinav ShrivastavaAlireza FathiSergio GuadarramaKevin Murphy

我们使用大量未标记的视频来学习模型进行视觉追踪,无需人工监督。我们利用颜色的自然时间一致性创建一个模型,通过从参考框架复制颜色来学习着色灰度视频。定量和定性实验表明,这一任务使模型自动学习跟踪视觉区域。虽然模型没有任何地面真值标签,但我们的方法学习的轨迹足以胜过基于光流法的方法。最后,我们的结果表明,跟踪失败与失败着色相关,表明推进视频着色可能会进一步改善自我监督的视觉跟踪。[1806.09594v1]

 

探索样本对抗攻击的例子:单像素攻击的模式

DavidKüglerAlexander DistergoftArjan KuijperAnirban Mukhopadhyay

黑盒子深度学习的失败案例,例如敌对案例,可能对医疗保健产生严重后果。然而,这种失败主要是在具有校准攻击的现实世界图像的情况下进行研究的。为了揭开敌对的例子,需要设计严谨的研究。不幸的是,医学图像的复杂性直接阻碍了医学图像的研究设计。我们假设敌对的例子可能是由深层网络将图像空间错误地映射到低维生成流形。为了检验假设,我们简化了一个复杂的医学问题,即将手术工具的姿态估计转换为最简单的形式。通过分析决策边界和遍及多个图像维度的单像素攻击的详尽搜索,我们可以定位图像空间频繁成功的单像素攻击区域。[1806.09410v1]

 

学习任务型模拟自主监督对工具操作的掌握

Kuan Fang, Yuke Zhu, Animesh Garg, Andrey Kurenkov, Viraj Mehta, Li Fei-Fei, Silvio Savarese

工具操作对促进机器人完成具有挑战性的任务目标至关重要。它需要推理任务的预期效果,从而恰当地掌握和操纵工具来完成任务。与任务无关的抓握优化抓握鲁棒性,同时忽略关键任务特定的约束。在本文中,我们提出了面向任务的抓取网络(TOG-Net)来共同优化工具的任务导向抓取和该工具的操纵策略。该模型的训练过程基于大规模的模拟自我监控和程序生成的工具对象。我们在两个基于工具的操作任务上执行模拟和现实世界的实验:扫掠和锤击。我们的模型实现了清扫任务的71.1%任务成功率和锤击任务成功率80.0%。

 

稀疏三维点云图上采样和噪声消除作为vSLAM后处理步骤:实验评估

安德烈Bokovoy,康斯坦丁Yakovlev

基于单目视觉的同时定位和映射(vSLAM)是移动机器人和计算机视觉中最具挑战性的问题之一。在这项工作中,我们研究了通过基于特征的vSLAM算法获得的稀疏三维点云图的后处理技术。地图后处理分为两个主要步骤:1)噪声和异常值的去除和2)上采样。我们评估已知算法的不同组合,以针对真实室内和室外环境的数据集上的异常值去除和上采样,并确定最有前途的组合。我们进一步使用它将由真实无人机执行室内飞行获得的点云图转换为潜在适用于路径规划的三维体素网格(八度图)。[1806.09346v1]

 

使用质量评估网络从视频中学习单图像深度

Weifeng Chen, Jia Deng

虽然近年来取得了重大进展,但从开放的单一图像进行深度估计仍然是一个非常具有挑战性的问题。原因之一是缺乏高质量的图像深度数据。在本文中,我们提出了一种基于运动结构(SfM)的全自动流水线,可以从任意视频中生成这些数据。该管道的核心是质量评估网络,可以区分从SfM获得的正确和不正确的重建。通过拟议的流水线,我们从纽约大学深度数据集和随机YouTube视频生成图像深度数据。我们展示了对这些数据进行训练的深度预测网络可以在纽约大学深度和野外深度基准测试中获得有竞争力的表现。[1806.09573v1]

 

SkinNet:皮肤病变分割的深度学习框架

Sulaiman VesalNishant RavikumarAndreas Maier

全世界皮肤癌的发病率稳步上升,死亡率很高。早期发现和分割皮肤损害对于及时诊断和治疗至关重要,这对于提高患者的存活率是必不可少的。然而,由于病变的低对比度以及它们在外观方面与健康组织的高度相似性,因此皮肤病灶分割是具有挑战性的任务。这强调了对皮肤病变分割的准确和自动化方法的需求。为了解决这个问题,我们提出了一个叫做SkinNet的卷积神经网络(CNN)。提议的CNNU-Net的修改版本。我们使用ISBI 2017挑战数据集比较了我们的方法与其他最先进的技术的性能。我们的方法在Dice系数方面优于其他方法,Jaccard指数和灵敏度,在持续挑战测试数据集上评估,横跨5倍交叉验证实验。对于DCJISESkinNet的平均值分别为85.1076.6793.0%。[1806.09522v1]

 

PILOT:色彩稳定性的像素强度驱动光源色彩估计框架

Jueqin Qiu, Haisong Xu, Yang Ma, Zhengnan Ye

在这项研究中,提出了基于CNN的像素强度驱动iLluminant cOlor esTimation框架PILOT。该框架由局部照明度估计模块和照明度不确定性预测模块组成,使用三阶段训练方法获得。具有精心设计的精馏构造微结构网络和分叉组织宏观架构的网络对色彩相关的视觉任务具有很好的表现能力和效能,与先前的算法相比,它有助于获得> 20%的相对改进,并达到最佳状态,基准数据集上光源估计的最新精度。所提出的框架也具有计算效率和参数经济性,使其适用于部署在移动平台上的应用程序。良好的可诠释性也使得PILOT成为设计功耗和计算能力预算不足的低端设备基于统计模型的指导。[1806.09248v1]

 

最佳视觉技术提交给avtivenet挑战2018年任务:视频中的密集字幕活动

Yuan Liu, Moyini Yao

本笔记描述了我们对ActivityNet Challenge 2018视频任务中密集字幕事件的解决方案的详细信息。具体而言,我们采用两阶段方式解决此问题,即首先提出时间事件建议,然后再生成句子。对于时间事件提议,我们直接利用[13,16]中的三阶段工作流程。对于句子生成,我们利用基于LSTM的字幕框架和时间关注机制(称为LSTM-T)。此外,基于LSTM的视频字幕模型的输入视觉序列由RGB和光流图像组成。在推论中,我们采用后期融合方案来融合两种基于LSTM的字幕模型来生成句子。[1806.09278v1]

 

RAM:用于车辆重新识别的区域感知深度模型

Xiaobin Liu, Shiliang Zhang, Qingming Huang, Wen Gao

以前关于车辆重新识别的研究主要集中在提取全局特征和学习距离度量。由于一些车辆通常共享相同的型号和制造商,因此很难根据其全球外观来区分它们。与全球相比,挡风玻璃上附着的装饰品和检查标贴等当地区域,可能对车辆再识别更具特色。为了在这些地区嵌入详细的视觉线索,我们提出了区域感知深层模型(RAM)。具体而言,除了提取全局特征之外,RAM还从一系列局部区域提取特征。由于每个本地区域都传达更独特的视觉线索,RAM鼓励深层模型学习辨别特征。我们还引入了一种新颖的学习算法来共同使用车辆ID,类型/模型,和颜色来训练RAM。这一战略融合了更多的训练线索,并带来更具歧视性的全球和区域特征。我们在两个大型车辆Re-ID数据集上评估我们的方法,即VeRiVehicleID。实验结果表明我们的方法与最近的作品相比取得了有希望的性能 [1806.09283v1]

 

基于视觉的增强现实姿态估计:比较研究

Hayet BelghitAbdelkader BellarbiNadia ZenatiSamir Otmane

增强现实旨在通过插入3D虚拟对象来丰富我们的现实世界。为了实现这个目标,重要的是虚拟元素以真实的场景以精确且可视的方式呈现和对齐。这个问题的解决方案可能与姿势估计和3D相机定位有关。本文介绍了增强现实中三维姿态估计的不同方法,并给出了基于关键点技术的分类。本文给出的研究可能有助于增强现实领域的开发人员和研究人员。[1806.09316v1]

 

自我监督学习在单眼内窥镜下密集深度估计中的应用

刘兴通,Ayushi SinhaMathias Unberath,石井昌治,格雷戈里海格,罗素H.泰勒,奥斯汀瑞特

我们提出了一种自我监督的方法来训练卷积神经网络,用于从单眼内窥镜检查数据进行密集深度估计,而无需对解剖结构或阴影进行先验建模。我们的方法只需要单眼内窥镜视频的顺序数据和多视角立体重建方法,例如运动结构,以一种稀疏而准确的方式监督学习。因此,我们的方法既不需要人工交互,如缩放或贴标签,也不需要患者CT在训练和应用阶段。我们证明了我们的方法在来自两名患者的窦内窥镜检查数据上的表现,并且使用相应的患者CT扫描定量验证了深度预测,其中我们发现了亚毫米级残留误差。[1806.09521v1]

 

IR2VI:通过无监督热图像转换增强夜间环境感知

Shuo Liu, Vijay John, Erik Blasch, Zheng Liu, Ying Huang

背景增强对夜视(NV)应用至关重要,特别是对于没有任何人造光源的黑夜情况。在本文中,我们提出了红外到视觉(IR2VI)算法,一种基于生成对抗网络(GAN)的新型无监督热可见图像转换框架。IR2VI能够从VI图像中学习内在特征并将它们整合到IR图像中。由于现有的无监督GAN图像翻译方法面临着诸多不足,如不正确的映射和细节缺乏等问题,我们提出了一种结构连接模块和一种感兴趣区域(ROI)焦点损失方法来解决当前的局限性。实验结果表明IR2VI算法优于基线方法。[1806.09565v1]

 

跟踪Xplorer:一种可视化分析基于传感器的运动行为预测的系统

Marco CavalloCagatay Demiralp

随着可穿戴传感器的快速商品化,从各种应用中检测传感器数据集中的人体运动变得越来越普遍。为了检测活动,数据科学家在决定部署哪个模型之前,先用不同的分类器进行迭代实验。关于替代分类器的有效推理和比较对于成功的模型开发至关重要。然而,在开发用于传感器数据的分类器方面存在固有困难,其中长时间序列的复杂性,高预测频率和不精确的标签使得标准评估方法相对无效且甚至产生误导。我们引入Track Xplorer,一个交互式可视化系统来查询,分析和比较传感器数据分类器的预测。Track Xplorer使用户能够交互式地探索和比较不同分类器的结果,并根据地面实况标签和视频评估其准确性。通过与版本控制系统集成,Track Xplorer支持模型及其参数的跟踪,而无需模型开发人员的额外工作量。Track Xplorer还为轨道表示提供了可扩展的代数,以过滤,组合和比较分类输出,使用户能够有效地推理分类器的性能。我们将Track Xplorer应用于合作项目中,开发分类器来检测从帕金森病患者收集的多传感器数据中的运动。我们演示Track Xplorer如何帮助尽早发现可能的系统性数据错误,有效地跟踪和比较不同分类器的结果,以及找出错误分类原因并找出原因。[1806.09256v1]

 

一种用于MRI中自动参考质量评估的机器学习框架

托马斯KüstnerSergios Gatidis,安妮卡Liebgott,马丁·施瓦茨,卢克锚赫,佩特罗斯Martirosian,霍尔格施密特,尼娜F. Schwenzer,康斯坦丁·尼克劳,法比安班贝格,杨斌,弗里茨·希克

磁共振(MR)成像提供了各种各样的成像技术。每次检查都会产生大量数据,需要检查足够的质量以获得有意义的诊断结果。这是一个手动过程,因此时间和成本密集。任何源自扫描仪硬件,信号处理或患者诱导的成像伪影都可能降低图像质量并使诊断或任何图像后处理复杂化。因此,以自动方式评估或保证足够的图像质量具有很高的兴趣。通常没有参考图像可用或难以定义。因此,经典的基于参考的方法不适用。模仿人类观察员(HO)的模型观察者可以协助完成这项任务。从而,我们提出了一种新的基于机器学习的无参考MR图像质量评估框架,该评估框架在HO衍生标签上训练,以在每次采集后立即评估MR图像质量。我们包含主动学习的概念,并提供高效的盲文阅读平台,以减少HO标签程序中的工作量。对250名患者的队列进行了派生图像特征和应用分类器(支持向量机,深度神经网络)的调查。MR图像质量评估框架可以达到93.7%的高测试精度,用于评估5Likert规模的质量类别。所提出的MR图像质量评估框架能够提供准确和有效的质量评估,其可用作包括自动采集适应或导向MR扫描器操作的预期质量保证,和/或作为回顾性质量评估,包括对诊断决策的支持或队列研究中的质量控制。[1806.09602v1]

 

深入了解功率标准化

Piotr Koniusz, Hongguang Zhang, Fatih Porikli

功率归一化(PN)在Bag-of-Words数据表示的背景下是非常有用的非线性算子,因为它们解决诸如特征不平衡等问题。在本文中,我们通过引入一个新颖的图层来重新考虑这些运算符在深度学习环境中,该图层实现了用于特征映射非线性汇聚的PN。具体而言,通过使用核函数公式,我们的图层将特征向量和它们各自的空间位置组合在由CNN的最后一个卷积层生成的特征映射中。这样一个核的线性化导致一个正定矩阵捕获特征向量的二阶统计量,PN运算符被应用于这些二阶统计量。我们研究两种类型的PN函数,即(iMaxExp和(iiGamma,在非线性池中解决它们的作用和含义。我们还提供了对这些运营商的概率解释,并推导出他们的端对端CNN学习具有良好梯度的替代品。我们通过在ResNet-50模型上实现PN层将我们的理论应用于实践,并展示了四个基准的细粒度识别,场景识别和材料分类的实验。我们的结果证明了所有这些任务的最新性能。[1806.09183v1]

 

从可穿戴相机图像中提取艺术品以增强博物馆观众的体验

张锐,Yusuf BagPiotr Koniusz

基于图像识别的推荐系统可以成为增强博物馆观众体验的重要工具。然而,对于使用可佩戴相机的实际系统,存在影响图像识别质量的许多挑战。在这项试点研究中,我们专注于在三个不同的博物馆空间中使用可穿戴相机识别博物馆收藏。我们讨论可穿戴相机的应用,以及设计一个强大的系统的实际和技术挑战,该系统可以识别访问者浏览的作品以创建其访问的详细记录。具体来说,为了说明不同类型的博物馆空间对图像识别的影响,我们收集了三个包含各种绘画,钟表和雕塑的博物馆展品的训练数据集。后来,我们为选定的参观者配备了可穿戴摄像头,以便在展览中漫步时欣赏他们欣赏的艺术作品。我们使用在ImageNet数据集上预先训练好的卷积神经网络(CNN),并对每个训练集进行微调以达到艺术作品识别的目的。在测试阶段,我们使用CNN通过可穿戴相机识别访问者拍摄的作品。我们分析他们的认可的准确性,并提供一个这种系统的适用性进一步吸引观众与博物馆展览。[1806.09084v1] 在测试阶段,我们使用CNN通过可穿戴相机识别访问者拍摄的作品。我们分析他们的认可的准确性,并提供一个这种系统的适用性进一步吸引观众与博物馆展览。[1806.09084v1] 在测试阶段,我们使用CNN通过可穿戴相机识别访问者拍摄的作品。我们分析他们的认可的准确性,并提供一个这种系统的适用性进一步吸引观众与博物馆展览。[1806.09084v1]

 

复杂网络和随机神经网络的融合用于纹理分析

Lucas C. RibasJarbas JM Sa JuniorLeonardo FS ScabiniOdemir M. Bruno

本文提出了一种基于复杂网络和随机神经网络融合的高判别性纹理分析方法。在这种方法中,输入图像被建模为复杂的网络,其拓扑性质以及图像像素被用来训练随机化的神经网络,以便创建代表纹理深层特征的签名。获得的结果超过了文献中许多方法的准确性。这一性能表明我们提出的方法开辟了一个有前景的研究来源,其中包括在纹理分析领域探索神经网络和复杂网络的协同作用。[1806.09170v1]

 

利用数字化组织病理学图像分析具有不同突变概况的星形细胞瘤的细胞特征差异

Mousu mi Roy,王复生,乔治特奥多罗,Jose Velazqeuz Vega,丹尼尔布拉特,Jun Kong

来自组织病理学图像的细胞表型特征是病理诊断的基础,并被认为与基础分子谱相关。由于细胞数量和群体异质性的压倒性,定量计算和比较具有不同分子特征的细胞的特征仍然具有挑战性。在这项研究中,我们提出了一个自力更生和有效的分析框架,支持定量分析不同分子群体间的细胞表型差异。为了证明疗效,我们使用来自癌症基因组图谱数据库的成像数据定量分析星形细胞瘤,其分子特征为异柠檬酸脱氢酶(IDH)突变体(MUT)或野生型(WT)。在分割,特征计算,数据修剪,维度降低和无监督聚类之后,检索这两组之间表型不同的代表性细胞实例。我们的分析是通用的,可以应用于广泛的基于细胞的生物医学研究。[1806.09093v1]

 

SSIMLayer:通过非线性结构相似性实现鲁棒深度表示学习

Ahmed AbobakrMohammed HossnySaeid Nahavandi

更深的卷积神经网络提供更多容量来近似复杂的映射函数。然而,增加网络深度会给训练带来困难并增加模型的复杂性。本文提出了一种新的深度卷积神经网络架构的非线性计算层。该层执行一组全面的卷积操作,通过集中学习输入中的结构信息来模拟人类视觉系统(HVS)的整体功能。其计算的核心是在一个允许内核学习匹配结构信息的设置中评估结构相似性度量(SSIM)的组件。所提出的SSIMLayer本质上是非线性的,因此它不需要后续的非线性变换。在CIFAR-10基准测试上进行的实验表明,SSIMLayer比传统的卷积层提供了更好的收敛性,绕过了对非线性变换的需求,并且显示出更强大的抗噪声干扰和对抗性攻击。[1806.09152v1]

 

从稀疏轨迹推测自行车路径偏好

J. OehrleinA.FörsterD. SchunckY. DehbiR. RoscherJ.-H. Haunert

了解自行车选手在选择自己的路线时适用的标准,对于规划新的自行车道或推荐骑自行车的人来说至关重要。随着市议会日益意识到交通基础设施的局限性和与汽车交通有关的问题,这变得越来越重要。然而,由于不同的骑车人群体具有不同的偏好,因此寻找单一标准集合很容易失败。因此,在本文中,我们提出了一种新方法,将自行车手记录并分享到不同组中的轨迹进行分类,并为每组确定偏好和不利道路类型。基于这些结果,我们将演示如何为表示道路网络的图的边缘分配权重,使得图中的最小权重路径,可以用标准最短路径算法来计算,对应于足够的路线。我们的方法结合了已知的机器学习算法和创新方式的轨迹分析,从而构成了从最初未分类的轨迹推导路由偏好问题的全面解决方案。我们方法的一个重要特性是,即使给定的一组轨迹是稀疏的,它不会覆盖循环网络的所有部分,它仍然会产生合理的结果。[1806.09158v1] 构成了从最初未分类的轨迹推导路线偏好问题的新综合解决方案。我们方法的一个重要特性是,即使给定的一组轨迹是稀疏的,它不会覆盖循环网络的所有部分,它仍然会产生合理的结果。[1806.09158v1] 构成了从最初未分类的轨迹推导路线偏好问题的新综合解决方案。我们方法的一个重要特性是,即使给定的一组轨迹是稀疏的,它不会覆盖循环网络的所有部分,它仍然会产生合理的结果。[1806.09158v1]

 

基于CNN的动作识别和通过核心特征映射对3D身体骨架进行监督域调整

Yusuf TasPiotr Koniusz

深度学习在计算机视觉的许多领域中无处不在。在对中小规模问题进行微调之前,通常需要大规模数据集进行培训。活动,换句话说,动作识别,是深度学习的许多应用领域之一。虽然存在许多用于RGB和光流帧的卷积神经网络架构,但是通常通过诸如LSTM的递归网络来执行对3D身体骨架关节的时间序列的训练。在本文中,我们提出了一种新的表示方法,用数学上严格的核方法导出类似纹理的表示,对三维人体骨骼关节的序列进行编码。这种表示成为标准CNN网络中的第一层,例如ResNet-50,然后将其用于监督域适配管道中,以将信息从源传输到目标数据集。这让我们可以利用基于Kinect的可用数据超越单个数据集的训练,并且可以在任何两个数据集上以简单方式进行微调。更具体地说,在本文中,我们利用数据集之间的重叠类。我们通过所谓的通用性将同一类的数据点关联起来,从监督域自适应中知道。我们在三个公开可用的基准上展示了最先进的结果。[1806.09078v1] 在本文中,我们利用数据集之间的重叠类。我们通过所谓的通用性将同一类的数据点关联起来,从监督域自适应中知道。我们在三个公开可用的基准上展示了最先进的结果。[1806.09078v1] 在本文中,我们利用数据集之间的重叠类。我们通过所谓的通用性将同一类的数据点关联起来,从监督域自适应中知道。我们在三个公开可用的基准上展示了最先进的结果。[1806.09078v1]

 

使用三维卷积神经网络的CT图像超分辨率

Yukai Wang, Qizhi Teng, Xiaohai He, Junxi Feng, Tingrong Zhang

计算机断层扫描(CT)成像技术广泛应用于地质勘探,医学诊断等领域。然而,在实践中,CT图像的分辨率通常受到扫描装置的限制并且花费很大。基于深度学习的超分辨率(SR)方法在二维(2D)图像中取得了惊人的性能。不幸的是,对于三维(3D)图像几乎没有有效的SR算法。在本文中,我们提出了一种新颖的网络,即三维超分辨率卷积神经网络(3DSRCNN)来实现CT图像的体素超分辨率。为解决训练过程中网络训练收敛慢,记忆力不足等实际问题,采用可调学习率,残差学习,梯度裁剪,动量随机梯度下降(SGD)策略来优化训练过程。另外,我们探索了设定合适的网络层数以及如何使用残差学习策略的经验性指导方针。此外,以前的基于学习的算法需要分别训练不同的比例因子进行重建,但我们的单一模型可以完成多尺度的SR。最后,与常规方法相比,我们的方法在PSNRSSIM和效率方面具有更好的性能。[1806.09074v1] 但我们的单一模型可以完成多尺度的SR。最后,与常规方法相比,我们的方法在PSNRSSIM和效率方面具有更好的性能。[1806.09074v1] 但我们的单一模型可以完成多尺度的SR。最后,与常规方法相比,我们的方法在PSNRSSIM和效率方面具有更好的性能。[1806.09074v1]

 

Deep K-Means:重新训练和参数共享,用于压缩深卷积的较硬集群分配

Junru Wu, Yue Wang, Zhenyu Wu, Zhangyang Wang, Ashok Veeraraghavan, Yingyan Lin

目前使用卷积推进CNN的趋势已经产生了一个迫切需求,即在卷积主导计算和参数数量的CNN上实现更高的压缩增益(例如,GoogLeNetResNetWide ResNet)。此外,卷积的高能耗限制了其在移动设备上的部署。为此,我们提出了一种简单而有效的压缩卷积方案,即通过对权重应用k均值聚类,通过权重共享实现压缩,仅记录$ K $聚类中心和权重分配索引。然后,我们引入了一种新的频谱宽松的k-means正则化,它倾向于在重新训练期间对k-means学习的聚类中心进行卷积层权重的硬分配。我们还提出了一套改进的度量标准来估计CNN硬件实现的能耗,其估计结果经过验证与先前提出的从实际硬件测量推断出的能量估算工具一致。我们最终评估了几个CNN模型在压缩比和能耗降低方面的deep k-means,观察到有希望的结果而不会导致精度损失。该代码可在https://github.com/Sandbox3aster/Deep-K-Means [1806.09228v1] 

 

卷积神经网络尺度空间近似在视网膜血管分割中的应用

Kyoung Jin Noh,桑俊公园,Soochahn Lee

医学图像中视网膜图像具有最高的分辨率和清晰度。因此,视网膜图像中的血管分析可能有助于许多慢性疾病的早期诊断和治疗。在本文中,我们提出了一种新的多尺度残差卷积神经网络结构,基于一个\ emph {尺度空间近似(SSA}层块,包括子采样和随后的上采样,用于多尺度表示。通过频域分析,我们发现这种块结构是高斯滤波的一种近似,它是用于实现尺度空间理论中尺度变化的运算。实验评估表明,所提出的网络胜过当前最先进的方法。烧蚀分析表明,SSA确实是提高绩效的重要因素。[1806.09230v1]

 

用于运动捕捉数据语义分割的扩展时态全卷积网络

Noshaba CheemaSomayeh HosseiniJanis SprengerErik HerrmannHan DuKlaus FischerPhilipp Slusallek

运动捕捉序列的语义分割在许多数据驱动的运动合成框架中起着关键作用。这是一个预处理步骤,将运动捕捉序列的长时间记录划分为更小的片段。之后,可以将其他方法(如统计建模)应用于每组结构相似的分段以学习抽象运动流形。然而,分割任务通常仍然是手动任务,这增加了生成大型运动数据库的工作量和成本。因此,我们提出了一个使用扩张时间全卷积网络的运动捕捉数据的语义分割自动框架。我们的模型在行动分割方面胜过最先进的模型,以及三个序列建模网络。我们进一步显示我们的模型对高噪音训练标签是强健的。[1806.09174v1]

 

DARTS:可区分的架构搜索

Hanxiao Liu, Karen Simonyan, Yiming Yang

本文通过以可区分的方式制定任务来解决架构搜索的可扩展性挑战。与传统的将演化或强化学习应用于离散和不可区分搜索空间的方法不同,我们的方法基于体系结构表示的不断放松,可以使用梯度下降高效搜索体系结构。在CIFAR-10ImageNetPenn TreebankWikiText-2上进行的大量实验表明,我们的算法擅长于发现用于图像分类的高性能卷积体系结构和用于语言建模的循环体系结构,艺术不可区分的技术。[1806.09055v1]

 

全滑道肝组织病理学重叠脂肪变性的分割

Mousu mi Roy,王复生,George TheodoreMiriam B VosAlton Brad FarrisJun Kong

准确的脂肪变性定量与病理组织样本具有很高的临床重要性。然而,这种病理学测量是在大多数临床实践中手工制作的,由于大的取样偏差和重复性差,受到严重的读者差异。尽管开发了一些计算机化的自动化方法来量化脂肪变性区域,但是它们对于高分辨率全幻灯片显微镜图像和精确重叠的脂肪变性分割呈现有限的分析能力。在本文中,我们提出了一种方法,通过估计组织边界框和旋转角度,以最小背景区域的高分辨率提取单个整个组织边界。接下来是具有高曲率点检测的脂肪变性区域的分割和分离以及椭圆拟合质量评估方法。我们验证了我们的方法在11例患者的肝组织图像中发现了孤立且重叠的脂肪变性区域。实验结果表明,我们的方法有望在肝病治疗的病理学评论期间增强对脂肪变性量化的支持。[1806.09090v1]

 

二维嵌入和深度学习在宏基因组学中的疾病分类

Thanh Hai NguyenEdi PriftiYann ChevaleyreNataliya SokolovskaJean-Daniel Zucker

深度学习(DL)技术在应用于图像,波形和文本时表现出前所未有的成功。通常,当样本大小($ N $)比特征数量($ d $)大得多时,通常通过使用卷积神经网络(CNN),DL往往胜过其他机器学习(ML)技术。然而,在许多生物信息学领域(包括宏基因组学)中,我们遇到相反的情况,其中$ d $显着大于$ N $。在这些情况下,应用DL技术会导致严重的过度配合。这里我们的目标是通过使用CNN来改善使用宏基因组数据对各种疾病的分类。为此,我们提出将宏基因组数据表示为图像。提出的Met2Img方法依赖于分类学和t-SNE嵌入来将丰度数据转换成合成图像。我们将我们的方法应用于12个基准数据集,其中包括1400多个宏基因组样本。我们的结果显示了对最先进的算法(随机森林(RF),支持向量机(SVM))的显着改进。我们观察到系统发育信息与丰度数据的整合提高了分类。所提出的方法不仅在分类设置中很重要,而且还可以使复杂的宏基因组数据可视化。Met2Img是用Python实现的。[1806.09046v1] 我们观察到系统发育信息与丰度数据的整合提高了分类。所提出的方法不仅在分类设置中很重要,而且还可以使复杂的宏基因组数据可视化。Met2Img是用Python实现的。[1806.09046v1] 我们观察到系统发育信息与丰度数据的整合提高了分类。所提出的方法不仅在分类设置中很重要,而且还可以使复杂的宏基因组数据可视化。Met2Img是用Python实现的。[1806.09046v1]

 

Privacy-Protective-GAN用于人脸识别

Yifan Wu, Fan Yang, Haibin Ling

由于图像源爆炸式增长并且易于访问,因此人脸识别已变得越来越重要。新面孔识别技术的进步也引发了人们对隐私泄露的担忧。面部去识别的主流流程大多基于k-相同的框架,该框架承载着对低效率和低视觉质量的批评。在本文中,我们提出了一个名为Privacy-Protective-GANPP-GAN)的新框架,它将GAN与专门设计用于人脸去识别问题的新型验证器和调节器模块相匹配,以确保根据保留的结构相似性生成去识别输出到一个单一的输入。我们根据隐私保护,实用程序保留和结构相似性评估提议的方法。我们的方法不仅胜过现有的人脸识别技术,而且还提供了一个适应GAN与领域知识先验的实用框架。[1806.08906v1]

 

通过跟踪多个统计排名假设提取CT数据中的树状结构

Raghavendra SelvanJens PetersenJesper H PedersenMarleen de Bruijne

在这项工作中,我们调整了一种基于多假设跟踪(MHT)的方法,该方法已被证明可以在交互设置中提供最先进的船舶分割结果,以提取树木。定期间隔的管状模板适合于形成局部假设的图像数据。这些局部假设用于构造MHT树,然后遍历该MHT树以作出分割决定。然而,这种方法中的一些关键参数与尺度有关,并且在追踪不同尺寸的结构时具有不利影响。我们建议在构建MHT树时使用局部假设的统计排序,这将产生跨尺度分数的概率解释,并有助于减轻MHT参数的尺度依赖性。这使我们的方法能够从单个种子点开始跟踪树。我们的方法在胸部CT数据上评估以提取气道树和冠状动脉。在这两种情况下,我们都表明我们的方法比原来的MHT方法表现得更好。[1806.08981v1]

 

基于笔划的字符识别与深度强化学习

Zhewei Huang, Wen Heng, Yuanzheng Tao, Shuchang Zhou

字符的笔画序列对于字符识别任务是重要的。在本文中,我们提出了一种基于笔划的字符识别(SCR)方法。我们在深度强化学习(DRL)框架下训练中风推理模块。该模块从字符中提取笔划序列,可与字符识别器集成以提高其对噪声的鲁棒性。我们的实验表明,该模块可以处理复杂的噪音并重构人物。同时,它还可以帮助我们在防御角色识别器的敌对攻击方面做出巨大的贡献。[1806.08990v1]

 

利用全局特征中的隐式空间信息进行图像检索

Pierre JacobDavid PicardAymeric HistaceEdouard Klein

大多数图像检索方法使用全局特征将局部特征模式聚合成单一表示。然而,聚合过程通过考虑无序集合的局部描述符破坏相对空间信息。我们建议通过考虑张量框架中局部模式的共现,将相对空间信息整合到聚合过程中。名为Improved Spatial Tensor AggregationISTA)的结果签名能够在众所周知的数据集(如HolidaysOxford5kParis6k)上达到最佳性能表现。[1806.08991v1]

 

带有CNN功能的PAP涂片图像分析系统的注意事项

Srishti GautamHarinarayan KKNirmal JithAnil K. SaoArnav BhavsarAdarsh Natarajan

已经表明,对于自动化的PAP涂片图像分类,核特征可以是非常丰富的。因此,自动筛选的主要步骤可以是细胞核检测,然后是所得单细胞PAP涂片图像中细胞核的分割。我们提出了一种基于贴片的方法,使用CNN对单细胞图像中的细胞核进行分割。然后,我们提出使用CNN表示学习进行分类的离子问题,以及低级CNN特征是否可能对分类有用。我们建议使用基于CNN的特征级别分析和基于转移学习的方法进行分类,同时使用分段和完整单细胞图像。我们还提出了一种基于决策树的分类方法。实验结果证明了所提出的算法单独(具有低级CNN特征)的有效性,并且同时证明用于分类的细胞核检测(而非精确分割)的充分性。因此,我们提出了一种用于分析多细胞PAP涂片图像的系统,其由简单的核检测算法组成,然后使用转移学习进行分类。[1806.09025v1]

 

变分Wasserstein聚类

Liang Mi, Wen Zhang, Xianfeng Gu, Yalin Wang

我们提出了一种基于最优运输的新聚类方法。我们用变分原理解决最佳运输问题,并研究使用功率图作为将任意域聚合成固定数量集群的运输计划。我们迭代地通过目标域驱动质心,同时通过调整功率图来维持最小聚类能量。因此,我们同时进行聚类和质心和目标域之间的Wasserstein距离,从而产生一个稳健的保持测量的映射。总的来说,解决最优运输问题有两种方法 – Kantorovich vs Brenier’s。虽然大多数研究人员都关注Kantorovich的方法,但我们提出了一个解决Brenier’ 并采用最先进的方法实现竞争结果。我们向不同的领域展示了我们的应用,例如在合成和真实数据的领域适应,重新网格划分和表示学习。[1806.09045v1]

 

Elasticsearch中实现可视化的搜索引擎

Cun Mu, Jun Zhao, Guang Yang, Jing Zhang, Zheng Yan

在本文中,我们描述了基于Elasticsearch构建的端到端基于内容的图像检索系统,Elasticsearch是一个众所周知的流行文本搜索引擎。据我们所知,这是第一次在电子商务中实施这样一个系统,我们的努力结果非常有价值。我们最终获得了一种新颖且令人兴奋的视觉搜索解决方案,该解决方案非常易于以便宜的方式进行部署,分发,缩放和监控。此外,我们的平台在支持多模式搜索方面具有内在的灵活性,其中视觉和文本信息可以共同用于检索。其核心思想是将图像特征向量编码为一组字符串标记,以便更近的向量共享更多的字符串标记。通过这样做,我们可以利用Elasticsearch根据编码的令牌令牌中的相似性有效地检索相似的图像。作为开发的一部分,我们提出了一种新颖的矢量字符串编码方法,该方法在精度和延迟方面都显着优于以前的矢量。在实施基于Elasticsearch的平台方面的第一手经验得到了广泛的解决,这对于那些对在Elasticsearch之上构建可视化搜索引擎感兴趣的从业者也应该是有价值的。[1806.08896v1] 在实施基于Elasticsearch的平台方面的第一手经验得到了广泛的解决,这对于那些对在Elasticsearch之上构建可视化搜索引擎感兴趣的从业者也应该是有价值的。[1806.08896v1] 在实施基于Elasticsearch的平台方面的第一手经验得到了广泛的解决,这对于那些对在Elasticsearch之上构建可视化搜索引擎感兴趣的从业者也应该是有价值的。[1806.08896v1]

 

基于M-DI2-FGSM的动量多输入迭代快速梯度符号攻击方法评估MCS 2018敌对黑箱人脸识别系统

Md Ashraful Alam Milton

卷积神经网络是最近在各种计算机视觉任务(如分类,分割和检测)上基于深度学习的方法取得成功的关键工具。卷积神经网络在这些任务中实现了最先进的性能,并且每天都在推动计算机视觉和人工智能的极限。然而,对抗计算机视觉系统的攻击正威胁着它们在现实生活中以及安全关键应用中的应用。必然地,找到敌对的例子对于发现易受攻击的模型来攻击并采取保障措施来克服敌对攻击非常重要。在这方面,MCS 2018敌对黑客攻击面部识别挑战旨在促进研究发现新的敌对攻击技术及其产生敌对案例的有效性。在这个挑战中,攻击的本质是针对黑箱神经网络的攻击,因为我们对黑块的内部结构一无所知。攻击者必须修改一个人的五个图像的集合,以使神经网络将它们误分类为目标图像,该目标图像是另一个人的一组五个图像。在本次比赛中,我们应用Momentum Diverse Input迭代快速梯度符号法(M-DI2-FGSM)对黑箱人脸识别系统进行对抗性攻击。我们测试了我们在MCS 2018敌对攻击黑盒面部识别挑战方面的方法,并找到了竞争结果。我们的解决方案得到的验证得分为1.404,比基准得分1.407更好,在领导委员会的132个小组中排名14位。通过从源图像中找到改进的特征提取,仔细选择的超参数,找到改进的黑盒替代模型和更好的优化方法,可以实现进一步的改进。[1806.08970v1]

 

多任务手写文档布局分析

洛伦佐奎罗斯

文档布局分析是手写文本处理系统中的一个基本步骤,将文本行抽取到所属区域的类型。我们提出了一个基于人工神经网络的系统,它不仅可以提取文档中存在的基线,还可以提取文档的几何和逻辑布局分析。三个不同数据集中的实验证明了该方法的潜力,并显示出具有最新技术方法的竞争结果。[1806.08852v1]

 

OCT图像分割视网膜层的深度学习框架

Karthik GopinathSamrudhihi B RangrejJayanthi Sivaswamy

从光学相干断层扫描(OCT)体积分割视网膜层是任何计算机辅助诊断算法开发的基本问题。这需要预处理步骤,例如去噪,感兴趣区域提取,平坦化和边缘检测,所有这些都涉及单独的参数调整。在本文中,我们探索深度学习技术,使所有这些步骤自动化,并处理存在/不存在病理。提出了一种由卷积神经网络(CNN)和长期短期记忆(LSTM)组成的模型。CNN用于提取感兴趣的图像并提取边缘,而LSTM用于跟踪图层边界。使用最少的数据对该模型进行正常和AMD病例的混合培训。对三个公共数据集的验证结果显示,我们的系统获得的像素平均绝对误差为1.30±0.48,低于1.79±0.76的标记间误差。我们的模型的性能也与现有方法一致。[1806.08859v1]

 

RUC + CMU:视频中密集字幕事件的系统报告

Shizhe Chen, Yuqing Song, Yida Zhao, Jiarong Qiu, Qin Jin, Alexander Hauptmann

本笔记本纸将我们的系统介绍在ActivityNet Dense字幕视频任务中(任务3)。时间提议生成和字幕生成对于密集字幕任务都很重要。因此,我们提出了一种建议排名模型,使用一组有效的特征表示进行建议生成,并集合一系列增强了上下文信息的标题模型,以对预测建议生成标题。我们的方法在密集视频字幕任务上实现了最先进的性能,在挑战测试集上获得8.529METEOR分数。[1806.08854v1]

 

GONet ++:通过动态场景视图合成的可穿透性估计

Noriaki Hirose, Amir Sadeghian, Fei Xia, Silvio Savarese

与动态环境交互的机器人(如社交机器人和自动驾驶汽车)必须能够安全地在空间中导航,以避免受伤或损坏。因此,有效识别可穿越和不可穿越的空间对于移动机器人的操作至关重要。在本文中,我们建议使用基于动态视图合成的框架来解决可遍历性估计问题。视图合成技术提供了预测机器人周围广泛区域的遍历性的能力。与传统的视图合成方法不同,我们的方法可以模拟人类等动态障碍物,并预测未来将要到达的位置,从而允许机器人提前进行规划并避免与动态障碍物的潜在碰撞。我们的方法GONet ++建立在GONet之上。GONet只能预测机器人前方空间的可移动性。然而,我们的方法将GONet应用于预测的未来帧,以估计机器人周围多个位置的可移动性。我们证明我们的方法在数量和质量上均优于视图合成和可穿透性估计任务中的基线方法。[1806.08864v1]

 

学习条件图解结构的可视化问答

诺尔克利夫布朗,Efstathios Vafeias,莎拉帕索

Visual Question Answering是一个具有挑战性的问题,需要结合计算机视觉和自然语言处理的概念。大多数现有的方法使用双流策略,计算图像和问题特征,因此使用各种技术合并。尽管如此,很少依赖更高级别的图像表示,这允许捕获语义和空间关系。在本文中,我们提出了一种新颖的基于图形的视觉问答方法。我们的方法结合了一个图形学习器模块,该模块学习输入图像的问题特定图形表示与最近的图形卷积概念,旨在学习捕获问题特定交互的图像表示。我们在VQA v2数据集上使用由图形学习器模块增强的简单基线架构来测试我们的方法。我们以65.77%的准确度获得了最新的结果,并证明了所提出方法的可解释性。[1806.07243v3]

 

用于行动分类的时空信道相关网络

Ali DibaMohsen FayyazVivek SharmaM. Mahdi ArzaniRahman YousefzadehJuergen GallLuc Van Gool

本文中的工作是由三维卷积神经网络(CNN)的时空相关性是否足够的问题驱动的?大多数传统的3D网络使用本地时空特征。我们引入了一个新的模块,该模块针对时间和空间特征对3D CNN的通道之间的相关性进行建模。这个新块可以作为残余单元添加到3D CNN的不同部分。我们命名我们的小说时空频道相关STC)。通过将此块嵌入到当前最先进的体系结构(如ResNextResNet)中,我们在Kinetics数据集上将性能提高了2-3%。我们的实验表明,将STC模块添加到当前最先进的体系结构中,将优于HMDB51UCF101Kinetics数据集上的最先进方法。培训3D CNN的另一个问题是要从头开始用一个巨大的标记数据集来训练它们,以获得合理的性能。因此,二维CNN中学到的知识被完全忽略。这项工作的另一个贡献是将知识从预先训练的二维CNN转移到随机初始化的3D CNN以实现稳定的体重初始化的简单而有效的技术。这使我们能够显着减少3D CNN的训练样本数量。因此,通过微调这个网络,我们在3D CNNs中击败了通用和近期方法的性能,这些方法在大型视频数据集(例如Sports-1M)上进行了训练,并对目标数据集(例如HMDB51 / UCF101)进行了微调。[1806.07754v2] 这项工作的另一个贡献是将知识从预先训练的二维CNN转移到随机初始化的3D CNN以实现稳定的体重初始化的简单而有效的技术。这使我们能够显着减少3D CNN的训练样本数量。因此,通过微调这个网络,我们在3D CNNs中击败了通用和近期方法的性能,这些方法在大型视频数据集(例如Sports-1M)上进行了训练,并对目标数据集(例如HMDB51 / UCF101)进行了微调。[1806.07754v2] 这项工作的另一个贡献是将知识从预先训练的二维CNN转移到随机初始化的3D CNN以实现稳定的体重初始化的简单而有效的技术。这使我们能够显着减少3D CNN的训练样本数量。因此,通过微调这个网络,我们在3D CNNs中击败了通用和近期方法的性能,这些方法在大型视频数据集(例如Sports-1M)上进行了训练,并对目标数据集(例如HMDB51 / UCF101)进行了微调。[1806.07754v2] 我们在3D CNNs中击败了通用和近期方法的性能,这些方法在大型视频数据集(例如Sports-1M)上进行了训练,并对目标数据集(例如HMDB51 / UCF101)进行了微调。[1806.07754v2] 我们在3D CNNs中击败了通用和近期方法的性能,这些方法在大型视频数据集(例如Sports-1M)上进行了训练,并对目标数据集(例如HMDB51 / UCF101)进行了微调。[1806.07754v2]

 

一种基于Connectome的果蝇视觉系统六边形网格卷积网络模型

Fabian David TschoppMichael B. ReiserSrinivas C. Turaga

我们可以从connectome中学到什么?我们构建了苍蝇视觉系统前两个阶段的简化模型,即椎板和髓质。由此产生的六角格子卷积网络通过反向传播训练以在自然场景视频中执行对象跟踪。初始化来自connectome重建的权重的网络自动发现了T4神经元及其输入中众所周知的定向和方向选择性属性,而随机初始化的网络则没有。我们的工作是第一次演示,connectome的知识可以在电路上预测电路中单个神经元的功能特性,从而单独从结构中理解电路功能。[1806.04793v2]

 

用于多目标跟踪的图形转换博弈

Tewodros Mulugeta DagnewDalia CoppiMarcello PelilloRita Cucchiara

半监督学习是从有标签和无标签数据中学习的流行类技术。本文提出了一种最近提出的图转换方法的应用,该方法利用博弈理论概念来解决多人跟踪问题。在提出的框架内,目标被视为多人非合作博弈的参与者。游戏的均衡被认为是一致的标签解决方案,因此也是帧序列中目标关联的估计。使用基于HOG的检测器从视频帧中提取人物贴片,并且使用它们的协方差矩阵之间的距离来对它们的相似度建模。我们提出的解决方案在视频监控数据集上取得了满意的结果。实验显示该方法的鲁棒性,即使在标记和未标记的输入斑块数量之间严重不平衡的情况下。[1806.07227v2]

 

空间金字塔池层密集深度卷积神经网络检测室性早搏

Jianning Li

室性早搏(PVC)是一种源于心室的异位性早搏。自动化的方法准确和强大的检测聚氯乙烯是高度临床期望的。目前,这些方法大多是开发和测试使用相同的数据库分为训练和测试集,其泛化性能跨数据库尚未完全验证。本文提出了一种基于密集连接卷积神经网络和空间金字塔池化的PVC检测方法,该方法可以将任意大小的QRS波群作为输入进行训练和检测。通过更简单,更简单的体系结构,所提出的网络在当前的基于深度学习的方法方面达到了与准确性相当的结果,以MIT-BIH心律失常数据库为基准进行训练和测试,除了基准数据库之外,还从四个更开放的数据库中提取QRS波群,即圣彼得堡心脏病学技术研究所12导联心律失常数据库,MIT-BIH正常窦性心律数据库,MIT-BIH长期数据库和欧洲ST-T数据库。提取的QRS波群在5个数据库中的长度和采样率各不相同,并进行了全数据库的训练和测试。网络性能对基准数据库进行了改进,证明了使用多个数据库的优势仅使用单个数据库进行培训。该网络还在其他四个数据库上获得满意的分数,表现出良好的泛化能力。[1806

 

对称元算子的变换相同和不变卷积神经网络

Shih Chung B. LoMatthew T. FreedmanSeong K. MunShuo Gu

在数学上讲,当它们在第一个操作数矩阵上操作时,转换不变算子(如变换相同(TI)矩阵核)(即K = T {K})与变换(T {})交换。我们发现,通过在卷积神经网络(CNN)系统中始终如一地应用相同类型的TI内核,交换属性在整个卷积过程中都可以保持,而且不涉及层间通道的激活函数和/1D卷积。我们进一步发现,对于所有卷积层具有相同TI内核特性的CNN,然后在它们的变换相应元素之间具有权重共享的变平层,将对原始输入矢量的所有变换版本输出相同的结果。简而言之,CNN [Vi] = CNN [T {Vi}]CNN中提供每个K = T {K},其中Vi表示输入向量,CNN []表示作为产生输出向量的输入向量的函数的整个CNN过程。利用这种变换相同的CNNTI-CNN)系统,与数据增强中使用的预定义TI无关的每个变换将固有地包括其用于训练的输入矢量的所有相应变换版本。因此,对于CNN中的每个内核,使用相同的TI属性将作为定向或独立于翻译的培训指南,与训练期间的错误反向传播一起使用。此TI内核属性对于需要来自输入的相应转换版本的高度一致的输出结果的应用程序而言是理想的。提供了几个C编程例程以便于感兴趣的各方使用TI-CNN技术,该技术有望产生比其普通CNN副本更好的泛化性能。[1806.03636v2]

 

通过图像到图像转换的相关强化学习任务的转移学习

Shani GamrianYoav Goldberg

Deep Reinforcement Learning已经成功实现了直接从原始像素学习控制策略的最新成果。然而,尽管它取得了显着的成功,但它没有概括出一个稳定的人工智能系统所需的基本组件。使用Atari游戏突破,我们证明了训练有素的代理人在调整原始图像中的简单修改方面的困难,这是人类可以轻易适应的。在转移学习中,目标是利用源任务获得的知识更快更好地完成目标任务的训练。我们表明,使用各种形式的微调,一种常用的转移学习方法,对于适应这种小的视觉变化无效。事实上,从头开始重新训练代理人比调整训练有素的代理人要容易得多。我们建议在某些情况下,转移学习可以通过添加一个专门的组件来改进,其目标是学习在已知域和新域之间进行可视化映射。具体来说,我们使用生成敌对 网络(GAN)来创建一个映射函数,将目标任务中的图像转换为源任务中的相应图像,从而允许我们在不同任务之间进行转换。我们表明,学习这种映射比再培训更有效。在https://youtu.be/e2TwjduPT8g中可以看到有经过训练的代理人在经过修改的情况下进行的可视化,无论是否有GAN转移。[1806.07377v2] 我们使用Generative Adversarial NetworksGAN)创建一个映射函数,将目标任务中的图像转换为源任务中的相应图像,从而允许我们在不同任务之间进行转换。我们表明,学习这种映射比再培训更有效。在https://youtu.be/e2TwjduPT8g中可以看到有经过训练的代理人在经过修改的情况下进行的可视化,无论是否有GAN转移。[1806.07377v2] 我们使用Generative Adversarial NetworksGAN)创建一个映射函数,将目标任务中的图像转换为源任务中的相应图像,从而允许我们在不同任务之间进行转换。我们表明,学习这种映射比再培训更有效。在https://youtu.be/e2TwjduPT8g中可以看到有经过训练的代理人在经过修改的情况下进行的可视化,无论是否有GAN转移。[1806.07377v2] //youtu.be/e2TwjduPT8g[1806.07377v2] //youtu.be/e2TwjduPT8g[1806.07377v2]

 

GLAC网络:用于多图像预告故事生成的全局本地注意级联网络

Taehyeong KimMin-Oh HeoSeonil SonKyoung-Wha ParkByoung-Tak Zhang

多图像预告故事生成的任务,如视觉故事叙述数据集(VIST)挑战,是从给定的图像序列组成多个连贯的句子。主要困难在于如何在整个图像的上下文中生成特定于图像的句子。在这里,我们提出了一个深度学习网络模型GLAC Net,它通过结合全球本地(全球本地)注意力和上下文级联机制来生成视觉故事。该模型包含两个层次的关注,即整体编码级别和图像特征级别,以构建与图像相关的句子。虽然标准的注意配置需要大量的参数,但GLAC Net通过从编码器输出或图像特征到句子生成器的硬连接以非常简单的方式实现它们。通过将前一个句子的信息连续地传送(串接)到下一个句子,可以进一步提高生成故事的一致性。我们评估了GLAC网络在视觉叙事数据集(VIST)上的表现,并与最先进的技术相比,取得了非常有竞争力的结果。[1805.10973v2]

 

双交换解缠

Zunlei Feng, Xinchao Wang, Chenglong Ke, Anxiang Zeng, Dacheng Tao, Mingli Song

学习可解释的解题表达是一项至关重要而又具有挑战性的任务。在本文中,我们提出了一种弱半监督方法,称为双交换解缠(DSD),用于使用标记数据和未标记数据进行解缠。与依赖于样本组的完整注释的传统弱监督方法不同,我们只需要配对样本上的有限注释来指示其颜色等共享属性。我们的模型采用双自编码器结构的形式。为了使用带标签的对进行解开,我们遵循编码交换解码过程,我们首先交换对应于共享属性的编码部分,然后对获得的混合编码进行解码以重构原始输入对。对于未标记的对,我们按照“ 我们强调了未标记样本的编码的维数模块性和可移植性,这隐含地鼓励在标记对的指导下解开。这种针对半监督设置的双重交换机制证明是非常有效的。对来自广泛领域的图像数据集进行的实验表明,我们的模型产生了最先进的解构性能。[1805.10583v2] 我们强调了未标记样本的编码的维数模块性和可移植性,这隐含地鼓励在标记对的指导下解开。这种针对半监督设置的双重交换机制证明是非常有效的。对来自广泛领域的图像数据集进行的实验表明,我们的模型产生了最先进的解构性能。[1805.10583v2]

 

带时态GAN的端到端语音驱动人脸动画

Konstantinos VougioukasStavros PetridisMaja Pantic

语音驱动的面部动画是使用语音信号自动合成说话人物的过程。该领域的大部分工作创建了从音频功能到视觉功能的映射。这通常需要使用计算机图形技术进行后处理以产生真实的依赖于受试者的结果。我们提出了一种用于生成说话头的视频的系统,该系统使用人的静止图像和包含语音的音频片段,其不依赖任何手工制作的中间特征。就我们所知,这是第一种能够直接从原始音频生成主题独立真实视频的方法。我们的方法可以生成具有以下特征的视频:(a)与音频同步的嘴唇运动和(b)眨眼和眉毛运动等自然面部表情。我们通过使用具有2个鉴别器的时间GAN来实现这一点,这些鉴别器能够捕捉视频的不同方面。通过消融研究来量化我们系统中每个组分的影响。生成的视频根据其清晰度,重建质量和唇读精度进行评估。最后,进行用户研究,证实时间GAN比静态GAN方法导致更多的自然序列。[1805.09313v3] 证实时间GAN比静态GAN方法导致更多的自然序列。[1805.09313v3] 证实时间GAN比静态GAN方法导致更多的自然序列。[1805.09313v3]

 

用于面部属性操作的稀疏分组多任务生成对抗网络

Jichao Zhang, Yezhi Shu, Songhua Xu, Gongze Cao, Fan Zhong, Xueying Qin

最近,图像到图像转换(IIT)在图像风格转换和图像语义上下文的处理方面取得了巨大进步。但是,现有的方法需要对培训数据进行详尽的标记,这对劳动力要求很高,难以扩大规模,难以适应新的领域。为了克服这种关键限制,我们提出了稀疏分组的生成对抗网络(SG-GAN),这是一种新颖的方法,可以在稀疏分组数据集中执行图像转换,大多数训练数据是混合的,只有少数被标记。具有单输入多输出体系结构的SG-GAN可用于多个组之间的翻译,只使用一个训练模型。作为实验验证我们模型优点的案例研究,我们应用该算法来解决面部图像属性操作的一系列任务。实验结果表明,SG-GAN可以在充分标记的数据集上获得比以前最先进的方法的竞争结果,同时在大多数数据被混合并且只有小部分被标记的稀疏分组数据集上获得优异的图像转译结果质量。[1805.07509v4]

 

基于条件生成模型生成增强训练图像的航空影像St鱼检测

Yi-Min Chou, Chien-Hung Chen, Keng-Hao Liu, Chu-Song Chen

在本文中,我们提出了一种基于航拍图像处理黄貂鱼检测问题的物体检测方法。在这个问题中,使用无人驾驶飞行器(UAV)将图像空中捕捉在海面上,并且在海面下(但靠近)游动的黄貂鱼是我们想要检测和定位的目标。为此,我们使用深度目标检测方法,更快的RCNN来训练基于有限训练集的图像的黄貂鱼探测器。为了提高性能,我们开发了一种新的生成方法,条件GLO,以增加黄貂鱼的训练样本,这是生成潜在优化(GLO)方法的延伸。与仅为图像分类生成新数据的传统数据增强方法不同,我们提出的将前景和背景混合在一起的方法可以为物体检测任务生成新的数据,从而提高CNN检测器的训练效率。实验结果表明,利用我们的方法对航拍图像中的st鱼进行检测,可以获得满意的性能。[1805.04262v3]

 

基于卷积网络的遥感影像动态多尺度分割

Keiller NogueiraMauro Dalla MuraJocelyn ChanussotWilliam Robson SchwartzJefersson A. dos Santos

语义分割需要能够在处理大量数据时学习高级特征的方法。为了达到这样的目标,卷积网络可以根据数据学习特定的和可适应的特征。然而,鉴于其庞大的尺寸,这些网络无法处理整个遥感图像。为了克服这种限制,图像使用固定大小的补丁进行处理。输入补丁大小的定义通常是凭经验进行的(评估多个大小)或施加的(通过网络约束)。两种策略都有缺点,并且不能达到最佳的补丁大小。为了缓解这个问题,一些作品通过结合网络或图层来利用多尺度信息。该过程增加了参数的数量,导致更难以训练的模型。在这项工作中,我们提出了一种新颖的技术来执行遥感图像的语义分割,该技术利用多尺度范例而不增加参数的数量,同时在训练时间中定义最佳的分块大小。主要想法是训练具有不同补丁大小的扩展网络,使其能够从异构环境中捕捉多尺度特征。在处理这些不同的修补程序时,网络为每个修补程序大小提供评分,有助于为当前情况定义最佳大小。对所提出算法的系统评估是使用具有非常明显特性的四个高分辨率遥感数据集进行的。我们的结果显示,与最先进的方法相比,所提出的算法在像素级分类准确度方面提供了改进。[1804.04020v2] 最佳的补丁大小。主要想法是训练具有不同补丁大小的扩展网络,使其能够从异构环境中捕捉多尺度特征。在处理这些不同的修补程序时,网络为每个修补程序大小提供评分,有助于为当前情况定义最佳大小。对所提出算法的系统评估是使用具有非常明显特性的四个高分辨率遥感数据集进行的。我们的结果显示,与最先进的方法相比,所提出的算法在像素级分类准确度方面提供了改进。[1804.04020v2] 最佳的补丁大小。主要想法是训练具有不同补丁大小的扩展网络,使其能够从异构环境中捕捉多尺度特征。在处理这些不同的修补程序时,网络为每个修补程序大小提供评分,有助于为当前情况定义最佳大小。对所提出算法的系统评估是使用具有非常明显特性的四个高分辨率遥感数据集进行的。我们的结果显示,与最先进的方法相比,所提出的算法在像素级分类准确度方面提供了改进。[1804.04020v2] 网络为每个补丁大小提供评分,有助于定义当前场景的最佳大小。对所提出算法的系统评估是使用具有非常明显特性的四个高分辨率遥感数据集进行的。我们的结果显示,与最先进的方法相比,所提出的算法在像素级分类准确度方面提供了改进。[1804.04020v2] 网络为每个补丁大小提供评分,有助于定义当前场景的最佳大小。对所提出算法的系统评估是使用具有非常明显特性的四个高分辨率遥感数据集进行的。我们的结果显示,与最先进的方法相比,所提出的算法在像素级分类准确度方面提供了改进。[1804.04020v2]

 

用相互信息进行散列

Fatih CakirKun HeySarah Adel BargalStan Sclaroff

二进制向量嵌入使高维对象的大型数据库能够进行快速最近邻检索,并且在诸如图像和视频检索等许多实际应用中发挥重要作用。我们研究了在监督设置下学习二元向量嵌入的问题,也称为哈希。我们提出了一种新的基于信息理论量优化的监督哈希方法:互信息。我们表明,优化互信息可以减少学习的海明空间中的诱导邻域结构的模糊性,这对于获得高检索性能是必不可少的。为此,我们利用minibatch随机梯度下降来优化深层神经网络中的互信息,其中最大化和有效地利用可用监督的公式。包括ImageNet在内的四个图像检索基准的实验证实了我们的方法在学习用于最近邻居检索的高质量二进制嵌入中的有效性。[1803.00974v2]

 

Frank-Wolfe网络进行$ L_p $ -Norm限制编码

Ke Sun, Zhangyang Wang, Dong Liu, Runsheng Liu, Zheng-Jun Zha

我们研究$ L_p $ -norm约束编码的问题,即将信号转换为位于$ L_p $ -ball内的代码,并最忠实地重构信号。虽然之前称为稀疏编码的作品已解决了$ L_0 $$ L_1 $范数的情况,但其他$ p $值(尤其是未知$ p $)的更一般情况仍然是一个难题。我们提出Frank-Wolfe网络(FW Net),其网络结构受到展开和截断Frank-Wolfe算法以解决$ L_p $ -norm约束问题的启发。我们证明$ L_p $ -norm约束的Frank-Wolfe求解器导致了一个新颖的封闭形式非线性单元,它被$ p $参数化并被称为$ pool_p $$ pool_p $单元链接传统的池化,激活和规范化操作,使得FW Net不同于现有的深度网络,不管是启发式设计还是从投影梯度下降算法转换而来。我们进一步表明,超参数$ p $可以被学习而不是在FW Net中预先选择,它优雅地解决了未知$ p $$ L_p $ -norm约束编码问题。我们在广泛的模拟范围内评估FW Net的性能,以及手写数字识别的任务,其中FW Net具有强大的学习能力。然后,我们提出了FW Net的卷积版本,并将卷积FW网络应用于图像去噪和超分辨率任务中,其中FW Net都表现出令人印象深刻的有效性,灵活性和鲁棒性。[1802.10252v3] 我们进一步表明,超参数$ p $可以被学习而不是在FW Net中预先选择,它优雅地解决了未知$ p $$ L_p $ -norm约束编码问题。我们在广泛的模拟范围内评估FW Net的性能,以及手写数字识别的任务,其中FW Net具有强大的学习能力。然后,我们提出了FW Net的卷积版本,并将卷积FW网络应用于图像去噪和超分辨率任务中,其中FW Net都表现出令人印象深刻的有效性,灵活性和鲁棒性。[1802.10252v3] 我们进一步表明,超参数$ p $可以被学习而不是在FW Net中预先选择,它优雅地解决了未知$ p $$ L_p $ -norm约束编码问题。我们在广泛的模拟范围内评估FW Net的性能,以及手写数字识别的任务,其中FW Net具有强大的学习能力。然后,我们提出了FW Net的卷积版本,并将卷积FW网络应用于图像去噪和超分辨率任务中,其中FW Net都表现出令人印象深刻的有效性,灵活性和鲁棒性。[1802.10252v3] 我们在广泛的模拟范围内评估FW Net的性能,以及手写数字识别的任务,其中FW Net具有强大的学习能力。然后,我们提出了FW Net的卷积版本,并将卷积FW网络应用于图像去噪和超分辨率任务中,其中FW Net都表现出令人印象深刻的有效性,灵活性和鲁棒性。[1802.10252v3] 我们在广泛的模拟范围内评估FW Net的性能,以及手写数字识别的任务,其中FW Net具有强大的学习能力。然后,我们提出了FW Net的卷积版本,并将卷积FW网络应用于图像去噪和超分辨率任务中,其中FW Net都表现出令人印象深刻的有效性,灵活性和鲁棒性。[1802.10252v3]

 

基于图像的本地化的全帧场景坐标回归

李晓天,Juha YlioinasJuho Kannala

基于图像的本地化或相机重新定位是计算机视觉和机器人技术中的一个基本问题,它涉及从图像估计相机姿态。最近的最先进的方法使用基于学习的方法(例如随机森林(RF)和卷积神经网络(CNN))来对图像中的每个像素回归其在场景的世界坐标框架中的对应位置,并且解决通过使用预测的对应关系的基于RANSAC的优化方案来确定最终姿态。在本文中,我们建议以全帧方式执行场景坐标回归,而不是以补丁为基础的方式进行场景坐标回归,以使测试时的计算效率更高,更重要的是,为回归过程添加更多全局上下文提高鲁棒性。为此,我们采用完全卷积编码器解码器神经网络架构,其接受整个图像作为输入并为图像中的所有像素产生场景坐标预测。但是,使用更多的全局上下文容易出现过度拟合。为了缓解这个问题,我们建议使用数据增强来生成更多的训练数据。除了二维图像空间中的数据增强之外,我们还增加了三维空间中的数据。我们在公开可用的7-Scenes数据集上评估我们的方法,并且实验表明它具有更好的场景坐标预测,并实现了最先进的定位结果,同时改善了最困难帧(例如,具有重复结构的帧) [1802.03237v2] 除了二维图像空间中的数据增强之外,我们还增加了三维空间中的数据。我们在公开可用的7-Scenes数据集上评估我们的方法,并且实验表明它具有更好的场景坐标预测,并实现了最先进的定位结果,同时改善了最困难帧(例如,具有重复结构的帧) [1802.03237v2] 除了二维图像空间中的数据增强之外,我们还增加了三维空间中的数据。我们在公开可用的7-Scenes数据集上评估我们的方法,并且实验表明它具有更好的场景坐标预测,并实现了最先进的定位结果,同时改善了最困难帧(例如,具有重复结构的帧) [1802.03237v2]

 

零点内核学习

Hongguang Zhang, Piotr Koniusz

在本文中,我们解决了零点学习的一个开放问题。其原理基于学习将从图像提取的特征向量与描述对象和/或感兴趣场景的属性向量相关联的映射。反过来,这允许通过映射到描述新类的新定义的属性向量来匹配特征向量,从而对未看见的对象类和/或场景进行分类。由于这种学习任务的重要性,存在许多学习语义,概率,线性或分段线性映射的方法。相比之下,我们应用完善的内核方法来学习特征空间和属性空间之间的非线性映射。我们提出一个简单的学习目标,这个目标受到线性判别分析,内核目标对齐和内核极化方法的启发,这些方法促进了不连贯性。我们评估我们的算法在多项式上的性能以及移位不变高斯和柯西内核。尽管我们的方法很简单,但我们还是在几个零点学习数据集和基准(包括最近的AWA2数据集)上获得了最先进的结果。[1802.01279v2]

 

图像分类器体系结构搜索的正则化进化

Esteban Real, Alok Aggarwal, Yanping Huang, Quoc V Le

致力于手工制作图像分类器的努力激发了使用架构搜索来自动发现它们。虽然进化算法已经被重复应用到架构搜索中,但是由此发现的架构仍然不如人造架构。在这里,我们首次展示人工演化的架构可以匹配或超越人造和RL设计的图像分类器。特别是,我们的模型名为AmoebaNets – CIFAR-10上达到了97.87%的最高精度,在ImageNet上达到了83.1%的最高精度。在手机尺寸模型中,仅有5.1M参数的AmoebaNetImageNet上也达到了75.1%的最高1级精度。我们还将此方法与强基线进行了比较。最后,我们利用进化进行了平台感知架构搜索,以找到可在Google Cloud TPU上快速培训的模型。这种方法产生了一个AmoebaNet,赢得了斯坦福大学DAWNBench竞赛的最低ImageNet培训成本。[1802.01548v4]

 

用于机器人的VR-Goggles:用于视觉控制的真实至虚拟域适配

Jingwei Zhang, Lei Tai, Yufeng Xiong, Peng Yun, Ming Liu, Joschka Boedecker, Wolfram Burgard

在本文中,我们以新颖的视角处理现实差距,将模拟环境中学习的深度强化学习(DRL)策略转移到视觉控制任务的真实领域。我们不是在训练阶段通过增加仿真器输出的合成图像的视觉保真度来采用常见的解决方案,而是在部署阶段通过将真实世界的图像流转换回合成域来解决该问题,使机器人感到宾至如归。我们提出这是一个轻量级,灵活和高效的视觉控制解决方案,因为1)在模拟DRL代理的昂贵培训期间,不需要额外的转移步骤; 2)训练有素的DRL代理不会被限制为只能在一个特定的现实世界环境中部署; 3)政策培训和转移操作是分开的,可以并行进行。除此之外,我们提出了一个简单而有效的转移损失来约束后续帧之间的一致性,这对于一致的策略输出非常重要。我们验证了视频和领域适应的艺术风格转移的转移损失,并在室内和室外机器人实验中验证了我们的视觉控制方法。我们的结果视频可在以下网址获得:https//goo.gl/P76TTo[1802.00265v2] 我们验证了视频和领域适应的艺术风格转移的转移损失,并在室内和室外机器人实验中验证了我们的视觉控制方法。我们的结果视频可在以下网址获得:https//goo.gl/P76TTo[1802.00265v2] 我们验证了视频和领域适应的艺术风格转移的转移损失,并在室内和室外机器人实验中验证了我们的视觉控制方法。我们的结果视频可在以下网址获得:https//goo.gl/P76TTo[1802.00265v2]

 

流形值数据主成分分析的无限小概率模型

斯特凡夏天

我们提供了主元分析过程(PCA)如何推广到非线性多样值数据分析的概率和无穷小观点。从欧几里得PCA过程的概率PCA解释开始,我们展示了PCA如何以内在的方式推广到歧管,而不是求助于数据空间的线性化。底层概率模型是通过欧几里得半随机发展随机发展将欧几里德随机过程映射到流形而构造的。该建筑使用连接和一系列协变张量来允许主要特征向量的全球运输,因此该模型就是一个例子,说明如何使用主纤维束来处理表征多样值统计量的全局坐标系和方向的缺乏。我们展示曲率如何表示欧几里德主要子空间的等价性的非可积性,以及随机流如何为这些子空间的显式构造提供替代。我们描述参数推断和主成分预测的估计程序,并给出了嵌入曲面上模型性质的例子。[1801.10341v2] 我们描述参数推断和主成分预测的估计程序,并给出了嵌入曲面上模型性质的例子。[1801.10341v2] 我们描述参数推断和主成分预测的估计程序,并给出了嵌入曲面上模型性质的例子。[1801.10341v2]

 

人体形态和姿势的端对端恢复

Angjoo KanazawaMichael J. BlackDavid W. JacobsJitendra Malik

我们描述人体网格恢复(HMR),一种端到端的框架,用于从单个RGB图像重建人体的完整3D网格。与目前大多数计算2D3D关节位置的方法相比,我们可以生成更丰富,更有用的网格表示,并通过形状和3D关节角度进行参数化。主要目标是最大限度地减少关键点的投影丢失,从而使我们的模型能够使用仅具有基本真实2D注释的野外图像进行训练。然而,单是重投影损失就会使模型受到高度限制。在这项工作中,我们通过引入一个训练对手来解决这个问题,这个对手通过使用3D人体网格的大型数据库来判断人体参数是否真实。我们表明,HMR可以训练有或没有使用任何配对的2D3D监督。我们不依赖中间二维关键点检测,并直接从图像像素推断三维姿态和形状参数。我们的模型在包含该人的边界框的情况下实时运行。我们在各种图像中展示了我们的方法,这些方法可以在以前基于优化的方法中输出3D网格,并在3D联合位置估计和零件分割等任务中显示出有竞争力的结果。[1712.06584v2]

 

人员转移到桥梁域缺口以重新识别人员

Longhui Wei, Shiliang Zhang, Wen Gao, Qi Tian

尽管人重新识别(ReID)的表现已经得到显着提升,但真实场景中的许多具有挑战性的问题还没有得到充分研究,例如,复杂的场景和光照变化,视点和姿态变化以及大量身份相机网络。为了便于研究克服这些问题,本文提供了一个新的数据集,称为MSMT17,它具有许多重要特性,例如:1)原始视频由部署在室内和室外场景中的15摄像机网络拍摄; 2)视频封面很长一段时间,并且呈现复杂的光照变化,以及3)它包含当前最多数量的注释标识,即4,101个标识和126,441个包围盒。我们还观察到,数据集之间通常存在领域差距,当在不同的数据集上进行培训和测试时,会导致严重的性能下降。这导致可用的培训数据无法有效地用于新的测试领域。为了减轻标注新训练样本的昂贵成本,我们提出了一个人际转移生成对抗网络(PTGAN)来弥补领域差距。综合实验表明,PTGAN可以大大缩小领域差距。[1711.08565v2] 综合实验表明,PTGAN可以大大缩小领域差距。[1711.08565v2] 综合实验表明,PTGAN可以大大缩小领域差距。[1711.08565v2]

 

一种新的SDASS描述符完全编码三维局部曲面信息

Bao Zhao, Xinyi Le, Juntong Xi

局部特征描述是三维计算机视觉中的一项基本而又具有挑战性的任务 本文提出了一种新的描述符,称为细分空间上的偏差角度统计(SDASS),用于编码局部参考轴(Local Reference AxisLRA)上局部表面的几何和空间信息。在编码几何信息方面,考虑到通常用于编码局部表面几何信息的表面法线容易受到各种干扰(例如噪声,变化的网格分辨率等)的影响,我们提出了一个强健的几何属性,称为本地最小轴(LMA),替换SDASS描述符中用于生成几何特征的法线。为了编码空间信息,我们使用两个空间特征来完全编码基于LRA的局部表面的空间信息,其通常呈现比局部参考轴(LRF)高的整体可重复性。此外,还提出了一种改进的LRA,用于提高SDASS对噪声和不同网格分辨率的鲁棒性。SDASS描述符的性能在四个流行数据集上进行了严格测试。结果表明,描述符描述性强,鲁棒性强,性能优于现有算法。最后,所提出的描述符被应用于3D注册。准确的结果进一步证实了我们SDASS方法的有效性。[1711.05368v2] 提出了一种改进的LRA来提高SDASS对噪声和不同网格分辨率的鲁棒性。SDASS描述符的性能在四个流行数据集上进行了严格测试。结果表明,描述符描述性强,鲁棒性强,性能优于现有算法。最后,所提出的描述符被应用于3D注册。准确的结果进一步证实了我们SDASS方法的有效性。[1711.05368v2] 提出了一种改进的LRA来提高SDASS对噪声和不同网格分辨率的鲁棒性。SDASS描述符的性能在四个流行数据集上进行了严格测试。结果表明,描述符描述性强,鲁棒性强,性能优于现有算法。最后,所提出的描述符被应用于3D注册。准确的结果进一步证实了我们SDASS方法的有效性。[1711.05368v2] 准确的结果进一步证实了我们SDASS方法的有效性。[1711.05368v2] 准确的结果进一步证实了我们SDASS方法的有效性。[1711.05368v2]

 

姿态导引结构区域集成网络级联手势估计

Xinghao Chen, Guijin Wang, Hengkai Guo, Cairong Zhang

来自单个深度图像的手势估计是计算机视觉和人机交互中的重要主题。尽管卷积神经网络促进了这方面的最新进展,但精确的手势估计仍然是一个具有挑战性的问题。在本文中,我们提出了姿态引导结构化区域集成网络(Pose-REN)来提高手势估计的性能。该方法在初始估计姿态的指导下从卷积神经网络的特征图中提取区域,从而为手势估计生成更优化和代表性的特征。然后,通过采用树形结构的完全连接,提取的特征区域根据手关节的拓扑结构分级整合。通过所提出的网络直接对手姿态的精确估计进行回归,并且通过利用迭代级联方法来获得最终手姿态。公共手部姿态数据集的综合实验表明,我们提出的方法优于最先进的算法。[1708.03416v2]

 

使用视觉注意的人重新识别

Alireza Rahimpour, Liu Liu, Ali Taalimi, Yang Song, Hairong Qi

尽管最近尝试解决人重新识别问题,但它仍然是一项具有挑战性的任务,因为当涉及视角,人体姿势和照明的大量变化时,人的外观可能显着变化。关注的概念是神经网络中最近最有趣的建筑创新之一。受此启发,本文提出了一种基于深度卷积神经网络中基于梯度的注意机制来解决人重新识别问题的新方法。我们的模型学习将选择性的焦点放在网络输出最敏感的输入图像部分上。广泛的比较评估表明,所提出的方法胜过了最先进的方法,包括在具有挑战性的CUHK01CUHK03Market1501数据集上采用传统和深度神经网络方法。[1707.07336v6]

 

用多次随机投影稳定GAN训练

Behnam NeyshaburSrinadh BhojanapalliAyan Chakrabarti

由于真实的数据分布往往集中在周围空间的一小部分,因此训练生成对抗网络在高维方面不稳定。然后鉴别器很快能够将几乎所有生成的样本归类为假,使得发生器没有有意义的梯度并且在训练点之后使其发生劣化。在这项工作中,我们建议同时对一个鉴别器阵列进行单个发生器的训练,每个鉴别器都会查看数据的不同随机低维投影。个别鉴别器(现在提供输入受限视图)无法完美地拒绝生成的样本,并在整个训练过程中继续为发生器提供有意义的梯度。与此同时,该生成器学习产生符合全部数据分布的样本,以同时满足所有鉴别器。我们通过实验证明了这种方法的实际效用,并且表明它能够产生比具有单一鉴别器的传统训练更高质量的图像样本。[1705.07831v2]

 

重新研究深层固有图像分解

Qingnan Fan, Jiaolong Yang, Gang Hua, Baoquan Chen, David Wipf

虽然对于许多计算机视觉应用而言无价,但将自然图像分解为固有反射和阴影层代表了具有挑战性的欠定反演问题。与严格依赖传统优化或过滤前强烈假设的解决方案相反,基于深度学习的方法也被提出来计算固有图像分解,当被授予访问足够标记的训练数据时。缺点是目前的数据资源非常有限,广义而言,它可能属于两类之一:合成/狭义设置中的高密度全标记图像或来自相对不同自然场景的弱标记数据。与以前的许多基于学习的方法相比,它们通常是根据特定数据集的结构量身定制的(并且可能不适用于其他数据集),我们采用的核心网络结构普遍反映了有关内在图像形成过程的松散的先验知识,并且可以在很大程度上共享数据集。然后,我们应用灵活的受监督的损失层,这些损失层是为每个地面实况标签来源定制的。由此产生的深层架构在所有主要固有图像基准测试中都达到了最先进的测试结果,并且在测试时运行速度比大多数要快得多。[1701.02965v7] 由此产生的深层架构在所有主要固有图像基准测试中都达到了最先进的测试结果,并且在测试时运行速度比大多数要快得多。[1701.02965v7] 由此产生的深层架构在所有主要固有图像基准测试中都达到了最先进的测试结果,并且在测试时运行速度比大多数要快得多。[1701.02965v7]

转载请注明:《SkinNet:皮肤病变分割的深度学习框架+ RAM:用于车辆重新识别的区域感知深度模型+ 基于视觉的增强现实姿态估计:比较研究

发表评论