用IntelCaffe进行卷积神经网络的高效8位低精度推断+统计流形上的词典学习和稀疏编码

用正则化暹罗网络进行异常值检测的特征提取:应用于医学成像中的病变筛查

Z. AlaverdyanC. Lartizien

计算机辅助诊断(CAD)系统旨在帮助临床医生完成各种任务,包括突出显示医学图像中的异常区域。一种常见的方法是在患者扫描中从正常和病理区域提取的一组特征向量上训练体素级二元分类器。然而,许多病理学(例如癫痫)的特征在于可能位于大脑中任何位置的病变,具有各种形状,大小和纹理。这种异质性的充分表示需要大量的注释数据,这是医学领域的主要问题。因此,我们建立在以前提出的方法上,将癫痫病灶检测任务视为体素级异常值检测问题。它包括使用少量的临床指导特征为大脑体积中的每个体素构建一个oc-SVM分类器El Azami等,2016。我们在这项研究中的目标是向前迈进一步,将手工特征替换为使用神经网络自动学习表示。我们提出一个新的版本的暹罗网络培训补丁只从健康的病人扫描提取。这个网络由堆叠的自动编码器组成,如子网络,由补丁的重建错误规则化。它旨在学习以所选度量(即余弦)相对于相同体素定位为中心的贴图。最后,子网的中间层表示以体素级被馈送到oc-SVM分类器。该方法验证了3例患者 核磁共振成像扫描证实癫痫病变,并显示出良好的表现。[1805.01717v1]

 

走向图谱卷积网络的谱

Mathias NiepertAlberto Garcia-Duran

我们介绍了我们正在理解图形卷积网络(GCN)局限性的工作,以及我们关于表示更复杂的节点属性依赖关系的图形卷积概括的工作。基于对相关计算图的帮助对GCN进行分析,我们提出对现有GCN的推广,其中聚合操作(a)由局部邻域图的结构性质确定,并且(b)不限于加权平均。我们表明,提出的方法是严格更具表现力,同时只需要适量增加参数和计算的数量。我们还表明,当应用于规则网格图时,所提出的泛化与标准卷积层相同。[1805.01837v1]

 

评估基于移动的植物病害监测深度学习模型

Amanda RamcharanPeter McCloskeyKelsee BaranowskiGrace LivesLatifa MrishoMathias NdalahwaJames LeggDavid Hughes

卷积神经网络模型(CNN)在过去五年中在计算机视觉任务方面取得了重大进展。鉴于收集真实世界数据集的挑战,大多数研究报告基于可用研究数据集的性能指标。在需要将CNN部署在移动设备的图像或视频中的情况下,由于照明,角度和摄像机规格,模型呈现出新的挑战,这在研究数据集中没有考虑到。如果要将这些模型与社会中的产品和服务可靠地结合起来,对真实世界的数据集进行评估也是至关重要的。植物病害数据集可用于实时测试CNN并深入了解真实世界的性能。我们训练一个CNN物体检测模型,以确定木薯(Manihot esculenta Crantz)的叶片症状(或缺乏)。然后,我们将该模型部署在移动应用程序上,并在坦桑尼亚农业领域的720个患病传单的移动图像和视频上测试其性能。在每个疾病类别中,我们测试症状的两个严重程度级别轻度和明显的,以评估模型性能以及早发现症状。在两种严重程度中,我们都看到真实世界图像和视频的F-1分数下降。由于模型召回下降,F-1得分在真实世界图像(与训练数据最接近的数据)显着症状下降了32%。如果要实现智能手机CNN的潜力,我们的数据显示,考虑调谐精度和调用性能至关重要,以便在现实世界中实现理想的性能。此外,与不同输入数据(图像或视频)相关的各种性能是实际应用中CNN设计的重要考虑因素。[1805.08692v1]

 

无监督学习在医学图像中的概念检测:比较分析

爱德华多皮尼奥,卡洛斯科斯塔

随着数字医学成像越来越普遍,档案数量增加,表示学习为增强医疗决策支持系统提供了一个有趣的机会。另一方面,医学成像数据通常很少,并且在注释上很短。在本文中,我们提出了一种无监督的生物医学文献中的图像特征学习方法的评估,它可以应用于自动生物医学概念检测。建立了六种无监督表示学习方法,包括传统的视觉词汇包,自动编码器和生成对抗网络。训练每个模型,并使用ImageCLEF 2017概念检测任务中的图像评估其各自的特征空间。我们的结论是,与先前流行的计算机视觉方法相比,利用现代深度学习方法可以获得更强大的表现形式。尽管生成对抗性网络可以提供良好的结果,但它们很难在高度多样化的数据集中取得成功。半监督学习的可能性以及它们在医学信息检索问题中的使用是下一步需要强烈考虑的问题。[1805.01803v1]

 

基于CNN的活动识别的对象和文本引导语义

克里斯托弗雷亚尔,Heesung KwonSungmin EumClaire Bonial,克莱尔沃斯

许多先前的方法已经证明了考虑语义相关对象以进行基于视频的人类活动识别的重要性,但是没有一种方法已经获得了大型文本语料库的权力以将对象和要转移的活动联系起来以学习统一的深度卷积神经网络。我们提出了一种新的活动识别CNN,它在端到端的多任务学习方案中共同学习目标识别任务,以改进基线活动识别性能。我们进一步改进多任务学习方法,通过利用文本引导的语义空间来选择与目标活动相关的最相关的对象。据我们所知,我们是第一个研究这种方法的人。[1805.01818v1]

 

自主驾驶的故障预测

Simon Hecker,邓新岱,Luc Van Gool

自动驾驶研究的主要焦点是提高驾驶准确性。虽然取得了很大的进步,但最新的算法仍然有时会失败。这种失败可能会造成灾难性后果。因此,自动化汽车尽早预见问题非常重要。如果司机被要求接管,这也是至关重要的。我们猜想,失败不会随机发生。例如,驾驶模型可能在交通繁忙,复杂交叉口和/或恶劣天气/照明条件下更可能失败。这项工作提供了一种方法来学习预测这些故障的发生,即评估一个场景对于给定的驾驶模型有多困难并且可能给予驾驶员一个提前的提醒。开发基于摄像头的驾驶模型并在真实驾驶数据集上进行训练。然后记录模型预测与人类地面真相演习之间的差异,得出失败分数。实验结果表明,失败分数确实可以被学习和预测。因此,我们的预测方法能够通过及时提醒驾驶员提高自动驾驶模型的整体安全性,从而实现更好的人车协作驾驶。[1805.01811v1] 我们的预测方法能够通过及时提醒驾驶员提高自动驾驶模型的整体安全性,从而实现更好的人车合作驾驶。[1805.01811v1] 我们的预测方法能够通过及时提醒驾驶员提高自动驾驶模型的整体安全性,从而实现更好的人车合作驾驶。[1805.01811v1]

 

从近红外虹膜和眼周图像预测性别和种族

丹顿Bobeldyk,阿伦罗斯

最近的研究已经探索了从生物特征数据中自动推断个体的性别,年龄和种族等信息的可能性。尽管在这方面已经广泛研究了面部模态,但在虹膜形态的背景下进行的研究相对较少。在本文中,我们首先回顾了医学文献,为从虹膜中提取性别和种族线索建立生物学基础。然后,我们证明可以使用简单的纹理描述符,如BSIF(二值化统计图像特征)和LBP(局部二值模式),从典型的虹膜识别系统中使用的NIR眼睛图像中提取性别和种族属性。该方法预测种族和性别的准确率分别为86%和90%挑战当前的艺术预测算法。另外,进行以下分析:(a)眼部区域的不同部分对属性预测的作用b)性别对种族预测的影响,反之亦然c)该方法在不同数据集上的普遍性,即跨数据集性能和(d)左右眼预测表现的一致性。[1805.01912v1]

 

调制传递函数的自动估计

Matthias Bauer,瓦伦丁沃尔奇科夫,迈克尔赫希,BernhardSchölkopf

调制传递函数(MTF)广泛用于表征光学系统的性能。测量它是昂贵的,因此对于给定的镜片标本很少可用。相反,使用基于模拟的MTF或者最好使用在相同透镜的其他样本上测量的MTF。幸运的是,通过光学系统记录的图像包含有关其MTF的充足信息,只是它与图像的统计数据混淆。这项工作提供了一种直接从照片中估计相机镜头系统MTF的方法,而不需要昂贵的设备。我们使用定制的网格显示来精确测量镜头的点响应以获取地面实况训练数据。然后,我们使用相同的镜头记录自然图像,并采用数据驱动的监督式学习方法,使用卷积神经网络估计小图像片上的MTF,将信息汇总到整个视场中的MTF图表中。它概括为看不见的镜片,可以应用于单张照片,如果有多张照片,性能会得到改善。[1805.01872v1]

 

迁移GAN:从有限的数据中生成图像

王亚星,吴晨申,路易斯赫兰兹,范德维尔,范贝尔冈萨雷斯加西亚,波格丹拉杜卡努

通过微调将预训练网络的知识转移到新领域是基于区别模型的应用广泛使用的实践。就我们所知,这种做法尚未在生成深度网络的背景下进行研究。因此,我们研究了应用于生成对抗网络的图像生成的领域适应。我们评估领域适应的几个方面,包括目标领域大小的影响,源和目标领域之间的相对距离,以及条件GAN的初始化。我们的研究结果表明,使用来自预训练网络的知识可以缩短收敛时间,并且可以显着提高生成图像的质量,特别是当目标数据有限时。我们表明,即使预训练模型没有进行调节训练,也可以得出这些结论,即有条件的GANs。我们的结果还表明,密度可能比多样性更重要,一个或一些密集采样类的数据集可能是更多的不同的数据集,如ImageNet或地方,是一个更好的源模型。[1805.01677v1]

 

IntelCaffe进行卷积神经网络的高效8位低精度推断

Jiong Gong, Haihao Shen, Guoming Zhang, Xiaoli Liu, Shane Li, Ge Jin, Niharika Maheshwari, Evarist Fomenko, Eden Segal

深度神经网络的高吞吐量和低延迟推断对于深度学习应用的部署至关重要。本文介绍IntelCaffe的高效推理技术,这是英特尔第一个优化的深度学习框架,支持英特尔至强可升级处理器上高效的8位低精度推理和卷积神经网络的模型优化技术。8位优化模型可自动生成FP32模型的校准过程,无需进行微调或重新训练。我们发现,ResNet-50Inception-v3SSD的推理吞吐量和延迟分别提高了1.38X-2.9X1.35X-3XIntelCaffe FP32基准线的准确度损失可以忽略不计,而56X-75X26X-37X BVLC Caffe。所有这些技术都是在IntelCaffe GitHub1上开源的,并且提供了工件以在Amazon AWS Cloud上重现结果。[1805.08691v1]

 

高深度学习的复杂微观结构的高通量定量金相学:超高碳钢的案例研究

Brian L. DeCostToby FrancisElizabeth A. Holm

我们应用深度卷积神经网络分割模型来为通常手动和主观评估的复杂微观结构实现新型自动微结构分割应用。我们在一个公开的超高碳钢微观结构数据集中探索了两个微观结构分割任务:在球化基体中分割渗碳体颗粒,并分割出具有晶界碳化物,球化颗粒基体,无颗粒晶界裸露区和Widmanst我们还展示了如何将这些数据驱动的微观结构分割模型结合起来,以获得实验性渗碳体颗粒尺寸和来自含有多种微观成分的更复杂显微图的裸露区宽度分布。完整注释的数据集可在materialsdata.nist.gov上找到(https://materialsdata.nist.gov/handle/11256/964)。[1805.08693v1]

 

Pixel-wise注意浇水用于多种像素标注

Shu KongCharless Fowlkes

为了在有限计算预算的每像素标记任务中实现简洁推理,我们提出了一种\ emph {逐像素注意门控}单元(\ emph {PAG}),该单元学习选择性地处理每层的空间位置子集一个深度卷积网络。PAG是一种通用的,架构无关的,问题不可知的机制,可以通过微调轻松插入现有模型。我们以两种方式利用PAG1)学习空间变化的池场,以提高模型性能,而不需要与多尺度池相关的额外计算成本; 2)学习每个像素的动态计算策略,以减少总计算量,同时保持准确性。我们广泛评估PAG的各种像素标签任务,包括语义分割,边界检测,单眼深度和表面法线估计。我们证明PAG可以为这些任务提供具有竞争力或最先进的性能。我们的实验表明,PAG学习输入图像的动态空间分配计算,与相关方法(例如,截断深层模型或动态跳过整个图层)相比,提供了更好的性能折衷。一般来说,我们观察到,PAG可以减少10美元/美元的计算量,而且在施加更强的计算约束时,精度和性能会显着降低。[1805.01556v1] 我们的实验表明,PAG学习输入图像的动态空间分配计算,与相关方法(例如,截断深层模型或动态跳过整个图层)相比,提供了更好的性能折衷。一般来说,我们观察到,PAG可以减少10美元/美元的计算量,而且在施加更强的计算约束时,精度和性能会显着降低。[1805.01556v1] 我们的实验表明,PAG学习输入图像的动态空间分配计算,与相关方法(例如,截断深层模型或动态跳过整个图层)相比,提供了更好的性能折衷。一般来说,我们观察到,PAG可以减少10美元/美元的计算量,而且在施加更强的计算约束时,精度和性能会显着降低。[1805.01556v1]

 

统计流形上的词典学习和稀疏编码

Rudrasis ChakrabortyMonami BanerjeeC. Vemuri父亲

在本文中,我们在统计流形(概率分布的流形)上提出了一种用于字典学习(DL)和稀疏编码(SC)的新型信息理论框架。与传统的DLSC框架不同,我们的新公式没有明确地将正在优化的成本函数中的稀疏诱导规范并入,但却产生了稀疏代码。我们的算法通过字典原子的加权Kullback-Leibeler中心/平均值(KL中心)来近似统计流形上的数据点(其是概率分布)。吉隆坡中心被定义为最大限度的KL-分歧与其中心正在寻找的成员之间的最小化。此外,我们证明加权KL中心是字典原子的稀疏组合。这个结果也适用于KL-散度被众所周知的海林格距离所取代的情况。从应用的角度来看,我们将上述框架扩展到对称正定矩阵(可以用零均值高斯分布的流形来确定),$ \ mathcal {P} _n $。我们提出涉及计算机视觉中各种基于字典的重建和分类问题的实验。所提出的算法的性能通过将其与几种最先进的方法在重建和分类准确性以及所选表示的稀疏性方面进行比较来证明。[1805.02505v1] 我们将上述框架扩展到对称正定矩阵的流形(可以用零均值高斯分布的流形来确定)$ \ mathcal {P} _n $。我们提出涉及计算机视觉中各种基于字典的重建和分类问题的实验。所提出的算法的性能通过将其与几种最先进的方法在重建和分类准确性以及所选表示的稀疏性方面进行比较来证明。[1805.02505v1] 我们将上述框架扩展到对称正定矩阵的流形(可以用零均值高斯分布的流形来确定)$ \ mathcal {P} _n $。我们提出涉及计算机视觉中各种基于字典的重建和分类问题的实验。所提出的算法的性能通过将其与几种最先进的方法在重建和分类准确性以及所选表示的稀疏性方面进行比较来证明。[1805.02505v1] 所提出的算法的性能通过将其与几种最先进的方法在重建和分类准确性以及所选表示的稀疏性方面进行比较来证明。[1805.02505v1] 所提出的算法的性能通过将其与几种最先进的方法在重建和分类准确性以及所选表示的稀疏性方面进行比较来证明。[1805.02505v1]

 

用于低剂量CT消噪的结构敏感的多尺度深度神经网络

Chenyu You, Qingsong Yang, Hongming Shan, Lars Gjesteby, Guang Li, Shenghong Ju, Zhuiyang Zhang, Zhen Zhao, Yi Zhang, Wenxiang Cong, Ge Wang

计算机断层扫描(CT)是临床应用中流行的医学成像模式。与此同时,与CT扫描相关的X射线辐射剂量由于其对患者的潜在风险而引起公众关注。在过去几年中,主要努力致力于开发低剂量CTLDCT)方法。但是,辐射剂量降低会降低信噪比(SNR),从而导致噪声和伪影降低CT图像质量。在本文中,我们提出了一种新的3D降噪方法,称为结构敏感多尺度生成敌对网(SMGAN),以改善LDCT图像质量。具体而言,我们结合三维(3D)体积信息来改善图像质量。另外,研究了用于训练去噪模型的不同损失函数。实验表明,该方法可以有效地保留正常剂量CTNDCT)图像的结构和纹理信息,并且显着抑制噪声和伪像。三名经验丰富的放射科医师进行的定性视觉评估表明,所提出的方法可以检索更详细的信息,并且胜过竞争方法。[1805.00587v2]

 

使用视觉,音频和文本特征的多模式话语级影响分析

Didan Deng, Yuqian Zhou, Jimin Pi, Bertram E. Shi

跨越多种模式并且跨越时间的信息整合是增强情感系统的情感识别性能的有前途的方式。以前的许多工作都集中在即时情绪识别上。与IEEE世界计算智能大会共同举办的2018年一分钟渐进式情绪识别(OMG-Emotion)挑战鼓励参与者通过整合来自多种模式的线索来解决长期情绪识别问题,包括面部表情,音频和语言。直观地说,多模态推理网络应该能够利用来自每种模式及其相关性的信息来提高对单模态网络可实现的识别的识别。我们在这里描述了一种多模式神经架构,它使用LSTM整合了随时间变化的视觉信息,并将它与话语级别的音频和文本提示相结合,以识别来自多模式剪辑的人类情绪。我们的模型胜过单峰基线,在唤醒任务中达到0.400的一致性相关系数(CCC),在价值任务上达到0.353[1805.00625v2]

 

本地学习与面部表情识别的深度和手工特征

Mariana-Iuliana GeorgescuRadu Tudor IonescuMarius Popescu

我们提出了一种方法,将卷积神经网络(CNN)学习的自动特征与通过视觉词袋(BOVW)模型计算的手工特征相结合,以获得面部表情识别中的最新结果。为了获得自动特征,我们尝试了多种CNN体系结构,预先训练的模型和训练过程,例如密集稀疏密集(Dense-Sparse-Dense)。融合这两种特征之后,我们采用本地学习框架来预测每个测试图像的类别标签。本地学习框架基于三个步骤。首先,应用k最近邻模型来为输入测试图像选择最近的训练样本。其次,在所选择的训练样本上训练一对一支持向量机(SVM)分类器。最后,SVM分类器仅用于为其训练的测试图像预测类标签。尽管之前已经将局部学习与手工特征结合使用,但据我们所知,它从未与深层特征结合使用。2013年面部表情识别(FER)挑战数据集和FER +数据集的实验表明我们的方法达到了最新的结果。2013FER数据集的最高准确率为75.42%,FER +数据集的最高准确率为86.71%,两组数据均超过所有竞争对手近2%。[1804.10892v2] 它从未与深层特征结合使用。2013年面部表情识别(FER)挑战数据集和FER +数据集的实验表明我们的方法达到了最新的结果。2013FER数据集的最高准确率为75.42%,FER +数据集的最高准确率为86.71%,两组数据均超过所有竞争对手近2%。[1804.10892v2] 它从未与深层特征结合使用。2013年面部表情识别(FER)挑战数据集和FER +数据集的实验表明我们的方法达到了最新的结果。2013FER数据集的最高准确率为75.42%,FER +数据集的最高准确率为86.71%,两组数据均超过所有竞争对手近2%。[1804.10892v2]

 

可切换的时间传播网络

Sifei Liu, Guangyu Zhong, Shalini De Mello, Jinwei Gu, Varun Jampani, Ming-Hsuan Yang, Jan Kautz

视频在帧之间包含高度冗余的信息。这种冗余已经在视频压缩和编码方面得到了广泛的研究,但对于更先进的视频处理的研究较少。在本文中,我们提出了一个可学习的统一框架,用于传播视频图像的各种视觉属性,包括但不限于颜色,高动态范围(HDR)和分割信息,其中属性仅适用于几个键帧。我们的方法基于时间传播网络(TPN),该网络以纯数据驱动的方式对一对帧之间的转换相关亲和力进行建模。我们在理论上证明了TPN的两个基本要素:(a)通过将全局变换矩阵规则化为正交,在传播过程中可以很好地保留属性的样式能量”; b)这种正规化可以通过建议的可切换TPN在成对帧上进行双向训练来实现。我们将可切换TPN应用于三项任务:基于几个颜色关键帧着色灰度视频,从低动态范围(LDR)视频和几个HDR帧生成HDR视频,并从视频中的第一帧。实验结果表明,我们的方法比最先进的方法更精确和有效。[1804.08758v2] 并从视频中的第一帧传播分段掩码。实验结果表明,我们的方法比最先进的方法更精确和有效。[1804.08758v2] 并从视频中的第一帧传播分段掩码。实验结果表明,我们的方法比最先进的方法更精确和有效。[1804.08758v2]

 

VNREDSat-1不透水面分类的各种图像融合方法比较

Hung V. PhamChuc D. ManHung Q. BuiThanh Nguyen Nguyen

不透水面是城市发展监测的重要指标。准确的城市不透水表面与VNREDSat-1的映射仍然具有挑战性,因为它们的光谱多样性没有被单个PAN图像捕获。本文对5种多分辨率图像融合技术进行了城市不透水面分类任务的比较。结果表明,对于VNREDSat-1数据集,UNB和小波变换方法分别是保留原始MS图像空间和光谱信息的最佳技术。然而,UNB技术在防渗表面分类方面效果最佳,特别是在非渗透表面组中包含阴影区域的情况下。[1803.02326v2]

 

特征插值的空间变形核回归

Xueqing Deng, Yi Zhu, Shawn Newsam

近年来,地理标记的社交媒体已经成为地理知识发现的新来源。地面图像和视频提供了与俯视图像不同的视角,可以应用于诸如土地利用测绘,活动检测,污染测绘等一系列应用。然而,这些数据的稀疏和不均匀分布存在问题,用于生成密集的地图。因此,我们研究空间插值从稀疏社交媒体中提取的高维特征的问题,以使用标准分类器实现稠密标记。此外,我们还展示了如何利用区域边界的先验知识来改善通过空间变形核回归的插值。我们表明,插值后分类框架可以从稀疏观测产生稠密地图,但是在选择插值方法时必须小心。我们还表明,空间变形核心改善了结果。[1802.07452v2]

 

用于肺癌诊断的半监督多任务学习

Naji KhosravanUlas Bagci

早期发现肺结节在肺癌筛查中具有重要意义。现有研究认识到CAD系统在早期发现和诊断肺结节方面发挥的关键作用。然而,许多用作癌症检测工具的CAD系统会产生大量的误报(FP)并需要进一步的FP降低步骤。此外,肺癌的早期诊断和治疗指南由异常的不同形状和体积测量组成。分割是我们理解结节形态的核心,使其成为计算机辅助诊断系统领域的主要兴趣领域。本研究旨在验证联合学习假阳性(FP)结节减少和结节分割可以改善计算机辅助诊断(CAD)系统的假设,两项任务的表现。为了支持这个假设,我们提出了一个3D深度多任务CNN来共同解决这两个问题。我们在LUNA16数据集上测试了我们的系统,实现了91%的平均模子相似系数(DSC)作为分割准确性,FP降低的分数接近92%。作为我们假设的一个证明,我们在两条基线上显示了细分和FP减少任务的改进。我们的研究结果支持通过多任务学习方法对这两项任务进行联合培训可以提高两者的系统性能。我们还表明,可以使用半监督方法来克服3D分割任务缺乏标记数据的局限性。[1802.06181v2] 我们在LUNA16数据集上测试了我们的系统,实现了91%的平均模子相似系数(DSC)作为分割准确性,FP降低的分数接近92%。作为我们假设的一个证明,我们在两条基线上显示了细分和FP减少任务的改进。我们的研究结果支持通过多任务学习方法对这两项任务进行联合培训可以提高两者的系统性能。我们还表明,可以使用半监督方法来克服3D分割任务缺乏标记数据的局限性。[1802.06181v2] 我们在LUNA16数据集上测试了我们的系统,实现了91%的平均模子相似系数(DSC)作为分割准确性,FP降低的分数接近92%。作为我们假设的一个证明,我们在两条基线上显示了细分和FP减少任务的改进。我们的研究结果支持通过多任务学习方法对这两项任务进行联合培训可以提高两者的系统性能。我们还表明,可以使用半监督方法来克服3D分割任务缺乏标记数据的局限性。[1802.06181v2] 我们的研究结果支持通过多任务学习方法对这两项任务进行联合培训可以提高两者的系统性能。我们还表明,可以使用半监督方法来克服3D分割任务缺乏标记数据的局限性。[1802.06181v2] 我们的研究结果支持通过多任务学习方法对这两项任务进行联合培训可以提高两者的系统性能。我们还表明,可以使用半监督方法来克服3D分割任务缺乏标记数据的局限性。[1802.06181v2]

 

卷积神经网络的数值坐标回归

Aiden Nibali, Zhen He, Stuart Morgan, Luke Prendergast

我们研究深度学习方法来推断输入图像中感兴趣点的数字坐标。现有基于卷积神经网络的解决方案或者采用热图匹配方法,或者采用完全连接的输出层回归坐标。这两种方法都不是理想的,因为前者不是完全可区分的,后者缺乏内在的空间概括。我们提出我们的可微分空间数值转换(DSNT)来填补这个空白。DSNT层不添加可训练参数,完全可微分,并展现出良好的空间泛化。与热图匹配不同,DSNT可以在低热图分辨率下正常工作,因此可以作为输出图层用于各种现有的完全卷积体系结构。所以,与现有技术相比,DSNT在推理速度和预测准确度之间提供了更好的平衡。当用于替代几乎所有最先进的姿态估计方法中使用的流行的热图匹配方法时,DSNT为所有测试的模型架构提供了更好的预测精度。[1801.07372v2]

 

LIME:活内在物质估计

Abhimitra MekaMaxim MaximovMichael ZollhoeferAvishek ChatterjeeHans-Peter SeidelChristian RichardtChristian Theobalt

我们提供了第一个端到端的方法,用于实现一般物体形状的实时材质估计,这种统一材质只需要一个彩色图像作为输入。除了朗伯表面属性外,我们的方法还可以自动计算镜面反射率,材质光泽度和前景分割。我们利用最近在基于深度卷积编码器解码器架构的图像到图像转换技术方面的进步,解决了这个具有挑战性和不适应性的逆向渲染问题。我们的方法的基本核心代表是镜面阴影,漫反射阴影和镜像,它们可以学习漫反射和镜面反照率的有效准确分离。此外,我们提出了一种新颖的高效感知渲染损失,它模仿真实世界的图像形成,即使在运行时也能获得中间结果。以实时帧速率估算材料参数可实现激动人心的混合现实应用,例如将虚拟物体无缝照明一致集成到真实世界场景以及虚拟材料克隆。我们在现场设置中展示我们的方法,将其与现有技术进行比较,并通过定量和定性评估来证明其有效性。[1801.01075v2] 我们在现场设置中展示我们的方法,将其与现有技术进行比较,并通过定量和定性评估来证明其有效性。[1801.01075v2] 我们在现场设置中展示我们的方法,将其与现有技术进行比较,并通过定量和定性评估来证明其有效性。[1801.01075v2]

 

对非特定领域适应的对抗特征增强

Riccardo VolpiPietro MorerioSilvio SavareseVittorio Murino

最近的研究表明,生成敌对网络(GANs)可以成功应用于无监督域自适应,其中,给定标记的源数据集和未标记的目标数据集,目标是训练目标样本的强大分类器。特别是,它表明可以使用GAN目标函数来学习与源代码不可区分的目标特征。在这项工作中,我们通过以下方式扩展该框架:(i)迫使学习的特征提取器是域不变的,并且(ii)通过特征空间中的数据增强来训练它,即执行特征增强。尽管图像空间中的数据增强在深度学习中是一种成熟的技术,但功能增强尚未得到同样的关注。我们通过一个特征生成器来完成它,这个特征生成器是通过针对源特征播放GAN minimax游戏来训练的。结果表明,在几个无监督的域自适应基准测试中,强制执行域不变性和执行特征增强可以实现卓越或可比较的性能。[1711.08561v2]

 

运动伪影检测共聚焦激光Endomicroscopy图像

Maike P. StoeveMarc AubrevilleNicolai OetterChristian KnipferHelmut NeumannFlorian StelzleAndreas Maier

共聚焦激光内窥镜(CLE)是一种光学成像技术,可在(细胞)细胞水平上对黏膜进行无创检查,已被证明是肠胃病学中一种有价值的诊断工具,并在包括口腔在内的各种解剖部位显示出有前景的结果。最近,显示了具有足够质量的CLE图像的自动癌检测的可行性。但是,在现实世界的数据集中,大量的CLE图像被伪像破坏。在最普遍的人造物类型中,运动引起的图像恶化。在这项工作的范围内,开发了用于自动检测运动伪影图像区域的算法方法。因此,这项工作为自动检测癌症的临床适用性提供了重要的一步。都,常规机器学习和新颖的,深度学习为基础的方法进行了评估。深度学习方法优于传统方法,达到0.90AUC[1711.01117v2]

 

人在圈的人重新识别

Hanxiao Wang, Shaogang Gong, Xiatian Zhu, Tao Xiang

当前人重新识别(re-id)方法假定(1)预先标记的训练数据可用于每个摄像机对,(2)用于重新识别的图库大小适中。当相机网络尺寸增加并且图库尺寸变大时,这两种假设对实际应用的比例都很小。对自动模型排序的人工验证重新编号结果变得不可避免。在这项工作中,制定了一种基于人体验证增量学习(HVIL)的新型人体内环Reid模型,该模型不需要任何预先标记的训练数据来学习模型,因此可以容易地扩展到新的摄像机对。这种HVIL模型通过人类反馈累积学习,可即时改进每个探针的实时重新排序,从而使模型可扩展至大型图库尺寸。我们进一步制定了正则化度量集合学习(RMEL)模型,将一系列递增学习的HVIL模型组合成一个集成模型,以便在人类反馈不可用时使用。[1612.01345v2]

 

一种面向图像超分辨率的增强方法

Shanjun Mao, Da Zhou, Yiping Zhang, Zhihong Zhang, Jingjing Cao

最近的稀疏表示在人脸图像超分辨率方面取得了巨大的成功。传统的基于稀疏性的方法对人脸图像补丁实施稀疏编码,并且表示保真度由$ \ ell_ {2} $ – norm测量。这种稀疏编码模型均匀地规则化所有面部片,但是忽略用于图像重建的不同面部片的不同性质。在本文中,我们提出了一种基于AdaBoost的新的加权补丁超分辨方法。具体来说,在AdaBoost操作的每次迭代中,每个面部贴片会根据其上的模型性能自动加权,以突出显示那些对于提高下一步重建功率更关键的贴片。通过这种方式,通过AdaBoost培训程序,我们可以更多地关注具有更丰富信息的补丁(人脸区域)。标准人脸数据库的各种实验结果表明,我们提出的方法在客观度量和视觉质量两方面均优于最先进的方法。[1609.01805v3]

转载请注明:《用IntelCaffe进行卷积神经网络的高效8位低精度推断+统计流形上的词典学习和稀疏编码

发表评论