KinshipGAN:用于亲子人脸生成的对抗生成网络+Fire SSD:边缘设备上基于宽火模块的单发检测器

紧凑的深度神经网络,用于从肌电信号计算有效的手势分类

亚当HartwellVisakan Kadirkamanathan,肖恩R安德森

使用表面肌电图的机器学习分类器对于人机界面和设备控制非常重要。诸如支持向量机(SVM)之类的常规分类器使用基于例如小波的手动提取的特征。这些特征往往是固定的,并且与个人无关,这是由于肌电图信号的高度人与人之间的可变性所致的关键限制。相比之下,深度神经网络可以自动提取人员特定的特征这是一个重要的优势。然而,深度神经网络通常具有大量参数的缺点,需要大量训练数据集和不适合嵌入式系统的强大硬件。本文通过引入比现有小型深度神经网络架构小得多的解决方案来解决这些问题。紧凑型深层网络的性能以SVM为基准,并与10个人类主体的其他当代架构进行比较,比较MyoDelsys Trigno电极组。发现紧密深层网络的准确度为84.2 +/- 0.06%,而Myo上的SVM70.5 +/- 0.07%,Delsys系统为80.3 +/- 0.07%相对于67.8 +/- 0.09%证明了所提出的紧凑型网络的优越有效性,其仅具有5,889个参数比该领域中的一些当代替代方案少数量级,同时保持更好的性能。[1806.08641v1] 对于Myo上的SVM07%,对于Delsys系统为80.3 +/- 0.07%对比67.8 +/- 0.09%,表明所提出的紧凑网络的优越有效性,其仅具有5,889个参数比一些少数量级当代替代品在这个领域,同时保持更好的表现 [1806.08641v1] 对于Myo上的SVM07%,对于Delsys系统为80.3 +/- 0.07%对比67.8 +/- 0.09%,表明所提出的紧凑网络的优越有效性,其仅具有5,889个参数比一些少数量级当代替代品在这个领域,同时保持更好的表现 [1806.08641v1]

 

单增量任务场景下的持续学习

Davide MaltoniVincenzo Lomonaco

最近的研究表明,建筑,正规化和排练策略可以用来在许多不相交的任务上依次训练深层模型,而不会忘记以前获得的知识。然而,如果这些任务不是不相交而是一个单一的增量任务(例如,阶级增量学习),那么这些策略仍然不令人满意。在本文中,我们指出了多任务和单增量任务场景之间的差异,并指出诸如LWFEWCSI等众所周知的方法对于增量任务场景并不理想。然后专门提出一种新方法,称为AR1,将建筑和正则化战略相结合。AR1开销(在内存和计算方面)非常小,因此适合在线学习。在CORe50iCIFAR-100上进行测试时,AR1的表现优于现有正规化战略。[1806.08568v1]

 

Ad-Net:用于视频广告检测的视觉卷积神经网络

Shervin MinaeeImed BouaziziPrakash KolanHossein Najafzadeh

个性化广告是许多在线企业和视频广播公司的关键任务。当今许多广播公司都为所有客户使用相同的商业广告,但是可以想象,不同的观众有不同的兴趣,而且根据他们的人口特征和历史选择不同人群的商业广告似乎是合理的。在这个项目中,我们提出了一个框架,它获取广播视频,分析它们,检测商业广告并用更合适的商业广告替代广告。我们提出了一个双流音视频卷积神经网络,一个分支分析视觉信息,另一个分析音频信息,然后将音频和视频嵌入融合在一起,用于商业检测和内容分类。我们表明,使用视频的视频和音频内容可显着提高视频分析的模型性能。该网络接受了超过50k常规视频和商业拍摄数据集的训练,并且与基于手工制作功能的模型相比,获得了更好的性能。[1806.08612v1]

 

点云分割使用分层树来构建模型

Omair HassaanAbeera ShamailZain ButtMurtaza Taj

3D扫描技术的最新发展使得高度精确的3D点云的生成相对容易,但这些点云的分割仍然是一个具有挑战性的领域。许多技术已经在文献中设定了基于平面或基于原始的分割的先例。在这项工作中,我们提出了一种新颖而有效的基于原始的点云分割算法。主要重点,即我们方法的主要技术贡献是一个层次树,它将点云迭代分割成多个片段。该树使用独有的能量函数和三维卷积神经网络HollowNets来对这些片段进行分类。我们使用真实数据和合成数据来测试我们提出的方法的有效性,圆顶和尖塔的准确度超过90%。[1806.08572v1]

 

走向安全的深度学习:准确量化神经网络预测中的生物标志物不确定性

Zach Eaton-RosenFelix BragmanSotirios BisdasSebastien OurselinM. Jorge Cardoso先生

自动医学图像分割,特别是使用深度学习,在语义分割任务中表现出色。然而,这些方法很少量化它们的不确定性,这可能导致下游分析中的错误。在这项工作中,我们建议使用贝叶斯神经网络来量化语义分割领域内的不确定性。我们还提出了一种将基于体素的分割不确定性转换为体积不确定性的方法,并校准了派生测量的置信区间的准确性和可靠性。当应用于肿瘤体积估算应用时,我们证明通过使用这种不确定性建模,可以使用深度学习系统通过校准良好的误差棒报告体积估计,使其在临床使用时更安全。我们还表明,不确定性估计推断为看不见的数据,并且在存在人为噪声的情况下置信区间是稳健的。这可以用来提供一种质量控制和质量保证的形式,并且可以允许在诊所中进一步采用深度学习工具。[1806.08640v1]

 

全连接网络和生成神经网络在巩膜分割中的应用

Diego R. LucioRayson LarocaEvair SeveroAlceu S. Britto Jr.David Menotti

由于全球对安全系统的需求,生物识别技术可被视为计算机视觉研究的重要课题。一种引起注意的生物特征形式是基于巩膜的识别。进行这种类型识别的最初和最重要的步骤是分割感兴趣的区域,即巩膜。在此背景下,本文介绍了基于完全连接网络(FCN)和生成敌对网络(GAN)的两种方法。FCN类似于常见的卷积神经网络,然而完全连接的层(即分类层)从网络的末端被移除,并且通过组合来自不同卷积层的输出层的输出来生成输出。GAN基于博弈论,我们有两个网络彼此竞争以产生最佳分割。为了与基线进行公平的比较以及对提出的方法进行定量和客观的评估,我们向科学界提供了来自两个数据库的新的1,300个手动分割图像。这些实验在UBIRIS.v2MICHE数据库上进行,我们命题的最佳表现配置分别实现了F分数的87.48%和88.32%。[1806.08722v1] v2MICHE数据库以及我们命题的最佳表现配置分别实现了F分数的87.48%和88.32%。[1806.08722v1] v2MICHE数据库以及我们命题的最佳表现配置分别实现了F分数的87.48%和88.32%。[1806.08722v1]

 

变分双域三联自动编码器

丽塔库兹涅佐娃,奥列格Bakhteev

我们调查深层生成模型,它允许我们使用来自一个域的训练数据为另一个域建立一个模型。我们认为域名具有相似的结构(文本,图片)。我们提出变换双域三重自动编码器(VBTA),它学习来自不同域的对象的联合分布。有很多情况下,获得任何监督(例如配对资料)都很困难或模棱两可。对于这种情况,我们可以寻找一种能够从潜在空间获得关于数据关系和结构的信息的方法。我们通过跨领域的共享潜在空间抽样的相对约束或三元组来扩展VBTA的目标函数。换句话说,我们将深度生成模型与度量学习想法结合起来,以提高三胞胎信息的最终目标。我们演示了VBTA模型在不同任务上的性能:双向图像生成,图像到图像转换,甚至是未配对的数据。我们也提供定性分析。我们表明,VBTA模型是可比的,并胜过一些现有的生成模型。[1806.08672v1]

 

学习高分辨率人脸正面化的高保真姿态不变模型

Jie Cao, Yibo Hu, Hongwen Zhang, Ran He, Zhenan Sun

脸部正面化是指从给定的配置文件合成脸部的正面视图的过程。由于野外自闭症和外观失真,恢复忠实的结果并以高分辨率保存纹理细节极具挑战性。本文提出了高保真姿态不变模型(HF-PIM)来产生照相和身份保持结果。HF-PIM通过新颖的纹理融合翘曲过程对剖面进行前置处理,并利用密集的对应场来绑定2D3D表面空间。我们将翘曲的前提分解为对应的场估计和面部纹理恢复,这些都是深层网络很好解决的问题。与那些依赖3D数据的重建方法不同,我们还提出敌对残留字典学习(ARDL)来监督只有单眼图像恢复的面部纹理图。在受控和非受控环境下的详尽实验表明,所提出的方法不仅提高了姿态不变人脸识别的性能,而且还显着提高了高分辨率的正面化外观。[1806.08472v1]

 

结合离体MRI和组织学的人丘脑核的概率图谱

胡安·欧亨尼奥·伊格莱西亚斯,里卡多InsaustiGarikoitz莱尔马乌萨维亚加,玛蒂娜Bocchetta,公园范Leemput,道格拉斯ñ格雷夫,安德烈·范德Kouw e,布鲁斯·Fischl,塞萨尔卡瓦列罗-Gaudes,佩德罗中号拉巴斯阿隆索

人类丘脑是一个包含众多高度特异性细胞核的大脑结构。由于已知这些细胞核具有不同的功能并且可以连接到大脑皮质的不同区域,因此神经影像学团体利用MRI研究它们的体积,形状和体内连接性是非常有意义的。在这项研究中,我们提出了使用离体大脑MRI扫描和组织学数据建立的丘脑核概率图谱,以及图谱在体内MRI分割中的应用。该图谱是使用26个丘脑细胞核对来自6个尸检样品的12个完整丘脑的系列组织进行手动描绘而建立的,结合对整个丘脑和在体内脑中制成的周围结构(尾状物,壳核,海马等)的手动分割MR数据来自39个科目。组织学数据和相应的手动分割的三维结构使用离体MRI作为参考框架并且在切片期间获取的堆积的块状图像作为中间目标来恢复。被编码为自适应四面体网格的图集与以往以丘脑的组织学研究为代表的核的体积表现出良好的一致性。当应用贝叶斯推断对体内扫描进行分割时,该图谱显示了出色的重测信度,对输入MRI对比度变化的鲁棒性以及检测阿尔茨海默病患者的差异性丘脑效应的能力。概率图谱和伴随细分工具作为神经影像学软件包FreeSurfer的一部分公开发布。[1806.08634v1] 以及在切片期间获取的作为中间目标的块状图片堆叠。被编码为自适应四面体网格的图集与以往以丘脑的组织学研究为代表的核的体积表现出良好的一致性。当应用贝叶斯推断对体内扫描进行分割时,该图谱显示了出色的重测信度,对输入MRI对比度变化的鲁棒性以及检测阿尔茨海默病患者的差异性丘脑效应的能力。概率图谱和伴随细分工具作为神经影像学软件包FreeSurfer的一部分公开发布。[1806.08634v1] 以及在切片期间获取的作为中间目标的块状图片堆叠。被编码为自适应四面体网格的图集与以往以丘脑的组织学研究为代表的核的体积表现出良好的一致性。当应用贝叶斯推断对体内扫描进行分割时,该图谱显示了出色的重测信度,对输入MRI对比度变化的鲁棒性以及检测阿尔茨海默病患者的差异性丘脑效应的能力。概率图谱和伴随细分工具作为神经影像学软件包FreeSurfer的一部分公开发布。[1806.08634v1] 在代表性核的体积方面与先前对丘脑的组织学研究显示出良好的一致性。当应用贝叶斯推断对体内扫描进行分割时,该图谱显示了出色的重测信度,对输入MRI对比度变化的鲁棒性以及检测阿尔茨海默病患者的差异性丘脑效应的能力。概率图谱和伴随细分工具作为神经影像学软件包FreeSurfer的一部分公开发布。[1806.08634v1] 在代表性核的体积方面与先前对丘脑的组织学研究显示出良好的一致性。当应用贝叶斯推断对体内扫描进行分割时,该图谱显示了出色的重测信度,对输入MRI对比度变化的鲁棒性以及检测阿尔茨海默病患者的差异性丘脑效应的能力。概率图谱和伴随细分工具作为神经影像学软件包FreeSurfer的一部分公开发布。[1806.08634v1] s病。概率图谱和伴随细分工具作为神经影像学软件包FreeSurfer的一部分公开发布。[1806.08634v1] s病。概率图谱和伴随细分工具作为神经影像学软件包FreeSurfer的一部分公开发布。[1806.08634v1]

 

零点学习的全局语义一致性

Fan Wu, Kai Tian, Jihong Guan, Shuigeng Zhou

在图像识别中,很多情况下训练样本不能覆盖所有目标类别。零点学习(ZSL)利用类语义信息对未包含在训练集中的相应样本的未见类别的样本进行分类。在本文中,我们提出了一个称为全局语义一致性网络(Global Semantic Consistency Network,简称GSC-Net)的端到端框架,该框架充分利用已发现和未发现类的语义信息来支持有效零点学习。我们还采用软标签嵌入损失来进一步利用类之间的语义关系。为了使GSC-Net适应更广泛的实际环境广义零点学习(GZSL),我们引入了参数化新颖性检测机制。我们的方法通过三个视觉属性数据集实现了ZSLGZSL任务的最新性能,验证了所提议的框架的有效性和优势。[1806.08503v1]

 

用于快速全身分割的关键点转移

基督教Wachinger,马修Toews,乔治Langs,威廉井,Polina荷兰

我们引入了一种基于测试和训练图像中关键点之间稀疏对应关系的图像分割方法。关键点表示自动识别的独特图像位置,其中每个关键点对应表示图像之间的转换。我们使用这些对应关系将整个器官的标签图从训练图像转移到测试图像。关键点转移算法包括三个步骤:(i)关键点匹配,(ii)基于投票的关键点标记,以及(iii)基于关键点的器官分割的概率转移。我们报告全身CTMRI腹部器官的分割结果,以及对比增强CTMRI。我们的方法与普通的多图集分割相比,提供了约三个数量级的加速,同时达到比较有利的准确度。此外,关键转移不需要注册图册或培训阶段。最后,该方法允许用高度可变的视场对扫描进行分割。[1806.08723v1]

 

关注什么是相关的:使用注意力的时间序列学习和理解

Phongtharin VinayavekhinSubhajit ChaudhuryAsim MunawarDon Joven AgravanteGiovanni De Magistris,木村大木,立花龙树

本文是对深度学习模型在不同时间序列应用中可解释性的贡献。我们提出一个时间关注层,能够选择相关信息来执行各种任务,包括数据完成,关键帧检测和分类。该方法使用整个输入序列来计算每个时间步的关注值。这导致了比以前的方法更集中的关注值和更可信的可视化。我们将所提出的方法应用于三个不同的任务。实验结果表明,所提出的网络产生与现有技术水平相当的结果。此外,网络提供了更好的解释性决定,也就是说,与过去尝试的类似技术相比,它对相关帧产生更多重要的关注权重。[1806.08523v1]

 

可扩展简单线性迭代聚类(SSLIC)使用通用和并行方法

Bradley C. LowekampDavid T. ChenZiv YanivTerry S. Yoo

超像素算法已被证明是图像分割和后续处理的一个有用的初始步骤,通过用更高级别的抽象(超像素)代替使用昂贵的每像素基元来降低计算复杂性。它们已经成功应用于传统图像分析和基于深度学习的方法。在这项工作中,我们提出了一种广义实现的简单线性迭代聚类(SLIC)超像素算法,该算法已被推广用于n维标量和多通道图像。此外,标准的迭代实现被一个并行的多线程代替。我们描述实现细节并使用强大的缩放公式分析其可伸缩性。定量评估使用3D图像进行,可见人体冷冻切片数据集以及来自相同数据集的2D图像。即使使用大量超过可用内核物理数量的线程(超线程),结果也显示出良好的可伸缩性和运行时增益。[1806.08741v1]

 

通过R-MAC +描述符进行地标识别的精确检索

费德里科马利亚尼,安德烈亚普拉蒂

标志识别问题远未解决,但是利用从卷积神经网络(CNN)的中间层提取的特征,已经获得了优异的结果。在这项工作中,我们对创建R-MAC描述符进行了一些改进,以使新提出的R-MAC +描述符比以前更具代表性。然而,本文的主要贡献是一种新颖的检索技术,它利用数据库图像的MAC描述符的良好代表性。在检索阶段使用称为“db区域的描述符,性能大大提高。所提出的方法在不同的公共数据集上进行测试:Oxford5kParis6kHolidays。它胜过假期的最新成果,并在Oxford5kParis6k上取得了优异的成绩,只有采用基于微调策略的方法才能克服。[1806.08565v1]

 

在嵌入式空间中部署深度神经网络

STYLIANOSVenieris,亚历山德罗Kouris,克里斯托 – SAVVAS Bouganis

最近,深度神经网络(DNN)已成为各种AI应用的主导模型。在物联网和移动系统时代,在嵌入式平台上高效部署DNN对于实现智能应用的开发至关重要。本文总结了我们最近关于嵌入式设置中DNN优化映射的工作。通过涵盖DNN到加速器工具流,高吞吐量级联分类器和领域专用模型设计等多种主题,所提供的一系列工作旨在使先进的深度学习模型能够部署在尖端的移动和嵌入式系统中。[1806.08616v1]

 

密集对象网络:学习密集视觉对象描述符和机器人操作

Peter R. FlorenceLucas ManuelliRuss Tedrake

操纵的正确对象表示是什么?我们希望机器人能够在视觉上感知场景并了解其中的物体,这些物体(i)是与任务无关的,并且可以用作各种操纵任务的构建块,(ii)通常适用于刚性和(iii)利用三维视觉提供的强大先验优势,以及(iv)完全从自我监督中学习。使用以前的方法很难实现:近期的大量抓握工作并未扩展到掌握特定对象或其他任务,而针对特定任务的学习可能需要许多试验才能在对象配置或其他任务中进行很好的概括。在本文中,我们提出密集对象网络,它建立在自监督密集描述符学习的最新发展,作为视觉理解和操纵的一致对象表示。我们证明他们可以快速训练(大约20分钟),用于各种以前看不见的和可能非刚性的物体。我们另外还提出了一些新的贡献来实现多对象描述符学习,并且通过修改我们的训练过程,我们可以获取在对象类中泛化的描述符,或者为每个对象实例分别描述的描述符。最后,我们展示了学习密集描述符在机器人操纵中的新颖应用。我们演示如何抓取可能变形的对象配置中对象上的特定点,并演示如何使用类一般描述符在类中的对象间传递特定的抓握。[1806.08756v1] 我们证明他们可以快速训练(大约20分钟),用于各种以前看不见的和可能非刚性的物体。我们另外还提出了一些新的贡献来实现多对象描述符学习,并且通过修改我们的训练过程,我们可以获取在对象类中泛化的描述符,或者为每个对象实例分别描述的描述符。最后,我们展示了学习密集描述符在机器人操纵中的新颖应用。我们演示如何抓取可能变形的对象配置中对象上的特定点,并演示如何使用类一般描述符在类中的对象间传递特定的抓握。[1806.08756v1] 我们证明他们可以快速训练(大约20分钟),用于各种以前看不见的和可能非刚性的物体。我们另外还提出了一些新的贡献来实现多对象描述符学习,并且通过修改我们的训练过程,我们可以获取在对象类中泛化的描述符,或者为每个对象实例分别描述的描述符。最后,我们展示了学习密集描述符在机器人操纵中的新颖应用。我们演示如何抓取可能变形的对象配置中对象上的特定点,并演示如何使用类一般描述符在类中的对象间传递特定的抓握。[1806.08756v1] 并通过修改我们的训练过程来证明,我们可以获取在对象类中泛化的描述符,或者为每个对象实例区分的描述符。最后,我们展示了学习密集描述符在机器人操纵中的新颖应用。我们演示如何抓取可能变形的对象配置中对象上的特定点,并演示如何使用类一般描述符在类中的对象间传递特定的抓握。[1806.08756v1] 并通过修改我们的训练过程来证明,我们可以获取在对象类中泛化的描述符,或者为每个对象实例区分的描述符。最后,我们展示了学习密集描述符在机器人操纵中的新颖应用。我们演示如何抓取可能变形的对象配置中对象上的特定点,并演示如何使用类一般描述符在类中的对象间传递特定的抓握。[1806.08756v1] 我们演示如何抓取可能变形的对象配置中对象上的特定点,并演示如何使用类一般描述符在类中的对象间传递特定的抓握。[1806.08756v1] 我们演示如何抓取可能变形的对象配置中对象上的特定点,并演示如何使用类一般描述符在类中的对象间传递特定的抓握。[1806.08756v1]

 

虚拟编解码器监督重采样网络图像压缩

Lijun Zhao, Huihui Bai, Anhong Wang, Yao Zhao

在本文中,我们通过学习虚拟编解码网络(VCN)来提出一种图像重采样压缩方法来解决图像压缩量化函数的不可区分问题。这里,图像重新采样不仅涉及图像全分辨率重新采样,而且还涉及低分辨率重新采样。我们将这种方法推广到标准兼容图像压缩(SCIC)框架和基于深度神经网络的压缩(DNNC)框架。具体而言,通过重新采样网络(RSN)网络来测量输入图像以获得重新采样的矢量。然后,将这些矢量直接量化到SCIC中的特征空间中,或者对这些矢量的离散余弦变换系数进行量化,以进一步提高DNNC中的编码效率。在编码器处,量化的矢量或系数通过算术编码被无损压缩。在接收器处,解码矢量被用于通过图像解码器网络(IDN)恢复输入图像。为了以端到端的方式一起训练RSN网络和IDN网络,我们的VCN网络将重新采样的向量投影到IDN解码图像。因此,从IDN网络到RSN网络的梯度可以近似为VCN网络的梯度。因为在自动编码器体系结构中的图像重新采样之后,通过在一些维空间中进行量化可以进一步实现降维,所以我们可以很好地从预先训练的自动编码器网络初始化我们的网络。通过广泛的实验和分析,验证了所提出的方法比许多最先进的方法具有更多的有效性和多样性。

 

视觉惯性物体检测和映射

Xiaohan Fei, Stefano Soatto

我们提出一种方法,用先前看到的物体的模型填充未知环境,放置在欧几里德参考框架中,该参考框架使用单眼视频与惯性传感器一起在因果上和在线上推断。我们实现的系统返回一个稀疏点云,用于场景中可见但未被识别为先前看到的对象的区域,以及详细的对象模型及其在欧几里得帧中的姿态。该系统包括自下而上和自上而下的组件,由此经过训练用于检测的深度网络提供由非线性滤波器(其状态用作存储器)提供的对象假设的似然分数。额外的网络为边缘提供了可能性分数,这补充了被训练成对小变形不变的检测网络。我们在现有数据集上测试我们的算法,还介绍了VISMA数据集,该数据集提供了地面实况姿势,点云图和物体模型,以及时间戳惯性测量。[1806.08498v1]

 

Shape-from-Mask:一种基于深度学习的人体二值掩模图像重建

Zhongping Ji, Xiao Qi, Yigang Wang, Gang Xu, Peng Du, Qing Wu

3D内容创作被称为计算机图形学最基本的任务之一。过去几十年来,许多2D图像或曲线的3D建模算法已经开发出来。设计师可以将一些概念性图像对齐,或从正面,侧面和顶部视图中勾画出一些暗示曲线,然后将它们用作自动或手动构建3D模型的参考。然而,据我们所知,没有研究以类似的方式研究3D人体重建。在本文中,我们提出了一种基于2D正交视图的基于深度学习的3D人体形状重建。设计了一种新颖的基于CNN的回归网络,其中两个分支分别对应于正面和侧面视图,用于从2D掩模图像估计3D人体形状。我们分别训练我们的网络,以解耦来自不同视图的编码身体参数的特征描述符,并将它们融合以估计准确的人体形状。此外,为了克服为此目的所需的训练数据的不足,我们提出了一些针对3D人体形状的显着数据增强方案,其可用于促进对该主题的进一步研究。广泛的实验结果表明,使用我们的算法可以有效地实现逼真和准确的重建。我们的方法只需要二进制蒙版图像,可以帮助用户快速创建自己的数字头像,并且还可以轻松地为3D游戏,虚拟现实,在线时尚购物创建数字人体。[1806.08485v1] 为了克服为此目的所需的训练数据的不足,我们提出了一些针对3D人体形状的显着数据增强方案,其可以用于促进对该主题的进一步研究。广泛的实验结果表明,使用我们的算法可以有效地实现逼真和准确的重建。我们的方法只需要二进制蒙版图像,可以帮助用户快速创建自己的数字头像,并且还可以轻松地为3D游戏,虚拟现实,在线时尚购物创建数字人体。[1806.08485v1] 为了克服为此目的所需的训练数据的不足,我们提出了一些针对3D人体形状的显着数据增强方案,其可以用于促进对该主题的进一步研究。广泛的实验结果表明,使用我们的算法可以有效地实现逼真和准确的重建。我们的方法只需要二进制蒙版图像,可以帮助用户快速创建自己的数字头像,并且还可以轻松地为3D游戏,虚拟现实,在线时尚购物创建数字人体。[1806.08485v1] 广泛的实验结果表明,使用我们的算法可以有效地实现逼真和准确的重建。我们的方法只需要二进制蒙版图像,可以帮助用户快速创建自己的数字头像,并且还可以轻松地为3D游戏,虚拟现实,在线时尚购物创建数字人体。[1806.08485v1] 广泛的实验结果表明,使用我们的算法可以有效地实现逼真和准确的重建。我们的方法只需要二进制蒙版图像,可以帮助用户快速创建自己的数字头像,并且还可以轻松地为3D游戏,虚拟现实,在线时尚购物创建数字人体。[1806.08485v1]

 

TriResNet:用于组织病理学分级的深度三残留网络

Rene BidartAlexander Wong

尽管组织病理学切片的显微分析通常被认为是进行癌症诊断和分级的金标准方法,但是目前的分析方法是非常耗时且耗费劳力的,因为它需要病理学家以详细方式目视检查组织样品,癌症。因此,近来对于计算机辅助诊断系统的重要意义在于分析用于癌症分级的组织病理学切片,以帮助病理学家以更有效,准确和一致的方式进行癌症诊断和分级。在这项工作中,我们调查和探索了一个深度三流残留网络(TriResNet)架构,以进行瓷砖级组织病理学分级,这是计算机辅助全片组织病理学分级的关键第一步。特别是,TriResNet网络体系结构背后的设计思路是为了学习更多不同的定量特征,以更好地表征组织病理学样本中发现的复杂组织特征。两个广泛使用的计算机辅助组织病理学基准数据集(CAMELYON16数据集和侵入性导管癌(IDC)数据集)的实验结果表明,与其他两个最先进的TriResNet网络架构相比,所提出的TriResNet网络架构能够显着提高精确度,艺术深度卷积神经网络架构。基于这些有希望的结果,希望提出的TriResNet网络架构可以成为帮助病理学家提高组织病理学分级过程的一致性,速度和准确性的有用工具。[1806

 

KinshipGAN:通过调整深层网络来合成家庭照片中的亲属面部

Savas OzkanAkin Ozkan

在本文中,我们提出了一个亲缘关系生成器网络,可以通过分析他/她父母的照片来合成一个可能的子女面孔。为此,我们专注于通过提出新颖的解决方案来处理整篇论文中亲缘关系数据集的稀缺性问题。为了提取可靠的特征,我们将预先训练的脸部模型集成到亲属关系脸部生成器。此外,发电机网络正规化与一个额外的人脸数据集和敌对损失,以减少过度拟合的有限样本。最后,我们调整周期域转换以获得更稳定的结果。在野外家庭(FIW)数据集上进行实验。实验结果表明,与基准结构相比,本文提出的贡献提供了重要的性能改进,并且我们提出的方法产生了有希望的感知结果。[1806.08600v1]

 

超光谱分解的深频谱卷积网络

Savas OzkanGozde Bozdagi Root

在本文中,我们提出了一种基于深度光谱卷积网络(DSCN)的新型高光谱分解技术。特别是,本文提出了三个重要贡献。首先,利用光谱卷积代替全连接线性运算,从高光谱特征中提取具有更深网络结构的局部光谱特征。其次,我们提出了一个谱归一化层,而不是批量归一化,它通过归一化它们的光谱响应来提高滤波器的选择性。第三,我们引入了两种融合配置,它们通过使用从先前的层计算的抽象表示来产生理想的丰度图。在实验中,我们使用两个真实的数据集来评估我们的方法与其他基线技术的性能。实验结果验证了该方法优于基于均方根误差(RMSE)的基线。[1806.08562v1]

 

使用渐进分组的高效语义分割

Nikitha VallurupalliSriharsha AnnamaneniGirish VarmaCV JawaharManu MathewSoyeb Nagori

用于语义分割的深层CNN具有高内存和运行时间要求。已经提出了各种方法来使CNN像分组的,混洗的,深度方向可分离的卷积一样高效。我们研究这些技术在像ERFNet这样的实时语义分割体系结构上的有效性,以将运行时间提高5倍以上。我们将这些技术部分或全部应用于CNN图层,并评估Cityscapes数据集的测试精度。我们获得准确性与参数/ FLOP的权衡,为在指定的运行时预算下运行的模型提供准确性分数。我们进一步提出了一种新的训练过程,该过程始于密集卷积,但逐渐演变为分组卷积。我们表明,我们提出的训练方法和高效的架构设计可以提高精度超过8%,深度明智的可分卷积应用于ERFNet的编码器和附加轻量级解码器。这导致了一个模型,其FLOPs的改进度提高了5倍,而ERFNet的准确度只有4%的降低。[1806.08522v1]

 

视频修补通过共时学习时间结构和空间细节

Chuan Wang, Haibin Huang, Xiaoguang Han, Jue Wang

我们提出了一种新的数据驱动的视频修复方法,用于恢复视频帧的丢失区域。提出了一种新的深度学习体系结构,它包含两个子网络:时间结构推理网络和空间细节恢复网络。时间结构推理网络建立在三维完全卷积体系结构之上:由于3D卷积的昂贵计算成本,它仅学习完成低分辨率视频体积。低分辨率结果为空间细节恢复网络提供时间指导,该网络使用2D完全卷积网络执行基于图像的修复,以产生其原始分辨率的恢复的视频帧。这种两步网络设计确保了每个帧的空间质量和跨帧的时间一致性。我们的方法以端到端的方式联合训练这两个子网络。我们对三个数据集进行定性和定量评估,证明我们的方法优于先前的基于学习的视频修补方法。[1806.08482v1]

 

完全卷积网络中用于皮肤病变分割的星形优先

Zahra MirikharajiGhassan Hamarneh

语义分割是实现自动医学图像解读的重要的前期步骤。最近深度卷积神经网络已成为像素级类预测任务的首选。尽管在传统的基于能量的分割方法中已经证明了关于目标对象结构的先验知识已经证明是有效的,但是还没有将先前知识编码为深度学习框架的明确方式。在这项工作中,我们提出了一个新的损失项,将星形编码为端到端可训练完全卷积网络(FCN)框架的损失函数。我们惩罚FCN预测图中的非星形图形段以保证分割结果的全局结构。我们的实验证明了先前使用星形来调整FCN参数的优势,并且我们在ISBI 2017皮肤分割挑战数据集上的结果在21美元参与团队中获得了分割任务中的第一名。[1806.08437v1]

 

非线性衍射成像散射解码器的稳定性

Yu SunUlugbek S. Kamilov

多光散射下的图像重建问题通常表现为规则化的非凸优化。最近提出了一种深度学习架构,即散射解码器(ScaDec),以纯数据驱动的方式解决这个问题。所提出的方法被证明基本上优于基于优化的基线并实现了最新的结果。在本文中,我们彻底测试了ScaDec对不同介电常数对比度,传输次数和输入信噪比的稳健性。高保真模拟数据集的结果表明,ScaDec的性能在不同的环境下是稳定的。[1806.08015v2]

 

Fire SSD:边缘设备上基于宽火模块的单发检测器

Hengfui Liau, Nimmagadda Yamini, YengLiong Wong

随着边缘计算的出现,越来越需要运行基于卷积神经网络的小型边缘计算设备上的物体检测,而计算和热预算有限,适用于视频监控等应用。为了解决这个问题,提出了有效的对象检测框架,如YOLOSSD。但是,使用VGG16作为后端网络的基于SSD的对象检测不足以在边缘设备上实现实时速度。为了进一步提高检测速度,后端网络被更高效的网络取代,如SqueezeNetMobileNet。虽然速度大大提高,但它的准确性较低。在本文中,我们提出了一种名为Fire SSD的高效SSDFire SSDPascal VOC 2007测试装置上达到70.7mAPFire SSD达到30的速度。6FPS在低功耗主流CPU上的速度比SSD3006倍左右,并且尺寸缩小了约4倍。集成GPU上的Fire SSD也达到了22.2FPS[1806.05363v2]

 

典型相关神经网络中相似性表征的研究

Ari S. MorcosMaithra RaghuSamy Bengio

比较不同的神经网络表征并确定表征随着时间的推移如何演化仍然对我们理解神经网络功能的开放性问题提出了挑战。比较神经网络中的表示是非常困难的,因为表示的结构变化很大,甚至在训练相同任务的网络组之间以及在训练过程中变化很大。在这里,我们开发投影加权CCA(典型相关分析)作为理解神经网络的工具,构建了最近提出的SVCCA方法。我们首先改进了核心方法,展示了如何区分信号和噪声,然后应用这种技术对一组CNN进行比较,证明了泛化网络比记忆网络更接近于更类似的表示,更广泛的网络收敛到比窄网络更类似的解决方案,并且具有相同拓扑但不同学习速率的训练网络会聚到具有不同表示的不同集群上。我们还调查RNN的代表动态,包括训练和连续时间步,发现RNN在训练过程中以自下而上的模式收敛,并且隐藏状态在一个序列过程中是高度可变的,即使考虑到线性变换。总之,这些结果为CNNRNN的功能提供了新的见解,并展示了使用CCA理解表示的效用。[1806.05759v2] 并且具有相同拓扑但不同学习速率的训练网络收敛到具有不同表示的不同群集。我们还调查RNN的代表动态,包括训练和连续时间步,发现RNN在训练过程中以自下而上的模式收敛,并且隐藏状态在一个序列过程中是高度可变的,即使考虑到线性变换。总之,这些结果为CNNRNN的功能提供了新的见解,并展示了使用CCA理解表示的效用。[1806.05759v2] 并且具有相同拓扑但不同学习速率的训练网络收敛到具有不同表示的不同群集。我们还调查RNN的代表动态,包括训练和连续时间步,发现RNN在训练过程中以自下而上的模式收敛,并且隐藏状态在一个序列过程中是高度可变的,即使考虑到线性变换。总之,这些结果为CNNRNN的功能提供了新的见解,并展示了使用CCA理解表示的效用。[1806.05759v2] 发现RNN在训练过程中以自下而上的模式收敛,并且即使在考虑线性变换时,隐藏状态在一个序列的过程中也是高度可变的。总之,这些结果为CNNRNN的功能提供了新的见解,并展示了使用CCA理解表示的效用。[1806.05759v2] 发现RNN在训练过程中以自下而上的模式收敛,并且即使在考虑线性变换时,隐藏状态在一个序列的过程中也是高度可变的。总之,这些结果为CNNRNN的功能提供了新的见解,并展示了使用CCA理解表示的效用。[1806.05759v2]

 

使用样本选择和条件生成敌对网络进行图像分类和分割的高效主动学习

Dwarikanath MahapatraBehzad BozorgtabarJean-Philippe ThiranMauricio Reyes

由于涵盖不同疾病类型和严重程度的图像有限,训练强大的深度学习(DL)系统用于医学图像分类或分割具有挑战性。我们提出了一个主动学习(AL)框架来选择最具信息性的样本并添加到训练数据中。我们使用条件生成对抗网络(cGANs),通过在真实图像样本上调节其生成,生成具有不同疾病特征的真实胸部X射线图像。使用贝叶斯神经网络来识别添加到训练集中的信息样本。实验表明,我们提出的AL框架能够通过使用大约35%的完整数据集来实现最先进的性能,因此与传统方法相比节省了大量时间和精力。[1806.05473v3]

 

通过变态重建图像

格里斯芭芭拉,陈冲,ÖktemOzan

本文采用变形的框架来解决包括关节重建和图像配准在内的成像反问题。所讨论的变形具有两个分量,一个是几何变形运动强度,另一个是强度值本身的变形,例如允许出现新的结构。这里提出的想法是通过在变形中注册观察数据的模板,从嘈杂和间接的观察结果重建图像。与只有几何变化的注册不同,当模板的强度选择不当时,该框架会给出良好的结果。我们证明这种方法是一个明确的正则化方法(证明存在性,稳定性和收敛性)并给出了几个数值例子。[1806.01225v2]

 

卷积解构构建快速网络

Yunho JeonJunmo Kim

卷积神经网络在各种视觉任务中取得了巨大成功然而,它们会产生沉重的资源成本。通过使用更深更广的网络,可以快速提高网络的准确性。但是,在资源有限的环境中(例如移动应用程序),重型网络可能无法使用。这项研究将朴素卷积解构为移位操作和逐点卷积。为了应对各种卷积,我们提出了一种新的换档操作,称为主动换档层(ASL),其将换档量作为具有换档参数的可学习功能。这个新层可以通过反向传播进行端到端优化,并提供最佳偏移值。最后,我们将这一层应用于超越现有最先进网络的轻型快速网络。[1806.07370v2]

 

残差网络作为微分同胚的测地流

弗朗索瓦卢梭,罗南Fablet

本文讨论了残余网络(ResNet)的理解和表征,它是各种监督学习问题的最先进的深度学习体系结构之一。我们专注于ResNets的映射组件,它将嵌入空间映射到一个新的未知空间,根据线性标准可以预测或分类。我们证明这个映射分量可以看作是由常微分方程控制的微分连续流的数值实现。特别是,具有共享权重的ResNets被完全表征为指数微分同胚算子的数值近似。我们强调理论上和数值上强调差分形态性质的相关性以及数值问题的重要性,以使连续的表达式和离散化的ResNet实现一致。我们进一步讨论ResNet架构的理论和计算方面的见解。[1805.09585v2]

 

粒子滤波网络在视觉定位中的应用

Peter KarkusDavid HsuWee Sun Lee

粒子滤波是一种有序的状态估计方法,广泛应用于许多领域,包括机器人定位,视觉跟踪等。为了在实践中应用粒子滤波器,主要的挑战是构建一个有效的概率系统模型,特别是当系统表现出复杂的动态行为或处理来自例如可视相机的丰富传感器信息。本文介绍了粒子滤波网络(PF-Net),它在单个神经网络中捕获了系统模型和粒子滤波算法。这种统一的网络表示形式实现了端到端的模型学习,与传统的模型学习方法相比,该模型在特定算法的上下文中进行训练,从而提高了性能。我们将PF-net应用于视觉机器人定位。机器人必须在丰富的3-D环境中进行本地化,仅使用示意图的2D楼层地图。在初步实验中,PF-Net始终优于其他学习架构,以及传统的基于模型的本地化方法。PF-net学习了推广到新的,看不见的环境的有效模型。它也可以在地图上包含语义标签。[1805.08975v2]

 

通过横向门控循环单元学习长程空间依赖关系

Drew LinsleyJunkyung KimVijay VeerabadranThomas Serre

深度学习的进展在许多工程应用中取得了巨大的成功。作为一个主要的例子,卷积神经网络(一种前馈神经网络)正在接近甚至超越人类在各种视觉识别任务中的精确度。然而,在这里,我们表明这些神经网络及其最近的扩展在识别任务中挣扎,其中必须在长的空间范围内检测到相关的视觉特征。我们引入水平门控循环单元(hGRU)来学习内部水平连接在特征列内和跨特征列。我们证明单个hGRU层匹配或超过所有测试过的前馈层次基线,包括具有更多数量级自由参数的最新架构。我们进一步讨论hGRU的生物可行性与来自视觉皮层的解剖数据以及经典轮廓检测任务中的人类行为数据的对比。[1805.08315v2]

 

利用全卷积网络识别具有挑战性的手写注释

AndreasKölschAshutosh MishraSaurabh VarshneyaMuhammad Zeshan AfzalMarcus Liwicki

本文介绍了一个非常具有挑战性的历史性德国文件数据集,并评估了基于完全卷积神经网络(FCNN)的方法来定位这些文件中的任何类型的手写注释。手写的注释可以通过使用各种书写工具以下划线和文本的形式出现,例如,使用铅笔使数据更具挑战性。我们训练和评估各种端到端的语义分割方法并报告结果。任务是将文档的像素分为两类:背景和手写注释。最佳模型在所提供的数据集的测试文档上实现平均交叉点联盟(IoU)得分95.6%。我们还介绍了用于我们提供的数据集的数据增强和培训的不同策略的比较。为了评估,我们使用布局分析评估器进行ICDAR 2017布局分析竞赛,以挑战中世纪手稿。[1804.00236v2]

转载请注明:《KinshipGAN:用于亲子人脸生成的对抗生成网络+Fire SSD:边缘设备上基于宽火模块的单发检测器

发表评论