学习从单色图像估计3D人体姿态和形状+ABMOF:一种用于动态视觉传感器的新型光流算法

走向行动的一个明确表示

Michael WrayDavide MoltisantiDima Damen

这项工作引入了动作和交互的动词表示描述类似动作的问题(例如开门打开橱柜),并使用动词专有标签区分不同的动作(例如开门开瓶)。目前的行为识别方法忽略了合理的语义歧义和动词之间的类重叠(图1),依赖于对象来消除歧义交互。我们偏离单动词标签并引入观察词和多个动词标签之间的映射以创建动作的不确定表示。这种新的表现形式可以增加词汇量,并且可以对动词标签的丰富空间进行软分配。我们将这些表示法学习为多输出回归,使用两流融合CNN。所提出的方法胜过传统的单动词标签(也称为多数投票)三个以自我为中心的数据集,用于识别和检索。[1805.04026v1]

 

深度网络:他们曾为视力做过什么?

Alan L. Yuille, Chenxi Liu

这是一个关于深网的优点和缺点的观点文章。它们是人工智能近期发展的中心,在认知科学和神经科学方面越来越重要,因为它们能够开发可处理大量视觉逼真刺激和视觉任务的计算模型。他们有明确的限制,但他们也有巨大的成功。对其内部运作也有渐进的,但不完整的理解。目前的Deep Nets似乎不太可能成为构建通用智能机器或理解思维/大脑的最佳长期解决方案,但很可能这些解决方案的许多方面仍将存在。目前,Deep Net在特定类型的视觉任务和特定基准数据集方面做得非常好。但Deep Net与人类视觉系统相比,具有更少的通用性,灵活性和适应性。而且,像Deep Nets这样的方法在遇到复杂的自然图像时可能会遇到根本性的困难。为了说明我们的主要观点,在保持参考文献较小的同时,本文略微偏向我们团队的工作。[1805.04025v1]

 

用于加速MRIK-Space深度学习

Yoseob HanJong Chul Ye

基于湮没滤波器的低秩Hanel矩阵方法(ALOHA)是最先进的压缩感知方法之一,它使用低秩Hankel矩阵完成直接内插缺失的k空间数据。受最近的数学发现的启发,该数学发现将深度神经网络与使用数据驱动框架基础的Hankel矩阵分解相关联,在此我们提出了用于k空间内插的完全数据驱动的深度学习算法。我们的网络也可以很容易地应用到非笛卡尔k空间轨迹,只需添加一个额外的重新网格层。大量的数值实验表明,所提出的深度学习方法明显优于现有的图像域深度学习方法。[1805.03779v1]

 

OFF-ApexNet上的微表情识别系统

Sze-Teng Liong, Y. S. Gan, Wei-Chuen Yau, Yen-Chang Huang, Tan Lit Ken

当一个人试图隐藏一种情感时,真正的情感就表现为一种微观表现。自动面部微型表情识别系统在计算机视觉领域的研究相对较新。这是因为难以实现最佳特征提取方法来处理表达的微妙和简短的运动特征。现有的大多数方法都是基于手工制作的特征提取微妙的面部运动。在本文中,我们用卷积神经网络(CNN)体系结构解决了微表达式识别任务,该任务将从每个视频中提取的特征很好地集成在一起。介绍一种新的特征描述符,即Apex帧网络(OFF-ApexNet)的光流特征。该特征描述符将光学引导上下文与CNN结合。首先,我们从每个视频序列中获取顶点帧的位置,因为它描绘了所有帧中面部运动的最高强度。然后,从顶点帧和参考帧(即起始帧)获得光学信息。最后,光流特征被馈送到预先设计的CNN模型中以进一步特征增强以及执行表达分类。为评估OFF-ApexNet的有效性,对三个公共自发微表达数据集(即SMICCASME IISAMM)进行综合评估。有希望的识别结果表明所提出的方法可以最优地描述重要的微表达细节。特别是,我们报告说,在一个多数据库中使用leave-one-subject-out交叉验证实验协议,识别性能达到识别准确率的74.60%,F-71.04%。我们还注意到,这是第一个对此域中的三个数据库执行跨数据集验证的工作。[1805.08699v1]

 

学习从单色图像估计3D人体姿态和形状

Georgios Pavlakos, Luyang Zhu, Xiaowei Zhou, Kostas Daniilidis

这项工作解决了从单一彩色图像估计全身三维人体姿态和形状的问题。这是基于迭代优化的解决方案通常占主导地位的任务,而卷积网络(ConvNets)由于缺乏训练数据和低分辨率3D预测而受到影响。我们的工作旨在填补这一空白,并提出一种基于ConvNets的高效和有效的直接预测方法。我们的方法的中心部分是在我们的端到端框架内引入参数化统计人体形状模型(SMPL)。这使我们能够获得非常详细的三维网格结果,同时仅需要估计少量参数,使其对直接网络预测更为友好。有趣的是,我们证明只有从2D关键点和掩模才能可靠地预测这些参数。这些是通用2D人体分析ConvNets的典型输出,使我们能够放松对具有3D形状地面真实性的图像进行训练的巨大需求。同时,通过保持可微性,在训练时间,我们根据估计的参数生成3D网格,并使用3D每顶点损耗为曲面显式优化。最后,采用可微分渲染器将3D网格投影到图像上,通过优化投影与2D注释(即2D关键点或蒙版)的一致性,可以进一步细化网络。所提出的方法胜过此前任务的基线,并提供了一个有吸引力的解决方案,用于直接从单个彩色图像预测3D形状。

 

在灰度级别共生矩阵中基于惯性矩的灰尘浓度视觉测量

Zhiwen Luo, Guohui Li, Junfeng Du, Jieping Wu

为了提高现有粉尘浓度测量的准确性,本文提出了基于机械视觉系统测量的灰尘图像样本的基于灰度级别共生矩阵(GRCM)中惯性矩的粉尘浓度测量方法。 。首先,通过实验方法和拟合方法建立了灰尘浓度与惯性矩之间的多项式计算模型。然后,通过理论和数学分析方法构建GRCM及其惯性矩计算方法。然后开发在线粉尘浓度视觉测量实验系统,以水泥生产车间的水泥粉尘浓度测量为例进行系统和PCM测量。结果表明测量误差在9%以内,测量范围为0.5-1000毫克/立方米。最后,与过滤膜称重测量,光散射测量和激光测量相比,所提出的PCM测量方法在误差和成本方面具有优势,可为粉尘浓度视觉测量提供有价值的参考。[1805.03788v1]

 

三维人体姿态估计的序贯深度监督

Georgios PavlakosXiaowei ZhouKostas Daniilidis

我们培训端到端系统以从单个图像进行3D人体姿态估计的能力目前受到自然图像的3D注释的有限可用性的限制。大多数数据集是使用运动捕捉(MoCap)系统在工作室设置中捕捉的,难以达到2D人体姿态数据集的可变性,如MPIILSP。为了减少对精确3D地面真实性的需求,我们建议使用由人体关节序数深度提供的较弱监督信号。这些信息可以通过人类注释者获得广泛的图像和姿势。我们展示了卷积网络(ConvNets)的有效性和灵活性,以及 在不同设置下的这些序数关系,始终通过使用精确的三维关节坐标进行训练的ConvNets实现有竞争力的性能。另外,为了展示这种方法的潜力,我们用流行的深度标注来扩充流行的LSPMPII数据集。这种扩展使我们能够在非工作室条件下提供定量和定性评估。同时,这些序号注释可以很容易地纳入典型的ConvNets for 3D人体姿势的训练过程中。通过这一融合,我们为相关基准实现了最新的最新性能,并验证了3D人体姿势的有序深度监控的有效性。[1805.04095v1] 这些序数注释可以很容易地纳入典型的ConvNets for 3D人体姿势的训练过程中。通过这一融合,我们为相关基准实现了最新的最新性能,并验证了3D人体姿势的有序深度监控的有效性。[1805.04095v1] 这些序数注释可以很容易地纳入典型的ConvNets for 3D人体姿势的训练过程中。通过这一融合,我们为相关基准实现了最新的最新性能,并验证了3D人体姿势的有序深度监控的有效性。[1805.04095v1]

 

处理RGBDT空间中的序列

GabrielMoyàAntoni Jaume-i-CapóJavier Varona

当前计算机视觉领域的大部分研究都集中在处理单幅图像而不考虑时间信息。我们提出了一个概率非参数模型,它将来自设备的多个信息线索混合在一起,以对图像序列中包含移动对象的区域进行分割。我们准备了一个实验装置,使用提供RGBDT空间序列的新数据集,显示使用先前信息获取准确分割结果的重要性。我们用最先进的人体检测器标记检测区域ts。每个检测到的区域至少被标记为人类一次。[1805.03897v1]

 

基于深度表示的语义图像分割领域适应性学习

Assia BenbihiMatthieu GeistCédricPradalier

深卷积神经网络推动了语义分割技术的发展,只要有大量的图像和像素方式的注释一起使用。数据收集是昂贵的,并且减轻它的一个解决方案是使用转移学习。这减少了网络培训所需的注释数据量,但并没有摆脱这一繁重的处理步骤。我们提出了一种转移学习的方法,无需在具有冗余内容和不同像素分布的数据集的目标任务上进行注释。当近似误差阻止从一个数据集到另一个数据集的注释重用时,我们的方法利用了两个数据集之间图像的近似内容对齐。鉴于只有一个数据集的注释,我们以监督的方式训练第一个网络。该网络自主学习生成与语义分割相关的深度数据表示。然后在新数据集中的图像,我们训练一个新的网络,以生成一个深度数据表示,以匹配前一个数据集上第一个网络的数据。训练包括特征映射之间的回归,并且不需要对新数据集进行任何注释。我们证明这种方法的性能类似于PASCAL VOC数据集上的经典转换学习,并且具有合成转换。[1805.04141v1] 训练包括特征映射之间的回归,并且不需要对新数据集进行任何注释。我们证明这种方法的性能类似于PASCAL VOC数据集上的经典转换学习,并且具有合成转换。[1805.04141v1] 训练包括特征映射之间的回归,并且不需要对新数据集进行任何注释。我们证明这种方法的性能类似于PASCAL VOC数据集上的经典转换学习,并且具有合成转换。[1805.04141v1]

 

神经最好的朋友:稀疏的跨域对应

Kfir Aberman, Jing Liao, Mingyi Shi, Dani Lischinski, Baoquan Chen, Daniel Cohen-Or

图像之间的对应是计算机视觉中的一个基本问题,具有各种图形应用程序。本文提出了一种稀疏跨域对应的新方法。我们的方法是为图像对设计的,其中感兴趣的主要对象可以属于不同的语义类别,并且在形状和外观上有很大不同,但仍包含语义相关或几何相似的部分。我们的方法运用于深层特征的层次结构,通过预先训练的CNN从输入图像中提取。具体而言,从两个层次中最粗糙的层开始,我们搜索Neural Best BuddiesNBB):相互最近邻的神经元对。关键的想法是通过层次渗透NBB,同时缩小每个级别的搜索区域并仅保留具有显着激活的NBB。此外,为了克服外观上的差异,每一对搜索区域被转换成共同的外观。我们通过用户研究来评估我们的方法,以及与其他通信方法的比较。使用各种图形应用程序演示了我们方法的实用性,包括跨域图像对齐,混合图像的创建,自动图像变形等等。[1805.04140v1] 使用各种图形应用程序演示了我们方法的实用性,包括跨域图像对齐,混合图像的创建,自动图像变形等等。[1805.04140v1] 使用各种图形应用程序演示了我们方法的实用性,包括跨域图像对齐,混合图像的创建,自动图像变形等等。[1805.04140v1]

 

学习观众面部行为的无监督深度表现

Suman SahaRajitha NavarathnaLeonhard HelmingerRomann Weber

在本文中,我们提出了一种基于深层生成模型与卷积神经网络(CNN)相结合的无监督学习方法来分析人脸行为。我们联合训练变形自动编码器(VAE)和生成对抗网络(GAN),以便从观看观看特征长度电影的观看者的视频中学习强大的潜在表示。我们表明学习的潜在表示成功地编码了与观众参与(笑和笑)和脱离(打哈欠)有关的有意义的行为签名。我们的研究结果为更为一般的方法论提供了一个概念证明,用于注释难以标记的多媒体数据,其中包含稀疏的感兴趣信号示例。[1805.04136v1]

 

用于图像分类的集合软边缘Softmax损失

Xiaobo Wang, Shifeng Zhang, Zhen Lei, Si Liu, Xiaojie Guo, Stan Z. Li

Softmax损失可以说是培训CNN模型进行图像分类的最受欢迎的损失之一。然而,最近的作品已经暴露了其对特征可辨性的限制。本文对softmax损失的弱点提出了新的观点。一方面,使用softmax损失学习的CNN特征往往不具有区分性。因此,我们引入了软边缘softmax函数来明确地鼓励不同类别之间的区分。另一方面,softmax损失的学习分类器很弱。我们建议将多个这些弱分类器组合成一个强分类器,这受到了认识,认为弱分类器的多样性对于一个好的合奏系统至关重要。为了实现多样性,我们采用希尔伯特施密特独立准则(HSIC)。在一个框架中考虑这两个方面,我们设计了一种新型的损耗,命名为Ensemble soft-Margin SoftmaxEM-Softmax)。我们对基准数据集进行了大量实验,以显示我们的设计优于基线softmax损耗的优势以及几种最先进的替代方案。[1805.03922v1]

 

面部表情识别的深度协方差描述符

Naima OtberdoutAnis KacemMohamed DaoudiLahoucine BallihiStefano Berretti

本文采用协方差矩阵对深度卷积神经网络(DCNN)特征进行人脸表情识别。协方差矩阵的空间几何是对称正定(SPD)矩阵的空间几何。通过使用SPD流形上的高斯核对脸部表情进行分类,我们表明,在DCNN特征上计算的协方差描述符比具有完全连接层和softmax的标准分类更有效。通过在Oulu-CASIASFEW数据集上使用VGG-faceExpNet体系结构进行广泛的实验来实现我们的方法,我们展示了所提出的方法在面部表情识别的现有技术中实现了性能。[1805.03869v1]

 

密集多样的胶囊网络:使胶囊学得更好

Sai Samarth R PhayeApoorva SikkaAbhinav DhallDeepti Bathula

过去几年,深度学习方法的兴趣呈指数级增长,精确度迅速提高,计算复杂度降低。具体而言,使用卷积神经网络(CNN)的体系结构已经为图像分类和目标识别任务提供了最先进的性能。最近,Capsule NetworksCapsNet)通过解决CNN在编码姿势和变形方面固有的局限性,实现了显着的性能提升。受这种进步的启发,我们问自己,我们能做得更好吗?我们提出密集胶囊网络(DCNet)和多种胶囊网络(DCNet ++)。这两个提议的框架通过用密集连接的卷积替换标准卷积层来定制CapsNet。这有助于合并由不同层学习的特征图形成主胶囊。DCNet基本上增加了一个更深的卷积网络,这导致了对差别特征映射的学习。此外,DCNet ++使用分层体系结构来学习以精细到粗糙的方式表示空间信息的胶囊,这使得它更有效地学习复杂数据。使用基准数据集进行的图像分类任务实验证明了所提出的体系结构的功效。DCNetMNIST数据集上实现了最新的性能(99.75%),与传统的CapsNet相比,总训练迭代减少了20倍。此外,DCNet ++SVHN数据集上的性能优于CapsNet96.90%),并且在CIFAR-10上的7CapsNet模型的总体性能优于031%,参数数量减少7倍。[1805.04001v1]

 

ABMOF:一种用于动态视觉传感器的新型光流算法

刘敏,Tobi Delbruck

输出异步对数强度变化事件的动态视觉传感器(DVS)在高速机器人,自动驾驶汽车和无人机中具有潜在应用。事件的精确事件定时,稀疏输出和宽动态范围非常适合光流,但传统的光流(OF)算法与事件流数据不匹配。本文提出了一种事件驱动的OF算法,称为自适应块匹配光流(ABMOF)。ABMOF使用累积DVS事件的时间片。时间片根据输入事件和OF结果自适应旋转。与诸如基于梯度的OF等其他方法相比,ABMOF可以在紧凑的逻辑电路中有效地实现。结果表明,ABMOF达到了与传统标准(如Lucas-KanadeLK))相当的准确度。我们的论文的主要贡献是新的自适应时间切片旋转方法,确保生成的切片具有足够的匹配特征,包括控制生成的切片在块搜索范围内具有平均切片位移的反馈机制。使用我们改进的切片的LK方法也被实现。将ABMOF精度与这种LK方法在自然场景数据上进行比较,包括稀疏和密集的纹理,高动态范围以及每秒超过30,000像素的快速运动。纸质数据集和源代码可从http//sensors.ini.uzh ·CH / databases.html[1805.03988v1] 包括控制生成的切片在块搜索范围内具有平均切片位移的反馈机制。使用我们改进的切片的LK方法也被实现。将ABMOF精度与这种LK方法在自然场景数据上进行比较,包括稀疏和密集的纹理,高动态范围以及每秒超过30,000像素的快速运动。纸质数据集和源代码可从http//sensors.ini.uzh ·CH / databases.html[1805.03988v1] 包括控制生成的切片在块搜索范围内具有平均切片位移的反馈机制。使用我们改进的切片的LK方法也被实现。将ABMOF精度与这种LK方法在自然场景数据上进行比较,包括稀疏和密集的纹理,高动态范围以及每秒超过30,000像素的快速运动。纸质数据集和源代码可从http://sensors.ini.uzh.ch/databases.html[1805.03988v1]

 

评估用于图像分类的ResNeXt模型体系结构

Saifuddin Hitawala

近年来,深度学习方法已成功应用于图像分类任务。今天存在许多这样的深度神经网络,可以很容易区分猫和狗。ResNeXt模型就是一种这样的模型,它使用了一种用于图像分类的同构多分支体系结构。本文旨在实施和评估CIFAR-10数据集子集上的ResNeXt模型体系结构。它还调整原始ResNeXt超参数,如基数,深度和基宽,并将修改后的模型与原始模型的性能进行比较。本文所做的实验分析表明,深度或基底宽度的略微减少不会影响模型的性能,从而导致可比较的结果。[1805.08700v1]

 

深度光度立体声在晴朗的一天

Yannick Hold-GeoffroyPaulo FU GotardJean-FrançoisLalonde

室外照明中的光度立体声仍然是一个具有挑战性的,不适合的问题。实际上,已经表明,当光线在一天内被太阳照亮时,仅仅从光度提示中不能明确地恢复场景结构。在本文中,我们将介绍一种晴天基于CNN的光度立体技术。我们通过将光度线索与材料属性,局部表面几何和室外照明的自然变化的先前知识相结合来解决模糊性问题。为了训练CNN,我们使用漫反射和镜面反射材料创建了真实合成渲染的数据集。假定在晴朗的一天拍摄8张室外图像,我们的方法可以鲁棒地估计场景表面法线。我们的方法不需要精确的地理位置来工作,并且在真实照明的图像上明显优于几种最先进的方法。这表明我们的CNN可以有效地结合在一个晴天期间学到的先验知识和光度提示。[1803.10850v2]

 

使用特征细化网络和级联多尺度体系结构检测头

Dezhi Peng, Zikai Sun, Zirong Chen, Zirui Cai, Lele Xie, Lianwen Jin

本文介绍了一种可以准确检测室内场景下头部特别是小头部的方法。为此,我们提出了一种新颖的方法,特征细化网(FRN)和级联多尺度架构。FRN利用深度卷积神经网络创建的多尺度分层特征。所提出的信道加权方法使得FRN能够交替和有效地利用特征。为了提高小磁头检测的性能,我们提出了一种具有两个检测器的级联多尺度结构。一个被称为全局探测器的负责探测大型物体并获取全球分布信息。另一种称为本地检测器的设计用于小物体检测,并利用全局检测器提供的信息。由于缺乏头部检测数据集,我们收集并标记了一个名为SCUT-HEAD的新大型数据集,其中包含4405个带有111251个头注释的图像。实验表明,我们的方法在SCUT-HEAD上实现了最先进的性能。[1803.09256v2]

 

改进的弱监督对象本地化技术

Junsuk ChoeJoo Hyun ParkHyunjung Shim

我们提出了一种改进的弱监督对象定位技术。常规方法具有局限性,即它们只关注目标对象的大多数区分性部分。最近的研究解决了这个问题,并通过增加不太有区别的部分的训练数据来解决这个限制。为此,我们采用有效的数据增强来提高对象本地化的准确性。另外,我们通过优化基于最先进模型的卷积神经网络(CNN)来引入改进的学习技术。基于广泛的实验,我们评估所提出的方法的定性和定量的有效性。尤其是,我们观察到我们的方法根据配置将Top-1定位精度提高了21.4 – 37.3%与当前最先进的弱监督物体定位技术相比。[1802.07888v2]

 

高分辨率深度卷积生成敌对网络

Joachim D.CurtóIrene C. ZarzaFernando De La TorreIrwin KingMichael R. Lyu

由于已知缺乏收敛速度稳定性,生成对抗网络(GAN)在具有GPU存储器容量(从12GB24GB)的计算约束的高分辨率设置中的收敛一直困难重重。为了提高DCGANDeep Convolutional Generative Adversarial Networks,深度卷积生成对抗网络)的网络融合并实现高分辨率的高分辨率结果,我们提出了一种新的分层网络结构HDCGAN,它结合了当前最先进的技术。介绍了一种新颖的数据集Curt \ oZarza,其中包含来自不同种族群体的人脸图像,其中包含各种照明条件和图像分辨率。Curt’oHDCGAN合成图像增强,从而成为第一个GAN增强人脸数据集。我们对CelebA进行了广泛的实验(MS-SSIM 01978年和Fréchet的距离8.77)和Curt’o[1711.06491v11]

 

SUPRA:用于实时应用的开源软件定义超声波处理

RüdigerGöblNassir NavabChristoph Hennersperger

超声成像研究的重复性受到两个因素的限制:首先,许多现有的超声波管道受知识产权保护,难以交换代码。其次,大多数管道都是用特殊的硬件来实现的,这样在这些平台上实现处理步骤的灵活性就会有限。方法:通过SUPRA,我们提出了一个完整的软件定义超声波处理实时应用的开源管道,以缓解这些问题。涵盖从波束成形到输出B模式图像的所有步骤,SUPRA可帮助提高结果的可重复性,并对研究界可访问的图像采集模式进行修改。我们对管道进行定性,定量评估以及关于其运行时间。结果:该管道显示的图像质量可与临床系统相媲美,并通过点扩散函数测量支持相当的分辨率。包括通常超声波管道的所有处理阶段,运行时分析表明它可以在消费者GPU上以2D3D实时执行。结论:我们的软件超声波管道开启了图像采集的研究。考虑到从早期阶段(原始通道数据,射频数据)获取超声数据,它简化了成像的发展。此外,它还处理研究结果的可重复性,因为代码可以轻松共享,甚至可以在没有专用超声硬件的情况下执行。[1711.06127v3] 运行时分析显示它可以在消费者GPU上以2D3D实时执行。结论:我们的软件超声波管道开启了图像采集的研究。考虑到从早期阶段(原始通道数据,射频数据)获取超声数据,它简化了成像的发展。此外,它还处理研究结果的可重复性,因为代码可以轻松共享,甚至可以在没有专用超声硬件的情况下执行。[1711.06127v3] 运行时分析显示它可以在消费者GPU上以2D3D实时执行。结论:我们的软件超声波管道开启了图像采集的研究。考虑到从早期阶段(原始通道数据,射频数据)获取超声数据,它简化了成像的发展。此外,它还处理研究结果的可重复性,因为代码可以轻松共享,甚至可以在没有专用超声硬件的情况下执行。[1711.06127v3] 它解决了研究结果的可重复性问题,因为代码可以轻松共享,甚至可以在没有专用超声波硬件的情况下执行。[1711.06127v3] 它解决了研究结果的可重复性问题,因为代码可以轻松共享,甚至可以在没有专用超声波硬件的情况下执行。[1711.06127v3]

 

SalNet360:使用CNN的全向图像显着地图

拉斐尔蒙罗伊,塞巴斯蒂安卢茨,特霍ChalasaniAljosa Smolic

来自任何媒体的视觉注意数据的预测对于内容创建者是有价值的并且用于有效地驱动编码算法。随着虚拟现实(VR)领域目前的趋势,将已知技术适用于这种新型媒体正开始获得动力。在本文中,我们展示了任何卷积神经网络(CNN)的架构扩展,以端到端的方式将传统的2D显着性预测微调到全向图像(ODI)。我们表明,拟议的管道中的每一步都致力于使生成的显着图关于地面实况数据更加准确。[1709.06505v2]

转载请注明:《学习从单色图像估计3D人体姿态和形状+ABMOF:一种用于动态视觉传感器的新型光流算法

发表评论