Video-Person-ReID:重新审视基于视频的人员ReID的时间建模+ MC-GAN:用于图像合成的多条件生成对抗网络

在边缘学习:CNN中的显式边界处理

Carlo InnamoratiTobias RitschelTim WeyrichNiloy J. Mitra

卷积神经网络(CNN)处理滤波器使用多种启发式(例如零点,重复或平均填充)延伸到图像边界之外的情况。这些方案以特别的方式被应用,并且与图像内容弱相关并且不理解目标任务,导致边界处的输出质量低。在本文中,我们提出了一个简单而有效的改进来学习边界处理本身。在训练时,网络提供了一组单独的显式边界过滤器。在测试阶段,我们使用这些已经学会以特定任务的最佳方式在边界推断特征的滤波器。我们广泛的评估,涵盖广泛的架构变化(各种层次,特性频道或两者的变体),显示了显式过滤器如何导致改进的边界处理。因此,我们展示了典型CNN应用(彩色化,去拜耳,光流和视差估计)的5%到20%的提高。[1805.03106v1]

 

将音素和视点与基于DNN的唇读相比较

Kwanchiva ThangthaiHelen L BearRichard Harvey

如果音位或视位单位对于唇读系统是最有效的,有争议。一些研究使用音素单位,即使音素描述了独特的短声音其他研究试图通过关注具有不同结果的视力来提高唇读的准确性。我们通过使用13个音位或38个音位单元对可视语音进行建模来比较唇部阅读系统的性能。我们在单词和单元级别报告系统的准确性。评估任务是使用TCD-TIMIT语料库的大量词汇连续语音。我们通过混合DNN-HMM完成了我们的视觉语音建模,而我们的视觉语音解码器是一个加权有限状态转换器(WFST)。我们使用DCTEigenlips作为嘴部ROI图像的表示。音素唇读系统字的准确性优于基于视素的系统字准确度。然而,音素系统在单元级别实现较低的准确度,这表明了字典将分类输出解码为单词的重要性。[1805.02924v1]

 

数据反卷积叠加点源的超分辨方法

桑德拉马丁内斯,奥斯卡E.马丁内斯

在这项工作中,我们提出了一种新的数据解卷积算法,该算法允许用超分辨率检索目标函数,其方法是在精确测量仪器响应函数(IRF)之后,通过叠加拟合测量数据相同强度的点源(SUPPOSe)。以这种方式,只有源的位置需要通过算法来确定,该算法使测量数据与叠加点源与IRF的卷积之间的差异的范数最小化。导出了光源位置不确定性的上限,并且使用了两种非常不同的实验情况(光谱和荧光显微镜图像),显示了出色的重构性并与预测的不确定性一致,实现了显微镜的分辨率和光谱仪光谱分辨率的五倍提高。该方法还提供了一种确定适合使用的最佳源数量的方法。[1805.03170v1]

 

混合主动和多模态反馈图像检索

Nils Murrugarra-LlerenaAdriana Kovashka

你会如何寻找朋友穿着且想要购买的独特时尚鞋子,但你没有拍照?现有的方法提出交互式图像搜索作为有前景的场地。但是,他们要么委托用户主动提供信息反馈,要么给决定信息性问题的系统提供全部控制权。相反,我们提出了一个混合主动框架,用户和系统都可以成为主动参与者,这取决于谁的主动性对获得高质量的搜索结果更有利。我们开发了一种强化学习方法,它可以动态决定给用户提供三种互动机会中的哪一种:绘制草图,提供自由形式的属性反馈,或回答基于属性的问题。通过允许这三个选项,我们的系统优化了信息量和探索功能,从而实现更快速的图像检索。我们在三个数据集和广泛的实验设置上超过了三条基线。[1805.03134v1]

 

带有汇聚层的CNN进行快速特征提取

Christian BailerTewodros HabtegebrialKiran varanasiDidier Stricker

近年来,许多出版物显示,基于卷积神经网络的特征可以具有优越的工程特征性能。然而,迄今为止没有花费太多精力为整个图像有效地提取局部特征。在本文中,我们提出了一种方法来计算基于补丁的局部特征描述符,以便一次存在整个图像的合并和跨步图层。我们的方法是通用的,可以应用于几乎所有现有的网络体系结构。这包括所有局部特征提取任务的网络,如相机校准,Patchmatching,光流估计和立体匹配。另外,我们的方法可以应用于其他基于补丁的方法,如滑动窗口对象检测和识别。我们用速度基准来完成我们的论文,该速度基准是基于流行的基于CNN的特征提取方法应用于整个图像,无论我们加速还是没有加速,以及示例代码(用于火炬),显示了我们的方法如何轻松转换任意CNN架构。[1805.03096v1]

 

比较用于测量视觉语音信号的多样性的异构视觉手势

海伦L熊,理查德哈维

视觉嘴唇手势观察,而唇读有几个工作定义,最常见的两个是; “一个音素的视觉等价物嘴唇上难以区分的音素。迄今为止还没有正式的定义,部分原因是迄今为止我们还没有建立双方关系或视位与音素之间的映射关系。一些证据表明,视觉言语高度依赖说话人。因此,在这里,我们使用音素聚类方法来为单个和多个讲话者形成新的音素到视位图。我们将这些音素测试到viseme地图,以检查讲话者是如何以类似方式进行视觉交流的,并且我们使用签名排名测试来测量个体之间的距离 我们的结论是,广义而言,发言者具有相同的嘴巴手势,他们在哪里使用手势不同。[1805.02948v1]

 

使用导视图规划器重新激活对象

Xin Yang, Yuanbo Wang, Yaru Wang, Baocai Yin, Qiang Zhang, Xiaopeng Wei, Hongbo Fu

受近期利用深度学习进行的基于图像的对象重建的启发,我们提出了一种使用引导式视图规划器的主动重建模型。我们的目标是利用从计划的信息和判别性视图序列观察到的图像重建3D模型。但是,围绕一个物体的这种信息和区别性视角在哪里?为了解决这个问题,我们提出了一个统一的视图规划和对象重建模型,该模型被用来学习一个指导信息获取模型并聚合一系列重建图像的信息。实验表明,我们的模型(1)增加了我们的重建准确性,视图数量越来越多(2),并且与其他替代方法相比,通常会预测更多信息的物体重建视图序列。[1805.03081v1]

 

利用多分辨率卷积神经网络进行莫尔图像恢复

Yujing Sun, Yizhou Yu, Wenping Wang

数码相机和手机使我们能够方便地记录珍贵的时刻。在数字图像质量不断提高的同时,拍摄高质量数字屏幕照片仍然具有挑战性,因为照片常常受到莫尔图案的污染,这是相机传感器的像素网格与设备屏幕。Moir \'{e}图案会严重损害照片的视觉质量。但是,很少有研究旨在解决这个问题。在本文中,我们引入了一种新的多分辨率完全卷积网络,用于从照片中自动去除莫尔‘{e}图案。由于莫尔的{e}模式跨越很宽的频率范围,因此我们提出的网络在计算如何取消波纹之前对输入图像执行非线性多分辨率分析。{e}每个频段内的人工制品。我们还创建了一个具有100,000美元+ $图像对的大型基准数据集,用于调查和评估moir \'{e}图案移除算法。与现有的用于图像恢复问题的学习架构相比,我们的网络在此数据集上实现了最先进的性能。[1805.02996v1]

 

音素到视位的映射:好的,坏的和丑陋的

海伦L熊,理查德哈维

Visemes是音素的视觉等价物。虽然没有精确定义,但是视角的工作定义是一组在嘴唇上具有相同外观的音素。因此,一个音素落入一个viseme类,但viseme可能代表许多音素:多对一的映射。这种映射在使用视素分类器时在音素之间引入了模糊性。这种不确定性不仅损害了真正表达语音的视听分类器的性能,在可能的映射之间也有相当多的选择。在本文中,我们探讨了这种选择音位到音素地图的问题。我们发现在viseme-to-phoneme映射之间的性能上存在明显的差异,并探索为什么某些地图比其他地图更好地工作。我们还设计了一种新的算法,用于从带标签的语音数据中构建音素到视素的映射。这些新的视角,即视角,表现出比先前已知的单元更好的表现。[1805.02934v1]

 

FFNet:通过强化学习的视频快速转发

Shuyue Lan, Rameswar Panda, Qi Zhu, Amit K. Roy-Chowdhury

对于许多具有有限计算,通信,存储和能源资源的应用,迫切需要计算机视觉方法,可以选择输入视频的信息子集,以便在实时或接近实时进行高效处理。在文献中,有两种相关的方法:在观看/处理视频时为视频生成预告片或快进。第一组由视频摘要技术支持,这些技术需要处理整个视频以选择向用户显示的重要子集。在第二组中,当前的快进方法取决于手动控制或回放速度的自动调整,这通常不能提供准确的表示,并且仍然需要处理每一帧。在本文中,我们介绍FastForwardNetFFNet),强化学习代理从视频摘要中获取灵感,并以不同方式进行快速前进。它是一个在线框架,可自动快速转发视频,并向用户提供具有代表性的帧子集。它不需要处理整个视频,而只需要快速转发代理选择的部分,这使得该过程在计算上非常高效。我们提出的方法的在线性质也使得用户能够在视频的任何点开始快进。在两个真实世界的数据集上进行的实验表明,我们的方法能够以更少的处理要求提供更好的输入视频表示。[1805.02792v1] 它是一个在线框架,可自动快速转发视频,并向用户提供具有代表性的帧子集。它不需要处理整个视频,而只需要快速转发代理选择的部分,这使得该过程在计算上非常高效。我们提出的方法的在线性质也使得用户能够在视频的任何点开始快进。在两个真实世界的数据集上进行的实验表明,我们的方法能够以更少的处理要求提供更好的输入视频表示。[1805.02792v1] 它是一个在线框架,可自动快速转发视频,并向用户提供具有代表性的帧子集。它不需要处理整个视频,而只需要快速转发代理选择的部分,这使得该过程在计算上非常高效。我们提出的方法的在线性质也使得用户能够在视频的任何点开始快进。在两个真实世界的数据集上进行的实验表明,我们的方法能够以更少的处理要求提供更好的输入视频表示。[1805.02792v1] 这使得该过程在计算上非常有效。我们提出的方法的在线性质也使得用户能够在视频的任何点开始快进。在两个真实世界的数据集上进行的实验表明,我们的方法能够以更少的处理要求提供更好的输入视频表示。[1805.02792v1] 这使得该过程在计算上非常有效。我们提出的方法的在线性质也使得用户能够在视频的任何点开始快进。在两个真实世界的数据集上进行的实验表明,我们的方法能够以更少的处理要求提供更好的输入视频表示。[1805.02792v1]

 

基于故事的360°视频时间总结的记忆网络方法

Sangho LeeJinyoung SungYoungjae YuGunhee Kim

我们解决了长360度视频的基于故事的时间总结问题。我们提出了一种名为过去未来记忆网络(PFMN)的新型记忆网络模型,其中我们首先计算从输入360 {\ deg}视频剪辑出的81个正常视场(NFOV)区域提案的得分,然后恢复潜在的集体总结,使用网络和两个外部记忆来存储先前选择的子图和未来候选子图的嵌入。我们的主要贡献是双重的。首先,我们的工作是第一个针对360 {\ deg}视频的基于故事的时间总结。其次,我们的模型是首次尝试利用内存网络进行视频摘要任务。为了评估,我们进行三组实验。首先,我们调查Pano2Vid数据集上我们模型的视图选择能力。其次,我们用新收集的360度视频数据集评估时间总结。最后,我们通过基于图像的讲故事VIST数据集来实验我们的模型在另一个领域的表现。我们验证了我们的模型在所有任务上达到了最先进的性能。[1805.02838v1]

 

使用3D卷积网络在显微图像中联合细胞核检测和分割

Sundaresh RamVicky T. NguyenKirsten H. LimesandMert R. Sabuncu

我们提出了一个三维卷积神经网络来同时分割和检测共聚焦显微图像中的细胞核。镜像这些任务的共依赖性,我们提出的模型由两个串行组件组成:第一部分计算细胞体的分割,而第二部分识别这些细胞的中心。我们的模型是从头开始对小鼠腮腺唾液腺干细胞核数据集进行端对端培训,其中包含来自三种独立细胞制剂的107个图像堆叠,每个细胞制剂包含数百个3D单个细胞核。在我们的实验中,我们对两个不同的数据集进行了检测精度和分割质量的全面评估。结果表明,与现有技术和基准算法相比,所提出的方法提供显着改善的检测和分割准确性。最后,我们使用之前描述的测试时间辍学策略来获得我们预测的不确定性估计值,并通过证明这些估计值与准确性强相关来验证这些估计值。[1805.02850v1]

 

PAD-Net:一种感知辅助的单图像去雾网络

Yu Liu, Guanlong Zhao

在这项工作中,我们研究了在训练端到端去雾神经网络时,用感知派生损失函数(SSIMMS-SSIM等)替换$ \ ell_2 $损失的可能性。客观实验结果表明,通过仅改变损失函数,我们就可以在RESIDE数据集中设置的SOTS上获得更高的PSNRSSIM评分,与最先进的端到端去雾神经网络(AOD-净)使用$ \ ell_2 $损失。我们获得的最佳PSNR23.50(相对改善4.2%),我们获得的最佳SSIM0.8747(相对改善2.3%)。[1805.03146v1]

 

弱受监督的视频对象从文本中通过权重和对象交互进行接地

罗威周,内森路易斯,杰森J.科索

我们研究弱监督的视频对象的基础:给定一个视频片段和一个相应的描述性句子,目标是定位视频中句子中提到的对象。在训练过程中,没有可用的对象边界框,但可以预先知道要接地的一组可能的对象。图像域中的现有方法使用多实例学习(MIL)通过强化视觉和语义特征之间的匹配来对对象进行研磨。对视频域的这种方法的一种无知扩展是将整个分段视为一袋空间对象提议。但是,跨多个帧稀疏地存在的对象可能无法完全检测到,因为从一个单帧中成功地发现它会触发令人满意的匹配。为此,我们将弱监控信号从段级传播到可能包含目标对象的帧。对于不太可能包含目标对象的帧,我们使用另一种损失损失。我们还利用对象之间的交互作为基础的文本指南。我们在新收集的基准YouCook2-BoundingBox上评估我们的模型,并显示出在竞争基线方面的改进。[1805.02834v1]

 

使用配对和不配对的训练样本学习图像到图像的翻译

Soumya TripathyJuho KannalaEsa Rahtu

图像到图像的转换是一个任务的通用名称,如果有足够的训练数据,将来自一个域的图像转换为另一个域的相应图像。传统上已经提出了不同的方法,取决于对齐的图像对还是来自两个域的两组(未对齐的)示例可用于训练。虽然配对训练样本可能难以获得,但不成对的训练样本会导致严重不足的问题和较差的结果。在本文中,我们提出了一种新的通用图像到图像转换模型,它能够同时使用配对和不配对的训练数据。我们将我们的方法与两个强基线进行比较,并获得定性和定量改进的结果。在纯配对和不配对的训练数据情况下,我们的模型也优于基线。就我们所知,这是在图像到图像转换中考虑这种混合设置的第一项工作。[1805.03189v1]

 

加权多区域卷积神经网络的低延迟人类行为识别

Yunfeng Wang, Wengang Zhou, Qilin Zhang, Xiaotian Zhu, Houqiang Li

时空背景对理解视频中的人类行为至关重要。最近最先进的基于卷积神经网络(ConvNet)的动作识别系统通常涉及3D时空ConvNet滤波器,将视频分块成固定长度的片段和长时间短期存储(LSTM)网络。这样的体系结构被设计为利用短期和长期时间上下文,而且还需要预定数量的视频帧的累积(例如,为3D ConvNet滤波器构建视频剪辑,以产生用于LSTM的足够输入)。对于需要低延迟在线预测快速变化动作场景的应用,本文提出了一种新的动作识别系统。Termed“Weighted Multi-Region Convolutional Neural Network”WMR ConvNet),所提出的系统是无LSTM的,并且基于2D ConvNet,其不需要用于3D ConvNet滤波的视频帧的累积。与纯粹基于RGB帧和光流帧的早期2D ConvNets不同,WMR ConvNet旨在同时捕获多个空间和短期时间线索(例如,人体姿势,背景中物体的出现)与主要区域(前景)和次要地区(大部分是背景)。在UCF101HMDB51数据集上,所提议的WMR ConvNet在竞争低延迟算法中实现了最先进的性能。此外,WMR ConvNet甚至胜过需要视频帧累积的基于3D ConvNetC3D算法。在去除光流ConvNet流的消融研究中,被消除的WMR ConvNet仍然胜过竞争算法。[1805.02877v1]

 

二维图像三维姿态估计的混合分类回归框架

Siddharth MahendranHaider AliRene Vidal

来自单个2D图像的3D姿态估计是计算机视觉中的一项重要和具有挑战性的任务,应用于自动驾驶,机器人操纵和增强现实。由于3D姿态是一个连续的量,因此这个任务的一个自然表达式就是解决姿态回归问题。然而,由于姿态回归方法返回姿态的单个估计,所以它们在处理多模态姿态分布(例如,在对称对象的情况下)时存在困难。一种可以捕获多模式姿态分布的替代公式是将姿态空间离散成箱并解决姿态分类问题。然而,取决于离散化的粗糙度,姿势分类方法会给出大的姿态估计误差。在本文中,我们提出了一种混合分类回归框架,该框架使用分类网络来产生离散多模式姿态估计和回归网络,以产生离散估计的连续改进。所提出的框架可以适应不同的体系结构和损失函数,从而产生多个分类回归模型,其中一些模型在具有挑战性的Pascal3D +数据集上实现了最先进的性能。[1805.03225v1]

 

学习对象计数的快捷连接

DanielOñoro-RubioMathias NiepertRoberto J.López-Sastre

由于对交通监控或监控等应用的需求日益增长,因此物体计数是计算机视觉领域的一项重要任务。在本文中,我们将对象计数视为卷积去卷积网络的联合特征提取和像素级对象密度估计的学习问题。我们提出了一种新颖的计数模型,名为Gated U-NetGU-Net)。具体而言,我们建议以可学习的快捷连接的概念丰富U-Net架构。标准的快捷连接是深层神经网络中的层之间的连接,其跳过至少一个中间层。我们建议从数据中学习这些连接,而不是简单地设置快捷连接。因此,我们的捷径可以作为一个门控单元,它优化了U-Net架构中卷积和去卷积层之间的信息流。我们在三个常用的基准数据集上评估提议的GU-Net体系结构以进行对象计数。GU-Nets始终超越基础U-Net架构,并实现了最先进的性能。[1805.02919v1]

 

卷积神经网络在面部反欺骗中的性能评估

Chaitanya NagpalShiv Ram Dubey

在当前时代,基于生物识别的访问控制由于其简单性和易用性而变得越来越流行。它减少了身份识别的手工工作,并且便于自动处理。脸部是最重要的生物特征视觉信息之一,无需用户在不受控制的环境中进行合作即可轻松捕捉。精确检测欺骗面孔应该是高度优先的,以使基于人脸的身份识别和访问控制对可能的攻击具有鲁棒性。最近发展的基于卷积神经网络(CNN)的深度学习技术已被证明是非常有效处理视觉信息的优秀方法之一。CNN从数据中自动学习中间层的分层特征。几种基于CNN的方法,如InceptionResNet在图像分类问题上表现出色。本文对CNNs进行面部反欺骗的性能评估。InceptionResNet CNN架构用于本研究。结果在基准MSU Mobile Face Spoofing数据库上进行计算。通过考虑模型深度,随机权重初始化与权重转移,从头开始的微调与训练以及不同的学习速率等不同方面来完成实验。使用这些CNN体系结构在不同环境中进行面部反欺骗可获得令人满意的结果。[1805.04176v1] InceptionResNet CNN架构用于本研究。结果在基准MSU Mobile Face Spoofing数据库上进行计算。通过考虑模型深度,随机权重初始化与权重转移,从头开始的微调与训练以及不同的学习速率等不同方面来完成实验。使用这些CNN体系结构在不同环境中进行面部反欺骗可获得令人满意的结果。[1805.04176v1] InceptionResNet CNN架构用于本研究。结果在基准MSU Mobile Face Spoofing数据库上进行计算。通过考虑模型深度,随机权重初始化与权重转移,从头开始的微调与训练以及不同的学习速率等不同方面来完成实验。使用这些CNN体系结构在不同环境中进行面部反欺骗可获得令人满意的结果。[1805.04176v1] 使用这些CNN体系结构在不同环境中进行面部反欺骗可获得令人满意的结果。[1805.04176v1] 使用这些CNN体系结构在不同环境中进行面部反欺骗可获得令人满意的结果。[1805.04176v1]

 

通过数据量化深度网络向准确和高速Spiking神经形态系统迈进

Fuqiang Liu, C. Liu

深度神经网络(DNN)在认知应用领域取得了巨大成功,并大大推动了今天的人工智能的发展。执行DNN最大的挑战是数据非常广泛的计算。当传统的计算平台被用于计算饥饿的执行时,速度和能量的计算效率受到限制。Spiking神经形态计算(SNC)在深度网络实现方面已被广泛研究,这是因为它们在计算和通信方面的高效率。然而,在SNC上部署DNN时需要对DNN的权重和信号进行量化,从而导致不可接受的精度损失。但是,系统精度受限于直接在深度网络部署中量化数据。以往的工作主要集中在权重离散化,而层间信号则主要被忽略。在这项工作中,我们提出用固定的整数层间信号和定点权重表示DNN,同时保持良好的精度。作为部署示例,我们在忆阻器的SNC系统上实施建议的DNN。对于4位数据表示,我们的结果显示MNISTCIFAR-10)的精度损失可控制在0.02%(2.3%)以内。与8位动态定点DNN相比,我们的系统可以实现9.8倍以上的加速,89.1%的节能和30%的面积节省。[1805.03054v1] 作为部署示例,我们在忆阻器的SNC系统上实施建议的DNN。对于4位数据表示,我们的结果显示MNISTCIFAR-10)的精度损失可控制在0.02%(2.3%)以内。与8位动态定点DNN相比,我们的系统可以实现9.8倍以上的加速,89.1%的节能和30%的面积节省。[1805.03054v1] 作为部署示例,我们在忆阻器的SNC系统上实施建议的DNN。对于4位数据表示,我们的结果显示MNISTCIFAR-10)的精度损失可控制在0.02%(2.3%)以内。与8位动态定点DNN相比,我们的系统可以实现9.8倍以上的加速,89.1%的节能和30%的面积节省。[1805.03054v1]

 

N2RPP:重建ACLD患者足底压力的对抗性网络

Yi Zhang, Zhengfei Wang, Guoxiong Xu, Hongshi Huang, Wenxin Li

脚是人类的重要组成部分,嵌入了大量有价值的信息。足底压力是包含这些信息之一,它描述了人的步行特征。事实证明,一旦出现下肢困难,足底压力分布将发生一定程度的变化。根据一些简单的标准,足底压力可以转换成图像。在本文中,我们充分利用这些足底压力图像进行医疗用途。我们提出了N2RPP,一种基于生成对抗网络(GAN)的方法,可以从自动编码器提取低维特征来重建前十字韧带不足(ACLD)患者的足底压力图像。通过实验的结果,提取的特征是描述和重建足底压力图像的有用表示。根据N2RPP的结果,我们发现正常人和患者之间有几个显着的差异。这可以为医生提供一个调整足底压力以更好地分布的粗略方向,以减少ACLD康复治疗期间患者的疼痛和疼痛。[1805.02825v1]

 

用于增强人类动作识别的视觉属性增强三维卷积神经网络

Yunfeng Wang, Wengang Zhou, Qilin Zhang, Houqiang Li

个别视频帧中的视觉属性(如特征对象和场景的存在)为视频中的动作识别提供了大量信息。以单独的2D视频帧作为输入,由于二维CNN中的参数较少,因此使用比当前具有时空滤波器的3D CNN更复杂的卷积神经网络可以有效且高效地实现视觉属性提取。在本文中,将视觉属性(包括检测,编码和分类)集成到多流3D CNN中,用于修剪视频中的动作识别,并提出了视觉属性增强3D CNNA3D)框架。视觉属性流水线包括对象检测网络,属性编码网络和分类网络。我们提出的A3D框架可以在HMDB51UCF101数据集上实现最先进的性能。[1805.02860v1]

 

基于分类的深度CCA用于从多模态数据发现细粒度的场所

Yi YuSuhua TangKiyoharu AizawaAkiko Aizawa

在这项工作中,旅游目的地和商业地点被视为场地。通过照片发现场地对于上下文感知应用程序非常重要。不幸的是,很少有人注意复杂的真实图像,例如用户生成的场地照片。我们的目标是利用异构社会多模式数据进行细粒度的场地发现。为此,我们提出了一种新型的深度学习模型,即基于分类的深典型相关分析(C-DCCA)。给定一张照片作为输入,该模型执行(i)确切的场地搜索(找到拍摄照片的地点),和(ii)小组场地搜索(找到与照片相同类别的相关场地)输入照片和场地文字描述之间的跨模式关联。在这个模型中,通过深度网络将不同形式的数据投影到相同的空间。用于团体场地搜索的精确场地搜索和基于类别的相关性(来自同一类别的不同场地的不同模态数据)之间的成对关联(来自同一场地的不同模态数据)被共同优化。由于照片无法充分反映场地的丰富文字描述,因此在训练阶段每个场地的照片数量会增加,以捕捉场地的更多方面。我们通过整合维基百科特色文章和Foursquare场地照片,建立一个新的场地感知多模态数据集。该数据集的实验结果证实了该方法的可行性。此外,对另一个公开可用数据集的评估证实,所提出的方法优于图像和文本之间的跨模式检索的艺术水平。[1805.02997v1]

 

图像序数分类和理解:带遮蔽标签的网格丢弃

Chao Zhang, Ce Zhu, Jimin Xiao, Xun Xu, Yipeng Liu

图像序数分类是指预测一个离散的目标值,它携带图像类别之间的排序相关性。标记的有序数据的有限大小使现代的深度学习方法容易过度拟合。为了解决这个问题,提出了神经元丢失和数据增强,然而,它们仍然分别受到过度参数化和破坏空间结构的影响。为了解决这些问题,我们首先提出了一种网格丢失方法,该方法可随机丢弃/中断下雨图像的某些区域。然后,我们将预测停电补丁的目标与分类相结合,以利用空间信息。最后,我们通过对类激活图(CAM)进行可视化,发现两种方法的有效性,并发现网格丢失对于小型训练数据集更全面地了解整个面部区域并且比神经元退出更加稳健。实验是在具有挑战性的年龄估计数据集上进行的 – Adience数据集与最先进的方法相比具有非常有竞争力的结果。[1805.02901v1]

 

通过扩张网络学习光流和闭塞推理

Yi Zhu, Shawn Newsam

尽管近来在估计光流方面取得了重大进展,但大多数估计方法(包括经典和深度学习方法)在多尺度估计,实时计算和/或遮挡推理方面仍然存在困难。在本文中,我们将扩张卷积和遮挡推理引入到无监督光流估计中以解决这些问题。扩张的卷积使得我们的网络可以避免通过反卷积和产生的网格伪像进行上采样。扩张卷积还会导致更小的内存占用,从而加速干扰。遮挡推理会阻止我们的网络在训练过程中学习由于遮挡图像区域导致的不正确变形。我们提出的方法胜过KITTI基准测试中最先进的无监督方法。我们还通过将其应用于视频中的动作识别来展示其泛化能力。[1805.02733v1]

 

用极少数正样本构建疾病检测算法

Ken CL WongAlexandros KarargyrisTanveer Syeda-MahmoodMehdi Moradi

虽然深度学习可以在医学图像分析中提供有希望的结果,但缺少大量带注释的数据集将限制其全部潜力。此外,有限的正面样本也会产生不平衡的数据集,这会限制训练模型的真实阳性率。由于不平衡数据集大多是不可避免的,如果我们可以从负样本中提取有用的知识以提高有限正样本的分类准确度,这将是非常有益的。为此,我们提出了一个新的战略来构建以疾病检测为目标的医学图像分析流水线。我们仅对正常图像训练区分分割模型,以提供转移到疾病检测分类器的知识来源。我们表明,使用受过训练的分割网络的特征映射,与正常解剖结构的偏差可以通过极度不平衡的训练数据集上的双类分类网络学习,对于17个负样本,只有一个正值。我们证明,即使分割网络仅在正常心脏计算机断层扫描图像上训练,所得特征图可用于使用两级卷积分类网络来检测心包积液和心脏间隔缺损。[1805.02730v1] 所得到的特征图可以用于利用两级卷积分类网络来检测心包积液和心脏室间隔缺损。[1805.02730v1] 所得到的特征图可以用于利用两级卷积分类网络来检测心包积液和心脏室间隔缺损。[1805.02730v1]

 

仿制细化

Junwen Bai, Runzhe Yang, Yexiang Xue, John Gregoire, Carla Gomes

许多现实世界的任务都涉及从满足背景知识和先验知识的数据中识别模式,对此无法获得基本事实,但是可以获得理想的数据,例如使用理论模拟。我们提出了一种新颖的方法,模仿优化,通过模仿理想模式来提炼不完美的模式。例如使用无监督的学习者获得不完美的模式。模仿优化通过结合由理想数据训练的分类器捕获的先验知识模仿理想数据:模仿优化器对不完全模式应用小的修改,以便分类器可以识别它们。从某种意义上说,模仿优化将数据与分类器相匹配,这是对经典监督学习任务的补充。我们表明,我们的模拟细化方法优于现有方法,从材料发现中的X射线衍射数据中识别晶体模式。我们还通过说明其适用于计算机视觉任务来展示我们方法的一般性。[1805.08698v1]

 

注意力双向递归神经网络检测阵发性心房颤动

Supreeth P. ShashikumarAmit J. ShahGari D. CliffordShamim Nemati

心房颤动(AF)(一种心律失常)的检测是困难的,因为许多AF患者通常临床上无症状且未诊断。特别是阵发性房颤是偶尔发生的AF的一种形式,并且具有较高的未被检测到的可能性。在这项工作中,我们提出了一种基于注意力的深度学习框架,用于从一系列窗口中检测阵发性房颤的发作。30秒钟记录窗口的时频表示,超过10分钟的数据段,被顺序地馈送到用于基于图像的特征提取的深度卷积神经网络,然后将其呈现给具有用于AF检测的关注层的双向递归神经网络。为了证明拟议的瞬态AF检测框架的有效性,我们使用维吉尼亚大学心脏中心的2850名患者的24小时Holter心电图(ECG)记录数据库。该算法在测试集上达到0.94AUC,超过了基线模型的性能。我们还通过将学习的模型参数从一种记录模式(ECG)调整为另一种(光电容积脉搏波图)并具有改进的AF检测性能来证明该方法的跨域可普遍性。所提出的用于检测阵发性房颤的高精度,低误报算法在使用可穿戴传感器的长期监测中具有潜在的应用。[1805.09133v1] 我们还通过将学习的模型参数从一种记录模式(ECG)调整为另一种(光电容积脉搏波图)并具有改进的AF检测性能来证明该方法的跨域可普遍性。所提出的用于检测阵发性房颤的高精度,低误报算法在使用可穿戴传感器的长期监测中具有潜在的应用。[1805.09133v1] 我们还通过将学习的模型参数从一种记录模式(ECG)调整为另一种(光电容积脉搏波图)并具有改进的AF检测性能来证明该方法的跨域可普遍性。所提出的用于检测阵发性房颤的高精度,低误报算法在使用可穿戴传感器的长期监测中具有潜在的应用。[1805.09133v1]

 

MEGAN:用于多模式图像生成的生成敌对网络专家的混合

大卫Keetae公园,Seungjoo柳,Hyojin BahngJaegul秋,Noseong公园

最近,生成敌对网络(GAN)在生成逼真的图像方面表现出有前途的性能。但是,他们经常在学习给定数据集中复杂的基础模态方面遇到困难,导致生成质量差的图像。为了缓解这个问题,我们提出了一种称为混合专家GANMEGAN)的新方法,这是一种多发电机网络的集成方法。MEGAN中的每个生成器网络都专门用于生成具有特定模态子集的图像,例如图像类。我们提出的模型是通过端对端学习多个发电机,通过选通网络进行训练,而不是单独采用多模式的手工分群的方式,这种网络负责为给定条件选择合适的发电机网络。我们采用分类重新参数化技巧做出选择发电机的分类决策,同时保持梯度的流动。我们证明个体生成者学习不同的和显着的数据子部分,并实现CelebA的多尺度结构相似性(MS-SSIM)得分为0.2470,在CIFAR-10中得到8.33的竞争无监督初始得分。[1805.02481v2]

 

超声图像中下腔静脉AP直径的估计与跟踪

Ebrahim Karami,穆罕默德谢哈塔,安德鲁史密斯

医学研究表明,床旁超声对下腔静脉(IVC)的前后(AP)直径及其相关的时间变化可用于指导危重病人的液体复苏。不幸的是,血管壁中不明显的边缘和间隙经常存在,这妨碍了对于操作者和分割算法的IVC AP直径的精确估计。涉及使用IVC指导液体复苏的大多数研究涉及手动测量随着时间变化的最大和最小AP直径。这项工作建议使用适合典型椭球体IVC内部的时变圆作为有效,一致和新颖的方法来追踪和近似AP直径,即使在图像质量较差的情况下也是如此。在这种有源圆算法中,提出了一种新的进化功能,并被证明是超声图像处理的有用工具。所提出的算法与专家手动测量以及最先进的相关算法进行比较。结果表明,该算法优于其他技术,并且与手动测量非常接近。[1805.02125v2]

 

重新审视基于视频的人员ReID的时间建模

Jiyang Gao, Ram Nevatia

基于视频的人员reID是一项重要的任务,近年来,由于监控和摄像机网络需求的增加,这种重要任务受到了很多关注。典型的基于视频的人类reID系统由三部分组成:图像级特征提取器(例如CNN),聚合时间特征的时间建模方法和损失函数。虽然已经提出了许多时间建模方法,但很难直接比较这些方法,因为特征提取器和丢失函数的选择对最终性能也有很大影响。我们全面研究并比较了基于视频的人员reID的四种不同的时间建模方法(时间池,时间关注,RNN3D小点)。我们还提出了一种新的注意力生成网络,它采用时间卷积来提取帧间的时间信息。评估是在MARS数据集上完成的,我们的方法大大超过了最先进的方法。我们的源代码在https://github.com/jiyanggao/Video-Person-ReID发布。[1805.02104v2]

 

MC-GAN:用于图像合成的多条件生成对抗网络

Hyojin ParkYoungJoon YooNojun Kwak

在本文中,我们介绍了一种新的方法,用于在给定基础图像时,根据所需位置上的文本属性生成对象图像。现有的关于文本到图像生成的研究主要集中在对象的外观上,现在的研究进一步发展,所提出的方法旨在生成保存给定背景信息的对象图像,这是该领域的第一次尝试。为了解决这个问题,我们提出了一个多条件GANMC-GAN),它可以共同控制对象和背景信息。作为MC-GAN的核心部分,我们提出了一个综合模块,它在训练阶段解开对象和背景信息。该块通过使用来自文本属性的前景信息控制来自给定基本图像的背景信息量,使MC-GAN能够生成具有所需背景的逼真对象图像。从Caltech-200鸟类和Oxford-102花朵数据集的实验中,我们发现我们的模型能够生成分辨率为128 x 128的照片般逼真的图像。MC-GAN的源代码即将推出。[1805.01123v3]

 

用于在野外进行维度情感识别的多分量CNN-RNN方法

Dimitrios KolliasStefanos Zafeiriou

本文介绍了我们的一分钟渐进式情绪识别(OMG-Emotion)挑战的方法,重点在于通过对提供的情绪视频进行视觉分析来进行空间情感识别。该方法基于我们为相关的大型AffWild情绪数据库开发的卷积和递归(CNN-RNN)深度神经架构。我们通过让RNN子网探索CNN组件中生成的多个特征的组合来扩展和改进这种架构。我们的目标是在学习相应的视觉训练数据集的同时,获得OMG-Emotion视觉验证数据集的最佳性能。扩展的实验已经导致了用于估计这些数据集上的价和情绪维度值的最佳体系结构。[1805.01452v3]

 

IncepText:一种新的具有可变形PSROI池的初始文本模块,用于多向场景文本检测

Qiangpeng Yang, Mengli Cheng, Wenmeng Zhou, Yan Chen, Minghui Qiu, Wei Lin, Wei Chu

随机场景文本检测,特别是对于多面向文本区域,是许多计算机视觉应用中最具挑战性的任务之一。与通用对象检测任务不同,场景文本经常会遭遇高宽比,尺度和方向的巨大变化。为了解决这个问题,我们从实例意识分割的角度提出了一种新颖的端到端场景文本检测器IncepText。我们设计了一个新颖的Inception-Text模块,并引入了可变形的PSROI池来处理多向文本检测。ICDAR2015RCTW-17MSRA-TD500数据集的大量实验证明了我们的方法在效率和效率方面的优势。我们提出的方法在ICDAR2015挑战中获得第一名,并在其他数据集上获得最先进的性能。此外,我们已经发布了作为可供公众访问的OCR产品的实施。[1805.01167v2]

 

深入影响野外预测:Aff-Wild数据库和挑战,深层架构和超越

迪米特里奥斯Kollias,帕纳约蒂斯TzirakisMihalis A. NICOLAOU,阿萨纳西帕帕约安努,赵国营,比约恩·舒勒,艾琳KotsiaStefanosZafeiriou

使用视觉信号自动理解人类的影响在日常的人机交互中非常重要。评估现实世界中显示的人类情感状态,行为和反应可以使用潜在的连续维度(例如影响的环形模型)来完成。价值(即情绪的正面或负面)和唤起(即情绪激活的力量)构成了最受欢迎和最有效的情感表征。尽管如此,尽管包含自然主义情绪状态,但迄今为止收集的大部分数据集都是在高度控制的记录条件下捕获的。在本文中,我们介绍了用于训练和评估情感识别算法的Aff-Wild基准。我们还报道了最近在Aff-Wild数据库中组织的第一次野外挑战赛(Aff-Wild挑战赛)的结果,并且是有史以来第一次在估计价格和唤醒方面的挑战野生。此外,我们设计并广泛地训练一个端到端的深度神经架构,它基于视觉线索执行连续情绪维度的预测。所提出的深度学习架构AffWildNet包括卷积和递归神经网络(CNN-RNN)层,利用卷积特征的不变特性,同时还通过递归层对人类行为中出现的时间动态进行建模。AffWildNetAff-Wild挑战赛上制作了最先进的成绩。然后我们利用AffWild数据库来学习功能,与为同一目标而设计的所有其他方法相比,它们可以作为先辈使用RECOLAAFEW-VAEmotiW 2017数据集来实现尺寸以及分类情感识别的最佳性能。[1804.10938v3]

 

从梵蒂冈秘密档案走向知识发现。在Codice比率1集:机器转录的手稿

Donatella FirmaniMarco MaiorinoPaolo MerialdoElena Nieddu

Codice Ratio中是一个研究项目,用于研究分析梵蒂冈秘密档案馆(VSA)中保存的历史文献内容的工具和技术。在本文中,我们展示了我们努力开发支持中世纪手稿转录的系统。我们的目标是为古典学者提供一种工具来减少他们在录制大量作品方面的努力,如存储在VSA中的那些,为手稿的重要部分生成良好的转录。我们提出了一种基于字符分割的原创方法。我们的解决方案能够处理手写文档中不可避免发生的脏分割。我们使用卷积神经网络来识别字符和语言模型来组成词语转录。我们的方法只需要极少的培训,使得转录过程更具可扩展性,因为培训集的制作需要几页,并且可以轻松实现众包。我们对梵蒂冈寄存器的手稿进行了实验,这是一个未发布的包含教皇信件的语料库。利用120名高中学生制作的培训数据,我们的系统已经能够生成出色的抄录,可以被古典作家用作坚实的基础,以加速大规模的转录过程。[1803.03200v2] 我们的系统已经能够产生出很好的转录,可以被古文学家用作坚实的基础,以加速大规模的转录过程。[1803.03200v2] 我们的系统已经能够产生出很好的转录,可以被古文学家用作坚实的基础,以加速大规模的转录过程。[1803.03200v2]

 

电脑能创造艺术吗?

亚伦赫兹曼

本文讨论使用人工智能(AI)的计算机是否可以创造艺术。首先,调查了艺术自动化方面的技术历史,包括摄影和动画。在每种情况下,最初的恐惧和拒绝技术,随后为艺术家提供了新的创造性和专业机会。然后讨论当前人工智能(Artificial IntelligenceAI)工具在艺术制作中的炒作和现实,以及AI工具如何使用的预测。然后推测是否会发生人工智能系统可能以艺术作品的作者身份被记录。理论上说,艺术是由社会代理人创造的东西,所以电脑在我们目前的理解中不能以艺术作者的名义被记录。这种可能改变的几种方式也是假设的。

 

使用高级别表示引导的降级器防御对抗攻击

Fangzhou Liao, Ming Liang, Yinpeng Dong, Tianyu Pang, Xiaolin Hu, Jun Zhu

神经网络容易受到敌对的例子,这对安全敏感系统的应用构成了威胁。我们提出高级表示引导降噪(HGD)作为图像分类的防御。标准降噪器具有误差放大效应,其中小的残余对抗噪声逐渐放大并导致错误的分类。HGD通过使用定义为由干净图像和去噪图像激活的目标模型输出之间的差异的损失函数克服了这个问题。与集成对抗训练相比,它是最先进的大图像防守方法,HGD有三个优点。首先,以HGD作为防御,目标模型对于白盒或黑盒对抗攻击更为稳健。第二,HGD可以训练一小部分图像,并很好地适用于其他图像和看不见的类。第三,HGD可以转移到捍卫指导它的模型之外的模型。在NIPS的对抗攻击防御竞赛中,我们的HGD解决方案赢得了第一名,并大幅超越其他模式。[1712.02976v2]

 

用于图像平滑的深层纹理和结构识别滤波网络

Kaiyue Lu, Shaodi You, Nick Barnes

图像平滑是计算机视觉中的一项基础任务,旨在保留显着的结构并消除微不足道的纹理。在本文中,我们旨在解决现有图像平滑方法的基本缺陷,这些方法无法正确区分具有类似低级外观的纹理和结构。尽管深度学习方法已经开始探索通过图像平滑保存结构,但现有的工作还没有正确处理纹理。为此,我们通过将自然纹理与干净的仅有结构的图像混合来生成大型数据集,然后构建预测纹理位置和大小的纹理预测网络(TPN)。然后,我们将TPN与语义结构预测网络(SPN)相结合,以便最终的纹理和结构感知过滤网络(TSAFN)能够识别要移除的纹理(纹理感知)和要保留的结构(结构意识)。所提出的模型易于理解和实施,并且在野外以及我们生成的数据集中显示出真实图像的优异性能。[1712.02893v2]

 

使用经常性策略网络的预算意识活动检测

Behrooz MahasseniXiaodong YangPavlo MolchanovJan Kautz

在本文中,我们解决了未修剪的长视频中高效时态活动检测的挑战性问题。尽管最近的工作集中并提高了检测精度,但在处理每个单个视频时,推理时间可能需要几秒到几分钟,而这对于现实世界的设置来说太慢而无法使用。这激励了提议的预算意识框架,该框架学习如何根据指定的时间预算智能地选择一小部分框架来执行活动检测。我们将这个问题作为一个马尔科夫决策过程来制定,并采用一个经常性网络来对框架选择策略进行建模。我们推导出一种基于循环策略梯度的方法来近似我们问题中定义的不可分解和不可微分目标的梯度。在广泛的实验中,我们实现了具有竞争力的检测准确性,更重要的是,我们的方法能够显着减少计算时间并检测多个活动,每个未修剪的长视频仅需0.35秒。[1712.00097v2]

 

Grad-CAM ++:深度卷积网络的基于梯度的广义视觉解释

Aditya ChattopadhyayAnirban SarkarPrantik HowladerVineeth N Balasubramanian

在过去的十年中,卷积神经网络(CNN)模型在解决基于复杂视觉的问题方面非常成功。然而,考虑到对其内部功能缺乏了解,这些深度模型被视为黑盒子方法。开发可解释的深度学习模型最近引起了很大兴趣,本文正是朝这个方向努力。基于最近提出的称为Grad-CAM的方法,我们提出了一种称为Grad-CAM ++的广义方法,它可以更好地对CNN模型预测进行视觉解释,更好的对象定位以及解释单个图像中多个对象实例的出现,与最先进的技术相比。我们为所提出的方法提供数学推导,其使用最后的卷积层特征图的正偏导数相对于特定类别分数的加权组合作为权重来生成相应类标签的视觉解释。我们对标准数据集的主观和客观广泛的实验和评估表明,Grad-CAM ++为多个任务(包括分类,图像标题生成和3D动作识别)的给定CNN架构提供了有希望的人类可解释的视觉解释以及诸如知识蒸馏等新设置。[1710.11063v2] 在标准数据集上,主观和客观都表明,Grad-CAM ++为多个任务(包括分类,图像标题生成和3D动作识别)的给定CNN架构提供了有前途的人类可解释的视觉解释以及诸如知识蒸馏等新设置。[1710.11063v2] 在标准数据集上,主观和客观都表明,Grad-CAM ++为多个任务(包括分类,图像标题生成和3D动作识别)的给定CNN架构提供了有前途的人类可解释的视觉解释以及诸如知识蒸馏等新设置。[1710.11063v2]

 

光学遥感场景分类的层次度量学习

Akashdeep GoelBiplab BanerjeeAleksandra Pizurica

我们基于层次度量学习的范式,从光学遥感(RS)图像中解决了场景分类问题。理想情况下,有监督的度量学习策略从一组训练数据点中学习投影,从而最大限度地减少类内差异,同时最大化类间标签空间的类间可分性。然而,标准度量学习技术并未将语义类信息结合到学习变换矩阵中,这在处理细粒度视觉类别时通常被认为是瓶颈。作为一种补救措施,我们建议通过探索它们的视觉相似性来以分层方式组织这些类,并随后学习树的非叶节点处出现的类的单独距离度量转换。我们采用迭代最大余量聚类策略来获得类的层级组织。在大规模NWPU-RESISC45数据集上获得的实验结果证明了与文献中的标准方法相比,基于RS场景识别策略的建议的层次度量学习的效果。[1708.01494v2]

 

SeGAN:分割和生成隐形

Kiana EhsaniRoozbeh MottaghiAli Farhadi

对象经常在场景中相互遮挡推测它们的外观超出其可见部分在场景理解,深度估计,对象交互和操纵中起着重要作用。在本文中,我们研究了完成遮挡物体外观的具有挑战性的问题。这样做需要知道要绘制哪些像素(分割对象的不可见部分)以及绘制它们的颜色(生成不可见部分)。我们提出的新颖解决方案SeGAN共同优化了对象的不可见部分的分割和生成。我们的实验结果表明:(aSeGAN可以学习生成物体遮挡部分的外观bSeGAN超越了物体不可见部分的最先进分割基线c)训练合成照片真实图像,SeGAN可以可靠地分割自然图像d)通过推理遮挡物遮挡关系,我们的方法可以推断深度分层。[1703.10239v3]

 

MultiNet:用于自动驾驶的实时联合语义推理

Marvin TeichmannMichael WeberMarius ZoellnerRoberto CipollaRaquel Urtasun

尽管大多数语义推理方法都侧重于提高性能,但本文中我们认为计算时间对于实现自动驾驶等实时应用非常重要。为实现这一目标,我们提出了一种通过统一架构进行联合分类,检测和语义分割的方法,其中编码器在三项任务中共享。我们的方法非常简单,可以进行端对端培训,并且在具有挑战性的KITTI数据集中表现出色,超越了道路分割任务中的最新水平。我们的方法也非常高效,所需任务少于100毫秒。[1612.07695v2]

转载请注明:《Video-Person-ReID:重新审视基于视频的人员ReID的时间建模+ MC-GAN:用于图像合成的多条件生成对抗网络

发表评论