零样本学习的对象检测+MelanoGANs:用GANs进行高分辨率皮肤病变样本合成

卷积神经网络的多标签无线干扰识别

Sergej GrunauDimitri BlockUwe Meier

使用免许可频段的稳步增长需要可靠的共存管理,因此需要适当的无线干扰识别(WII)。在这项工作中,我们提出了一种基于深度卷积神经网络(CNN)的WII方法,该方法在存在利用信号的情况下对多个IEEE 802.15.1IEEE 802.11 b / gIEEE 802.15.4干扰信号进行分类。生成的多标签数据集包含频率和时间受限的感测快照,带宽分别为10 MHz12.8 $ \ mu $ s。每个快照将一个使用的信号与多达干扰信号组合在一起。对于IEEE 802.15.1IEEE 802.15.4信号的分类精度约为100%的相同技术干扰,该方法显示出有前景的结果。对于IEEE 80211 b / g信号的交叉技术干扰的准确性增加至少90%。[1804.04395v1]

 

CubeNet3D旋转和平移的等式

丹尼尔沃勒尔,加布里埃尔布罗斯托夫

3D卷积神经网络对应用于其输入的转换很敏感。这是一个问题,因为3D对象的体素化版本及其旋转的克隆在通过网络的最后一层之后看起来彼此不相关。相反,理想化的模型会保留体素化对象的有意义的表示,同时解释两个输入之间的姿态差异。等变表示向量有两个组成部分:不变身份部分和转换的可辨别编码。无法解释姿态差异的模型会稀释表示,以追求优化分类或回归损失函数。我们引入了一个群集卷积神经网络,它具有三维平移和直角旋转的线性等变性。我们称之为网络CubeNet,反映它的立方体状对称性。通过构建,这个网络有助于保持3D形状的全局和局部签名,因为它通过连续的层次进行转换。我们将此网络应用于各种3D推理问题,实现了ModelNet10分类挑战的最新技术,以及ISBI 2012 Connectome分段基准测试的可比性能。就我们所知,这是第一个用于体素表示的3D旋转等变CNN[1804.04458v1] 因为它通过连续的层转变。我们将此网络应用于各种3D推理问题,实现了ModelNet10分类挑战的最新技术,以及ISBI 2012 Connectome分段基准测试的可比性能。就我们所知,这是第一个用于体素表示的3D旋转等变CNN[1804.04458v1] 因为它通过连续的层转变。我们将此网络应用于各种3D推理问题,实现了ModelNet10分类挑战的最新技术,以及ISBI 2012 Connectome分段基准测试的可比性能。就我们所知,这是第一个用于体素表示的3D旋转等变CNN[1804.04458v1]

 

一个两级3D Unet框架,用于全分辨率图像上的多级分割

Chengjia WangTom MacGillivrayGillian MacnaughtGuang YangDavid Newby

深卷积神经网络(CNN)已被广泛用于多种类别数据的分类分割,并获得了最先进的性能。然而,处理大型高分辨率3D数据时的一个常见问题是,由于计算设备的存储容量有限,输入深CNN的体积必须进行裁剪或降采样。这些操作会导致输入数据批次中分辨率的降低和类别不平衡的增加,从而降低分割算法的性能。受图像超分辨率CNNSRCNN)和自我规范化网络(SNN)的架构的启发,我们开发了一个两阶段修改的Unet框架,该框架可同时学习检测整个体积内的ROI并对体素进行分类而不会丢失原始图像解析度。对各种多模式音量的实验表明,当用简单加权的模子系数和我们定制的学习程序进行训练时,该框架显示比具有高级相似性度量标准的最先进的深CNN更好的分割性能。[1804.04341v1]

 

MR图像无监督异常分割的深度自动编码模型

Christoph BaurBenedikt WiestlerShadi AlbarqouniNassir Navab

可靠地模拟正常情况并区分正常情况下的异常情况对于检测医学图像中的病变非常有吸引力。基于统计方法,基于内容的检索,聚类以及最近的深度学习,医学领域已经有大量的这种无监督的异常检测方法。先前的方法针对具有自动编码器或GAN的变体的正常解剖结构的深度无监督异常检测模型贴片,并将异常检测为学习特征空间中的异常值或从大的重建误差中检测异常值。与这些基于补丁的方法相反,我们表明,深空间自动编码模型可以有效地用于捕获整个2D脑部MR图像的正常解剖变异性。包含MS病变的实际MR数据的各种实验证实了我们的假设,即我们可以通过将输入图像与其重建进行简单比较来检测并描绘脑MR图像中的异常。结果表明,对潜在空间和对抗训练的约束可以进一步提高标准深度表示学习的分割性能。[1804.04488v1]

 

回归卷积神经网络在冠状动脉CT血管造影中自动检测和表征冠状动脉斑块和狭窄

Majd ZreikRobbert W. van HamersveltJelmer M. WolterinkTim LeinerMax A. ViergeverIvana Isgum

不同类型的动脉粥样硬化斑块和不同级别的狭窄导致阻塞性冠状动脉疾病患者的不同管理。因此,确定存在并分类冠状动脉斑块的类型以及确定狭窄的存在和程度至关重要。该研究包括131例患者的连续采集的冠脉CT血管造影(CCTA)扫描。在这些患者中,冠状动脉的存在和斑块类型(没有斑块,非钙化,混合,钙化)以及冠状动脉狭窄的存在和解剖学意义(无狭窄,无显着,显着)通过识别开始和受斑块影响的动脉碎片的终点。为了执行自动分析,利用多任务循环卷积神经网络。该网络使用CCTA和冠状动脉中心线作为其输入,并且使用3D卷积神经网络从冠状动脉中心线上限定的区域提取特征。随后,提取的特征被执行两个同时多标签分类任务的递归神经网络使用。在第一项任务中,网络检测并表征冠状动脉斑块的类型。在第二项任务中,网络检测并确定冠状动脉狭窄的解剖学意义。结果表明冠状动脉斑块和狭窄以高精确度和可靠性自动表征是可行的。这可以使患者自动分流至没有冠状动脉斑块的患者,以及需要进一步心血管检查的冠状动脉斑块和狭窄患者。

 

大规模图像重新标注的社会锚定图正则化张量完成

Jinhui Tang, Xiangbo Shu, Zechao Li, Yu-Gang Jiang, Qi Tian

图像重新标记旨在通过改进其原始标签或分配新的高质量标签来改善社交图像的标签质量。最近的方法同时探索视觉,用户和标签信息,通过构建和探索图像标签用户图来提高图像重新获取的性能。然而,随着图像,标签和用户数量的迅速增加,这些方法在计算上将变得不可行。已经证明,锚图正则化(AGR)可以通过仅探索少量锚点来显着加速大规模图学习模型。受此启发,我们提出了一种新的社会锚定单元GrAph规则张量完成(SUGAR-TC)方法来有效地细化社交图像的标签,这对应用数据的规模不敏感。第一,我们在多个域(例如,图像和用户域)中构建锚单位图,而不是单个域中的传统锚图。其次,在原始图像标签用户张量上实现基于SUGAR的张量完成,以改进锚图像的标签。第三,通过利用非锚图像和锚单元之间的关系,我们有效地将标签分配给非锚图像。在真实世界的社交图像数据库上的实验结果很好地证明了SUGAR-TC的有效性,超越了几种相关的方法。[1804.04397v1] 我们通过利用非锚图像与锚单元之间的关系有效地将标签分配给非锚图像。在真实世界的社交图像数据库上的实验结果很好地证明了SUGAR-TC的有效性,超越了几种相关的方法。[1804.04397v1] 我们通过利用非锚图像与锚单元之间的关系有效地将标签分配给非锚图像。在真实世界的社交图像数据库上的实验结果很好地证明了SUGAR-TC的有效性,超越了几种相关的方法。[1804.04397v1]

 

使用多对比MRI进行MRA图像合成的生成敌对训练

Sahin OlutYusuf Huseyin SahinUgur DemirGozde Unal

磁共振血管造影(MRA)已成为影像学和血管解剖学及相关疾病评估的重要MR对比。通常要求MRA采集用于血管介入,而在典型情况下,MRA序列可以在患者扫描中不存在。这促使人们需要一种从现有的MR多重对比中产生不存在的MRA的技术,这可能是回顾性主题评估和成像研究中的有价值的工具。在本文中,我们首次提出了基于生成对抗网络(GAN)的技术,以根据我们的知识首次生成来自T1加权和T2加权MRI图像的MRA。为了更好地模拟MRA固有突出显示的血管,我们设计了一个专门用于忠实再现血管的术语。为此目的,我们将生成的和参考图像的可调滤波器响应合并到Huber函数损失项中。在基于最近的PatchGAN模型并增加可控滤波器损耗的基础上,扩展了完善的发生器鉴别器架构,在大型公共数据库IXI上评估了所提出的可操纵GANsGAN)方法。实验结果表明,sGAN在具有相似PSNR值的重叠分数方面优于基线GAN方法,同时导致视觉感知质量的改善。[1804.04366v1] 所提出的可操纵GANsGAN)方法在大型公共数据库IXI上进行评估。实验结果表明,sGAN在具有相似PSNR值的重叠分数方面优于基线GAN方法,同时导致视觉感知质量的改善。[1804.04366v1] 所提出的可操纵GANsGAN)方法在大型公共数据库IXI上进行评估。实验结果表明,sGAN在具有相似PSNR值的重叠分数方面优于基线GAN方法,同时导致视觉感知质量的改善。[1804.04366v1]

 

面向脑图像分割的卷积神经网络空间定位研究

Pierre-Antoine GanayeMichael SdikaHugues Benoit-Cattin

语义分割是医学成像领域迅速发展的领域。在本文中,我们将重点放在使用卷积神经网络(CNN)将脑部磁共振图像(MRI)分割为大脑结构。CNN通过仅找到描述补丁内容的有效高维图像特征来实现良好的性能。在这项工作中,我们提出了不同的方法将空间约束引入网络,以进一步减少预测不一致性。基于补丁的CNN 系结构得到了训练,利用多个比例来收集上下文信息。空间约束是通过到地标特征的距离或通过整合概率图集在CNN内引入的。我们通过实验证明,使用空间信息有助于减少分段的不一致性。[1804.04563v1]

 

基于生成对抗网络的血管几何综合

Jelmer M. WolterinkTim LeinerIvana Isgum

计算合成的血管可以用于医学图像分析应用的训练和评估。我们提出了一种深层生成模型来合成血管几何形状,并将其应用于心脏CT血管造影(CCTA)中的冠状动脉。在所提出的方法中,由发生器和鉴别器网络组成的Wasserstein生成对抗网络(GAN)被训练。虽然发生器试图合成逼真的血管几何形状,但鉴别器试图将合成几何体与真实血管的几何体区分开来。基于中心血管轴,实际和合成的血管几何形状都被参数化为一维信号。该发生器可以可选地提供有属性向量以合成具有特定特征的血管。GAN使用参考数据库进行了优化,参数化数据库提供了从CCTA扫描中提取的4412个真实冠状动脉几何图形。在训练之后,可以基于从潜在空间采样的随机矢量合成合理的冠状动脉几何形状。定性分析显示真实和合成冠状动脉之间有很强的相似性。对潜在空间的详细分析表明,发生器准确捕获了冠状动脉解剖中存在的多样性。结果表明,Wasserstein生成敌对网络可用于合成血管几何形状。[1804.04381 v1] 基于从潜在空间采样的随机矢量可以合成合理的冠状动脉几何形状。定性分析显示真实和合成冠状动脉之间有很强的相似性。对潜在空间的详细分析表明,发生器准确捕获了冠状动脉解剖中存在的多样性。结果表明,Wasserstein生成敌对网络可用于合成血管几何形状。[1804.04381 v1] 基于从潜在空间采样的随机矢量可以合成合理的冠状动脉几何形状。定性分析显示真实和合成冠状动脉之间有很强的相似性。对潜在空间的详细分析表明,发生器准确捕获了冠状动脉解剖中存在的多样性。结果表明,Wasserstein生成敌对网络可用于合成血管几何形状。[1804.04381 v1] 结果表明,Wasserstein生成敌对网络可用于合成血管几何形状。[1804.04381 v1] 结果表明,Wasserstein生成敌对网络可用于合成血管几何形状。[1804.04381 v1]

 

用于条件外观和形状生成的变分U-Net

Patrick EsserEkaterina SutterBjörnOmmer

深度生成模型在图像合成中表现出优异的性能。然而,在空间变形的情况下,结果恶化,因为它们直接生成物体的图像,而不是模拟它们固有形状和外观的复杂相互作用。我们提出了一个有条件的U-Net用于形状引导的图像生成,其条件是用于外观的变分自动编码器的输出。该方法在图像上端对端地进行训练,而不需要具有不同姿势或外观的相同对象的样本。实验表明,该模型使条件图像生成和传输成为可能。因此,可以从查询图像中保留形状或外观,同时自由地改变另一个。此外,外观可以由于其随机潜在表现而被采样,同时保持形状。在COCODeepFashion,鞋类,Market-1501和手提包的定量和定性实验中,该方法展现了对最先进技术的重大改进。[1804.04694v1]

 

迭代全卷积神经网络用于自动椎体分割

Nikolas LessmannBram van GinnekenPim A. de JongIvanaIšgum

椎骨的精确分割往往需要自动检测椎体异常。这尤其能够偶然检测异常,例如为了其他诊断目的而获取的图像中的压缩性骨折。虽然胸部和腹部的许多CTMR扫描覆盖了脊柱的一部分,但它们通常不覆盖整个脊柱。此外,第一个和最后一个可见的椎骨很可能仅部分包含在这些扫描中。在本文中,我们将椎骨分割作为一个实例分割问题。完全卷积神经网络与保存关于已经分割的椎骨的信息的实例存储器相结合。该网络迭代地分析图像块,使用实例存储器来搜索并分割第一个尚未分割的椎骨。同时,每块椎骨被分类为完全或部分可见,因此可以将部分可见的椎骨排除在进一步分析之外。我们评估了这种方法在脊柱CT扫描中从椎体分割挑战和低剂量胸部CT扫描。该方法的平均Dice评分分别为95.8%和92.1%,平均绝对表面距离为0.194 mm0.344 mm[1804.04383v1]

 

变形意识图像压缩

塔马尔罗特ShahamTomer Michaeli

有损压缩算法旨在以一种能够以最小误差恢复它们的方式对图像进行紧凑编码。我们证明现有算法的一个关键限制是它们依赖于对几何变形(例如SSDSSIM)非常敏感的误差测量。这些强制编码器投入很多位来描述图像中每个精细细节的精确几何图形,这显然是浪费的,因为人类视觉系统对小本地翻译无动于衷。受此观察的启发,我们提出了一种可以轻松并入任何现有压缩方案的变形不敏感错误度量。正如我们所展示的,我们的标准下的最佳压缩涉及使输入图像稍微变形,使其变得更可压缩。出奇,虽然这些小的变形几乎不明显,但它们使编解码器能够保存完全丢失的细节。我们的技术使用CODEC作为黑匣子,因此可以与任意压缩方法进行简单集成。包括用户研究在内的大量实验证实,我们的方法显着提高了许多编解码器的视觉质量。这些包括JPEGJPEG2000WebPBPG和最近的深网方法。[1804.04593v1] WebPBPG和最近的深网方法。[1804.04593v1] WebPBPG和最近的深网方法。[1804.04593v1]

 

MGGAN:使用歧管引导式训练解决模式崩溃

Duhyeon Bang Hyunjung Shim

模式崩溃是训练生成敌对网络的关键问题。为了缓解模式崩溃,最近几项研究引入了新的目标函数,网络架构或替代训练方案。但是,他们的成就往往是牺牲图像质量的结果。在本文中,我们提出了一种新的算法,即一个流形引导生成对抗网络(MGGAN),它利用现有GAN架构上的引导网络来诱导发生器学习所有数据分布模式。基于广泛的评估,我们表明我们的算法解决了模式崩溃而不会丢失图像质量。特别是,我们证明我们的算法很容易扩展到各种现有的GAN。实验分析证明所提出的算法是训练GAN的有效和高效的工具。[1804.04391v1]

 

用运动摄像机动态场景学习三维运动场估计的刚性

Zhaoyang Lv, Kihwan Kim, Alejandro Troccoli, Deqing Sun, James M. Rehg, Jan Kautz

从时间对图像中估计动态场景中的三维运动是许多场景理解问题的核心任务。在现实世界的应用中,动态场景通常由移动摄像机捕捉(即平移,倾斜或手持),从而增加了任务的复杂性,因为从不同的视点观察场景。主要挑战是相机运动与场景运动的消歧,即使2D图像对应的成功估计,所观察到的刚性量减少也变得更加困难。与其他最先进的三维场景流量估计方法相比,本文中我们建议从大量动态场景数据集中监督一个场景的刚度,并直接推导出刚度从具有深度的两个连续图像掩盖。通过学习的网络,我们展示了如何使用计算的2D光流和推断的刚度掩模来有效估计相机运动和投影场景流。为了训练和测试刚性网络,我们还提供了一个新的半合成动态场景数据集(具有真实背景的合成前景对象)和一个评估分割,该分割考虑了观察到的非刚性像素的百分比。通过我们的评估,我们展示了提出的框架在挑战性动态场景中胜过当前最先进的场景流量估计方法。[1804.04259v1] 我们还提供了一个新的半合成动态场景数据集(具有真实背景的合成前景对象)和一个评估分割,该分割考虑了观察到的非刚性像素的百分比。通过我们的评估,我们展示了提出的框架在挑战性动态场景中胜过当前最先进的场景流量估计方法。[1804.04259v1] 我们还提供了一个新的半合成动态场景数据集(具有真实背景的合成前景对象)和一个评估分割,该分割考虑了观察到的非刚性像素的百分比。通过我们的评估,我们展示了提出的框架在挑战性动态场景中胜过当前最先进的场景流量估计方法。[1804.04259v1]

 

基于种子点的核团块几何分区

詹姆斯卡帕尔多

当应用细胞荧光或组织病理学图像的自动分析时,有必要对部分重叠的细胞核进行分区或解聚。在这项工作中,我描述了一种使用基于种子点的几何分区来分割部分重叠的细胞核的方法。几何分区创建两种不同类型的切割,两个边界顶点之间的切割和一个边界顶点与引入边界内部的新顶点之间的切割。然后根据评分指标对剪辑进行排序,并使用最高分数的剪辑。该方法在一组2420个细胞核上进行了测试,发现比目前流行的分析软件产生了更好的结果。[1804.04549v1]

 

MelanoGANs:用GANs进行高分辨率皮肤病变样本合成

Christoph BaurShadi AlbarqouniNassir Navab

生成敌对网络(GANs)已成功用于合成逼真的人脸图像,风景甚至医学图像。不幸的是,它们通常需要大量的训练数据集,而这些数据集在医学领域通常很少见,而且据我们所知,GAN仅以相当低的分辨率应用于医学图像合成。然而,许多最先进的机器学习模型都使用高分辨率数据,因为这些数据具有不可或缺的重要信息。在这项工作中,我们尝试使用GANs生成逼真的高分辨率皮肤损伤图像,仅使用2000个样本的小型训练数据集。数据的性质使我们可以直接比较生成的样本和真实数据集的图像统计数据。我们在数量和质量上比较了DCGANLAPGAN等最先进的GAN体系结构,并对后者进行了256x256px分辨率图像生成任务的修改。我们的调查显示,我们可以用所有模型逼近真实的数据分布,但是在视觉上评估样本真实性,多样性和工件时,我们注意到主要差异。在一组关于皮肤病变分类的用例实验中,我们进一步表明,我们可以借助合成的高分辨率黑素瘤样本成功地解决严重的类失衡问题。[1804.04338v1] 我们的调查显示,我们可以用所有模型逼近真实的数据分布,但是在视觉上评估样本真实性,多样性和工件时,我们注意到主要差异。在一组关于皮肤病变分类的用例实验中,我们进一步表明,我们可以借助合成的高分辨率黑素瘤样本成功地解决严重的类失衡问题。[1804.04338v1] 我们的调查显示,我们可以用所有模型逼近真实的数据分布,但是在视觉上评估样本真实性,多样性和工件时,我们注意到主要差异。在一组关于皮肤病变分类的用例实验中,我们进一步表明,我们可以借助合成的高分辨率黑素瘤样本成功地解决严重的类失衡问题。[1804.04338v1]

 

图像恢复的同步保真和正则化学习

Dongwei Ren, Wangmeng Zuo, David Zhang, Lei Zhang, Ming-Hsuan Yang

大多数现有的非盲恢复方法基于已知精确降解模型的假设。由于降解过程只能部分已知或不准确建模,图像可能无法很好地恢复。用不准确的模糊内核去除雨带和图像解卷积是这种任务的两个代表性例子。对于雨带的去除,虽然输入图像可以分解为场景层和雨纹层,但是没有明确的雨滴条纹建模和场景层的组合。对于盲解卷积,通常引入模糊核的估计误差,随后的非盲解卷积过程不能很好地恢复潜像。在本文中,我们在最大后验框架内提出了一个原理性算法,用部分已知或不准确的退化模型来处理图像恢复。具体来说,由部分已知或不准确的降解模型引起的残差是空间依赖性和复杂分布的。通过一组退化和地面真实图像对,我们以任务驱动的方式参数化和学习退化模型的保真度项。此外,正则化术语也可以与保真术语一起学习,从而形成同时保真和正则化学习模型。广泛的实验结果证明了所提出的用于图像去卷积的模型的有效性,其具有不准确的模糊内核和降雨条纹去除。此外,对于具有精确降解过程的图像恢复,例如,高斯去噪,所提出的模型可以被应用于基于视觉感知度量来学习用于最佳性能的适当的保真度项。[1804.04522v1]

 

零样本学习的对象检测

Ankan BansalKaran SikkaGaurav SharmaRam ChellappaAjay Divakaran

我们介绍并解决了零样本目标检测(ZSD)的问题,该检测旨在检测训练期间未观察到的物体类别。我们与一组具有挑战性的对象类一起工作,而不是将我们限制在类似和/或细粒度的类别中。之前的零炮分类工作。我们遵循一个原则性的方法,首先适应ZSD的视觉语义嵌入。然后我们讨论与选择背景类相关的问题,并激发两种背景感知方法来学习鲁棒检测器。其中一个模型使用固定的背景类,另一个基于迭代的潜在分配。我们还概述了与使用有限数量的训练课程相关的挑战,并提出了基于使用大量类别的辅助数据对语义标签空间进行密集采样的解决方案。我们提出了两种标准检测数据集 – MSCOCOVisualGenome的新型分割,并讨论了广泛的实证结果,以突出所提出方法的优点。我们提供有用的洞察到算法,并通过提出一些开放问题来鼓励进一步的研究。[1804.04340v1]

 

作为结构表示的对象标志的无监督发现

Yuting Zhang, Yijie Guo, Yixin Jin, Yijun Luo, Zhiyuan He, Honglak Lee

深度神经网络可以对具有丰富潜在表示的图像建模,但它们不能以人类可感知的方式自然地概念化对象类别的结构。本文讨论了在没有监督的情况下在图像建模过程中学习对象结构的问题。我们提出一种自动编码公式来发现地标作为明确的结构表示。编码模块输出地标坐标,其有效性通过反映地标的必要属性的约束来保证。解码模块将地标作为可端到端可区分框架中的可学习输入表示的一部分。我们发现的地标在语义上有意义,并且比以前的方法发现的地标更能预测手动注释的地标。我们的地标坐标也是对识别视觉属性进行预训练的深层神经网络表征的补充特征。另外,所提出的方法自然创建无监督的可感知接口,以操纵对象形状并以可控结构解码图像。该项目网页是http://ytzhang.net/projects/lmdis-rep [1804.04412v1]

 

通过深度往复式HDR变换进行图像校正

Xin Yang, Ke Xu, Yibing Song, Qiang Zhang, Xiaopeng Wei, Rynson Lau

图像校正旨在将输入图像调整为视觉上令人愉悦的图像。主要从图像像素操纵的角度提出现有的方法。它们不能有效恢复欠曝/过曝地区的细节。在本文中,我们重新审视图像形成过程,并注意到这些区域中的缺失细节存在于相应的高动态范围(HDR)数据中。由于色调映射过程,人眼很好地感知这些细节,但在低动态范围(LDR)域中减少了这些细节。因此,我们将图像校正任务制定为HDR变换过程,并提出一种称为深度往复HDR变换(DRHT)的新方法。给定一个输入LDR图像,我们首先重建HDR域中的缺失细节。然后,我们对预测的HDR数据执行色调映射以生成具有恢复的细节的输出LDR图像。为此,我们提出了一个由两个CNN组成的联合框 架,用于HDR重建和色调映射。它们是端到端的联合训练和预测。标准基准上的实验表明,所提出的方法有利于抵制最先进的图像校正方法。[1804.04371v1]

 

轨迹工厂:Tracklet通过Deep Siamese Bi-GRU切割和重新连接以实现多物体追踪

Cong Ma, Changshui Yang, Fan Yang, Yueqing Zhuang, Ziwei Zhang, Huizhu Jia, Xiaodong Xie

多目标跟踪(MOT)是复杂场景中的一项具有挑战性的任务,如监控和自动驾驶。在本文中,我们提出了一种新颖的Tracklet处理方法,用于切断和重新连接由连体双门循环单元(GRU)引起的人群或长期阻塞的跑道。Tracklet生成利用由CNNRNN提取的对象特征来创建稀疏场景下的高置信度轨迹。由于生成过程中的错误跟踪,来自不同对象的轨迹由双向GRU分割成多个子轨迹。之后,应用基于连体GRU的轨迹线重新连接方法来链接属于同一对象的子轨迹以形成整个轨迹。此外,我们从现有的MOT数据集中提取出tracklet图像,并提出一个新的数据集来训练我们的网络。建议的数据集包含超过95160行人图像。它有793个不同的人。平均而言,每个具有位置和大小的人有120张图像。实验结果证明了我们的模型优于MOT16的最先进的方法。[1804.04555v1]

 

PCN:使用CNN利用人体部位和上下文信息进行行人检测

Shiguang Wang, Jian Cheng, Haijun Liu, Ming Tang

近年来行人检测取得了很大的进展,而复杂的遮挡处理仍然是最重要的问题之一。为了利用人体部位和上下文信息进行行人检测,我们在本文中提出了部分和上下文网络(PCN)。PCN专门利用两个分支,分别通过身体部位的语义和上下文信息来检测行人。在部分分支中,身体部位的语义信息可以通过递归神经网络彼此通信。在上下文分支中,我们采用本地竞争机制进行适应性上下文选择。通过结合所有分支的输出,我们开发了一个强大的互补行人探测器,具有更低的错过率和更好的定位精度,特别是对于遮挡行人。对两个具有挑战性的行人检测数据集(即CaltechINRIA)进行全面评估,充分证明了所提议的PCN的有效性。[1804.04483v1]

 

图形神经网络提取航线

Raghavendra SelvanThomas KipfMax WellingJesper H. PedersenJens PetersenMarleen de Bruijne

我们从图像数据中提取树结构(如气道)的提取,作为图精化任务。为此,我们提出了一种图形自动编码器模型,该模型使用基于图形神经网络(GNN)的编码器来学习来自输入节点特征的嵌入和解码器以预测节点之间的连接。GNN模型的性能与平均野外网络相比,能够从3D胸部CT扫描中提取气道。[1804.04436v1]

 

通过相似性学习,排名后排名和人员重新识别的聚合来利用特征表征

Julio CS Jacques JuniorXavierBaróSergio Escalera

在过去的几年中,人的再认同受到了人类分析界的特别关注。为了解决这一领域的挑战,许多研究人员提出了不同的策略,它们基本上利用了交叉视图不变特征或交叉视图鲁棒指标。在这项工作中,我们建议利用排名后的方法并通过排名聚合来结合不同的特征表示。空间信息可能有利于人员匹配,使用2D体模型来表示,从中提取颜色和纹理信息并进行组合。我们也考虑通过深度分解网络自动提取的背景/前景信息以及卷积神经网络(CNN)特性的使用。为了描述图像之间的匹配,我们使用多项式特征映射,同时考虑到局部和全局信息。基于判别式上下文信息分析的排序后方法用于改进初始排名列表。最后,采用斯图尔特排序聚合方法来组合从不同特征表示获得的互补排序列表。实验结果表明,我们改进了VIPeRPRID450s数据集的最新技术水平,在顶级1级识别率上分别达到67.21%和75.64%,并获得了CUHK01数据集的竞争结果。[1804.04419v1] 采用斯图尔特排名聚合方法来组合从不同特征表示获得的互补排序列表。实验结果表明,我们改进了VIPeRPRID450s数据集的最新技术水平,在顶级1级识别率上分别达到67.21%和75.64%,并获得了CUHK01数据集的竞争结果。[1804.04419v1] 采用斯图尔特排名聚合方法来组合从不同特征表示获得的互补排序列表。实验结果表明,我们改进了VIPeRPRID450s数据集的最新技术水平,在顶级1级识别率上分别达到67.21%和75.64%,并获得了CUHK01数据集的竞争结果。[1804.04419v1]

 

计算机生成的人脸图像转换避免欺骗检测器的检测

Huy NguyenNgoc-Dung T.Hoang-Quoc Nguyen-Son,山一纯一,Isao Echizen

使计算机生成的(CG)图像更难以检测是计算机图形学和安全性中的一个有趣问题。虽然大多数方法都侧重于图像渲染阶段,但本文提出了一种基于从欺骗检测器角度增加CG面部图像的自然度的方法。所提出的方法使用包括两个自编码器和变压器的卷积神经网络(CNN)来实现,并且使用没有梯度信息的黑盒鉴别器来训练。超过50%的转换后的CG图像没有被三个最先进的欺骗检测器检测到。这种能力引起人们日常生活中广泛使用的面部认证系统的可靠性警报。[1804.04418v1]

 

VITAL:通过对抗样本学习进行VIsual追踪

Yibing Song, Chao Ma, Xiaohe Wu, Lijun Gong, Linchao Bao, Wangmeng Zuo, Chunhua Shen, Rynson Lau, Ming-Hsuan Yang

逐个检测框架由两个阶段组成,即在第一阶段在目标对象周围绘制样本,并将每个样本分类为目标对象或将其作为第二阶段的背景。使用深度分类网络的现有跟踪器的性能受到两方面的限制。首先,每帧中的正样本在空间上高度重叠,并且不能捕捉到丰富的外观变化。其次,正面和负面样本之间存在极端的阶级失衡。本文介绍了通过对抗学习解决这两个问题的VITAL算法。为了增加阳性样本,我们使用生成网络随机生成掩模,将其应用于自适应丢失输入特征以捕捉各种外观变化。利用对抗性学习,我们的网络可以识别在长时间跨度上保持目标对象最稳健特征的掩码。另外,为了处理类别失衡的问题,我们提出了一个高阶的成本敏感性损失来减少简单负样本的影响,以便于训练分类网络。基准数据集上的大量实验表明,所提出的跟踪器对于最先进的方法有良好的表现。[1804.04273v1] 基准数据集上的大量实验表明,所提出的跟踪器对于最先进的方法有良好的表现。[1804.04273v1] 基准数据集上的大量实验表明,所提出的跟踪器对于最先进的方法有良好的表现。[1804.04273v1]

 

用于从RGB图像重建光谱的高效CNN

Yigit Baran CanRadu Timofte

最近,Galliani等人通过深度学习的方法,从RGB图像任务,也就是光谱超分辨率的基于实例的单个图像光谱重建中获得了信息。提出的非常深的卷积神经网络(CNN)在最近的大型基准测试中取得了优异的性能。然而,Aeschbacher等人表明,可以通过基于A +的浅层学习方法(Timofte等人为图像超分辨率引入的一种方法)实现类似的性能。在本文中,我们提出了一个中等深度的CNN模型,并大大改善了三种光谱重建标准基准ICVLCAVENUS的报告性能。[1804.04647v1]

 

Pix3D:单图像三维形状建模的数据集和方法

Xingyuan Sun, Jiajun Wu, Xiuming Zhang, Zhoutong Zhang, Chengkai Zhang, Tianfan Xue, Joshua B. Tenenbaum, William T. Freeman

我们从一个图像研究三维形状建模,并从三个方面对其做出贡献。首先,我们展示了Pix3D,这是一个不同的图像形状对与像素级2D-3D对齐的大型基准。Pix3D在形状相关的任务中有着广泛的应用,包括重建,检索,视点估计等。然而,构建这样的大规模数据集非常具有挑战性现有数据集或者只包含合成数据,或者缺少2D图像和3D图形之间的精确对齐,或者仅包含少量图像。其次,我们通过行为研究来校准3D形状重建的评估标准,并使用它们客观地,系统地对Pix3D上的尖端重建算法进行基准测试。第三,我们设计了一个同时进行三维重建和姿态估计的新模型我们的多任务学习方法可以在两项任务中实现最先进的性能。[1804.04610v1]

 

基准数据和方法,用于使用深度传感器在杂乱的场景中进行实时人数统计

HuanSheng Song, ShiJie Sun, Naveed Akhtar, ChaoYang Zhang, JianXin Li, Ajmal Mian

实时自动统计人员在安全,安全和物流方面有着广泛的应用。然而,目前还没有针对这个问题的基准方法的大规模公共数据集。为填补这一空白,我们推出了第一个真实世界的RGB-D人数统计数据集(PCDS),其中包含正常和混乱条件下在公交车入口处录制的4,500多个视频。我们还提出了一种有效的方法,可以单独使用深度视频来计算真实世界混乱场景中的人物。所提出的方法从深度视频帧计算点云,并将其重新投影到地平面上以对深度信息进行归一化。分析得到的深度图像以识别潜在的人头。人体头部提议使用3D人体模型进行了精心设计。跟踪连续视频流的每个帧中的提议以追踪它们的轨迹。轨迹再次被改进以确定可靠的计数。人们最终通过累积离开现场的头部轨迹来计数。为了实现有效的头部和轨迹识别,我们还提出了两种不同的复合特征。对PCDS进行全面评估表明,我们的整体技术能够在1.7 GHz处理器上以45 fps的高精度对凌乱场景中的人员进行计数。[1804.04339v1] 我们也提出两种不同的复合特征。对PCDS进行全面评估表明,我们的整体技术能够在1.7 GHz处理器上以45 fps的高精度对凌乱场景中的人员进行计数。[1804.04339v1] 我们也提出两种不同的复合特征。对PCDS进行全面评估表明,我们的整体技术能够在1.7 GHz处理器上以45 fps的高精度对凌乱场景中的人员进行计数。[1804.04339v1]

 

对象分割胶囊

Rodney LaLonde,评论Bagci

过去几年来,卷积神经网络(CNN)在各种计算机视觉任务方面取得了显着成果。Sabour等人最近引入的一种新架构,称为带动态路由的胶囊网络,已经显示出数字识别和小图像分类的极佳初始结果。胶囊网络的成功在于它们能够通过用卷积步长和动态路由替换最大池图层来保留更多关于输入的信息,从而保留数据中的部分整体关系。通过重构来自输出胶囊向量的输入来证明输入的保存。我们的工作首次在文献中将胶囊网络的应用扩展到了对象分割的任务。我们扩展卷积胶囊与局部连接路由的思想,并提出去卷积胶囊的概念。此外,我们扩展蒙面重建以重建积极的输入类。所提出的称为SegCaps的卷积去卷积囊网络显示了强大的结果,用于对象分割的任务,参数空间显着减少。作为一个示例应用,我们将所提议的SegCaps应用于从低剂量CT扫描中分割病理性肺,并将其准确性和效率与其他基于U-Net的体系结构进行比较。SegCaps能够处理较大的图像尺寸(512 x 512),而不是基线胶囊(通常小于32 x 32)。所提出的SegCapsU-Net架构的参数数量减少了95.4%,同时仍然提供了更好的分段准确性。[1804

 

用于视网膜血管分割的多尺度神经网络

Boheng Zhang, Shenglei Huang, Shaohan Hu

现有的监督式方法没有使用对这项任务实际有效的低级特征。另一个缺点是他们没有考虑像素之间的关系,这意味着不提取有效的特征。在本文中,我们提出了一种新的卷积神经网络,它充分利用低层特征和高层特征,并涉及非均匀卷积以获得应该被认为是有效特征的多尺度特征。我们的模型在三个标准基准 – DRIVESTARECHASE数据库上进行了测试。结果表明,我们的模型在准确性,灵敏度,特异性,ROC曲线下面积和最高预测速度方面明显优于现有方法。我们的工作提供了广泛和深度的神经网络在视网膜血管分割任务中的能力的证据,其可以应用于其他医学图像任务。[1804.04206v1]

 

深度差分递归神经网络

Naifan Zhuang, The Duc Kieu, Guo-Jun Qi, Kien A. Hua

由于长期短期记忆(LSTM)的特殊门控方案,与传统的递归神经网络(RNN)相比,LSTM在处理复杂的时序信息方面显示出更大的潜力。然而,传统的LSTM没有考虑顺序输入数据中存在的显着时空动态的影响。差分递归神经网络(dRNN)首先解决了这个问题,该网络使用称为状态导数(DoS)的差分门控方案。DoS使用更高阶的内部状态导数来分析由连续帧之间的突出运动引起的信息增益变化。然后使用几个DoS的加权组合来调制dRNN中的门。虽然DoS的每个单独的顺序都擅长于对特定级别的显着时空序列进行建模,但DoS的所有顺序的总和可能会扭曲检测到的运动模式。为了解决这个问题,我们建议通过DoS的单个命令来控制LSTM门,并且按照状态导数的递增顺序来堆叠多个LSTM单元的等级。所提出的模型逐步建立了LSTM门检测建立更高阶DoS的更深堆叠层中的显着动态模式的能力,因此所提出的LSTM模型被称为深微分回归神经网络(d2RNN)。所提出的模型的有效性在两个公开可用的人类活动数据集上展示:NUS-HGA和暴力流动。所提出的模型优于基于最新算法的LSTM和非LSTM[1804

 

从单一图像观察人体外推

Hao Zhu, Hao Su, Peng Wang, Xun Cao, Ruigang Yang

我们研究如何从单个图像合成人体的新视图。尽管最近基于深度学习的方法对于刚性物体很适用,但它们通常在大型关节的物体(如人体)上失败。现有方法的核心步骤是将可观察的视图与CNN的新视图相匹配然而,人体的丰富表达模式使得CNN很好地记忆和插入数据是相当具有挑战性的。为了解决这个问题,我们提出了一种新的基于深度学习的流水线,明确地估计和利用底层人体的几何形状。我们的新管道是一个形状估计网络和一个图像生成网络的组合,并且在接口处应用透视变换来生成像素值传输的正向流。我们的设计能够将数据变化的空间分解出来,并使每一步的学习变得更容易。经验上,我们表明,姿态变化对象的性能可以显着提高。我们的方法也可以应用于3D传感器捕获的真实数据,并且我们的方法生成的流可用于生成高分辨率的高质量结果。[1804.04213v1]

 

VoroTopVoronoi细胞拓扑可视化和分析工具包

伊曼纽尔答拉扎尔

本文介绍了一种新的开源软件程序VoroTop,它使用Voronoi拓扑来分析原子系统中的局部结构。这种方法的优势包括分析高温系统和表征复杂结构(如晶界)的能力。这种方法可以实现以前不可能的系统和机制的自动分析。[1804.04221v1]

 

评估半密集实时视觉测距方法

Haidara Gaoussou, Peng Dewei

近几十年来,计算机视觉领域中使用视觉测距法(VO)显着增加。它也被用于各种机器人应用中,例如火星探险流浪。本文首先讨论了两种流行的现有视觉测距方法,即LSD-SLAMORB-SLAM2,以改进使用美山方法的视觉SLAM系统的性能指标。我们仔细评估了上述三种不同的知名KITTI数据集,EuRoC MAV数据集和TUM RGB-D数据集的方法,以获得最佳结果,并将结果与 不同视觉测距方法的评估指标进行图形比较。其次,我们提出一种利用立体相机实时运行的方法,它将现有的基于特征的(间接)方法和现有的无特征(直接)匹配方法与准确的半直接图像对齐相结合,并直接在具有图像梯度的像素上重建精确的3D环境。关键词VO,性能指标,美山方法,基于特征的方法,无特征方法和半密集实时。[1804.03558v2]

 

机器学习神经影像诊断认知功能障碍和痴呆:系统评价和比较分析

恩里科·佩莱格里尼,圣卢西亚巴莱里尼,玛丽亚·埃尔南德斯C.巴尔德斯,弗朗西斯M.查普尔,维克托·冈萨雷斯卡斯特罗,Devasuda Anblagan,萨穆埃尔丹索,苏珊娜·穆尼奥斯Maniega,多米尼克工作,西里尔Pernet女士,格兰特·梅尔,汤姆·麦吉利夫雷,埃马努埃莱特鲁科,乔安娜·沃德洛

简介:先进的机器学习方法可能有助于识别神经影像学的痴呆风险,但迄今为止的准确性尚不清楚。方法:我们系统地回顾了从2006年到2016年末的文献,对机器学习研究进行了区分健康老龄化和各种类型痴呆的评估,评估研究质量以及比较不同疾病边界的准确性。结果:在111项相关研究中,大多数评估的阿尔茨海默病(AD)与健康对照,使用ADNI数据,支持向量机和仅有T1加权序列。鉴别AD与健康对照者的准确性最高,健康对照与MCIADMCI转化者与非转化者的鉴别差异较大。使用组合数据类型可提高准确度,但不能通过数据源,样本量或机器学习方法来提高。讨论:机器学习尚未区分临床相关疾病类别。更多不同的数据集,不同类型数据的组合以及机器学习的密切临床整合将有助于推动该领域的发展。[1804.01961v2]

 

使用相对索引压缩稀疏滤波器编码格式和堆叠滤波器的深度神经网络的3D-SIMD处理器体系结构的FPGA实现静止流

Yuechao Gao, Nianhong Liu, Sheng Zhang

在硬件资源和功耗预算有限的嵌入式系统上部署计算和内存密集型最先进的深度神经网络(DNN)是一项具有挑战性的任务。最近开发的深度压缩技术使得将大型DNN(如AlexNetVGGNet)完全集成到片上SRAM成为可能。但是,使用现有编码格式(如CSRCSC)压缩的稀疏网络由于其不规则的内存访问特性而使运算在运行时变得复杂。在[1]中,我们引入了计算数据流,堆栈滤波器固定数据流(SFS)和相应的数据编码格式,相对索引压缩稀疏滤波格式(CSF),以实现最佳的数据稀疏性,并简化执行时的数据处理时间。在本文中,我们介绍这些方法的FPGA实现。我们实现了几个紧凑型流式全连接(FC)和卷积(CONV)神经网络处理器来展示它们的效率。与最先进的结果[2,3,4]相比,我们的方法在大多数层上对每个PE的计算效率至少提高了2倍。特别是,我们的方法在384个过滤器的AlexNetCONV4上实现了8倍的改进,在512个过滤器的VGG16CONV5-3上实现了11倍的改进。[1803.10548v3] VGG16CONV5-3带有512个滤波器,性能提升11倍。[1803.10548v3] VGG16CONV5-3带有512个滤波器,性能提升11倍。[1803.10548v3]

 

使用Generative Adversarial Networks纠正多站点神经影像数据的差异

Harrison NguyenRichard W. MorrisAnthony W. HarrisMayuresh S. KorgoankarFabio Ramos

大脑的磁共振成像(MRI)已被用于研究各种神经疾病,但是数据采集可能是昂贵的,耗时的和不方便的。多点研究提供了一个宝贵的机会,通过汇总数据来提高研究水平,从而提高敏感性和统计效能。然而,来源于MRI的图像对于可能引入偏倚和受试者变异的站点之间的明显和非明显差异是敏感的,因此降低统计效能。为了纠正这些差异,我们提出了一种使用被称为生成对抗网络(GAN)的深度学习架构的数据驱动方法。GAN学会估计两个分布,然后可以用来将一个分布的例子转换成另一个分布。在这里,我们将从两个不同部位采集的T1加权脑图像转换为来自同一站点的MR图像。我们评估我们的模型是否可以减少位点特异性差异而不丧失有关性别(男性,女性)或临床诊断(精神分裂症,双相性精神障碍,健康)的信息。经过适当的训练后,我们的模型能够将成像设备归一化为普通的扫描仪,与目前的方法相比,信息丢失较少。一个重要的优点是我们的方法可以被视为一个黑盒子,它不需要任何偏见源的知识,但只需要至少两个不同的成像集。[1803.09375v2] 女)或临床诊断(精神分裂症,双相性精神障碍,健康)。经过适当的训练后,我们的模型能够将成像设备归一化为普通的扫描仪,与目前的方法相比,信息丢失较少。一个重要的优点是我们的方法可以被视为一个黑盒子,它不需要任何偏见源的知识,但只需要至少两个不同的成像集。[1803.09375v2] 女)或临床诊断(精神分裂症,双相性精神障碍,健康)。经过适当的训练后,我们的模型能够将成像设备归一化为普通的扫描仪,与目前的方法相比,信息丢失较少。一个重要的优点是我们的方法可以被视为一个黑盒子,它不需要任何偏见源的知识,但只需要至少两个不同的成像集。[1803.09375v2]

 

头部CT扫描关键发现深度学习算法的研制与验证

Sasank Chilamkurthy,罗希特戈什,Swetha Tanamala,穆斯塔法Biviji,诺伯特G. CmpeawVasantha·库马尔VenugopalVidur的马哈詹,饶普加,PRASHANT更戒备

重要性:非造影头部CT扫描是头部创伤或中风症状患者初始成像的当前标准。目的:开发和验证一套深度学习算法,用于自动检测非对比头部CT扫描的主要结果:颅内出血(ICH)及其类型,实质内(IPH),心室内(IVH),硬膜下(SDH ,硬膜外(EDH)和蛛网膜下腔(SAH)出血,颅骨骨折,中线移位和肿块效应。设计和设置:我们回顾性收集了包含313,318CT扫描的数据集以及来自各个中心的临床报告。该数据集的一部分(Qure25k数据集)用于验证,其余部分用于开发算法。另外,数据集(CQ500数据集)从两个批次B1B2临床验证算法。主要成果和措施:原始临床放射学报告和三位独立放射科医师的共识被认为分别为Qure25kCQ500数据集的金标准。受试者工作特征曲线下的面积(AUC)主要用于评估算法。结果:Qure25k数据集包含21095次扫描(平均年龄43.31;女性42.87%),而CQ500数据集的B1B2批次包括214(平均年龄43.40;女性43.92%)和277(平均年龄51.70;女性30.31%)扫描。在Qure25k数据集上,算法分别检测ICHIPHIVHSDHEDHSAHAUC0.9194,0.8977,0.9595,0.9161,0.92880.9044CQ500数据集上相同的AUC分别为0.9419,0.9540,0.9310,0.9525,0.97310.9574。对于检测颅骨骨折,中线移位和质量效应,Qure25k数据集的AUC分别为0.9244,0.92760.8583,而CQ500数据集的AUC分别为0.9624,0.96970.9216[1803.05854v2]

 

学习花样滑冰运动录像

Bing Zhang, Chengming Xu, Zitian Chen, Yanwei Fu, Yu-Gang Jiang, Xiangyang Xue

本文旨在学习对花样滑冰运动视频进行评分。为了解决这个问题,我们提出了一个包含两个互补组件的深层架构,即自我关注LSTM和多尺度卷积跳跃LSTM。这两个组件可以高效地学习每个视频中的本地和全局顺序信息。此外,我们还提供了一个大型花样滑冰运动视频数据集 – FisV数据集。这个数据集包括500个花样滑冰视频,平均长度为250秒。每个视频由两个九分不同的裁判评分,即总成分得分(TES)和总得分成绩得分(PCS)。我们提出的模型在FisVMIT-skate数据集上进行验证。实验结果表明我们的模型在学习花样滑冰视频中的有效性。[1802

 

使用扩散MRI进行MTBI识别的深度无监督学习方法

Shervin Minaee,姚瑶,Anna ChoromanskaSohae Chung,王秀源,Els FieremansSteven FlanaganJoseph RathYvonne W Lui

轻度创伤性脑损伤是一个日益严重的公共卫生问题,估计美国每年有超过170万人发病。诊断依据临床病史和症状,缺乏准确,具体的损伤措施。这项工作旨在通过结合深度学习技术,直接使用在创伤一个月内获得的扩散MR图像来检测损伤。为了克服由于有限的训练数据所带来的挑战,我们使用文字表示法来描述每个大脑区域,其中指定了代表性片区模式的分布。我们应用卷积自动编码器来学习从MR图像中提取的重叠图像块中的补丁级特征,使用无监督方法从大脑扩散MR图像中学习特征。我们的实验结果表明,使用由自动编码器学习的补丁级别特征的词汇表示提供与使用原始补丁模式相似的性能,两者都显着优于依赖于选定脑区域中MR指标的平均值的早期工作。[1802.02925v2]

 

用于零样本学习的特征生成网络

Yongqin XianTobias LorenzBernard SchieleZeynep Akata

由于看到的和看不见的类别之间极端的训练数据不平衡,大多数现有的最先进的方法未能为具有挑战性的广义零样本学习任务取得令人满意的结果。为了避免需要标记未见类的例子,我们提出了一种新颖的生成对抗网络(GAN),它综合了以类级语义信息为条件的CNN特征,直接从类的语义描述符到类别条件特征分配。我们提出的方法,将Wasserstein GAN与分类损失进行配对,能够生成充分区分性的CNN特征来训练softmax分类器或任何多模式嵌入方法。我们的实验结果表明,对于五个具有挑战性的数据集(CUBFLOSUNAWAImageNet),无论是在零样本学习还是广义零样本学习设置中,都能显着提高精确度。[1712.00981v2]

 

仔细观察时空卷积以识别动作

Du TranHeng WangLorenzo TorresaniJamie RayYann LeCunManohar Paluri

在本文中,我们讨论视频分析的几种形式的时空卷积,并研究它们对动作识别的影响。我们的动机源于观察,即应用于视频的各个帧的2D CNN在动作识别中仍然是坚实的表现者。在这项工作中,我们凭经验论证了残余学习框架内3D CNNs相对于二维CNN的准确性优势。此外,我们表明,将三维卷积滤波器分解成单独的空间和时间分量会产生显着的准确性优势。我们的实证研究导致设计新的时空卷积块“R2 + 1D”,其产生了CNN,其获得的结果可与运动-1M,动力学,UCF101相媲美或优于现有技术和HMDB51[1711.11248v3]

 

零样本学习好,坏,丑的综合评价

Yongqin XianChristoph H. LampertBernard SchieleZeynep Akata

由于零射击学习的重要性,即对缺乏标记训练数据的图像进行分类,所提出的方法的数量最近稳步增加。我们认为现在是退后一步并分析该地区现状的时候了。本文的目的有三个。首先,考虑到没有一致同意的零样本学习基准,我们首先通过统一评估协议和用于该任务的公开可用数据集的数据分割来定义新的基准。这是一个重要的贡献,因为发布的结果往往不具有可比性,有时甚至因为零样本测试课程的预训练而存在缺陷。此外,我们提出了一个新的零样本学习数据集,具有属性2的动物(AWA2)数据集,我们公开可用于图像特征和图像本身。其次,我们比较和分析了大量最先进的深度方法,无论是在经典的零样本设置中,还是在更逼真的广义零样本设置中。最后,我们详细讨论该地区当前状况的局限性,可以作为推动这一进程的基础。[1707.00600v2]

 

端到端全局到局部CNN学习手部姿态恢复深度数据

Meysam MadadiSergio EscaleraXavier BaroJordi Gonzalez

尽管最近人类手部三维姿态估计的进展,特别是感谢CNN和深度相机的出现,但这项任务还远未解决。这主要是由于手指的高度非线性动力学,这使得手模型训练成为具有挑战性的任务。在本文中,我们利用了一种新型的层次树状结构化CNN,其中分支被训练成专用于手关节的预定义子集,称为本地姿势。我们进一步融合从分层CNN分支提取的局部姿态特征,通过端到端训练来学习最终姿态中关节之间的高阶依赖性。最后,所使用的损失函数也被定义为包含关于可行的手部运动和变形的外观和物理限制。最后,我们引入了非刚性数据增强方法来增加训练深度数据的数量。实验结果表明,将专门用于局部姿势的树形CNN馈入用于对关节相关性和相关性进行建模的融合网络中,有助于提高最终估计的精确度,优于纽约大学和SyntheticHand数据集上最先进的结果。[1705.09606v2]

 

生成适应性:使用生成敌对 网络对齐域

Swami ShankaranarayananYogesh BalajiCarlos D. CastilloRam Chellappa

域适应是计算机视觉中一个积极研究的问题。在这项工作中,我们提出了一种利用无监督数据的方法,使源和目标分布更接近学习的联合特征空间。我们通过诱导学习嵌入和生成敌对网络之间的共生关系来实现这一目标。这与使用对抗框架进行实际数据生成和使用这些数据对深层模型进行再训练的方法形成鲜明对比。(1)数字分类(MNISTSVHNUSPS数据集)(2)使用OFFICE数据集进行对象识别和(3)从以下三个不同的任务中进行区域适应:合成到真实的数据。我们的方法在大多数实验设置中实现了最先进的性能,并且迄今为止,唯一基于GAN的方法已被证明可以在不同的数据集(如OFFICEDIGITS)中运行良好。[1704.01705v4]

转载请注明:《零样本学习的对象检测+MelanoGANs:用GANs进行高分辨率皮肤病变样本合成

发表评论