FlowFields ++:准确的光流对应满足可靠的插值+Anchor Cascade用于高效人脸检测

卷积原型学习的鲁棒分类

Hong-Ming Yang, Xu-Yao Zhang, Fei Yin, Cheng-Lin Liu

卷积神经网络(CNN)已被广泛用于图像分类。尽管CNN具有很高的准确性,但它已被证明容易被一些对抗性例子所迷惑,这表明CNN在模式分类方面不够健壮。在本文中,我们认为CNN缺乏鲁棒性是由softmax层引起的,softmax层是一个完全可区分的模型,并基于封闭世界的假设(即具有固定数量的类别)。为了提高鲁棒性,我们提出了一种叫做卷积原型学习(CPL)的新型学习框架。使用原型的优点是它可以很好地处理开放世界的识别问题,从而提高鲁棒性。在CPL的框架下,我们设计了多种分类标准来训练网络。此外,提出原型损失(PL)作为正则化来改善特征表示的类内紧致性,其可以被视为基于不同类别的高斯假设的生成模型。在几个数据集上进行的实验表明,CPL可以实现与传统CNN相当甚至更好的结果,并且从稳健性角度来看,CPL对拒绝和增量类别学习任务显示出很大的优势。[1805.03438v1] CPL对拒绝和增量类别学习任务显示出很大的优势。[1805.03438v1] CPL对拒绝和增量类别学习任务显示出很大的优势。[1805.03438v1]

 

基于忆阻器的无监督神经形态系统朝向快速和节能的GAN

F. LiuC. Liu

深度学习在推动今天的人工智能方面取得了巨大的成功。为了解决监督式学习领域中有限标签数据的挑战,多年前提出了无监督学习,而低准确度则暗示了它的实际应用。生成对抗网络(GAN)作为一种无监督学习方法出现,具有很高的准确性,正在进行广泛的研究。然而,GAN的执行内存和计算密集程度极高,导致超低速和高功耗。在这项工作中,我们提出了一个整体解决方案,通过基于忆阻器的神经形态系统进行快速和节能的GAN计算。首先,我们利用硬件和软件协同设计方法高效地映射GAN中的计算块。我们还根据不同计算模块之间的计算相关性,提出了一种用于优化并行性训练和测试的高效数据流。为了计算GAN的独特和复杂的损失,我们开发了一个具有优化精度和性能的差分模块。大数据的实验结果表明,与传统GPU加速器相比,我们的设计实现了2.8倍的加速和6.1倍的节能,以及与之前的基于FPGA的加速器相比,其5.5倍的加速和1.4倍的节能。[1806.01775v1] 与传统GPU加速器相比,具有8倍的加速比和6.1倍的节能能力,与以前的基于FPGA的加速器相比,具有5.5倍的加速比和1.4倍的节能。[1806.01775v1] 与传统GPU加速器相比,具有8倍的加速比和6.1倍的节能能力,与以前的基于FPGA的加速器相比,具有5.5倍的加速比和1.4倍的节能。[1806.01775v1]

 

编辑场景文本识别的概率

Fan Bai, Zhanzhan Cheng, Yi Niu, Shiliang Pu, Shuigeng Zhou

我们考虑了基于注意力的编码器解码器框架下的场景文本识别问题,这是最先进的。现有方法通常采用逐帧最大似然损失来优化模型。在对模型进行训练时,由于缺失或多余的特征引起的地面真值串与注意输出的概率分布序列之间的错位会混淆误导训练过程,从而导致训练代价高昂,降低识别准确率。为了解决这个问题,我们提出了一种称为编辑概率(EP)的新方法,用于场景文本识别。EP试图从输入图像上的输出概率分布序列中有效地估计产生一个字符串的概率,同时考虑可能发生的缺失/多余字符。其优点在于训练过程可以集中在缺失,多余和未识别的角色上,从而可以缓解甚至克服错位问题的影响。我们对标准基准进行了广泛的实验,包括IIIT-5KStreet View TextICDAR数据集。实验结果表明,EP可以大幅提升场景文本识别性能。[1805.03384v1] 街景文本和ICDAR数据集。实验结果表明,EP可以大幅提升场景文本识别性能。[1805.03384v1] 街景文本和ICDAR数据集。实验结果表明,EP可以大幅提升场景文本识别性能。[1805.03384v1]

 

使用选择性单一背景补丁的相关滤镜的对象跟踪

Lasitha MekkayilHariharan Ramasangu

与现有跟踪器相比,相关滤波器在提高跟踪性能方面起着重要作用。跟踪器使用自适应相关响应来预测目标的位置。最近提出了许多种相关跟踪器,其具有高精度和帧速率。本文提出了一种选择单个背景补丁以获得更好的跟踪性能的方法。该论文还通过用图像恢复滤波器修改滤波器来贡献相关滤波器的变体。该方法使用对象跟踪基准序列进行验证。[1805.03453v1]

 

FlowFields ++:准确的光流对应满足可靠的插值

RenéSchusterChristian BailerOliverWasenmüllerDidier Stricker

光流算法对于许多应用来说非常重要。最近,流场算法及其修改已经显示出显着的结果,因为它们已经在不同数据集上以最高精度进行了评估。在我们对算法的分析中,我们发现它可以产生准确的稀疏匹配,但是插值有改进的空间。因此,我们在本文中提出了FlowFields ++,它将流场的精确匹配与鲁棒插值相结合。另外,我们提出改进的变分优化作为后处理。我们的新算法在具有挑战性的KITTIMPI Sintel数据集上进行评估,并在两个基准测试中获得公共顶级结果。[1805.03517v1]

 

联合行动单位通过热图回归进行本地化和强度估计

Enrique SanchezGeorgios TzimiropoulosMichel Valstar

本文提出了一种监督学习方法来联合执行面部动作单元(AU)定位和强度估计。与先前试图学习动作单元区域的无监督表示的作品相反,我们建议通过热图回归直接和联合估计所有AU强度,以及它们引起可见变化的面部位置。我们的方法旨在学习像素方式的回归函数,每AU返回一个分数,表示在给定空间位置的AU强度。热图回归然后生成每个AU的图像或通道,其中每个像素指示对应的AU强度。为了生成目标AU的地面真实热图,首先估计面部地标,并且在AU已知引起变化的点周围绘制二维高斯。高斯的幅度和大小由AU的强度确定。我们证明,使用一个单一的沙漏网络就可以获得最新的艺术成果,展示这种简单方法的有效性。热图回归的使用允许学习AU之间的共享表示,而不需要依赖潜在表示,因为这些隐含地从数据中学习。我们验证了BP4D数据集上提出的方法,显示了对近期复杂技术的适度改进,以及针对错位错误的稳健性。我们将发布代码和模型来验证实验结果。[1805.03487v1] 证明了这种简单方法的有效性。热图回归的使用允许学习AU之间的共享表示,而不需要依赖潜在表示,因为这些隐含地从数据中学习。我们验证了BP4D数据集上提出的方法,显示了对近期复杂技术的适度改进,以及针对错位错误的稳健性。我们将发布代码和模型来验证实验结果。[1805.03487v1] 证明了这种简单方法的有效性。热图回归的使用允许学习AU之间的共享表示,而不需要依赖潜在表示,因为这些隐含地从数据中学习。我们验证了BP4D数据集上提出的方法,显示了对近期复杂技术的适度改进,以及针对错位错误的稳健性。我们将发布代码和模型来验证实验结果。[1805.03487v1] 技术,以及针对错位错误的稳健性。我们将发布代码和模型来验证实验结果。[1805.03487v1] 技术,以及针对错位错误的稳健性。我们将发布代码和模型来验证实验结果。[1805.03487v1]

 

深方向统计:带有不确定性量化的姿态估计

谢尔盖普罗库金,彼得格勒,塞巴斯蒂安Nowozin

当输入图像质量较高时,现代深度学习系统成功地解决了许多感知任务,例如对象姿态估计。但是,在低成像条件下或图像被成像伪像破坏时,目前的系统在精度上会显着降低。虽然性能损失是不可避免的,但我们希望我们的模型能够量化它们的不确定性,以便实现对不同质量图像的鲁棒性。概率深度学习模型将深度学习的表达能力与不确定性量化相结合。在本文中,我们提出了一种新的角度回归任务的概率深度学习模型。我们的模型使用von Mises分布来预测物体姿态角度上的分布。鉴于单个冯米塞斯分布正在对分布形状做出强有力的假设,我们扩展了基本模型以预测von Mises分布的混合。我们展示了如何使用有限和无限数量的混合组件来学习混合模型。我们的模型允许在测试时进行基于可能性的训练和高效推理。我们在许多具有挑战性的姿态估计数据集上展示了我们的模型与当前最先进的技术相比产生校准的概率预测和竞争或优势点估计。[1805.03430v1] 我们的模型允许在测试时进行基于可能性的训练和高效推理。我们在许多具有挑战性的姿态估计数据集上展示了我们的模型与当前最先进的技术相比产生校准的概率预测和竞争或优势点估计。[1805.03430v1] 我们的模型允许在测试时进行基于可能性的训练和高效推理。我们在许多具有挑战性的姿态估计数据集上展示了我们的模型与当前最先进的技术相比产生校准的概率预测和竞争或优势点估计。[1805.03430v1]

 

对可视化接地的多样化和区分性建议的再思考

Zhou Yu, Jun Yu, Chenchao Xiang, Zhou Zhao, Qi Tian, Dacheng Tao

视觉基础旨在将文本中的对象本地化为由文本查询短语引用的图像。已经提出了各种视觉接地方法,并且该问题可以被模块化为一般框架:提案生成,多模式特征表示和提议排名。在这三个模块中,大多数现有的方法都侧重于后两个模块,而提案生成的重要性通常被忽略。在本文中,我们重新思考哪些属性会成为一个好的提案生成器。我们在提出建议时同时引入多样性和歧视,并在此提出多元化和区分性提议网络模型(DDPN)。根据DDPN提出的建议,我们提出了一个高性能的视觉基准基线模型,并在四个基准数据集上进行评估。

 

保留全局结构和单图像超分辨率信息损失少的新技术

Yijie Bei, Alex Damian, Shijia Hu, Sachit Menon, Nikhil Ravi, Cynthia Rudin

这项工作确定并解决了单图超分辨率中的两个重要技术挑战:(1)如何在不放大噪声的情况下上采样图像;2)如何在上采样时保留大尺度结构。我们总结了我们在2018NTIRE超分辨率挑战赛中为我们的第二场比赛进入第2场(双三次下取样),第7场赛道第2场(现实不利条件)和第3赛段(现实困难) 。此外,我们提出了新的神经网络架构,专门解决上面列出的两个挑战:去噪和保存大型结构。[1805.03383v1]

 

PSGAN:用于遥感影像泛锐化的生成对抗网络

Xiangyu Liu, Yunhong Wang, Qingjie Liu

遥感图像融合(也称为泛锐化)旨在从高空间分辨率单波段全色(PAN)图像和低空间分辨率多光谱(MS)图像的输入生成高分辨率多光谱图像。在本文中,我们提出了PSGAN,一种用于遥感图像泛锐化的生成对抗网络(GAN)。据我们所知,这是首次尝试用GAN生成高质量的泛锐化图像。PSGAN由两部分组成。首先,设计双流融合架构来生成所需的高分辨率多光谱图像,然后将充当卷积网络的鉴别器应用于不同的真实泛锐化”MS图像。对QuickbirdGaoFen-1卫星获取的图像进行的实验表明,所提出的PSGAN可以有效融合PANMS图像,并且显着改善了现有技术的传统和基于CNN的全景图锐化方法的结果。[1805.03371v1]

 

Anchor Cascade用于高效人脸检测

Baosheng Yu, Dacheng Tao

人脸检测对面部分析任务至关重要,例如面部重演和人脸识别。级联面部探测器和基于锚点的面部探测器都将闪光的演示转化为实践并受到社区的广泛关注。然而,级联人脸检测器经常遭受低检测精度,而基于锚的人脸检测器严重依赖于在大规模图像分类数据集(例如ImageNet [1])上预先训练的非常大的网络,这对于训练和计算都不是有效的部署。在本文中,我们设计了一个高效的基于锚的级联框架,称为锚级联。为了通过探索上下文信息来提高检测精度,我们进一步提出了锚定级联的上下文金字塔最大值机制。结果是,锚定级联可以训练非常有效的高检测精度的人脸检测模型。具体来说,与流行的基于CNN的级联人脸检测器MTCNN [2]相比,我们的锚定级联人脸检测器大大提高了检测精度,例如,在FDDB1k误报时,检测精度从0.9435提高到0.9704,同时仍以相当的速度运行。在两个广泛使用的人脸检测基准FDDBWIDER FACE上的实验结果证明了所提出的框架的有效性。[1805.03363v1] 在两个广泛使用的人脸检测基准FDDBWIDER FACE上的实验结果证明了所提出的框架的有效性。[1805.03363v1] 在两个广泛使用的人脸检测基准FDDBWIDER FACE上的实验结果证明了所提出的框架的有效性。[1805.03363v1]

 

野外立面分割

John FemianiWamiq Reyaz ParaNiloy MitraPeter Wonka

与传统图像分割相比,自动获取图像的城市门面分割带来了几个独特的挑战。从车辆捕捉到的360度光球是捕捉大量图像的有效方式,但是这些数据表明难以模拟的翘曲和拼接伪影。另外,每个像素可以属于多个立面元素,并且不同的立面元素(例如,窗户,阳台,门槛等)相关并且在其特征上大幅变化。在本文中,我们提出了三种不同复杂度的网络体系结构,在利用其独特特性的同时实现门面图像的多标签语义分割。具体来说,我们提出了一个MULTIFACSEGNET架构来为每个像素分配多个标签,作为鼓励提取矩形元素的低阶公式的SEPARABLE架构,以及同时寻求跨立面元素类型分割的COMPATIBILITY网络,从而允许网络查看各种立面元素类的中间输出概率。我们在基准数据集上的结果显示,与典型外立面元素的现有立面分割方法相比,显着改进。例如,在一个常用的数据集中,与最佳竞争方法相比,窗口(最重要的架构元素)的准确性分数从0.91增加到0.97%,并对其他元素类型进行可比较的改进。[1805.08634v1] 以及兼容性网络,该网络同时寻求跨越外观元素类型的分割,从而允许网络查看各种外观元素类的中间输出概率。我们在基准数据集上的结果显示,与典型外立面元素的现有立面分割方法相比,显着改进。例如,在一个常用的数据集中,与最佳竞争方法相比,窗口(最重要的架构元素)的准确性分数从0.91增加到0.97%,并对其他元素类型进行可比较的改进。[1805.08634v1] 以及兼容性网络,该网络同时寻求跨越外观元素类型的分割,从而允许网络查看各种外观元素类的中间输出概率。我们在基准数据集上的结果显示,与典型外立面元素的现有立面分割方法相比,显着改进。例如,在一个常用的数据集中,与最佳竞争方法相比,窗口(最重要的架构元素)的准确性分数从0.91增加到0.97%,并对其他元素类型进行可比较的改进。[1805.08634v1] 例如,在一个常用的数据集中,与最佳竞争方法相比,窗口(最重要的架构元素)的准确性分数从0.91增加到0.97%,并对其他元素类型进行可比较的改进。[1805.08634v1] 例如,在一个常用的数据集中,与最佳竞争方法相比,窗口(最重要的架构元素)的准确性分数从0.91增加到0.97%,并对其他元素类型进行可比较的改进。[1805.08634v1]

 

在不同量的测量下傅立叶印染图的阶段检索

Lokesh BoominathanMayug ManiparambilHoney GuptaRahul BaburajanKaushik Mitra

Fourier Ptychography是最近提出的一种成像技术,它通过计算超越光学系统的衍射模糊来产生高分辨率图像。这种方法的关键在于相位检索算法,该算法用于将在相干光源的变化照明角度下拍摄的低分辨率图像进行计算拼接。然而,传统的迭代相位检索技术在很大程度上依赖于初始化,并且在傅里叶域中需要大量重叠以用于连续捕获的低分辨率图像,因此增加了采集时间和数据。我们表明,基于自动编码器的架构可以自适应地进行相位检索训练,在低重叠和传统技术完全失败的情况下,以及更高级别的重叠。对于低重叠情况,我们表明使用自编码发生器的有监督深度学习技术是解决傅立叶印迹问题的好选择。对于高重叠情况,我们表明优化发生器以减少正向模型误差是一个合适的选择。使用模拟来处理不相关的相位和振幅的具有挑战性的情况,我们表明,我们的方法胜过了许多先前提出的傅立叶心电图相位检索技术。[1805.03593v1] 使用模拟来处理不相关的相位和振幅的具有挑战性的情况,我们表明,我们的方法胜过了许多先前提出的傅立叶心电图相位检索技术。[1805.03593v1] 使用模拟来处理不相关的相位和振幅的具有挑战性的情况,我们表明,我们的方法胜过了许多先前提出的傅立叶心电图相位检索技术。[1805.03593v1]

 

使用具有软掩模的深度神经网络的分层光流估计

Xi Zhang, Di Ma, Xu Ouyang, Shanshan Jiang, Lin Gan, Gady Agam

使用分层表示进行运动估计具有能够应对不连续性和遮挡的优点。在本文中,我们学习通过将分层运动表示与深度学习相结合来估计光流。所提出的方法不是将图像预分割成层,而是使用所提出的软掩模模块自动生成光流的分层表示。软掩模模块的基本组件是maxout和熔丝操作,这使得光流的不连续分层表示和更精确的流量估计成为可能。我们表明,通过使用蒙版,运动估计结果在输出层中的输入要素的二次函数。所提出的软掩模模块可以通过替换它们的流输出层而被添加到任何现有的光流估计网络中。在这项工作中,我们使用FlowNet作为我们添加软掩模模块的基础网络。最终的网络在三个众所周知的基准上进行测试,包括监督和非监督流量估计任务。评估结果表明,与原始的FlowNet相比,所提出的网络取得了更好的结果。[1805.03596v1]

 

使用持久同源性和深卷积特征快速准确地对组织学图像进行分割

Talha QaiserYee-Wah TsangDaiki TaniyamaNaoya SakamotoKazanaki NakaneDavid EpsteinNasir Rajpoot

在组织学幻灯片的全幻灯片图像中的肿瘤分割是朝向计算机辅助诊断迈出的重要一步。在这项工作中,我们提出了一个基于持久同源配置文件(PHP)的新概念的肿瘤分割框架。对于给定的图像片段,通过有效计算持久同源性来获得同源性谱,其是来自同源性理论的代数工具。我们提出一种计算图像拓扑持久性的有效方法,替代单纯的同源。通过对肿瘤细胞核的非典型特征进行建模,PHP设计为将肿瘤区域与正常细胞区分开来。我们提出了两种肿瘤分割方法的变体:一种是在不影响准确性的情况下以速度为目标,另一种以更高精度为目标。快速版基于从卷积神经网络(CNN)选择示例图像块并通过量化样本的PHP与输入图像块之间的差异来进行补丁分类。详细的比较评估表明,所提出的算法比竞争算法快得多,同时实现可比较的结果。准确的版本结合了PHP和高级CNN功能,并采用多阶段集成策略进行图像补丁标签。实验结果表明,PHPCNN功能的组合优于竞争算法。本研究是在两个独立收集的包含腺瘤,腺癌,印章和健康案例的结直肠数据集上进行的。总体而言,准确的肿瘤分割产生最高的平均斑块水平F1评分,与竞争算法相比,来自两个数据集的恶性和健康病例。总体而言,所提出的框架强调了用于组织病理学图像分析的持久同源性的效用。[1805.03699v1]

 

KL散度激发的跟踪度量的描述

泰伦斯亚当斯

给出了跟踪系统评估的统一度量。该度量来自KL散度或相对熵,它通常用于评估聚类技术。由于跟踪问题与聚类有根本的不同,因此KL-散度的组成部分会被重新处理以处理各种类型的跟踪错误(即错误警报,错误检测,合并,分裂)。初步评分结果在标准跟踪数据集(牛津市中心数据集)上给出。在最后一节中,列出了该指标的未来优势,以及用于改进指标的想法。我们以跟踪度量标准的一些开放问题结束。[1805.03707v1]

 

光学相干断层扫描图像中全反射点的全自动分割

Thomas SchleglHrvoje BogunovicSophia KlimschaPhilipp SeebockAmir SadeghipourBianca GerendasSebastian M. WaldsteinGeorg LangsUrsula Schmidt-Erfurth

视网膜成像数据中疾病相关实体的自动检测与疾病和治疗监测相关。它可以对大量数据进行定量评估以及疾病特征的相应研究。高反射病灶(HRF)的存在与各种视网膜疾病的疾病进展有关。在光谱域光学相干断层扫描(SD-OCT)扫描中手动识别HRF是容易出错且乏味的。我们提出了一种在SD-OCT扫描中分割HRF的全自动机器学习方法。对注视的视网膜OCT图像进行评估表明,剩余的U网可以高精度地分割HRF。由于我们的数据包括来自不同视网膜疾病的数据,包括年龄相关性黄斑变性,糖尿病性黄斑水肿和视网膜静脉阻塞,该算法可以安全地应用于所有这些,但已知不同的病理生理起源。[1805.03278v1]

 

复发CNN用于3D凝视估计的外观和形状线索

Cristina PalmeroJavier SelvaMohammad Ali BagheriSergio Escalera

凝视行为是社交信号处理和人机交互的重要非语言提示。在本文中,我们使用多模式递归卷积神经网络(CNN)来解决来自远程相机的人头和头部姿态无关的3D注视估计问题。我们建议在CNN中将脸部,眼睛区域和脸部地标作为单独的流进行组合,以估计静止图像中的视线。然后,我们通过将序列中所有帧的学习特征提供给预测最后一帧的3D注视向量的多对一经常性模块来利用注视的动态特性。我们的多模式静态解决方案在各种头部姿势和注视方向上进行评估,比EYEDIAP数据集的现有技术水平显着提高了14.6%当包括时间模态时进一步改善4%。[1805.03064v2]

 

带有带通滤波的深度神经网络高度可扩展的图像重建

Joseph Y. Cheng,陈飞宇,Marcus T. AlleyJohn M. PaulyShreyas S. Vasanawala

为了提高深度神经网络在图像重建中的灵活性和可扩展性,提出了一种基于带通滤波的框架。对于许多应用,感测测量是间接执行的。例如,在磁共振成像中,数据在频域中被采样。带通滤波的引入使得能够利用已知的成像物理学,同时确保最终重建与实际测量一致以保持重建准确性。我们展示了这种灵活的体系结构,用于重建MRI扫描的二次采样数据集。由此产生的高二次采样率可以提高MRI采集的速度,并实现可视化快速血液动力学。[1805.03300v1]

 

分布式雷达自动对焦成像的稀疏盲解卷积

哈桑·曼苏尔,德宏刘,乌卢格别克S.卡米洛夫,佩特罗斯T. Boufounos

雷达成像系统中出现的一个常见问题,特别是那些安装在移动平台上的问题是天线位置模糊。解决这种模糊性和正确位置误差的方法通常被称为雷达自动对焦。试图解决天线不确定性的常用技术通常假定影响雷达测量的未知增益和相位误差。然而,确保未知误差的可识别性和易处理性对可允许的天线扰动施加了严格的限制。此外,这些技术通常不适用于近场成像,其中将位置模糊度映射为相位误差。在本文中,我们提出了一种替代公式,其中每个天线的位置误差被映射到图像域中的空间移位算子。从而,雷达自动聚焦问题变成一个多通道盲解卷积问题,其中雷达测量结果对应于静态雷达图像的观测结果,该静态雷达图像与与每个天线相关联的空间移位内核进行卷积。为了解决重构问题,我们还开发了一个块坐标下降框架,该框架利用了雷达场景的稀疏性和分段平滑性,以及二维移位核的单稀疏性质。我们使用模拟雷达测量和实验雷达测量来评估我们方法的性能,并与最先进的方法相比,展示其优越的性能。[1805.03269v1] 其中雷达测量结果对应于静态雷达图像的观测值,该静态雷达图像与与每个天线相关联的空间移位内核进行卷积。为了解决重构问题,我们还开发了一个块坐标下降框架,该框架利用了雷达场景的稀疏性和分段平滑性,以及二维移位核的单稀疏性质。我们使用模拟雷达测量和实验雷达测量来评估我们方法的性能,并与最先进的方法相比,展示其优越的性能。[1805.03269v1] 其中雷达测量结果对应于静态雷达图像的观测值,该静态雷达图像与与每个天线相关联的空间移位内核进行卷积。为了解决重构问题,我们还开发了一个块坐标下降框架,该框架利用了雷达场景的稀疏性和分段平滑性,以及二维移位核的单稀疏性质。我们使用模拟雷达测量和实验雷达测量来评估我们方法的性能,并与最先进的方法相比,展示其优越的性能。[1805.03269v1] 以及二维移位核的一个稀疏性质。我们使用模拟雷达测量和实验雷达测量来评估我们方法的性能,并与最先进的方法相比,展示其优越的性能。[1805.03269v1] 以及二维移位核的一个稀疏性质。我们使用模拟雷达测量和实验雷达测量来评估我们方法的性能,并与最先进的方法相比,展示其优越的性能。[1805.03269v1]

 

实例标准化的有效性:单幅图像去雾的强基准

Zheng Xu, Xitong Yang, Xue Li, Xiaoshuai Sun

我们提出了一种新颖的深度神经网络体系结构,用于解决单个图像去雾的挑战性问题,旨在从朦胧的图像中恢复清晰的图像。我们的端到端系统不是依靠手工制作的图像先验或明确估计广泛使用的大气散射模型的组件,而是直接从输入模糊图像生成清晰图像。所提出的网络具有带跳过连接和实例标准化的编码器解码器体系结构。我们采用预先训练好的VGG网络的卷积层作为编码器,以利用深度特征的表示能力,并展示实例归一化对图像去雾的有效性。我们简单而有效的网络在基准数据集上优于最先进的方法。[1805.03305v1]

 

使用逐渐增长的生成对抗网络的高分辨率医学图像合成

Andrew BeersJames BrownKen ChangJ. Campbell PeterSusan OstmoMichael F. ChiangJayashree Kalpathy-Cramer

生成对抗网络(GAN)是一类无监督机器学习算法,可以从多维空间中的随机采样矢量生成逼真的图像。直到最近,使用GAN生成逼真的高分辨率图像是不可能的,这限制了它们适用于仅包含天然分辨率下可检测的生物标记的医学图像。GAN的逐步增长是一种方法,其中图像生成器被训练以初始合成低分辨率合成图像(8×8像素),然后将其馈送到区分这些合成图像与真实下采样图像的鉴别器。然后迭代地引入额外的卷积层以产生两倍于先前分辨率的图像,直到达到期望的分辨率。在这项工作中,我们证明这种方法可以在两个不同的领域产生逼真的医学图像显示与早产儿视网膜病(ROP)相关的血管病理学的眼底照片,以及胶质瘤的多模态磁共振图像。我们还显示,通过将分割图作为附加通道,可以保留和增强与病理相关的细节细节,例如视网膜血管或肿瘤异质性。我们设想了该方法的几种应用,包括图像增强和病理学的无监督分类。[1805.03144v2] 我们还显示,通过将分割图作为附加通道,可以保留和增强与病理相关的细节细节,例如视网膜血管或肿瘤异质性。我们设想了该方法的几种应用,包括图像增强和病理学的无监督分类。[1805.03144v2] 我们还显示,通过将分割图作为附加通道,可以保留和增强与病理相关的细节细节,例如视网膜血管或肿瘤异质性。我们设想了该方法的几种应用,包括图像增强和病理学的无监督分类。[1805.03144v2]

 

未经校准的多单应估计中完全明确的一致性约束

Wojciech ChojnackiZygmunt L. Szpak

我们揭示了需要对一组3×3矩阵强加的一组完整的约束,以确保矩阵表示与两个视图之间的多个平面相关的真正单应性。我们还展示了如何利用约束来获得两个视图之间的单应性矩阵的更准确估计。[1805.02352v2]

 

使用新颖方程(NEPTUNE)的近溺早期预测技术用于游泳池

大卫普拉卡什

安全是所有游泳池的关键因素。本文描述了一种使用新方程(NEPTUNE)的近乎淹没早期预测技术。NEPTUNE使用方程式或规则,能够使用至少1秒但不超过5秒的视频序列来检测溺水事件,而不会发生误报。NEPTUNE的骨干包括统计图像处理的混合,以合并视频序列的图像,然后进行K均值聚类以提取合并图像中的分段,并最后再到统计图像处理以导出每个分段的变量。这些变量将被方程用来识别近溺水。NEPTUNE有潜力整合到一个游泳池照相系统中,该系统可以向救生员发出警报,以便及早作出反应,以便恢复的可能性很高。[1805

 

Crossbar-Net:一种用于CT图像中肾肿瘤分割的新型卷积网络

Qian Yu, Yinghuan Shi, Jinquan Sun, Yang Gao, Yakang Dai, Jianbing Zhu

由于运动不规则,外形相似,形态多样,CT图像中肾脏肿瘤的准确分割是一项艰巨且具有挑战性的任务。为此,我们提出了一种新的自动分割方法,称为Crossbar-Net,其目标是精确分割肾肿瘤。首先,考虑到传统的基于学习的分割方法通常采用整幅图像或平方斑块作为训练样本,我们创新性地对正交非平方斑块(即交叉斑块)进行采样,以完全覆盖整个肾脏肿瘤的水平或垂直方向。这些取样的横断面贴片不仅可以将传统贴片的肾脏肿瘤的详细局部信息表示出来,还可以使用上下文信息从水平或垂直方向描述整体外观。其次,利用所获得的横杆贴片,以级联的方式训练了一个具有两个子模型(即水平子模型和垂直子模型)的卷积神经网络,将来自两个方向的分割结果(即水平和垂直子模型)垂直)。这种级联训练策略可以有效地保证子模型之间的一致性,通过互相提供最难的样本,实现更好的分割。在实验中,我们评估了我们的方法在一个真正的CT肾脏肿瘤数据集上,收集了94个不同的患者,其中包括3500个图像。与最先进的分割方法相比,结果证明了我们的方法对骰子比率得分的优越结果,真正分数,质心距离和豪斯多夫距离。此外,我们已经将我们的交叉网络扩展到不同的任务:心脏分割,显示更好的泛化的有希望的结果。[1804.10484v2]

 

基于点交互和顺序补丁学习的交互式医学图像分割

Jinquan Sun, Yinghuan Shi, Yang Gao, Lei Wang, Luping Zhou, Wanqi Yang, Dinggang Shen

由于组织对比度低,不规则的物体外观和不可预知的位置变化,将来自不同医学成像模态(例如,CTMR)的对象分割被认为是重要但具有挑战性的任务。在本文中,我们提出了一种新颖的交互式医学图像分割方法,具有以下优点。(1)我们的设计与以前纯粹的基于补丁和基于图像的分割方法有着根本的不同。我们观察到,在描绘过程中,医生反复检查内侧外侧强度变化以确定边界,这表明内外方式的比较非常重要。因此,我们创造性地将我们的分割任务建模为学习双向顺序补丁的表示,从对象的给定中心点开始(或结束)。这可以通过我们提出的嵌入了门控存储器传播单元的ConvRNN网络来实现。(2)与以前的交互式方法(需要边界框或种子点)不同,我们只要求医师在分割之前点击对象的粗糙中心点,这可以同时提高性能并缩短分割时间。(3)我们在多层框架中使用我们的方法以获得更好的性能。我们系统地评估了我们的方法在三种不同的分割任务中,包括CT肾肿瘤,MR前列腺和PROMISE12挑战,与最先进的方法相比显示出有前途的结果。代码可以在这里找到:\ href {https://github.com/sunalbert/Sequential-patch-based-segmentation} {Sequential-patch-based-segmentation}

 

MagNet防御对抗$ L_1 $对抗案例的限制

Pei-Hsuan Lu, Pin-Yu Chen, Kang-Cheng Chen, Chia-Mu Yu

近年来,为了构建由深度神经网络(DNNs)训练的鲁棒机器学习模型,捍卫对自然例子的敌对扰动已经成为深度学习和安全性相结合的新兴研究领域。尤其是,由对手探测器和数据重组器构成的MagNet是迄今为止黑箱不经意攻击设置中最强有力的防御措施之一,攻击者的目标是从未设防的DNN模型制作可转让的敌对示例,绕过未知的防御模块部署在相同的DNN模型上。在此设置下,MagNet可以成功防御DNN中的各种攻击,包括基于$ L_2 $失真度量的CarliniWagner攻击生成的高信度对抗示例。但是,在本文中,在相同的攻击设置下,我们展示基于$ L_1 $失真度量制作的敌对示例可轻松绕过MagNet,并误导MNISTCIFAR-10上的目标DNN图像分类器。我们还解释了为什么所考虑的方法能够产生出色的攻击性能的对抗性例子,并对MagNet变体进行了大量实验,以验证其对基于$ L_1 $失真的攻击的鲁棒性的缺乏。值得注意的是,我们的结果大大削弱了MagNet上的有效威胁模型的假设,即在攻击DNN时需要了解已部署的防御技术(即灰箱攻击设置)。[1805.00310v2] 我们还解释了为什么所考虑的方法能够产生出色的攻击性能的对抗性例子,并对MagNet变体进行了大量实验,以验证其对基于$ L_1 $失真的攻击的鲁棒性的缺乏。值得注意的是,我们的结果大大削弱了MagNet上的有效威胁模型的假设,即在攻击DNN时需要了解已部署的防御技术(即灰箱攻击设置)。[1805.00310v2] 我们还解释了为什么所考虑的方法能够产生出色的攻击性能的对抗性例子,并对MagNet变体进行了大量实验,以验证其对基于$ L_1 $失真的攻击的鲁棒性的缺乏。值得注意的是,我们的结果大大削弱了MagNet上的有效威胁模型的假设,即在攻击DNN时需要了解已部署的防御技术(即灰箱攻击设置)。[1805.00310v2] 我们的结果大大削弱了MagNet上的有效威胁模型的假设,即在攻击DNN(即灰箱攻击设置)时需要了解已部署的防御技术。[1805.00310v2] 我们的结果大大削弱了MagNet上的有效威胁模型的假设,即在攻击DNN(即灰箱攻击设置)时需要了解已部署的防御技术。[1805.00310v2]

 

介入应用的无标记内外跟踪

Benjamin BusamPatrick RuhkampSalvatore VirgaBeatrice LentesNassir NavabChristoph Hennersperger

追踪医疗器械的旋转和平移在许多现代干预措施中起着重要作用。传统的外部光学跟踪系统经常受到视线问题的影响,特别是当感兴趣区域难以进入或者该程序仅允许有限的刚体标记时。引入内外跟踪系统旨在克服这些问题。我们提出了基于视觉SLAM的无标记追踪系统,以实现在介入场景中跟踪仪器。为了实现这一目标,我们在感兴趣的对象上安装一个微型多模式(单眼,立体,有源深度)视觉系统,并将其姿势重新定位在手术室的自适应地图中。我们比较了最先进的算法流水线,并将其应用于前列腺经直肠三维超声(TRUS)复合。使用商业光学跟踪系统以及机器人操纵器将获得的体积与重建进行比较。基于特征的双目SLAM被认为是最有前途的方法,并且在严重阻塞下的具有挑战性的临床环境中以及美国前列腺活组织检查的用例中进行了广泛的测试。[1804.01708v2]

 

用于图像分类的分层转移卷积神经网络

Xishuang Dong, Hsiang-Huang Wu, Yuzhong Yan, Lijun Qian

在本文中,我们讨论如何提高卷积神经网络(CNN)在图像分类早期学习阶段的泛化性能。这受实时应用程序的驱使,要求CNN的泛化性能在有限的培训时间内达到令人满意的程度。为了实现这一点,提出了一种新型的等级转移CNN框架。它由一组浅CNN和一个云CNN组成,首先训练浅CNN,然后使用训练的浅CNN的第一层初始化云CNN的第一层。这种方法将显着提高云CNN的泛化性能,特别是在培训的早期阶段。使用CIFAR-10ImageNet数据集进行实验来检查所提出的方法。结果表明,在学习初期,测试准确性平均提高12%,CIFAR-10病例提高20%,而ImageNet病例测试准确性提高5%。这也表明,在不同的退出设置和浅CNN数量下,测试精度的普遍提高得到了实现。[1804.00021v2]

 

用语言引用表达式进行视频对象分割

Anna KhorevaAnna RohrbachBernt Schiele

大多数最先进的半监督视频对象分割方法依赖于为视频的第一帧提供的目标对象的像素精确掩模。但是,获取详细的分段掩模是昂贵和耗时的。在这项工作中,我们探索了另一种识别目标对象的方式,即通过使用语言表达来表达。除了作为指出目标物体的更实际和自然的方式之外,使用语言规范还可以帮助避免漂移,并使系统对复杂的动力学和外观变化更具鲁棒性。利用为图像设计的语言接地模型的最新进展,我们提出了一种将它们扩展到视频数据的方法,以确保时间上连贯的预测。为了评估我们的方法,我们增加了流行的视频对象分割基准,DAVIS’16DAVIS’17带有目标对象的语言描述。我们展示了我们的方法与DAVIS’16上可以访问目标对象的像素级掩模的方法相同,并且与在具有挑战性的DAVIS’17数据集上使用涂鸦的方法相竞争。[1803.08006v2]

 

VizWiz大挑战:回答盲人的视觉问题

Danna Gurari, Qing Li, Abigale J. Stangl, Anhong Guo, Chi Lin, Kristen Grauman, Jiebo Luo, Jeffrey P. Bigham

目前自动回答视觉问题的算法的研究是通过在人工VQA设置中构建的视觉问答(VQA)数据集来激发的。我们提出VizWiz,这是首个面向目标的VQA数据集,它源于自然VQA设置。VizWiz包含来自盲人的31,000多个视觉问题,每个人使用移动电话拍摄照片并记录关于它的口头问题以及每个视觉问题的10个众包答案。VizWiz与许多现有的VQA数据集有所不同,因为(1)图像被盲人摄影师拍摄,因此通常质量较差,(2)提问更多,而且会话更多,以及(3)经常出现视觉问题无法回答。评估用于回答视觉问题和决定视觉问题是否可回答的现代算法表明VizWiz是一个具有挑战性的数据集。我们引入这个数据集来鼓励更大的社区开发可以帮助盲人的更广泛的算法。[1802.08218v4]

 

针对姿态不变3D匹配的关键点检测器和描述符的端到端学习

Georgios GeorgakisSrikrishna Karanam,吴紫岩,Jan ErnstJana Kosecka

查找图像或3D扫描之间的对应关系是许多计算机视觉和图像检索应用的核心,并且通常通过匹配本地关键点描述符来启用。考虑到检测器,描述符或度量学习目标,过去已将各种学习方法应用于匹配流水线的不同阶段。这些目标通常是分开处理的,大部分以前的工作都集中在图像数据上。本文提出了关键点检测的端到端学习框架及其3D深度图或3D扫描的表示(描述符),其中两者可以针对任务特定的目标进行联合优化,而无需单独的注释。我们采用了一种由抽样层和一种新颖的分数损失函数增强的连体建筑,这又反过来影响了区域建议的选择。通过根据与已知3D姿态标签的一致性对相应区域提议进行抽样,自动获得正面和负面示例。与多个基准数据集上的深度数据进行匹配实验证明了所提出方法的有效性,显示出相对于最先进方法的显着改进。[1802.07869v2] 与最先进的方法相比显示出显着的改进。[1802.07869v2] 与最先进的方法相比显示出显着的改进。[1802.07869v2]

 

SPLATNet:用于点云处理的稀疏莱迪思网络

杭苏,Varun Jampani,德清孙,Subhransu MajiEvangelos KalogerakisMing-Hsuan YangJan Kautz

我们提出了一种处理点云的网络体系结构,该体系结构直接作用于高维晶格中表示为稀疏样本集合的点的集合。由于格子的大小增加,在这个格子上天真地应用卷积的程度很差,无论是在记忆还是计算成本方面。相反,我们的网络使用稀疏的双边卷积层作为构建块。这些层通过使用索引结构仅对格子的占用部分应用卷积来保持效率,并且允许灵活指定格子结构以实现分级和空间感知特征学习,以及联合2D-3D推理。基于点的图像和基于图像的表示可以很容易地结合到具有这种图层的网络中,并且所得到的模型可以以端对端的方式进行训练。我们展示了3D分割任务的结果,其中我们的方法胜过了现有的最新技术。[1802.08275v4]

 

基于迭代积分签名的多维时间序列不变量

Joscha Diehl,杰里米Reizenstein

我们为多维时间序列引入了一类新颖的特征,这些特征对于周围空间的变换是不变的。考虑一般线性群,旋转群和轴群排列组。他们构建的起点是陈的迭代积分签名。[1801.06104v2]

 

多步骤行人重新识别通过顺序决策

Jianfu Zhang, Naiyan Wang, Liqing Zhang

多重行人重新识别问题是监控视频分析的核心。它匹配来自不同相机的两条行人轨道。与现有的用时间序列模型(如递归神经网络)聚合单帧特征的作品相反,本文提出了一种可解释的强化学习方法来解决这个问题。特别是,我们每次训练代理人验证一对图像。代理可以选择输出结果(相同或不同)或请求另一对图像进行验证(不确定)。通过这种方式,我们的模型隐含地学习了图像对的难度,并在模型没有积累足够的证据时推迟决策。而且,通过调整不确定行为的回报,我们可以轻松地在速度和准确性之间进行折衷。在三个开放基准中,我们的方法是与最先进的方法竞争,而只使用3%至6%的图像。这些有希望的结果表明,我们的方法在效率和性能上都是有利的。[1712.07257v2]

 

可转移半监督语义分割

Huaxin Xiao, Yunchao Wei, Yu Liu, Maojun Zhang, Jiashi Feng

基于深度学习的语义分割模型的性能在很大程度上取决于充足的数据和仔细的注释。但是,即使是最大的公共数据集也只能提供具有相当有限语义类别的像素级注释的样本。这种数据稀缺严重限制了语义分割模型在实际应用中的可扩展性和适用性。在本文中,我们提出了一种新的可移植的半监督语义分割模型,它可以将学习到的分割知识从几个具有像素级注释的强类别转移到仅仅具有图像级注释的弱类别,从而显着拓宽适用的深层领域分割模型。特别是,所提出的模型由两个互补和可学习的部分组成:标签传输网络(L-Net)和预测传输网络(P-Net)。L-Net学习将分类知识从强类别转移到弱类别中的图像,并通过有效利用跨类别共享的相似外观来生成粗糙的像素级别语义地图。同时,P-Net通过精心设计的对抗学习策略量化转移的知识,并生成更精细的细分结果和更好的细节。在PASCAL VOC 2012中,集成L-NetP-Net分别使用50%和0%类别的像素级注释完成了完全监督基线的96.5%和89.4%的性能。借助这种新颖的传输机制,我们提出的模型很容易推广到各种新类别,只需要图像级别的注释,并在实际应用中提供了吸引人的可扩展性。[1711.06828v2]

 

重新审视基于批量的活动识别

Alejandro CartasJuan MarinPetia RadevaMariella Dimiccoli

可穿戴相机可以收集大量的图像数据,为佩戴者的日常活动提供丰富的视觉信息。受到自动识别日常活动(如习惯改善的生活方式特征描述,情境感知个人帮助和远程康复服务)可实现的大量健康应用的启发,我们提出了一个系统,可根据照片对21种日常活动进行分类通过可穿戴照相机获取的流媒体。我们的方法结合了基于卷积神经网络的图像层级的晚期融合集成策略的优势,以及循环神经网络能够解释光流中高级特征的时间演变而不依赖于事件边界的能力。建议的基于批次的方法实现了89.85%的总体准确度,超越了现有技术的端到端方法。这些结果是在一个数据集上实现的,该数据集包含平均26天内捕获的三个人的44,902个自我中心照片。[1710.04112v2]

 

基于深度卷积神经网络的城市土地覆盖分类与缺失数据模型

Michael KampffmeyerArnt-BørreSalbergRobert Jenssen

城市土地覆盖自动分类是遥感中的一个基本问题,例如环境监测。这个问题非常具有挑战性,因为班级一般具有较高的班级间差异和较低的班内差异。提高城市土地覆盖遥感分类性能的技术包括将来自不同传感器的数据与不同数据模式融合。然而,这些技术要求分类器在决策过程中(即在测试时间以及在训练中)使用所有模态。如果数据模式在测试时间丢失,目前最先进的方法通常没有可用于利用这些模式的信息的过程。这代表了浪费潜在有用的信息。我们提出了一种补救方法用于城市土地覆盖分类的卷积神经网络(CNN)体系结构,该体系能够将所有可用的训练模式嵌入到所谓的幻觉网络中。该网络将在测试阶段取代缺失的数据模式,即使在测试中缺少数据模式时也可实现融合功能。我们演示了使用由光学和数字表面模型(DSM)图像组成的两个数据集的方法。我们通过假设测试过程中DSM图像丢失来模拟丢失的模式。我们的方法优于仅在光学图像上训练的标准CNN以及两个标准CNN的整体。我们进一步评估了我们的方法处理测试过程中只有一些DSM图像丢失的情况的潜力。总体,我们表明我们可以在测试过程中清楚地利用缺失模式的培训时间信息。[1709.07383v2]

 

自动单摄像机视速测量的综合数据集

Jakub SochorRomanJuránekJakubŠpaňhelLukášMaršíkAdamŠirokýAdam HeroutPavelZemčík

在本文中,我们重点关注交通摄像机标定和单个单目摄像机的视觉速度测量,这是视频交通监控的一项重要任务。由于缺乏具有可靠基础事实的通用数据集,解决这个问题的现有方法难以比较。因此,不清楚这些方法在各方面如何比较以及哪些因素影响其表现。我们捕获了18个全高清视频的新数据集,每个视频大约1小时,在六个不同的位置捕获。视频中的车辆(总共20865个实例)用来自使用LiDAR的光门的精确速度测量进行注释,并通过多个参考GPS轨道进行验证。我们使数据集可供下载,并包含视频和元数据(校准,图像中的特征长度,注释等)以供将来比较和评估。相机校准是速度测量中最关键的部分因此,我们简要概述了这些方法并分析了最近发布的全自动摄像机校准和车辆速度测量方法,并详细报告了该数据集的结果。[1702.06441v2]

转载请注明:《FlowFields ++:准确的光流对应满足可靠的插值+Anchor Cascade用于高效人脸检测

发表评论