基于多尺度旋转域卷积神经网络的任意船舶位置检测与方向预测+超越计数:人群分析任务的密度图比较 – 计数,检测和跟踪

组等变胶囊网络

Jan Eric LenssenMatthias FeyPascal Libuschewski

我们提出组等变量胶囊网络,一个框架来向胶囊网络思想引入保证的等变性和不变性质。我们将姿态向量和学习过的变换限制为一个组的元素,这使得我们可以证明在应用组规则时姿态向量的等变性和激活的不变性。需求是一种修改的胶囊空间聚合方法,以及一种通过协议算法和抽象规则的通用路由,我们都在这项工作中提出。此外,我们将等变胶囊网络与群卷积网络领域的工作联系起来,这些网络由在群体法则的应用下是等变的卷积组成。通过这个连接,我们能够提供两种方法如何相互关联的直觉,并且能够将两种方法结合在一个深度神经网络架构中,并结合两个领域的优势。由此产生的框架允许对组上定义的特征映射进行稀疏评估,提供对特定等变性和不变性属性的控制,并且可以通过协议而不是汇集操作来使用路由。它提供可解释和等变的表示向量作为输出胶囊,从而将物体存在的证据与其姿态分开。[1806.05086v1] 提供对特定等变性和不变性属性的控制,并且可以通过协议而不是汇集操作来使用路由。它提供可解释和等变的表示向量作为输出胶囊,从而将物体存在的证据与其姿态分开。[1806.05086v1] 提供对特定等变性和不变性属性的控制,并且可以通过协议而不是汇集操作来使用路由。它提供可解释和等变的表示向量作为输出胶囊,从而将物体存在的证据与其姿态分开。[1806.05086v1]

 

用于分割模糊图像的概率U-Net

Simon AA Kohl Bernardino Romera-Paredes Clemens Meyer Jeffrey De Fauw Joseph R. Ledsam Klaus H. Maier-Hein SM Ali Eslami Danilo Jimenez Rezende Olaf Ronneberger

许多现实世界的视觉问题都存在固有的模糊性。例如在临床应用中,单独CT扫描可能并不清楚哪个特定区域是癌症组织。因此,一组分级人员通常会产生一组不同的但合理的分割。我们考虑在给定输入的情况下学习分段分布的任务。为此,我们提出了一种基于U-Net与条件变分自动编码器相结合的生成分割模型,该模型能够有效地产生无限数量的合理假设。我们在肺部异常分割任务和Cityscapes分割任务上展示我们的模型再现可能的分割变体以及它们发生的频率,这比已公开的方法显着更好。这些模型可能会对现实世界的应用产生很大的影响,比如被用作临床决策算法来解释多个合理的语义分割假设,以提供可能的诊断并推荐进一步的行动来解决当前的模糊问题。[1806.05034v1]

 

用于高动态范围成像的卷积稀疏编码

安娜塞拉诺,费利克斯海德,迭戈古铁雷斯,戈登韦茨斯坦,贝伦马西亚

当前的HDR采集技术基于(i)融合多条带,低动态范围(LDR)图像,(ii)修改现有硬件并与多个传感器同时捕获不同曝光,或(iii)利用空间变化的像素重建单个图像曝光。在本文中,我们提出了一种新的算法来从单个编码曝光恢复高质量的HDRI图像。所提出的重建方法基于最近引入的卷积稀疏编码(CSC)的思想本文演示了如何使CSC适用于HDR成像。我们证明了所提出的算法实现比替代方法更高质量的重建,我们评估光学编码方案,分析算法参数,并构建原型编码的HDR相机,演示卷积稀疏HDRI编码与定制硬件平台的实用性。[1806.04942v1]

 

用卷积神经网络估计跟腱愈合进展

Norbert KapinskiJakub ZielinskiBartosz A. BoruckiTomasz TrzcinskiBeata Ciszkowska-LysonKrzysztof S. Nowinski

定量评估跟腱愈合过程中的治疗进程现代医学实践中最常见的肌肉骨骼疾病之一通常是一个漫长而复杂的过程:多种MRI方案需要由放射专家采集和分析。在本文中,我们建议使用基于预先训练的卷积神经网络的新方法来显着降低此评估的复杂性。我们首先训练我们的神经网络超过500,000二维轴横截面超过3000三维MRI研究分类MRI图像属于一个健康或受伤的类,取决于病人的情况。然后,我们采取修改的预先训练的网络的输出,并对PCA减少的特征空间进行线性回归以评估治疗进展。我们的方法可以将MRI扫描过程中需要注册的数据量降低5倍,而不会丢失任何信息。此外,我们能够在6个主要标准中的3个中以等同的准确度预测愈合过程阶段对人类专家。最后,与目前依靠放射科医师主观意见的再生评估方法相反,我们的方法允许客观比较不同的治疗方法,这些方法可以导致改进的诊断和患者恢复。[1806.05091v1] 与目前依赖放射科医师主观意见的再生评估方法相反,我们的方法允许客观地比较不同的治疗方法,这些方法可以导致改进的诊断和患者恢复。[1806.05091v1] 与目前依赖放射科医师主观意见的再生评估方法相反,我们的方法允许客观地比较不同的治疗方法,这些方法可以导致改进的诊断和患者恢复。[1806.05091v1]

 

针对异构图像的多实例学习:培训CNN进行组织病理学

Heather D. CoutureJS BrownCharles M. PerouMelissa A. TroesterMarc Niethammer

利用卷积神经网络进行多重实例(MI)学习,可以在存在弱图像级标签的情况下进行端到端培训。我们提出了一种新方法,通过使用分位数函数将来自图像较小区域的预测聚合到图像级分类中。分位函数提供了对每幅图像中异质性的更完整描述,从而改善了图像级分类。我们还通过随机选择在每个训练时期应用MI聚合的裁剪区域来将图像增强调整到MI框架。这提供了一个机制来研究MI学习的重要性。我们验证了我们的方法在乳腺肿瘤组织学五种不同分类任务中的应用,并提供了一种解释局部图像分类的可视化方法,可以导致未来洞察肿瘤异质性。[1806.05083v1]

 

用于少量细粒度识别的跨模态幻觉

Frederik PahdePatrickJähnichenTassilo KleinMoin Nabi

最先进的深度学习算法通常需要大量的数据进行模型训练。其缺乏会严重损害性能,特别是在类别之间具有细粒度边界的情况下。为此,我们提出了一种多模式方法,通过有意义的联合嵌入来促进弥 合信息鸿沟。具体而言,我们提出了一个基准,它是训练期间的多模态(即图像和文本)和单模态测试时间(即图像),以及相关任务,利用基础类中的多模态数据(包含许多样本),学习显式视觉用于新类别的分类器(具有少量样本)。接下来,我们提出一个基于跨模式数据幻觉概念的框架。在这方面,我们引入了一个有区别的文本条件GAN,用于样本选择的简单自我步调策略。我们展示了我们在CUB数据集上进行1-2-5-射击学习的有差别的幻觉方法的结果,其中通过使用多模态数据来提高准确性。[1806.05147v1]

 

表情赋予ResiDen网络面部动作单元检测的权力

Shreyank JyotiAbhinav Dhall

本文探讨了野外面部行动单元(FAU)检测的主题。特别是,我们有兴趣回答以下问题:(1)密集块之间的残差连接对面分析有多大用处?(2)来自被训练用于FAU检测任务的分类面部表情识别(FER)的网络的信息有多有用?建议的网络(ResiDen)利用密集块以及残余连接并使用来自FER网络的辅助信息。实验在EmotionNetDISFA数据集上执行。实验显示了面部表情信息用于AU检测的有用性。拟议的网络在两个数据库上实现了最新的结果。交叉数据库协议的结果分析显示了网络的有效性。[1806.04957v1]

 

它在那里像什么?利用条件生成敌对网络从开销图像生成密集的地面观点和图像特征

Xueqing Deng, Yi Zhu, Shawn Newsam

本文研究条件生成对抗网络(cGANs),以克服使用地理标记媒体进行地理发现的根本局限性,即它的稀疏和不均匀的空间分布。我们训练一个cGAN以生成俯视图像的地点的地平面图。我们展示的地面图像是自然的,并且在结构上与真实图像相似。更重要的是,我们展示了生成的图像代表了位置,并且由cGAN学习的表示是信息性的。特别是,我们表明,使用我们的框架生成的密集特征地图对于土地覆盖分类比从稀疏地面图像中提取的空间插值特征方法更有效。就我们所知,我们的第一个工作是使用cGAN来生成俯视图上的地平面视图并探索学习表示的好处。[1806.05129v1]

 

使用约束对抗自动编码器的无监督检测脑MRI中的病变

Xiaoran ChenEnder Konukoglu

脑部磁共振图像(MRI)中的病变检测仍然是一项具有挑战性的任务。最先进的方法主要基于监督式学习,利用大型注释数据集。另一方面,即使是非专家,人类在看到一些健康的大脑图像后也能发现大部分异常病变。复制这种使用关于健康大脑结构出现的先前信息来检测病变的能力可以帮助计算机实现人体水平异常检测,特别是减少了对大量标记示例的需求,并且改善了先前未见病变的泛化。为此,我们通过使用基于自动编码器的方法学习健康受试者的脑MRI的数据分布来以无监督方式研究病变区域的检测。我们假设当前模型的一个主要局限是潜在表示缺乏一致性。我们提出了一种简单而有效的约束,有助于在潜在空间中映射带有图像的病灶接近其对应的健康图像。我们使用Human Connectome Project数据集来学习健康出现的大脑MRI的分布,并报告改善的BRATS质疑数据集中病变的AUC检测。[1806.04972v1] BRATS挑战数据集中的病变。[1806.04972v1] BRATS挑战数据集中的病变。[1806.04972v1]

 

言语中以视觉为基础的跨语言关键词发现

赫尔曼·坎珀,迈克尔·罗斯

最近的工作考虑了如何在语音转录不可用的情况下将图像与语音配对如何用作构建语音系统的监督。我们询问是否可以使用视觉基础进行跨语言关键词检测:给定一种语言的文本关键字,其任务是检索包含该关键字的另一种语言的口头语言。这可以使用高资源语言的文本查询以低资源语言搜索语音。作为一个概念验证,我们在德语查询中使用英语语音:我们使用德语视觉标注器为每个训练图像添加关键字标签,然后训练一个神经网络将英语语音映射到德语关键字。没有看到平行的语音转录或翻译,模型的精确度达到了58%。我们表明,大多数错误的检索包含等效或语义相关的关键字不包括这些将使P @ 10提高到91%。[1806.05030v1]

 

通过学习发现伪影自我监督的特征学习

西蒙珍妮,保罗法瓦罗

我们引入了一种新的基于对抗训练的自监督学习方法。我们的目标是训练一个鉴别器网络,将真实图像与合成伪像的图像区分开来,然后从其中间层提取可转移到其他数据域和任务的特征。为了生成带有伪像的图像,我们预训练一个高容量的自动编码器,然后使用损坏和修复策略:首先,我们冻结自动编码器并通过随机丢弃其条目来损坏编码器的输出。其次,我们通过修复网络增强解码器,并以对立的方式训练它对抗鉴别器。修复网络通过修复丢弃的特征条目来帮助生成更逼真的图像。为了使辨别器专注于伪影,我们还会预测该功能中的哪些条目已被删除。我们通过实验证明,通过创建和发现工件来学习的特征能够在几个基准测试中实现最先进的性能。[1806.05024v1]

 

为视觉问题回答学习视觉知识记忆网络

Zhou Su, Chen Zhu, Yinpeng Dong, Dongqi Cai, Yurong Chen, Jianguo Li

视觉问题解答(VQA)需要对图像和自然语言问题进行联合理解,其中许多问题不能直接或清晰地从视觉内容中回答,但需要结构化人类知识的推理和视觉内容的确认。本文提出视觉知识记忆网络(VKMN)来解决这个问题,它将结构化的人类知识和深度视觉特征无缝地结合到端到端学习框架中的记忆网络中。与现有的利用外部知识支持VQA的方法相比,本文强调两个缺失机制。首先是将视觉内容与知识 事实相结合的机制。VKMN通过嵌入知识三元组(主题,关系,目标)和深层视觉特征共同引入视觉知识特征。其次是处理从问题和答案对扩大的多个知识事实的机制。VKMN在存储器网络中存储使用键值对结构的联合嵌入,以便处理多个事实。实验表明,所提出的方法在VQA v1.0v2.0基准测试中都取得了令人满意的结果,但在知识推理相关问题上优于最先进的方法。[1806.04860v1] 0v2.0基准测试,同时胜过了关于知识推理相关问题的最先进的方法。[1806.04860v1] 0v2.0基准测试,同时胜过了关于知识推理相关问题的最先进的方法。[1806.04860v1]

 

基于多尺度旋转域卷积神经网络的任意船舶位置检测与方向预测

Xue Yang, Hao Sun, Xian Sun, Menglong Yan, Zhi Guo, Kun Fu

船舶检测在遥感领域具有非常重要的意义和挑战性。应用场景的复杂性,检测区域的冗余度以及密集舰船检测的难度等都是限制传统舰船检测方法成功运行的主要障碍。在本文中,我们提出了一种基于多尺度旋转域卷积神经网络的全新检测模型来解决上述问题。该模型主要由五部分组成:稠密特征金字塔网络(DFPN),自适应感兴趣区域(ROI)对齐,旋转边界框回归,船首方向预测和旋转非最大抑制(R-NMS)。首先,通过多尺度特征网络充分利用低层位置信息和高层语义信息。然后,我们设计自适应ROI对齐来获得高质量的提案,这些提案保留了完整的空间和语义信息。与大多数先前的方法不同,我们的方法获得的预测是具有较少冗余区域的对象的最小边界矩形。因此,旋转区域检测框架比传统检测模型更适合检测密集对象。另外,我们可以通过预测找到船舶的靠泊和航行方向。基于SRSSDOTA数据集进行旋转检测的详细评估表明,我们的检测方法具有竞争性表现。[1806.04828v1] 我们的方法获得的预测是具有较少冗余区域的对象的最小边界矩形。因此,旋转区域检测框架比传统检测模型更适合检测密集对象。另外,我们可以通过预测找到船舶的靠泊和航行方向。基于SRSSDOTA数据集进行旋转检测的详细评估表明,我们的检测方法具有竞争性表现。[1806.04828v1] 我们的方法获得的预测是具有较少冗余区域的对象的最小边界矩形。因此,旋转区域检测框架比传统检测模型更适合检测密集对象。另外,我们可以通过预测找到船舶的靠泊和航行方向。基于SRSSDOTA数据集进行旋转检测的详细评估表明,我们的检测方法具有竞争性表现。[1806.04828v1] 基于SRSSDOTA数据集进行旋转检测的详细评估表明,我们的检测方法具有竞争性表现。[1806.04828v1] 基于SRSSDOTA数据集进行旋转检测的详细评估表明,我们的检测方法具有竞争性表现。[1806.04828v1]

 

用自监督暹罗网改善人脑区细胞构筑的分割

Hannah SpitzerKai KiwitzKatrin AmuntsStefan HarmelingTimo Dickscheid

人脑的Cytoarchitectonic parcellations作为多模式地图集框架中的解剖参考。它们基于对细胞体染色的组织切片进行分析并鉴定脑区之间的边界。事实上的标准涉及半自动,可重现的边界检测,但不能用微观分辨率的大量系列切片进行高通量成像。然而,由于数据的高度变化以及在微观分辨率下对大视野的需求,自动分段是非常具有挑战性的。最近提出的解决这个问题的卷积神经网络模型的性能尤其受到培训专家注释量的自然限制。为了规避这个限制,我们建议在自我监督的辅助任务上预训练神经网络,预测从同一个大脑采样的两个斑块之间的3D距离。与随机初始化相比,从这些网络进行微调可以得到明显更好的分段。我们表明,自我监督模型隐含地学会区分几个皮质脑区域一个强有力的指标,提出的辅助任务适合于cytoarchitectonic映射。[1806.05104v1] 我们表明,自我监督模型隐含地学会区分几个皮质脑区域一个强有力的指标,提出的辅助任务适合于cytoarchitectonic映射。[1806.05104v1] 我们表明,自我监督模型隐含地学会区分几个皮质脑区域一个强有力的指标,提出的辅助任务适合于cytoarchitectonic映射。[1806.05104v1]

 

卷积神经网络在经食管超声心动图中的自动化性能评估

Evangelos B. MazomenosKamakshi Bansal,布鲁斯马丁,安德鲁史密斯,苏珊赖特,丹尼尔斯托扬诺夫

经食管超声心动图(TEE)是一种有价值的诊断和监测成像形式。正确的图像采集对于诊断至关重要,但目前的评估技术完全基于人工专家评审。本文提出了一个有监督的深度学习框架,用于自动评估和分级TEE图像的质量。为了获得必要的数据集,38名不同经验的参与者通过高保真虚拟现实(VR)平台进行了TEE考试。两个卷积神经网络(CNN)体系结构AlexNetVGG被构造用于执行回归,在来自三位评估人员的手动分级图像上进行了细化和验证。使用了两种不同的评分策略,一种基于标准的百分比和一种总体的总体印象。所开发的CNN模型估计平均得分,均方根精度介于84-93%之间,表明能够复制专家估值。提出的自动TEE评估策略可以对新TEE操作员的培训过程产生重大影响,提供直接反馈并促进必要灵巧技能的发展。[1806.05154v1]

 

具有元胞自动机的油藏计算硬件

AlejandroMoránChristiam F. FrasserJosep L.Rosselló

基本元胞自动机(ECA)是一种广泛研究的一维处理方法,其中自动机的连续迭代可能导致重新获得丰富的图案动态。最近,细胞自动机已经被提出作为一种实现储层计算(RC)系统的可行方法,其中自动机规则是固定的并且使用线性回归来执行训练。在这项工作中,我们对使用RC方案应用于时间无关输入信号的模式识别时,对不同ECA规则的性能进行了详尽的研究。一旦测试了不同的ECA规则,就会选择最准确的规则(规则90)来实现数字电路。规则90可以使用减少的异或门和移位寄存器轻松复制,因此在处理时间,电路面积,功耗和系统精度方面代表了RC硬件实现的高性能替代方案。该模型(包括软件及其硬件实现)已经通过使用手写数字模式识别任务(MNIST数据库)进行了测试,我们获得了准确性,速度和功耗方面的竞争结果。所提出的模型可被认为是实现快速模式识别数字电路的低成本方法。[1806.04932v1] 速度和功耗。所提出的模型可被认为是实现快速模式识别数字电路的低成本方法。[1806.04932v1] 速度和功耗。所提出的模型可被认为是实现快速模式识别数字电路的低成本方法。[1806.04932v1]

 

用于定制时尚服装组合的可解释分割嵌入

Zunlei Feng, Zhenyu Yu, Yezhou Yang, Yongcheng Jing, Junxiao Jiang, Mingli Song

这些年来,智能时装成分越来越受欢迎。一些基于深度学习的方法最近揭示了竞争组合。然而,无法解释的特征使得这种基于深度学习的方法无法满足设计师,企业和消费者对套装组合中不同属性重要性的理解。为了实现可解释和定制的时尚服装组合,我们提出了一个分区嵌入网络来学习服装项目的可解释表示。整个网络体系结构由三部分组成:自动编码器模块,监督属性模块和多独立模块。自动编码器模块用于将所有有用的信息编码到嵌入中。在受监督的属性模块中,采用多个属性标签来确保整个嵌入的不同部分对应于不同的属性。在多独立模块中,采用对抗操作来实现相互独立的约束。通过可解释和分割嵌入,我们构造一个服装组合图和一个属性匹配图。鉴于指定的属性描述,我们的模型可以推荐具有可解释的匹配分数的服装组合排名列表。大量的实验表明:1)分区嵌入具有与不同属性相对应的未混合部分; 2)与现有方法相比,我们模型推荐的装备更为理想。[1806.04845v1] 采取对抗性操作来实现相互独立的约束。通过可解释和分割嵌入,我们构造一个服装组合图和一个属性匹配图。鉴于指定的属性描述,我们的模型可以推荐具有可解释的匹配分数的服装组合排名列表。大量的实验表明:1)分区嵌入具有与不同属性相对应的未混合部分; 2)与现有方法相比,我们模型推荐的装备更为理想。[1806.04845v1] 采取对抗性操作来实现相互独立的约束。通过可解释和分割嵌入,我们构造一个服装组合图和一个属性匹配图。鉴于指定的属性描述,我们的模型可以推荐具有可解释的匹配分数的服装组合排名列表。大量的实验表明:1)分区嵌入具有与不同属性相对应的未混合部分; 2)与现有方法相比,我们模型推荐的装备更为理想。[1806.04845v1] 我们的模型可以推荐具有可解释匹配分数的服装组合排名列表。大量的实验表明:1)分区嵌入具有与不同属性相对应的未混合部分; 2)与现有方法相比,我们模型推荐的装备更为理想。[1806.04845v1] 我们的模型可以推荐具有可解释匹配分数的服装组合排名列表。大量的实验表明:1)分区嵌入具有与不同属性相对应的未混合部分; 2)与现有方法相比,我们模型推荐的装备更为理想。[1806.04845v1]

 

用局部坐标编码进行对抗学习

Jiezhang Cao, Yong Guo, Qingyao Wu, Chunhua Shen, Chunhua Shen, Mingkui Tan

生成对抗网络(GAN)旨在从一些先验分布(例如高斯噪声)中生成现实数据。然而,这种先验分布通常与实际数据无关,因此可能丢失数据的语义信息(例如,图像的几何结构或内容)。在实践中,语义信息可能由一些从数据中学习到的潜在分布来表示,然而,这很难用于GAN中的抽样。在本文中,我们提出了一种基于局部坐标编码(LCC)的抽样方法来改善GAN,而不是从预先定义的先验分布中抽样。我们推导出基于LCCGAN的泛化界限,并证明小尺寸输入足以实现良好的泛化。对各种现实世界的数据集进行广泛的实验证明了所提出方法的有效性。[1806.04895v1]

 

BA-Net:密集捆绑调整网络

Chengzhou Tang, Ping Tan

本文介绍了一种神经网络,通过特征束调整(BA)来解决运动结构(SfM)问题,该特征束调整以特征重投影误差的形式显式实施多视图几何约束。整个管道是可区分的,因此网络可以学习适当的特征表示,使BA问题更易于追踪。此外,这项工作引入了一种新颖的深度参数化来恢复密集的每像素深度。网络首先根据输入图像生成一些基础深度图,并通过特征BA将这些基础的线性组合优化为最终深度。基础深度图生成器也可以通过端到端的训练来学习。整个系统很好地结合了领域知识(即硬编码多视图几何约束)和机器学习(即,特征学习和基础深度图生成器学习)来解决具有挑战性的SfM问题。大规模实际数据的实验证明了该方法的成功。[1806.04807v1]

 

用于捕获高速视频内容的卷积稀疏编码

安娜塞拉诺,埃琳娜Garces,迭戈古铁雷斯,贝伦玛西亚

视频捕获受限于空间和时间分辨率之间的平衡:当捕获高时间分辨率的视频时,由于捕获系统中的带宽限制,空间分辨率下降。只有高度专业化且非常昂贵的硬件才能实现高空间分辨率和时间分辨率,即使如此,仍然存在相同的基本折衷。最近引入的压缩感知和稀疏重建技术允许通过在单个帧中编码时间信息来捕获单发高速视频,然后从该单个编码图像和经训练的字典中重建完整视频序列图像补丁。在本文中,我们首先分析这种方法,并找到有助于改进重建视频质量的见解。然后,我们介绍一种基于卷积稀疏编码(CSC)的新技术,并展示它如何在灵活性和效率方面超越最先进的基于补丁的方法,这是由于其滤波器组的卷积性质。CSC高速视频采集的关键思想是通过在时间维上施加额外的约束来扩展基本公式,这实现了一阶导数随时间推移的稀疏性。[1806.04935v1] 随着时间推移一阶导数的稀疏性。[1806.04935v1] 随着时间推移一阶导数的稀疏性。[1806.04935v1]

 

手术视频中血管定位的高阶运动放大

Mirek JanatkaAshwin SridharJohn KellyDanail Stoyanov

在手术过程中定位血管对于避免无意中损伤至关重要,但脉管系统很难识别。视频运动放大可以通过夸大嵌入视频中的细微运动来潜在地突出血管,从而让外科医生感受到。在本文中,我们探索了一个生理模型的动脉扩张,以扩大运动放大率,以结合更高的运动阶数,利用脉动运动中随时间的加速度差异(跳动)以突出脉管波。我们的方法与基于一阶和二阶运动的欧拉视频放大算法进行比较。使用来自在机器人前列腺切除术期间检索的手术视频的数据,我们显示我们的方法可以加强心脏生理学特征,并为运动放大产生更简洁和更清晰的视频,在没有运动的区域中具有更大的相似性,以大放大率来源视频。我们使用三种不同级别的光学放大率,在增加的工作距离上验证了三种视频的结构相似性(SSIM)和峰值信噪比(PSNR)评估方法。介绍时空截面以显示我们建议的有效性,并提供视频样本来定性展示我们的结果。[1806.04955v1] 我们使用三种不同级别的光学放大率,在增加的工作距离上验证了三种视频的结构相似性(SSIM)和峰值信噪比(PSNR)评估方法。介绍时空截面以显示我们建议的有效性,并提供视频样本来定性展示我们的结果。[1806.04955v1] 我们使用三种不同级别的光学放大率,在增加的工作距离上验证了三种视频的结构相似性(SSIM)和峰值信噪比(PSNR)评估方法。介绍时空截面以显示我们建议的有效性,并提供视频样本来定性展示我们的结果。[1806.04955v1]

 

空间金字塔池层密集深度卷积神经网络检测室性早搏

Jianning Li

室性早搏(PVC)是一种源于心室的异位性早搏。自动化的方法准确和强大的检测聚氯乙烯是高度临床期望的。目前,这些方法大多是开发和测试使用相同的数据库分为训练和测试集,其泛化性能跨数据库尚未完全验证。本文提出了一种基于密集连接卷积神经网络和空间金字塔池化的PVC检测方法,该方法可以将任意大小的QRS波群作为输入进行训练和检测。通过更简单,更简单的体系结构,所提出的网络在当前的基于深度学习的方法方面达到了与准确性相当的结果,以MIT-BIH心律失常数据库为基准进行训练和测试,除了基准数据库之外,还从四个更开放的数据库中提取QRS波群,即圣彼得堡心脏病学技术研究所12导联心律失常数据库,MIT-BIH正常窦性心律数据库,MIT-BIH长期数据库和欧洲ST-T数据库。提取的QRS波群在5个数据库中的长度和采样率各不相同,并进行了全数据库的训练和测试。网络性能对基准数据库进行了改进,证明了使用多个数据库的优势仅使用单个数据库进行培训。该网络还在其他四个数据库上获得满意的分数,表现出良好的泛化能力。[1806

 

精细粒度对象类别的三维姿态估计

Yaming Wang, Xiao Tan, Yi Yang, Xiao Liu, Errui Ding, Feng Zhou, Larry S. Davis

现有的对象姿态估计数据集与通用对象类型相关,并且目前还没有用于细粒度对象类别的数据集。在这项工作中,我们引入了一个新的大型数据集来对基于细粒度物体的姿态估计进行基准测试,这要归功于最近可用的2D3D细粒度数据。具体而言,我们通过为每个子类别找到细粒度的3D CAD模型并用3D姿势手动注释图像中的每个对象来增强两种流行的细粒度识别数据集(StanfordCarsCompCars)。我们证明,只要有足够的训练数据,就可以仅使用2D外观信息来估计具有连续参数的完整透视模型。我们通过基于Faster / Mask R-CNN的框架来实现这一目标。这超出了以前关于类别级别姿态估计的研究,其仅通过关键点的帮助来估计离散/连续视角或恢复旋转矩阵。此外,通过使用细粒度的3D模型,我们在基于CNN的姿态估计框架中引入了一种名为位置字段的新颖3D表示形式,以进一步提高性能。[1806.04314v2]

 

没有监督的分层长期视频预测

Nevan WichersRuben VillegasDumitru ErhanHonglak Lee

最近的许多研究都致力于视频预测和生成,但以前的大部分作品在短期视频生成视频方面的成效都很有限。Villegas等人的分层视频预测方法 2017)是一种用于长期视频预测的最先进方法的例子,但是它们的方法是有限的,因为它需要在训练时间对高层结构(例如人类联合地标)进行地面真实性标注。我们的网络对输入帧进行编码,预测未来的高级编码,然后访问第一帧的解码器根据预测的编码产生预测图像。解码器还产生将预测的前景对象(例如人)概括为副产品的掩码。与维勒加斯等人不同。(2017),我们开发了一种新的训练方法,在没有高级监督的情况下一起联合训练编码器,预测器和解码器我们通过在特征空间中使用对抗性损失来训练预测变量来进一步改进。与DentonFergus2018)和Finn等人相比,我们的方法可以预测未来约20秒,并提供更好的结果。(2016)关于人类3.6M数据集。[1806.04768v1]

 

用于飞机噪声监测的卷积神经网络

Nicholas HellerDerek AndersonMatt BakerBrad JufferNikolaos Papanikolopoulos

航空旅行是增长最快的交通方式之一,但是,飞机噪音对机场周围人群的影响阻碍了其增长。为了研究并最终减轻噪音带来的影响,许多机场不断监测周围社区的飞机噪音。噪音监测和分析由于飞机不是噪音的唯一来源而变得复杂。在这项工作中,我们证明了卷积神经网络非常适合识别非飞机引起的噪音事件。我们的系统在900个手动标记的噪音事件的训练中达到0.970的准确度。我们的训练数据和我们模型的TensorFlow实现可在https://github.com/neheller/aircraftnoise上找到。[1806.04779v1]

 

一种基于Connectome的果蝇视觉系统六边形网格卷积网络模型

Fabian David TschoppMichael B. ReiserSrinivas C. Turaga

我们可以从connectome中学到什么?我们构建了苍蝇视觉系统前两个阶段的简化模型,即椎板和髓质。由此产生的六角格子卷积网络通过反向传播训练以在自然场景视频中执行对象跟踪。初始化来自connectome重建的权重的网络自动发现了T4神经元及其输入中众所周知的定向和方向选择性属性,而随机初始化的网络则没有。我们的工作是第一次演示,connectome的知识可以在电路上预测电路中单个神经元的功能特性,从而单独从结构中理解电路功能。[1806.04793v1]

 

用于黑素瘤诊断的完全卷积网络

Adon PhillipsIris TeoJochen Lang

这项工作旨在确定现代机器学习技术如何应用 于以前尚未开发的使用数字病理学的黑色素瘤诊断主题。我们利用数字病理学策划了一个新的50例皮肤黑色素瘤病例数据集。我们为三种组织类型(肿瘤,表皮和真皮)提供金标准注释,这对于称为Breslow厚度和Clark水平的预后测量是重要的。然后,我们设计了一种新颖的多步完全卷积网络(FCN)体系结构,其性能超过了根据标准度量使用相同数据进行训练和评估的其他网络。最后,我们训练了一个模型来检测和定位目标组织类型。在处理先前看不见的案例时,我们模型的输出在质量上与黄金标准非常相似。除了作为我们方法的基线计算的标准指标之外,我们还要求三名额外的病理学家测量网络输出的Breslow厚度。他们的反应在诊断上等同于基础真值测量,并且当除去测量不合适的情况时,四位病理学家之间的评分者间信度(IRR)为75.0%。鉴于定性和定量结果,尽管需要更多工作来改善网络在真皮分割上的表现,但仍有可能通过使用现代机器学习技术来克服用于分割的皮肤和肿瘤解剖学的区别性挑战。此外,我们表明可以达到手动执行Breslow厚度测量所需的准确度水平。[1806.04765v1] 我们要求另外三名病理学家测量网络输出的Breslow厚度。他们的反应在诊断上等同于基础真值测量,并且当除去测量不合适的情况时,四位病理学家之间的评分者间信度(IRR)为75.0%。鉴于定性和定量结果,尽管需要更多工作来改善网络在真皮分割上的表现,但仍有可能通过使用现代机器学习技术来克服用于分割的皮肤和肿瘤解剖学的区别性挑战。此外,我们表明可以达到手动执行Breslow厚度测量所需的准确度水平。[1806.04765v1] 我们要求另外三名病理学家测量网络输出的Breslow厚度。他们的反应在诊断上等同于基础真值测量,并且当除去测量不合适的情况时,四位病理学家之间的评分者间信度(IRR)为75.0%。鉴于定性和定量结果,尽管需要更多工作来改善网络在真皮分割上的表现,但仍有可能通过使用现代机器学习技术来克服用于分割的皮肤和肿瘤解剖学的区别性挑战。此外,我们表明可以达到手动执行Breslow厚度测量所需的准确度水平。[1806.04765v1] 他们的反应在诊断上等同于基础真值测量,并且当除去测量不合适的情况时,四位病理学家之间的评分者间信度(IRR)为75.0%。鉴于定性和定量结果,尽管需要更多工作来改善网络在真皮分割上的表现,但仍有可能通过使用现代机器学习技术来克服用于分割的皮肤和肿瘤解剖学的区别性挑战。此外,我们表明可以达到手动执行Breslow厚度测量所需的准确度水平。[1806.04765v1] 他们的反应在诊断上等同于基础真值测量,并且当除去测量不合适的情况时,四位病理学家之间的评分者间信度(IRR)为75.0%。鉴于定性和定量结果,尽管需要更多工作来改善网络在真皮分割上的表现,但仍有可能通过使用现代机器学习技术来克服用于分割的皮肤和肿瘤解剖学的区别性挑战。此外,我们表明可以达到手动执行Breslow厚度测量所需的准确度水平。[1806.04765v1] 四位病理学家之间的评分间信度(IRR)为75.0%。鉴于定性和定量结果,尽管需要更多工作来改善网络在真皮分割上的表现,但仍有可能通过使用现代机器学习技术来克服用于分割的皮肤和肿瘤解剖学的区别性挑战。此外,我们表明可以达到手动执行Breslow厚度测量所需的准确度水平。[1806.04765v1] 四位病理学家之间的评分间信度(IRR)为75.0%。鉴于定性和定量结果,尽管需要更多工作来改善网络在真皮分割上的表现,但仍有可能通过使用现代机器学习技术来克服用于分割的皮肤和肿瘤解剖学的区别性挑战。此外,我们表明可以达到手动执行Breslow厚度测量所需的准确度水平。[1806.04765v1] 我们表明可以达到手动执行Breslow厚度测量所需的准确度水平。[1806.04765v1] 我们表明可以达到手动执行Breslow厚度测量所需的准确度水平。[1806.04765v1]

 

用于功能连接组分类的三维卷积神经网络

Meenakshi KhoslaKeith JamisonAmy KuceyeskiMert Sabuncu

静息状态功能性MRIrs-fMRI)扫描具有作为各种疾病(如自闭症,阿尔茨海默氏病和中风)的诊断或预后工具的潜力。虽然越来越多的研究已经证明基于rs-fMRI的临床或行为预测的机器学习算法的前景,但大多数先前的模型在利用数据丰富性方面的能力有限。例如,应用于rs-fMRI的分类技术通常依赖于基于区域的汇总统计和/或线性模型。在这项工作中,我们提出了一种新型的体积卷积神经网络(CNN)框架,它利用rs-fMRI数据的全分辨率三维空间结构并适合非线性预测模型。我们在具有挑战性的大规模数据集(ABIDEN>)上展示了我们的方法 2,000),并报告基于rs-fMRI的孤独症患者和健康对照者的最新准确结果。[1806.04209v2]

 

AIS数据流海事交通监控的多任务学习

Duong NguyenRodolphe VadaineGuillaume HajduchRene GarelloRonan Fablet

在全球贸易的世界里,海事安全,安全和效率是关键问题。我们提出了一个使用自动识别系统(AIS)数据流的船舶监控多任务深度学习框架。我们将循环神经网络与潜变量建模以及将AIS消息嵌入到新的表示空间中,共同解决考虑AIS数据流时需要处理的关键问题:大量流数据,噪声数据和不规则时间采样。我们证明了所提出的深度学习框架与三个任务设置的实际AIS数据集的相关性,即轨迹重建,异常检测和船舶类型识别。[1806.03972v2]

 

具有历史外观匹配和场景自适应检测滤波的在线多目标跟踪

Young-chul YoonAbhijeet Boragule,宋敏敏,Kwangjin YoonMoongu Jeon

在本文中,我们提出了处理多目标跟踪过程中时间误差的方法。当对象被遮挡或在目标附近出现噪声检测时,会发生时间错误。在这种情况下,跟踪可能会失败,并发生各种错误,如漂移或ID切换。仅通过使用运动和形状信息很难克服时间错误。因此,我们提出了历史外观匹配方法和经过两步过程训练的联合输入连体网络。它可以防止跟踪失败,尽管对象被暂时遮挡或最后的匹配信息不可靠。根据现场情况,我们还提供有效的技术来有效地去除噪声检测。跟踪性能,特别是身份一致性,通过附加我们的方法得到很大改善。[1805.10916v2]

 

用于虹膜识别的演示攻击检测:对现有技术的评估

亚当Czajka,凯文W.鲍耶

虹膜识别越来越多地用于大规模应用。因此,虹膜识别的演示文稿攻击检测非常重要。本调查涵盖了有关该主题的各种研究文献。描述不同类别的演示文稿攻击并将其放置在与应用程序相关的框架中,并总结检测每类攻击的现有技术。由此得出的一个结论是,虹膜识别的呈现攻击检测尚未解决。描述可用于研究的数据集,概述近期和中期未来的研究方向,并建议推荐读物的简短列表。[1804.00194v3]

 

从纵向数据集学习形状轨迹的分布:一个微分同胚流形上的分层模型

AlexandreBôneOlivier ColliotStanley Durrleman

我们提出了一种从纵向数据学习形状轨迹分布的方法,即在多个时间点重复观察单个物体的集合。该方法允许计算群体水平上形状变化的平均时空轨迹,以及该轨迹在几何和时间动态方面的个体变化。首先,我们制定了一个非线性混合效应统计模型作为流形值纵向数据的通用统计模型的组合,一个变形模型通过有限维微分同构与流形结构的作用定义形状轨迹,和一个有效的数值方案来计算这个流形上的平行运输。其次,我们介绍一种MCMC-SAEM算法,具有特定的形状采样方法,提议方差的自适应方案,以及估计我们模型的对数似然回火策略。第三,我们验证了我们的2D模拟数据算法,然后估计了阿尔茨海默病过程中海马3D脑结构形状改变的情况。该方法显示,例如海马萎缩在女性受试者中进展更快,并且在APOE4突变携带者中发生得更早。我们最后说明了我们的方法分类病理轨迹与正常老化的潜力。[1803.10119v2] s病。该方法显示,例如海马萎缩在女性受试者中进展更快,并且在APOE4突变携带者中发生得更早。我们最后说明了我们的方法分类病理轨迹与正常老化的潜力。[1803.10119v2] s病。该方法显示,例如海马萎缩在女性受试者中进展更快,并且在APOE4突变携带者中发生得更早。我们最后说明了我们的方法分类病理轨迹与正常老化的潜力。[1803.10119v2]

 

杂波中的一次分割

克劳迪奥米克里斯,马蒂亚斯伯格,亚历山大S.埃克尔

我们解决了单次分割的问题:根据单个指令示例在杂乱的场景中查找和分割以前看不见的对象。我们提出一个新颖的数据集,我们称之为$ \ textit {凌乱Omniglot} $。使用结合了用于检测的连体嵌入和用于分割的U网的基线体系结构,我们显示越来越多的杂波使得任务逐渐变得困难。使用可以访问不同数量的地面实况信息的oracle模型,我们评估问题的不同方面,并且表明在这种视觉搜索任务中,检测和分割是两个相互交织的问题,每个解决方案都有助于解决其他问题。因此,我们引入$ \ textit {MaskNet} $,这是一种改进的模型,可以适应多个候选位置,生成分割建议来屏蔽背景杂波并在分割的对象中进行选择。我们的研究结果表明,这种基于对象检测和前景分割的迭代改进的图像识别模型可以提供处理高度混乱场景的方式。[1803.09597v2]

 

Hyperdrive:用于mW IoT终端节点的Systolically Scalable Binary-Weight CNN推理引擎

Renzo AndriLukas CavigelliDavide RossiLuca Benini

深度神经网络在计算机视觉和机器学习中取得了令人瞩目的成果 不幸的是,最先进的网络非常计算和内存密集,这使得它们不适用于诸如物联网终端节点之类的mW设备。这些网络的主动量化大大减少了计算和内存占用。二进制权重神经网络(BWN)遵循这一趋势,将重量量化推到极限。迄今为止提出的用于BWN的硬件加速器都集中在核心效率上,忽略了对于在超低功耗设备中部署加速器至关重要的I / O带宽和系统级效率。我们介绍Hyperdrive:一种BWN加速器,通过采用新颖的二进制加权流方法大幅降低I / O带宽,并且能够凭借其收缩可伸缩架构处理高分辨率图像。即使我们的内核使用资源密集型FP16算法提高了鲁棒性,我们也实现了5.9 TOp / s / W系统级效率(即包括I / O比现有BNN加速器高2.2倍。[1804.00623v2]

 

ASP:一种基于敌对显着性预测的快速敌对攻击实例生成框架

Fuxun Yu, Qide Dong, Xiang Chen

神经网络具有出色的准确性和可行性,已被广泛应用于新型智能应用和系统中。然而,随着对抗攻击的出现,基于神经网络的系统性能变得非常脆弱:图像分类结果可能会被对手的例子任意误导,这些例子是人为无法察觉的像素级扰动的精心制作的图像。由于这引发了一个重大的系统安全问题,我们对这项工作进行了一系列关于对抗攻击的调查:我们首先根据敌对显着性分析识别图像的像素对攻击对象的漏洞。通过比较分析的显着图和敌对扰动分布,我们提出了一个新的评估方案来全面评估对手的攻击精度和效率。然后,提出了一种新的对抗性显着性预测方法,提出了一种快速的对抗性示例生成框架,即“ASP”,其具有显着的攻击效率提升和显着的计算成本降低。与以前的方法相比,实验表明,对于MNISTCifar10ASP最多可以提高12倍的对抗性生成速度,低2倍的扰动率,高达87%的攻击成功率。ASP也可以很好地用于支持数据饥饿的NN对抗训练。通过将攻击成功率降低90%以上,ASP可以快速有效地提高神经网络系统对敌对攻击的防御能力。[1802.05763v3] 利用一种新颖的对抗性显着性预测方法,提出了一种快速的对抗性示例生成框架,即“ASP”,具有显着的攻击效率提升和显着的计算成本降低。与以前的方法相比,实验表明,对于MNISTCifar10ASP最多可以提高12倍的对抗性生成速度,低2倍的扰动率,高达87%的攻击成功率。ASP也可以很好地用于支持数据饥饿的NN对抗训练。通过将攻击成功率降低90%以上,ASP可以快速有效地提高神经网络系统对敌对攻击的防御能力。[1802.05763v3] 利用一种新颖的对抗性显着性预测方法,提出了一种快速的对抗性示例生成框架,即“ASP”,具有显着的攻击效率提升和显着的计算成本降低。与以前的方法相比,实验表明,对于MNISTCifar10ASP最多可以提高12倍的对抗性生成速度,低2倍的扰动率,高达87%的攻击成功率。ASP也可以很好地用于支持数据饥饿的NN对抗训练。通过将攻击成功率降低90%以上,ASP可以快速有效地提高神经网络系统对敌对攻击的防御能力。[1802.05763v3] 被提出具有显着的攻击效率改进和显着的计算成本降低。与以前的方法相比,实验表明,对于MNISTCifar10ASP最多可以提高12倍的对抗性生成速度,低2倍的扰动率,高达87%的攻击成功率。ASP也可以很好地用于支持数据饥饿的NN对抗训练。通过将攻击成功率降低90%以上,ASP可以快速有效地提高神经网络系统对敌对攻击的防御能力。[1802.05763v3] 被提出具有显着的攻击效率改进和显着的计算成本降低。与以前的方法相比,实验表明,对于MNISTCifar10ASP最多可以提高12倍的对抗性生成速度,低2倍的扰动率,高达87%的攻击成功率。ASP也可以很好地用于支持数据饥饿的NN对抗训练。通过将攻击成功率降低90%以上,ASP可以快速有效地提高神经网络系统对敌对攻击的防御能力。[1802.05763v3] MNISTCifar10的攻击成功率都高达87%。ASP也可以很好地用于支持数据饥饿的NN对抗训练。通过将攻击成功率降低90%以上,ASP可以快速有效地提高神经网络系统对敌对攻击的防御能力。[1802.05763v3] MNISTCifar10的攻击成功率都高达87%。ASP也可以很好地用于支持数据饥饿的NN对抗训练。通过将攻击成功率降低90%以上,ASP可以快速有效地提高神经网络系统对敌对攻击的防御能力。[1802.05763v3]

 

可视语音增强

Aviv GabbayAsaph ShamirShmuel Peleg

当视频在嘈杂的环境中拍摄时,可以使用可见的嘴部动作来增强视频中发言者的声音,从而减少背景噪音。虽然大多数现有方法使用纯音频输入,但基于视听神经网络的视觉语音增强功能可以提高性能。我们在训练数据视频中添加了目标讲话者的语音作为背景噪声。由于音频输入不足以将讲话者的声音与他自己的声音分开,所以训练好的模型更好地利用了视觉输入并且很好地适用于不同的噪声类型。所提出的模型在两个公开的唇读数据集上优于先前的视听方法。它也是第一个在不是为唇涂设计的数据集上进行演示的,例如巴拉克奥巴马的每周地址。[1711

 

VITON:基于图像的虚拟试穿网络

Xintong Han, Zuxuan Wu, Zhe Wu, Ruichi Yu, Larry S. Davis

我们提供一个基于图像的虚拟试穿网络(VITON),不需要使用任何形式的3D信息,它可以使用粗到细的策略将所需的衣服项目无缝地传输到人的相应区域。在新的服装不可知但描述性人物表征的条件下,我们的框架首先生成粗略的合成图像,其中目标服装项目以相同姿势覆盖在同一个人身上。我们通过改进网络进一步加强了最初的模糊服装领域。该网络被训练以了解从目标服装项目中可以利用多少细节以及在何处应用于人以合成照片逼真图像,其中目标物品自然地以清晰的视觉模式变形。对我们新收集的Zalando数据集进行的实验证明了其在基于图像的虚拟试作任务中对先进生成模型的承诺。[1711.08447v4]

 

不变多峰哈雷贝瑞神经元的深度稀疏编码

Edward KimDarryl HannanGarrett Kenyon

深度前馈卷积神经网络(CNN)在几乎所有机器学习和计算机视觉挑战中已经无处不在然而,有线电视新闻网络的进步可以说已经达到了工程饱和点,增量新颖性会导致性能提升不大。尽管有证据表明物体分类在狭义定义的任务上达到了人类水平,但对于一般应用,生物视觉系统远远优于任何计算机。研究表明前馈深层神经网络中存在许多遗漏的成分,这些成分在哺乳动物视觉中至关重要。大脑不仅仅是以前馈的方式工作,而是所有的神经元都在相互竞争神经元以自下而上和自上而下的方式整合信息,并在建模过程中引入期望和反馈。此外,我们的视觉皮层与顶叶一起工作,整合来自各种形式的感官信息。在我们的工作中,我们试图改进标准前馈深度学习模型,通过增加稀疏性,自上而下反馈和横向抑制的生物学启发概念来改进它们。我们使用分层结构将我们的模型定义为稀疏编码问题。我们通过额外的自上而下的反馈错误来解决稀疏编码问题,驱动神经网络的动态。在建立和观察我们模型的行为的同时,我们着迷于多模态,不变的神经元自然出现模仿,哈莉贝瑞神经元” 在人脑中发现。此外,我们对多模态信号的稀疏表示显示出在普通视觉和机器学习任务中标准前馈联合嵌入的定性和定量优越性。[1711.07998v2]

 

看,想象和匹配:用生成模型改进文本视觉交叉模式检索

Jiuxiang Gu, Jianfei Cai, Shafiq Joty, Li Niu, Gang Wang

文本视觉跨模式检索一直是计算机视觉和自然语言处理社区的热门研究课题。学习多模式数据的适当表示对于跨模式检索性能至关重要。与现有的将图像文本对作为单一特征向量嵌入共同表征空间的图像文本检索方法不同,我们建议将生成过程并入跨模式特征嵌入中,通过这种方法我们不仅可以学习全局抽象特征而且还有当地的接地功能。大量实验表明,我们的框架能够很好地匹配复杂内容的图像和句子,并在MSCOCO数据集上实现最先进的跨模态检索结果。[1711.06420v2]

 

通过自然曲线的全球统计数据进行曲线重建

Ehud BarneaOhad Ben-Shahar

重构曲线的缺失部分一直是计算研究的主题,其中应用了图像修复,对象合成等。解决该问题的不同方法通常基于寻求视觉愉悦或感知可信完成的过程。在这项工作中,我们专注于利用自然曲线的全球统计数据重建潜在的物理形状。更具体地说,我们开发了一种重建模型,该模型寻找给定诱导器配置的平均物理曲线。这个简单的模型既易于计算,又可以接受各种附加信息,但它需要足够的样本来处理所有曲线配置,这是一个限制其有效利用率的实际要求。为了解决这个实际问题,我们探索并利用了自然曲线的统计几何特性,特别是我们证明,在许多情况下,平均曲线是尺度不变的,并且通常是可扩展的。反过来,这又可以增加例子的数量,从而提高统计数据的可靠性和适用性。重建结果不仅更加物理上可信,而且还会导致对重建问题的重要见解,其中包括一个优雅的解释,为什么某些诱导物配置更有可能产生一致的感知完成。[1711.03172v3] 可以提高示例的数量,从而提高统计数据的可靠性和适用性。重建结果不仅更加物理上可信,而且还会导致对重建问题的重要见解,其中包括一个优雅的解释,为什么某些诱导物配置更有可能产生一致的感知完成。[1711.03172v3] 可以提高示例的数量,从而提高统计数据的可靠性和适用性。重建结果不仅更加物理上可信,而且还会导致对重建问题的重要见解,其中包括一个优雅的解释,为什么某些诱导物配置更有可能产生一致的感知完成。[1711.03172v3]

 

户外移动平台基于渐变的相机曝光控制

Inwook ShimTae-Hyun OhJoon-Young LeeJinuook ChoiDong-Geol ChoiIn So Kweon

我们引入了一种新颖的方法来自动调整移动机器人平台上的图像处理和计算机视觉应用的相机曝光。由于大多数图像处理算法严重依赖于基于局部梯度信息的低级图像特征,因此我们认为梯度数量可以确定适当的曝光级别,从而允许摄像头以对照明条件稳健的方式捕获重要的图像特征。然后,我们将这个概念扩展到多摄像头系统,并提出一种新的控制算法,以实现相邻摄像头之间的亮度一致性和每个摄像头的适当曝光等级。我们使用现成的机器视觉相机实现了我们的原型系统,并展示了所提出的算法在实际应用中的有效性,包括行人检测,视觉测距,环视成像,全景成像和立体匹配。[1708.07338v3]

 

超越计数:人群分析任务的密度图比较计数,检测和跟踪

Di Kang, Zheng Ma, Antoni B. Chan

对于拥挤的场景,当图像分辨率低且对象严重遮挡时,基于对象的计算机视觉方法的准确性会降低。以计数方法为例,几乎所有最新的最先进的计数方法都绕过显式检测,并采用基于回归的方法直接计数感兴趣的对象。在基于回归的方法中,密度映射估计(其中子区域内的对象数量是该子区域上的密度映射的积分)特别有前途,因为它保留了空间信息,这对于计数和定位(检测和定位跟踪)。凭借深度卷积神经网络(CNN)的强大功能,计数性能稳步提高。本文的目标是评估密度估计方法在各种人群分析任务中生成的密度图,包括计数,检测和跟踪。由于卷积/汇集操作中的下采样步幅,大多数现有的CNN方法会生成分辨率比原始图像小的密度图。为了产生原始分辨率密度图,我们还评估了经典的CNN,其使用滑动窗口回归器来预测图像中每个像素的密度。我们还考虑完全卷积(FCNN)自适应,从较低卷积层跳过连接以补偿上采样期间空间信息的损失。在我们的实验中,我们发现较低分辨率的密度图有时具有更好的计数性能。相反,与双线性上采样较低分辨率密度图相比,原始分辨率密度映射改进了定位任务,如检测和跟踪。最后,我们还提出了几个衡量密度图质量的指标,并将它们与计数和本地化的实验结果相关联。[1705.10118v2]

 

即插即用不插电:使用共识平衡优化自由重建

Gregery T. BuzzardStanley H. ChanSuhas SreehariCharles A. Bouman

图像重建的正则化反演方法由于其易处理性和将复杂的物理传感器模型与有用的规则标准相结合的能力而得到广泛应用。这种方法激发了最近开发的即插即用先验方法,该方法提供了一个框架,可以使用先进的去噪算法作为反演中的正则化器。然而,需要制定正则化反演作为优化问题的解决方案来限制可能的规律条件和物理传感器模型。在本文中,我们引入共识平衡(CE),它将正则化反演推广到包括更多种类的正向分量和先验分量,而不需要用成本函数来表示。CE基于平衡数据拟合和规律性的一组平衡方程的解。在这个框架中,正则化反演中MAP估计的问题被求解这些平衡方程的问题所取代,这可以通过多种方式来处理。CE的主要贡献是提供一种新颖的框架,用于融合从数据中学习的多种物理传感器或模型的异构模型。我们描述了CE方程的推导,并证明了CE方程的解决方案在适当的情况下推广了标准MAP估计。我们还讨论了求解CE方程的算法,包括具有新型预处理和牛顿法的ADMM。我们举例说明共识均衡和这些算法的收敛性质,并在一些玩具问题和降噪实例中演示了这种方法,其中我们使用了一组卷积神经网络分解器,其中没有一个被调整为匹配噪声水平一个嘈杂的图像,但它的共识可以取得比任何一个人更好的结果。[1705.08983v3]

转载请注明:《基于多尺度旋转域卷积神经网络的任意船舶位置检测与方向预测+超越计数:人群分析任务的密度图比较 – 计数,检测和跟踪

发表评论