CV Code|计算机视觉开源周报20200504期

五月第四周,盘点本周新开源或即将开源的CV代码,涵盖方向广泛,不仅涉及到技术创新,还涉及多种CV应用,希望对大家有帮助。
  

场景文本识别

#CVPR 2020#

[1].SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

SEED:场景文本识别的语义增强型编码器-解码器框架

作者 | Zhi Qiao, Yu Zhou, Dongbao Yang, Yucan Zhou, Weiping Wang单位 | 中国科学院大学;中国科学院

论文 | https://arxiv.org/abs/2005.10977

代码 | https://github.com/Pay20Y/SEED(404)

 

 音频识别动作

#CVPR 2020#

[2].Listen to Look: Action Recognition by Previewing Audio

作者 | Ruohan Gao,Tae-Hyun Oh, Kristen Grauman,Lorenzo Torresani 单位 | 得克萨斯大学奥斯汀分校;FAIR

代码 | https://github.com/facebookresearch/

Listen-to-Look

网站 | http://vision.cs.utexas.edu/projects/

listen_to_look/

 

  3D人体形态估计

[3].PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization

PIFuHD:用于高分辨率3D人体数字化的多层次像素对齐隐含功能

实验证明,我们的方法通过充分利用1k分辨率的输入图像,在单幅图像的人体形状重建上,我们的方法明显优于现有的最先进的技术。

作者 | Shunsuke Saito,Tomas Simon,Jason Saragih,Hanbyul Joo 单位 | 南加州大学;FAIR

论文 | https://arxiv.org/pdf/2004.00452.pdf

代码 | https://github.com/shunsukesaito/PIFuHD

网站 | https://shunsukesaito.github.io/PIFuHD/

  

 GAN

#CVPR 2020#

[4].Learning to Simulate Dynamic Environments with GameGAN

学习使用GameGAN模拟动态环境

NVIDIA发明了一种新的GAN生成模型:GameGAN,只需要给其观看游戏画面和相应的键盘动作,就能学会生成能玩、能交互的游戏。

而且GameGAN还能分离游戏中的静态背景和动态组件,方便对游戏元素进行替换,生成新的、不存在游戏。

也许将来有一天,下载一个游戏不再几十、上百G的资源,而仅需要一个GameGAN就够了!

作者 | Seung Wook Kim, Yuhao Zhou, Jonah Philion, Antonio Torralba, Sanja Fidler

单位 | NVIDIA,多伦多大学,Vector Institute,MIT(都是AI重量级单位)

论文 | https://arxiv.org/abs/2005.12126

代码 | https://nv-tlabs.github.io/gameGAN/

视频 | https://www.youtube.com/watch?v=4OzJUNsPx60

网站 | https://nv-tlabs.github.io/gameGAN/

 

[5].Network Bending: Manipulating The Inner Representations of Deep Generative Models 

Network Bending:操纵深层生成模型的内在表征

我们介绍了一个新的框架,用于与深度生成模型交互和操作,我们称之为Network Bending。我们在FFHQ数据集上训练的官方预训练的StyleGAN2模型上演示了这些转换。

作者 | Terence Broad, Frederic Fol Leymarie, Mick Grierson

单位 | 伦敦艺术大学;伦敦大学

论文 | https://arxiv.org/abs/2005.12420

代码 | https://github.com/terrybroad/network-bending

   目标检测

#CVPR 2020##人员检测#

[6].RAPiD: Rotation-Aware People Detection in Overhead Fisheye Images

RAPiD:高空鱼眼图像中的旋转感知人员检测

波士顿大学提出一种在鱼眼图像中进行人员检测的新方法RAPiD,并开源了代码

RAPiD源代码可用于非商业用途。

作者 | Zhihao Duan, M. Ozan Tezcan, Hayato Nakamura, Prakash Ishwar, Janusz Konrad

单位 | 波士顿大学

论文 | https://arxiv.org/abs/2005.11623

代码 | http://vip.bu.edu/projects/vsns/

cossy/fisheye/rapid/

https://github.com/duanzhiihao/RAPiD

数据集 | http://vip.bu.edu/projects/vsns/cossy/datasets/cepdof/

 

#ECCV 2020#

[7].End-to-End Object Detection with Transformers

基于Transformers的端到端目标检测

我们提出了一种新的方法,将目标检测看作是一个直接的集预测问题。我们的方法简化了检测流水线,有效地消除了许多手工设计的组件,如非极大抑制(NMS)过程或anchor的生成,显式编码了我们对任务的先验知识。

作者 | Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko

单位 | Facebook AI

论文 | https://arxiv.org/abs/2005.12872

代码 | https://github.com/facebookresearch/detr

 

#YOLO##实例分割##实时检测#

[8].Poly-YOLO: higher speed, more precise detection and instance segmentation for YOLOv3

Poly-YOLO:为YOLOv3提供更高的速度、更精确的检测和实例分割

我们提出了一个新版本的YOLO,它具有更好的性能,并通过实例分割进行了扩展,称为Poly-YOLO。

Poly-YOLO建立在YOLOv3的原始思想基础上,去掉了它的两个弱点:大量的重写标签和低效率的锚点分布。Poly-YOLO通过使用超柱技术聚合来自轻质SE-Darknet-53骨干网的特征,使用阶梯式的上采样技术,产生了一个单尺度的高分辨率输出,减少了这些问题。与YOLOv3相比,Poly-YOLO的可训练参数仅有60%,但mAP相对提高了40%。

作者 | Petr Hurtik, Vojtech Molek, Jan Hula, Marek Vajgl, Pavel Vlasanek, Tomas Nejezchleba

单位 | 奥斯特拉发大学;

论文 | https://arxiv.org/abs/2005.13243

代码 | https://gitlab.com/irafm-ai/poly-yolo

 

[9].Hashing-based Non-Maximum Suppression for Crowded Object Detection

基于哈希的非极大值抑制拥挤目标检测法

在本文中,我们提出了一种算法,命名为基于哈希的非最大值抑制(HNMS),以有效地抑制目标检测中的非最大值方块。在CARPK、SKU-110K、CrowdHuman数据集上进行了大量实验,证明了HNMS的效率和效果。

作者 | Jianfeng Wang, Xi Yin, Lijuan Wang, Lei Zhang

单位 | 微软

论文 | https://arxiv.org/abs/2005.11426

代码 | https://github.com/microsoft/hnms

#水下目标检测#

 

[10].Underwater object detection using Invert Multi-Class Adaboost with deep learning

Adaboost技术水下目标检测

一种新型的神经网络架构,即Sample-WeIghted hyPEr Network(SWIPENet),用于小目标检测。SWIPENet由高分辨率和语义丰富的超特征图组成,可以显著提高小目标检测精度。此外,我们提出了一种新颖的样本加权损耗函数,可以为SWIPENet建模,该函数采用一种新颖的样本再加权算法,即Invert Multi-Class Adaboost(IMA),以减少噪声对SWIPENet的影响。对两个水下机器人拾取竞赛数据集URPC2017和URPC2018进行的实验表明,与几种最先进的目标检测方法相比,提出的SWIPENet+IMA框架在检测精度上取得了较好的性能。

作者 | Long Chen, Zhihua Liu, Lei Tong, Zheheng Jiang, Shengke Wang, Junyu Dong, Huiyu Zhou

论文 | https://arxiv.org/abs/2005.11552

代码 | https://github.com/LongChenCV/SWIPENet

 

  NAS

[11].Noisy Differentiable Architecture Search

NoisyDARTS:含注入噪声的可微分神经网络搜索

本文为基于 FairDARTS 的后续工作。FairDARTS 中提出可微分神经网络搜索( DARTS) 性能崩塌的两个不可或缺的要素:竞争环境和不公平优势。FairDARTS 采取了打破竞争环境的方式,使各操作之间相互协作。本文从不公平优势入手,将跳接操作(skip connection)的输出特征注入噪声进行扰动。

作者 | Xiangxiang Chu, Bo Zhang, Xudong Li

单位 | 小米; 中国科学院大学

论文 | http://arxiv.org/abs/2005.03566

代码 | https://github.com/xiaomi-automl/NoisyDARTS (即将发布)

 

  人类意图预测

#CVPRW 2020##零样本学习# #视觉搜索#

[12].What am I Searching for: Zero-shot Target Identity Inference in Visual Search

What am I Searching for:视觉搜索中的零样本目标身份推理

InferNet成功地识别了主体目标,即使没有对推理任务进行任何特定目标的训练,InferNet也能成功地识别出主体目标,并优于竞争性的空模型。

作者 | Mengmi Zhang, Gabriel Kreiman

单位 | 哈佛医学院;Minds and Machines

论文 | https://arxiv.org/abs/2005.12741

代码 | https://github.com/kreimanlab/

HumanIntentionInferenceZeroShot(尚未)

视频 | https://www.youtube.com/watch?v=rcWgWTwWDm0&feature=youtu.be

   

图像分类

#无监督学习#

[13].Learning To Classify Images Without Labels

学习无标签图像分类

是否有可能在不使用真实性标注的情况下对图像进行自动分类?

实验评估结果显示,我们的分类准确率以巨大的幅度超过了最先进的方法,特别是在CIFAR10上的分类准确率为+26.9%,在CIFAR100-20上为+21.5%,在STL10上为+11.7%。

此外,在ImageNet上的结果显示,我们的方法是第一个在200个随机选取的类上有很好的扩展性,获得了69.3%的TOP-1和85.5%的TOP-5准确率,与完全监督的方法相差不到7.5%。

代码即将公布。

作者 | Wouter Van Gansbeke, Simon Vandenhende, Stamatios Georgoulis, Marc Proesmans, Luc Van Gool

单位 | 鲁汶大学;苏黎世联邦理工学院

论文 | https://arxiv.org/abs/2005.12320

代码 | https://github.com/wvangansbeke/

Unsupervised-Classification(即将)

   

目标跟踪

#CVPR 2020 (oral)##3D目标跟踪##点云#

[14].P2B: Point-to-Box Network for 3D Object Tracking in Point Clouds

点云3D目标跟踪的Point-to-Box网络(P2B),1080TI上40FPS

为了实现点云中的3D目标跟踪,我们提出了一种新型的Point-to-Box网络,称为P2B,以端到端学习的方式来实现。我们的主要想法是首先在三维搜索区域内嵌入目标信息,将潜在的目标中心定位在三维搜索区域内。然后,点驱动的三维目标候选框和验证共同执行。通过这种方式,可以避免耗时的三维详尽搜索。

我们应用PointNet++作为骨干,在KITTI跟踪数据集上的实验证明了P2B的优越性(比最先进的改进约10%)。值得注意的是,P2B可以在单个NVIDIA 1080Ti GPU上以40FPS运行。

作者 | Haozhe Qi, Chen Feng, Zhiguo Cao, Feng Zhao, Yang Xiao

单位 | 华中科技大学

论文 | https://arxiv.org/abs/2005.13888

代码 | https://github.com/HaozheQi/P2B

 

  四维可视化

#CVPR 2020#

[15].4D Visualization of Dynamic Events from Unconstrained Multi-View Videos

无约束多视角视频动态事件的四维可视化

我们提出了一种数据驱动的4D时空可视化方法,用于从手持式多摄像头拍摄的视频。我们方法的关键是使用特定于场景的自监督神经网络来构成事件的静态和动态方面。

作者 | Aayush Bansal, Minh Vo, Yaser Sheikh, Deva Ramanan, Srinivasa Narasimhan

单位 | 卡内基梅隆大学

论文 | https://arxiv.org/abs/2005.13532

代码 | https://github.com/aayushbansal/Open4D

网站 | http://www.cs.cmu.edu/~aayushb/Open4D/

   3D神经网络

 

[16].SurfaceNet+: An End-to-end 3D Neural Network for Very Sparse Multi-view Stereopsis

SurfaceNet+:一种用于非常稀疏的多视角立体视觉的端到端3D神经网络

实验证明了SurfaceNet+和最先进的方法在精度和召回方面的巨大性能差距。在两个数据集的极端稀疏-MVS设置下,现有的方法只能返回极少的点,SurfaceNet+在密集的MVS设置下,仍然可以很好地工作。

作者 | Mengqi Ji, Jinzhi Zhang, Qionghai Dai, Lu Fang

单位 | 清华

论文 | https://arxiv.org/abs/2005.12690

代码 | https://github.com/mjiUST/SurfaceNet-plus

 

在我爱计算机视觉公众号对话框回复“CVCode”即可获取以上所有论文下载地址。(网盘位置:Code周报–20200504期)

往期”精彩阅读”

转载请注明:《CV Code|计算机视觉开源周报20200504期