「5月28日」七篇(将)开源论文代码分享

作者 | CV君

编辑 | CV君

报道 | 我爱计算机视觉(微信id:aicvml)


#文本到图像生成#

1、CogView: Mastering Text-to-Image Generation via Transformers

清华&阿里达摩院&BAAI

本文对将 VQVAE 和 Transformers 结合用于文本到图像生成的框架进行了研究。所提出的 CogView 为可扩展的跨模式生成预训练做出重要贡献,并解决了可能源于数据异质性的精度问题。还介绍了为不同的下游任务对CogView 进行微调的方法,如风格学习、超分辨率、text-image ranking、时装设计,以及稳定预训练的方法,如消除NaN损失。CogView(0-shot)在模糊的 MS COCO 上实现了新的最先进的 FID,超过了以前基于 GAN 的模型和近期类似的工作 DALL-E。

将开源:
https://github.com/THUDM/CogView

论文:
https://arxiv.org/abs/2105.13290

「5月28日」七篇(将)开源论文代码分享

#姿态估计##人物交互##人脸与手势识别#

2、Pose2Drone: A Skeleton-Pose-based Framework for Human-Drone Interaction

卡尔斯鲁厄理工学院

无人机已成为当前的常用工具,多用于高空摄影、监控、送货等。Human-Drone Interaction (人与无人机之间的人机交互HDI) 技术对于上述任务至关重要,而该技术的关键是手势。本次工作,作者建立一个基于骨架的姿势估计的 HDI 框架。可以用简单的手臂手势控制无人机运动,并在保持安全距离的同时跟随用户。所提出的 monocular distance estimation(单目距离估计)完全基于图像特征,不需要任何额外的深度传感器。又创建一个定制的测试数据集用来对所提出方法进行评估测验。实验表明,HDI 框架在识别 11 种常见手势时,可以达到平均 93.5% 的准确率。

将开源:
https://github.com/Zrrr1997/Pose2Drone

论文:
https://arxiv.org/abs/2105.13204

「5月28日」七篇(将)开源论文代码分享

#语义分割##实时语义分割#

3、Feature Reuse and Fusion for Real-time Semantic segmentation

新疆大学

目的:设计一个轻量级网络,在不进行任何预训练的情况下达到最先进的实时语义分割的水平。

方案:提出一个编码器-解码器架构,将解码器网络应用到为实时分割任务设计的主干模型上,并设计三种不同的方式在聚合阶段融合语义和详细信息。

结果:在 Cityscapes 和 CamVid 数据集上的实验表明,FRFNet 在速度计算和准确性之间取得了平衡。在Cityscapes 测试数据集上,实现了 76.4%的平均并交比(mIoU\%),在单个 RTX 2080Ti 卡上的速度为 161 FPS。

将开源:
https://github.com/favoMJ/FRFNet

论文:
https://arxiv.org/abs/2105.12964

「5月28日」七篇(将)开源论文代码分享

#人脸检测##YOLO#

4、YOLO5Face: Why Reinventing a Face Detector

深圳神目科技&LinkSprite Technologies(美国)

提出基于 YOLOv5 目标检测器的 YOLO5Face,实现了八个模型。最大的模型 YOLOv5l6 和超小的模型 YOLOv5n在 WiderFace 验证的Easy、Medium 和 Hard 子集上都达到了接近或超过 SOTA 的性能。YOLO5Face 不仅实现了最佳性能,而且运行速度也很快。

已开源:
https://github.com/deepcam-cn/yolov5-face

论文:
https://arxiv.org/abs/2105.12931

「5月28日」七篇(将)开源论文代码分享
「5月28日」七篇(将)开源论文代码分享
「5月28日」七篇(将)开源论文代码分享

#三维图像分类##医学图像分类##CLEF 2021#

5、ViPTT-Net: Video pretraining of spatio-temporal model for tuberculosis type classification from chest CT scans

康考迪亚大学&North South University

ViPTT-Net,在 1300 多个带有人类活动标签的视频片段上进行训练,然后在带有结核病类型标签的胸部 CT 扫描上进行微调。发现,在视频上预训练模型表现更好,并大大改善了模型的验证性能,kappa score 从 0.17 的到 0.35,特别是对于代表性不足的类别样本。其中最好的方法在 ImageCLEF 2021 结核病-TBT分类任务中获得了第二名,在只有图像信息(不使用临床元数据)的最终测试集上的 kappa score 为 0.20。

已开源:
https://github.com/hasibzunair/viptt-net

论文:
https://arxiv.org/abs/2105.12810

「5月28日」七篇(将)开源论文代码分享

#ICIP 2021##视频相关技术#

6、DFPN: Deformable Frame Prediction Network

Koc¸ University

提出一个可变形帧预测网络(DFPN),用于面向任务的隐式运动建模和下一帧预测。实验结果表明,所提出的DFPN 模型在下一帧预测中取得了最先进的结果。

已开源:
https://arxiv.org/abs/2105.12794

论文:
https://github.com/makinyilmaz/DFPN

「5月28日」七篇(将)开源论文代码分享

#AAAI 2021##LiDAR 重建#

7、DSLR: Dynamic to Static LiDAR Scan Reconstruction Using Adversarially Trained Autoencoder

印度科技学院&AMIDC Pvt Ltd&Chennai Mathematical Institute

文中提出一种新型的、经过对抗性训练的自动编码器模型,用于静态背景的 LiDAR 重建,不需要分割掩码。以及一个接受现有分割掩码的变体,以进一步改善 LiDAR 重建,也提高了动态环境下的SLAM性能。

已开源:
https://github.com/dslrproject/dslr/tree/master

论文:
https://arxiv.org/abs/2105.12774

「5月28日」七篇(将)开源论文代码分享

转载请注明:《「5月28日」七篇(将)开源论文代码分享