「10月11日」十一篇(将)开源论文代码分享

作者 | CV君

编辑 | CV君

报道 | 我爱计算机视觉(微信id:aicvml)


#点云#

Explainability-Aware One Point Attack for Point Cloud Neural Networks

多特蒙德工业大学

文中提出两种新的攻击方法:OPA和CTA。OPA,一种适用于点云的基于 shifting 的攻击,通过扰动一个点来 fools 流行的点云网络,成功率很高;CTA,进一步提高了成功率,限制了扰动距离,并可以很容易地扩展到有针对性的攻击,其代价只是增加了几个移位点。

已开源
https://github.com/Explain3D/Exp-One-Point-Atk-PC

论文:
https://arxiv.org/abs/2110.04158

「10月11日」十一篇(将)开源论文代码分享

#域适应#

Exploiting the Intrinsic Neighborhood Structure for Source-free Domain Adaptation

西班牙巴塞罗那自治大学&南京理工大学&华为

本次工作解决了具有挑战性的无源域适应(SFDA)问题,即在没有源数据的情况下,源预训练的模型要适应目标域。通过揭示内在的目标数据结构,引入一种无源域适应(SFDA)方法。通过鼓励本地目标特征之间的标签一致性来实现适应。区分了 nearest neighbors(最近邻), reciprocal neighbors 和 expanded neighborhood。实验结果证实了考虑目标特征的局部结构的重要性。最后,在二维图像和三维点云数据集上的实验结果证明了所提出方法的有效性。

已开源
https://github.com/Albert0147/SFDA_neighbors

论文:
https://arxiv.org/abs/2110.04202

「10月11日」十一篇(将)开源论文代码分享

#暴力图像检测#

Inferring Offensiveness In Images From Natural Language Supervision

识别更多不当的和隐藏攻击性的内容

已开源
https://github.com/ml-research/OffImgDetectionCLIP

论文:
https://arxiv.org/abs/2110.04222

「10月11日」十一篇(将)开源论文代码分享

#Object Anti-Spoofing#

MToFNet: Object Anti-Spoofing with Mobile Time-of-Flight Data

三星SDS&韩国中央大学

object anti-spoofing 任务,是为了防止被人恶意抓取显示屏上的图像,作者称本次研究工作首次采用由移动 ToF 传感器收集的带有深度信息的图像。并提出一种通用的 anti-spoofing 方法,在训练阶段甚至可以区分未见过的显示图像。当图像在显示屏上重现时,屏幕上的各种不同图案,如摩尔纹,也会被捕捉到欺骗性的图像中。这些图案引起 anti-spoofing 模型被过度拟合,无法检测到在未见过的媒体上重现的欺骗图像。

为了避免这个问题,作者建立一个由两个嵌入模型组成的新型表示模型,它可以在不考虑重新获得的图像情况下进行训练。同时,新引入 mToF 数据集,是最大和最多样化的 object anti-spoofing 数据集,也是首个利用 ToF 数据的数据集。实验结果证实,该模型即使在未见过的领域也能实现鲁棒性的泛化。

将开源:
https://github.com/SamsungSDS-Team9/mToFNet

论文:
https://arxiv.org/abs/2110.04066

「10月11日」十一篇(将)开源论文代码分享

#轨迹预测#

SVG-Net: An SVG-based Trajectory Prediction Model

洛桑联邦理工学院&谢里夫理工大学

本次研究中,作者提议在车辆轨迹预测中使用标准化的 SVG 表示,而不是 raster images(光栅图像),然后提出SVG-Net,一个基于 transformer 的网络,可以有效地感知 SVG 表示的场景和代理人的互动,并表示公开代码,以推动该领域的发展。

将开源:
https://github.com/vita-epfl/SVGNet

主页:
https://vita-epfl.github.io/SVGNet/

论文:
https://arxiv.org/abs/2110.03706

「10月11日」十一篇(将)开源论文代码分享

#分割#

Adaptive Early-Learning Correction for Segmentation from Noisy Annotations

纽约大学

本次工作引入一种新的方法来提高在噪声标注上训练的分割模型的鲁棒性。受早期学习现象的启发,提出 ADELE 来提高胸腔器官分割的性能,在医学影像分割任务上的表现优于标准方法,在该任务中,噪音被合成以模仿人类标注错误。还提供了对弱监督语义分割中存在的现实噪音标注的鲁棒性,在 PASCAL VOC 2012 上取得了最先进的结果。

将开源:
https://github.com/Kangningthu/ADELE

论文:
https://arxiv.org/abs/2110.03740

「10月11日」十一篇(将)开源论文代码分享

#剪枝##强化学习##模型压缩#

ABCP: Automatic Block-wise and Channel-wise Network Pruning via Joint Search

中科院&北京理工大学&澳大利亚国立大学

文中提出 Automatic Block-wise and Channel-wise Network Pruning(ABCP),用深度强化学习联合搜索block-wise 和 channel-wise 修剪动作。以及一种联合采样算法,分别从离散和连续搜索空间中同时生成每个 residual block(残差块)的剪枝选择和每个卷积层的通道剪枝比例。最后得到了同时考虑模型的准确性和复杂性的最佳剪枝动作。与传统的基于规则的剪枝方法相比,该管道节省了人力,实现了更高的压缩率和更低的精度损失。

在移动机器人检测数据集上测试,剪枝后的 YOLOv3 模型节省了99.5%的FLOPs,减少了99.5%的参数,实现了37.3倍的速度,只有2.8%的mAP损失。sim2real 检测数据集上的迁移任务结果也表明,剪枝后的模型具有更好的鲁棒性性能。

将开源:
https://github.com/DRL-CASIA/ABCP

论文:
https://arxiv.org/abs/2110.03858

「10月11日」十一篇(将)开源论文代码分享

#目标检测##Transformer#

ViDT: An Efficient and Effective Fully Transformer-based Object Detector

NAVER AI Lab&谷歌&加利福尼亚大学默塞德分校

文中整合了 Vision and Detection Transformers(ViDT)来构建一个有效和高效的目标检测器。ViDT 引入一个重新配置的注意力模块,将最近的 Swin Transformers 扩展为一个独立的目标检测器,以及一个计算效率高的Transformers 解码器,利用多尺度特征和辅助技术来提高检测性能而不增加很多计算负荷。在微软 COCO 基准数据集的广泛评估结果表明,ViDT 在现有的完全基于 Transformers 的目标检测器中获得了最佳的 AP 和延迟权衡,并且由于其对大型模型的高可扩展性而达到了49.2AP。

将开源:
https://github.com/naver-ai/vidt

论文:
https://arxiv.org/abs/2110.03921

「10月11日」十一篇(将)开源论文代码分享

#CoRL 2021##点云#

Self-supervised Point Cloud Prediction Using 3D Spatio-temporal Convolutional Networks

波恩大学

文中作者解决了在过去的 LiDAR 扫描序列中预测未来的 3D LiDAR 点云问题。在传感器层面上估计未来的场景不需要像定位或跟踪系统那样的任何前置步骤,并且可以进行自监督的训练。提出一种端到端的方法,利用每个三维激光雷达扫描的二维范围图像表示,并将一连串的范围图像连接起来,以获得一个三维张量。

基于这样的张量,开发一个使用三维卷积的编码器-解码器架构,以联合汇总场景的空间和时间信息,并预测未来的三维点云。并在多个数据集上评估了该方法,实验结果表明,所提出方法优于现有的点云预测架构,并能很好地适用于新的、未见过的环境,无需额外的微调。另外,该方法是在线操作的,比常见的 LiDAR 帧率 10Hz 还要快。

将开源:
https://github.com/PRBonn/point-cloud-prediction

论文:
https://arxiv.org/abs/2110.04076

「10月11日」十一篇(将)开源论文代码分享

转载请注明:《「10月11日」十一篇(将)开源论文代码分享