作者 | CV君
编辑 | CV君
报道 | 我爱计算机视觉(微信id:aicvml)
#目标检测#
Detecting Twenty-thousand Classes using Image-level Supervision
Meta AI&得克萨斯大学奥斯汀分校
由于检测数据集的规模较小,当前的目标检测器在 vocabulary 数量方面受到限制。而另一方面,图像分类器的 vocabulary 数量要大得多,因为它们的数据集更大,更容易收集。
本次工作中,提出Detic,它只是在图像分类数据上训练检测器的分类器,从而将检测器的词汇量扩大到数万个概念。与之前的工作不同,Detic 不根据模型预测为boxes 分配图像标签,因此它更容易实现,并与一系列检测架构和骨干网兼容。
研究结果表明,Detic 产生了优秀的检测器,即使是对没有 box 标注的类别。它在 open-vocabulary 和长尾检测基准上的表现都优于先前的工作。在open-vocabulary LVIS基准上,Detic为所有的类提供了2.4 mAP的增益,为新的类提供了8.3 mAP。在标准的LVIS基准上,Detic对所有的类达到了41.7 mAP,对稀有类达到了41.7 mAP。
作者表示是第一次用ImageNet数据集的所有2万个类来训练一个检测器,并表明它无需微调就能通用于新的数据集。
已开源:https://github.com/facebookresearch/Detic
论文:https://arxiv.org/abs/2201.02605

#长尾目标检测#
Equalized Focal Loss for Dense Long-Tailed Object Detection
同济大学&商汤&清华大学
对于之前的长尾目标检测器都是基于两阶段的范式开发的。实际上,单阶段检测器在业界更为普遍,因为它们有一个简单而快速的管道,易于部署。但在长尾情况下,这一工作思路至今尚未被探索。
本次工作,研究了单阶段检测器在这种情况下是否能有良好的表现。作者发现阻碍单阶段检测器取得优异性能的主要障碍是:类别在长尾数据分布下存在不同程度的positive-negative 不平衡问题。
传统的 focal loss 在训练过程中对所有类别都采用相同的调节因子进行平衡,因此无法处理长尾问题。为了解决这个问题,作者提出 Equalized Focal Loss(EFL),它根据不同类别的 positive and negative 样本的不平衡程度独立地重新平衡它们的损失贡献。具体来说,EFL采用一个与类别相关的调节因子,可以根据不同类别的训练状态动态调整。
在具有挑战性的LVIS v1基准上进行的广泛实验证明了所提出方法的有效性。通过一个端到端的训练管道,EFL在整体AP方面达到了29.2%,并在稀有类别上获得了显著的性能改进,超过了所有现有的最先进的方法。
已开源:https://github.com/ModelTC/EOD
论文:https://arxiv.org/abs/2201.02593

#神经渲染#
NeROIC: Neural Rendering of Objects from Online Image Collections
Snap Inc
文中提出一种从在线图像集合中获取物体表征的新方法,从具有不同相机、光照和背景的照片中捕捉任意物体的高质量几何和材料属性。这使得各种以物体为中心的渲染应用成为可能,如新视角合成、重照光以及从具有挑战性的自然输入中获得协调的背景构成。
作者使用多阶段的方法来扩展 neural radiance fields,首先推断出表面的几何形状并完善粗略估计的初始相机参数,同时利用粗略的前景物体掩码来提高训练效率和几何质量。还引入一种鲁棒的法线估计技术,在保留关键细节的同时消除几何噪声的影响。
最后,提取表面材料属性和环境光照,用球面谐波表示,并进行扩展,以处理瞬时元素,例如尖锐的阴影。这些组件的结合产生一个高度模块化和高效的物体采集框架。
广泛的评估和比较表明,所提出方法在捕捉高质量的几何和外观属性方面具有优势,对渲染应用非常有用。
将开源:https://formyfamily.github.io/NeROIC/
论文:https://arxiv.org/abs/2201.02533

#运动预测#
Motion Prediction via Joint Dependency Modeling in Phase Space
吉林大学&浙江大学&南洋理工大学&山东师范大学&新加坡国立大学&
本次工作通过摆脱运动学图形姿态表示,而采用每个组成关节的相空间轨迹表示来解决运动预测问题。有助于通过考虑个性化的关节轨迹而不是整个姿势序列来降低问题的固有复杂性。作者进一步设计一个由先验解剖知识编码和多尺度卷积组成的网络,用于建立明确的关节依赖性模型。
与一个基于全局亲和力的优化模块一起,获得关节轨迹的外推,这些轨迹连贯地聚集在一起,形成一个一致和自然的姿势序列。
实验证明所提出方法是鲁棒和准确的,显示出比最先进的方法有明显的改进。
将开源:https://github.com/Pose-Group/TEID
论文:https://arxiv.org/abs/2201.02365

#域泛化#
ITSA: An Information-Theoretic Approach to Automatic Shortcut Avoidance and Domain Generalization in Stereo Matching Networks
皇家墨尔本理工大学&埃迪斯科文大学
ITSA:一种基于信息理论的新方法,用于立体匹配网络的领域概括。为了解决 shortcut learning(捷径学习)的挑战,作者提出最小化提取的特征表征对输入扰动的敏感性,通过Fisher信息测量。进一步提出一种有效的算法来优化Fisher信息的目标。
实验结果表明,所提出的方法能够持续促进鲁棒性和捷径不变性特征的学习,并大幅提高现有立体匹配网络在跨域泛化方面的性能,甚至在具有挑战性的情况下胜过其微调的对应网络。还表明,所提出的方法可以很容易地扩展到非基于几何的视觉问题,如语义分割。
已开源:https://anonymous.4open.science/r/ITSA-D281/README.md
论文:https://arxiv.org/abs/2201.02263

#语义分割#
CitySurfaces: City-Scale Semantic Segmentation of Sidewalk Materials
纽约大学&罗格斯大学&伊利诺伊大学芝加哥分校
本次工作提出CitySurfaces,一个基于主动学习的框架,利用计算机视觉技术,通过广泛可用的街道图像对人行道材料进行分类。在 New York City 和 Boston 图像上对该框架进行了训练,评估结果显示mIoU得分达到90.5%。此外,使用六个不同城市的图像对该框架进行了评估,表明它可以应用于具有独特城市结构的地区,甚至在训练数据领域之外。
CitySurfaces可以为研究人员和城市机构提供一种低成本、准确和可扩展的方法来收集人行道材料数据,这在解决主要的可持续发展问题(包括气候变化和地表水管理)中起着关键作用。
将开源:https://github.com/VIDA-NYU/city-surfaces
论文:https://arxiv.org/abs/2201.02260

#迁移学习#
Consistent Style Transfer
西安交通大学&武汉大学
文中提出 progressive attention manifold alignment 框架(PAMA),以缓解不一致的问题并提高风格化的质量。PAMA使用注意力机制来揭示最相关的内容和风格manifolds(流行)之间的对应关系,然后应用空间感知插值来自适应地融合相关流形。
通过多次执行这一过程,最相关的内容和风格流形之间的结构相似性增加,使注意力机制更容易在它们之间进行一致的特征匹配。注意力机制可以捕捉到特征的多流形分布,从而产生高质量的一致结果。
已开源:https://github.com/computer-vision2022/PAMA
论文:https://arxiv.org/abs/2201.02233

转载请注明:《【1月10日】七篇(将)开源论文代码分享》