作者 | CV君
编辑 | CV君
报道 | 我爱计算机视觉(微信id:aicvml)
#人体姿态估计##IJCAI-ECAI 2022#
Dite-HRNet: Dynamic Lightweight High-Resolution Network for Human Pose Estimation
南京邮电大学&加利福尼亚大学河滨分校
本次工作,为了解决以前的高分辨率网络与输入无关和缺乏 long-range 信息的问题,提出一个 Dite-HRNet 来动态地提取人类姿势估计的特征表示。它在 COCO 和MPII 人体姿势估计数据集上都取得了令人印象深刻的效率,这是因为 DMC 和 DGC块的有效性,它们通过嵌入DSC进行输入依赖性卷积,并通过嵌入ACM捕获 long-range 信息。所提出的动态轻量级块可以进一步扩展到其他具有多尺度表示的网络。
已开源:https://github.com/ZiyiZhang27/Dite-HRNet
论文:https://arxiv.org/abs/2204.10762

#点云##IJCAI 2022#
Spatiality-guided Transformer for 3D Dense Captioning on Point Clouds
悉尼大学
SpaCap3D,用于新出现的三维密集字幕任务。作者提出用相对的三维空间性建模来制定对象关系,在此基础上,建立一个基于 Transformer 的架构,其中空间性指导的编码器通过 token-to-token 的空间关系学习指导来学习对象与周围环境在三维空间性中的互动,而共享的以对象为中心的解码器则以每个空间性增强的token 为条件,单独生成精确和无歧义的对象级字幕。
在两个基准数据集上的实验表明,它在准确性和效率方面都大大优于基线方法,例如,SpaCap3D在CIDEr@0.5IoU,分别比基线方法Scan2Cap高出4.94%和9.61%。。
将开源:https://github.com/heng-hw/SpaCap3D
论文:https://arxiv.org/abs/2204.10688

#CVPR 2022##点云#
Reconstructing Surfaces for Sparse Point Clouds with On-Surface Priors
清华&韦恩州立大学
从三维点云中重建曲面是一项重要任务。目前的方法能够通过从单个点云中学习有符号距离函数(SDFs)来重建曲面,而不需要 ground truth 有符号距离或点法线。然而,它们要求点云是密集的,这极大地限制了它们在实际应用中的性能。
为此,提出从稀疏点云中用表面先验重建高度精确的表面。训练一个神经网络,通过将查询投射到稀疏点云所代表的表面来学习SDFs。关键想法是通过推动查询投影在表面上和投影距离为最小来推断 signed 距离。为了实现这一点,训练一个神经网络来捕捉表面上的先验,以确定一个点是否在稀疏点云上,然后利用它作为一个可分函数,从未见过的稀疏点云中学习SDFs。
所提出方法可以从单一的稀疏点云中学习SDF,而不需要 ground truth 的 signed 距离或点法线。并在广泛使用的基准下进行的数值评估表明,达到了最先进的重建精度,特别是对于稀疏点云。
已开源:https://github.com/mabaorui/OnSurfacePrior
论文:https://arxiv.org/abs/2204.10603

#CVPR 2022##人脸重建#
JIFF: Jointly-aligned Implicit Face Function for High Quality Single View Clothed Human Reconstruction
香港大学&The Future Network of Intelligence Institute (FNii), CUHK-Shenzhen
本文讨论了单视角三维人体重建的问题。近期基于隐函数的方法取得了令人惊喜的结果,但它们未能在重建中恢复精细的人脸细节。在很大程度上降低了3D远程呈现等应用的用户体验。
为此,本篇文章专注于提高重建中的人脸质量,并提出一种新的 Jointly-aligned Implicit Face Function(JIFF),它结合了基于隐函数的方法和基于模型的方法的优点。采用一个可变形的三维人脸模型作为形状先验,并计算空间对齐的三维特征,以捕获详细的人脸几何信息。这种空间对齐的三维特征与像素对齐的二维特征相结合,共同预测一个隐藏的人脸函数,以实现高质量的人脸重建。作者对管道进一步扩展,并引入一个从粗到细的架构来预测详细的人脸模型的高质量纹理。
在公共数据集上进行了广泛的评估,所提出的JIFF在数量和质量上都比现有的技术水平要高。
将开源:https://github.com/yukangcao/JIFF
论文:https://arxiv.org/abs/2204.10549

#Text-to-image合成#
Recurrent Affine Transformation for Text-to-image Synthesis
华南理工大学
文本到图像的合成旨在生成以文本描述为条件的自然图像。这项任务的主要困难在于如何将文本信息有效地融合到图像合成过程中。现有的方法通常自适应地将合适的文本信息与多个孤立的融合块(例如,条件批量归一化和实例归一化)融合到合成过程中。然而,孤立的融合块不仅相互冲突,而且还增加了训练的难度(见补充文件的第一页)。
为此,作者提出一个用于生成式对抗网络的 Recurrent Affine Transformation(RAT),用一个递归神经网络连接所有的融合块,以模拟它们的长期依赖关系。此外,为了提高文本和合成图像之间的语义一致性,在判别器中加入了一个空间注意模型。由于知道匹配的图像区域,文本描述监督生成器合成更多相关的图像内容。
在 CUB、Oxford-102 和 COCO 数据集上进行的广泛实验表明,与最先进的模型相比,所提出的模型具有优越性。
将开源:https://github.com/senmaoy/Recurrent-Affine-Transformation-for-Text-to-image-Synthesis
论文:https://arxiv.org/abs/2204.10482

#视觉问答##ACL 2022#
Hypergraph Transformer: Weakly-supervised Multi-hop Reasoning for Knowledge-based Visual Question Answering
首尔大学&汉阳大学&Surromind
基于知识的视觉问答(QA)旨在回答一个需要视觉基础的外部知识的问题,而不是图像内容本身。回答需要在弱监督下进行 multi-hop reasoning 的复杂问题被认为是一个具有挑战性的问题,因为推理过程没有监督,需要捕捉 multi-hop 知识事实的高阶语义。
本篇文章引入一个 hypergraph 的概念来编码问题和知识库的高级语义,并学习它们之间的高阶关联。提出的模型Hypergraph Transformer构建一个 question hypergraph 和一个 query-aware knowledge hypergraph,并通过编码两个超图之间的相互关联和两个超图本身的内部关联来推断出答案。
在两个基于知识的视觉 QA 和两个基于知识的文本 QA 上的广泛实验证明了该方法的有效性,特别是对于 multi-hop reasoning 问题。
将开源:https://github.com/yujungheo/kbvqa-public
论文:https://arxiv.org/abs/2204.10448

#医学图像分析##CVPR 2022#
DiRA: Discriminative, Restorative, and Adversarial Learning for Self-supervised Medical Image Analysis
亚利桑那州立大学&Mayo Clinic
Discriminative learning(鉴别性学习), restorative learning(恢复性学习 )和 adversarial learning(对抗学习)已被证明有利于计算机视觉和医学成像的自监督学习方案。然而,现有的工作忽略了它们在 ternary 设置中相互之间的协同效应,假设,这可以大大有利于深度语义表示学习。
为此,开发 DiRA,是第一个以统一的方式将鉴别性学习、恢复性学习和对抗学习结合在一起的框架,以协作的方式从无标签的医学图像中收集互补的视觉信息,用于精细的语义表示学习。
广泛的实验证明,DiRA鼓励三种学习成分之间的协作学习,从而在不同的器官、疾病和模式中产生更多的通用表征;优于完全监督的ImageNet模型,并在小数据体制下提高鲁棒性,降低了多种医学影像应用的标注成本;学习细粒度的语义表征,促进了仅有图像级标注的准确病变定位;增强了最先进的恢复性方法,揭示了DiRA是一种联合表征学习的通用机制。
已开源:https://github.com/fhaghighi/DiRA
论文:https://arxiv.org/abs/2204.10437

转载请注明:《【4月25日】七篇(将)开源论文代码分享》