作者 | CV君
编辑 | CV君
报道 | 我爱计算机视觉(微信id:aicvml)
#点云##语义分割#
SensatUrban: Learning Semantics from Urban-Scale Photogrammetric Point Clouds
牛津大学&香港理工大学&纽卡斯尔大学
SensatUrban,一个城市规模的无人机摄影测量点云数据集,包括从英国三个城市收集的近30亿个点,覆盖7.6 km^2。数据集中的每一个点都被贴上了细粒度的语义标注,从而使数据集的规模是之前现有最大摄影测量点云数据集的三倍。除了比较常见的类别,如道路和植被,城市级别的类别,包括铁路、桥梁和河流,也包括在该数据集中。
基于这个数据集,作者进一步建立一个基准来评估最先进的分割算法的性能。特别是,提供一个全面的分析,并确定限制城市尺度点云理解的几个关键挑战。
已开源:https://github.com/QingyongHu/SensatUrban
论文:https://arxiv.org/abs/2201.04494

#视觉识别##场景理解#
Incidents1M: a large-scale dataset of images with natural disasters, damage, and incidents
麻省理工学院&丹麦技术大学等
Incidents1M,一个大规模的多标签数据集,包含977,088张图片,有43个incident和49个地点类别。文中提供了数据集构建、统计和隐藏偏差的细节;介绍并训练了一个事件检测模型;并对Flickr和Twitter上的数百万张图片进行了图像过滤实验。还介绍了一些关于事件分析的应用,以鼓励和促进未来计算机视觉在人道主义援助方面的工作。
已开源:https://github.com/ethanweber/IncidentsDataset
论文:https://arxiv.org/abs/2201.04236

#对比学习#
Robust Contrastive Learning against Noisy Views
麻省理工学院&微软
文中提出 Robust InfoNCE(RINCE),作为对比性学习中InfoNCE损失的一个简单替代,很容易应用于现有的对比性框架。尽管它很简单,但它有很强的理论依据,并能保证对嘈杂的观点。从实验看,在图像、视频和图形对比学习场景中提供了大量的结果,证明了它对各种现实的噪声模式的鲁棒性。
已开源:https://github.com/chingyaoc/RINCE
论文:https://arxiv.org/abs/2201.04309

Neural Residual Flow Fields for Efficient Video Representations
成均馆大学
文中提出一种新的INR方法,通过明确地去除数据冗余来表示和压缩视频。提出Neural Residual Flow Fields(NRFF),作为存储原始RGB颜色的替换,使用跨视频帧的运动信息和重建视频所需的残差。保持运动信息,通常比原始信号更平滑,更不复杂,需要的参数也少得多。此外,重用冗余的像素值进一步提高了网络参数效率。实验结果表明,所提出的方法在很大程度上优于基线方法。
已开源:https://github.com/daniel03c1/eff_video_representation
论文:https://arxiv.org/abs/2201.04329

#视频质量增强##超分辨率#
MoViDNN: A Mobile Platform for Evaluating Video Quality Enhancement with Deep Neural Networks
Alpen-Adria-Universit¨
文中提出一个开源的移动平台,MoViDNN,以评估基于DNN的视频质量增强方法,如超分辨率、去噪和deblocking。该平台可用于客观和主观地评估基于DNN的方法。对于客观评价,计算并报告了PSNR、SSIM和执行时间。对于主观评价,计算每个测试视频的MOS。
在演示中包括了超分辨率和deblocking方面的几个最先进的DNNs。此外,还提供一个Github资源库,可以用来转换和评估MoViDNN的其他DNN。最后,在提供的视频中(https://www.youtube.com/watch?v=MzeEsNRlVv0)可以看到MoViDNN的实际演示。
已开源:https://github.com/cd-athena/MoViDNN
论文:https://arxiv.org/abs/2201.04402

转载请注明:《【1月13日】五篇(将)开源论文代码分享》