《VIOLET》- UCSB&微软提出VIOLET,用Masked Visual-token Modeling进行端到端的视频语言学习!性能SOTA!

作者 | 小马

编辑 | CV君

报道 | 我爱计算机视觉(微信id:aicvml)

【写在前面】

视频语言(VidL)建模的一个巨大挑战在于,从图像/视频理解模型提取的固定视频表示与下游VidL数据之间的脱节 。最近的研究试图通过端到端的训练来解决这个问题。为了使其在计算上可行,先前的工作倾向于“图像化 ”视频输入,即,将少量稀疏采样的帧送入2D CNN,然后进行简单的平均池化或合并以获得整体视频表示。虽然取得了不错的结果,但这种简单的方法可能会丢失执行下游VidL任务所必需的时间信息。

在这项工作中,作者提出了VIOLET ,一个完全端到端的视频语言Transformer,它采用视频Transformer来显式地建模视频输入的时间信息。此外,先前的视频输入预训练任务(如masked frame modeling)不是非常有效,因此,作者提出了一个新的预训练任务,Masked Visual-token Modeling(MVM) ,用于更好的视频建模。

具体而言,原始视频帧patch被“标记化”为离散的视觉token,模型的目标是基于masked patches恢复原始视觉token 。综合的分析证明了通过视频Transformer和MVM进行显式时间建模的有效性。VIOLET在5个视频问答任务和4个文本到视频检索任务上实现了SOTA的性能。

1. 论文和代码地址

论文地址:arxiv.org/abs/2111.1268

代码地址:github.com/tsujuifu/pyt(未开源)

2. Motivation

人类能从视觉,声音和触觉等多种方式感知这个世界的。包含多种模态的视频可以用作测试AI系统如何感知的缩影。视频语言 (VidL) 研究旨在通过语言来拓展这种能力。目前常见的VidL任务包括文本到视频检索,视频问答,基于文本的视频时刻检索和视频字幕等。

以前的工作尝试对密集视频特征和文本特征进行跨模态融合以解决VidL任务,但由于离线特征提取,模态之间的联系将会被阻断。为了解决这个问题,ClipBERT 提出 “图像化” 密集的视频帧输入。首先,它采用稀疏采样策略,仅使用整个视频中的少数帧进行有效的端到端训练。

然后,通过对由2D卷积网络单独计算的一系列帧特征进行平均池化来获得整体视频表示。尽管获得了不错的结果,但在单个帧特征上的平均池化却失去了视频中关键的时间信息。为了改进时间建模,最近的工作按时间顺序连接了所有稀疏采样的帧特征,并直接与文本输入一起执行VidL学习。但是,这些方法仍然将视频帧视为静态图像,并且在很大程度上依赖于跨模态融合模块来捕获视频中的时间动态以及视觉和文本元素之间的对齐方式。

在本文中,作者提出了完全端到端的视频语言Transformer(VIOLET),从两个角度增强视频建模以实现更好的VidL建模:(1) 模型结构 , (2) 预训练任务设计 。

模型结构 方面,VIOLET包含的Video Swin Transformer明确地对视频时间进行建模。由于对时空局部性的自注意力允许对可变序列长度进行建模,因此本文的视频Transformer支持从视频和静态图像中进行灵活的学习。

预训练任务 方面,尽管直接采用Masked Language Modeling已被证明在预训练视觉语言模型中是有效的,但在视觉输入上进行类似的masked modeling的尝试并没有非常成功,如Masked Region Modeling (MRM) 或Masked Frame Modeling (MFM) 旨在恢复mask的图像区域或视频帧。尽管MRM/MFM的不同变体对对象类别或蒸馏的区域/帧特征进行了建模,但它仍受到patch标签不完善,特征尺寸过大,性能不理想的困扰。

为了促进用于VidL学习的更好的视频表示,作者提出了一个新的预训练任务: Masked Visual-token Modeling(MVM) ,如上图的左侧所示。通过使用DALL-E的预训练的离散VAE,将视频帧 “标记化” 为离散的视觉token,用于重建原始视频帧。

在预训练过程中,作者mask了沿空间和时间维度的视频输入的某些token,并且模型学会了恢复这些mask patch的离散视觉token。MVM通过两种方式改进了以前的MRM/MFM:(1)MVM在离散空间上进行预测,从而避免了因过度特征维数产生的训练问题 。(2) MVM基于自重建训练获得了潜在视觉token,而不是从监督良好的视觉主干中提取 。

3.方法

3.1. Model Architecture

上图展示了本文端到端视频语言Transformer (VIOLET) 的整体架构。VIOLET包含3个组件: Video Swin Transformer (VT),语言嵌入器 (LE) 和跨模态Transformer(CT) 。VIOLET以视频V和句子X作为输入。V中的稀疏帧[公式]首先由VT处理以计算视频特征[公式]。LE在X中提取每个单词token[公式]的单词嵌入[公式]。然后CT在v和w之上执行跨模态融合,以产生联合视频语言 (VidL) 表示h,用于预训练和下游微调。

Video Swin Transformer (VT)

作者采用Video Swin Transformer (VT) 将T个稀疏采样帧[公式]沿空间和时间维度建模为视频特征[公式]。VT首先将每帧分割为不重叠的[公式]个patch,并采用线性投影层获得初步的视频patch embedding[公式]:

[公式]

然后,多层3D-shifted窗口在这些视频patch embedding中进行不同级别的时空注意力。此外,作者还添加了可学习的位置嵌入[公式],包括空间位置[公式]和时间位置[公式],然后提取视频特征v:

[公式]

来自第t帧的所有patch共享相同的[公式],具有相同空间位置的所有patch共享有相同的[公式]。每个3D窗口的大小为[公式],考虑了跨[公式]个连续帧的视频时间。通过在视频patch块上采用3D窗口,VT可以通过自注意力的计算过程同时对图像空间和视频时间进行建模。相比于原始的Swin Transformer,作者进行了一些修改,即删除时间向下采样,确保在预训练期间与Masked Visual-token Modeling的输入视频相同的时间维度。

VT通过3D-shift窗口强制进行时空建模,以计算用于VidL建模的初始视频表示。由于VT通过完全自注意的计算对视频帧patch进行编码,因此它可以支持可变长度的视觉输入。因此,这样的视频编码使VIOLET能够执行静态图像 (即T = 1)。

Language Embedder (LE)

对于语言输入X,作者遵循WordPiece,将其标记为单词token[公式],其中L是X中的token数。LE将离散词token[公式]嵌入到高维词表示[公式]中:

[公式]

Cross-modal Transformer (CT)

给定视频特征v和单词特征w,CT对所有[公式][公式]进行交叉模态融合,以进行联合VidL学习。作者将不同的位置嵌入[公式][公式]添加到视频特征v或单词特征w中,以合并序列顺序并区分两种模态。然后,将位置嵌入后的视频和文本表示,concat为CT的输入序列。此外,作者还添加了一个特殊的 [CLS] token来计算全局VidL表示,用于预训练和下游微调。联合VidL特征[公式]计算如下:

[公式]

3.2. Pretraining Tasks

为了受益于大规模数据,作者结合了三个预训练任务。Masked Language Modeling (MLM)预测mask词token,以在视觉感知的帮助下改善语言推理。Masked Visual-token Modeling (MVM)可恢复mask视频patch,以增强视频场景的理解。Visual-Text Matching (VTM)学习视频和文本模态之间的对齐方式,从而改善了跨模态融合。

Masked Language Modeling (MLM)

在MLM中,作者以15%的概率随机mask掉一些单词token。目标是从交叉模态Tranformer (CT) 建模的联合VidL特征中恢复这些mask token。具体来说,将这些mask token的对应特征[公式]输入到全连接层 ([公式]) 中,并投影到离散单词token空间进行分类:

[公式]

其中[公式]表示mask词标记的索引集。

Visual-Text Matching (VTM)

VTM通过对视觉和文本输入之间的对齐进行建模来增强跨模态融合。在每个训练步骤中,将给定视频V的相应文本[公式]随机替换为同一batch中不同视频的文本描述[公式]。正样本对[公式]和负样本对[公式] 均由CT建模,VTM将它们通过 [CLS] token的全局VidL表示[公式]区分开。具体来说,[公式]将由FC层 ([公式]) 处理来执行二分类任务:

[公式]

其中[公式][公式]是正样本对或负样本对的[公式]

Masked Visual-token Modeling (MVM)

以前的Masked Region Modeling (MRM) 和Masked Frame Modeling(MFM) 将MLM扩展到视觉输入,但会导致性能提升不理想。与MRM和MFM依赖于良好监督的视觉主干的蒸馏视觉类别或特征不同,MVM以在自重建场景中执行masked visual modeling。作者使用了离散变分自编码器 (dVAE)将视频输入量化为mask预测目标。dVAE将图像标记为离散的视觉token[公式],然后基于[公式]重建原始视觉场景,其中[公式]在空间上与输入图像patch一一对应:

[公式]

与MLM类似,作者通过用0替换像素值来mask一些视频token。MVM旨在从相应的联合VidL特征[公式]中恢复那些mask视频patch的视觉token。[公式]被送到FC层 ([公式]) 中,并投影到离散的视觉token空间进行分类:

[公式]

其中[公式]是第t帧的mask视频patch的索引集。使用离散视觉token作为mask预测目标有两个主要优点:

(1) 这些离散视觉token的有限词汇量简化了MVM的学习,避免了以前使用MRM/MFM进行模型训练时,来自不完善的patch类别或过多的特征维度的困难;

(2)MVM不需要监督良好的视觉主干来提取mask标签。可以通过自监督的方式学习潜在的视觉标记,而无需人工标注。

3.3. Masking Strategy of MLM and MVM

作者引入了Blockwise Masking和Attended Masking,以放大MLM和MVM的有效性,如上图所示。

Blockwise Masking (BM)

视频通常在时空neighbors(同一帧中相邻的区域;或者相邻的帧)中呈现类似的视觉模式。这些neighbors使masked video patches易于恢复,但它们可能会导致MVM评估的伪成功。为了使MVM更具挑战性,作者采用了Blockwise Masking,该mask沿时空维度的视频patch块,而不是为每帧独立地mask随机采样的patch。

具体地说,作者随机采样一个 [公式]作为mask块,其中以下[公式]个连续帧中的所有[公式]视觉patch将被mask; 重复这个过程,直到> 15%的视频patch被mask以执行MVM预训练。该模型不能仅依赖于相似的相邻视觉提示,而是需要实际的视觉推理来恢复一组缺失的block。

Attended Masking (AM)

常规做法是在所有视觉和文本输入中以相同的概率采样被mask的视觉patch或文本token。然而,重要元素 (例如,包含主要对象或内容词的视觉patch) 在mask建模中获得了与不太相关的元素 (例如,背景或介词) 相同的权重。

Attended Masking试图根据交叉模态Transformer(CT) 计算的注意力权重对更重要的元素赋予更多权重。首先保持视频文本输入完整,将其输入CT以计算注意力权重,以确定视频和文本中的哪些部分更重要 。然后,选择在视频和文本输入中mask最多的token的前15%,以执行MVM和MLM。

4.实验

4.1. Experimental Setup

预训练中,作者采用了三个数据集:(1)YT-Temporal-180M (YT-Temporal);(2)WebVid-2.5M (WebVid);(3)ConceptualCaptions-3M(CC)。在下游任务中,作者采用了两个任务:视频-文本检索和视频问答。

4.2. Comparison to Prior Arts

Text-to-Video Retrieval

上表展示了本文方法和其他SOTA方法在视频文本检索任务fine-tuning的实验结果,本文方法性能低于CLIP4Clip。

Zero-shot text-to-video retrieval

上表展示了本文方法在视频文本检索任务上zero-shot的实验结果。

Video Question Answering

上表展示了本文方法在video QA任务上的实验结果。

4.3. Analysis of VIOLET

Impact of Temporal Video Modeling

为了证明即使在稀疏采样下也需要进行时间建模,作者在上表中比较了三种用于时间建模的变体。可以看出,本文的VT明显优于Mean和Concat方式。

Effectiveness of MVM

为了证明MVM的有效性,在上表中,作者比较了WebVid上进行预训练时masked visual modeling的不同变体。可以看出,相比于其他方法,MVM对于性能的提升效果是最好的。

上表展示了对不同数量(10%,20%,50%,100%)的场景进行MVM训练时,MVM准确率和下游任务的实验结果,可以看出,随着MVM训练场景的增加,实验性能呈现上升趋势。

Impact of different pre-training data

上表展示了与最近的SOTA方法(Clip- BERT,Frozen和MERLOT),在相同预训练数据下的公平比较。

Qualitative Examples

上图展示了在Blockwise Masking (BM) 和Attended Masking (AM) 下,MVM期间从预测的视觉token进行自重建的定性示例结果。

5. 总结

在本文中,作者提出了VIOLET ,这是一种完全端到端的视频语言Transformer,其中包含Video Swin Transformer,用于视频语言学习中显式建模重要的视频时间信息。作者通过新的预训练任务 “Masked Visual-token Modeling (MVM) ” 进一步增强了VIOLET,该任务通过具有可自重建的视觉token的mask预测过程来学习视频场景理解。

对各种文本到视频检索和视频问答任务的实验表明,VIOLET达到了SOTA 或竞争力的性能。全面的消融研究表明,在不同的预训练设置下,时间视频建模的必要性以及MVM比以前的MRM/MFM对视频语言推理的有效性。

转载请注明:《《VIOLET》- UCSB&微软提出VIOLET,用Masked Visual-token Modeling进行端到端的视频语言学习!性能SOTA!