VSE-C:视觉语义嵌入中利用“类比对抗样本”学习视觉基础语义 Learning Visually-Grounded Semantics from Contrastive Adversarial Samples

旷视科技孙剑老师团队最新论文,利用类比对抗样本的数据增广来学习视觉基础语义,提高image captioning相关技术的建模。
我们研究视觉领域文本表示分布的基础问题,即视觉语义嵌入(visual-semantic embedding,简称VSE)。通过对VSE嵌入的对抗攻击的洞察分析,我们从数量和质量上说明了当前框架和图像文本数据集(例如MS-COCO)的局限性。现实世界语义的可能构成数量与可得到的训练数据的规模之间的巨大差距,在很大程度上限制了模型建立文本语义和视觉概念之间的联系。我们通过用文本类比对抗样本增广MS-COCO image captioning 数据集来缓解这个问题。这些样本是使用语言规则和WordNet知识库合成的。这些类比对抗样本的构造过程既符合语法规则又符合语义知识。这些样本强制模型将学习到的视觉语义嵌入映射到图像中的具体概念。这种简单而强大的技术除了可以防范已知类型的敌对攻击外,还可以显着改善各种文本图像翻译相关下游任务的基线。
论文中具体提出了三种构建类比对抗样本的方法:

Noun.与名称实体相关的相关构建,比如,牛与长颈鹿。
Numeral. 与数量相关的样本构建.
Relation.与关系相关的样本构建,如相互位置.

下图可以很好的表达文中提出的数据增广想法:

论文中给出的结果:

 

代码已经开源。

https://arxiv.org/abs/1806.10348v1
https://github.com/ExplorerFreda/VSE-C

转载请注明:《VSE-C:视觉语义嵌入中利用“类比对抗样本”学习视觉基础语义 Learning Visually-Grounded Semantics from Contrastive Adversarial Samples

发表评论