锁定精彩!百度 ICCV 2019 提出小视频自动截取数据集TruNet

 

 

前几天武汉军运会上我国选手潘玉程破500米障碍跑世界记录,下面这段小视频在朋友圈疯传:

就像一颗子弹,嗖嗖嗖~

 

随着抖音、快手等短视频应用的兴起,像这种引入入胜的高质量小视频内容成为各平台的巨大需求。

 

机器能在体育赛事、娱乐影视等视频中自动截取这样的精彩小视频吗?前几天百度公布的一篇 ICCV 2019 的论文中提出了这个新CV问题,并且构建了业内首个该方向数据集TruNet

 

 

说实话,这是个很有前景的方向,搞好了CV研究人员靠算法能成为带货千万的抖音大V。

 

这不同于传统的视频精彩片段检测和视频摘要问题,在这个问题中,最重要的是保持视频情节完整,百度在这篇文章中称这个问题为story-preserving long video truncation(也许可以翻译为故事完整的长视频截断),该问题需要一种算法来自动将长视频截断为多个简短且吸引人的子视频,每个子视频都包含不间断的故事。

 

百度的研究人员收集并标注了一个新的大型视频截断数据集,名为TruNet,其中包含1470个长视频,每个视频平均包含11个短故事。

 

 

上图为其中一个视频标注的例子,(a)展示了该视频共含有9首歌和舞蹈表演,(b)为第三段小视频的时间轴放大展示。

 

TruNet与大型视频数据集ActivityNet 1.3的比较:

 

另外,作者利用TruNet数据集,进一步开发和训练了一种用于视频截断的神经架构体系,该体系结构包含两个部分:边界感知网络(BAN)和Fast-Forward LSTM(FF-LSTM)

 

BAN通过同时考虑帧级别的吸引力大小和是否为边界来生成高质量的候选时间片段。FF-LSTM则用于捕获一系列帧之间的高阶依存关系来确定候选时间片段是否是连贯且完整的故事。

 

 

作者实验表明,该文提出的算法在定量评价和用户调查方面都优于现有的用于情节完整长视频截断问题的方法。

 

定量研究比较:

 

用户调研投票结果:

 

这个问题蛮有意思的,而且也很有实用价值,欢迎大家Follow!

 

论文地址:

https://arxiv.org/abs/1910.05899v1

 

数据集地址:

https://ai.baidu.com/broad/download

(可惜的是,在官网上目前还没看到下载,可能会在ICCV 2019开会期间公开)

转载请注明:《锁定精彩!百度 ICCV 2019 提出小视频自动截取数据集TruNet