UC伯克利黑科技:用语音数据预测说话人手势

 

 

昨天CVPR 论文终于提供下载:

重磅!CVPR 2019 论文终于全面开放下载!附百度云链接

 

看到一篇CVPR 2019 论文《Learning Individual Styles of Conversational Gesture》,通过语音数据识别说话人手势,觉得蛮有意思。

 

下面这张图道出了作者们做的事情:

 

最下面一排是语音信号,中间是通过语音信号生成的手势数据,最上面是通过得到的手势数据合成的人物视频。

看起来还真是那么回事~

 

以下是作者信息:

作者来自UC伯克利、Zebra Medical Vision、MIT(简直就是黑科技集中营)。

 

手势识别是人机交互中的重要技术,以往的方案中可以使用深度相机数据识别,也可以使用RGB图像视频识别,对于前者Intel貌似一直做的很不错,对于后者现在最知名的开源库就是OpenPose了(OpenCV手部关键点检测(手势识别)代码示例)。

 

手势毕竟应该是个视觉问题,不通过视觉信号能识别手势吗?

 

在现实的人类沟通中,手势和说话人语音往往是强相关的,手势信号是人类正常沟通的一部分。这在演讲中表现最为明显。

 

通过人类说话的视频数据建立语音与手势的关系,然后直接通过语音生成手势,这看起来是个很大胆的想法。

 

为了避免人工标注,论文作者们直接使用OpenPose对人物说话的视频进行姿态估计,得到手和臂的手势数据。

 

虽然这种弱监督信息有一些标注错误,但在这个问题上已经够用了。

 

然后作者们的做法也非常简单粗暴,直接使用语音数据UNet解码结构生成手势姿态中关键点的位置。

 

如下图:

 

输入数据是一段语音频谱数据(2D log-mel spectrogram),通过全卷积网络和1D UNet结构,生成手势数据,通过L1 回归Loss监督学习。

 

另外作者发现只用L1回归损失是不够的,容易回归到手势的均值状态,作者又加了一个判别器D,用于判别生成的手势像不像真的。

 

跟其他方法比起来,本文算法在数值结果上是很优秀的:

 

视觉比较也很自然(请点击查看大图):

 

大家可以通过视频感受下:

 

视频中将手势合成人物动作的技术来自:

C. Chan, S. Ginosar, T. Zhou, and A. A. Efros. Everybody Dance Now. ArXiv e-prints, Aug. 2018.

 

当然这一技术很有用,比如可以直接用其控制虚拟主持人的手势,让直播更自然。

 

作者称代码将开源,而且创建的数据也提供下载。

论文地址:

https://arxiv.org/abs/1906.04160v1

项目地址:

http://people.eecs.berkeley.edu/~shiry/speech2gesture/

代码地址:

https://github.com/amirbar/speech2gesture

 

技术在造假成真的路上走的越来越远了。。。

转载请注明:《UC伯克利黑科技:用语音数据预测说话人手势