谷歌极速人脸、手、人体姿态分析Blaze算法家族

 

 

人脸分析、手势识别、人体姿态估计是计算机视觉领域热门话题,基于此有很多炫酷的应用,比如人脸贴纸、手势交互、体感游戏等。

谷歌近两年持续在此领域发明了BlazeFace、BlazePlam、BlazePose算法,并将其开源到机器学习通用开发库 MediaPipe 中。

Blaze 意为“火焰、失火”,反映了这一系列算法从算法设计到实现都竭力追求“极速”的特点,方便对运行速度要求比较高的AR/VR开发者使用。

开源地址:

https://github.com/google/mediapipe

项目主页:

https://mediapipe.dev/

 

   1 BlazeFace

在移动GPU上进行亚毫秒级神经人脸检测

BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs
作者 | Valentin Bazarevsky, Yury Kartynnik, Andrey Vakunov, Karthik Raveendran, Matthias Grundmann
论文 | https://arxiv.org/abs/1907.05047
主页 | https://sites.google.com/view/perception-cv4arvr/blazeface
备注 | 发表于CVPRW 2019,包含人脸检测和人脸特征点检测

解读 | 200~1000+fps!谷歌公布亚毫秒级人脸检测算法BlazeFace,面向移动GPU

   2 BlazePlam

MediaPipe Hands: On-device Real-time Hand Tracking
作者 | Fan Zhang, Valentin Bazarevsky, Andrey Vakunov, Andrei Tkachenka, George Sung, Chuo-Ling Chang, Matthias Grundmann
论文 | https://arxiv.org/abs/2006.10214
备注 | 发表于CVPRW 2020,包含人手检测和手部关键点检测
MediaPipe Hands (BlazePlam) 是一个实时设备上手部跟踪系统,可以从单个RGB摄像头预测手部骨架,用于AR/VR应用。
由两个模型组成:1)手掌检测器,2)手部关键点模型。
同样实现了在移动GPU上的实时推理速度和高预测质量。
渲染的手部跟踪结果:

 

Palm检测器模型架构:

手部关键点模型架构:

原理图:

 

实时手势识别:

手部骨架的实时AR效果示例:

 

视频展示:

其手部关键点检测模型在 iPhone 11 上速度惊人,仅需要1.1 ms(900 FPS)!

 

   3 BlazePose

BlazePose: On-device Real-time Body Pose tracking

作者 | Valentin Bazarevsky, Ivan Grishchenko, Karthik Raveendran, Tyler Zhu, Fan Zhang, Matthias Grundmann

单位 | 谷歌

论文 | https://arxiv.org/abs/2006.10204

备注 | CVPRW 2020

BlazePose,一个轻量级的卷积神经网络架构,用于人体姿势估计,它是为移动设备上的实时推理量身定做的。在推理过程中,该网络为一个人产生33个身体关键点,并在Pixel 2手机上以每秒超过30帧的速度运行。因此它特别适合实时用例,如健身追踪和手语识别。

网络架构:

 

本文的主要贡献包括一个新颖的身体姿势跟踪解决方案和一个轻量级的身体姿势估计神经网络,它同时使用热图和回归到关键点坐标。

BlazePose在上半身的效果:

 

BlazePose在健身姿势上的效果:

 

BlazePose vs OpenPose:

 

视频展示:

 

在Pixel 3 上 GPU 运行,BlazePose可以达到112 FPS!

 

总之,虽然从算法精度来说 Blaze 系列算法并不是最优秀的,但从应用来说却是近年来视觉研究社区最接地气的,期待有更多Blaze系算法出现!

转载请注明:《谷歌极速人脸、手、人体姿态分析Blaze算法家族