FRL：基于4颗黑白摄像头，Quest如何实现3D手势识别？ -VR-形象思维VR

FRL：基于4颗黑白摄像头，Quest如何实现3D手势识别？

# 技术前沿 2020-10-10 15:22 0 1,083 作者：形象思维VR

售价仅399美元，低成本的VR一体机Oculus Quest自推出以来不断为使用者带来多样化的玩法，比如无线大空间体验、PC VR模式（Link），甚至还支持手势识别，让人不得不夸赞它的性价比。

据了解，Oculus Quest采用四颗黑白的广角摄像头，最初它们的作用是定位手柄，以及AR透视和环境扫描，后来随着Facebook Reality Labs在算法上的突破，Quest也可以通过这四颗摄像头来实现准确率较高的手势识别。手势识别的好处是，VR用户无须用手柄，戴上头显后直接就能通过手势进行界面控制，一些VR应用搭配手势识别后，交互更自然，玩法也更多样化。

那么，Quest的手势识别算法到底是什么原理呢？近期，Facebook Reality Labs在一篇名为《MEgATrack：黑白第一人称摄像头追踪手部节点的VR方案》中公开了其背后的更多细节。

FRL科研人员表示：除了深度摄像头外，市面上较常见的还包括基于单目RGB摄像头和神经网络算法的手势识别方案。单目RGB摄像头更易集成，而且随着机器学习技术提升，功能可以继续强化。但将基于RGB摄像头的手势识别方案用于VR/AR依然存在一些问题，比如：单目方案难以直接识别3D手势、通常需要搭配关键点回归和实时姿态方案而无法独立运行、时间上难以达到连贯和低抖动等。

对于上述问题，市面上还没有成熟的解决方案。因此，FRL提出了一种基于4颗黑白摄像头的手势追踪方案。该方案无须深度摄像头，因此对算力和功耗的要求更小，特点是在环境（光线暗等环境）和双手形状等变量影响下依然能稳定运行，延时和抖动的情况足够少。而且除了VR，Facebook表示该手势识别方案也可以用于AR头显中。

硬件方面，该手势识别方案基于4颗同步的VGA广角摄像头，每颗摄像头的FOV可达150°（宽）x120°（高）x175°（对角线）。广角摄像头采用等距投影模型，光线的参数由与摄像头主轴之间的角度来决定，因此也更适合预测手部关节点的距离而不是深度。

而软件系统方面，这款手势识别方案是基于FRL开发的一个手部关键点预测神经网络架构，该架构由DetNet（识别网络）和KeyNet（节点网络）两部分组成，特点是结合手势识别历史数据，来保持手势预测结果在时间和空间层面的一致性，也就是说可有效减少抖动、延时等问题。此外，为了优化DetNet的计算效率，FRL采用了一个叫detection-by-tracking的方式来提升手势识别效果、降低计算成本，优化后的手势识别方案可在PC VR模式中以60Hz刷新率运行，在一体机的处理器中可以30Hz刷新率运行。

第一步：DetNet手势边界识别

具体来讲，detection-by-tracking方法的流程是根据前两次追踪到的手势来推断当前手势变化，接着将识别到的手部关键点投射在每颗摄像头捕捉的数据中，并计算出最小包含圆（最小圆覆盖测距算法），作为识别到的手势识别结果。如果当前DetNet并未识别到任何手势，它会开始渲染下一帧手势，这时候DetNet只会在一颗摄像头上运行。当一颗摄像头识别到手势后，其他摄像头才会根据追踪到的手势来识别边界框，并进行立体手势追踪。

总之，整个手势识别过程足够快速且高效，识别到的手势边框可保持时间连贯性，为后续的DetNet运行流程降低噪点产生的可能。

第二步：KeyNet手势关键点预测

接下来，该手势识别方案的第二大部分关键点预测网络KeyNet开始发挥作用，它会根据DetNet预测的边界框截取的手势图像来预测手部的21个3D节点。

通常，市面上的一些节点预测系统会单独处理每一帧图像，但如果用在基于多颗摄像头的实时手势识别系统中，会出现一些弊端，比如：预测遮挡手势或是超出摄像头视场角外手势的准确性不高、时间连贯性不高、容易产生抖动等。

相比之下，KeyNet的图像源来自于DetNet环节预测的边界框以及截取的手势图像，为了让边界框截取完整的手势，科研人员将截取图像大小提升20%。此外，KeyNet还会参考上一帧推测的3D手势，将21个关键点叠加在新的手势图像上。

然后，为了实现对不同大小手掌的准确追踪，该方案在KeyNet预测节点基础上，会在手部进入3D摄像头视场角时同时预测手掌大小，并自动运行校正流程。

总结

总之，DetNet结合detection-by-tracking方案有效实现对多颗摄像头前移动的手部的追踪，而KeyNet则有效输出空间和时间连贯的关键节点预测。整个方案可生成准确、低抖动的手势识别和重建效果，适用于频繁的实时手势交互场景。通过自动校正，该手势方案还可准确追踪不同形状、大小的手部。

尽管如此，目前该方案还存在许多局限，比如：难以理解和识别手与手、手与物体之间的交互，以及手部大小校正范围有限等。这些问题对于手势识别的准确性均有影响，因此科研人员也将继续研究相关解决方案。未来，为了实现更沉浸的VR/AR效果，虚拟手势画面与真实物体或虚拟物体之间的自然交互必不可少，此前Magic Leap所展示的多种AR应用也以虚拟物体与实际空间的互动为卖点，看起来效果足够好。相信随着FRL经过对手势识别技术的不断探索，未来也会进一步优化AR/VR应用的手势交互体验。

来源：青亭网