FRL:基于4颗黑白摄像头,Quest如何实现3D手势识别?

售价仅399美元,低成本的VR一体机Oculus Quest自推出以来不断为使用者带来多样化的玩法,比如无线大空间体验、PC VR模式(Link),甚至还支持手势识别,让人不得不夸赞它的性价比。

据了解,Oculus Quest采用四颗黑白的广角摄像头,最初它们的作用是定位手柄,以及AR透视和环境扫描,后来随着Facebook Reality Labs在算法上的突破,Quest也可以通过这四颗摄像头来实现准确率较高的手势识别。手势识别的好处是,VR用户无须用手柄,戴上头显后直接就能通过手势进行界面控制,一些VR应用搭配手势识别后,交互更自然,玩法也更多样化。

那么,Quest的手势识别算法到底是什么原理呢?近期,Facebook Reality Labs在一篇名为《MEgATrack:黑白第一人称摄像头追踪手部节点的VR方案》中公开了其背后的更多细节。

FRL科研人员表示:除了深度摄像头外,市面上较常见的还包括基于单目RGB摄像头和神经网络算法的手势识别方案。单目RGB摄像头更易集成,而且随着机器学习技术提升,功能可以继续强化。但将基于RGB摄像头的手势识别方案用于VR/AR依然存在一些问题,比如:单目方案难以直接识别3D手势、通常需要搭配关键点回归和实时姿态方案而无法独立运行、时间上难以达到连贯和低抖动等。

对于上述问题,市面上还没有成熟的解决方案。因此,FRL提出了一种基于4颗黑白摄像头的手势追踪方案。该方案无须深度摄像头,因此对算力和功耗的要求更小,特点是在环境(光线暗等环境)和双手形状等变量影响下依然能稳定运行,延时和抖动的情况足够少。而且除了VR,Facebook表示该手势识别方案也可以用于AR头显中。

硬件方面,该手势识别方案基于4颗同步的VGA广角摄像头,每颗摄像头的FOV可达150°(宽)x120°(高)x175°(对角线)。广角摄像头采用等距投影模型,光线的参数由与摄像头主轴之间的角度来决定,因此也更适合预测手部关节点的距离而不是深度。

而软件系统方面,这款手势识别方案是基于FRL开发的一个手部关键点预测神经网络架构,该架构由DetNet(识别网络)和KeyNet(节点网络)两部分组成,特点是结合手势识别历史数据,来保持手势预测结果在时间和空间层面的一致性,也就是说可有效减少抖动、延时等问题。此外,为了优化DetNet的计算效率,FRL采用了一个叫detection-by-tracking的方式来提升手势识别效果、降低计算成本,优化后的手势识别方案可在PC VR模式中以60Hz刷新率运行,在一体机的处理器中可以30Hz刷新率运行。

第一步:DetNet手势边界识别

具体来讲,detection-by-tracking方法的流程是根据前两次追踪到的手势来推断当前手势变化,接着将识别到的手部关键点投射在每颗摄像头捕捉的数据中,并计算出最小包含圆(最小圆覆盖测距算法),作为识别到的手势识别结果。如果当前DetNet并未识别到任何手势,它会开始渲染下一帧手势,这时候DetNet只会在一颗摄像头上运行。当一颗摄像头识别到手势后,其他摄像头才会根据追踪到的手势来识别边界框,并进行立体手势追踪。

总之,整个手势识别过程足够快速且高效,识别到的手势边框可保持时间连贯性,为后续的DetNet运行流程降低噪点产生的可能。

第二步:KeyNet手势关键点预测

接下来,该手势识别方案的第二大部分关键点预测网络KeyNet开始发挥作用,它会根据DetNet预测的边界框截取的手势图像来预测手部的21个3D节点。

通常,市面上的一些节点预测系统会单独处理每一帧图像,但如果用在基于多颗摄像头的实时手势识别系统中,会出现一些弊端,比如:预测遮挡手势或是超出摄像头视场角外手势的准确性不高、时间连贯性不高、容易产生抖动等。

相比之下,KeyNet的图像源来自于DetNet环节预测的边界框以及截取的手势图像,为了让边界框截取完整的手势,科研人员将截取图像大小提升20%。此外,KeyNet还会参考上一帧推测的3D手势,将21个关键点叠加在新的手势图像上。

然后,为了实现对不同大小手掌的准确追踪,该方案在KeyNet预测节点基础上,会在手部进入3D摄像头视场角时同时预测手掌大小,并自动运行校正流程。

总结

总之,DetNet结合detection-by-tracking方案有效实现对多颗摄像头前移动的手部的追踪,而KeyNet则有效输出空间和时间连贯的关键节点预测。整个方案可生成准确、低抖动的手势识别和重建效果,适用于频繁的实时手势交互场景。通过自动校正,该手势方案还可准确追踪不同形状、大小的手部。

尽管如此,目前该方案还存在许多局限,比如:难以理解和识别手与手、手与物体之间的交互,以及手部大小校正范围有限等。这些问题对于手势识别的准确性均有影响,因此科研人员也将继续研究相关解决方案。未来,为了实现更沉浸的VR/AR效果,虚拟手势画面与真实物体或虚拟物体之间的自然交互必不可少,此前Magic Leap所展示的多种AR应用也以虚拟物体与实际空间的互动为卖点,看起来效果足够好。相信随着FRL经过对手势识别技术的不断探索,未来也会进一步优化AR/VR应用的手势交互体验。

来源:青亭网

发表评论

相关文章