RGBD动作识别的多视图层融合模型

阅读原文时间：2022年04月24日阅读：1

摘要

基于视觉的动作识别在实践中遇到了不同的挑战，包括从任何角度识别主题，实时处理数据以及在现实环境中提供隐私。甚至识别基于配置文件的人类动作（基于视觉的动作识别的一个子集），在计算机视觉中也是一个巨大的挑战，它构成了理解复杂动作，活动和行为的基础，尤其是在医疗保健应用和视频监控系统中。因此，介绍了一种构建图层特征模型的新方法用于基于配置文件的解决方案，该解决方案允许融合多视图深度图像的功能。该模型能够以63 fps的实时运行速度从多个低复杂度的角度进行识别，以进行基于配置文件的四个动作：站立/行走，坐着，弯腰和躺着。使用Northwestern-UCLA 3D数据集进行的实验得出的平均精度为86.40％。使用i3DPost数据集，该实验的平均精度达到93.00％。使用PSU多视图基于配置文件的动作数据集（一个用于多视点的新数据集，该数据集提供基于配置文件的动作RGBD图像），平均精度达到了99.31％。

1.简介

自2010年以来，动作识别方法得到了越来越多的发展，并已逐步应用于医疗保健应用中，尤其是用于监视老年人。行动分析在调查日常生活活动中正常或异常事件中起重要作用。在此类应用中，必须充分考虑隐私和使用所选技术的便利性这两个关键因素。公认的行为模式是监视复杂活动和行为的系统的重要功能，该系统由构成长期活动结果的几个简短行为组成。例如，睡眠过程涉及站立/行走，坐着和躺着的动作；跌倒过程包括除坐外的上述所有动作。

近来，已经研究并提出了两种用于确定这些动作的主要方法：基于可穿戴传感器的技术和基于视觉的技术。

基于可穿戴惯性传感器的设备尺寸小，功耗低，成本低，并且易于嵌入到其它便携式设备（例如手机和智能手表）中，因此已广泛用于动作识别。用于执行导航的惯性传感器通常包括运动和旋转传感器（例如，加速度计和陀螺仪）。它提供了被跟踪对象的运动，视点，速度和加速度的路径。一些研究已经使用穿戴式传感器，移动电话和智能手表用于识别不同的动作。在某些研究中，重点是检测异常动作，例如跌倒，或者报告正常和异常情况下的状态。此外，要识别复杂的动作，必须在身体的不同位置嵌入多个传感器。惯性传感器的唯一局限在于带来的不便，因为传感器最终必须连接到身体，不方便且麻烦。

对于基于视觉的技术，许多研究都强调使用单视图或多视图方法来识别人类动作。

在单视图方法中，已经使用了四种类型的特征表示：基于关节/基于骨骼，基于运动/流，基于时空体积和基于网格：

（1）基于关节/基于骨骼的表示法定义了人体物理结构的特征并区分了其动作，例如，关节和部位的多级姿势特征，使用骨骼四边形的Fisher向量，人体的时空特征joints-mHOG，来自3D骨架的Lie向量空间，使用15个关节的不变轨迹跟踪，直方图骨架代码字，使用3D骨架的掩盖关节轨迹，具有SVM的3D骨骼关节的姿态特征，以及使用HMM的星状骨骼用于缺少观测值。尽管关节/骨骼估计的复杂性要求跟踪和预测具有良好的准确性，但这些表示仍可实现清晰的人体建模。

（2）基于运动/流的表示是一种基于全局特征的方法，该方法使用对象的运动或流，例如不变运动历史记录量，来自光流轨迹的局部描述符，基于KLT运动的摘录轨迹，发散度-卷曲剪切描述符，使用轮廓和光流的混合特征，运动历史和光流图像，多级运动集，累积运动能量的投影，时空运动描述符的金字塔以及具有遮挡估计的马尔可夫随机场的运动和光流。这些方法不需要精确的背景去除，而是利用需要策略和描述符来管理的获取的，不稳定的特征。

（3）基于体积的表示是通过使用多个框架构建模型的轮廓，形状或表面的堆栈来建模的，例如来自形状历史体积的时空轮廓，来自连续体积的几何属性，时空来自3D点云的形状，来自3D二元立方体时空的小波的时空特征，具有SVM的仿射不变量，使用二元轮廓的时空微体积，视觉的整体体积-运动历史量，以及来自亮度，颜色和方向分量的权重。这些方法获得了详细的模型，但必须处理特征的高维度，这些特征需要无背景的准确人为分割。

（4）基于网格的表示将感兴趣的观察区域划分为单元，网格或重叠块以编码局部特征，例如，定向矩形的网格或直方图，时空小型单元的流量描述符，来自空间网格和矩形光流网格的本地二进制模式直方图，定向梯度直方图的码字特征和光流直方图，多尺寸窗口中的3D兴趣点，运动梯度，以及运动历史，局部二进制模式和定向梯度的直方图的组合。这种方法对于空间域中的特征建模很简单，但是必须处理一些重复的和无关紧要的特征。

尽管单视图方法中描述的四种表示形式通常都不错，但是在监视大面积区域时，由于视角变化，遮挡和信息丢失，单个摄像机将无法确定连续的人体日常生活动作，等等。因此，引入了多视图方法以减轻单视图方法的局限性。

在多视图方法中，可以将方法分为2D和3D方法。

二维方法的示例包括：人体模型结构的基于层的图形表示，使用时空兴趣点进行人体建模和分类的视觉，视图不变动作和运动表示，R变换特征，具有PCA的轮廓特征空间，人体特征的低级特征，使用过渡HMM的光流直方图和关注点词组合，具有SVM的基于轮廓的统一局部二进制模式，具有关键姿势学习的多特征，降维轮廓，在多视图动作图像上使用线性判别分析的动作图，使用具有投票功能的自组织图和贝叶斯框架的姿势原型图，使用卷积神经网络进行多视图动作学习具有长短期记忆的功能，以及具有自动编码器神经网络的多视图动作识别功能，用于学习视图不变的功能。

3D方法的示例是从视图之间的特征重建或建模人体模型，包括金字塔的时空描述符和基于部分的特征（具有诱导的多任务学习），具有描述符的时空逻辑图部分，3D视频的时间形状相似度，图形的圆形FFT特征，多个时间自相似特征的包，DFT从运动的圆形移位不变性和带卷积神经网络的3D全身/姿势词典特征。所有这些3D方法都试图构建一个时空数据模型，该模型能够提高模型精度，从而提高识别率的准确性。

但是，多视图方法有一些缺点。这些方法需要更多的相机，因此成本更高。视点之间的相机校准和模型构建而言，这是一种更为复杂的方法，因此更加耗时。但是，在实际应用中，安装和设置应该简单，灵活并且尽可能容易。寻找在视点之间无校准或自动自校准的系统。

摄像头视野内的人（无论是一台摄像机还是许多摄像机）面临的一个问题是隐私和照明条件。基于视觉和基于配置文件的技术涉及使用RGB或非RGB。前者对隐私构成了严重的问题。使用RGB摄像机在私人区域监视动作会使被监视的人感到不舒服，因为这些图像会更清晰地暴露其物理轮廓。至于照明条件，RGB也容易受到强度的影响。图像通常在昏暗的环境中会变差。深度的方法帮助解决两个问题；物体的粗略深度轮廓足以确定动作，并且深度信息可以防止照明变化问题，这在全天候监视的实际应用中是一个严重的问题。研究中采用的深度方法与多视图方法一起被认为比单视图方法更值得。

对于大多数多视图非RGB结果，需要注意的一个问题是透视图的鲁棒性，视图定向的稳定性以及模型的复杂性。在无标定设置下，研究旨在为融合技术的发展做出贡献，该技术在评估人类动作识别的深度特征方面既强大又简单。已经开发了一个图层融合模型，以便融合来自多视图的深度轮廓特征，并在验证和效率的三重数据集上测试技术。测试的三个数据集是Northwestern-UCLA数据集，i3DPost数据集和用于从各种角度进行多视图动作的PSU数据集。

2.层融合模型

图层融合模型分为三个部分：预处理以提高图像质量；使用单视图层特征提取模块进行人体建模和特征提取；并使用图层特征融合模块从任何角度将特征融合到一个模型中，并分类为动作。系统概述如图1所示。

2.1. 预处理