华南理工杨辰光团队 | 基于视觉的手势识别的迁移学习研究
发布时间:2021-10-20论文题名:Research on Transfer Learning of Vision-based Gesture Recognition
论文作者:Bi-Xiao Wu, Chen-Guang Yang, Jun-Pei Zhong
全文链接:https://link.springer.com/article/10.1007/s11633-020-1273-9
参考链接:https://mp.weixin.qq.com/s/PFBibCpoi5xGpR85GwlatA
手势识别在人机交互中得到了广泛应用。当前,手势识别相关研究中存在着这样一个问题:研究者们没有利用已有域的知识来发现和识别新域中的手势。每个新域都需要收集和标注大量数据,先验知识也无法用于算法训练当中,这就导致计算工作量过大、时间投入过多。为了解决这一问题,华南理工大学杨辰光教授团队提出一种手势识别方法,使在源域中训练的模型可以直接用于目标域当中,从而减少收集数据的时间,并且最小化标记数据的时间。
图片来自Springer
近年来,人机交互(human-robot interaction)得到了迅速发展。手势能给机器人提供准确、直观的指令,是人机交互的一种重要方式。手势识别(gesture recognition)可以实现人类与机器人之间的高效交互。基于视觉的手势识别设备有很多种,例如,摄像机是手势识别领域的主要传感器。以前,大多数研究人员使用红-绿-蓝图像进行手势识别。随着科技的发展,出现了一些新设备,如Leap-motion、Kinect等。Leap-motion是一种基于红外辐射传感器的交互式硬件设备,可精确捕捉和提取手指关节的位置和角度。具体而言,Leap-Motion是用来检测和跟踪人体手势的,其跟踪误差约为200微米。
然而,来自不同设备的数据可能分布不同。因此,在某个域中训练的分类器在其他域的性能表现可能较差。对于每个域,手动收集大量示例并构建单独的分类器成本较高。如何更好地利用源域的训练模型,降低目标域的学习成本,已成为亟待解决的问题。
近年来,迁移学习(transfer learning)引起了研究者们的广泛关注。迁移学习是指将现有知识应用于其他相关领域。尽管迁移学习在国内外备受关注,但其在手势识别中的应用案例却很少。本文旨在提出一种手势识别方法,使在源域中训练的模型可以直接用于目标域当中,从而减少收集数据的时间,并且最小化标记数据的时间。
目前,迁移学习已经有效应用于文本分类(text classification)、情绪分类(sentiment classification)、图像分类(image classification)以及其他领域,可分为特征表示迁移学习(feature representation transfer learning)、实例迁移学习(instance transfer learning)、参数迁移学习(parameter transfer learning)和关系知识迁移学习(relationship knowledge transfer learning)。
特征表示迁移学习指通过特征变换来减少源域和目标域之间差异的迁移;或者将源域和目标域的数据转换为统一的特征空间,然后使用分类算法进行识别。特征表征迁移学习是迁移学习领域最热门的研究方法之一,本文利用该方法将RGB摄像机(RGB Camera)和Leap Motion的原始数据转换为统一特征空间,然后利用分类算法进行识别。
在手势识别过程中,通常需要假设:1)相同的特征空间,这意味着训练集和测试集需要来自同一组传感器;2)总体分布相同,即实验者的偏好或习惯在训练集和测试集中是相似的;3)相同的标签空间,即训练集和测试集的标签是相同的。使用传统的无监督数据挖掘方法进行手势识别,存在数据采集周期长的实际问题。
如果使用有监督的方法,将给用户带来很大负担,用户必须标记足够多的数据来训练算法。手动标记原始传感器数据是一项耗时的任务。此外,如果独立学习每个设备的模型,忽略在其他设备中学习到的知识,也将带来繁冗的计算工作量、过高的时间成本,同时丢失有用的知识。
因此,利用所学信息,在新领域开发模型是非常有意义的。使用可迁移的知识可以减少数据收集量、减轻数据标记的工作量、提高学习速度。当前很少有研究涉及在两个或多个传感器模型之间迁移知识。本文的重点是有效解决RGB摄像机与Leap Motion之间的迁移问题,从而提高跨设备迁移的学习效率。本文提出一种将学习模型应用于另一设备的方法,并使用RGB摄像机和Leap Motion采集多个人类用户的手势数据,以验证所提出的方法。
图片来自论文
本文主要贡献如下:
1)提出一种跨设备的手势识别迁移学习框架。本文中的所有设备具有不同的数据分布,但具有相同的输出标签。
2)在RGB摄像机和Leap Motion的手势识别迁移中,本文提取了几种新颖的特征,并对比了这些特征的实验结果。
3)当使用back propagation neural network(BP NN)算法进行分类时,本文发现在某些情况下,训练的时间段对迁移结果会产生影响。训练次数过多可能导致源域中的模型过度拟合,并降低目标域中的泛化能力。
图片来自论文
本文结构如下:第2节回顾了迁移学习的前期工作,第3节介绍了数据采集和特征提取,第4节介绍了实验,第5节进一步讨论了实验中发现的问题,第6节是总结。
来源:《International Journal of Automation and Computing》编辑部