当前位置：动态资讯

陶建华团队：基于半监督梯形网络的语音情感识别

发布时间：2021-01-21

论文题名：Semi-supervised Ladder Networks for Speech Emotion Recognition

论文作者：Jian-Hua Tao, Jian Huang, Ya Li, Zheng Lian, Ming-Yue Niu

全文链接：http://www.ijac.net/en/article/doi/10.1007/s11633-019-1175-x

自动化所陶建华研究员团队基于半监督梯形网络构建语音情感识别模型，联合优化监督损失和辅助无监督损失函数，对模型进行训练。同时，模型加入了无监督辅助任务不仅可提取具有区分性的情感特征，同样还可视为主要情感监督任务的正则化。该研究还对比了梯形网络与其他经典的自编码结构，最后的实验结果表明：较其他方法而言，本研究所提方法在标记数据更少的情况，也能取得较优的性能。相关成果已发表于IJAC。

图片来自Springer

语音作为人类一大重要的交流媒介，不仅包含了基本的语言信息，还传递了丰富的情感信号。借助于情感，人们可以更好地理解情感表达及潜在意图。语音情感识别能够帮助机器理解人类情感状态，因此其在人机交互领域中有很多应用。例如，在客户服务中心，可以通过监测客户的情感状态来评价服务人员的服务质量，一方面可帮助提升服务水平，另一方面也能减少因人工评价所产生的工作量。

情感通常可以用几种类别来进行描述，如开心、伤心、生气等。建立语音情感数据库时，一般会基于真实场景，将人们的每条语句归类至一个特定的情感类别当中。因此，多数研究者会把语音情感识别当作一种典型的监督学习任务。就情感数据库而言，通过对分类模型进行训练，可准确预测每条语句的情感标签。因此，很多传统的机器学习方法均可成功应用于语音情感识别中。此外，还有不少研究者基于深度神经网络构建有效的语音情感识别模型，并取得了诸多可喜的成果。

图片来自网络

然而，语音情感识别仍然面临着很多挑战，如说话者性别、语言、文化等的差异会直接影响系统性能。数据库录制环境的差异同样会影响系统的稳定性。虽然在语音情感分类上，自动系统的表现远胜人类，但当与语音识别及图像分类任务的表现相比，现在的语音情感识别系却略显稚嫩，而影响模型鲁棒性的一个重要原因在于缺乏足够的情感数据。

通过学习不同类别间的差异，监督学习方法可以预测出情感类别。为保证分类的准确性，需要大量标记的语音情感数据。然而，获取标记数据不仅要求足够的专业知识，而且是一项非常耗时的工作。此外，由于不同人有不同的感知和情感表达方式，在确定情感边界时也往往存在主观性强、划分不清晰的问题。因此，当前还没有一个绝对标准可以指导情感标注。语音情感数据库的体量因此受限，无法覆盖不同情况下产生的多样数据。

考虑到语音情感数据的匮乏性，应该充分运用未标记数据中的信息。无监督学习可以在不依赖标记信息的前提下，从数据中自动提取鲁棒的特征表达，这种模型能够描述数据的内在结构，并且具有更强的建模和泛化能力，可用以训练更好的分类模型。

图片来自网络

当前多数无监督特征学习方法已经尝试着为语音情感识别任务生成显著情感特征表达，如AE、DAE。AE和DAE这两种方法旨在获取中间特征表达，以尽可能多地重建输入数据。其他更复杂的方法，如VAE和GAN，在语音情感识别任务时表现的性能更优，以上方法均强调对数据分布建模，而非数据本身。

通过无监督模型学习获得的特征表达通常被用作监督分类模型的输入数据，以训练语音情感识别系统。然而，这一方法背后隐藏着一个问题：前面的无监督学习扮演着特征提取器的作用，而这一模型的目标却是完整恢复输入信号，这就意味着所有的信息都会被尽可能多地保存下来，可我们真正需要的只是情感相关的信息。

另一方面，后面的监督学习只关注有利于分类预测的信息，但可以辅助语音情感识别的附加信息却有可能被舍弃。因此，通过无监督学习得到的特征表达无法有效地帮助完成监督分类任务。总而言之，由于数据训练分开进行，导致无监督学习部分与监督学习部分这前后两步的目标不一致。

为了解决这一问题，研究者们提出了深度半监督学习，其将无监督特征表达学习与监督模型训练相结合。这一方法的关键在于前后两部分同时训练，保证了通过无监督学习得到的特征表达更好地与监督模型契合。一些典型的结构所需要的标记训练样本更少，在其他领域表现出极具竞争力的性能。

图片来自论文

在无监督学习部分的助力下，半监督学习能够基于大量无标记样本得到更好的特征表达，继而提升完成监督任务时的性能。鉴于语音情感数据匮乏而语音数据丰富，故可将半监督学习方法应用于语音情感识别当中。实际上，起辅助作用的无监督学习在半监督学习模型中同样起到了正则化的作用。在构建可适用于不同情况的语音情感识别系统时，正则化必不可少。当训练数据库与测试数据库不一致时，传统模型通常表现不佳。通过优化训练模型以完成主要和辅助任务，特征表达往往更广泛，避免了过度拟合某一特定领域。因此，创建无监督辅助任务以正则化网络，将是一项有趣的研究。

图片来自论文

多数无监督方法旨在学习中间特征表达，无法支持底层情感分类任务。本研究提出将输入数据的无监督重建作为辅助任务以正则化网络，同时优化情感分类系统的性能。借助半监督梯形网络，本研究实现了上述目标。加入无监督辅助任务不仅可获得具有区分性的鲁棒特征，同样还可视为主要情感监督任务的正则化。

图片来自论文

本研究的主要贡献可概括如下：

1)本研究利用基于梯形网络的半监督学习来实现语音情感识别，强调无监督重建和跳跃连接模块的重要性。此外，梯形网络的高层网络能获得更具区分性特征的能力。

2) 本研究展示了半监督梯形网络的优点：仅需借助少量标记样本即可得到满意的结果。

3) 本研究对比了DAE和VAE方法与梯形网络在语音情感识别任务中的性能，结果显示梯形网络表现甚佳。此外，编码器和解码器的卷积神经网络结构可更好地编码情感特征。

参考链接：https://mp.weixin.qq.com/s/YJlNH-vXy_EgD-30QK-mig

来源：《International Journal of Automation and Computing》编辑部

新闻公告

陶建华团队：基于半监督梯形网络的语音情感识别