《表1 自然与表演状态下的样本分布》

《表1 自然与表演状态下的样本分布》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于深度学习的自然与表演语音情感识别》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

首先分析现有的几个常用语音情感数据集,包括德语Berlin数据集、中文的CASIA数据集、英文SAVEE、enterface'05以及IEMOCAP (Interactive Emotional Dyadic Motion Capture Database)数据集.经比较发现,IEMOCAP数据集在收集时考虑到了演员表演状态与自然状态下的区别,并通过设计情境化的演员对话的交互,记录自然状态下的数据,因此选择IEMOCAP数据集进行实验.IEMOCAP数据集设计了自然和表演两种状态下的数据,将十个演员的对话记录为五个会话周期,每个周期中包含两个说话人的数据.说话人被要求表演三种选定的脚本,其中脚本内容包含明显的情感.除了脚本之外,说话人还被要求在假设的场景中去即兴开展对话,场景通过设计去引出指定的情感(开心、愤怒、悲伤、激动、中性).其中关于录制材料的选择、演员的选择、数据的收集与标注都是经过详细的设计的,具体可参考文献[14].本研究中采取实验样本情感范围包含开心、悲伤、愤怒、中性几种情感,由于激动样本与开心情感表现相似,且开心样本数量较少,因此将开心和激动合并为同一类情感,后续以开心表示[15].最终得到包含四类情感的5531个语音样本,其中脚本表演的语音样本,即表演状态样本数为2588句,在真实场景中即兴进行的对话,即自然状态下的样本数为2943句.两种状态下四种情感样本分布如表1所示,自然状态下愤怒样本数较少,其余样本总体分布均衡.