《表1 自然与表演状态下的样本分布》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于深度学习的自然与表演语音情感识别》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

首先分析现有的几个常用语音情感数据集，包括德语Berlin数据集、中文的CASIA数据集、英文SAVEE、enterface'05以及IEMOCAP (Interactive Emotional Dyadic Motion Capture Database）数据集.经比较发现，IEMOCAP数据集在收集时考虑到了演员表演状态与自然状态下的区别，并通过设计情境化的演员对话的交互，记录自然状态下的数据，因此选择IEMOCAP数据集进行实验.IEMOCAP数据集设计了自然和表演两种状态下的数据，将十个演员的对话记录为五个会话周期，每个周期中包含两个说话人的数据.说话人被要求表演三种选定的脚本，其中脚本内容包含明显的情感.除了脚本之外，说话人还被要求在假设的场景中去即兴开展对话，场景通过设计去引出指定的情感（开心、愤怒、悲伤、激动、中性）.其中关于录制材料的选择、演员的选择、数据的收集与标注都是经过详细的设计的，具体可参考文献[14].本研究中采取实验样本情感范围包含开心、悲伤、愤怒、中性几种情感，由于激动样本与开心情感表现相似，且开心样本数量较少，因此将开心和激动合并为同一类情感，后续以开心表示[15].最终得到包含四类情感的5531个语音样本，其中脚本表演的语音样本，即表演状态样本数为2588句，在真实场景中即兴进行的对话，即自然状态下的样本数为2943句.两种状态下四种情感样本分布如表1所示，自然状态下愤怒样本数较少，其余样本总体分布均衡.

图表编号	XD0071372000 严禁用于非法目的
绘制时间	2019.07.30
作者	王蔚、胡婷婷、冯亚琴
绘制单位	MLC实验室南京师范大学教育科学学院教育技术系、MLC实验室南京师范大学教育科学学院教育技术系、MLC实验室南京师范大学教育科学学院教育技术系
更多格式	高清、无水印（增值服务）