《表2 语音传统384维特征》

《表2 语音传统384维特征》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于参数迁移和卷积循环神经网络的语音情感识别》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

根据INTERSPEECH 2009情感挑战赛[15]的定义,针对语音传统特征的提取,选取了语音的MFCC特征(12维)、基音频率、短时能量、短时过零率、共振峰。对这些特征进行全局统计,采用的统计指标有最大值、最小值、最大值所在帧、最小值所在帧、范围、均值、标准差、偏斜度、峰度、线性近似斜率、线性近似偏移、线性近似二次偏差共12个统计量。提取12维的MFCC特征,对每一维MFCC特征计算上述12个统计量,得到144维的统计特征向量。再对144维特征计算其每一个的一阶delta回归系数,与计算前的144维特征共组成288维统计特征。对于基音频率、短时能量、短时过零率和共振峰,也是计算12个统计量及统计量的一阶delta回归系数。综上,对5种语音特征计算统计量后共形成(12×12×2+4×12×2)=384维特征,如表2所示。