《表2 语音传统384维特征》
根据INTERSPEECH 2009情感挑战赛[15]的定义,针对语音传统特征的提取,选取了语音的MFCC特征(12维)、基音频率、短时能量、短时过零率、共振峰。对这些特征进行全局统计,采用的统计指标有最大值、最小值、最大值所在帧、最小值所在帧、范围、均值、标准差、偏斜度、峰度、线性近似斜率、线性近似偏移、线性近似二次偏差共12个统计量。提取12维的MFCC特征,对每一维MFCC特征计算上述12个统计量,得到144维的统计特征向量。再对144维特征计算其每一个的一阶delta回归系数,与计算前的144维特征共组成288维统计特征。对于基音频率、短时能量、短时过零率和共振峰,也是计算12个统计量及统计量的一阶delta回归系数。综上,对5种语音特征计算统计量后共形成(12×12×2+4×12×2)=384维特征,如表2所示。
图表编号 | XD0053460000 严禁用于非法目的 |
---|---|
绘制时间 | 2019.05.15 |
作者 | 缪裕青、邹巍、刘同来、周明、蔡国永 |
绘制单位 | 桂林电子科技大学计算机与信息安全学院、桂林电子科技大学计算机与信息安全学院、桂林电子科技大学计算机与信息安全学院、桂林海威科技股份有限公司、桂林电子科技大学计算机与信息安全学院 |
更多格式 | 高清、无水印(增值服务) |