《表1 AudioSet标签与行为的对照表》

《表1 AudioSet标签与行为的对照表》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《一种基于深度强化学习的室内声学行为识别方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

Google发布的声音数据集AudioSet[11]共分为527类,所有声音片段长度均为10 s,其标签为10 s内该声音片段中发生的所有事件,而非逐帧标注.AudioSet数据集还提供VGGish模型[19]提取的embedding特征.VGGish模型将原始声音数据按秒转换为特征,并使用主成分分析(PCA),仅保留前128个PCA系数.一个128维的embedding特征向量代表1 s的声音片段,因此数据集内的每个声音片段为10个128维的embedding特征向量.