《表1 AudioSet标签与行为的对照表》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《一种基于深度强化学习的室内声学行为识别方法》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

Google发布的声音数据集AudioSet[11]共分为527类，所有声音片段长度均为10 s，其标签为10 s内该声音片段中发生的所有事件，而非逐帧标注.AudioSet数据集还提供VGGish模型[19]提取的embedding特征.VGGish模型将原始声音数据按秒转换为特征，并使用主成分分析（PCA），仅保留前128个PCA系数.一个128维的embedding特征向量代表1 s的声音片段，因此数据集内的每个声音片段为10个128维的embedding特征向量.

图表编号	XD00136953400 严禁用于非法目的
绘制时间	2020.02.01
作者	刘明、黄继风、高海
绘制单位	上海师范大学信息与机电工程学院、上海师范大学信息与机电工程学院、上海师范大学信息与机电工程学院
更多格式	高清、无水印（增值服务）