《表1 AudioSet标签与行为的对照表》
Google发布的声音数据集AudioSet[11]共分为527类,所有声音片段长度均为10 s,其标签为10 s内该声音片段中发生的所有事件,而非逐帧标注.AudioSet数据集还提供VGGish模型[19]提取的embedding特征.VGGish模型将原始声音数据按秒转换为特征,并使用主成分分析(PCA),仅保留前128个PCA系数.一个128维的embedding特征向量代表1 s的声音片段,因此数据集内的每个声音片段为10个128维的embedding特征向量.
图表编号 | XD00136953400 严禁用于非法目的 |
---|---|
绘制时间 | 2020.02.01 |
作者 | 刘明、黄继风、高海 |
绘制单位 | 上海师范大学信息与机电工程学院、上海师范大学信息与机电工程学院、上海师范大学信息与机电工程学院 |
更多格式 | 高清、无水印(增值服务) |