《表1 多模态深度学习的各应用场景涉及的问题》
多模态深度学习的发展给多模态机器学习带来了革命性的发展,使得多模态机器学习完成了巨大的飞跃。Baltru2aitis等人[10]总结了多模态机器学习的研究情况,提出围绕多模态机器学习及在其之后的发展中需要克服的五个挑战:模态表示、模态传译、模态对齐、模态融合和合作学习。本文在多模态深度学习发展的前期,总结当前多模态深度学习在不同的多模态组合和学习目标下,其实现过程中的四个挑战,即模态表示、模态传译、模态对齐和模态融合。合作学习(colearning)主要围绕数据与数据之间的关系,不涉及多模态深度学习中神经网络的构造。本文在自然语言、视觉、声音这三个方向上,针对各应用场景,如语音识别和生成、事件探测、图像和视频描述、面部识别和表情分析、跨媒体检索等,展开对各个挑战的论述。表1概括了多模态深度学习在各应用场景中涉及的主要问题。表中“+”表示应用场景涉及问题类别;“+”的个数表示应用场景完成问题的难度;“-”表示应用场景未涉及问题类别。
图表编号 | XD00163341900 严禁用于非法目的 |
---|---|
绘制时间 | 2020.06.01 |
作者 | 刘建伟、丁熙浩、罗雄麟 |
绘制单位 | 中国石油大学(北京)自动化系、中国石油大学(北京)自动化系、中国石油大学(北京)自动化系 |
更多格式 | 高清、无水印(增值服务) |