《表2 复述样例:基于神经网络的汽车说明书问答系统》
众所周知,许多词和短语有着相同或相近的含义。对于同一含义的词,可能有着很多不同的表达形式。尤其是针对特殊领域的词汇,由于大规模训练语料的缺失,很难训练具有针对性的词向量。而使用在通用语料上预训练的词向量则很难将多个具有相同含义的领域词聚类在一起。同时,许多领域词可能根本不会出现在预训练的词向量中,属于未登录词。因此针对同一领域词的不同表达形式会对模型的建模造成很大的负面影响。为了减少这些负面影响,从数据集中收集具有相同或相近含义的领域词对,手工构造了领域词的复述词典。复述词典的规模较小,只有97条。表2展示了词典中的一些样例。
图表编号 | XD0041683400 严禁用于非法目的 |
---|---|
绘制时间 | 2019.02.15 |
作者 | 齐乐、张宇、马文涛、崔一鸣、王士进、刘挺 |
绘制单位 | 哈尔滨工业大学社会计算与信息检索研究中心、哈尔滨工业大学社会计算与信息检索研究中心、哈工大讯飞联合实验室讯飞研究院、哈工大讯飞联合实验室讯飞研究院、哈工大讯飞联合实验室讯飞研究院、哈尔滨工业大学社会计算与信息检索研究中心 |
更多格式 | 高清、无水印(增值服务) |