《表7 缺失话头统计信息:基于语言模型的中文话头自足句识别方法》
即使单纯衡量模型的话头识别能力,《围城》语料上的效果也不如“鱼类百科”语料。本文对此作了进一步分析,就缺失话头总数来看,《围城》语料中缺失话头高达4 088,而“鱼类百科”中仅有2 673,相差了1 415。如表7所示,本文统计了两份语料中话头不完整的标点句所缺失的最常出现的20个话头以及话头总数(不重复的话头)。通过观察高频缺失话头可以发现,“鱼类百科”语料中,缺失的话头大部分都是完整的鱼类实体,而《围城》语料中,除了人称实体外还有人称代词以及人称实体与动词构成的短语,如“他想”“辛楣说”等。正是该原因,增加了模型对《围城》语料中话头自足句识别的难度,效果相较于“鱼类百科”会差一些。
图表编号 | XD00202100600 严禁用于非法目的 |
---|---|
绘制时间 | 2021.02.05 |
作者 | 张禹尧、蒋玉茹、毛腾、张仰森 |
绘制单位 | 北京信息科技大学智能信息处理研究所、北京信息科技大学智能信息处理研究所、北京信息科技大学智能信息处理研究所、北京信息科技大学智能信息处理研究所 |
更多格式 | 高清、无水印(增值服务) |