《表7 缺失话头统计信息：基于语言模型的中文话头自足句识别方法》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于语言模型的中文话头自足句识别方法》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

即使单纯衡量模型的话头识别能力，《围城》语料上的效果也不如“鱼类百科”语料。本文对此作了进一步分析，就缺失话头总数来看，《围城》语料中缺失话头高达4 088，而“鱼类百科”中仅有2 673，相差了1 415。如表7所示，本文统计了两份语料中话头不完整的标点句所缺失的最常出现的20个话头以及话头总数（不重复的话头）。通过观察高频缺失话头可以发现，“鱼类百科”语料中，缺失的话头大部分都是完整的鱼类实体，而《围城》语料中，除了人称实体外还有人称代词以及人称实体与动词构成的短语，如“他想”“辛楣说”等。正是该原因，增加了模型对《围城》语料中话头自足句识别的难度，效果相较于“鱼类百科”会差一些。

图表编号	XD00202100600 严禁用于非法目的
绘制时间	2021.02.05
作者	张禹尧、蒋玉茹、毛腾、张仰森
绘制单位	北京信息科技大学智能信息处理研究所、北京信息科技大学智能信息处理研究所、北京信息科技大学智能信息处理研究所、北京信息科技大学智能信息处理研究所
更多格式	高清、无水印（增值服务）