《表7 缺失话头统计信息:基于语言模型的中文话头自足句识别方法》

《表7 缺失话头统计信息:基于语言模型的中文话头自足句识别方法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于语言模型的中文话头自足句识别方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

即使单纯衡量模型的话头识别能力,《围城》语料上的效果也不如“鱼类百科”语料。本文对此作了进一步分析,就缺失话头总数来看,《围城》语料中缺失话头高达4 088,而“鱼类百科”中仅有2 673,相差了1 415。如表7所示,本文统计了两份语料中话头不完整的标点句所缺失的最常出现的20个话头以及话头总数(不重复的话头)。通过观察高频缺失话头可以发现,“鱼类百科”语料中,缺失的话头大部分都是完整的鱼类实体,而《围城》语料中,除了人称实体外还有人称代词以及人称实体与动词构成的短语,如“他想”“辛楣说”等。正是该原因,增加了模型对《围城》语料中话头自足句识别的难度,效果相较于“鱼类百科”会差一些。