《表1 同义词项和歧义实体统计信息》

《表1 同义词项和歧义实体统计信息》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于双词主题模型的半监督实体消歧方法研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

维基百科页面是目前大多数学者使用的公共数据集,广泛应用于关系抽取、实体消歧等研究领域中,本文采用2011年6月23日对应的维基百科中文数据资源:zhwiki-latest-pages-articles.xml,将XML格式数据进过处理并提取相应信息后,得到35万多个页面,其中重定向页面23万多个,实体页面12万多个,消歧页面2万多个,而重定向页面对应的23万多个同义词表项最终对应了110000多个真实的标准词项上,例如:“宝瓶口”和“都江鱼嘴”都重定向至“都江堰”,即“宝瓶口”和“都江鱼嘴”是同义词项.歧义词表中包括8千多个歧义实体,总共对应3万多个非歧义实体,其统计信息如表1所示.