《表4 术语平均长度的统计情况(单位:字)》
此外,不同来源的术语在粒度上也存在明显差异。两组实验的术语平均长度变化如表4所示,对照组的术语平均长度为3.31,来自KW和KP的术语多为组合短语,其平均长度明显大于来自TI和AB的术语,最长的术语来自于KP字段,有15字之长,如“国家人口与健康科学数据共享平台”,KW的最长术语有12字,如“改革开放前后两个历史时期”和“应计制与真实活动盈余管理”,除人名、机构名、历史事件名等实体名称外,这类关键词过于专指,在实际信息检索中的查全率不甚满意,在语义上完全有进一步切分的必要;而在实验组中,术语平均长度为2.06,各字段在术语粒度上普遍更短而无明显差异,AB字段的术语粒度略大。
图表编号 | XD00139952700 严禁用于非法目的 |
---|---|
绘制时间 | 2020.03.25 |
作者 | 熊欣、王昊、张海潮、张宝隆 |
绘制单位 | 南京大学信息管理学院、江苏省数据工程与知识服务重点实验室、南京大学信息管理学院、江苏省数据工程与知识服务重点实验室、南京大学信息管理学院、江苏省数据工程与知识服务重点实验室、南京大学信息管理学院、江苏省数据工程与知识服务重点实验室 |
更多格式 | 高清、无水印(增值服务) |