《表1 Kadaxis可分析的9项元数据 (对照中文系作者翻译)》

《表1 Kadaxis可分析的9项元数据 (对照中文系作者翻译)》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《Kadaxis:图书内容元数据自动生成技术的领跑者》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

Kadaxis运用自然语言处理技术来分析图书正文,根据分析结果生成相应的图书内容元数据(见表1)。当前,用这种方式自动生成的9种元数据都不能从任何其他现成的地方直接抽取,而是需要“了解图书内容”之后才能得到。Kadaxis使用自主研发的文本挖掘算法,在对正文进行文本分析的基础上,根据不同规则得到各项图书元数据信息。比如,根据正文中频繁出现的词簇提取“图书主题”;使用正文中频繁出现的句子判断图书的“叙述视角”(第一人称或第三人称);分析图书正文的平均单词长度、句子长度、长句比例、被动句比例等统计数据与特定标准对比后得出图书的“可读性”判断。除此之外,目前可以分析的元数据项目还有图书BISAC分类、写作文字、实体、专业术语、编辑质量与作者性别。