《表1 Kadaxis可分析的9项元数据 (对照中文系作者翻译)》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《Kadaxis:图书内容元数据自动生成技术的领跑者》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

Kadaxis运用自然语言处理技术来分析图书正文，根据分析结果生成相应的图书内容元数据（见表1）。当前，用这种方式自动生成的9种元数据都不能从任何其他现成的地方直接抽取，而是需要“了解图书内容”之后才能得到。Kadaxis使用自主研发的文本挖掘算法，在对正文进行文本分析的基础上，根据不同规则得到各项图书元数据信息。比如，根据正文中频繁出现的词簇提取“图书主题”；使用正文中频繁出现的句子判断图书的“叙述视角”（第一人称或第三人称）；分析图书正文的平均单词长度、句子长度、长句比例、被动句比例等统计数据与特定标准对比后得出图书的“可读性”判断。除此之外，目前可以分析的元数据项目还有图书BISAC分类、写作文字、实体、专业术语、编辑质量与作者性别。

图表编号	XD006362200 严禁用于非法目的
绘制时间	2018.06.05
作者	徐丽芳、曹羽凤
绘制单位	武汉大学信息管理学院
更多格式	高清、无水印（增值服务）