《表6 两种方法挖掘的属性集示例》
总体而言,两种方法的抽取结果存在较大差异,基于LDA的方法在属性数量层面远小于基于本文使用的方法。基于LDA的方法仅能抽取出6种属性词,而本文使用的方法能够抽取出7种属性词。并且,对于每一个属性,本文使用的方法能够抽取出更多、更细粒度的属性。图书的内容属性和插图属性抽取结果如表6所示。本文使用的方法能发现更多细粒度的属性词;而基于LDA的属性抽取方法仅能挖掘少量图书属性,无法对同义属性进行聚类,进而无法保证已挖掘图书属性的全面性。例如,图书的内容属性,基于的LDA方法仅能发现“content”“viewpoint”等少数属性,而本文使用的方法发现了48个内容属性。通过以上分析可知,LDA方法可以抽取属性,但是依赖人工拣选,并且最终属性抽取数量较少,无法聚集其他相关属性;本文使用的方法能发现更多细粒度的属性,并且简单、高效。
图表编号 | XD00206684800 严禁用于非法目的 |
---|---|
绘制时间 | 2021.02.24 |
作者 | 章成志、童甜甜、周清清 |
绘制单位 | 南京理工大学信息管理系、南京理工大学信息管理系、南京师范大学网络与新媒体系 |
更多格式 | 高清、无水印(增值服务) |