《表1 实体对齐数据统计:基于主题模型的百科知识库实体对齐》
为了验证本文算法的有效性,采用质量相对较高的中文语料库维基百科中文版和百度百科的文本数据进行实验。维基百科会定时将自己的语料库进行更新并打包发布,本文下载了最新的维基语料进行实验,语料部分包括词条名称和相应的描述信息。由于维基百科语料较为全面并且包含信息很多,维基百科的语料库在本实验中作为实体库存在。而百度百科的语料则需要进行爬取,本文在百度百科网站爬取了人物类、社会类、科学类和艺术类各200条,共800条百度百科的词条信息,其中包括词条名称和相应的描述信息,作为待对齐实体进行实验。获取到实验数据之后进行数据预处理,本文利用Python语言进行实验,在数据预处理部分使用Python自带的jieba分词进行分词处理,使用“哈工大停用词表”进行去除停用词。本文实验所用数据统计如表1所示。
图表编号 | XD00107242000 严禁用于非法目的 |
---|---|
绘制时间 | 2019.11.01 |
作者 | 刘振鹏、贺梦洁、张彬、董静、徐建民 |
绘制单位 | 河北大学电子信息工程学院、河北大学信息技术中心、河北大学电子信息工程学院、河北大学信息技术中心、河北大学电子信息工程学院、河北大学网络空间安全与计算机学院 |
更多格式 | 高清、无水印(增值服务) |