《表1 原始文档:融合图结构与节点关联的关键词提取方法》
文本在经过数据去噪、分词、停用词过滤等预处理步骤后,可视为由一组停止标记(“。”,“?”,“!”,“……”)分隔的句子集合S={s1,s2,…,sn}。si是由一组不重复的词项序列构成的句子,wiq是si的第q个词。假设si存在与之对应的事务ti,那么wiq可视为事务ti的第q个词项。所以,由S中每个句子对应的事务就构成了文档的事务集T={t1,t2,…,tn}。表1是一篇文档的原始内容,经过预处理后,得到该文本的事务集T,如表2所示。
图表编号 | XD0091818700 严禁用于非法目的 |
---|---|
绘制时间 | 2019.09.01 |
作者 | 马慧芳、王双、李苗、李宁 |
绘制单位 | 西北师范大学计算机科学与工程学院、桂林电子科技大学广西可信软件重点实验室、西北师范大学计算机科学与工程学院、西北师范大学计算机科学与工程学院、中国科学院信息工程研究所 |
更多格式 | 高清、无水印(增值服务) |