《表5 测试集中4组模型的实验结果Tab.5 Experimental results of four model in the test set》

《表5 测试集中4组模型的实验结果Tab.5 Experimental results of four model in the test set》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于词对向量的中文新闻话题检测方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

从表5可以看出在测试集上,虽然由于数据集分布不一致造成所有模型精度都大幅下降,但是基于词对的改进方法仍然取得了最高的F1值;同时聚类得到的话题个数(79)也比其他方法更接近实际的话题个数(49).因此虽然在本文中基于词对的改进方法是通过阈值来结束话题聚类,但是实际上由于该改进方法取得最优值时,其结果和实际话题个数相近的优点,所以该话题聚类方法的终止条件完全可以改成:当聚类的话题个数达到事先确定的NT值即停止聚类.这样在一些可以事先估计话题个数的情况下,就可以不通过阈值就得到较好的结果.