《表1 实验数据集描述:基于深度学习的热点事件主题表示研究》

《表1 实验数据集描述:基于深度学习的热点事件主题表示研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于深度学习的热点事件主题表示研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文实验语料为政治类新闻集,在基线对比实验中,以“英国脱欧”、“朝核问题”、“一带一路”为检索词,分别从新浪新闻和必应搜索国际版爬取2018年3月1日-2018年10月31日期间共计60 000条中英文新闻,包括新闻标题、摘要和正文信息。在模型的可解释性研究中,以“中美贸易战”为检索词,爬取2018年3月1日-2018年10月31日期间的中英文新闻,包括新闻标题、摘要、正文、链接、时间和作者(即网站源)。预处理时合并新闻标题、摘要和正文内容作为基本语料库,然后对数据进行处理。对于中文数据,使用Jieba分词工具分词并去停用词;对于英文数据,则直接进行去停用词处理。最后对缺失时间或作者的数据使用链接信息进行正则匹配。预处理后的文本数据集描述如表1所示。