《表1 实验数据集描述:基于深度学习的热点事件主题表示研究》
本文实验语料为政治类新闻集,在基线对比实验中,以“英国脱欧”、“朝核问题”、“一带一路”为检索词,分别从新浪新闻和必应搜索国际版爬取2018年3月1日-2018年10月31日期间共计60 000条中英文新闻,包括新闻标题、摘要和正文信息。在模型的可解释性研究中,以“中美贸易战”为检索词,爬取2018年3月1日-2018年10月31日期间的中英文新闻,包括新闻标题、摘要、正文、链接、时间和作者(即网站源)。预处理时合并新闻标题、摘要和正文内容作为基本语料库,然后对数据进行处理。对于中文数据,使用Jieba分词工具分词并去停用词;对于英文数据,则直接进行去停用词处理。最后对缺失时间或作者的数据使用链接信息进行正则匹配。预处理后的文本数据集描述如表1所示。
图表编号 | XD00174891400 严禁用于非法目的 |
---|---|
绘制时间 | 2020.04.25 |
作者 | 余传明、原赛、朱星宇、林虹君、张普亮、安璐 |
绘制单位 | 中南财经政法大学信息与安全工程学院、中南财经政法大学统计与数学学院、中南财经政法大学信息与安全工程学院、中南财经政法大学信息与安全工程学院、中南财经政法大学信息与安全工程学院、武汉大学信息管理学院 |
更多格式 | 高清、无水印(增值服务) |