《表2 部分处理后数据:基于事件描述的社交事件参与度预测》
由于爬取的数据描述为HTML格式,同时包含很多非英语词,例如表情、HTML控制标签,因此,在正式在预处理之前,本文对文本进行如下处理:1)去除所有非英文词和HTML标签;2)去除停止词;3)将数字替换为“#”,将出现次数少于5次的词替换为“
图表编号 | XD00189081600 严禁用于非法目的 |
---|---|
绘制时间 | 2020.11.10 |
作者 | 孙鹤立、孙玉柱、张晓云 |
绘制单位 | 西安交通大学计算机科学与技术学院、西安交通大学计算机科学与技术学院、西安交通大学外国语学院、西安交通大学计算机科学与技术学院 |
更多格式 | 高清、无水印(增值服务) |