《表1 原始语料库部分示例》
本研究选取腾讯软件中心、豌豆荚和太平洋下载中心关于微信评论的网站,通过分析HTML网页的URL规律,采用Python编写的广度优先遍历的爬虫程序,通过识别评论网页的URL规律,使用正则表达式匹配,爬取网站的评论数据。爬取了3家网站截止到2017年12月前的全部关于微信的用户评论,共7100条评论数据,通过文本解析读取评论、评论时间、版本等字段,按固定格式进行存储。原始语料库部分示例如表1。
图表编号 | XD009552600 严禁用于非法目的 |
---|---|
绘制时间 | 2019.10.28 |
作者 | 刘嘉唯、高慧颖、崔立新、朱珈印、吴奕萱 |
绘制单位 | 北京理工大学管理与经济学院、北京理工大学管理与经济学院、北京理工大学管理与经济学院、北京理工大学管理与经济学院、北京理工大学管理与经济学院 |
更多格式 | 高清、无水印(增值服务) |