《表2 规范评论语料库示例》
利用Jieba系统和哈工大停用词表等对评论预处理。经过去短评、分词、词性标注和去停用词后,统计不同词性的词语比例,发现不论是在词汇表中还是在词语总数中,名词、动词和形容词占比均为90%左右,如图5和图6所示。这说明语料库中仅保留名词、动词和形容词,在充分保存语义信息的同时,也并没有损失过多数据。再接着去除单字和字数多于4个的词语,以及频数低于3的的低频词。最后得到的规范评论语料库包含6300条评论,词汇表长度为70089,语料词语总数为2650,规范评论语料库的评论示例如表2所示。
图表编号 | XD009552500 严禁用于非法目的 |
---|---|
绘制时间 | 2019.10.28 |
作者 | 刘嘉唯、高慧颖、崔立新、朱珈印、吴奕萱 |
绘制单位 | 北京理工大学管理与经济学院、北京理工大学管理与经济学院、北京理工大学管理与经济学院、北京理工大学管理与经济学院、北京理工大学管理与经济学院 |
更多格式 | 高清、无水印(增值服务) |