《表2 文本预处理前后对比》
新浪微博的文本内容以中括号加文字的方式标识表情符,如表情符在文本中的格式为“[哈哈]”.鉴于表情符对于微博文本的情感分类有着重要的指示作用,本文将微博文本中的所有表情符作为一个语义单元予以保留.利用正则表达式依次执行如下操作:将网址和邮箱地址转化为语义单元[URL];将正则表达式“@[\\S]+:转发微博”匹配的字符串转化为语义单元[FORWARD];将数字转化为语言单元[N];将连续出现的多个中英文叹号、句号、问号等标点符号都替换为一个;去掉单、双引号、空格和“\\\\”;利用北京理工大学的NLPIR汉语分词工具进行分词;最后将正则表达式“@[\\S]+”匹配的分词转化为语义单元[USER_MENTION].一条微博文本经过预处理前后的对比如表2所示.
图表编号 | XD0051434200 严禁用于非法目的 |
---|---|
绘制时间 | 2019.04.01 |
作者 | 刘高军、赵希明 |
绘制单位 | 北方工业大学信息学院、北方工业大学信息学院 |
更多格式 | 高清、无水印(增值服务) |