《表2 文本预处理前后对比》

《表2 文本预处理前后对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于BGRU-CNN的层次结构微博情感分析》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

新浪微博的文本内容以中括号加文字的方式标识表情符,如表情符在文本中的格式为“[哈哈]”.鉴于表情符对于微博文本的情感分类有着重要的指示作用,本文将微博文本中的所有表情符作为一个语义单元予以保留.利用正则表达式依次执行如下操作:将网址和邮箱地址转化为语义单元[URL];将正则表达式“@[\\S]+:转发微博”匹配的字符串转化为语义单元[FORWARD];将数字转化为语言单元[N];将连续出现的多个中英文叹号、句号、问号等标点符号都替换为一个;去掉单、双引号、空格和“\\\\”;利用北京理工大学的NLPIR汉语分词工具进行分词;最后将正则表达式“@[\\S]+”匹配的分词转化为语义单元[USER_MENTION].一条微博文本经过预处理前后的对比如表2所示.