《表1 用于性别分类的微博文本特征集》

《表1 用于性别分类的微博文本特征集》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《两分类器融合的中文微博用户性别分类方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

社会性是语言的本质特征之一,同时语言又有各种差异,其中性别差异是一个重要的方面,不同性别的人在词语选择、句法选择上都存在差异[12]。通过对微博的观察可以发现,不同性别的用户在微博文本中会有不同的行文习惯。例如,女性用户喜欢在微博中添加“[笑哭]”、“[爱心]”、“[泪奔]”等微博表情(微博表情在文本中的表现形式为一对包含表情文字的中括号);此外,女性用户通过微博表述自身情感时,较男性用户更喜欢使用语气助词,比如微博:“啊啊啊,期待我们蝴蝶王子”,而男性用户在微博中更容易使用脏话。因此本文提取用户微博文本中表情符号、语气助词和语气加强符号的数量和占比加入到特征空间。除此之外,本文还提取了包括微博长度、微博平均字数、重复词语(表示强调)个数等特征加入到特征空间。最终用于分类的微博文本特征见表1。