《表1 用于性别分类的微博文本特征集》
社会性是语言的本质特征之一,同时语言又有各种差异,其中性别差异是一个重要的方面,不同性别的人在词语选择、句法选择上都存在差异[12]。通过对微博的观察可以发现,不同性别的用户在微博文本中会有不同的行文习惯。例如,女性用户喜欢在微博中添加“[笑哭]”、“[爱心]”、“[泪奔]”等微博表情(微博表情在文本中的表现形式为一对包含表情文字的中括号);此外,女性用户通过微博表述自身情感时,较男性用户更喜欢使用语气助词,比如微博:“啊啊啊,期待我们蝴蝶王子”,而男性用户在微博中更容易使用脏话。因此本文提取用户微博文本中表情符号、语气助词和语气加强符号的数量和占比加入到特征空间。除此之外,本文还提取了包括微博长度、微博平均字数、重复词语(表示强调)个数等特征加入到特征空间。最终用于分类的微博文本特征见表1。
图表编号 | XD0040524000 严禁用于非法目的 |
---|---|
绘制时间 | 2019.01.16 |
作者 | 张璞、陈超、陈韬、王永 |
绘制单位 | 重庆邮电大学计算机科学与技术学院、重庆邮电大学计算机科学与技术学院、重庆邮电大学计算机科学与技术学院、重庆邮电大学经济管理学院 |
更多格式 | 高清、无水印(增值服务) |