《表1.标注体系与示例:基于俄汉新闻网评可比语料库的情感分析研究》

《表1.标注体系与示例:基于俄汉新闻网评可比语料库的情感分析研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于俄汉新闻网评可比语料库的情感分析研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

语料情感标注的基础是确立情感的基本分类。在中国,西汉礼学家戴圣(2008:73)编纂的《礼记·礼运》中有云:“何谓人情?喜、怒、哀、惧、爱、恶、欲”,即通常所说的“七情”。在西方,关于情感划分影响较广的观点是保罗·艾克曼的六分法:愤怒、厌恶、恐惧、快乐、悲伤、惊讶(Ekman 1993:386)。结合上述两种观点,同时参考中文情感分析的相关成果(徐琳宏等2008),本文将情感描述为4个基本类及19个子类:好(愉、舒、敬、扬、信、爱、愿)、恶(烦、憎、贬、妒、疑、怒)、哀(悲、憾)、惧(恐、羞、惊、慌)。其他复杂情感可以被描述为这些基本情感的细化、加强、迁移和混合。当然目前也存在更为复杂精细的情感划分方法,本文认为过细划分情感大类难免会过多地带入研究者的主观性,在语料标注时会造成类别部分重合进而难以严谨描述。以此分类体系为基础,本研究对情感表达的基本词汇手段(名词、动词、形容词和词组)进行了标注设计,基于TEI构建了一套面向俄汉新闻网评情感分析任务的情感标注体系,并首先对俄汉总计30 426条网评进行了情感标注。中文情感标注部分调用了大连理工大学开发的情感词典(http://ir.dlut.edu.cn/EmotionOntologyDownload)作为参考,而目前俄语情感分析普遍缺乏可用数据资源、参考标准和处理工具,本研究首先对2521条俄文新闻网评中的情感信息进行了全人工标注,采用抽取已标注字符串的方法获取情感表达手段,经过形态分析还原和去重处理后,初步自动抽取形成了面向新闻评论领域的情感词典,包括各类表达手段总计3621条,随后使用情感词典和人工相结合的方式对剩余的12 692条俄文网评进行标注。为最大程度降低不同标注者对文本的情感判断的差异,本研究采用人工双重标注方法,标注者首先统一进行标注集学习和标准一致性讨论,随后采用对同一语料双人分别标注的方法,若标注结果一致,则通过标注结果;否则,要经过第三人校对加以确认、判断与更正。语料库最终的标注体系与示例如下(表1):