《表2 标签集合及含义:中文文献引文情感语料库构建》

《表2 标签集合及含义:中文文献引文情感语料库构建》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《中文文献引文情感语料库构建》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

然后将清洗后的文本文档分割为正文和参考文献2部分。正文部分按句分割编码,并采用正则表达式的方法搜索引用标识,即以上角标形式出现的包含数字的中括号;参考文献部分按编号分割,截取其中的题目、作者、期刊等信息。在数据的预处理中还考虑了全角字符和半角字符的转化、部分参考文献跳转到其他页、包含多重参考文献标识、正文内容隔页跳转以及特殊字符在XML文件中的合法化等问题。处理后的文献包含题目、作者、正文和参考文献4部分,以XML的格式存储数据。表2列出了XML文件中部分标签的集合。