《表2 标签集合及含义:中文文献引文情感语料库构建》
然后将清洗后的文本文档分割为正文和参考文献2部分。正文部分按句分割编码,并采用正则表达式的方法搜索引用标识,即以上角标形式出现的包含数字的中括号;参考文献部分按编号分割,截取其中的题目、作者、期刊等信息。在数据的预处理中还考虑了全角字符和半角字符的转化、部分参考文献跳转到其他页、包含多重参考文献标识、正文内容隔页跳转以及特殊字符在XML文件中的合法化等问题。处理后的文献包含题目、作者、正文和参考文献4部分,以XML的格式存储数据。表2列出了XML文件中部分标签的集合。
图表编号 | XD00121826200 严禁用于非法目的 |
---|---|
绘制时间 | 2020.01.24 |
作者 | 徐琳宏、丁堃、陈娜、李冰 |
绘制单位 | 大连理工大学科学学与科技管理研究所暨WISE实验室、大连外国语大学软件学院、大连理工大学科学学与科技管理研究所暨WISE实验室、大连理工大学科学学与科技管理研究所暨WISE实验室、大连理工大学科学学与科技管理研究所暨WISE实验室 |
更多格式 | 高清、无水印(增值服务) |