《表1 风险类型提取部分结果》
对风险描述文本进行预处理后,编写适当的正则表达式对风险信息数据进行风险类型提取。经过去重处理,最终获得1390种不同表述的风险类型,随机选取20个文本所对应的风险类型抽取结果,如表1所示。对风险类型提取结果进行简单分析可以发现,尽管针对同一风险,不同公司因其所处行业、经营范围以及年报撰写者语言表述习惯等的不同,年报中提及的风险类型的描述详细程度大不相同。以“管理风险”为例,就有着“集团化管理风险”、“经销商管理风险”、“经营管理风险”、“内部管理风险”、“企业管理风险”、“存货管理风险”、“并购管理风险”等多达60余种不同表述。为了保证信息抽取结果能最大限度地还原年报中的风险信息,本文不对上述风险类型做合并处理。每个风险信息文本对应一种风险类型,该风险类型构成一维风险信息。
图表编号 | XD00121820200 严禁用于非法目的 |
---|---|
绘制时间 | 2019.12.24 |
作者 | 梁娜、姚长青、王峥、高影繁、李岩 |
绘制单位 | 中国科学技术信息研究所、中国科学技术信息研究所、中国科学院文献情报中心、中国科学技术信息研究所、中国科学技术信息研究所 |
更多格式 | 高清、无水印(增值服务) |