《表4 基于百科的风险短语抽取结果》
在第3.3节的基础上,以包含1200多万百科实体的词库作为分词词典,对6257条风险描述文本进行分词处理,对分词结果过滤停用词、数字等不规范短语以及长度小于4的常用词语,最终获得46370个百科实体词。同样以上述10个Text为例,风险短语抽取对应结果如表4所示。对Text1进行分析,结合其原始风险描述文本,如图4所示,在Text1的风险信息抽取结果中,短语“环境保护风险”、“环境管理”、“环境保护”是对风险类型的补充,短语“垃圾焚烧发电”、“垃圾焚烧”、“操作失误”、“生产过程”等描述了公司在项目运营过程中可能导致风险的因素,短语“应急预案”、“污染防治技术”、“环保设施”、“国家标准”等表达公司对上述风险因素的应对措施,这些短语都在一定程度上补充了公司的风险信息。
图表编号 | XD00121820500 严禁用于非法目的 |
---|---|
绘制时间 | 2019.12.24 |
作者 | 梁娜、姚长青、王峥、高影繁、李岩 |
绘制单位 | 中国科学技术信息研究所、中国科学技术信息研究所、中国科学院文献情报中心、中国科学技术信息研究所、中国科学技术信息研究所 |
更多格式 | 高清、无水印(增值服务) |