《表2 两种算法的实验结果对比》

《表2 两种算法的实验结果对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于三重维度的企业风险信息抽取方法研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

基于上述改进的风险短语识别算法对全部6257条风险描述文本进行风险短语抽取,设定阈值挑选共现概率高的候选词串(即互信息值高的词串),通过互信息值挑选出共现概率高的词,再选取左右熵值之和最高的前20个词,降序输出,过滤数字等无意义短语以及长度小于4的噪声词,最终获得7551个风险短语。对于同样数据,进行基于HanLP的短语识别,最终获得58488个短语。以第4.2节中的前10个文本为例,两种算法的抽取结果如表2所示。