《表1 内控评价报告高频词汇表》

《表1 内控评价报告高频词汇表》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于文本挖掘技术的上市公司内部控制评价报告研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

首先对样本手工处理,把PDF格式转为TXT文本格式,只保留文本部分。利用ROST CM软件及其所设词表,将非结构化的内控评价报告分解为可供统计与分析的各种词汇。定义词表时,需要考虑内控评价报告中大量存在的会计术语和专有名词的特征,确保内控评价报告分词处理更符合专业属性。对文本进行分词挖掘分析,文本转换为各个词汇和单字,需要手工复核可能存在的错误词汇和单字划分,确保分词的严谨性。对内控评价报告出现的不同词汇进行统计时,更多的是关注与内控学理论相关的词汇,从而得出词频表。本文摘取了高频词汇表前30个词汇进行分析研究。详见如下表1。