《表1 社会政策语料库的高频词及频数》

《表1 社会政策语料库的高频词及频数》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于语料库大数据的社会政策知识体系构建》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
注:仅显示翻译后的对应中文词,频数统计时包括该词的单复数、动名词等词形,并合并了翻译之后为同义词的词频。

基于上述分析步骤,首先在大规模的社会政策语料库中进行英文词切分,然后在分词的基础上进行频度统计得到大量的候选高频社会政策话语体系词汇。应用语料库软件对构建50余万字的社会政策语料库进行分词和统计,共得到15000余个单词,出现频率最高的单词11159次,出现频率最低的单词1次。在删除低频词方面,主要采取了如下分析步骤。首先删除了出现频率在50次以下的词汇,保留500余个高频词做进一步的分析。在保留下来的高频词中有非常多的语法词,这些词对于发现社会政策知识点的价值较小,根据英语语法的相关理论,先后删除了冠词、介词、代词(人称代词、物主代词、反身代词、指示代词、疑问代词、不定代词)、连词、数词(基数词、序数词)等词,由此保留180个高频单词。在保留下来的词汇中,有诸多词汇是与知识单元无关的词,例如,文章(article)、论文(paper)、研究(research)、分析(analysis)等常在论文摘要中出现的词,对这样的词也进行了删除。最后,将保留下来的单词中的同根词、同义词进行了归并,最终保留108个具有实质意义的社会政策高频词,作为知识单元发现和归纳的基础,如表1所示。