《表1 2006—2016年数据挖掘相关文献关键词频次表》

《表1 2006—2016年数据挖掘相关文献关键词频次表》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《数据挖掘研究综述》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

共现是指文献中相同或不同特征共同出现的现象,关键词和主题词共现都可以称之为“共词现象”,利用该现象一般可以确定学科的研究重点和研究结构,以及明确学科中各个主题之间的关系[7]。一般认为,不同词汇在一篇文章中出现的次数越多就认为这些词汇之间的关系越紧密,统计一组文献之间关键词或主题词在同一篇文献中出现的频率,就可由这些词组成一个相关联的“共词网络”。笔者利用CNKI可视化分析工具,对本次从CNKI中收集的文献进行分析后得到图2,对关键词进行统计分析后得到表1(其中剔除了泛用性较高的“数据挖掘”一词)。在一个无向图内部中心度代表网络中一个节点与其他节点的相关程度,对一个拥有g个节点的无向图,节点i的中心度是i与其他g-1个节点的直接联系总数CD(NI)=∑Jg=1Xij(i≠j)。斯坦利·沃瑟曼和凯瑟琳·福斯特在1994年提出了标准化公式,用于计算中心度C'D(NI)=CD(Ni)/g-1[8]。笔者对图2和表1进行分析后发现,经过计算“关联规则”出现的频率为3,108,且其中心度为0.79,大大超过了其他关键词的中心度,其节点最大且位于关键词网络图谱的中心。“频繁项集”“Apriori算法”作为关键词出现的次数分别为392次和773次,与“关联规则”的共现次数达到了253次和546次,都有超过60%的共现可能,说明这三个关键词具有高度的内在相关联系。“数据仓库”“决策树”“聚类”“大数据”等关键词在2006—2016年发表的数据挖掘文献中也有较高的出现频次,说明这10年间的数据挖掘研究热点与其相关。另外,中心度与关键词出现频次并不是正相关的关系,有些关键词频次低但是中心度高,这表示该关键词属于近年新兴的关键词,这样的关键词一般属于新兴枢纽节点,与其他关键词经常一起出现并起承接作用,在未来可能有广阔的发展空间。例如,“神经网络”“电子商务”“分类”这些关键词的中心度都达到了0.26以上,但它们都不是高频次关键词,说明这些关键词引起了学界的高度关注和讨论。纵观近10年的数据挖掘关键词,笔者发现其可以分为“关联规则”“决策树”“Apriori算法”等数据挖掘方法,“电子商务”“数据仓库”等数据挖掘应用技术,以及“大数据”“云计算”等三类。其中,数据挖掘方法贯穿于数据挖掘的研究全过程,其关键词出现频次一般较高,且是整个数据挖掘的中心,“关联规则”就属于这一类别。而数据挖掘应用技术基于数据挖掘方法,以“应用”为核心发展出一系列相关的关键词。“大数据”和“云计算”作为单独的一类,虽然近几年出现的频率越来越高,但是与数据挖掘的整体相关性并不是十分紧密,因此加强联系与应用是其未来的发展方向。