《表2 历史气候变化研究时段信息的三类表述范式及结构》

《表2 历史气候变化研究时段信息的三类表述范式及结构》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《中亚地区过去2000年气候变化研究的数据挖掘》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
(1)加粗字体指代“结构主体”(2)正则表达式组块为词性标签与通配符的组合。其中,各词性标签及其意义如下:(时期词前缀)、(时期词)、(数词或数词区间)、(时间单位词)、(公元纪年标志词)、(碳14纪年标志词)、(介词)

(1)研究时段信息挖掘主要采用基于正则表达式的组块化提取技术[76~77]。经过梳理分析有效文献的标题发现,论文标题一般嵌入了准确的研究时段信息,因而这类信息挖掘主要面向文献标题开展。鉴于作者措辞风格不同,本文通过人工判读对部分文献标题中时段表达短语的词汇组合方式进行了分析,归纳提炼出时段信息的三类表述范式,即简单时间表述、复合时间短语、时间介词或动名词短语(表2)。据此设计研究时段挖掘规则,将各表述范式抽象为机器可识读的正则表达式组块;然后利用文本数据挖掘中的句法分析及组块化提取技术,编写提取时间表达式的python程序,包括:先对文本进行统一大小写、时间单位表达及标注词性等预处理,然后进行文本组块化匹配及提取。结果显示:在46篇文献中,有41篇可以提取到明确的研究时段信息(示例见表3),其中9篇(22%)为简单时间表达,8篇(19.5%)为复合时间短语,24篇(58.5%)为时间介词或动名词短语;提取到的时间表达式多数(69%)包含时间跨度信息,如“during the last 4 century”等。