《表2 历史气候变化研究时段信息的三类表述范式及结构》
(1)加粗字体指代“结构主体”(2)正则表达式组块为词性标签与通配符的组合。其中,各词性标签及其意义如下:(时期词前缀)、 (时期词)、 (数词或数词区间)、 (时间单位词)、 (公元纪年标志词)、 (碳14纪年标志词)、 (介词)
(1)研究时段信息挖掘主要采用基于正则表达式的组块化提取技术[76~77]。经过梳理分析有效文献的标题发现,论文标题一般嵌入了准确的研究时段信息,因而这类信息挖掘主要面向文献标题开展。鉴于作者措辞风格不同,本文通过人工判读对部分文献标题中时段表达短语的词汇组合方式进行了分析,归纳提炼出时段信息的三类表述范式,即简单时间表述、复合时间短语、时间介词或动名词短语(表2)。据此设计研究时段挖掘规则,将各表述范式抽象为机器可识读的正则表达式组块;然后利用文本数据挖掘中的句法分析及组块化提取技术,编写提取时间表达式的python程序,包括:先对文本进行统一大小写、时间单位表达及标注词性等预处理,然后进行文本组块化匹配及提取。结果显示:在46篇文献中,有41篇可以提取到明确的研究时段信息(示例见表3),其中9篇(22%)为简单时间表达,8篇(19.5%)为复合时间短语,24篇(58.5%)为时间介词或动名词短语;提取到的时间表达式多数(69%)包含时间跨度信息,如“during the last 4 century”等。
图表编号 | XD00192768400 严禁用于非法目的 |
---|---|
绘制时间 | 2021.03.30 |
作者 | 于听雷、张学珍、郑景云 |
绘制单位 | 中国科学院地理科学与资源研究所中国科学院陆地表层格局与模拟重点实验室、中国科学院大学、中国科学院地理科学与资源研究所中国科学院陆地表层格局与模拟重点实验室、中国科学院大学、中国科学院地理科学与资源研究所中国科学院陆地表层格局与模拟重点实验室、中国科学院大学 |
更多格式 | 高清、无水印(增值服务) |