《表1 3类词位标注集定义》
随着专利申请数量的逐渐增加,专利新生词也会不断出现,相关的领域术语会不断丰富,已有的领域词表很难适应分词词典的需要;并且领域术语中长术语居多,与普通词汇差距大,一般的分词工具很难实现对专业领域语料的准确分词,这些都为术语中的词语正确切分带来了挑战。由于分词的影响,导致某些统计特征的计算也存在误差。鉴于以上原因以及结合领域术语的特点,本文采用基于字级特征的CRFs术语抽取方法,把术语抽取过程看作对每个字的词位标注过程。同时为探讨不同词位标注集对抽取效果的影响,本文分别采用三词位、四词位和六词位标注集对字进行标注,各词位标注集定义见表1。在确定了每个字的词位标注后即可识别得到相应的术语,例如:“一种制备燃料电池催化剂方法”基于六词位可以标注为“一/O种/O制/O备/O燃/B料/S电/T池/I催/I化/I剂/E方/O法/O”,从中可以识别得到的术语为“燃料电池催化剂”。
图表编号 | XD0040525100 严禁用于非法目的 |
---|---|
绘制时间 | 2019.01.16 |
作者 | 王健、殷旭、吕学强、徐丽萍 |
绘制单位 | 北京信息科技大学网络文化与数字传播北京市重点实验室、北京信息科技大学网络文化与数字传播北京市重点实验室、北京信息科技大学网络文化与数字传播北京市重点实验室、北京城市系统工程研究中心 |
更多格式 | 高清、无水印(增值服务) |