《表1 3类词位标注集定义》

《表1 3类词位标注集定义》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于CRFs的专利文献领域术语抽取方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

随着专利申请数量的逐渐增加,专利新生词也会不断出现,相关的领域术语会不断丰富,已有的领域词表很难适应分词词典的需要;并且领域术语中长术语居多,与普通词汇差距大,一般的分词工具很难实现对专业领域语料的准确分词,这些都为术语中的词语正确切分带来了挑战。由于分词的影响,导致某些统计特征的计算也存在误差。鉴于以上原因以及结合领域术语的特点,本文采用基于字级特征的CRFs术语抽取方法,把术语抽取过程看作对每个字的词位标注过程。同时为探讨不同词位标注集对抽取效果的影响,本文分别采用三词位、四词位和六词位标注集对字进行标注,各词位标注集定义见表1。在确定了每个字的词位标注后即可识别得到相应的术语,例如:“一种制备燃料电池催化剂方法”基于六词位可以标注为“一/O种/O制/O备/O燃/B料/S电/T池/I催/I化/I剂/E方/O法/O”,从中可以识别得到的术语为“燃料电池催化剂”。