《表2 NER训练样本标注示范》

《表2 NER训练样本标注示范》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于功能分解结构模型的工程知识自动提取与组织方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在文本挖掘领域,以往较为常用的关键信息提取方式是基于高频词或者改进的高频词提取[13,21]。这类方法由于不能区分关键词类型,因而往往适用于仅提取某一类型文本信息的场合,比如产品设计参数的识别。NER技术能够很好地弥补上述不足,其目的是识别出文本中出现的专有名称并进行归类,而针对不同的应用场景采取不同的分类。条件随机场(CRF)是一种比较新的、可以很好地实现NER的计算模型。工业界基于CRF的算法能够针对人名、地名、机构名、日期、时间等实体类型取得了不错的识别效果,这些实体类型构词方式相对较为简单[22],并且上下文中存在明显的语法特征。而在特定的应用领域和语境下,通常需要针对该领域的语料库训练出特定的模型,才能在实际应用中发挥提取效果。例如在工程设计领域,设计者更关心的是文档中出现的与设计相关的关键信息,比如所设计产品的零部件名称及其特征、设计参数以及与其相关的设计知识等。因此,在语料库准备阶段,搜集包括设计手册、设计规范、产品说明等在内的文档,对训练语料中的实体进行标注,并且采用“BME-WO”标签体系,最后利用CRF算法进行命名实体提取。在该标签体系下,使用“B-*”、“M-*”、“E-*”组合(或者“B-*”、“E-*”组合,“*”视实体类型而定)标记实体的首和尾,实体以外的部分则以“O”补齐。考虑到工程领域文本知识形式的多样性,对实体类型进行了如表1所示的划分。其中设计要素是文档中最常见的实体类型,包括了所设计产品的零部件名称、特征或其设计参数,在训练过程中统一标注为“F”。设计要素所在的上下文文本,即描述型文本知识元,可以直接匹配在知识结构中;而以公式、图、表、产品型号形式存在的知识元,分别以“E”、“P”、“T”、“A”标注,则需要通过其上下文的语境进行间接匹配。训练过程中的样本标注示范如表2所示,其中符号“m”、“k”、“x”、“n”、“d”、“p”、“uj”、“v”、“f”、“a”分别表示数词、后接成分、非语素词、名词、副词、介词、助词、动词、方位词、形容词。