《表3 标点符号标注特征模板》

《表3 标点符号标注特征模板》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于线性链条件随机场的用户生成文本标点标注》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文所述的词性对的“前后上下文”可以看作是以当前词性对为基准线,包含着前面和后面若干词性对的“观测序列界面”。但是从理论上说,一方面观测序列界面的宽度n越大,用户生成文本中此时可以被利用的上下文相关特征模板信息越多,但是如果观测序列界面宽度设置得过大,不但会严重降低用户生成文本标点标注效率外,还会出现标点标注地过拟合现象;另一方面,如果观测序列界面宽度被设置地过小,此时就不能够充分利用甚至丢失重要的前后上下文信息。在本文的训练和测试中,为了尽可能充分利用前后上下文的特征模板信息,又不出现过拟合现象,使用当前词性对的前后各二个词性对作为“前后上下文”的范围,这就限定了上下文范围为“5词性对观测序列界面”,本文采用的特征模板如表3所示。