《表3 标点符号标注特征模板》
本文所述的词性对的“前后上下文”可以看作是以当前词性对为基准线,包含着前面和后面若干词性对的“观测序列界面”。但是从理论上说,一方面观测序列界面的宽度n越大,用户生成文本中此时可以被利用的上下文相关特征模板信息越多,但是如果观测序列界面宽度设置得过大,不但会严重降低用户生成文本标点标注效率外,还会出现标点标注地过拟合现象;另一方面,如果观测序列界面宽度被设置地过小,此时就不能够充分利用甚至丢失重要的前后上下文信息。在本文的训练和测试中,为了尽可能充分利用前后上下文的特征模板信息,又不出现过拟合现象,使用当前词性对的前后各二个词性对作为“前后上下文”的范围,这就限定了上下文范围为“5词性对观测序列界面”,本文采用的特征模板如表3所示。
图表编号 | XD0056221300 严禁用于非法目的 |
---|---|
绘制时间 | 2019.04.01 |
作者 | 苏晓宝、刘臣、唐莉 |
绘制单位 | 上海理工大学管理学院、上海理工大学管理学院、上海理工大学管理学院 |
更多格式 | 高清、无水印(增值服务) |