《表1 依存句法规则下英文长短句变化情况》
应用上述长短句提取规则,作用于本文选用的2个公开实验数据集MSRP和STS,其长短句数量变化情况见表1。由表1可知,MSRP数据集的句长小于12的句子从821条减少到484条,长度超过20的句子减少了2405条。STS数据集的短句子过多而且大多只有5个单词,短句子的语义信息过少不利于提取出句子的特征,通过本文提出的依存句法提取规则,补充短句语义信息使短句减少了151条。2个数据集所减少的长句和短句都分别在句长适中的区间相应的增加了2 742条和2 261条。
图表编号 | XD00149969900 严禁用于非法目的 |
---|---|
绘制时间 | 2020.04.01 |
作者 | 胡雨晴、纪明宇、王晨龙 |
绘制单位 | 东北林业大学信息与计算机工程学院、东北林业大学信息与计算机工程学院、东北林业大学信息与计算机工程学院 |
更多格式 | 高清、无水印(增值服务) |