《表2 词的分值区间、频率及准确率的分布》
上述结果验证了注意力分值具有很好的区分度,根据不同注意力分值词的百分比和其对应的准确率,本文将注意力的分值分为高([0.15,1])、中([0.01,0.15))、低([0,0.01))三个区间,不同区间的词频占比及其对应的准确率见表2所示。从表2可以看出,低区分度的词占大多数(约75%)所对应的分类准确率只有47.60%;而取高分值词的4.21%,对应的分类准确率就达到93.31%。这说明在区分不同的语体时,高分值的词更有效。同时也说明了研究语体特征的意义:挖掘更多的具有高注意力分值的特征来提高语体分类准确率,进而实现语体特征的降维。
图表编号 | XD00197681100 严禁用于非法目的 |
---|---|
绘制时间 | 2020.08.10 |
作者 | 吴海燕、刘颖 |
绘制单位 | 清华大学人文学院、清华大学人文学院 |
更多格式 | 高清、无水印(增值服务) |