《表5 短语相似度聚类核心》
由于文本叙述的相似性,在上述抽取过程中除所需目标内容外还会抽取得到大量无关结果,因此需要进一步筛选将无关结果舍弃,进而得到其中与故障现象及故障原因相关的抽取结果。在短语相似度筛选阶段,基于前述词频统计结果及已建立的词向量化模型,针对配电线路跳闸填报文本中故障现象及故障原因描述特征划定短语相似度筛选的动词/名词筛选核心,通过给定每组筛选核心不同的相似度阈值,使得在阈值范围内核心词汇的相似词汇为故障现象、原因相关内容。表5中给出了故障现象及故障原因的部分聚类核心样本及其相似度阈值。通过结合3.3节中条件1)、2),明确故障现象、故障原因相似度筛选所需的聚类核心词汇及每组核心对应的相似度阈值。
图表编号 | XD00195003500 严禁用于非法目的 |
---|---|
绘制时间 | 2021.02.28 |
作者 | 刘蓓、尚银辉、刘绚、安义 |
绘制单位 | 国网江西省电力有限公司电力科学研究院、国网湖北省电力有限公司鄂州供电公司、湖南大学电气与信息工程学院、国网江西省电力有限公司电力科学研究院 |
更多格式 | 高清、无水印(增值服务) |