《表1 语料库规模:基于LSTM循环神经网络的电力故障挖掘研究》
本文使用的95598热线故障记录数据为6.1万条,进行分词和去停用词等预处理操作后,包含字数38.6万,词数1.3万,见表1。经过预处理后的词组数量明显减少,以此为输入来训练词向量得到的效果较差。如图2所示,是使用95598数据训练的3维词向量,可以看到与单词“短路”相近的词组为“老化”“闲丰”“一线”“变夏山”。除“老化”外,其余的词组在语义上与“短路”相差甚远。而与“抢修班”相近的词组为“营业班”“抢修三班”“德军”“鲍天佳”,可以看出后两个词组与“抢修班”在语义上也相差甚远。这说明使用较小电力故障文本语料库训练的词向量表达能力有限。
图表编号 | XD00192695300 严禁用于非法目的 |
---|---|
绘制时间 | 2021.01.10 |
作者 | 周洋、陈丹升、刘晓枫、汪娟玉 |
绘制单位 | 浙江华云信息科技有限公司 |
更多格式 | 高清、无水印(增值服务) |