《表1 语料库规模:基于LSTM循环神经网络的电力故障挖掘研究》

《表1 语料库规模:基于LSTM循环神经网络的电力故障挖掘研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于LSTM循环神经网络的电力故障挖掘研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文使用的95598热线故障记录数据为6.1万条,进行分词和去停用词等预处理操作后,包含字数38.6万,词数1.3万,见表1。经过预处理后的词组数量明显减少,以此为输入来训练词向量得到的效果较差。如图2所示,是使用95598数据训练的3维词向量,可以看到与单词“短路”相近的词组为“老化”“闲丰”“一线”“变夏山”。除“老化”外,其余的词组在语义上与“短路”相差甚远。而与“抢修班”相近的词组为“营业班”“抢修三班”“德军”“鲍天佳”,可以看出后两个词组与“抢修班”在语义上也相差甚远。这说明使用较小电力故障文本语料库训练的词向量表达能力有限。