《表2 模型超参数设置:利用层级交互注意力的文本摘要方法》

《表2 模型超参数设置:利用层级交互注意力的文本摘要方法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《利用层级交互注意力的文本摘要方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文选择Pytorch框架进行开发,在NVIDIA P100上进行训练。编码器和解码器均选择3层的LSTM,其中编码器为双向LSTM,而解码器采用单向LSTM。编码器和解码器的隐状态均设置为512。为了减少模型的参数,设置编码器和解码器共享词嵌入层。词嵌入维度设置为512,本文不使用Word2vec、Glove、Bert等预训练词向量,而是对词嵌入层随机初始化。与Nallapati、Zhou等人不同[2,22],本文设置编解码器的词表的大小为50 000,未登录词使用UNK来替代。为了提高摘要的生成质量,本文在模型推断阶段使用Beam Search策略[35],Beam Size设置为12。其他训练超参数设置如表2所示。