《表4 Word2Vec和Bert计算语义相似度》
使用谷歌预训练好的Bert中文模型,然后将新能源汽车领域的专利语料加载到模型中,得到Bert模型编码后的词向量。利用编码后的词向量进行余弦相似度计算,两种编码方式得到的结果如表4所示。可以看出,Word2Vec计算的术语语义相似度普遍较低,这是由于Word2Vec依赖于上下文的信息进行词向量编码,而Bert编码是将词拆分为字进行编码,然后拼接后计算相似度,得到的相似度较高。
图表编号 | XD00227031600 严禁用于非法目的 |
---|---|
绘制时间 | 2020.10.25 |
作者 | 李家全、李宝安、游新冬、吕学强 |
绘制单位 | 北京信息科技大学网络文化与数字传播重点实验室、北京信息科技大学计算机学院、北京信息科技大学网络文化与数字传播重点实验室、北京信息科技大学网络文化与数字传播重点实验室 |
更多格式 | 高清、无水印(增值服务) |