《表1 词语的向量化表示》
为避免传统文本表示的弊端,本文采用word2vec[4]方法将词语表示成具有相同指定维度的向量,如:[0.792,–0.177,–0.107,0.109,–0.542,...]。经此表示后,每个词语即成为空间中的一个点,点间距离亦可作为衡量词语间距离的度量。具体地,以经过预处理后的95598语音转写文本数据为语料库,基于python的gensim包训练得到词语的向量化表示,如表1所示。其中,每一行代表一个词语,每一列代表该词语在此方向上的值。
图表编号 | XD0016525100 严禁用于非法目的 |
---|---|
绘制时间 | 2018.11.01 |
作者 | 朱龙珠、徐宏、刘莉莉 |
绘制单位 | 国家电网公司客户服务中心、国家电网公司客户服务中心、北京数洋智慧科技有限公司 |
更多格式 | 高清、无水印(增值服务) |