《表2 word2vec工具参数设置》
对于字级别的词向量训练是以字作为句子的基本单位,为每个字训练一个词向量。对于词级别的词向量训练时,相对于英文数据来说,需要先利用Jieba、hanlp等分词工具对中文数据集进行分词处理。把分词操作后的单个词语看作自然语言问句的基本构成单元,为每个词语训练相应的词向量。使用word2vec工具对自然语言问句训练词向量时参数设置如表2所示。
图表编号 | XD0054910700 严禁用于非法目的 |
---|---|
绘制时间 | 2019.05.01 |
作者 | 杨志明、王来奇、王泳 |
绘制单位 | 中国科学院软件研究所、中国科学院大学、深思考人工智能机器人科技(北京)有限公司、深思考人工智能机器人科技(北京)有限公司、中国科学院大学 |
更多格式 | 高清、无水印(增值服务) |