《表2 向量化结果:BiLSTM在跨站脚本检测中的应用研究》
(3)向量化:本文根据词频-逆文件频率(term frequency-inverse document frequency,TFIDF)建立一个词汇库,为每个词设置一个数值id,每个词出现频率越高,对XSS的重要性越高,id越小。最后,根据词汇库,将代码转换为数值型数据,再利用深度学习中的word2vec工具将已经完成分词的代码转换为向量,转换结果如表2所示。由于神经网络的输入长度固定,而样本的长度不固定,选择合适的向量维度极其重要。故根据样例长度,将长度超过向量维度的进行截断,长度不足的用-1进行填充,使所有的向量长度一致。
图表编号 | XD00165389100 严禁用于非法目的 |
---|---|
绘制时间 | 2020.08.01 |
作者 | 程琪芩、万良 |
绘制单位 | 贵州大学计算机科学与技术学院、贵州大学计算机软件与理论研究所、贵州大学计算机科学与技术学院、贵州大学计算机软件与理论研究所 |
更多格式 | 高清、无水印(增值服务) |