《表3 实验环境配置情况:大数据背景下公平竞争审查文本的排查研究》
首先将收集到的所有需要排查的文本数据进行人工标注,将违反了公平竞争标准的文本标注为1,将没有违反公平竞争标准的文本标注为0.之后对数据进行清洗,使用jieba进行中文分词等一系列数据预处理后将数据划分为训练数据集、验证数据集和测试集.在训练数据集上训练模型,在验证数据集上评估模型.在训练数据集上训练好的模型会在验证数据集上评估模型的好坏[14],将模型在验证数据集上所表现出来的性能作为不断调整模型参数的反馈信号从而达到最佳的参数.模型达到最佳的参数后就在测试数据集上进行最后一次测试,来衡量模型的泛化能力是否在其它新的数据集上也有像在验证数据集上这么良好的性能.将输入的经过数据预处理后的文本数据进行one-hot编码后输入到基于python的keras框架搭建好的Text CNN的模型中,最后将训练好的模型对训练数据集进行最后一次的测试并评估模型的性能.
图表编号 | XD00209639000 严禁用于非法目的 |
---|---|
绘制时间 | 2021.02.01 |
作者 | 钟锦鸿、林瑞娜、龙熠燚、孔荫莹 |
绘制单位 | 广东财经大学经济学院、广东财经大学会计学院、广东财经大学信息学院、广东财经大学会计学院 |
更多格式 | 高清、无水印(增值服务) |