《表1 违反公平竞争标准文本标题的关键词》
需要排查的法律及政策的文本数据来源主要由广东省市场监督管理局官方提供和基于python的Selenium库和Requests库编写的爬虫程序从广东省的各级政府爬取的地方性法规、政策、通告等文本数据,两者相加共2 808份文本数据.将数据收集起来后,通过人工筛选先将数据分为违反了公平竞争标准和没有违反公平竞争标准的两类文本数据,然后分别从两类文本数据的标题中筛选出各自的关键词组成关键词词库,如表1和表2所示列出了关键词词库的关键词,表1是通过人工筛选从违反了公平竞争审查标准的文本的标题中筛选出来的关键词,而表2是通过人工筛选从没有违反公平竞争审查标准的文本的标题中筛选出来的关键词.将关键词词库和需要筛选的数据导入到My SQL数据库中,最后使用数据库My SQL编写的SQL程序对导入的数据进行筛选,筛选出两类文本数据.
图表编号 | XD00209639600 严禁用于非法目的 |
---|---|
绘制时间 | 2021.02.01 |
作者 | 钟锦鸿、林瑞娜、龙熠燚、孔荫莹 |
绘制单位 | 广东财经大学经济学院、广东财经大学会计学院、广东财经大学信息学院、广东财经大学会计学院 |
更多格式 | 高清、无水印(增值服务) |