《表1 标准化语义合集:基于主题提取模型的交通违法行为文本数据的挖掘》
文本预处理是文本挖掘的第一步,也是文本挖掘较为重要且费时的一步。汉语文本的预处理技术主要包括中文分词、特征提取和特征表示。建立一个相对完整的标准化信息描述语义集合是进行文本数据挖掘前的关键[2],本文依据《道路交通事故信息代码》(GA16-2010)[10]标准中提取道路交通事故时间、伤亡人数、事故形态、事故认定原因、交通违法行为等7个属性项目,以验证该语义集合的有效性及可行性,构建了一套综合描述道路交通事故基本信息的标准化语义集合,参见表1。
图表编号 | XD0057386900 严禁用于非法目的 |
---|---|
绘制时间 | 2019.06.06 |
作者 | 曾祥坤、张俊辉、石拓、邵可佳 |
绘制单位 | 北京警察学院、北京交通大学综合交通运输大数据应用技术交通运输行业重点实验室、北京市公安局公安交通管理局、北京警察学院、马上消费金融股份有限公司 |
更多格式 | 高清、无水印(增值服务) |