《表1 数据特征:基于LSTM网络的盗窃犯罪时间序列预测研究》
时间序列划分数据集需要按照日期进行分割,首先分别对算例1、算例2和算例3的数据进行分割,将2005年1月1日至2006年12月31日、2009年1月1日至2010年12月31日、2005年1月1日至2007年2月9日的数据作为训练集,将2007年1月1日至7日、2011年1月1日至7日、2007年2月10日至24日的每日盗窃犯罪案件数量作为测试集,其中算例3中测试集的每日盗窃犯罪案件的数据波动较大。算例1、算例2的训练集和测试集的比例为712∶7,算例3的训练集和测试集的比例为752∶14。平稳时序数据的统计规律随时间变化较小,通常可用于时序预测,因此,需要首先对训练集进行平稳性检验。通常采用单位根(ADF)检验得到数据平稳性评价结果。ADF统计量的检验值小于1%置信水平下的临界值,即数据显著平稳[16]。若数据不平稳,可使用差分法将时序数据转换为平稳序列。在实际场景中,影响盗窃犯罪案件数量的因素较多,为了提高预测的精度,本文建立了包含多种相关特征的多变量模型。多种相关特征仅包括时间特征和平移特征。时间特征包括当前时刻的月份、是否工作日、是否节假日、每月均值、每工作日均值以及每非工作日均值。平移特征通过盗窃犯罪案件的日次数平移得到。接下来将多变量时间序列转换为监督学习数据集,设置滞后观察数为1,即使用上一时刻的盗窃犯罪案件数量预测当前时刻的盗窃犯罪案件数量。原始数据集数据项包括每日的盗窃犯罪案件数量和对应时间。数据特征的提取方式如表1所示。month为当前时刻所处月份;weekend指当前时刻是否是工作日,工作日记为0,非工作日记为1;holiday指当前时刻是否是节假日,非节假日记为0,节假日记为1;weekday_avg为每工作日均值,weekend_avg为每非工作日均值,month_avg为每月均值,weekday_avg、weekend_avg、month_avg的计算方式是:先计算整个训练集的工作日、非工作日以及每月中盗窃犯罪案件数量的均值,然后将均值按照工作日、非工作日以及月份信息与数据集中当前时刻的工作日、非工作日以及月份信息一一映射得到;count_lag1为上一时刻的盗窃犯罪案件数量。最后对所有的特征进行归一化处理转化为适用于LSTM模型训练的数据集。
图表编号 | XD00198145900 严禁用于非法目的 |
---|---|
绘制时间 | 2020.11.25 |
作者 | 颜靖华、侯苗苗 |
绘制单位 | 中国科学院文献情报中心、中国科学院大学经济与管理学院图书情报与档案管理系、中国人民公安大学信息网络安全学院、中国人民公安大学信息网络安全学院 |
更多格式 | 高清、无水印(增值服务) |