《表1 数据集的分布:基于词语语义差异性的多标签罪名预测》

《表1 数据集的分布:基于词语语义差异性的多标签罪名预测》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于词语语义差异性的多标签罪名预测》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

实验数据来源于2018“中国法研杯”司法人工智能挑战赛,该数据集基于中国裁判文书网上的公开文书构建,本文依据规模将其划分为Charge-S和Charge-L,表1给出两个数据集的分布情况。对全体数据统计分析得出:单标签罪名约占90%,多标签罪名约占10%。预处理过程中将出现次数小于80的罪名删除,原因是其对应样本较少,难以支撑深度学习模型训练。此外,由于原始数据集中金钱、年龄、重量等为离散数字表示。如盗窃金额1 000元和10 000元、年龄16岁和30岁等。为提升整体语义表示准确性,减少该类特征的多元化离散分布对判罚的影响,本文依据刑法法条和司法解释对其进行规范化处理,将金额划分为一级金额、二级金额等十个级别;并按是否成年将年龄分为成年和未成年两个级别等。