《表1 数据集的分布：基于词语语义差异性的多标签罪名预测》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于词语语义差异性的多标签罪名预测》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

实验数据来源于2018“中国法研杯”司法人工智能挑战赛，该数据集基于中国裁判文书网上的公开文书构建，本文依据规模将其划分为Charge-S和Charge-L，表1给出两个数据集的分布情况。对全体数据统计分析得出:单标签罪名约占90%，多标签罪名约占10%。预处理过程中将出现次数小于80的罪名删除，原因是其对应样本较少，难以支撑深度学习模型训练。此外，由于原始数据集中金钱、年龄、重量等为离散数字表示。如盗窃金额1 000元和10 000元、年龄16岁和30岁等。为提升整体语义表示准确性，减少该类特征的多元化离散分布对判罚的影响，本文依据刑法法条和司法解释对其进行规范化处理，将金额划分为一级金额、二级金额等十个级别；并按是否成年将年龄分为成年和未成年两个级别等。

图表编号	XD0091828900 严禁用于非法目的
绘制时间	2019.10.01
作者	王加伟、张虎、谭红叶、王元龙、赵红燕、李茹
绘制单位	山西大学计算机与信息技术学院、山西大学计算机与信息技术学院、山西大学计算机与信息技术学院、山西大学计算机与信息技术学院、山西大学计算机与信息技术学院、太原科技大学计算机科学与技术学院、山西大学计算机与信息技术学院、山西大学计算智能与中文信息处理教育部重点实验室
更多格式	高清、无水印（增值服务）