《表1 数据集的分布:基于词语语义差异性的多标签罪名预测》
实验数据来源于2018“中国法研杯”司法人工智能挑战赛,该数据集基于中国裁判文书网上的公开文书构建,本文依据规模将其划分为Charge-S和Charge-L,表1给出两个数据集的分布情况。对全体数据统计分析得出:单标签罪名约占90%,多标签罪名约占10%。预处理过程中将出现次数小于80的罪名删除,原因是其对应样本较少,难以支撑深度学习模型训练。此外,由于原始数据集中金钱、年龄、重量等为离散数字表示。如盗窃金额1 000元和10 000元、年龄16岁和30岁等。为提升整体语义表示准确性,减少该类特征的多元化离散分布对判罚的影响,本文依据刑法法条和司法解释对其进行规范化处理,将金额划分为一级金额、二级金额等十个级别;并按是否成年将年龄分为成年和未成年两个级别等。
图表编号 | XD0091828900 严禁用于非法目的 |
---|---|
绘制时间 | 2019.10.01 |
作者 | 王加伟、张虎、谭红叶、王元龙、赵红燕、李茹 |
绘制单位 | 山西大学计算机与信息技术学院、山西大学计算机与信息技术学院、山西大学计算机与信息技术学院、山西大学计算机与信息技术学院、山西大学计算机与信息技术学院、太原科技大学计算机科学与技术学院、山西大学计算机与信息技术学院、山西大学计算智能与中文信息处理教育部重点实验室 |
更多格式 | 高清、无水印(增值服务) |