《表2 标签:基于字序列的非结构化简历信息解析方法》
文中采用的数据集是从多家上市公司的招股书中获取的非结构化的10 000份董监高简介信息,共979 180个字符,这些数据包含董监高人物信息(姓名,性别,国籍,出生日期等)以及相关的经历(曾任公司,曾任职位,现任公司,现任职位,毕业院校等)。其中将获得的数据进行人工标注,即为所需关注的信息元制定相应的标签,其中人工制定规范化的标签类型分为14类。即“pers.name”、“org.company”等相应的标签类型对应相应的13类信息元实体和“O”代表的不需要关注的信息实体,标签见表2。
图表编号 | XD0074396800 严禁用于非法目的 |
---|---|
绘制时间 | 2019.06.16 |
作者 | 陈毅、符磊、张剑、黄石磊 |
绘制单位 | 重庆邮电大学光通信与网络重点实验室、北京大学深圳研究院、深港产学研基地深圳市智能媒体和语音重点实验室、安徽大学计算智能与信号处理教育部重点实验室、北京大学深圳研究院、深港产学研基地深圳市智能媒体和语音重点实验室、北京大学深圳研究院、深港产学研基地产业发展中心、深港产学研基地深圳市智能媒体和语音重点实验室、深港产学研基地产业发展中心 |
更多格式 | 高清、无水印(增值服务) |