《表4 关系抽取模型训练数据集描述》

《表4 关系抽取模型训练数据集描述》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于短语成分表示的中文关系抽取》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文使用的中文关系抽取数据集来自清华大学林衍凯等[13]公开的中英文双语关系抽取数据集,这是目前最大的中文关系抽取数据集。这个数据集中,中文实例是中文百度百科对齐wikidata生成的,英文实例是英文wikipedia对齐wikidata生成的。数据集中wikidata的关系事实分成3部分,分别用来作为训练集、验证集和测试集,包括NA(两个实体之间没有关系)在内,总共有176种关系,100多万条语句。表4是其中中文数据集的统计信息。遵循PCNN_ATT[3]的工作,本文也使用PR曲线作为评估指标。PR曲线就是以查准率Precision和查全率Recall为轴,取不同阈值画的一条曲线。曲线下的面积称为PR?auc,auc越大,或者曲线越接近右上角(查准率和查全率均为1),模型就越好。