《表1 实验所用数据集统计表》
对于TA任务来说,我们通过在多个电商和餐厅评论爬取了两个领域数据:计算机产品领域和餐厅评论.通过整合和人工标注,生成了中文计算机产品评论集(CCR)和中文餐厅评论集(CRR).数据集中对评论的各方面的情感进行打分,分为正、负、中3种极性.我们邀请3位专家首先一起对TA任务数据集中每句话的方面进行抽取,比如产品服务、笔记本质量等,然后分别对抽取的方面进行标注,若个别评论方面极性标注不同,我们采用商讨的方式重新决定该方面的情感倾向.训练集大小分别使用将近2500条产品评论和4300余条餐厅评论,并随机将训练集的20%用于开发集,并保留另外80%用于训练.测试集分别使用近900条产品评论和1600余条餐厅评论,具体数据见表1.
图表编号 | XD00199038500 严禁用于非法目的 |
---|---|
绘制时间 | 2020.12.01 |
作者 | 滕磊、严馨、徐广义、周枫、邓忠莹 |
绘制单位 | 昆明理工大学信息工程与自动化学院、昆明理工大学云南省人工智能重点实验室、昆明理工大学信息工程与自动化学院、昆明理工大学云南省人工智能重点实验室、云南南天电子信息产业股份有限公司、昆明理工大学信息工程与自动化学院、昆明理工大学云南省人工智能重点实验室、昆明理工大学信息工程与自动化学院 |
更多格式 | 高清、无水印(增值服务) |