《表1 豆瓣对话语料的统计数据[4]》
21世纪是数据爆炸增长的时代,Nature和Science分别于2008年、2011年出版了《Big Data》《Dealing with Data》专辑,指出大数据时代已经到来[3]。文本数据是大数据时代人们普遍使用的数据形式。人类对话数据是文本数据的主要组成部分,互联网每天都产生大量的人类对话数据,这些对话数据为研究聊天机器人奠定了基础。例如,豆瓣对话语料(表1)收集于中国著名的社交网络豆瓣社区,是真实用户的对话文本数据,其训练集包含了对各种对话主题的问答数据,数量多达100万。在人工标注之后,该语料被聊天机器人研究社区广泛使用。因此,大数据促成了聊天机器人研究的兴起。
图表编号 | XD00210090200 严禁用于非法目的 |
---|---|
绘制时间 | 2021.02.05 |
作者 | 王树良、李大鹏、赵柏翔、耿晶、张伟、王海雷 |
绘制单位 | 北京理工大学计算机学院、北京理工大学电子政务研究院、北京理工大学计算机学院、北京理工大学计算机学院、北京理工大学计算机学院、北京理工大学电子政务研究院、北京百度网讯科技有限公司、中科院合肥技术创新工程院 |
更多格式 | 高清、无水印(增值服务) |