《表1 豆瓣对话语料的统计数据[4]》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《聊天机器人技术浅析》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

21世纪是数据爆炸增长的时代，Nature和Science分别于2008年、2011年出版了《Big Data》《Dealing with Data》专辑，指出大数据时代已经到来[3]。文本数据是大数据时代人们普遍使用的数据形式。人类对话数据是文本数据的主要组成部分，互联网每天都产生大量的人类对话数据，这些对话数据为研究聊天机器人奠定了基础。例如，豆瓣对话语料（表1）收集于中国著名的社交网络豆瓣社区，是真实用户的对话文本数据，其训练集包含了对各种对话主题的问答数据，数量多达100万。在人工标注之后，该语料被聊天机器人研究社区广泛使用。因此，大数据促成了聊天机器人研究的兴起。

图表编号	XD00210090200 严禁用于非法目的
绘制时间	2021.02.05
作者	王树良、李大鹏、赵柏翔、耿晶、张伟、王海雷
绘制单位	北京理工大学计算机学院、北京理工大学电子政务研究院、北京理工大学计算机学院、北京理工大学计算机学院、北京理工大学计算机学院、北京理工大学电子政务研究院、北京百度网讯科技有限公司、中科院合肥技术创新工程院
更多格式	高清、无水印（增值服务）