《智能搜索引擎关键技术及产业化》

点击下载 ⇩

搜索引擎是获取互联网信息的最重要入口,拥有自主可控的搜索引擎是国家重大战略需求。在智能移动设备迅速普及、人工智能技术快速发展的时代背景下,用户期望以自然语言表达、直接获取正确答案,基于关键词的传统搜索引擎已不能满足便捷、高效、精准地获取信息的需求。面对复杂多样的自然语言查询和浩如烟海的互联网数据,深刻理解需求、精准给出答案成为搜索领域世界公认难题。创新地融合知识图谱及深度学习技术,研发深刻理解意图、精准呈现结果、自然便捷交互的智能搜索引擎,是解决公认难题的必由之路。正是搜索引擎的智能化,造就了百度中文搜索引擎与时俱进,继续成为亿万网民获取信息的最主要入口。

该项目在大规模知识图谱、基于深度语义分析的需求理解、基于深度学习的搜索排序、语音交互等方面取得重大突破,研发了自主可控的智能搜索引擎,占据了该领域的技术制高点。核心创新点如下:

提出了大规模中文知识图谱构建及计算技术。突破了传统知识获取规模小、成本高、效率低的瓶颈。构建了全球最大的中文知识图谱,在知识图谱规模、图谱数据容量及检索性能等指标上达到国际领先水平。

提出了基于知识图谱和深度语义分析的需求理解模型,实现对用户直接意图的精准识别、动态预测以及潜在意图的提前发现和主动推荐。意图识别准确率达95%,动态预测提升搜索效率10倍,并为85%的查询主动推荐相关结果。

提出了基于深度学习的搜索排序算法,结合深度问答技术,突破了语义相关性弱、搜索结果不直观的瓶颈。在国际上首次将深度学习应用于搜索引擎,搜索结果准确率达85%,每日为超过2亿条查询直接提供正确答案。

提出了语音、语言、搜索一体优化的语音搜索技术。解决了口语化查询识别和理解准确率低、自然网页难以直接播报的难题。百度深度学习语音识别入选《麻省理工评论》2016年“十大突破技术”。每天响应超过6亿次语音请求,为用户提供了更为便利的体验,并惠及盲人、老人、儿童等群体。

上述成果申请发明专利401项,已获授权205项,其中国际授权发明专利12项,在ACL、SIGIR、AAAI等领域顶级会议发表论文103篇。成果被院士专家鉴定为在中文搜索领域及知识图谱规模、图谱数据容量及检索性能、中文智能问答覆盖率及准确率等多项指标上“达到国际领先水平”。

百度智能搜索产品,拥有6亿多用户,日均响应搜索约60亿次。多次获得习近平总书记、李克强总理等国家领导人称赞,全国人大常委会原副委员长、中国科学院原院长路甬祥院士在视察智能搜索成果时称赞百度是“新时代的民族英雄”。从2015年1月到2017年6月,取得直接经济效益170.56亿元,通过服务百度集团实现间接经济效益1062.06亿元。项目成果还服务了超过100万家企事业单位,带动相关产业经济效益5.3万亿元。

成果曾分别获2013年和2017年中国电子学会科学技术奖一等奖。

  1. 下载详细PDF版/Doc版

提示:为方便大家复制编辑,博主已将PDF文件制作为Word/Doc格式文件。