当前位置:首页 > 学校网站 > 网站公告 >
【独家】百度朱凯华:智能搜索和对话式OS最新技术全面解读(65PP

【新智元导读】百度度秘事业部首席技术官朱凯华日前在上海计算机学会做了题为《AI赋能的搜索和对话交互》的报告,主要介绍了现在的百度搜索及度秘“DuerOS”系统。由陆奇领衔、百度全新组建的度秘事业部有什么技术干货?本文为你带来最详尽的解读。

【独家】百度朱凯华:智能搜索和对话式OS最新技术全面解读(65PP

很荣幸能够被上海计算机学会邀请来给大家做一个汇报,今天我讲的是AI赋能的搜索和对话交互。

【独家】百度朱凯华:智能搜索和对话式OS最新技术全面解读(65PP

简单介绍一下自己,我之前负责百度的搜索算法,现在技术负责百度的对话式操作系统DuerOS,所以今天分享下在工作过程中遇到的技术挑战,以及学习到的收获。

【独家】百度朱凯华:智能搜索和对话式OS最新技术全面解读(65PP

今天的演讲主要集中在以下两个部分:

AI赋能的现代搜索引擎——现在的百度搜索;

AI赋能的对话式交互计算机——我们现在正在做的DuerOS系统。

现代搜索引擎进展:两大挑战

首先看一下现代搜索引擎遇到的挑战。

【独家】百度朱凯华:智能搜索和对话式OS最新技术全面解读(65PP

现代搜索引擎面临两个重要挑战:1. 更好的建模搜索结果的语义相关性;2. 更直接地给用户答案。

【独家】百度朱凯华:智能搜索和对话式OS最新技术全面解读(65PP

第一部分讨论现代搜索引擎的进展时,我们主要分成:1. 通过语义匹配来提升语义相关性;2. 通过知识的帮助来给用户直接答案。

【独家】百度朱凯华:智能搜索和对话式OS最新技术全面解读(65PP

首先讨论语义匹配的部分。

【独家】百度朱凯华:智能搜索和对话式OS最新技术全面解读(65PP

更好的建模语义表达能力(representation capability)是不断改进语义匹配能力的基础。

【独家】百度朱凯华:智能搜索和对话式OS最新技术全面解读(65PP

我们通过经典的BM25匹配算法(信息检索的一个经典算法)来分析一下语义表达能力的基本组成部分。

关键词命中(Keyword hits):如果Document中的一个词(Term)是Query中有的,那么算法会认为这个Document和Query更相关,BM25匹配的得分更高。可以认为这个命中词对整体语义相关性有正向贡献。

关键词权重(Term weighting):通过TFIDF来决定每个命中词正向贡献的大小。

页面长度归一化(Document length normalization):如果Document的长度越长,这个Document和Query就更不相关(典型例子是:如果这个Document是一个词典,任何一个Query中的词在它中都出现),BM25匹配得分越低。可以认为Document中所有未被Query命中的词都会对整体语义相关性有负向贡献。

上面讨论的命中词对整体语义相关性的正/负向贡献,是语义表达能力的基础。

【独家】百度朱凯华:智能搜索和对话式OS最新技术全面解读(65PP

那么,我们就通过一个running example来讨论一下整个信息检索方向的发展史,它本身就随着语义表达能力的提升而不断前进的。

Running example的设定如下:

Query当中有A B C D E五个Term;

Document当中有X B Y C D' Z七个Term。

我们要计算该Query和Document的相关性。

大家会注意到,Document中B和C都属于精确命中Query的Term,他们的对整体语义相关性的贡献可以认为已经被BM25讨论了,我们就不赘述。但是Document中没有命中Query的Term: X Y D' Z,这些『未命中的词』对整体语义相关性的贡献的建模方式的改进,贯穿了信息检索理论的进化。

所以我们分成以下四个层次来讨论这些『未命中』的词对相关性的建模方式:

归一化命中

同义词命中

建模词与词之间“爱” 的关系

建模短语与词之间的“爱 / 恨”的关系

【独家】百度朱凯华:智能搜索和对话式OS最新技术全面解读(65PP

归一化命中主要表明两个词基本上是完全等价的,我们记作 A和是1.0的关系。像这样基本等价的关系,会有一些词干提取(Stemming),拼写纠错,繁简体转换和数字格式归一化,上面在每种情况给了例子。

【独家】百度朱凯华:智能搜索和对话式OS最新技术全面解读(65PP

从归一化命中向前进一步,我们不要求两个词完全等价,放松要求他们只要有有类似的概念,基本可以互换,这就是同义词(Synonym)命中。在例子中记作 D和D'是0.8的关系(弱一点)。同义词有很多种,上面列举了一些例子。这都是百度系统中实际考虑的一些情况。

【独家】百度朱凯华:智能搜索和对话式OS最新技术全面解读(65PP

从同义词命中再前进一步,我们不要求两个词概念类似,而是有一种弱的『爱』的关系就行了。比如X虽然没有出现在Query中,但是因为Query中出现了E,我们认为两者的相关性有一个小提升(0.2),Y的贡献是0.05,Z的贡献更小是0.03。

【独家】百度朱凯华:智能搜索和对话式OS最新技术全面解读(65PP

建模词与词之间『爱』的关系的一个有价值的工作是Gao Jianfeng在微软做的一个基于统计机器翻译(SMT)的一个模型,它通过SMT来计算词语之间『爱』的关系。

看一下表中的例子:

如果用户Query中有vista,那么如果一个Document中,出现了Windows, download,甚至是free,都会让系统认为这个Document更相关。

如果用户Query中有titanic,那么如果一个Document中,出现了ship, pictures,甚至是rose,都会让系统认为这个Document更相关。

【独家】百度朱凯华:智能搜索和对话式OS最新技术全面解读(65PP

相关文章
推荐资源
热门资源
版权所有©2013-2014大渡口镇中心小学
制作与维护: ddxx E-mail:ddxxhfc@163.com
地址:纳溪区大渡口镇顺江街111号邮编:646329 办公电话:0830-4693204
蜀ICP备11001883号

川公网安备 51050302000023号