网页搜索中的多样性探索
1. 多样性的概念引入与动机
在信息检索领域,网页搜索的多样性至关重要。我们先来看一个场景,一位用户想获取关于病毒感染症状的信息。如果在图书馆查找,他可以通过分类系统,在健康、科学和医学领域找到相关书籍,避免信息的多样性干扰。但在网页搜索中,当他输入“virus symptoms”时,由于“virus”这个词具有多重含义,如计算机病毒、生物病毒以及一些电影名称等,当前的搜索引擎很难自动解决查询或网页中的歧义问题,搜索结果往往只侧重于对这个模糊术语的单一解释,这就使得那些有其他子主题需求的用户感到不满。
在网页搜索中,查询大致可分为以下三类:
-事务性查询:目标是定位一个网站以获取某种产品,可能需要在该网站上执行一些网络服务,例如购买产品、执行在线应用程序或下载多媒体内容。
-导航性查询:用户心中已经有特定的网站,只是在寻找正确的URL。比如查询“Kansas City Southern railroad”的主页,搜索结果会直接给出该主页的链接。
-信息性查询:目的是识别与特定主题相关的内容,以满足搜索者的信息需求。这类查询的问题在于,正确的目标文档事先并不明确,而且查询可能具有模糊性。例如,用户输入“abortion”,他可能对该主题的法律问题、统计数据或医学方面感兴趣。因此,在多样性分析中,信息性查询需要特别关注,因为它们可能有多种相关结果。
从这个角度来看,多样性可以概括为:多样性是指搜索结果集对查询的多种解释的覆盖程度。也就是说,查询的多个子主题或方面构成了结果集的多样性。解决多样性问题或进行多样