搜索引擎论文

您当前的位置:学术堂 > 图书档案学论文 > 搜索引擎论文 >

垂直搜索选择方法及其评价方法

来源:学术堂 作者:周老师
发布于:2014-05-22 共3549字
论文摘要

  近几年,随着网上信息容量的增加和类型的多样化,作为网上信息检索系统的通用搜索引擎,已不能满足特殊领域、特殊人群的精准化信息需求服务,加之市场需求多元化也决定了搜索引擎的服务模式必将出现细分,出现针对不同行业提供更加精确的垂直搜索服务。然而,据统计,利用垂直搜索次数只是利用 Web 搜索次数的1.56%。面对这种状况,各搜索引擎公司为了满足用户的需求,开展了同时对多个信息源进行垂直搜索,并把从各信息源搜集到的搜索结果进行聚合,再利用 Web 提供给用户的聚合搜索服务。
  最早开展聚合搜索业务的是韩国的 Naver,2000 年,Naver 开始了聚合搜索的商业化服务,到 2011 年 6 月,已占韩国国内搜索市场77%的份额,是韩国利用率最高的搜索引擎。目前,Google、Yahoo!、Bing、Baidu 等世界知名的搜索引擎公司也都开展了聚合搜索业务。
  但是,这些公司的 Web 搜索引擎公司不是经常性地开展聚合搜索业务。是否实施聚合搜索,除了依据用户的问题需求外,还要根据最新的新闻报道、博客报道的动向来判断。Naver 的特点是不仅提供 Web 上的信息,还提供来自各垂直搜索的相关信息,对各垂直搜索问题分开显示。如当输入“大学”进行搜索时,在页面上分别显示来自词典、知识 iN、知识百科、图像等垂直搜索引擎有关“大学”的结果。与 Naver 不同,Google、Yahoo!、Bing、Baidu 等是把 Web 搜索的结果和垂直搜索的结果混合显示。Google、Yahoo、Bing 等的聚合搜索,是在 Web 搜索结果前 10 位以追加形式插入垂直搜索结果。
  从上述可见,聚合搜索结果的显示方法有两种:一个是各垂直搜索分开显示的方法;另一个是与 Web 搜索结果混合显示的方法。
  有报告称这两种搜索结果显示方法对用户的点击次数没有太大的影响。但是以混合形式显示时,不管哪种垂直搜索,排在搜索结果上位的更容易被点击,所以把垂直搜索的结果插入哪个位置很重要。
  也就是说,以混合形式显示 Web 搜索结果和垂直搜索结果时,最好把认为重要的垂直搜索结果排在前面。

  一“、聚合搜索”的技术

  为了实现聚合搜索,重要的是对输入到 Web 搜索引擎的问题混入了哪种垂直搜索的搜索结果,因此,下面重点介绍垂直搜索选择方法及其评价方法。

  1.垂直搜索的选择方法。垂直搜索的选择判断使用三个要素,即问题、垂直搜索文集、问题日志。聚合搜索时,或用其中的一个要素选择垂直搜索,或用逻辑回归法组合几个要素选择垂直搜索。
  (1)问题。使用问题选择垂直搜索的方法,是把问题中是否包含特定的关键词作为判断材料。具体说,在 Ad Hoc 网指定垂直搜索名和相关的“picture”“、movie”“、product”“、shopping”等单词,以及地名、观光地名等,以关键词作为选择垂直搜索的使用。例如,搜索“digital camera shopping”这一问题时,就以“购物”为关键词把购物垂直搜索作为选择对象,搜索“Dayan Pagoda”问题时,就以“塔”为关键词把图像垂直搜索作为选择对象。
  (2)垂直搜索的文集。使用垂直搜索的文集选择垂直搜索的方法,是把输入 Web 搜索的问题同时输入垂直搜索,选择更多与问题相符的检索结果的垂直搜索。由于本方式是把输入 Web 搜索的问题全都送入垂直搜索,所以计算成本较大。因此进行垂直搜索时,不使用含各类垂直搜索的完整索引,而是使用每种垂直搜索独设的简化索引,简化索引是从完整索引节选而成的。
  (3)问题日志。使用问题日志选择垂直搜索的方法,是通过问题与垂直搜索的相关度选择垂直搜索。通过直接输入垂直搜索的问题,能反映出用户对该垂直搜索感兴趣的主题,以及每类垂直搜索的问题的倾向性。例如,在垂直搜索 A 中问题 X 的频度高时,判断问题 X 与垂直搜索 A 的关联度高,给问题 X 混入垂直搜索 A 的搜索结果。因为一个问题一般是由几个单词组成,所以把问题分割成若干单词,找出被分割的单词与垂直搜索之间的关联度。另外,被分割的单词,不仅在一个垂直搜索,有时也在多个垂直搜索中频繁出现,此时,为了查全可以选择多个垂直搜索进行查找。

  2.聚合搜索的评价。在聚合搜索中为了实现更好的信息聚合,需要熟悉聚合搜索的评价方法。
  (1)评价对象和评价条件。聚合搜索的评价,分为由评价者的评价和依据有无点击的评价。由评价者的评价又分为评价对象的不同和有无问题意图两种。①评价对象的不同。这种评价是评价者以何为依据判断适合、不适合的问题。即,对给出的问题,有不看搜索结果,判断问题与垂直搜索的关联度;或是看了来自各垂直搜索的结果,判断问题与垂直搜索的关联度两种。前者的方法是由评价者给出的评价,只是以问题为对象得出的评价;而后一种方法,是以各垂直搜索的搜索结果为对象得出的评价。②问题意图的有无。此评价观点有两个,一是有意图,即事先把问题背后的意图告知评价者让其评价;二是无意图,即不告知评价者问题背后的意图,让评价者自己思考问题背后的意图再行评价。前一个评价方法是被信息检索领域竞赛式会议 TREC 和 NTCIR 上采用的,目前,在信息检索评估中被普遍使用。但是在聚合搜索评价方面至今尚无统一的评价方法。
  (2)评价方法的不同对评价的影响。图卢兹大学的 Kopliku 等人对评价方法不同对评价的影响进行调查,本调查以视频、图像、新闻、地图、Wiki、商品、A&Q、字典等八个垂直搜索为对象,利用 2007年 TREC 会议上使用的 300 个问题,由 33 个评价者参与评价。
  从调查结果看,评价者用实际看到的搜索结果,得出的判断更确切、全面。以视频类垂直搜索为例,只从问题判断,所有问题中有12%适合视频垂直搜索。但在看完检索结果后再判断,所有问题中有 24%适合视频垂直搜索。其次是把问题背后的意图告知评价者的评价和不告知评价者的评价,表示出告知问题背后意图时的评价较局限,不灵活。例如,当问题为“海南岛”时,告知检索意图是想知道海南岛的地理位置,给出正确解释的垂直搜索是地图、Wiki。但是不告知搜索意图时,也可从图像垂直搜索和动画垂直搜索获得正确解释,由此可见,不告知搜索意图时,评价者的视野更宽泛,使用正确解释的垂直搜索的种类也增多。
  (3)搜索结果的多样性。图卢兹大学的 Kopliku 等人还对聚合搜索结果的多样性进行调查。调查显示:只适合 Web 搜索的问题占19%,只适合垂直搜索的问题占 16%,超过 80%的问题适合垂直搜索,而且 65%的问题适合多个垂直搜索。进一步,对于适合多个垂直搜索的问题最适合的垂直搜索进行调查,依次是 50%问题适合Web 搜索、23%问题适合 Wiki、10%问题适合 Q&A、6%问题适合动画。结论是:进行一个垂直搜索,不能有多样性的搜索结果;若进行聚合搜索能够实现一个垂直搜索不能实现的多样性。

  二、聚合搜索的课题与未来

  关于聚合搜索的研究,近年来比较盛行,涉及的课题也是多方面的,其中作为新的方向性的研究,有新闻搜索的选择方法,以及用户属性推断的应用。
  1.新闻搜索的选择方法。为了把随时变化的信息源混入聚合搜索中,利用者必须知道“现在正在查找什么?”Yahoo!的 Diaz 提出有效聚合新闻搜索结果的方法。例如,输入“Yahoo!”这一问题,以关于Yahoo!的事件为起点,不是搜索导航性的问题,而是搜索新闻事件方面的问题,在这种情况下不能用 2.1 讲述的方法选择新闻搜索。
  Diaz 提出了把“问题是否突然发生的?“”用该问题进行新闻搜索,排在顶端的新闻报道是数分钟之前登录的新的报道吗?”作为判断基准。进一步,从被聚合的新闻搜索结果的点击率,对是否继续聚合做动态性补充。与 Diaz 方法相同,微软也提出了针对最新新闻报道选择新闻搜索的方法。这个方法是利用在最近 7 日内的新闻报道和博客报道中出现的关键词选择新闻搜索。
  Yahoo!的 Diaz 们进一步提出,不是把新闻报道和博客报道,而是把 Twitter 的微博报道作为选择的方法。假定记述微博的 URL 是最近关注的新闻和 Web 页面,把 URL 上的报道内容排在上位以表示其重要性。具体说,以 Twitter 为对象进行试验,把 URL 上报道发送者的 Tweet 数、Retweet 数、Follow 数等各类信息输入学习器,抽出有用的 URL。以上这些可以作为选择新闻搜索的指标使用。
  2.用户属性推断的应用。如果能够推断 Web 搜索用户的专业性,即可实现包括垂直搜索的各种应用。根据微软的 White 等人的调查,提出从输入 Web 搜索的问题中,可以判断出用户是计算机专家、金融专家、医学专家、法律专家的方法。具体说,就是用输入 Web搜索的问题长度、问题中专业术语的含有度、一次搜索提出的问题数、访问 Web 页面数、对话时间等进行等级分类。有实验报告称对计算机专家的判断,再现率 50%时能达到 80%的精准度。而其余三类专家再现率 50%时精准度为 60%以下。如果判断专家的精准度提高,可以作为选择垂直搜索的一个要素使用。

  参考文献
  [1]Liu,N.;Yan,J.;ChenZ.Aprobabilistic model based approach for blendedsearch,Proceedings of 18th International World Wide Web Conference.2009.
  [2]Murdok,V.;Lalmas,M.Workshop on Aggregated search ACM SIGIRForum.2008,42(2).
相关内容推荐
相关标签:
返回:搜索引擎论文