搜索引擎论文

您当前的位置:学术堂 > 图书档案学论文 > 搜索引擎论文 >

Google搜索引擎的蜂鸟算法

来源:学术堂 作者:王老师
发布于:2014-06-14 共1915字
        论文摘要

  什么是搜索引擎?就是那个在搜索框里输入几个文字,然后就会返回一堆链接的家伙吗?实际上,搜索引擎本身也在不断进化,从最早的文本内容,到现在图片、视频无所不包,貌似比上帝知道得还多。虽然当它出现在我们面前的时候,仍然是初出道时的白底蓝链接的清纯模样,但是其实它内部的运作算法,早已经历了无数次变化,并且随着社交网络和大数据的兴起,搜索引擎也有了新的野望。
  
  Google:精准和快速的蜂鸟算法。
  
  对于常规查询,就算没有数百万,也有数千个包含相关实用信息的网页。算法是一种接受用户问题并返回相应答案的计算过程。一般而言,Google 的算法会根据 200 多种独特信号或“线索”进行计算,从而推测出用户真正的搜索意图。这些信号包括网站上的字词、内容的新鲜程度、用户所在的地区以及网页的 PageRank。
  
  从 2011 年起,Google 的算法经历了“熊猫”、“企鹅”等阶段,从 2013 年下半年开始,代表着精准和快速的“蜂鸟”应运而生。“蜂鸟”是截至目前 Google 最大的一次算法更新,之前 Google的搜索结果排名关注索引和抓取,而“蜂鸟”更注重相关性。
  
  “对话式搜索”是其中最重要的一个改变。比如用户输入“What’s the closestplace to buy theiPhone 5s to my home?”,传统搜索引擎对这一句子的分析,可能会集中在“buy”和“iphone 5s”关键字,然后给你找寻最吻合这些关键字的网页。而蜂鸟却能更好地集中理解各关键字的意思。
  
  例如它会了解你家的位置,明白“place”可能是指商店的意思,而“iphone5s”可能是指你需要知道售卖电子产品的商店。当明白这些意思后才会给你找寻最吻合的网页。
  
  促成蜂鸟这一改变的重要一个推力,来自于人们搜索习惯的变化。越来越多的人在手机上使用语音方式搜寻,因此 Google 面对的不再是键盘输入的不具语意的关键字,而是更复杂、真实的人类语言。在 2013 年 5 月的 Google I/O 大会上,Google 的阿米特·辛格尔提出了未来搜索引擎的设想:搜索引擎的三个主要功能将需要改进,搜索将需要:1.答案,2.对话,3.预测。
  
  微软必应:“实体引擎”要变开放平台在搜索引擎领域,微软 Bing 一直苦苦追赶 Google。微软在 2009 年就开始开发名为 Satori 的知识分类数据库,并在 2013 年做了重大升级,用来对抗 Google 知识图谱。从整体思路上来看,Bing 与 Google 在技术上的趋同性远远大于两家公司之间的“仇恨”。比如,用谷歌和 Bing 搜索阿尔伯特·爱因斯坦,搜索页面右侧边栏都会向你提供有关爱因斯坦的大量信息。很明显,两家公司都试图在一个页面内,就解决用户的搜索问题。
  
  在 Satori 的基础之上,微软将新的搜索技术称为“实体搜索”(Entityengine),微软必应副总裁德里克·康奈尔这样看待“实体搜索”:“实体搜索”就是让用户做的更多。刚开始的时候,搜索只是帮助用户搜索更多的东西,现在搜索正在由“搜索信息”向“理解搜索”转变,除了能提供一个答案外,搜索也需要能够去“执行”结果。
  
  因此 Bing 的大计划向第三方开放,就是增加更多的“结果”。就在最近,Bing 又新增了 1.5亿笔搜索资料,新增的信息包括房地产物件列表,及律师、医生、牙医等专业人士的资料。这些资料来自商务交友 LindeIn、医疗资料服务 Vitals、美国房地产资料服务 Zillow 等网站。当用户搜索某个人名时,Bing 会在搜寻结果页右方以卡片显示包含学经历、专长领域、地址,及电话及相关信息等。
  
  不过,假如同时出现两家相互竞争的餐厅网站,Bing 应该突出显示那一家呢?这是个有意思的话题,也考验 Bing 的公正性。
  
  面对 Google 和 Bing 的改变,百度不禁微微一笑:你们现在做的,不正是 Robin 前年提的“框计算”吗?,百度在今年就已经陆续推出搜索页右侧知识库应用、极速搜索、时间图谱等新的搜索产品,并且申请了专利。应该说,百度在搜索技术上,与 Google 等巨头并没有明显的落后。
  
  甚至不久前的愚人节,百度推出的“筷搜”,不但成功地卖了萌,也体现出百度技术上的自信。
  
  大数据技术,当很多公司还停留在概念阶段的时候,百度却已经基于大数据开发出不少产品。
  
  比如在刚过去不久的清明节假期中,百度预测准确地预测了全国各地景区舒适度的情况;今年315,百度又发布了“网络消费安全图谱”,这份图谱挖掘了近 400TB 的网络搜索数据,,以可视化大数据的形式直观展现网络消费十大陷阱行业。
  
  百度基于框计算研发的新一代搜索引擎,已先后在超大规模数据存储、新一代搜索引擎富媒体数据处理、语音识别、面向新一代搜索的用户建模和意图识别、跨语言信息处理与搜索等多项核心技术领域取得不少突破,百度正沿着“即搜即得”的思路,走出了自己的特色之路。
  
  从一开始,传统搜索中单调的 10 个蓝色链接(关键词搜索)就统治着在线搜索。其实人们不光希望寻找更多的东西,也希望能够进一步去挖掘信息背后的信息。关键词搜索还将存在,但是随着时间的推移,搜索领域将会出现新的体验,它们将颠覆现有的产品。
相关内容推荐
相关标签:
返回:搜索引擎论文