近几年来,随着互联网技术的迅猛发展,网络信息也几乎以几何数级的增长速度不断地充斥着网络有限的空间,面对如此浩繁、杂乱无序的信息,如何保障网络用户获取信息的准确性、及时性成为了现在搜索引擎行业需要注意的问题。搜索引擎的灵魂在于它包含各个组件中所运用的算法和模型。好的算法和模型可以直接影响用户使用满意度。
因此,搜索引擎中所运用到的模型、算法成为了与计算机领域相关的行业里研究以及开发的重点。不仅如此,搜索引擎未来的发展都是围绕用户为中心,用户的使用建议是促进搜索引擎改变的最直接原因。本文从理论层面以及应用层面对搜索引擎中涉及的部分算法和模型进行阐述,并且围绕用户满意度为中心研究对搜索引擎具有积极促进作用的应用类因素。
1 三大主流搜索引擎
1.1 Google 搜索引擎
1.1.1 Google 的功能
(1)网页快照。Google 是网页快照功能的先驱者。网页快照的原理是在进行网页遍历的时候,会将遍历到的网页进行搜集并且形成一个索引快照,将这些索引存储在Google服务器中,以防止网页中部分被删除后,用户想访问这些网页却找不到资源,使得用户能够迅速读取历史网页。网页快照和备份的原理相似,不同之处在于网页快照所需要的存储空间更少,在查询的时候读取速度更快。
(2)Google半智能化的翻译功能。Google的网页翻译功能在一定程度上突破了以往纯粹式的机器翻译功能。这种半智能化的翻译功能不仅考虑了翻译模型并且会根据不同的句型采取不同的语言模型。
目前,在学术界比较流行的语言模型是N元语法模型,虽然简单,但这样简单、操作性强的模型,却为搜索引擎的翻译带来了曙光。现在对于语言模型的研究还依然处于初级发展阶段,不过对翻译模型的研究却在如火如荼地进行中。
1.1.2 Google 核心技术
Google之所以成为搜索引擎行业内的领头人物,不仅仅是因为 Google 专注技术的发展,更是因为 Google 注重与时俱进,善于使用差异化来保持自己的行业地位。下面是 Google 采取的两种基本核心技术:
(1)关于 Page Rank 网页排名算法。超链接分析其实是一种引用投票机制,也就是说如果一个网页被另外一个网页链接一次就相当于另一网页对其投了一票,其重要性被肯定了一次。人们在浏览网页的时候,链接提供了强大的导航系统,同时也帮助搜索引擎理解网页之间的关系,这种关系帮助搜索引擎更有效地对网页进行排序。
(2)关于超文本匹配分析技术。Google搜索引擎在计算网页排名的同时,Google运用的技术不是单纯地将网页文本扫描一次,会根据内容重要度对关键词的字体、字号、位置等因素进行考虑。
1.2 百度搜索引擎
1.2.1 百度成功的关键因素
(1)百度在地理位置上具有优势
因为百度在很大程度上符合中国人的搜索习惯以及思维习惯,再加上自己到位的宣传方式,百度从此在中国搜索引擎行业中声名鹊起。
(2)百度关注细节
一是自动纠错:当用户在输入拼音时,百度搜索引擎会将该拼音转换成中文关键词。
二是自动提醒功能:
当百度搜索引擎在一个导航网页中出现,如百度搜索出现在360导航网页,在使用时,搜索框自动显示出当前热点检索话题列表,如图1 所示。
1.2.2 百度现在所面临的挑战
百度文库的出现在一定程度上满足了广大网民的搜索需求,但是在另一方面却引起了一部分文章作者的不满。在 2011年3月15日的时候,韩寒、郭敬明、方舟子等被现在年轻人所熟知的作家联合署名发布了《三一五中国作家讨百度书》,这一创举也成了中国文学界一次维护自身利益的重要行动。
虽然百度在这次事件中受到了很大的负面影响,不过这也给百度一个启示:数字化一定是出版产业今后的总体趋势,但并非所有的出版社转型数字出版都要闯同一条道路,不同的数字出版模式适合于不同的企业背景,出版社进军数字出版,应该根据自己的资源、优势,选择最切合自己实际的模式,这样才可能尽快取得成效。
经过3~5年的飞速发展,目前桌面搜索和移动搜索几乎各占半壁江山,移动搜索大有赶超桌面搜索,成为主要搜索途径之势。2013~2014年中国搜索引擎行业竞争持续升级,百度独领风骚的同时,几大追随者毫不懈怠,持续练就内功,同时借助外力,以期对百度构成威胁...
本文从卷烟企业对信息数据检索的需求出发,论述了基于Solr开发出符合自身企业的搜索引擎的可行性,介绍了有关搜索引擎及Solr的相关知识。...
0引言信息检索系统主要为互联网用户提供对资源的检索服务,用户通过输入自己想要寻找的资源信息(诸如资源的部分名称,资源内容中相关关键词等),信息检索系统根据用户提供的检索需求进行资源匹配和资源定位,并按照一定的顺序将匹配的资源反馈给用户。搜...
1引言互联网的深入发展带来了各种类型信息资源数量的快速膨胀。截至2014年6月,我国拥有273万个网站,3.3亿个IPv4地址[1].面对浩瀚巨量的网络资源,用户通过搜索引擎快速获取所需信息尤为重要。目前,我国搜索引擎用户达4.9亿;网民平均使用...
1、引言近年来,随着数字化教育浪潮的不断推进,我国在教育资源建设方面已经取得了巨大的成就,各类教育资源的数量巨大且呈现几何级数增长。随着搜索引擎技术的发展,通用搜索引擎的功能变得日益强大,取得了很大的成功,但其仍有局限性,如搜索的深度不够,...
上世纪中页,传播学家麦克卢汉曾在《理解媒介:论人的延伸》中提出:媒介是人感觉能力的延伸或扩展。这一经典概念的重要意义,在于将人的单一感官和媒体的传播特征进行了对应。例如,从视角延伸到印刷媒介,从听觉延伸到广播以及视、听觉共同延伸到电视。而...
搜索引擎经历近30年的发展,目前在使用的有几种类型,如全文搜索引擎、分类目录搜索引擎、多元搜索引擎、集成搜索引擎等。但这些都是网络上的公用商业搜索引擎,它们往往不能满足企业的需要。...
第4章模型构建及假设提出。本章在前两章文献综述和理论分析的基础上,结合访谈的结果提出了搜索引擎优化方法和效果的维度,并构建了两者的概念模型,提出了各研究变量之间的假设关系。4.1访谈。访谈法是指研究者通过面对面、QQ等访谈方式,与受访者...
在搜索引擎技术的发展之下,智能检索作为一个新型的检索方式已经渗透到了网络数据的设计中,该种检测方式能够帮助人们检测出高质量的信息,是检索方式发展的一种必然需求,将数据挖掘技术应用在网络资源可以实现智能检索的发展,也能够为人们提供出更加具有针对性...
引言随着因特网中搜索引擎的发展和进步,油田数据的资源共享以及信息的集成都较之前更加便捷和有效了。从因特网搜索引擎的思想出发,借助SES系统的数据采集和搜索的机制,并且结合油田的信息和数据的共享的特点,制定了一套从结构体系好以及安全智能为主要...