随着互联网的快速发展,人们已经离不开从互联网上获取信息。但是这些信息浩如烟海,同事又夹杂着大量的有害信息。搜索引擎技术就是完美利用这些资源的有效手段。搜索引擎可以说是一个网站,这些网站通过网络搜索软件( 也称网络搜索机器人) 或网站登录等方式,将互联网上大量网站收集到本地,经过一定的处理后放入自己的资料库。用户对其进行各种查询,搜索引擎给出响应,提供用户所需的信息。有调查显示,搜索是继电子邮件之后的第二大互联网应用。 因此,建立搜索引擎综合评价体系,完整、客观地对搜索引擎进行综合评价,具有较大的社会意义和研究前景。而针对这个问题目前已经有很多学者做出一些卓有成效的研究,统计了大量数据,运用了大量分析研究方法,信息技术的逐渐发展,客观有效地评价搜索引擎,得出有意义排名,并且设计个性化搜索引擎,对于提高工作效率,实现时间价值最大化,具有重要意义。
为了确定搜索引擎的性能,我们要根据搜索引擎和用户之间的相互关系,以第三方身份确定评价搜索引擎性能优劣的关键因素,通过建立权重子模型,确定每个环节的权重大小。再进一步实际试验,统计数据,采用多目标决策法,统计搜索引擎的最终得分,进行排名。
1 模型假设
1)假设所参与评价的搜索引擎性能稳定,服务器无故障,且短时间内不会升级,状态保持。
2)假设模型衡量的因素就是参与评价的关键因素,其 他变量设为无关变量,它们的变化不影响评价最后评价结果的准确度。
3)假设网络速度的状况的变化与不影响结果。
4)假设参与评价的因素之间相互独立。
2 符号说明
Mij:第i个搜索引擎在第j项的得分;éx ù:大于等于x的最小整数;Mij:第i个搜索引擎在第j项的平均得分;Wj:第j项的权重;
2 模型建立与求解
2.1 对现有的搜索引擎进行分析
在对互联网搜索引擎的优劣进行评价时,所建立的数学模型中涉及许多决策变量。这些变量有繁多、结构复杂、不确定性等特点。为了解决这一问题,我们有必要对描述目标的相对重要度做出正确的估价。而各因素的重要程度是不一样的,为了反映因素的重要程度,需要对各因素相对重要性进行估测(即权数),由各因素权数组成的集合就是权重集。权重是指标本身的物理属性的客观反映,是主客观综合量度的结果。
系统工程理论中的层次分析法(Analytic Hierarchy Process,简称AHP)是一种较好的权重确定方法。它是把复杂问题中的各因素划分成相关联的有序层次,使之条理化的多目标、多准则的决策方法,是一种定量分析与定性分析相结合的有效方法。而本模型将使用层次分析法对问题的决策变量确定其权重。给出问题的层次结构模型:
搜索引擎b;准确性b1、安全性b2、完整性b3;非歧义b11、去重复b12、优先度b13、无毒b21、社会影响b22、内容原创b31、更新频率b32.
下面阐述AHP确定权重的基本过程。
1)分层。首先将搜索引擎的评价方式分层,第一层包括3个因素,即U ={b1,b2,b3};第二层包括7个因素,即b1 = {b11,b12,b13},b2 = {b21,b22},b3 = {b31,b32}.各层因素的实际意义和关系如上述所示。定义第一层次权重集 A =(a1,a2,a3),第二层次权重集A1 =(a11,a12,a13);A2 =(a21,a22);A3 =(a31,a32)
2)确定各层次判断矩阵P.构造第一层次的判断矩阵P,如表1所示。构造第二层次的判断矩阵,如表2、表3、表4所示。(注:表格)
表1:T b1 b2 b3;b1 1 0.5 0.33;b2 2 1 0.5;b3 3 2 1;
5)计算第二层次的权重集。按照上述方法,可以计算出第二层次权重集:
A1 =(0.3255,0.6044,0.0701),A2 =(0.6135,0.3865),A3=(0.7159,0.2841)
6)确定各项权重。由以上数据可得权重分布图:搜索引擎b;准确性(0.1634)、安全性(0.2970)、完整性(0.5396);非歧义(0.0532)、去重复(0.0988)、优先度(0.0115)、无毒(0.1822)、社会影响(0.1148)、内容原创(0.3863)、更新频率(0.1533)。
7)得到各决策变量的权重分布后,建立数学模型来分析一个搜索引擎的优劣。将各个搜索引擎的检验结果进行计分。
由表1得,检测项目有7项,分别对百度、搜狗、谷歌、爱问、雅虎、搜搜等6个搜索引擎进行检测。记Mij表示第i个搜索引擎在第j项的得分。现对分数的得出建模,令每项分数最高分为10分。为非歧义、去重复、优先度、无病毒、社会影响、内容原创、更新频率(记为n1~7)给定得分函数,如表1.
8)从政治、财经、科技、教育、娱乐等5个方面选取50个关键词在6个搜索引擎上进行搜索,统计出50次搜索的平均得分。得出各个搜索引擎的各项平均分Mij(Mij表示第i个搜索引擎在第j项的平均得分),分别乘以权重W(jWj表示第j项的权重),得出最后得分,排序,得出搜索引擎的优劣。这里只给出最终得分。
百度 搜狗 谷歌 爱问 雅虎 搜搜;n1 10/e 10/e 10 10 10/e^310/e;n2 10 10 10 10 8 10;n3 9 10 9 5 3 10;n4 10 10 10 10 1010 ;n5 7 10 8 6 5 10;n6 8 9 7 8 5 9;n7 10/e^3 10/e 10 10/e^2 10/e^5 10/e;总分 47.1767 56.3576 64 50.3534 31.5624 56.3576.
根据以上分数可求出前五名的搜索引擎排序为:谷歌、搜狗、搜搜、爱问、百度。
4 结束语
本文使用层次分析法比较全面的研究了关于搜索引擎的评价问题,利用多目标决策理论建立搜索引擎性能的综合评价数学模型,得出最终评分。但各大搜索引擎都在迅速发展,各自的搜索引擎的性能也在进一步提升,这些都会影响到本文所确定的评价指标的适用性。并且层次分析法存在其天然的缺点,比如其定量数据较少,定性成分多。所以,如何建立一个合理的评价模型仍需进一步研究。
参考文献:
[1] 刘正春。 搜索引擎综合评价模型研究[J]. 数学的实践与认识, 2004,34(9)。
[2] 徐俊, 刘娜。 层次分析法的基本思想与实际应用[J]. 情报探索, 2008(12)。
[3] 郭金玉, 张忠彬, 孙庆云。 层次分析法在安全科学研究中的应用[J]. 中国安全生产科学技术, 2008(2)。
经过3~5年的飞速发展,目前桌面搜索和移动搜索几乎各占半壁江山,移动搜索大有赶超桌面搜索,成为主要搜索途径之势。2013~2014年中国搜索引擎行业竞争持续升级,百度独领风骚的同时,几大追随者毫不懈怠,持续练就内功,同时借助外力,以期对百度构成威胁...
本文从卷烟企业对信息数据检索的需求出发,论述了基于Solr开发出符合自身企业的搜索引擎的可行性,介绍了有关搜索引擎及Solr的相关知识。...
0引言信息检索系统主要为互联网用户提供对资源的检索服务,用户通过输入自己想要寻找的资源信息(诸如资源的部分名称,资源内容中相关关键词等),信息检索系统根据用户提供的检索需求进行资源匹配和资源定位,并按照一定的顺序将匹配的资源反馈给用户。搜...
1引言互联网的深入发展带来了各种类型信息资源数量的快速膨胀。截至2014年6月,我国拥有273万个网站,3.3亿个IPv4地址[1].面对浩瀚巨量的网络资源,用户通过搜索引擎快速获取所需信息尤为重要。目前,我国搜索引擎用户达4.9亿;网民平均使用...
1、引言近年来,随着数字化教育浪潮的不断推进,我国在教育资源建设方面已经取得了巨大的成就,各类教育资源的数量巨大且呈现几何级数增长。随着搜索引擎技术的发展,通用搜索引擎的功能变得日益强大,取得了很大的成功,但其仍有局限性,如搜索的深度不够,...
上世纪中页,传播学家麦克卢汉曾在《理解媒介:论人的延伸》中提出:媒介是人感觉能力的延伸或扩展。这一经典概念的重要意义,在于将人的单一感官和媒体的传播特征进行了对应。例如,从视角延伸到印刷媒介,从听觉延伸到广播以及视、听觉共同延伸到电视。而...
搜索引擎经历近30年的发展,目前在使用的有几种类型,如全文搜索引擎、分类目录搜索引擎、多元搜索引擎、集成搜索引擎等。但这些都是网络上的公用商业搜索引擎,它们往往不能满足企业的需要。...
第4章模型构建及假设提出。本章在前两章文献综述和理论分析的基础上,结合访谈的结果提出了搜索引擎优化方法和效果的维度,并构建了两者的概念模型,提出了各研究变量之间的假设关系。4.1访谈。访谈法是指研究者通过面对面、QQ等访谈方式,与受访者...
在搜索引擎技术的发展之下,智能检索作为一个新型的检索方式已经渗透到了网络数据的设计中,该种检测方式能够帮助人们检测出高质量的信息,是检索方式发展的一种必然需求,将数据挖掘技术应用在网络资源可以实现智能检索的发展,也能够为人们提供出更加具有针对性...
引言随着因特网中搜索引擎的发展和进步,油田数据的资源共享以及信息的集成都较之前更加便捷和有效了。从因特网搜索引擎的思想出发,借助SES系统的数据采集和搜索的机制,并且结合油田的信息和数据的共享的特点,制定了一套从结构体系好以及安全智能为主要...