搜索引擎按功能分目录式搜索和全文检索,按检索范围分综合性搜索和专业性搜索(也可以叫垂直搜索),按组合方式可以分成独立搜索引擎和元搜索引擎[1].目前摆在搜索引擎面前的两大问题是机器人信息收集的全面性和关键词查询返回信息的准确度,近些年个性化搜索研究成为热门发展方向,它正是为了解决针对不同用户群体返回更精确的相关结果。本篇文章主要研究内容是如何合理利用搜索引擎在返回结果前,通过附加上个性化因素的算术因子从而改变文档结果得分,让搜索引擎排序更加符合个体化的搜索需求。
1个性化搜索问题现状
目前个性化搜索都离不开用户的兴趣库,而兴趣库的建立需要搜索引擎针对用户经过一段时间的跟踪学习和数据采集。对于用户的兴趣提取技术主要可以通过服务器端挖掘用户搜索记录;用户主动提供相关信息,比如问卷调查,用户注册信息等;用户针对搜索结果进行评价打分来反馈用户信息[2].而在用户兴趣库模型的具体设计上大致都是通过兴趣向量和特征值来表示和构建,计算过程中根据用户的偏好设置不同的权重[3].但是就算个体用户兴趣库搭建的足够完善,用户并不是每次的搜索都是根据兴趣来的。特别是是学习型的用户,经常搜索未知的内容,甚至某些时候搜索时需要的结果完全背离兴趣的。事物总是在不断的变化发展,兴趣也是,太依赖历史信息来构建兴趣库,可能无法反映用户兴趣的变化。在这些情况下,兴趣库的价值便不能很好体现,这里并不是排斥兴趣库,而是讨论如何更好的利用兴趣库。
根据权威统计显示,对于搜索引擎的返回结果,用户一般最多只会查看2~3页内容,如图"14000000"条结果,每页显示20条记录,将有700000页的内容,根据"二八法则"80%的搜索工作只有20%的才是用户真正需求的,而这个结果与二八法则更是相去甚远,这不得引起思考,搜索引擎是否作了太多的无用功。
最后,现代化搜索引擎的智能化水平偏低,特别是中文搜索,除了在中文分词上精确的问题,也有近义词上的处理,还有同词不同义的词在中文中也很常见,这些都加大了搜索引擎智能化的难度。搜索引擎需要更加智能化,必须花费更多的时间和资源去分析和计算,这就影响搜索响应延长等待结果时间,从而留下不好的用户体验。
2个性化排序因子分析
2.1搜索引擎技术架构
搜索引擎在技术架构上大致由三部分组成如图2所示,主要包括信息获取模块,索引建立模块和检索模块,各自有各自的功能,组成一个完善的整体架构[4].
搜索引擎的信息来自互联网,这需要网络爬虫根据不同的爬行策略尽可能全面的获取互联网上的文档信息。然而互联网发展到现在,诸多的垃圾信息,无效信息和重复页面充斥,这就需要在文档建立索引前做进一步的处理,例如网页去重,反作弊等。
在建立索引前还需要对页面进行解析,抽取网页主体内容以及包含的指向其他页面的信息。抽取页面主体是为了更好的建立"倒排索引",倒排索引是一种高效的查询数据结构,以便更快的对用户查询内容做出回应。页面的链接指向关系主要用于"链接分析",用来计算网页的重要性,链接分析技术只根据页面间的指向关系计算其重要性,通过计算的权重值来影响返回结果页面的排序。该技术并没有把用户的输入内容考虑在内,而是让互联网上的页面有信用额一样,只有权重值高的网页才有机会在结果中排的更靠前,该技术最早的应用是Google的PageRank技术。
最后在用户输入关键词后,搜索引擎对查询内容进行解析分词,然后先到缓存中查找是否有相关历史搜索记录,如果有直接返回排序结果,如果没有,搜索引擎就会到倒排索引找查找,然后根据关键词内容相似性和链接分析对结果页面进行排序,并返回给用户。
从查询模块来看,不同的用户在输入相同的关键词后,只要倒排索引和页面权重没有变化,搜索将返回同样的结果页面。
2.2个性化排序计算因子个性化排序计算因子的主要目的是在搜索引擎从索引中找到符合条件的内容后,计算文档得分返回排序结果给用户前,结合用户的相关信息(即用户个性化因子)对排序结果进行再一次计算调整,以达到返回结果能更贴合不同用户查询需求。个性化因子是在用户兴趣库分析基础上的进一步细化分析计算,以下就是本篇提出的个性化因子。
2.2.1交互式搜索
为更好地体现用户实时搜索取向,不能只是单纯的依靠用户历史数据作为个性化排序的唯一标准。而是结合用户操作,对用户本次搜索内容取向作进一步的分析确认。交互式模块功能是在采集用户实时操作数据并作出分析,当达到原先设定的标准触发事件,提示用户是否返回二次排序结果。例如:用户某次搜索"苹果",这时搜索引擎返回的结果中有苹果手机和水果苹果的相关内容,就百度搜索的结果来看,大部分信息是关于苹果手机的。但是用户本次却是想找水果苹果的相关内容,所以用户会点击水果苹果相关的页面查看,要是仍没有满意结果,这时交互式功能模块将被触发,搜索引擎结合用户的本次操作,由交互式模块提供计算因子,提升有关水果苹果文档页面的得分,让返回结果重新排序,让苹果手机页面靠后,甚至是屏蔽苹果手机的相关内容。过程如图3所示。
这个过程中,关键问题在于如何采集用户实时数据以反映用户本次需求和交互式模块功能触发标准的制定。
对于数据采集,用户在返回页面中往往根据标题和内容摘要判断该内容是否符合自己需求,从而进行第一次点击查看,所以前几次用户点击页面内容对于用户需求分析很重要。另外,如果用户在某个页面上停留了足够长的时候,同时又在页面上进行一些"有效"操作,从而判定该页面内容是否可以用来采集数据。这里的"有效"操作可以是复制粘贴内容,拉动滚动条,甚至是保存链接到收藏夹等[5].所以对于是否用于数据采集的具体公式可以是Ci=aXi+bYi+cZi(1)其中,Ci表示页面参考价值,Xi表示前几次点击,如果用户前三次点击则该值为1,否则为0;Yi表示用户是在页面上是否停留足够长时间,如果大于时间t则为1,否则为0;Zi表示用户在页面上的有效操作,如果用户进行了"有效″操作则为1,否则为0;a、b、c是三个系数,令三个系数a=1,b=c=1/2,当满Ci等于1时,表示该页面符合数据采集。
对于触发条件,同样采用公式1,当Yi=0表示用户在页面停留时间过短,Zi=0时表示用户所打开页面都没有进行"有效″操作,即不符合用户查询需求,称为"失效页″。P(l)=L/T(2)其中,P(l)表示无效页面率,L表示失效页面总数,T表示用户打开页面总数。假设P(l)>50%时,表示此次搜索符合二次返回标准。在用户再次将鼠标移至关键词输入框的时候提示用户是否进行二次搜索返回,否则跳过该功能由用户自己进行关键词输入。
2.2.2近垂直检索
垂直检索是针对性更强的行业搜索方式,是搜索引擎的细分和延伸,是对网页内容库中分类别搜索的一次整合。就像百度和谷歌搜索引擎一样都提供新闻、音乐、图片,视频等垂直检索方式,选中对应的搜索方式查询,结果页面的内容会集中某一限定范围内的。如在百度中对关键词"苹果"使用音乐搜索,返回的结果只是与苹果相关的音乐,而不会有苹果手机或者是水果苹果的内容。
在个性化因子的计算中,结合用户兴趣库信息和本次搜索需求缩小信息检索范围,提高搜索精确度的同时也提高了搜索效率,提高用户的个性化体验。这种类似于垂直检索的返回结果,这里称为近垂直检索分析[6].一旦确认用户结果取向,便可以通过对应专业范围内的页面得分计算因子,用来提高该行业方向结果页面排名。
2.2.3截断计算
根据BerrierAssociates的调查结果显示:60%~65%的人会点击名列搜索结果前10名的网站;20%~25%的人会考虑点击名列11到20的网站;还有3%~4%会点击名列搜索结果中列第21到第30名的网站[7].而搜索引擎的返回结果中往往动则几千万条相关内容,成千上万页的内容,这种做法实在是没有必要。所以在计算个性化得分前,通过适当提取结果的前n条记录,每经过1次个性化因子因素计算就进行一次结果数量抽取用作下一步计算,这种滚雪球的效应随着考虑因子增加结果条数反而减少,这就减轻了随着考虑个性化因子的增多计算量加大的负担。当结果数到一定数量的时候就不需要再截取计算,因为用作计算页面数的减少就意味着搜索结果的全面性降低,搜索结果数量还需要保持在一定的数量范围内的。搜索引擎的效率和全面性就像算法的空间和时间的关系一样此消彼长,能做的就是尽量的权衡利弊来决定两者的权重。
3结束语
本篇的个性化因子是基于用户兴趣库的,是对兴趣库个性化搜索的改进建议。本着更多的交流才能挖掘用户更多的需求,提出交互式二次返回结果,因为增加了个性化因子的计算,加大搜索引擎的负荷,所以在计算过程中去除相关性不大文档,以减轻搜索引擎的计算负担。
参考文献:
[1]苏坤,夏旭。搜索引擎分类研究的现状与发[J].图书馆论坛,25(1):69-71.
[2]胡吉明。个性化搜索引擎中的用户兴趣提取技术[J].图书馆学刊,2006(4):118-119.
搜索引擎经历近30年的发展,目前在使用的有几种类型,如全文搜索引擎、分类目录搜索引擎、多元搜索引擎、集成搜索引擎等。但这些都是网络上的公用商业搜索引擎,它们往往不能满足企业的需要。...
0引言新浪微博是一个由新浪网推出,提供微型博客服务的类Twitter网站。用户可以通过网页、WAP页面、手机客户端、手机短信、彩信发布消息或上传图片。新浪可以把微博理解为微型博客或者一句话博客。用户可以将看到的、听到的、想到的事情写成一句话,...
本文结合国内外专利申请的状况,对个性化搜索引擎中关键词推荐专利技术进行了较为全面的分析和研究,并对其发展历程进行了回顾。从以上分析可知,我国关键词推荐技术虽然起步较晚,但近十几年发展很快,也涌现出一批具有竞争力的大企业。另外,目前基于文档词...