搜索引擎论文

您当前的位置:学术堂 > 图书档案学论文 > 搜索引擎论文 >

智能搜索引擎在政府门户网站的实现

来源:学术堂 作者:周老师
发布于:2014-07-31 共7645字
论文摘要

  一、引言

  1999年,中国政府上网工程开启,政府门户网站建设逐渐受到各级政府领导和职能部门的重视,其发展历程可以归结为起步、普及、深度发展、融合发展四个阶段。近年来,政府门户网站的功能定位从信息发布、政府信息公开、公共服务向智慧政府门户转变,在技术、业务、需求、大数据四轮驱动下,网站内容不断丰富,运维保障机制日趋完善,已经成为构建服务型政府、面向公众提供服务的重要支撑和主要渠道。
  而另一方面,政府网站的整体发展与用户需求仍存在一定差距,在保障民生、改善企业发展环境等方面的内容和服务匮乏、服务方式单一、服务获取不便捷和服务体验差等现象普遍存在,导致政府网站无法满足用户日益增长的需求。据《第32次中国互联网络发展状况统计报告》发布的数据,截至2013年6月底,中国网民规模达5.91亿,互联网普及率持续上升至44.1%,网民规模稳居全球第一。这一庞大的社会群体正通过信息技术手段带来的便利,不断创造出互联网时代一个又一个应用高潮,他们对政府网站和政务服务也提出了更高的要求。如何打破传统政府网站建设模式的瓶颈,打造名副其实的服务型政府网站,更好地满足公众的需求,亟需电子政务工作者们不断地发展政府网站建设理念,创新政府网站服务模式。
  以北京市农业局网站为例,自建站以来始终通过“信息公开、公共服务、公共参与”等内容建设服务于农业局职能,致力于提高行政效率和促进职能转变。然而,在智慧农业和服务型政府建设的背景下,伴随着新技术的不断涌现和用户需求的不断增长,为满足新时期的要求,更好地为公众服务,农业局门户网站亟需进行深度改版升级。本次改版以更好地服务经济社会发展、服务百姓生活为主线,以服务内容、服务质量、服务实效、用户体验显着提升为目标,旨在服务集成、业务协同、资源共享、集约建设、渠道创新等方面取得实质性突破,将农业局门户网站打造成“以用户为中心的服务型网站”。改版围绕“农业服务、信息公开、在线办事、公众互动”四大主题,建设了包括网上服务基础平台、公众互动平台、网上服务应用平台、农业资源信息服务平台、服务监测平台等在内的业务应用系统,建立了知识库与智能搜索问答系统,可全方位、多维度为用户提供服务。网站信息量大、结构复杂,准确、迅速地定位到具体需求对一般用户(尤其是初次来访者)来说难度较大,因此,“搜索”功能强大与否直接决定了用户体验的好坏。本次改版采用智能搜索引擎系统较好地解决了这一难题,以此为突破口极大地提升了用户体验,是以用户为中心、打造服务型政府门户网站的最佳体现,是诸多电子政务工作者转变理念、创新模式的有益尝试。本文通过深入分析政府门户网站搜索引擎应用现状,展望未来发展趋势,解析智能搜索引擎工作机制和原理,提出了一条提升用户体验的新途径。

  二、政府门户网站搜索引擎发展现状分析

  总体来看,政府门户网站目前存在着实用性易用性不足、公众满意度低、智能程度低和用户体验差等问题。具体到搜索引擎层面,搜索引擎是大多数政府门户网站的标准配置,也有极个别政府机构将搜索作为访问网站的第一入口(如北京市海淀区、大连市等)。虽然大部分搜索引擎能在查找某些信息(如新闻)时发挥一定作用,但是,从用户对搜索引擎的普遍运用方法和对政府网站搜索功能的预期来看,政府门户网站的搜索功能实在差强人意,种种不便严重影响了用户体验。

  (一)重视程度低,服务响应慢

  大多数政府门户网站对搜索引擎的重视程度非常低,主要体现在如下几个方面:第一,有些网站改版升级多次,但搜索系统却改动不大,性能停滞不前,有些搜索引擎甚至成了摆设,根本不可用,输入任何关键词都返回空白页;第二,搜索引擎的位置不显眼,有些放置在首页页面中下部,有些隐藏在某个二级栏目下,用户很难找到;第三,更有甚者,网站不提供搜索功能,如公安部、国家海洋局、国家公务员局等网站,用户只能用肉眼在海量信息中查找。
  通过对有搜索引擎的政府门户网站的模拟体验,笔者发现,大多数网站搜索的响应速度较慢,普遍需要0.1秒以上,尤其是需要多次搜索才能找到所需信息时,用户要有极大的耐心等待搜索结果。而且,大多数网站做不到实时搜索,如某地政府一周前在新闻动态栏目发布的信息,直接在搜索框中输入信息标题都无法在搜索结果中找到这一信息。

  (二)搜索结果杂乱分散,查全率和查准率有待提高

  在对有搜索引擎的政府门户网站的试用过程中,笔者发现,大多数网站搜索引擎的搜索机制比较单一,搜索结果仅能呈现与查询关键词完全一致的信息,一般按照时间或相关度进行排序,但其他与查询关键词相关的信息却无法展示,搜索结果页也不能按照主题、栏目、发布日期等进行分类查看,在一堆无重点、无序的结果中,用户很难找到所需信息。随着政府门户网站承载的信息量越来越大,目前的搜索引擎根本不能实现整合分散在各子站、各栏目服务资源的目标,更无法进一步对这些服务资源进行深入的开发和利用。
  与搜索结果无序、杂乱相比,目前大多数网站搜索引擎的查全率和查准率更让人担忧。一方面,搜索结果查不全,在网站上随机选取一条最新发布的新闻,直接按照标题进行搜索,很多网站的搜索结果都为空;另一方面,搜索结果查不准,以搜索“开设动物诊所”为例,绝大多数网站都无法查询出与“动物诊疗许可证核发”相关的搜索结果,这种查不准的例子比比皆是。

  (三)人性化与智能化程度低,用户体验与使用友好度较差

  政府门户网站搜索引擎的人性化和智能化程度主要体现在对用户诉求的识别准确率上,能从分词、纠错、模糊检索、拼音和繁体检索等各个方面进行判断,直接影响着用户体验的评价。总体来看,目前大部分政府门户网站的搜索引擎找不到用户的真正所需,难以识别用户诉求。
  在分词方面,很多分词不够准确,很多专有名词并未被更多重视。以搜索“华人”为例,很多网站的搜索结果中都有与“中华人民共和国”有关的信息,与用户需求不符。在纠错方面,很多用户由于各种原因可能会输入一些错别字进行检索,系统不会进行智能识别和转换,搜索结果大多为空。在模糊检索方面,很多用户对政府的专用词汇不甚了解,会用相对口语化的词语进行搜索,如“申请拖拉机号牌”“粮种买卖”等,大多数网站的搜索结果都为空。在拼音和繁体检索方面,很多网站都不支持以这两种形式进行检索。

  三、政府门户网站搜索引擎的发展趋势

    从搜索引擎的功能定位来看,其发展经历了三个阶段(参见表1)。
  搜索引擎发展阶段表
  结合搜索引擎的总体发展背景,笔者认为,在政府门户网站领域,未来搜索引擎的范围将极大化扩展,搜索引擎将成为政府服务公众的首要渠道、面向用户聚合展示知识的重要窗口、为用户提供个性化服务的主要途径。

  (一)政府服务公众的首要渠道

  据《第32次中国互联网络发展状况统计报告》统计,截至2013年6月底,中国搜索引擎网民规模为4.70亿,较2012年底增长了1928万人,半年增长率为4.3%,网民使用率高达79.6%。搜索引擎作为互联网的基础应用,是网民获取信息的重要工具,其使用率自2010年后始终保持在80%左右。通过搜索引擎获取信息已经成为绝大多数用户的习惯行为,不会轻易改变,而且这种习惯必将延续到用户访问政府门户网站的经历中。另外,随着政府门户网站建设时间和信息量的不断增长,各种政务服务必将被淹没在众多“大数据”中,让用户无所适从。因此,搜索引擎必须也一定会成为政府门户网站建设中最重要的一环,成为用户通过网站了解政府信息、获取政务服务的第一入口。随着搜索入口不断向前端迁移,政府行业“搜索门户化”极有可能成为现实。

  (二)聚合展示知识的重要窗口

  一般来说,大型搜索引擎门户,如百度、Google、搜搜等,因为用户的不确定性较大,很难实现且不必实现比较细致的分类搜索,只需按照网页、图片、视频等进行简单分类即可。再进一步,可以按照新闻、档案(介绍)、政策等进行分类,如中国搜索在某些关键词检索时所呈现的。而在政府门户网站上,用户是基本一定的,而且用户的主要需求也是可推测的,提供杂乱无序的搜索结果或不能对结果进行细致分类,对政府门户网站搜索引擎来说是比较失败的,完全不能满足用户的预期和需求。
  据艾瑞咨询公司数据显示,搜索引擎发展的趋势之一是对结果进行筛选及聚合,以提升搜索结果质量,使用户更易触达所需信息。试图对搜索结果进行“预筛选”,从海量的搜索结果中筛选出高质量、功能性强、指向性明确的信息,并将其以聚合的形式向用户呈现,以便用户快速获取所需结果。跨栏目、跨分类整合网站中的各类服务资源,以更好的形式聚合展现给用户,在满足客户基本需求的同时展示更多相关知识帮助客户作出决策,将是未来政府门户网站搜索引擎的发展趋势之一。当搜索引擎能够将网站的所有信息进行有序组织和合理呈现时,政府门户网站将不再需要“专题”,依靠人工筛选海量信息、费心设计制作专题的时代也终将结束。

  (三)个性化服务的主要途径

  在政府门户网站上,个性化服务目前主要通过APP、RSS订阅、市民主页等途径实现,虽然基本能满足一些“群体”的共性需求,但是,这些途径需要电子政务工作者定期维护,因此信息实效性较差,用户体验不够好。
  搜索引擎的发展趋势之一是“个性化搜索”和“情境搜索”。“个性化搜索”的核心是根据用户以往在政府门户网站上的浏览记录、办事记录、搜索历史及用户在其他社交网络中的博客、微博等内容,建立一套准确的个人兴趣模型,从这些信息中提取出关键词及其权重。“情境搜索”的核心是实时感知人与人所处的环境,针对“此时此地此人”来建立模型,试图理解用户查询的目的和诉求。将情境搜索与个性化搜索结合起来,未来政府门户网站搜索引擎就能够依据模型,按照用户本次检索词为用户提供独具特色、针对性强、分类明晰、重点突出的搜索结果,实现从为“人民”服务到为“人人”服务的转变,大大提高用户的满意度。

  (四)搜索能力极大化提高

  在传统的数据库系统中,信息的检索一般以数值和字符型为主,而在多媒体数据库中集成的图像、视频、音频等非格式化信息,具有数据量大、信息不定长、结构复杂等特点,难以用传统的搜索引擎进行检索。通过对有搜索引擎的政府门户网站的模拟体验,笔者发现,大多数网站目前仅能实现对信息的全文检索,支持对附件、对流媒体进行检索的少之又少。
  然而,随着信息技术的不断发展,QBIC系统、Visual Seek系统、Video Q、TV-FI、JJACOB、Informmedia等视频检索系统相继出现,语义级音频信息检索技术也取得突破,已有个别政府门户网站开展了针对附件检索的初步尝试。不难预见,未来政府门户网站可能会直接与用户对话,“听取”用户诉求,然后智能地搜寻网站资源,支持对Word、Excel、PowerPoint、PDF等附件以及音视频内容的检索,最终为用户合理呈现所需的信息。

  四、智能搜索引擎在政府门户网站的实现

  与上述诸多政府门户网站一样,北京市农业局也面临类似挑战,本着“一切为了用户体验”的全新建站理念,通过采用全新的内容管理系统和智能搜索引擎系统,改版升级后的农业局网站焕然一新,用户体验满意度不断提高。

  (一)智能搜索引擎系统整体框架及基本工作机制

  智能搜索引擎系统总体分为四层:信息层、采集层、加工层、用户层。信息层支持各种结构化数据和非结构化数据,采集层负责从信息层进行数据采集,加工层对采集的信息进行处理,用户层为用户提供相应的搜索服务(参见图1)。
智能搜索引擎系统整体框架图
  智能搜索引擎主要通过采集器、索引器和检索器运作,其工作机制如图2所示。智能检索功能包括全文索引和强大的信息搜索功能,采用多线程并发搜索技术、智能分词技术和个性化配置技术实现对于标题、文本、HTML、RTF、Office文档、PDF等多种文件和数据库内容的全文搜索。
智能搜索引擎的基本工作机制图
  采集器是通常所说的“网络蜘蛛/爬虫”或“机器人”程序,能够不间断地执行某种任务。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其他链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
  索引器的功能是理解搜索器所搜集的信息,从中抽取出索引项,用于表示文档及生成文档库的索引表。
  检索器的功能是根据用户的查询在索引库中快速检索出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。首先,检索器采用与索引文档相似的方法来处理用户查询请求;然后在索引库中进行搜寻,提取满足条件的网页;最后采用特定的算法计算网页和关键词的相关度,并将所有网页按照相关度递减的顺序排列返回给用户。用户界面的作用就是提供用户输入查询、显示查询结果及提供用户相关性反馈机制的接口,其目的在于方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。

  (二)智能引导用户找到所需信息

  根据笔者对互联网搜索引擎及政府门户网站搜索引擎的研究,发现用户经常使用拼音输入或者直接选择关联词语中的关键词进行搜索。为此,在系统研发过程中提供了智能引导功能。智能搜索引擎系统具有自动纠错功能,对于经常性输入错误的词语,提示按正确词语作为关键词进行搜索,减少重复输入操作。同时,很多人在输入检索词时,因为没有切换输入法可能直接输入一大串拼音。为了减少重复输入,智能搜索引擎系统还提供拼音搜索功能,将用户输入的拼音等同于中文内容,从而提高检索效率。此外,系统还提供关键词联想功能。即当用户输入某个检索词的一部分时,可自动联想到与该输入词相关的词语,方便用户直接选择。

  (三)框计算支持当前页直接运行

  传统政府门户网站搜索引擎只是以简单的信息列表形式对搜索结果进行展示,而对许多用户而言,搜索的目的是为了使用对应的服务。在传统模式下,用户首先需要对搜索结果中的信息进行筛选,然后跳转到对应页面享受相应的服务。智能搜索引擎系统则通过定制关联规则和搜索引擎应用容器,对应用服务在搜索结果页面进行展示,包括应用服务的填写、查询、办理等,用户可以在搜索结果当前页中直接使用相应服务,可大大提高用户的搜索效率。

  (四)智能识别“百姓体”关键词

  通过认真分析政府网站用户的行为模式,我们发现,找不到信息的很大原因在于社会公众对政府业务的认知障碍:一是政府网站的信息分类用户看不懂;二是各个服务事项的称谓过于专业,用户无法理解。这样很多用户可能会输入白话文(百姓体)直接进行搜索,而很多办事事项因其专业性描述特点,使得系统根本无法搜索出结果。比如输入“买卖兽药店”,对应的办事事项是“开办兽药经营企业许可”,如果通过关键词匹配就很有可能检索不到相关内容。
  为了解决上述问题,智能搜索引擎系统通过收集用户在政府网站的搜索关键词,并抓取所输入搜索关键词搜索得到的网页,根据搜索关键词和网页中的关键词的相似度,查询出与搜索关键词相似的网页中的关键词,并将所搜网页中的关键词和所输入搜索关键词作为白话词,根据语义分析和概率统计对所述白话词与官方词语的对应关系进行筛选,并依据所述对应关系生成百姓体词库。智能搜索引擎系统接收用户输入的白话词后,会查询所述百姓体词库,获取与用户输入的白话词相匹配的官方词语,并依据所获取的官方词语搜索网站。这样搜索结果为空的现象将大大减少,网站的友好度、人性化程度大大提升。

  (五)聚合提供与关键词相关的知识图谱

  政府门户网站大多积累了丰富的信息和服务资源,而这些信息和服务资源往往按照部门、政务主题、题材等方式进行分类,且有些信息和服务标题比较专业,甚至晦涩难懂,致使目前搜索引擎检索不到。智能搜索引擎将知识图谱技术应用于政府网站,检索结果集和关键词自动进行关联,使得检索结果更广泛、更准确。
  当用户对政府门户网站中的信息或服务进行搜索时,通过模板库、模板库中的模板和模板包括的要素类别,以及信息索引库将与查询关键词有关联的信息内容或链接一并通过展示模板展示给查询用户(参见图3)。由此,实现了与查询关键词相关联的信息全面展示给查询用户,解决了现有搜索引擎在对政府门户网站中的信息进行搜索时,只能给出摘要中包含有查询关键词的链接,不能将与查询关键词相关联的一系列信息智能地进行聚合后,一并提供给查询用户的问题。
知识图谱工作原理图
  (六)智能排序和分类搜索精准定位用户需求

  用户在搜索引擎上进行信息查询时,返回结果过多就会使用户不得不继续在结果中进行“人工筛选”,而用户主要关注的是搜索结果是否符合自己的需求。通过智能排序,与一般用户需求紧密相关的结果就会自动靠前显示,基本不需要用户重复筛查。另外,该系统还提供分类搜索,用户在搜索结果页面可以根据自身需求自主选择不同类别,有助于更快、更准地找到所需信息。
  传统的政府网站搜索引擎仅仅简单地使用了关键词匹配相关度和更新时间两个维度来进行搜索结果排序,智能搜索创新性地采用了关键词匹配相关度、更新时间、业务权重、当前社会热点、页面热度、搜索结果点击率的多维度排序算法模型,是最科学合理的政府业务排序算法,可给出最佳排序结果。

  (七)实时搜索保障搜索及时性与查全率

  传统搜索引擎采用“网络蜘蛛”的方式对网站数据进行采集,此种方式采集周期较长,当网站数据进行修改后无法在搜索引擎中进行实时搜索。智能搜索引擎系统后台数据更新采用主动触发(Trigger)技术,系统管理人员可以根据网站数据更新情况配置触发器的最短更新周期,可达到实时搜索效果。即网站只要发布了最新文章,通过实时触发机制,第一时间(如5分钟内)即可将网站数据导入到检索系统中,确保搜索结果与网站内容更新保持一致。

  五、小结

  通过采用智能搜索引擎系统,北京市农业局用户体验迅速提升,站内可见性也得到较大优化,用户通过搜索引擎获取服务信息和资源更加迅速、便捷,网站资源得到了较充分的整合与利用。如前所述,只要把握“以用户为中心”的原则,服务型政府门户网站建设很容易解决。实际上,整个政府门户网站搜索引擎的前台体验过程非常简单,即“用户输入关键词→系统进行识别→系统给出搜索结果”三个环节,服务型政府门户网站搜索引擎则需要在这些环节中充分体现人性化和智能化的特点,从而消除社会公众对政府业务的认知障碍。具体如在用户输入关键词时给出人性化的引导(拼音联想、关键词联想),对用户输入的错误关键词给出纠正,系统对输入关键词进行识别时提供模糊智能匹配(即提供用户的口头用语与政府专业词汇间的智能匹配),搜索结果中将用户所关注的相关知识进行聚合展示。毫无疑问,这样一个以用户为中心的产品能轻易破解当前政府门户网站信息和服务获取难的问题。
  任何事物的发展都是在曲折中前进,中国电子政务的发展在不同阶段都存在着特定的难以逾越的困难和阻碍,而服务型政府建设工作的推进更亟需电子政务工作者的大力支撑,唯有采用创新的思维和理念才能破解服务和信息供求之间的矛盾。如上文对政府网站搜索引擎存在的问题和解决之道所阐述的,看似不大的一个创新即可在很大程度上提升政府门户网站的服务水平,解决许多社会公众的实际问题。因此,只要政府门户网站管理者坚持“以用户为中心”的创新服务理念,“服务型政府网站”将不再遥不可及!

  参考文献:
  [1]于施洋,王建冬,刘合翔. 基于用户体验的政府网站优化:提升搜索引擎可见性[J]. 电子政务,2012(8).
  [2]周敏. 中国省级政府门户网站设计调查分析[J]. 图书馆学研究,2009(7).
相关内容推荐
相关标签:
返回:搜索引擎论文