搜索引擎论文

您当前的位置:学术堂 > 图书档案学论文 > 搜索引擎论文 >

基于Nutch技术的节能减排垂直搜索引擎开发

来源:重庆科技学院学报(自然科学版) 作者:卜天然
发布于:2017-06-21 共5978字
  摘 要: 在研究垂直搜索引擎的设计思想、相关技术的基础上,利用 Nutch 开源框架设计实现了节能减排垂直搜索引擎的设计,支持了对节能减排相关信息的检索服务。系统采用网页模板技术对网页信息进行提取,采用改进的TF - IDF 算法提取特征词,利用基于特征词的向量空间模型进行主题相关性判定,利用朴素贝叶斯算法对网页信息进行分类。
  
  关键词: 节能减排; 搜索引擎; 网页模板; 向量空间; 朴素贝叶斯。
  
  搜索引擎的诞生,为人们快速查找互联网信息提供了一种快捷的途径,满足了人们搜索网络信息的日益迫切的需求。但使用传统搜索引擎搜索相关信息,不可避免地会包含许多广告以及与主题不相关的信息,影响了用户对某个特定领域信息的获取。
  
  由于传统搜索引擎检索信息普遍存在信息量大、信息杂糅不全、结果不准确等问题,使得越来越多学者开始研究垂直搜索引擎[1].如今市场上也出现了大量的 CiteSeerx、去哪网等面向各个领域的垂直搜索引擎产品。
  
  但目前市场上没有一款成形的面向节能减排领域的垂直搜索引擎,该类搜索引擎仍处于发展探索时期。基于开源框架 Nutch 设计和实现了一个面向节能减排领域的垂直搜索引擎。为了提高 Nutch 搜索引擎的效果,引入以下技术: ( 1) 网页模板技术,该技术提高了网页信息获取的准确性,模板中关于网页关键信息的提取,也为部分网页的信息归类提供了便利; ( 2) 特征词提取技术,使用改进的 TF -IDF 算法计算权重提取主题词库和分类特征词库;( 3) 向量空间模型,该模型用于对节能减排领域进行主题相关性判断; ( 4) 朴素贝叶斯算法,该算法针对网页通过模板中提取的关键信息无法分类的情况,提供分类依据。
  
  1 垂直搜索引擎设计及工作流程。
  
  垂直搜索引擎是针对某一个特定领域、行业或学科内的网络信息资源,制定一些特定的搜索策略,让网络爬虫智能在互联网上抓取相关的信息资源,为领域内或行业内的专家、学者和需要这方面信息的用户提供一整套网络信息资源的专业化搜索引擎[2].它对信息库中某一类信息进行整合,将网页的非结构化信息抽取成特定的结构化信息,最后以某种形式返回给用户。
  
  本次研究选用开源框架 Nutch 作为爬取数据、分析数据、建立索引的工具。选用 Nutch 的原因是其能非常快速地爬取网页,能对这些网页建立索引并提供维护工作,还能提供对索引文件每秒上千次的搜索,并尽可能地以最小的运作成本提供最高质量的搜索服务。其效率可以和一些商业搜索引擎相媲美。此外,Nutch 和 Solr 的源代码是开放的,其提供的强大的插件机制为开发者定制自己的搜索引擎提供了便利。
  
  针对节能减排领域,利用 Nutch 框架完成了垂直搜索引擎设计,并将节能减排信息分成政策资讯、标准规范、技术文献等 3 类。其思路主要有 4 步:
  
  ( 1) 选择爬取节能减排信息的网站。
  
  ( 2) 利用 Nutch 工具开始爬取网页。
  
  ( 3) 利用 Nutch 插件机制对网页信息进行提取,建立索引。步骤如下:
  
  ① 建立模版,模版包括提取网页标题、正文内容、关键信息( 导航信息等) 、标准号以及技术文献来源。若爬取的 URL 为一个网页,则根据模板提取内容,不符合模板提取规则的网页不需要建立索引,符合模板提取的网页则进入下一步; 若爬取的 URL不是一个网页,则直接进入下一步。
  
  ② 节能减排主题词库的建立以及向量空间模型的建立。利用向量空间模型,计算网页内容与节能减排主题的相关度。若相关度大于设定的阈值,认为该网页属于节能减排领域,则进行下一步工作;否则,舍弃该网页。
  
  ③ 建立朴素贝叶斯模型,完成对政策咨询、标准规范、技术文献以及相关行业信息特征词库和关键词库的建立,完成信息分类和行业分类。若爬取的 URL 为一个网页,且根据模板提取的关键信息和关键词库信息可以直接归类,则直接分类; 若不可以直接归类,则利用朴素贝叶斯模型,计算得出网页属于哪个分类; 若爬取的 URL 不是一个网页,则直接根据朴素贝叶斯模型计算分类。
  
  ( 4) 利用 SolrJ 以及 servlet + jsp 技术搭建垂直搜索引擎的用户检索平台。平台提供信息分类检索、检索关键词提示等功能。用户通过输入检索关键词,利用 SolrJ 从索引数据库中取得相关信息,并按照相关度的大小呈现给用户。
  
  2 系统设计与实现。
  
  2. 1 模板的建立。
  
  互联网网页中的元素节点存在父子关系。根据网页元素节点之间的父子关系,以及元素节点上的属性节点内容,则可以获取包含在元素节点的文本节点内容。研究发现,在一个域名下的网站,其网页很多都拥有相同或相近的网页树形结构。这说明搜索引擎对一个网页特定信息进行提取时,该内容在网页中所处的位置可能与其他很多页面相同。利用相同站点下页面结构存在的相似性,对站点下的网页建立基于 DOM 的网页模板。通常对一个站点下需要采集的网页用几个模板就可以表示[3].
  
  ( 1) 为了提高网页模板的加载速度,缩小程序获取网站模板的范围,首先为网页模板提供了配置文件 config. xml.该文件提供了 URL 的正则匹配式。一个网页可以根据它的 URL 确定该网页所处站点的模板存放位置。config. xml 文件格式如下所示。
  
  < ? xml version = “ 1. 0” encoding = “ UTF - 8” ? >
  
  < type >
  
  < Distinguish >
  
  < WebName > 中华人民共和国环境保护部< WebName >
  
  < WebDomain > <! [CDATA[( . * ) ( mep\ . gov \ . cn | zhb \ . gov \ . cn ) ( . * ) ]] > < WebDomain >
  
  < WebTemplate > <! [CDATA[Configura-tiontemplatehbzj]]> < WebTemplate >
  
  < Distinguish >
  
  < type >
  
  其中,WebName 表示该站点的名称; WebDomain表示该站点下任意网页需要满足的 URL 的正则表达式,符合该正则表达式的网页则是来自该站点的网页; WebTemplate 表示该站点下模板库的存放位置。
  
  ( 2) 在指定位置文件夹下建立某一站点的模板template_xxx_xx. xml.模板包含对页面标题、正文内容、关键信息、标准号以及技术文献来源的提取规则,同时这些提取规则符合 jsoup 工具提取网页信息的语法要求。模板文件格式如下所示。
  
  < ? xml version = “ 1. 0” encoding = “ UTF - 8” ? >
  
  < type >
  
  < WebTitle > <! [CDATA[title]]> < WebTi-tle >
  
  < WebNavigation > <! [CDATA[table > tbody> tr > td[align = left][style][height]]]> < Web-Navigation >
  
  < WebContent > <! [CDATA[table tr td tabletbody tr td]]> < WebContent >
  
  < WebScifactory > < WebScifactory >
  
  < type >
  
  其中,WebTitle 表示网页标题; WebNavigation 表示网页关键信息; WebContent 表示网页正文内容。
  
  网页先通过 config. xml 文件确定所属的模板库,再在相应的模板库中匹配相应的模板。若匹配到相应模板,则可利用模板分析网页,提取内容。
  
原文出处:卜天然. 垂直搜索引擎在节能减排领域中的设计与实现[J]. 重庆科技学院学报(自然科学版),2017,(01):92-96.
相关内容推荐
相关标签:节能减排论文
返回:搜索引擎论文