搜索引擎论文

您当前的位置:学术堂 > 图书档案学论文 > 搜索引擎论文 >

基于Nutch技术的节能减排垂直搜索引擎开发(3)

来源:重庆科技学院学报(自然科学版) 作者:卜天然
发布于:2017-06-21 共5978字
  2. 4 网页信息分类的实现。
  
  互联网信息种类繁多,就节能减排领域而言,就包含新闻、法律、标准、技术等各种各样的信息。如果不对网页信息进行归类,用户通过搜索引擎获取的信息则比较杂乱,从而加大了用户筛选需要信息的难度。为了提高搜索引擎获取信息的效率,本次研究利用网页关键信息比对与朴素贝叶斯分类算法相结合的方式,对互联网信息进行信息分类。
  
  朴素贝叶斯分类算法的基本思想是[5]: 对于给定的待分类项,求解在此项出现条件下的各个类别出现的概率。某类别下出现的概率最大,就认为此待分类项属于该类别。
  
  设待分类项为 x,其向量表示为 x = { a1,a2,a3,…,an} ,其中每一个 a 表示待分类项 x 中的一个属性; 设类别集合 C = { y1,y2,y3,…,ym} ,则贝叶斯公式一般形式为[6]:
  
  
  
  朴素贝叶斯分类是求解待分类项在类别集合下各个概率的最大值。由于 P( x) 对于每一个类别的求解是一个固定的值,所以该项可以忽略,则式( 2)可以写成:
  
  l = max{ P( x | y1) P( y1) ,…,P( x | ym) P( ym) }    ( 3)。
  
  将待分类项 x 中每一个属性带入,则:
  
  
  
  进行网页信息分类的具体实现思路如下:
  
  ( 1) 先将根据网页模板获取到的关键信息与类别关键词库进行比对。若比对成功,则确定分类; 不成功则使用朴素贝叶斯分类算法进行分类。类别关键词库通过人工方式整理,是类别特有的词或短语的集合。
  
  ( 2) 根据特征词库的确定提供的方式,建立政策资讯、标准规范、技术文献等 3 类特征词库; 同时建立 xml 文件,文件中记录每一个分类及分类的样本数,以便计算每个类别的先验概率。如果类别集合为 C = { y1,y2,y3,…,ym} ,则类别 yi的先验概率求解公式为:
  
  
  
  式中: ni--- 类别 yi下的样本数量;N --- 所有类别下的样本数的总和。
  
  ( 3) 利用 IK 分词器将待分类网页文本进行分词,并去除停用词,得到网页的分词集合 x = { a1,a2,a3,…,an} ,该集合可以看成一个待分类项。
  
  ( 4) 按照式( 4) 计算待分类网页文本( 待分类项) 在 3 个分类中的概率大小,公式为:
  
  
  
  式中: ni,j--- 在类别 yi下包含特征词属性 aj的样本数量,ni,j+ 1 是为了防止分子为零的情况出现;ni--- 类别 yi下的样本数量;L --- 总类别数;M --- 为防止 ni过小而引入的常数。
  
  ( 5) 利用式( 3) 计算待分类网页文本( 待分类项) 在某类别下的概率值最大,则将该网页分到该类别下,并将结果保存在索引库中。
  
  3 系统运行和测试。
  
  针对节能减排领域实现的垂直搜索引擎是通过提供用户接口与网络用户进行交互。用户通过输入检索关键字从搜索引擎的索引库中获取相关信息[7].
  
  选取节能减排领域和非节能减排领域相关的文档各 400 篇作为主题词库的测试文档,选取政策资讯和技术文献各 200 篇作为类别特征词库的测试文档,分别对以文档频率 DF、词频 TF、TF - IDF 值以及改进的 TF - IDF 值作为词的权重提取的特征词库进行测试。主题词库的测试算法选择主题判别算法向量空间模型,测试结果见表 3.分类特征词库的测试算法选择朴素贝叶斯算法,测试结果见表 4.
  
  表 3 主题词库实验测试结果
  
  表 4 分类特征词库实验测试结果
  
  通过实验可以看出,选择改进的 TF - IDF 算法计算词的权重,经过筛选构成的特征词库在主题相关性判别中能最有效地选择节能减排领域相关的文档以及去除非节能减排领域相关的文档。在信息分类中,该方法得到的特征词库也能够最有效地将文档进行归类。
  
  4 结 语。
  
  以搭建节能减排领域的垂直搜索引擎为需求背景,利用 Nutch 开源框架,结合网页模板、向量空间模型以及朴素贝叶斯算法等技术,实现了垂直搜索引擎的开发。实验证明,完成的搜索引擎初步实现了对节能减排相关的信息检索,降低了工作人员获取该领域信息的难度。
  
  参考文献:  
  [1] 卜天然。 基于 Nutch 技术的垂直搜索引擎设计与实现[J]. 通化师范学院学报,2016,37( 4) :4 -8.  
  [2] 刘策。 垂直搜索引擎发展前景分析[J]. 中国科技成果,2006( 13) : 46 - 47.  
  [3] 张玉芳,彭时名,吕佳。 基于文本分类 TF - IDF 方法的改进与应用[J]. 计算机工程,2006,32( 19) :76 -78.  
  [4] 包金龙。 基于向量空间模型的信息检索系统的设计[J]. 情报检索,2005,24( 7) :44 -49.  
  [5] SALTON G,WONG A. On the specification of term valuein automatic indexing [J]. Journal of Documentation,1973,29( 4) : 351 - 372.  
  [6] DOMINGOS P,PAZZANI M. On the optimality of the sim-ple bayesian classifier under zero-one loss[J]. MachineLearning,1997,29( 2) : 103 - 130.  
  [7] 施聪莺,徐朝军,杨晓江。 TF - IDF 算法研究综述[J]. 计算机应用,2009,29( 6) :167 -170.
原文出处:卜天然. 垂直搜索引擎在节能减排领域中的设计与实现[J]. 重庆科技学院学报(自然科学版),2017,(01):92-96.
相关内容推荐
相关标签:节能减排论文
返回:搜索引擎论文