搜索引擎论文

您当前的位置:学术堂 > 图书档案学论文 > 搜索引擎论文 >

搜索引擎主要技术与发展趋势探析(3)

来源:中国新技术新产品 作者:许瑞
发布于:2017-06-21 共4007字
  4.搜索引擎技术当前问题及解决方法。
  

  4.1 搜索引擎技术当前面临的问题。
  
  网页时效性:互联网上的用户众多,数据信息来源极广,互联网上的网页是呈实时动态变化的,网页的更新、删除等变动极为频繁,有时候会出现新更新的网页在爬虫程序还来不及抓取的时候却已经被删除的情况,这将大大影响搜索结果的准确性。
  
  大数据存储问题:爬虫抓取的数据在经过预处理后数据量依然相当庞大,这给大数据存储技术带来相当大的挑战。当前大部分搜索引擎都是利用结构化的数据库来存储数据,结构化的数据库存储的数据具有高共享、低冗余等特点,然而由于结构化的数据库难以并发查询所以存在查询效率受限的问题。
  
  检索结果可靠性:目前由于数据挖掘技术以及计算机硬件的限制使得数据处理准确度未能达到理想程度,而且由于一些个人或公司利用搜索引擎现有的漏洞通过作弊手段来干扰检索结果导致检索结果的可靠性可能会有损失。
  
  4.2 解决方法。
  
  对于网页时效性问题可以将权重高的网络站点和权重低的网络站点分开处理,对高权重和低权重的站点内容分别以合适的高频率进行抓取,并将抓取的结果置于缓存中,索引程序对缓存中的数据进行处理,这样可以使得高权重与低权重站点抓取并行处理,数据抓取与索引建立并行执行。通过优化数据的存储结构,采用数据块的模式借助于散列表连接的存储模式可在一定程度上解决大数据存储问题。通过加强反作弊技术,将先进的数据挖掘技术与神经网络加速器硬件相结合可大幅度提高检索结果的可靠性。
  
  参考文献:
  
  [1] Mohammed A. Alam and Doug Downey. Analyzing the contentemphasis of web search engines.Proceedings of the 37th internationalACM SIGIR conference on Research & development in informationretrieval.SIGIR '14, Pages 1083-1086, 2014, ACM.  
  [2] Chavdar Botev, Sihem Amer-Yahia, Jayavel Shanmugasundaram.A TeXQuery-based XML full-text search engine. Proceedings ofthe 2004 ACM SIGMOD international conference on Managementof data. SIGMOD '04, June 2004, ACM.  
  [3] A. Gulli, A. Signorini.Building an open source meta-searchengine. Special interest tracks and posters of the 14th internationalconference on World Wide Web. WWW '05, May 2005, ACM.  
  [4] 吴小兰,汪琪 . 元搜索引擎研究综述 [J]. 图书情报工作,2009(9):46-49. 
  [5] 王文钧,李巍 . 垂直搜索引擎的现状与发展探究 [J]. 情报科学,2010(3):477-480. 
  [6] 秦长江,侯汉清 . 知识图谱--信息管理与知识管理的新领域 [J]. 大学图书馆学报,2009(1):30-37+96.  
  [7] 文振威,秦晓 . 个性化搜索引擎的研究与设计 [J]. 计算机工程与设计,2009(2):342-344+394.
原文出处:许瑞. 搜索引擎技术的发展现状与前景[J]. 中国新技术新产品,2017,(04):20-21.
相关内容推荐
相关标签:
返回:搜索引擎论文