搜索引擎主要技术与发展趋势探析(3)
来源:中国新技术新产品 作者:许瑞
发布于:2017-06-21 共4007字
4.搜索引擎技术当前问题及解决方法。
4.1 搜索引擎技术当前面临的问题。
网页时效性:互联网上的用户众多,数据信息来源极广,互联网上的网页是呈实时动态变化的,网页的更新、删除等变动极为频繁,有时候会出现新更新的网页在爬虫程序还来不及抓取的时候却已经被删除的情况,这将大大影响搜索结果的准确性。
大数据存储问题:爬虫抓取的数据在经过预处理后数据量依然相当庞大,这给大数据存储技术带来相当大的挑战。当前大部分搜索引擎都是利用结构化的数据库来存储数据,结构化的数据库存储的数据具有高共享、低冗余等特点,然而由于结构化的数据库难以并发查询所以存在查询效率受限的问题。
检索结果可靠性:目前由于数据挖掘技术以及计算机硬件的限制使得数据处理准确度未能达到理想程度,而且由于一些个人或公司利用搜索引擎现有的漏洞通过作弊手段来干扰检索结果导致检索结果的可靠性可能会有损失。
4.2 解决方法。
对于网页时效性问题可以将权重高的网络站点和权重低的网络站点分开处理,对高权重和低权重的站点内容分别以合适的高频率进行抓取,并将抓取的结果置于缓存中,索引程序对缓存中的数据进行处理,这样可以使得高权重与低权重站点抓取并行处理,数据抓取与索引建立并行执行。通过优化数据的存储结构,采用数据块的模式借助于散列表连接的存储模式可在一定程度上解决大数据存储问题。通过加强反作弊技术,将先进的数据挖掘技术与神经网络加速器硬件相结合可大幅度提高检索结果的可靠性。
参考文献:
[1] Mohammed A. Alam and Doug Downey. Analyzing the contentemphasis of web search engines.Proceedings of the 37th internationalACM SIGIR conference on Research & development in informationretrieval.SIGIR '14, Pages 1083-1086, 2014, ACM.
[2] Chavdar Botev, Sihem Amer-Yahia, Jayavel Shanmugasundaram.A TeXQuery-based XML full-text search engine. Proceedings ofthe 2004 ACM SIGMOD international conference on Managementof data. SIGMOD '04, June 2004, ACM.
[3] A. Gulli, A. Signorini.Building an open source meta-searchengine. Special interest tracks and posters of the 14th internationalconference on World Wide Web. WWW '05, May 2005, ACM.
[4] 吴小兰,汪琪 . 元搜索引擎研究综述 [J]. 图书情报工作,2009(9):46-49.
[5] 王文钧,李巍 . 垂直搜索引擎的现状与发展探究 [J]. 情报科学,2010(3):477-480.
[6] 秦长江,侯汉清 . 知识图谱--信息管理与知识管理的新领域 [J]. 大学图书馆学报,2009(1):30-37+96.
[7] 文振威,秦晓 . 个性化搜索引擎的研究与设计 [J]. 计算机工程与设计,2009(2):342-344+394.
原文出处:许瑞. 搜索引擎技术的发展现状与前景[J]. 中国新技术新产品,2017,(04):20-21.
相关内容推荐
-
面向网络爬虫的企业网站搜索引擎优化
网络爬虫作为搜索引擎技术的核心技术,是按一定遍历策略,以网页之间的链接为路径,抓取网页必要信息,并将其下载到本地存储设备上,以便进行信息预处理的程序或脚本。随着互联网的普及与搜索引擎技术的不断发展,网络爬虫技术作为搜索引擎的核心技术,已被...
-
网络爬虫企业网站优化措施
网络爬虫是搜索引擎技术当中的一类核心性技术,其技术主要是以遍历策略为基准,借助网页链接来收集整合网页当中必要类的数据信息,同时把其数据信息下载存储到本地的相应设备上,使得数据信息的预处理程序以及脚本等的使用变得更为流畅。...
-
-
三种开源网络爬虫性能比较
0引言在信息化时代,针对通用搜索引擎信息量大、查询准度和深度兼差等缺点,垂直搜索引擎已进入了用户认可和使用周期。垂直搜索是针对某一个行业的专业搜索引擎,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某...
-
-
动态Web页面的网络爬虫问题现状及解决方案
1网络爬虫的历史及现状网络爬虫是一个自动提取网页的程序,如果把互联网比喻成一个蜘蛛网,那么爬虫就是在网上爬来爬去的蜘蛛。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列...
-
搜索引擎技术中人工智能的引入研究
Internet网络技术的快速发展,使网络已经成为了人们日常生活不可或缺的一部分,它作为信息发布、传播的主要方式,Web拥有几亿页面的分布式信息空间,目前仍然以130~200d翻一番的速度增加。Internet信息广泛,涵盖量很大,要从中迅速找出自己需要的信息...
-
搜索引擎技术的研究动态
0引言面对着海洋似地互联网数据,用户要查询到自己所需要的信息,如同在大海里捞针,而搜索引擎技术的出现恰好解决了这一难题。搜索引擎技术目前已经成为研究开发的热点领域。一个成功的优秀的搜索引擎能够对互联网上的信息经过特定的检索策略,对各类信...
-
利用垂直搜索引擎技术实现心理数据库的数据采
武警部队因其性质和任务的特殊性,致使武警官兵较常人更容易出现心理问题,所以有关军人心理的研究工作已是当前部队科研的一个重点;而结合武警部队实际,应用当前心理学最新研究成果,则是现阶段武警部队心理工作的普遍方法.但针对我军官兵心理特点的科学研究是...
-
垂直搜索引擎核心技术研究及展望
垂直搜索引擎与计算机领域多个方面的发展与应用息息相关,其关键技术更是促进计算机领域进一步发展的重要突破口。所以,对于垂直搜索引擎关键技术的研究具有十分重要的意义。我国计算机领域虽然对垂直搜索引擎关键技术方面进行了一定的研究,并且其研究应用...
相关标签: