利用垂直搜索引擎技术实现心理数据库的数据采集和萃取,搜索引擎论文

　　武警部队因其性质和任务的特殊性,致使武警官兵较常人更容易出现心理问题,所以有关军人心理的研究工作已是当前部队科研的一个重点 ;而结合武警部队实际,应用当前心理学最新研究成果,则是现阶段武警部队心理工作的普遍方法.但针对我军官兵心理特点的科学研究是近一时期才逐步发展并形成的,一方面我们要检索具有武警部队针对性的文献资源,另一方面武警部队自己的研究点滴也需积累.随着我军信息化进程不断深化,针对武警心理研究文献资料的检索查阅以及经验累积已不仅是科研人员的工作所需,也逐步成为基层官兵学习心理知识并调整自身心态的一个有效的途径.因此,建立武警部队心理文献索引以及心理研究数据的武警部队心理数据库具有极大的实用意义.本文将主要论述如何利用垂直深度搜索引擎技术实现心理数据库的数据采集和萃取.

　　1 搜索引擎技术

　　论文摘要

　　搜索引擎技术是指用户通过查询界面输入搜索信息,通过网络或数据库得到相关信息反馈的技术,搜索引擎的工作原理如图1 所示.目前常用的搜索引擎有采用通用搜索引擎技术的囊括所有学科和主题的综合性搜索(如 google、百度等)、采用垂直搜索引擎技术面向特定学科和专业的专业搜索引擎以及面向搜索引擎的搜索引擎指南.垂直搜索引擎基于结构化数据和元数据的结构化抓取,因此使抓取的数据更符合专业特点、有针对性,用户可以利用这种技术从互联网、外部数据库抓取自己需要的信息构建自己的数据库应用系统,利用垂直搜索引擎进行数据采掘的搜索引擎技术是我们实现心理数据库信息采集的基础,如图 2 所示. 论文摘要

　　搜索引擎主要是利用爬虫(Spider)程序去自动地在互联网中搜索信息,主要有以下几个部分构成 :数据采集(抓取)、数据处理(筛选去噪去重)以及数据存储,图 3、4 分别是它的体系结构和系统结构.网页由文本、图片以及链接等元素构成,搜索引擎根据用户需求,选定一个种子,利用爬虫开始抓取页面,把符合要求的页面内容抓取到索引库 ;沿着网络上的链接从一个网页到另一个网页,遍历各个相关站点,把符合要求的页面抓取到索引库采集资料.从数据采集的角度来看,用户关心的是数据资源,Internet 上的网页以及数据库就是一个巨大的数据资源矿山,搜索引擎是开采数据资源矿山的机器,具有搜索勘探、提炼萃取、收集存储的功能.而对搜索引擎技术的研究就集中在各个采集阶段,主要涉及到爬行策略(爬虫)、分词技术、索引(存储)、排序检索算法等.

论文摘要

　　2 垂直深度搜索引擎技术与部队心理数据库

　　随着互联网信息化的深入发展,出现了大量业务型 Web 应用系统即 Web 数据库.这些数据库的 web 面之间的关系是非平行的垂直逻辑关系,垂直搜索引擎应运而生.它针对某一特定行业对网页库中的某类专门信息进行整合,可以定向挖掘专用数据进行处理,再以用户需要的某种形式返回给用户.武警部队心理科研成果、资源数据及心理学文献材料通常分散收录于多个文献数据库以及某些特殊数据库内,不但检索查阅不便效率低下,其覆盖范围也不足,经常存在"坏链""死链"现象 ;采取通常方法检索,其搜索结果均是基于关键字的简单拆分查询,不具备高级关键字分析处理功能,更达不到心理领域的专需效果,而且各文献数据库产品不同形式的人机交互界面(UI)也为科学检索带来了不便,因此利用垂直搜索引擎技术完成心理学专业相关的信息采集,设计并研究开发一套武警部队心理领域专需数据库,包括文献、成果、数据资源是我们的出发点.

　　分析搜索引擎的工作过程以及实际建库需要,其要完成的是一个人工智能系统,就是借助爬虫技术反向解析网络数据库大海中最原始的数据,取出数据,组织建立自己的数据库.也就是说爬行策略的核心是以用户关注的内容为根本,通过一种有效的方法将内容相关的 WebPage 重新分类,这需要爬虫通过多路径搜索对网页进行遍历,制定爬行策略,对每个工作步骤进行优化设计.

　　武警部队心理数据库所需数据目的明确、专业特性非常强,适合使用垂直搜索.在实际操作过程中,我们使用了垂直深度搜索引擎技术利用聚焦爬虫获取心理文献数据.其原理是 :爬虫要访问的文献数据库一般比较固定(如中国知网),爬取数据时,外层采用通用方法进行主题聚焦,对爬取到的数据进行特征分析,定位分析,制定爬虫爬取深度,通过一层层定位分析,将数据从最底层爬取出来.

　　3 性能优化的技术实现

　　由于心理数据库主要是针对特殊站点爬取大量的原始数据,其速度、爬全率以及稳定性是我们考虑的重点,因此在我们的实验中重点做了数据采集阶段爬虫性能上的改进研究.通常数据采集阶段的爬虫使用多线程并行采集(图 5),由于这种同步方式线程太多,发一次请求响应一次,若采集量较大则需要等待挂起,会引起阻塞,造成死机现象,因此我们采取了异步非阻塞的单线程方法进行采集.这种串行异步单线程采集方式,可以连续发送请求,一次发送多个请求,进入队列进行等待回答,因此不会引起阻塞 ;另外由于抓取 URL 后系统要通过 DNS 解析分析对 URL 进行分析、消重去噪,在 DNS 解析时采取多线程分析,可以缩短系统解析时间 ;对垂直深度聚焦爬虫,由于采取的是针对某类服务器进行数据抓取,其 ip 地址固定,将 DNS 进行缓存,可以实现一次解析多次抓取的通道全连接模式,直到完成所有请求之后才断开连接,大大提高了采集性能.另外在此过程中,增加容错设计,若某一 URL 抓取不成功,设定阈值,防止死锁,并将其缓存到另一台服务器上,必要时再重新抓取.经过上述技术处理后,数据采集爬虫的性能得到了大幅提高.以下是抓取结果对比 :

　　4 结论与改进

　　搜索引擎技术的发展使得大数据时代的专需数据不至于被淹没在信息大海中采集不到,但要想数据采集的准确、全面需要在搜索引擎工作的各个阶段进行深入研究提高性能.本文采取异步非阻塞的爬行策略对心理数据库所需资源进行了垂直深度搜索,数据采集性能上有很大提高,下一步将要进行的工作是心理专用分词技术以及排序检索算法的研究.

　　参考文献

　　[1] 李晓明 , 闫宏飞 , 王继民 . 搜索引擎--原理、技术与系统(第二版)[M]. 科学出版社 .2012.5

　　[2] 王晓艳 , 于光华,刘双春 . 经典搜索引擎排序算法的比较与分析 [J]. 产业与科技论坛 .2012.(11).24:49-51

　　[3] 马慧 . 面向特定网页的 Web 爬虫的设计与实现 [D]. 吉林大学大学 .2012.12

　　[4] 邱晓俊 . 面向特殊主题的排序与检索算法研究 [D]. 江西理工大学 .2011.12

　　[5] 焦赛美 . 网络爬虫技术的研究 [J]. 琼州学院学报 .2011.(18).5:28-30

　　[6] 罗武,方逵,朱兴辉 . 网络搜索引擎排序算法研究进展 [J].湖南农业科学 .2010.7 :137-140

　　[7] 刘喜亮 . 面向主题的网络爬虫设计与实现 [D]. 湖南大学 .2009.6