摘 要: 随着内蒙古多年以来的电网建设以及信息化建设, 电力营销对数据整合能力以及信息搜索速度要求越来越高, 因此, 在电力公司对数据搜索能力进行提升的需求下, 本文就如何对目标数据进行快速搜索, 提出一套智能搜索引擎的总体架构。该引擎在架构上采用分布和集中相结合的模式, 并通过对数据库索引建立方法的改进, 以及对由遗传算法演化而来, 具有自适应能力的索引算法的改进, 使得该基于大数据的营销数据智能搜索引擎提供的智能化营销数据搜索方式极大提高了检索速度以及结果准确度, 成为营销业务处理过程中不可或缺的用户助手。
关键词: 智能搜索; 大数据; 检索算法;
Abstract: With the construction of power grid and information technology in Inner Mongolia for many years, power marketing requires higher and higher data integration ability and information search speed. Therefore, in order to improve the data search ability of power companies, this paper puts forward an overall framework of intelligent search engine on how to search target data quickly. The search engine adopts the mode of combination of distribution and centralization in its structure. Through the improvement of database index establishment method and the improvement of index algorithm with adaptive ability evolved from genetic algorithm, the intelligent marketing data search method provided by the intelligent marketing data search engine based on large data is greatly improved. It improves the retrieval speed and accuracy of the results, and becomes an indispensable user assistant in the process of marketing business processing.
Keyword: intelligent search; big data; retrieval algorithm;
0 、引 言
随着内蒙古电网多年以来的信息化建设, 电力公司采集的数据量与日俱增, 加上数据结构日益复杂, 使得在现有系统下, 从这些庞大而复杂的数据中搜索目标数据势必会耗费大量的时间。因此, 本文对原有系统的数据库与搜索算法升级, 从而适应现在的数据搜索需求。
在数据库方面, 目前的结构化数据库, 在进行快速检索时, 系统需要在几百亿条记录中查找到关于某用户在某一天的用电量记录, 超出了一般软件的快速分析处理能力。所以在庞大的数据中能够准确快速地查找相应的数据成为了关键。
而在搜索引擎方面, 由于电力公司需要的是面对数据的搜索, 但现有搜索引擎都以文档和网页搜索为主, 所以需要提出更高效且有针对性的搜索引擎方案。
综上所述, 为了更快地搜索目标数据, 并在大数据背景下提供全方位的数据存储、查询与挖掘服务, 本文在对内蒙古电力公司信息化系统和现有的数据存储与搜索方式进行调研分析的基础上, 通过对数据库的索引方式与搜索引擎的搜索算法的改进, 提出一套智能搜索引擎的总体架构。
1、 智能搜索引擎总体架构
智能搜索引擎的总体架构分为以下2个方面:
1) 在硬件架构方面, 随着内蒙古电力多年以来的电网建设以及信息化建设, 营销部门的数据量在持续增长并且数据结构也日趋复杂, 这时将营销、管控等业务单元全部集中部署在一台大型机上, 已无法满足内蒙古电力公司对其数据搜索以及处理需求。因此, 本系统采用分布式的方法部署, 从而大大提高服务器的性能和总体服务质量。
2) 在软件架构方面, 电力营销数据智能搜索引擎总体结构由图1所示的4个部分组成。系统首先将电力营销、线路检修等系统提取出的相关数据, 综合外部经济因素等数据, 通过数据接入层, 把这些数据采集接入, 随后通过去冗以及矛盾实体的识别, 将没有价值的数据、错误的数据等进行过滤, 之后进行建模、聚类抽样, 建立起数据索引, 为后面的检索算法做好基础。最后通过索引算法进行快速的数据检索[1]。
图1 智能搜索引擎总体架构
2、 智能搜索引擎数据库
数据库是以一定方式存储于一起, 有较小的冗余度, 给予多个用户共享的数据集合[2]。一个结构良好的数据库可为搜索引擎的高效性和结果的有效性打下坚实基础。本系统从数据接入、数据集成和规约、数据索引建立3个方面来构建智能搜索引擎的数据库。
2.1、 数据接入
数据的采集接入将电力公司下的各个业务系统数据、外部环境数据导入数据库。主要通过以下几种方式:
1) 通过人工采集, 制作成约定格式的文档, 经过导入程序, 将人工采集到的数据导入系统。
2) 使用标准API接口获取营销数据并导入系统。
3) 采用爬虫技术来获取外部需求数据, 例如宏观经济数据等。
2.2、 数据集成和规约
当存在多个分散的数据仓库时, 重复数据会对存储、查找造成资源浪费, 因此对采集到的数据进行集成和规约必不可少。
在数据集成中, 最重要的冗余属性的识别是将具有相关属性的数据从不同的仓库中抽出并整合, 然后经过相关性分析得出不同属性的相关系数。将相关性较高的属性剔除后, 实现数据的集成[3]。
数据的规约包括2个方面:
1) 属性规约, 即削减属性个数或将多个旧属性归并成一个新属性。
2) 数量规约, 即通过选择替代的、较小的数据来减少数据量, 分为有参数数据和无参数数据[4]。
其中有参数数据的处理只需进行建模并存放模型的参数即可[5]。而对于无参数数据的处理, 采用图表存放并显示数据。
电力大数据的特点之一就是数据的多样化[6]。信息可能由于多种因素导致录入错误, 而规约就是发现并且纠正数据文件中可识别错误的一道程序。
如果对于数据审查过程中发现的异常值不选用适当方法进行处理, 会对后续的统计分析造成严重影响。因此有效的集成和规约, 是影响数据搜索准确性的关键因素。
2.3、 数据索引
当数据进入系统后, 需要根据字段名称与数据库字段进行对照, 从而形成系统的数据定义[7]。
索引问题最重要的是高效查找数据[8]。当服务器面对众多繁杂的数据, 建立数据库索引是提高搜索的速度以及准确性非常实用的方法。建立数据索引就是在数据库管理系统中创立一个排序的数据结构, 从而协助实现数据的快速查询、更新[9]。
索引的创建, 不仅仅保证数据库表中数据的唯一性, 同时也将数据检索速度提升了一个档次[10], 使得查询的效率得到极大提高, 并且对表和表之间的连接也起到了加速作用, 可以显着减少查询中分组排序的时间[11], 同时在实现数据的参考完整性方面也具有重要作用[12]。
因此在实现过程中, 本文将索引引入内蒙古电力营销数据智能搜索引擎中。在对数据内容进行扫描, 分配对应大小内存来建立索引的过程中, 由于传统方式的词典信息一直在内存中进行维护, 使后续的中间结果可用内存越来越少, 所以本文通过改进建立索引的过程, 在内存中数据写入磁盘的同时, 将词典、所有中间结果信息写入磁盘, 使内存空间得到释放, 从而在后续的索引建立过程中, 实现全部定额内存的使用[13]。通过对索引的引入以及建立过程的改进, 有效地提高了内蒙古电力营销数据的搜索速度。
3、 智能搜索引擎的算法实现
3.1、 检索方法
对于电力数据, 经常需要从不同维度进行检索, 这就需要根据用户的目标, 将复杂结构的数据转换成单一结构的数据进行过滤。本系统在数据处理过程中通过加入过滤器, 并设定聚类或关联分析的规则, 剔除搜索条件中不符合的数据和参数, 从而确保检索的高效以及结果的准确。
除此之外, 系统运用分布式文件系统、批处理等技术, 通过对用户的检索需求点以及需求度进行分析处理, 进而动态调整检索策略, 如果检索结果符合需求则直接输出;如果检索结果不符合需求则重新调整检索策略, 形成一个对检索策略的反馈机制, 如此反复直到检索结果符合用户的检索需求[14]。
系统的智能搜索主要体现在2个方面:1) 对人类自然语言的处理, 需要通过文本分类、语义理解, 加上日常使用的反馈, 构建良好的知识库[15], 从而使智能搜索引擎在理解用户的搜索目的后重新组合关键词, 更好地满足用户请求;2) 对搜索原理和技术的研究, 如基于NLP技术与相似度、基于认知科学以及基于计算语言等的研究[16]。通过原理和技术不断改进, 搜索效果也会不断优化。
3.2、 搜索流程图
营销数据智能搜索引擎的算法流程如图2所示。首先通过对用户的需求检测进行编码的检索。在经过已经建立了索引词典的数据库中进行智能全局搜索与特征值的匹配, 由于索引是按照B树的数据结构建立, 所以整个过程不会花费很多时间。
图2 索引算法流程图
之后对检索结果进行动态跟踪, 如果搜索结果为符合用户需求的最优解, 则直接输出搜索的结果;如果不是, 则系统会对现有的索引算法进行调整, 并二次检索。通过不断迭代, 将现有的算法优化到一个平衡的状态, 能够在尽可能短的时间内搜索到符合用户需求的最佳数据结果。
3.3、 改进后的索引算法
改进后的索引算法是一种受遗传算法启发而演化出来的算法。传统的遗传算法有许多参数, 如交叉率、变异率, 这些参数选择的好坏直接决定了结果的准确性。同时旧遗传算法不能及时利用网络的反馈信息, 故算法的搜索速度比较慢, 要想得到较为精确的结果需要较长的训练时间。
同时由于旧的遗传算法对初始种群的选择有一定的依赖性, 所以以下结合一些启发算法进行相应改进。
本文使用对个体最优解进行记忆并共享种群信息方法, 并称这个最优解记忆为适应度。通过适应度对种群进行优先划分, 同时在贪婪选择策略的基础上, 加入一个新的变量R从而使搜索引擎可以在综合众多信息的条件下快速查找最优解。
算法首先将问题的可行解空间随机初始化X0=[X0110, X0220, …, X0NpΝp0], 其中Np表示种群规模[17], 个体x0ii0=[xi00i, 1, xi00i, 2, …, xi00i, D]用于表征问题解, 其中D表示优化问题的维数[18]。
图3 算法原理图
算法的步骤如图3所示, 关键节点的方法与作用如下:
1) 初始化。
将种群进行初始化, 其中i表示个体数量, j表示维度[19], rand (0, 1) 表示选取0~1的随机数。
{Xi (0) |xLi,ji,jL≤xi, j (0) ≤xUi,ji,jU; i=1, 2, …, Np; j=1, 2, …, D}
xi, j (0) =xLi,ji,jL+rand (0, 1) (xUi,ji,jU-xLi,ji,jL)
2) 变异。
索引算法主要是通过差分策略来实现个体的变异, 本文的差分策略是先在种群中随机选取2个不同的个体, 然后缩放向量差, 再与待变异个体进行向量合成, 其中r1、 r2、 r3表示3个随机数, g为代数, F表示缩放因子[20]。
Vi (g+1) =Xr1 (g) +F (Xr2 (g) -Xr3 (g) )
3) 交叉。
索引算法通过交叉随机选择个体。其中Cr为交叉概率, 算法通过概率的方式生成新个体[21]。
Ui,j(g+1)={Vi,j(g+1),xi,j(g),rand(0,1)≤CrotherwiseUi,j(g+1)={Vi,j(g+1),rand(0,1)≤Crxi,j(g),otherwise
4) 选择。
为了避免搜索过程陷入局部最优解, 同时加快搜索的速度, 索引算法在使用贪婪选择的策略的基础上, 加入一个新的变量R[22]。加入变量的目的是使索引算法的参数直接影响搜索引擎的性能。
Xi(g+1)={Ui(g+1),Xi(g),f(Ui(g+1))≤f(Xi(g))otherwiseXi(g+1)={Ui(g+1),f(Ui(g+1))≤f(Xi(g))Xi(g),otherwise
索引算法在搜索引擎中采用实数编码, 无需标记特征信息, 简化了检索过程[23]。索引算法可以记忆搜索条件, 自动调整搜索策略进行更加精准的搜索法。
4 、建设成效
为了验证改进的索引算法的效果, 以内蒙古营销部门的营销数据为数据源对2种算法进行对比。电力营销部门的主要数据包括:盟市局总体电量、售电量、年电量计划完成、市场占有率、业务报装超期数、客户投诉量、计量采控统计、客户实抄率、用户累计欠费、冻结户率。前后搜索效果如表1所示。
表1 算法改进前后性能对比
从表1可以看出, 基于改进的索引算法在缩短搜索耗时的同时, 将搜索准确度由原先的75%提升为92%, 极大提高了搜索的速率与结果准确度。
使用本套智能搜索引擎后, 在大数据分析场景应用方面, 围绕营销客户、部门项目等多个业务领域, 针对营销工作人员想要搜索的内容与数据, 可以协助其快速准确搜索到。伴随公司多年以来的电网建设以及信息化建设, 生产、营销系统等多套核心业务系统的数据全量接入系统, 并基于数据资源开展数据管理工作。从业务与技术角度梳理业务数据模型, 形成了数据资源字典, 从而方便业务人员和技术人员随时查询和应用数据分析域的数据资源, 优化了营销数据服务的构建。
5 、结束语
本文从系统总体架构以及数据库索引建立与索引算法3个方面介绍了营销数据智能搜索引擎的实现, 并对以往的索引确立机制和索引算法进行了相应改善。
营销数据智能搜索引擎构建了内蒙古电力营销数据中心数据分析域, 克服了传统技术扩展性不强、建设成本高的缺点, 能满足内蒙古电力营销部门当前对全类型营销数据存储、处理、分析及应用的需求。
随着电力行业不断地推进改革与发展, 数据智能化与数据快速处理已处于时代的发展前沿, 营销智能引擎提供的智能化营销数据搜索方式必定会在实践中取得更多的成就, 它将成为营销业务处理过程中不可或缺的助手。
参考文献
[1] 董浩.基于OLAP的医院多维分析与决策支持系统[D].西安:西安电子科技大学, 2015.
[2] 汪金涛.面向渔场分析的数据预处理方法研究及系统实现[D].上海:上海海洋大学, 2012.
[3] 郑俊玲.基于KPCA的大学生学业预警模型及其应用[D].唐山:华北理工大学, 2015.
[4] 李丽.基于Netflow的端到端流量监测系统的设计与实现[D].北京:中国科学院大学, 2014.
[5] 李莹.MySQL索引背后的数据结构及算法原理[J].现代交际, 2015 (8) :117.
[6] 吴峰.基于B/S结构的税务管理信息系统的设计实现与关键技术研究[D].西安:西北工业大学, 2005.
[7] 张若维.基于Oracle的炼钢—连铸综合优化系统信息平台的设计与实现[D].沈阳:东北大学, 2012.
[8] 彭方林.西昌学院教学综合管理系统的设计与实现[D].成都:电子科技大学, 2009.
[9] 郭紫芳.垂直搜索技术在石油勘探生产门户中的应用研究[D].西安:西安石油大学, 2014.
[10] 赵欣.中国B2C电子商务企业发展模式与竞争——以当当网和卓越网为例[D].北京:北京大学, 2008.
[11] 王海霞.基于遗传算法的FMS调度问题研究[D].西安:西安理工大学, 2007.
[12] 田龙.大爆炸算法研究及在大气质量污染等级评价中的应用[D].广州:广东工业大学, 2016.
[13] 胡丽华.基于微分进化算法的接地网故障诊断研究[D].宜昌:三峡大学, 2015.
[14] 洪越.遗传算法在随机分布控制中的应用综述[J].现代工业经济和信息化, 2018 (17) :72-73.
[15] 刘思皖.数据挖掘技术在智能搜索引擎中的应用[J].科技创新与应用, 2018 (36) :39-40.
[16] 吕璐, 高一弘.智能搜索引擎在数字图书馆个性化信息服务中的应用[J].科技文献信息管理, 2018, 32 (4) :32-35.
[17] 徐家慧, 叶健辉, 殷智, 等.电力调度知识领域的智能搜索关键技术研究[J].中国科技信息, 2018 (20) :80-81.
[18] 陈宏君.遗传算法在计算机网络优化设计中的应用[J].哈尔滨师范大学自然科学学报, 2018, 34 (3) :89-93.
[19] 王非.基于聚类及关联度分析的供电公司电力营销稽查的研究[D].成都:西华大学, 2018.
[20] 王丹.基于电力营销系统实现客户自助电量电费查询[D].大连:大连理工大学, 2017.
[21] 李建伟, 李妍, 王健.改进的BP算法在短期电力负荷预测中的应用[J].微型机与应用, 2017, 36 (14) :61-63.
[22] 杨客.遗传算法优化的BP神经网络在连云港港口吞吐量预测中的应用研究[D].深圳:深圳大学, 2017.
[23] 张斌, 毛元, 董海鹰.基于混合算法的单端行波故障测距方法研究[J].控制工程, 2017, 24 (6) :1270-1276.
大数据的理论及特征胡春明:大数据在今天已经不是一个新鲜的词汇。不管以前是不是叫大数据,人们都是在用数据看世界。数据分析方法往往采用了统计学上的采样法。只要采样方法在一些情况下足够好,样本数据就能足够反应真实世界的特点。从得到的样本数据...
1引言技术创新服务平台的建设需要智能搜索引擎技术,虽然现阶段在互联网领域搜索引擎众多,但都是大而全,不是小而精,适用虽然广泛,但针对性不强,很难提供个性化的、精准的搜索结果。技术创新服务平台上对搜索引擎的要求,与大众的搜索引擎的需求还是不...
搜索引擎是我们工作、学习和生活中必不可少的实用性技术,正如一个调查中所显示的,85%的人都是通过搜索引擎获取到他们所需要的信息和所喜爱的网站,可见搜索引擎的重要性。随着智能技术的不断更新,人们的生活变得越来越智能,对搜索引擎的要求也会随之越来...
本文就案例解读法和文献研究法,阐述大数据趋势下搜索引擎用户所面临的信任安全威胁:数据搜索准确程度变低导致信息失真、过于注重“数据废气”挖掘引发信息泄露、“数据滥交”引发诈骗危机这些问题,提出在大数据环境下提升搜索引擎用户信息安全的部分措施,...
大数据时代已经到来,随着互联网的不断发展,人们无时无刻不在产生新的数据,并且堆积新的数据,人们也可以使用已经存在的大数据分析出新的数据,得到新的答案。搜索引擎在我们的现实生活中已经成为不可缺少的一部分。...
一、引言1999年,中国政府上网工程开启,政府门户网站建设逐渐受到各级政府领导和职能部门的重视,其发展历程可以归结为起步、普及、深度发展、融合发展四个阶段。近年来,政府门户网站的功能定位从信息发布、政府信息公开、公共服务向智慧政府门户转变,在...
在大数据时代,搜索引擎帮助用户获取了众多的信息,给用户带来了极大的方便。但是,也引起了一系列的信息安全问题。因此有必要就大数据趋势下的搜索引擎用户信息安全问题进行深入探讨。...
搜索引擎是联系用户和数据库信息的重要桥梁。当前各场景中的搜索引擎均面临着挑战,对于数据库中许多相近内容及相关项目,搜索引擎该如何理解用户需求,且准确找到有用信息,是目前亟待解决的难题。...
一、智慧搜索搜索引擎如谷歌、百度等成了人们访问互联网离不开的助手。遗憾的是,尽管用户每天在使用搜索引擎,但是对搜索的抱怨也总是不断。因为每次搜索的结果,有精华也有糟粕,有自己所要的信息也有和自己目标完全无关的东西。例如,我们查询长城,本意...
大数据搜索引擎中的图片搜索技术有了一定的发展,但有时搜索到的图片与原图片的相似度还有一定的差距,随着互联网技术的飞速发展,图片搜索引擎的功能一定会越来越完善强大,为用户所提供的服务质量也会越来越高,让用户越来越满意。...