0 引言
众所周知,搜索引擎已成为互联网必不可少的一部分,它深刻的改变着现在互联网的整体结构。继百度之后,各种搜索引擎层出不穷,360、搜狗、有道等都有了自己的搜索引擎。
搜索引擎的关键需求集中在前三。所以前三的结果怎样更好的满足需求成了迫在眉睫的需求,百度知心正是应着这样的背景出现的,本来一条条的结果看着毫无新意,需要用户点进去查找自己想要的。但是通过特性展现,把多条结果组合起来,给人耳目一新的感觉,更好的满足了用户的需求。对于一些没有明确需求的用户,展现出的丰富内容也可能成为用户的满意需求,更好地提升了用户的搜索体验。
特型展现是指以信息图谱的方式满足用户的需求,使用户通过搜索关键词获得完整的信息脉络。以前搜索的结果都是给出单条的回答,百度知心却是将多条内容合并以信息图谱的方式呈现给用户需求内容的全部信息。实现了 1+1 大于2 的目标。例如,百度搜索电影,给出的不在是一个网站,而是各式各样的电影。用 360 搜索刘德华,给出的也不再是关于刘德华信息的一个网站,而是汇集了百科、影视作品、新闻等各方面的内容。满足用户对各个方面的需求。百度知心一方面缩短有潜在需求用户的搜索成本,另一方面希望可以激发新的用户需求。特型展现的分类有很多,主要包括问答、影视、人物、医疗、商品等。每一类问题的需求都不一样,给出的内容也不一样例如影视需求是电影的播放、上映时间、百科。而商品需求是售卖的网站,相关的价格等。下图给出的是两种完全不同的特型展现。一个是理解用户意思,不需用户点进去链接查找,直接给出答案。另一个是用户泛需求,给出的是与搜索词相关的热门的需求较高的内容。
1 起源
特型展现最早起源于 Google,当你在 Google 输入“KobeBryant”的时候,它不止会给出检索出来的信息,还会在右侧给出一个信息图谱,给出了关于 Kobe 的相关信息。包括维基百科、图片、同领域的人物。基本满足用户对这个人的所有需求,同时通过同领域人物可以启发用户的潜在搜索。用户的满足感增强,需求升高。有时甚至用户自己都不知道需要什么,但却通过搜索引擎找到了自己想要的。这一模式的革新,带来了特性展现的新时代。而后以百度为首的各家搜索引擎,都相继给出了自己的特型展现模型。不同的是大家发现,这条特型展现的结果比任何一条单独的新闻、百科都好。于是把这一条结论放到了第一条,而不是右侧。而今,这样的特型结果已不止是在人名方面,还包含了影视、问答、购物、医疗等方面。
2 基础技术和研究状况
特型展现的基础和主要技术有知识库构建、语义分析技术、知识挖掘、机器学习、知识生成和语义计算。
2.1 知识库的构建
知识库的构建主要包括以下几个方面:
(1)专有名词的知识库:该知识库中包含主要应用领域的专名资源,同时包含专名的各种丰富信息,如专名的分类、热度、突发性等等。
(2)属性知识库:是指“实体-属性-值”,如“韩寒-职业-赛车手、作家、歌手”等。这样我们就能看到搜索内容的答案不需要我们在进入内部网站进行查找,而是直接给出。从多种资源中挖掘出相关属性的知识,所使用的资源包括:结构化和半结构化知识;外网垂直站点中的结构化和半结构化知识等。
(3)上下层知识库:该知识库中存储的是词之间的概念关系,如“动物”->“猫科”->“老虎”是逐层细化的概念等。该知识库的作用在于概念的泛化、特化及知识推荐等。
(4)相关知识库:相关知识库是指有内在关联的实体,比如人与人之间的关联(例如:杨幂、刘恺威(夫妻))、电影与电影之间的关联(例如:哈利波特、霍比特人(类型:魔幻))等等。
(5)标签知识库:对相关内容进行标签分类,以便后期更好的检索和挑选。如电影“机械战警”的标签有“电影”、“科幻”、“游戏”等等。这些标签对实体的描述来说会起到一定的补充作用。
2.2 语义分析技术
语义分析技术超越了传统搜索只按关键词的字面进行信息查找的层面,比较传统搜索引擎更加智能。这表现在实体搜索对关键词的分析更加精细,先分析出关键词的实体类型,比如:动植物、小说、影视等,再分析出关键词中包含的有关这个实体的属性,比如:花,什么颜色、生长季节、表达含义等等。
充分理解关键词想表达的意思,得到用户真正的需求。
语义分析技术包括以下几部分:
(1)词语相关性分析:从用户关键词中解析出用户的真实需求以及与相关内容之间的依赖关系。
(2)相关知识设计模块:找出知识之间的关联性,并在知识展现时予以推荐。如用户搜索“房祖名父亲”,我们需要计算出房祖名的亲戚中有很强的需求关联的内容,从而进行相关知识的推荐。
(3)结果聚类部分:对检索结果进行聚类,并从每类中抽取有代表性的语义标签。根据语义标签的符合度,用于搜索词的潜在需求扩展。
(4)知识展现相关度:基于当前用户需求,决定对检出知识的取舍和展现。这其中需要考虑的因素包括:用户的真实需求、潜在需求、相关性、时效性、知识的内在关联、知识的重要性、知识的娱乐性等等方面。
2.3 知识挖掘技术
知识挖掘一般分为:
(1)知识资源的整合,整合内容主要包括百科知识类资源、领域相关知识、海量网页资源、用户日志挖掘与统计四个方面,生成一个关于实体的信息数据库。库内包含海量的信息实体,还要有能精确描述实体的相关属性。
(2)对整合后的资源进行挖掘,例如三元组知识挖掘技术:自动挖掘特定领域垂直站点上的结构化/半结构化知识。上下位概念挖掘技术:基于海量网页库挖掘概念的上下位(即泛化与特化)。
知识挖掘是一种决策支持过程,采用统计学和人工智能学的技术对资源进行整理。其主要技术手段是统计方法,包括数理统计、多元统计方法、时间序列分析方法等。人工智能是以自动机为手段,通过模拟人类的思维习惯,高效率地解决现实世界的问题。知识挖掘仅仅利用了人工智能中一些已经成熟的算法和技术,比如:人工神经网络(Art-ificial NeutralNetworks)、遗传算法(Genetic Algorithms)、决策树(DecisionTrees)、规则推理(RuleInduction)、模糊逻辑(Fuzzy Logic)、CVSM 等。此外,运筹学、专家系统技术的发展也为知识挖掘提供了新的思路,其复杂性和难度比人工智能低得多。
2.4 机器学习
机器学习是指研究计算机如何模拟或者实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。如图 1 所示:基本流程分为样本选择、特征提取、模型训练、效果评估,最后获得一个稳定实用的系统,最后把获得的信息反馈给学习部分。
2.5 知识生成
知识生成主要包括相关实体挖掘,实体语义标签挖掘等。相关实体挖掘技术:使用大规模查询日志统计挖掘高度相关的实体对,以用于实体推荐;实体语义标签挖掘技术:使用网络挖掘技术,为实体自动标注语义标签。
3 特型展现的体系结构
特型展现的体系结构可以采用资源层、中间资源层、控制层、功能层 4 个层次来加以描述。互联网环境下进行知识挖掘的数据基础就是网络本身。互联网可以看作一个具有复杂功能、多层次的信息库。通过对信息进行采集和过滤,利用文档分类的技术初步将 Web 页面分为不同的类。
同时,从用户的角度出发,跟踪用户信息,收集恰当资源,作为构建用户兴趣模型本体的信息来源。将数据资源转化为某一个特定的分类体系,这就构成了 KMA 的中间资源层。
这样做的主要目的是为了解决知识融合和知识共享的问题,因为这个分类体系是不依赖于任何一种特定语言的。但是由于各个本体是相对独立的,这就需要在各个本体之间建立起一个关系表,以此真正地做到融合与共享。在控制层,利用知识挖掘算法,在知识过滤、知识共享和知识重用的基础上,对知识进行重组和整合,以此来达到信息整合的目的。在功能层,为用户提供多种形式的信息服务平台,以满足不同用户群的不同要求。
4 不足和发展方向
特型展现的搜索词条数依然较少,在整个搜索词的 10%左右,还可以进一步的进行扩充,现在只是对一部分特别热门的搜索词进行了特型展现,特别是例如游戏、小说、书籍等方面。另一方面,展现的内容看似丰富多彩,但点进去相关内容的质量却有很大偏差。例如搜索一部电影,给出的特型有播放,但点进去却是不能播放或者已下线。还有一部分热门的特型展现没有覆盖到,例如搜索进击的巨人,本来是一部动画,360 却连视频都没有给出,只给出了漫画。
特型展现在搜索引擎中已成为越来越重要的部分,以后会向覆盖范围更广,更智能化更人性化的方向发展。覆盖范围广是指特型展现覆盖的搜索词更多,内容更新更频繁,而且激发用户对一些潜在需求的兴趣,不但能了解一个点的知识,还能了解一个面的知识。智能化和人性化是指更好的分析用户的需求,给出更人性化的回答,而不是冷冰冰的一条链接。在大量用户行为数据库的分析中,针对不同人的不同兴趣和爱好,给出不同的回答,给出更符合人物特征和性格的回答。
5 结语
本文主要介绍了互联网搜索引擎的特型展现技术。它是以“语义识别”和“知识库建立”为基础,通过机器学习模型来做支撑,在全网范围内,针对不同形态知识收集、整理及挖掘,生成更加结构化的数据并将最相关的数据展现到用户面前。
这种创新技术,是高度运用了语义分析等技术计算和信息生成来实现实体知识的深度挖掘,从而达到让搜索结果更加丰富化,并融入各形态的直接信息及关联信息,为本体知识库创造更加立体化的呈现,更好地满足用户的搜索需求。(图略)
参考文献:
[1] 曾铮。互联网环境下的知识挖掘研究[J].情报理论与实践,2005,28(2):135-138.
[2] 张兴华。搜索引擎技术及研究[J].现代情报,2004,4:142-145.
[3] 李宁。知识挖掘技术及应用[J].情报杂志,2003,6:34-36.
[4] 徐建华。 网络搜索引擎原理特性分析及未来发展趋势 [J].图书情报工作,2000,8:34-38.
[5] 邱诚。 搜索引擎及其发展浅析 [J]. 图书馆研究与工作,2002,(2): 8-10.
经过3~5年的飞速发展,目前桌面搜索和移动搜索几乎各占半壁江山,移动搜索大有赶超桌面搜索,成为主要搜索途径之势。2013~2014年中国搜索引擎行业竞争持续升级,百度独领风骚的同时,几大追随者毫不懈怠,持续练就内功,同时借助外力,以期对百度构成威胁...
本文从卷烟企业对信息数据检索的需求出发,论述了基于Solr开发出符合自身企业的搜索引擎的可行性,介绍了有关搜索引擎及Solr的相关知识。...
0引言信息检索系统主要为互联网用户提供对资源的检索服务,用户通过输入自己想要寻找的资源信息(诸如资源的部分名称,资源内容中相关关键词等),信息检索系统根据用户提供的检索需求进行资源匹配和资源定位,并按照一定的顺序将匹配的资源反馈给用户。搜...
1引言互联网的深入发展带来了各种类型信息资源数量的快速膨胀。截至2014年6月,我国拥有273万个网站,3.3亿个IPv4地址[1].面对浩瀚巨量的网络资源,用户通过搜索引擎快速获取所需信息尤为重要。目前,我国搜索引擎用户达4.9亿;网民平均使用...
1、引言近年来,随着数字化教育浪潮的不断推进,我国在教育资源建设方面已经取得了巨大的成就,各类教育资源的数量巨大且呈现几何级数增长。随着搜索引擎技术的发展,通用搜索引擎的功能变得日益强大,取得了很大的成功,但其仍有局限性,如搜索的深度不够,...
上世纪中页,传播学家麦克卢汉曾在《理解媒介:论人的延伸》中提出:媒介是人感觉能力的延伸或扩展。这一经典概念的重要意义,在于将人的单一感官和媒体的传播特征进行了对应。例如,从视角延伸到印刷媒介,从听觉延伸到广播以及视、听觉共同延伸到电视。而...
搜索引擎经历近30年的发展,目前在使用的有几种类型,如全文搜索引擎、分类目录搜索引擎、多元搜索引擎、集成搜索引擎等。但这些都是网络上的公用商业搜索引擎,它们往往不能满足企业的需要。...
第4章模型构建及假设提出。本章在前两章文献综述和理论分析的基础上,结合访谈的结果提出了搜索引擎优化方法和效果的维度,并构建了两者的概念模型,提出了各研究变量之间的假设关系。4.1访谈。访谈法是指研究者通过面对面、QQ等访谈方式,与受访者...
在搜索引擎技术的发展之下,智能检索作为一个新型的检索方式已经渗透到了网络数据的设计中,该种检测方式能够帮助人们检测出高质量的信息,是检索方式发展的一种必然需求,将数据挖掘技术应用在网络资源可以实现智能检索的发展,也能够为人们提供出更加具有针对性...
引言随着因特网中搜索引擎的发展和进步,油田数据的资源共享以及信息的集成都较之前更加便捷和有效了。从因特网搜索引擎的思想出发,借助SES系统的数据采集和搜索的机制,并且结合油田的信息和数据的共享的特点,制定了一套从结构体系好以及安全智能为主要...