知识图谱的数据来源、挖掘及更新维护,搜索引擎论文

　　2001 年维基媒体基金创建了维基百科，访问量排名世界第六，2012 年 12 月到 2013 年 12 月期间，它损伤了近 10%即20 亿的页面访问量，其中英文版、德语版和日语版的浏览量分别下降了 12%、17%和 9%.虽然维基百科的管理员认为这其中可能存在统计错误，但是其他专家认为是去年 Google推出的知识图谱功能导致了维基百科访问量下降。如果问题能在搜索页解决，那么就没必要去维基百科查找了。

　　随着近两年，Linking Open Data 等项目的全面展开，数量激增的语义 Web 数据源，大量 RDF 数据发布，互联网从仅包含网页和网页之间超链接的文档万维网转变成包含大量描述各种实体和实体之间丰富关系的数据万维网。谷歌、百度、搜狗搜索引擎公司以此为基础构建知识图谱，改进搜索质量，语义搜索的序幕就此拉开。什么是知识图谱？知识图谱的表示在搜索中的展现形式，知识图谱如何构建，如何在搜索中应用？知识图谱是谷歌在 2010 年收购的开放式数据库公司Metaweb 率先提出来的。知识图谱也被称为科学知识图谱，它是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。知识图谱把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制展示出来，揭示知识领域的动态发展规律，为学科研究提供切实的、有价值的参考。

　　搜索引擎中的知识图谱技术是以知识卡片（ KnowledgeCard）的形式展现出来的。在搜索关键词时，知识卡片会为用户提供更多与关键词相关的结构化内容信息，也就是说可以将搜索结果进行知识系统化，任何一个关键词都能获得完整的知识体系。比如搜索“帕金森综合症”是一种什么病，传统的搜索结果里面会有一些诸如“XX 最近得了帕金森综合症”的新闻，或者是网友发帖提问“帕金森综合症到底是什么”帖子，又或者是一些治疗帕金森医院的信息或广告，其实你一一浏览这些网站对了解这个疾病帮助不大，这就大大降低了你获得知识的效率。知识图谱技术应用到搜索引擎中后，当搜索“帕金森综合症”后，点击下方出现的知识图谱，图谱上面会呈现有关“帕金森综合症”的权威信息，例如“帕金森综合症”的症状、易感人群、治疗方法，这就保证了获得知识的效率。虽然各大搜索引擎在知识卡片的排版和内容展现上略有不同，但都能罗列出“帕金森综合症”的定义、疾病介绍、诊断要点、症状表现等。此外，各大搜索引擎还将搜索关键字其他用户还搜索了什么或其他与搜索关键字相关的信息展现出来，这样用户就可以方便快捷的查询到自己想要了解的信息。各搜索引擎在其知识卡片中展示相关图片，还展示了搜索关键词特有的专题搜索，百科、新闻、图片、贴吧、视频等，基本包涵了用户基本需求。有的搜索引擎还会罗列出其他可能相关的查询目标对象。

　　一、知识图谱的构建

　　韩剧《来自星星的你》日前火遍整个网络，该剧相关关键词一度雄霸各大搜索榜、话题榜。用百度搜索“都教授”,在搜索结果页面的右侧会出现金秀贤、都敏俊、全智贤，甚至李敏镐等相关度极高的搜索对象。这就是知识图谱技术应用到搜索引擎预知判断用户最有可能的信息需求。简单来说，知识图谱技术就是一个不断完善计算机知识库的过程，从而帮助计算机能够理解人类的语言交流模式。目前，知识图谱技术主要在百度搜索页面的右侧有所体现，在用户点击搜索键之后，百度会在呈现关键词搜索页面的同时，于右侧栏目向用户推荐与关键词相关的词条。同时，百度还会通过分析海量的搜索数据发现用户搜索习惯，并据此对搜索结果进行持续优化。知识图谱是面向全球的，相对于百度和搜狗主要针对中文搜索推出知识图谱，其知识库中的知识也主要以中文来描述，其规模略小于谷歌的。

　　二、知识图谱的数据来源

　　知识图谱为了提高搜索质量，提供例如对话搜索或复杂的问答搜索等新的搜索体验，不仅要包含大量高质量的常识性知识，还要能及时发现并添加新的知识。这样一来知识图谱通过收集来自百科类站点和各种垂直站点的结构化数据覆盖大部分常识性知识。百科类站点比较有名的是维基百科，中文有百度百科。另一方面知识图谱通过从各种半结构化数据中抽取相关实体的属性来丰富实体的描述。通过搜索日志发现新的实体或新的实体属性，从而不断扩展知识图谱的覆盖率。前者收集来的数据质量高但更新速度慢，后者质量较差但更新速度快。后者通过互联网的冗余性在后续的挖掘中通过投票或其他聚合算法来评估其置信度，并通过人工审核加入到知识图谱中。

　　这里不得不提到 Freebase,它是另一个重要的百科类数据源。它的开发公司是在 2010 年被谷歌收购的 MetaWeb 公司。Freebase 作为开放的知识管理平台独立运行，所以百度和是搜狗也将 Freebase 加入到其知识图谱中。Freebase 不同于维基百科编辑各种词条，以文章的形式展现，需要通过事先制定的规则来抽取知识。Freebase 直接编辑知识，包括实体及其包含的属性和关系，以及实体所属的类型等结构化信息，因此，不需要通过任何抽取规则即可获得高质量的知识。

　　三、知识图谱的挖掘

　　挖掘知识图谱是为了增加图谱的知识覆盖率。基于知识图谱的重要挖掘技术有推理（ Reasoning 或 Inference）、实体重要性排序、相关实体挖掘。知识图谱上的规则一般涉及两大类，一是针对属性的，也就是通过数值计算来获取其属性值。另一类是针对关系的，也就是通过链式规则发现实体间的隐含关系。推理功能就是通过这些可扩展的规则引擎来完成的。实体重要性排序可以理解为用户查询中提到的实体被搜索引擎识别，然后通过知识卡片展现该实体的结构化摘要。当查询涉及多个实体时，搜索引擎将选择与查询更相关并且更重要的实体来展示。实体的重要性是通过 Pag-eRank 算法计算出来的，由于不同的实体和语义关系的流行程度以及抽取的置信度均不同，而这些因素将影响实体重要性的最终计算结果，因此，各大搜索引擎公司嵌入这些因素来刻画实体和语义关系的初始重要性。相关实体是在相同查询中共现的实体或在同一个查询会话中被提到的其他实体称为相关实体。一个常用的做法是将这些查询或会话看做是虚拟文档，将其中出现的实体看作是文档中的词条，使用主题模型发现虚拟文档集中的主题分布。一个或多个实体构成一个主题，同一主题中的实体互为相关实体。搜索引擎分析用户输入的查询主题分布，选出相关主题，并将“其他人还搜了”也就是与该主题相关的其他知识卡片所展现的实体展现出来。

　　四、知识图谱的更新和维护

　　知识图谱的更新与维护是由专业团队来操作的。搜索引擎公司通过自动化算法，从各种数据源中抽取新的类型信息，这些信息能够被长期保留的，发展到一定程度就由专业人员进行决策和命名并最终成为一种新的类型（ Type） ,有的可能今天保留第二天就被删除了。加入到知识图谱中的数据也不是一成不变的，搜索引擎公司利用其强大的计算通常保证图谱每天的更新都能在 3 小时内完成，时事热点、重大事件在发生 6 小时内在搜索结果中反应出来。

　　知识图谱的更新和维护除了搜索引擎公司的专业团队，还可以依赖用户来帮忙改善图谱。比较有名“PX 词条被篡改为”剧毒“清华化工系学生反击”事件就是用户修改图谱的典型案例。具体来说就是用户对搜索结果中展现的知识卡片所列出的实体相关的事实进行纠错，当一定数量的用户都指出某一错误时，搜索引擎将采纳并修正。

　　总之，知识图谱的构建是多学科的结合，需要知识库、自然语言理解，机器学习和数据挖掘等多方面知识的融合。目前，知识图谱技术还处于初期阶段，很多开放性的问题还需要学术界和业界一起解决，相信随着结构化数据的发展更新，更复杂的自然语言查询的崭露头角，各方的努力将会极大地促进知识图谱的发展。