专利挖掘的途径、技术方法及相关软件,计算机应用技术论文

　　1 概述。

　　随着经济的发展和社会的进步，专利是技术信息的一种有效载体，它能够切实反映技术的发展前景，进一步为国家科技和经济的发展做出贡献。相比较一般的信息，从专利中提取而来的信息更加。

　　所谓专利挖掘，其实就是指在产品技术研发中，对所取得的技术成果从技术和法律层面进行剖析、整理、拆分和筛选，从而进一步确定申请专利的技术创新点和技术方案。专利挖掘的目的可分为成果保护型和包围拦截型。成果保护型是指将技术创新成果申请专利以进行法律化、权力化，有效保护企业的技术研发成果不被他人抄袭复制；包围拦截型是指针对竞争对手的技术或产品路线进行研究，进而制定相应的专利挖掘规划和技术研发策略，提前设置外围专利，干扰和遏制竞争对手的专利策略。

　　专利挖掘作为一种对专利进行保护和深度研究的技术手段，在当今这个科技和经济高速发展的时代具有其存在的重要意义和价值。通过专利挖掘，可以更加准确地了解企业技术创新成果的主要发明点，对专利申请文件设计，提升了专利申请的综合质量；可以对技术创新成果进行全面、充分、有效的保护，梳理并掌握可能具有专利申请价值的各主要技术点，避免出现专利保护的漏洞；通过专利挖掘，可以培育巩固企业自身的核心竞争力，也可以与竞争对手形成有效对抗甚至在相关技术要点上构成反制；能够尽早发现竞争对手有威胁的重要专利，便于企业进行规避设计以规避专利风险。简言之，对于企业而言，做好专利挖掘，有利于实现法律权利和商业收益最大化、专利侵权风险最小化的目标。文章将从专利挖掘的途径、技术方法和现有软件三方面分析我国专利挖掘的研究现状，指出专利挖掘技术突破的难点，并预测专利挖掘未来的发展趋势。

　　2 专利挖掘方法途径。

　　从一般角度来说，专利挖掘主要可分为两种：从项目任务出发和从某一创新点出发。专利挖掘的重要研究途径便是从项目任务出发，该途径从项目的任务出发，按找出完成任务的组成、分析各组成的技术要素、找出各技术要素的创新点、根据创新点总结技术方案的次序进行。

　　第二种途径则是从某一创新点出发的方法来进行专利挖掘。与第一种方式不同，该途径是从项目的某创新点出发，按找出该创新点的关联因素、找出各关联因素其他创新点、根据其他创新点总结技术方案的次序进行。

　　若按照以上两种途径完成挖掘，则会形成若干个大相径庭的技术方案，在这些技术方案中，专利授权要求是最基本的特征，由此便能够产生大量的专利申请素材，企业的专利部门可以依照以上两种方法的钻研所得出的结论并在此基础上分析筛选，从而确定专利申请的主题。从整体上讲，两个挖掘途径的出发点不同，因此使用者可以根据不同的出发点选择使用。两者可以单独使用，也可以有取舍地联合使用。

　　3 专利挖掘技术方法。

　　专利挖掘主要包括以下两种技术：一种是分类技术；另一种是信息检索技术。前者基于自然语言处理技术，而后者通常根据分类技术在专利挖掘中应用的频率高及其重要性，这里主要介绍文本分类技术以及相关研究。

　　3.1 文本分类。

　　文本分类就是将未标注类别的文档分到已定义好的类别中去的一种方法。文本分类系统从某种意义上讲也是一种分类器--目的是实现对文档标注类别信息，而文本分类系统通常也都是采用指导学习的方法进行构造。主要操作步骤是：（1）准备一部分标注了类别信息的训练样文章档集合；（2）在若干训练样本的基础中上，结合某种学习算法训练分类模型的参数，即可得到文本分类系统；（3）用这个分类系统对新的文档进行分类，从而进一步实现自动对未知样本进行分类。[1]

　　文本分类的方法的发展历程分为两个阶段：基于规则的文本分类、基于统计机器学习模型的文本分类[2].而基于统计机器学习模型的文本分类方法克服了基于规则系统的不足，不需人工操作，可以很快地适应各种应用，同时在分类效率和准确率上均有很大提高。

　　3.2 特征选取方法。

　　文本的特征选取的方法有很多例如文档频度 DF（DocumentFre-queney）、类别频度 CF（ClassFrequeney）、信息增益（informationGain）等。[3]

　　文档频度的目的是根据某一个特征在语料中出现的频数按照文本频度的大小排序，根据某一个特定值，去掉频率最低的词，选取前 N 个特征词。但是文档频度的假设前提是低频词没有信息量。这种方法的优点有很多，例如：算法简单、计算量小、易于实现以及减少了很多不必要的特征空间维数；而缺点也恰恰是也存在于这些被去掉的维数中可能存在一些低频词可能含有大量的信息，去掉会影响分类效果。

　　类别频度的目的是根据某一个特征在语料中出现的频度大小排序，从而设定文档频度的特定值，去掉频率两极端的特征词。类别频度的假设前提是大多数类别中都出现或只在个别类别中出现的词含有的信息量很小。

　　信息增益是指计算特征含有的信息量和对预测样本类别所能提供的信息量。它考虑了一个词出现或不出现对类别提供的信息量差别，这种方法在分类任务中效果不错，但计算量很大。

　　3.3 特征权重的计算方法。

　　特征权重计算是为文本特征词赋予一定的权重，得到文本特征向量。常见的几种特征选取的方法有：布尔权重、词频权重、tf×idf-权重、tfc-权重等。

　　3.4 分类器。

　　分类器有很多种，常用的有 KNN 分类器、最大嫡、支持向量机、贝叶斯等，他们的存在可以应用于大量文本分类问题，有助于提高工作效率。

　　4 专利挖掘软件。

　　目前的我国专利挖掘软件仍停留在统计分析和引用分析层面，国外部分软件提供了少量的文本挖掘功能。深度专利挖掘仍需要借助文本挖掘软件或利用 Java 语言自行编写程序。这里对国内外现有的专利分析软件进行对比分析，了解专利挖掘软件现状。专利分析软件大都是集成系统，其功能涵盖了专利检索、专利下载、专利分析、专利管理以及软件系统管理等。

　　目前，在中国也有很多专利分析软件。主要有：PIAS 专利信息分析系统、东方灵盾中外专利检索及战略分析平台、大为 PatentEX专利信息创新平台、恒和顿 HIT-恒库等等。在这其中 PIAS 专利信息分析系统是由国家知识产权局开发的，情报和信息相对比较可信和直观；东方灵盾公司的分析软件相比国内其它软件，具有更加强大而个性化的检索和分析功能；大为 PatentEX 和恒和顿系统都较为稳定。在统计分析和引用分析方面，国内软件均较为成熟，专利地图也制作的直观且清晰，但深入挖掘功能不足。

　　国外的专利分析软件起步较早，目前主要有：Derwent Analyt-ics、TDA、Aureka、VantagePoint、Patentlab - Ⅱ 、BizInt Smart Charts、STN AnaVist、Focust、Invention Machine.国外的软件多是细节性地针对不同的需求应运而生，相对而言自动化程度高，功能也十分全面。

　　目前就中外专利分析软件的比较而言，国内的专利分析软件在数据库的信息量、自动化的程度、数据挖掘的深度上都不如国外软件发展地那么成熟，各个软件的功能倾向性也没有那么强，专利挖掘和专利地图制作也以国外软件较为领先，但国外专利软件在文本挖掘应用方面也存在一些空白。我国专利分析软件要有新的突破不仅要借鉴国外的方法技术，还需要进一步将文本挖掘技术应用到专利挖掘中，实现更深入的分析。

　　5 专利挖掘的难点。

　　5.1 专利普通词汇识别。

　　专有名词的检测主要可以通过以下几种方法进行：利用命名实体的内部规律，设计规则从而进行进一步识别；设计统计模型，利用人工标注语料库进行参数训练，然后把新词识别的问题当作序列标记的问题进行解码等方法。[4]

　　普通新词，就是新涌现的词汇，这种直接影响对专利理解的词汇未被收录到分词词典中，在进行专利检索的过程中新词识别会遇到以下几个难点：（1）专有新名词未被进行特殊标记，以欧美人名为例，大写在检索中更容易辨识，而中文姓名同文本一样；（2）专有名词有歧义理解。中文的人名和地名经常会分不清，比如咸阳、秦岭等；（3）新词组词结构过于随意，在检索过程中无规律可循；（4）由于多音字或者断句关系，新词用字与上下文联系干扰，例如，武汉市长江大桥。

　　5.2 生僻术语抽取识别。

　　关于术语抽取方面的研究大致可以归纳为三方面：一般抽取方法的研究、错误来源的分析以及纠正生僻术语。一般的专利术语抽取也就是从专利中提取出重要技术相关词汇的过程。TsengYuenhsien 等短语抽取的方法相对而言比较简单，主要是在依靠词频和单词间的包含关系。[5]

　　在专利的术语抽取研究中，错误的抽取一般有两部分构成，一部分是正确的抽取结果，一部分是错误的抽取结果的左边界或者右边界造成的干扰。术语抽取研究是制约专利挖掘领域发展的基础，尽管近几年专利领域的发展势头一直不错，但是很多研究的方面仍有许多没有攻破的难点。从某种意义上讲，术语抽取的研究就是最为代表的难点之一。术语抽取研究的难点不仅仅在于工具难和技术难，更在于它需要有效的试验措施进行验证。

　　在这其中，构建标准答案的集合也是最重要以及最难的部分。目前看来，面向生僻术语识别的标准答案在术语抽取研究中很稀少，而现如今的专利发展已经不仅仅局限于大众化的专利，相较于一般的术语，由于生僻术语作为一类特别的术语抽取的研究对象，其抽取难度会更大。最主要的原因是现有的高词频统计之中，很多噪声会在处理低词频的候选生僻术语时引入。这在一定程度上讲对相关研究的一般的文本挖掘研究的规范会有一定的影响，也会成为制约该领域发展的主要问题。

　　6 结束语。

　　文章介绍目前专利挖掘的现状，主要包括思路与途径、方法技术和分析软件的介绍以及技术难点剖析。文章在提出专利挖掘途径形成的流程图基础上，并没有按照常规的数据挖掘与文本挖掘两条纵线进行展开，而是重点介绍了较难的文本挖掘技术，分析出专利挖掘的难点。当然，经过这些分析与总结，发现现阶段的专利挖掘技术虽然已经取得一定成果，形成了一些通用的专利软件，但是在文本信息处理特别是词汇识别方面仍存在很大漏洞，一部分是因为中文本身的特点，同一个字表示的意思丰富；一部分是当今世界都在面临的问题，生僻术语的统计还没有形成体系，许多问题还需要进一步解决，但是随着研究的深入与实用化，专利挖掘将能够更好的发现专利信息中隐含的技术知识，推动科技创新。

　　参考文献。

　　[1]陈文亮。面向文本分类的文本特征学习技术研究[D].东北大学，2005.

　　[2]王会珍。文本内容分类和主题追踪关键技术研究[D].东北大学，2008.

　　[3]陈文亮。面向文本分类的文本特征学习技术研究[D].东北大学，2005.

　　[4]刘晓东。刘大有。数据挖掘专利综述电子学报[J].2003,12（12A）。

　　[5]屈鹏。国内外专利挖掘研究（2005-2014）综述[J].图书情报工作，2014,20（58）：131-137.