一、前言
我国科技经费是指统计年度内全社会实际用于研究与试验发展经费投入(简称 R&D),包括基础研究、应用研究和试验发展的经费支出。目前,我国科技经费投入保持增长态势。国家财政科技支出稳步增加,2013 年,国家统计局、科学技术部、财政部联合发布了《2012 年全国科技经费投入统计公报》(简称《公报》)。《公报》数据显示,2012 年全社会研究与试验发展经费投入首次突破万亿元大关,R&D 经费投入强度(R&D 经费投入与国内生产总值之比)再创历史新高。这就反映了我国在深化科技体制改革、加快国家创新体系建设方面又迈出了坚实的一步。
本文将用最大信息系数 MIC 来判断 GDP 与 R&D经费投入的相依程度,从而为我国宏观经济政策的制定提供参考和依据。
表 1 给出我国 1995-2013 的国内生产总值GDP 和全国 R&D 经费投入的数据,并计算出了R&D 经费投入强度,下面利用表 1 数据来对 GDP和 R&D 经费进行相关性分析。
二、GDP 与 R&D 经费相关性分析
(一)秩相关系数
考虑两个随机变量的相关性,如果这两个随机变量的联合分布服从高斯分布,应直接运用线性相关系数,如果数据不服从高斯分布,此时应考虑能描述单调相关的秩相关系数或者其他关系的相关系数。由于两个指标都不服从正态分布,首先考虑秩相关系数,秩相关系数主要有 Spearman 和 Kendall 两种,它们可以度量两个变量之间的单调关系。
关于 spearman 和 kendall 系数的计算,可以通过 R 语言的函数 cor.test 来完成。以秩相关系数来构建统计量,原假设就是两个变量之间存在相关性,在原假设成立条件下,统计量服从 t 分布。R 语言的宏包 pspearman 改进 spearman 系数计算方法,不再局限于 t 分布,而是提前设置的原分布。所以我们这里计算了 spearman 系数、kendall 系数和改进的spearman 系数来判断相关性。如果检验的相伴概率大于 0.05,不拒绝原假设,说明两个变量之间存在相关性;系数越接近零,说明相关性越小。从计算结果看出各种系数均为 1,表明我国 GDP 和科研经费投入之间存在相关性(见表 2)。【1】
(二)距离相关 Dco(rDistance correlation) 系数
距离相关 Dcor(Distance correlation)是 Székely和 Rizzo 提出的一种新的相关性度量,它以观测值的距离作为度量的依据。Dcor 等于零表示随机变量X 和 Y 独立。距离相关 Dcor 取值在[0,1]之间,其中大于 0.05 表示变量之间存在相关性,距离相关 Dcor系数还可以用来检验多维随机变量的独立性。距离相关 Dcor 系数计算,可以通过 R 语言 energy 宏包dcor 函数完成,经过计算得到 Dcor 检验结果为0.992 607 8,因此认为我国 GDP 和科研经费投入之间存在相关性。
(三)平均互信息指数
平均互信息指数是信息论中比较重要的一个概念,可以用来判断系统的非线性相关性。考虑由两11,s2,…,sn}和{q1,q2,…,qn}构成的系统 S和 Q,定义两系统互信息。【2】
其中 Psq(si,qj)为同时出现事件 si和 qj的概率,Ps(si)为出现事件 si的概率,Pq(qj)为出现事件 qj的概率。
采用 R 软件宏包 bioDist 中的函数 mutualInfo可以计算两个系统的互信息指数。经计算得到我国GDP 和科研经费投入之间的两两互信息指数为1.576 029,这说明我国 GDP 和科研经费投入之间存在很强的相关性。
以上通过几种相关性检验方法,进行简单的介绍和验证,可以看出我国 GDP 和科研经费投入存在相关性,下面将用最新的最大信息系数 MIC 的方法进行验证说明。
(四) 最大信息系数 MIC(Maximal InformationCoefficient)
哈佛大学 Broad 研究院的研究人员在 Science杂志上发表了题为“Detecting novel associations inlarge data sets”的文章,这是相关系数比较新的研究成果。该算法可以对各种类型的相关进行快速估计,能够发现更为一般的函数联系。这种方法被称为MINE (Maximal Information -Based NonparametricExploration),研究人员无需事前对其寻找的关系类型有所了解,就检测由多种因素驱动的复杂模式。
MINE 基于最大信息系数 MIC,其依据的理念是,如果两个变量之间存在着一种关系,那么就应该有一种方法在那些变量的散点图上画一个网格,使得大多数的数据点集中在该网格的几个单元格中。通过搜寻这种“最适合”的网格,计算机可以计算 MIC 及一族可用来发现并描绘关系的相关的统计数据。
下面主要介绍 MINE 的核心概念,令 D={(x,y)}为 x 和 y 的 n 个次序样本。样本空间在 X-O-Y平面分割,分别统计落入每个小格的样本数。则 MIC定义如下:
MIC (D)= maxXY<B(N)M(D)X,Y= maxXY<B(N)I*(D,X,Y)/log(min(X,Y)),其中 B(n)=nα为网格搜索大小。I*(D,X,Y)为所有 X-Y 网格上的最大互信息指数(maximum mu-tual information),落入某网格概率以落入该网格的点数除以总点数得到。其他统计量都从 X-Y 网格上的互信息指数导出。MAS(Maximum Asymmetry Score) 定义如下:
MAS(D)= maxXY<B(N)|M(D)X,Y-M(D)Y,X|.
MEV(Maximum Edge Value)定义如下:
MEV(D)= maxXY<B(N)M(D)X,Y:X=2orY=2.
MCN(Minimum Cell Number) 定义如下:
MCN(D,∈)= minXY<B(N)log(XY):M(D)X,Y≥(1-∈)MIC(D)。
MINE 各种系数计算通过 R 语言的 minerva 宏包函数 mine 完成,其输入可以是两个数值向量 x 和y,也可以是一个矩阵,还有 5 个参数 master,alpha,C,n.cores,var.thr 可供选择。参数默认值为:
master =NULL,alpha =0.6,C =15,n.cores =1,var.thr=1e-5.
master 参数控制变量 x 的选择,可以是一列数据,也可以是多列数据,剩下的列数据作为变量 y.alpha 参数控制网格分割的大小,网格分割大小B(n)=nα.如果样本数据小,可以提高 alpha 值以得到更精确估计。由于本文样本数据只有 18 组,提高其值到 0.9.参数 C 决定 X-Y 网格搜索的起点,参数 alpha 和参数 C 联合控制近似精度和运行时间。
参数 n.cores 设置并行计算,如果样本数据不是很大,取默认值即可。参数 var.thr 设置允许的样本最小方差,如果样本方差过小,MINE 方法无法计算。
表 3 给出了我国 GDP 与 R&D 经费 MINE 计算结果。MIC 值在[0,1]之间,如果为零,说明两个变量之间独立;如果越接近 1,说明相关性越强。MIC-R2表示 MIC 系数和线性相关系数的差值,大多数值在0.6 以上,说明它们之间线性关系很不显着,更多的是非线性关系。MAS 衡量了非对称的强弱,MEV 指出边缘网格上系数大小,MCN 值在 2,3 之间,说明有 2,3 个网格起到主要作用。从计算结果中可以看出,MIC 值为 0.998 000 9,非常接近于 1,说明我国GDP 与 R&D 经费相关性很强。【3】
三、HHG 独立性检验
通过上述秩相关系数、距离相关 Dcor 系数、互信息指数、MIC 等各种相关性检验,说明了我国GDP 与 R&D 经费的相关性,下面将通过独立性检验,说明假设不成立,证明其相关性。
HHG 独立性检验是一种功效很高的非参数检验,可以是任何维数的两个随机向量,任何形式的相关性都可以作为对立假设。因此,HHG 检验可以判断两个随机向量之间是否存在相关性。下面以全国R&D 经费投入为随机变量 X,国内生产总值 GDP为随机向量 Y,来进行独立性检验。HHG 独立性检验可以通过 R 语言的 HHG 宏包来实现,通过计算得到 HHG 检验结果如表 4 所示。
从表 4 的计算结果可以看出,相伴概率均小于0.05,拒绝原假设,认为两个随机向量(或者随机变量)之间存在相关性。也就是说我国 GDP 与 R&D 经费的独立性检验不通过,二者存在相关性,这就进一步验证和说明了相关性验证的正确性。【4】
四、结语
笔者首次利用 2011 年哈佛大学 Broad 研究院的研究人员在《Science》杂志上提出的最大相关系数 MIC 来判断 GDP 与 R&D 经费投入的相依程度。
计算 MIC 值为 0.998 000 9,非常接近于 1,说明GDP 的增长与 R&D 经费投入相关性很高。同时还计算了 spearman 系数、kendall 系数和改进的 spear-man 系数来判断二者的相关性,计算结果均为 1,验证了二者存在相关性。还计算了距离相关 Dcor 系数、计算结果为 0.992 607 8,也非常接近 1,因此认为我国 GDP 和科研经费投入之间存在相关性。另外还计算了我国 GDP 和科研经费投入之间的两两互信息指数,计算结果为 1.576 029,也说明了二者存在相关性。
通过对这几种方法的比较发现:MIC 方法可以对各种类型的相关性进行快速估计,并且能够发现更为一般的函数联系。因此,MIC 方法比较适合判断GDP 与 R&D 经费投入的相依程度,而且计算比较快速有效。
另外,笔者还应用了最新的统计学方法 HHG 独立性检验进行了验证和说明。计算结果表明,相伴概率均小于 0.05,拒绝原假设,也就是说我国 GDP 与R&D 经费的独立性检验不通过,二者存在相关性。
从本文分析结果可以推断我国的国内生产总值GDP 的增长与 R&D 经费投入有很大的相关性,同时从表 1 的 GDP 与 R&D 经费投入的数据也可以看出我国 R&D 经费投入和 GDP 同时呈上升趋势的,这也进一步验证了本文所得相关性结论的正确性。
所以,我国加大 R&D 经费投入将为我国的经济增长以及建设创新型国家方面起关键性作用。本文的分析结果为我国相关宏观经济政策的制定提供一定理论参考。
参考文献:
[1]薛毅,陈立萍。统计建模与 R 软件[M].北京:清华大学出版社,2007.
[2]史道济。相关系数与相关性[J].统计科学与实践,2002,(4):22-24.
0引言GDP(即国内生产总值)是一个国家或地区在某一既定时期内生产的所有最终物品和劳务的市场价值,能够反映出一个国家或地区经济发展状况。对GDP进行科学预测,对政府部门做出经济发展战略目标和宏观经济政策有着重要意义。PMI即采购经理指数,是快速及...
国家统计局1月20日发布数据,经初步核算,2014年中国国内生产总值636463亿元,按可比价格计算比上年增长7.4%.分季度看,一季度同比增长7.4%,二季度增长7.5%,三季度增长7.3%,四季度增长7.3%(四季度环比增长1.5%);分产业看,第一产业增加值58332亿元,比...
近年来,我国国内生产总值持续不断的高速增长,使得我国的国际地位不断提升,伴随而来的问题也随之增加,最突出的问题就是我国经济的畸形增长。长期以来,在推动GDP增长的三驾马车中,我国过多地依赖出口和投资。而自2008年爆发金融危机以来,我国出口的数量...