区域经济学论文

您当前的位置:学术堂 > 经济学论文 > 区域经济学论文 >

河北省环境经济关联规则分析

来源:学术堂 作者:周老师
发布于:2016-04-12 共5799字

    本篇论文目录导航:

【题目】环境污染与经济发展的关系探究 
【第一章】环境污染与经济建设的相互作用绪论 
【第二章】环境经济描述统计分析 
【第三章】河北省环境经济关联规则分析 
【第四章】各行业环境经济回归分析 
【第五章】河北省改善环境及促进经济发展对策建议 
【总结/参考文献】环境污染与经济协调发展研究总结与参考文献


  3 河北省环境经济关联规则分析

  3.1 理论基础

  关联规则(Association Rule)是数据挖掘中关联分析的一种技术,是 Agrawal、Imielinski 和 Swami 最早提出的,是用来寻找不同事物之间存在的内在关系的,从而达到发现这些事物之间所隐含的某种关联特征和内部存在的结构特征的目的。

  关联规则所蕴含的表达式是形如 X→Y 这样的,其中 X 和 Y 是两个项集,它们是不相交的,即 X∩Y= .X 被称为关联规则前项,Y 被称作关联规则后项。这种关联规则采用的是其支持度(Support)以及置信度(Confidence)来度量其强度。

  支持度规则的确定可以用于其给定的一些数据集出现的频率程度来测量的,像其置信度的确定 Y 则是根据其在包含 X 的项集中出现的频繁程度来度量的。支持度(s)和置信度(c)度量的定义形式如下:

  在上式中, σ ( X ∩Y)表示的是同时包含了事务 X 和事务 Y 的事项的个数,N 表示的是事项总数。 σ (X)表示的是其中包含的事务 X 事项的个数。

  支持度所表示的是一种概率,即事务 X 和事务 Y 一起发生存在的可能性,是一种非常关键的度量,这是因为它充分地反映了其关联规则存在的普遍性情况,支持度较低的一些关联规则表示的是可能偶然的出现,是没有代表性的,所以是可以将它忽略的。

  另外支持度还具有一种特性,这就是期望性质,它可以用于有效发现关联规则。

  置信度的度量是通过测量规则来进行推理可靠性的。另外置信度所表示的是在已经给定了事务 X 的情况下,事务 Y 发生的概率,如果置信度数值高则表示在事务 X 已经发生的情况下,事项 Y 发生可能性也比较高。例如,对于一个给定的规则 X→Y,置信度越高,则说明事务 Y 在所包含的 X 事务中产生的可能性也就越大。

  推论由关联规则得出,但是并不一定意味着其中的因果关系,它只是意味着法规的前期部分与其项目后期部分同时明显。另一方面,需要了解前后项之间因果关系的数据属性之间的因果关系,这种关系通常包括一个长期发生联系。

  Clementine 软件中有 Apriori、Carma 和 GRI 等关联规则算法。本文所采用的则是其中的 GRI 关联规则度量算法,又被称作广义规则归纳算法,它的运行过程如下:首先从一些庞大的数据库中提取出一组可能性的规则,然后找出其中包含的最高的信息容量的规则。GRI 算法与 Apriori 算法相比较而言,它的优势主要表现在两个方面,第一,它不仅能够针对一些数据变量的属性是标称属性的输入变量进行处理,还可以针对一些变量的属性是量化属性的输入变量进行处理,另外它还可以同时处理多个输出变量的规则分析。

  3.2 建模过程与分析

  3.2.1 数据合并处理

  由于本次研究使用的工业各行业环境污染及经济发展数据,数据量过多,并且数据均属于连续数值,如果直接建模,导致规模过大,最终结果不理想。因此本文通过合并法将各个变量数据进行清理。

  合并法:通过将在同一变量下相邻的数值进行合并来达到减少变量的目的。本文对调查数据进行频数分析,把频数较低的数值进行合并,从而减少变量的取值,这样就可以大大减少了模型的规模。具体合并过程如图 3.1 所示,调整后的数据命名为“环境经济数据。xls”.

  3.2.2 变量前后项设定

  在进行数据挖掘研究分析之前,首先需要定义变量的类型。本文选取的环境污染以及经济发展数据均为连续型数据,且数据具有隐含的序,因此均定义为连续型数值类型。

  同时指定单位利润和单位总产值为关联规则的后件,其余变量设定为关联规则的前件,具体变量的设置情况如上表 3-2 所示。

  本文运用 Clementine12.0 数据挖掘软件中的 GRI 关联规则模型进行数据挖掘分析,具体操作步骤如下:

  第一步:读入“环境经济数据。xls”;并对模型数据类型进行定义第二步:连接过滤节点,过滤不需要变量;第三步:连接 GRI 模型节点,并对其进行设置;第四步:运行该数据流,得出模型结果,并对其进行评价。

  在运行关联规则数据流之前,需要先对关联规则模型设定相关阈值,由于太低的支持度阈值和置信度阈值经常性的导致项集的频繁性,这势必给算法的计算带来不利影响。本文经过多次试验,通过不同的阈值反复操作检验,最后确定在最小支持度阈值为5%,最小置信度阈值为 50%,前项中包含最大项目数为 3,关联规则最大数据为 50 的情况下来进行 GRI 关联规则数据挖掘分析。

  具体模型数据流如下图 3.2 所示。

  3.2.4 模型结果及分析

  下面需要针对各个后项变量进行分析。本文筛选了关联规则中增强的程度大于 1 的部分,下表是根据最低支持排序,并选出一些具有代表性的关联规则条目,但由于规则众多,所以选择在确保支持大于 5%的条件下,一些置信度超过 50%的规则进行了讨论。

  1、后项-总产值关联关系

  由于关联规则结果较多,本文首先列出后项-总产值的关联规则进行结果阐述分析,如表 3-3、表 3-4、表 3-5 和表 3-6 所示。

  从上表规则中我们可以得出以下信息:

  规则 1 表明当废水排放量在 1 万吨以下,废气排放量在 0.05 亿立方米以下,烟(粉)尘排放量在 1 吨以下,单位行业总产值即在 1 亿元以下,概率为 100%.

  规则 2 说明废气排放量在 0.05 亿立方米以下,氮氧化物排放量在 1 吨以下,单位行业总产值即在 1 亿元以下,其概率为 87.5%.

  规则 3 说明废气排放量在 0.05 亿立方米以下,单位行业总产值即在 1 亿元以下,其概率为 87.5%.

  规则 4 和 5 说明当废水排放量在 1 万吨以下,废气排放量在 0.05 亿立方米以下,单位行业总产值即在 1 亿元以下,概率为 85.71%.

  从上表中可以得到以下信息:

  规则 6 和规则 7 说明当氮氧化物排放量在 1 吨以下,固体废物排放量在在 10 万吨以下,单位行业总产值即在 1-3 亿元之间,概率为 100%.

  规则 8 表明在废气排放量在 0.05-1 亿立方米之间,固体废物排放量在 50 万吨以上,单位行业总产值即在 1-3 亿元之间,概率为 100%.

  规则 9 和规则 10 表明当废气排放量在 0.05-1 亿立方米之间,氮氧化物排放量在 1吨以下,单位行业总产值即在 1-3 亿元之间,概率为 100%.

  规则 11 表明在二氧化硫的排放总量为 1-5 吨,烟(粉)尘排放量在 1-10 吨,固体废物的排放总量在 50 万吨以上,那么单位行业总产值即在 1-3 亿元之间,概率为 100%.

  规则 12 说明废气的排放总量在 0.05-1 亿立方米以下,二氧化硫的排放总量在 1-5吨之间,固体废物的排放总量在 50 万吨以上,那么单位行业总产值即在 1-3 亿元之间,概率为 100%.

  规则 13 表明当二氧化硫的排放总量在 1-5 吨之间,固体废物的排放总量在 10 万吨以下,那么单位行业总产值即在 1-3 亿元之间,概率为 75.00%.

  规则 14 表明当废气的排放总量在 0.05-1 亿立方米,二氧化硫的排放总量在 1-5 吨之间,那么单位行业总产值即在 1-3 亿元之间,概率为 71.43%.

  根据上表我们可以得出以下信息:

  规则 15 表明当二氧化硫排放量在 5-50 吨之间,固体废物排放量在 10-50 万吨,那么单位行业总产值为 3-10 亿元之间,概率为 100%.

  规则 16 说明当废水排放量在 10-50 万吨,二氧化硫排放量在 5-50 吨之间,那么单位行业总产值位于 3-10 亿元之间,概率为 83.33%.

  规则 17 和规则 18 表明当废气排放量在 0.05-1 亿立方米之间,固体废物排放量在10-50 万吨之间或者废水排放量在 10-50 万吨之间,则单位行业总产值为 3-10 亿元,其概率为 80.00%.

  规则 19 表明当二氧化硫排放量在 5-50 吨之间,烟(粉)尘排放量在 10-50 吨之间,那么单位行业总产值位于 3-10 亿元,概率为 71.43%.

  规则 20 说明当废水排放量为 10-50 万吨之间,那么单位行业总产值位于 3-10 亿元之间,概率为 62.50%.

  规则 21 表明当二氧化硫排放量为 5-50 吨之间,那么单位行业总产值位于 3-10 亿元之间,概率为 53.33%.

  由上述规则我们可以得到以下信息:

  规则 22 表明当废气排放量在 50 亿立方米以上时,单位行业总产值为 10 亿元以上,概率为 100%.

  规则 23 说明当废水的排放总量为 10-50 万吨,烟(粉)尘排放量为 50 吨以上,那么单位行业总产值为 10 亿元以上,其概率是 100%.

  规则 24 表明当废水排放量为 10-50 万吨,二氧化硫排放量在 50 吨以上,那么单位行业总产值为 10 亿元以上,其概率是 100%.

  规则 25 说明在氮氧化物排放量为 50 吨以上,那么单位行业总产值为 10 亿元以上,其概率是 83.33%.

  规则 26 表明当二氧化硫排放量在 50 吨以上,烟(粉)尘排放量在 50 吨以上,那么单位行业总产值为 10 亿元以上,其概率是 83.33%.

  规则 27 表明当二氧化硫排放量在 50 吨以上,氮氧化物排放量在 50 吨以上,那么单位行业总产值为 10 亿元以上,其概率是 83.33%.

  规则 28 表明当废气排放量在 1-50 亿立方米之间,烟(粉)尘排放量在 50 吨以上,那么单位行业总产值为 10 亿元以上,其概率是 75.00%.

  规则 29 表明当废水排放量在 50 万吨以上,那么单位行业总产值为 10 亿元以上,其概率是 60.00%.

  综上所述,我们可以发现随着行业总产值的增加,行业污染物排放量呈现出增加趋势。这和环境库兹尼茨曲线的非典型的正“U”形曲线关系不谋而合,那是不是就说明环境污染越严重对于企业的发展更好呢?

  2、后项-单位利润关联分析

  下面本章继续研究环境污染对于行业利润的影响,进一步发现环境污染对于经济系统的效应关联。后件单位利润关联规则如表 3-7、表 3-8、表 3-9 和表 3-10 所示。

  根据上表可以得出以下结论:

  规则 1 表明当二氧化硫排放量在 5-50 吨之间,烟(粉)尘排放量为 50 吨以上,那么单位行业利润在 0.1 亿元以下,概率为 100%.

  规则 2 说明当废气排放量为 1-50 亿立方米,氮氧化物排放量在 1-10 吨之间,那么单位行业利润在 0.1 亿元以下,概率为 100%.

  规则 3 表明当废气排放量为 1-50 亿立方米,二氧化硫排放量在 5-50 吨之间,那么单位行业利润在 0.1 亿元以下,概率为 75%.

  规则 4 表明当氮氧化物排放量在 1-10 吨之间,固体废物排放量为 0,那么单位行业利润在 0.1 亿元以下,概率为 66.67%.

  规则 5 表明当氮氧化物排放量在 1-10 吨之间,烟(粉)尘排放量为 50 吨以上,那么单位行业利润在 0.1 亿元以下,概率为 67.67%.

  规则 6 说明当废气排放量在 0.05-1 亿立方米之间,固体废物排放量为 0,那么单位行业利润在 0.1 亿元以下,概率为 67.67%.

  规则 7 表明当废水排放量在 1 万吨以下,二氧化硫排放量在 5-50 吨之间,那么单位行业利润在 0.1 亿元以下的概率为 67.67%.

  根据上表可以得出以下信息:

  规则 8 表明当氮氧化物排放量在 1 吨以下,烟(粉)尘排放量在 1-10 吨之间,那么单位行业利润在 0.1-0.15 亿元之间的概率为 100%.

  规则 9 表明当废水排放量在 10-50 万吨之间,废气排放量在 0.05-1 亿立方米之间,氮氧化物排放量在10-50吨之间,那么单位行业利润在0.1-0.15亿元之间的概率为100%.

  规则 10 说明当废水排放量在 1-10 万吨之间,烟(粉)尘排放量在 1-10 吨之间,固体废物排放量介于 10 万吨以下,那么单位行业利润在 0.1-0.15 亿元之间的概率为100%.

  规则 11 表明当废水排放量在 1-10 万吨之间,氮氧化物排放量在 1-10 吨之间,固体废物排放量介于10万吨以下,那么单位行业利润在0.1-0.15亿元之间的概率为100%.

  规则 12 表明当废水排放量在 1-10 万吨之间,二氧化硫排放量在 1-5 吨之间,固体废物排放量介于 10 万吨以下,那么单位行业利润在 0.1-0.15 亿元之间的概率为 100%.

  规则 13 表明当废水排放量在 1-10 万吨之间,二氧化硫排放量在 1-5 吨之间,烟(粉)尘排放量介于 1-10 吨之间,那么单位行业利润在 0.1-0.15 亿元之间的概率为 100%.

  规则 14 表明当二氧化硫排放量在 1-5 吨之间,烟(粉)尘排放量介于 1-10 吨之间,那么单位行业利润在 0.1-0.15 亿元之间的概率为 80%.

  规则 15 表明当废气排放量处在 0.05-1 亿立方米之间,并且烟(粉)尘的排放量介于 1-10 吨之间,那么单位行业利润在 0.1-0.15 亿元之间的概率为 71.43%.

  根据上表可以得出以下信息:

  规则 16 表明当废气排放量在 0.05-1 亿立方米之间,二氧化硫排放量在 5-50 吨之间,烟(粉)尘排放量为 1-10 吨,那么单位行业利润为 0.15-1 亿元之间,概率为 100%.

  规则 17 表明当烟(粉)尘排放量为 1-10 吨之间,固体废物排放量为 10-50 万吨,那么单位行业利润为 0.15-1 亿元之间,概率为 100%.

  规则 18 表明当烟(粉)尘排放量为 1 吨以下,固体废物排放量为 50 万吨以上,那么单位行业利润为 0.15-1 亿元之间,概率为 100%.

  规则 19 表明当废气排放量在 0.05-1 亿立方米之间,烟(粉)尘排放量为 1-10 吨之间,固体废物排放量为 10-50 万吨之间,那么单位行业利润为 0.15-1 亿元之间,概率为100%.

  规则 20 表明当废气排放量在 0.05-1 亿立方米之间,氮氧化物排放量为 1-10 吨之间,固体废物排放量为 50 万吨以上,那么单位行业利润为 0.15-1 亿元之间,概率为 100%.

  规则 21 表明当废水排放量在 1-10 万吨之间,废气排放量在 0.05-1 亿立方米之间,固体废物排放量为 50 万吨以上,那么单位行业利润为 0.15-1 亿元之间,概率为 100%.

  规则 22 表明当废水排放量在 1 万吨以下,废气排放量在 0.05-1 亿立方米之间,烟(粉)尘排放量为 1-10 吨之间,那么单位行业利润为 0.15-1 亿元之间,概率为 100%.

  根据上表可以得到以下信息:

  规则 23 表明当废水的排放总量高于 50 万吨的,烟(粉)尘排放量在 50 吨以上,那么单位行业利润在 1 亿元以上的概率为 66.67%.

  规则 24 表明当废水的排放总量高于 50 万吨的,氮氧化物的排放总量高于 50 万吨的,那么单位行业利润在 1 亿元以上的概率为 66.67%.

  规则 25 表明当废水的排放总量高于 50 万吨的,二氧化硫排放量在 50 吨以上,那么单位行业利润在 1 亿元以上的概率为 50.00%.

  规则 26 表明当废水的排放总量高于 50 万吨的,并且废气排放量高于 50 亿立方米,固体废物的排放总量在高于 50 万吨的,那么单位行业利润在 1 亿元以上的概率为50.00%.

  综上所述,可以看出环境污染对于行业利润的影响关系。二者之间的关系不再像环境污染和总产值之间的正相关关系,而是出现交叉现象,尽管在超高污染行业来说,其利润仍然属于最大,但是我们发现置信度是在逐渐降低的。这表明随着科技的不断进步,行业仍然靠着资料消耗、环境污染来获取利润的格局必将改变,对于改善行业环境污染的步伐不容迟疑。(图表略)

返回本篇论文导航
相关内容推荐
相关标签:
返回:区域经济学论文