信息管理论文

您当前的位置:学术堂 > 管理学论文 > 信息管理论文 >

政府大数据质量评价框架分析

来源:未知 作者:傻傻地鱼
发布于:2017-02-17 共6231字
  本篇论文快速导航:

展开更多

  第 3 章 政府大数据质量评价框架分析

  3.1 大数据质量评价维度。

  人们对于统计数据质量的要求越来越严,进而对统计数据质量内涵的认识也从狭义向广义转变。对于统计数据的提供者、生产者和用户也会进行多维度考察和衡量。尽管其中的某些维度在业界得到了广泛的认可和关注,但数据使用者对于数据质量的主观判断不尽相同,所以是研究人员还是数据质量的从业人员都未对数据质量维度集形成共识。

  不同环境和不同个体对于政府大数据质量的要求各不相同,因此,在特定的环境中确定数据质量是极为必要的。而对于政府大数据,含有大数据特点质量维度得到认同的程度,十分依赖确定的方法和过程。这些标准之间既存在密切联系,又存在矛盾和冲突,如满足了准确性很可能会无法满足实时性或者满足了实时性又无法完全满足效益性。我们要避免为了满足了某一方面的质量而损害其他方面的质量。而不同用户对大数据也可能存在不同的要求,有的可能偏重大数据的实时性,有的则会偏重准确性。因此,在做大数据处理的时候,就要对大数据的质量进行选择和平衡,以满足用户的需求。而数据质量是一个相对的属性概念,而大数据更是还处于发展之中,无法准确解读用户需求,片面理解和追求数据的某些方面,可能会对整体数据质量形成反效果。只有准确理解需求,用科学的衡量标准界定,才使得政府大数据质量有明确的意义和内涵。其中准确性、及时性、可取得性、可比性和可衔接性是国际统计界公认的数据质量基本构成要素和各国政府统计机构对数据进行质量检测、监管的重要内容和依据。

  3.1.1 大数据质量评价一般维度。

  (l)准确性。

  准确性是用来描述得到的数据与的真实数据之间的接近程度,一般情况下用误差来衡量这个范围。准确性是数据质量的核心内容与基础,数据本身就是描述特征的符号,通常来说,有些理论把误差分为系统误差和随机误差两部分,一些情况也用导致不准确性的主要潜在原因(如抽样误差、无回答误差等)来分类描述。绝对准确的测量一般会受到成本的制约,而且多数情况是无法做到的。所以关键的是用户是否能够接受这样的误差。

  (2)时效性。

  时效性又叫做及时性。用户做出决策前,如果用户所需的相关准确的统计数据无法送达用户手中,那么这些数据对于用户来说,是无用的。所以,及时性也是统计数据是否满足用户需求的一个重要特征。如果统计现象本身具有较强的变化性,则该类统计数据的时效性要求会很高;如果统计现象本身变化较为缓慢,则该类统计数据的时效性要求较低。数据集合中每一个信息都要有一定的时效性,因为政府统计工作有明确的时间概念,数据的产生是都是有频率的:月、季、年,大数据信息较好的时效性可以保证处理过的统计信息更为有用、可靠,可以充分发挥价值,过期的数据在实际应用中作用不大。数据跟新闻一样具有时效性。很多传感器的数据产生几秒之后就失去意义了。

  (3)相关性。

  相关性,是指用户对于统计数据的感兴趣程度。统计数据的相关性反映了它满足用户需求的程度,相关性与可用统计数据是否切合了用户最关注的核心有关。通常而言,对于相关性的评价是十分主观的,往往会随用户需求的改变而改变。所以统计部门所要做的是均衡不同用户各不相同的需求目标,在给定的资源条件的制约下,尽可能的满足大部门用户的需求。

  (4)客观性。

  客观性也可以叫真实性,是指数据的能够很好地描述、定义研究对象的特征和状态,也就是数据是否能比较非主观的表达信息,如实的反映符合确认和计量要求的各项统计要素,保证数据信息真实可靠,内容贴切。

  (5) 可衔接性。

  可衔接性是指同一统计机构内部不同统计调查项目之间、不同机构之间以及与国际组织之间统计数据的衔接程度。可衔接性要求全国范围内所有专业统计项目在统一的统计框架体系、类标准下,按统一的方法编制统计数据,在统计调查和数据处理中使用统一的程序和方法,同时采用国际统计标准,如联合国1993 年 SNA 的框架体系等。大数据的应用,标准十分关键,包含大数据的分类标准与政府统计的分类标准是否一致,如何统一规范,如何进行交换,采集与挖掘,这些都需要政府统计部门的认真调研和琢磨。

  (6)完整性。

  完整性是统计数据质量在信息内容含量的体现,就是要求数据在内容上应包括数据使用者所需的全部项目,做到没有残缺和疏漏。必须强调的是,完整不意味越多越好的无所不含,完整性必须结合用户和数据使用者的需求而言。换而言之,统计数据是否完整,要看需求是否被满足。如果数据能从不同侧面系统地反映所研究事物的总体面貌及其发展趋势,能满足使用者分析、预测、决策和科学研究的需要,那么就达到了完整性的要求。一旦数据不全或缺失,使数据的完整性不够良好,将对统计数据结果产生重大影响,甚至出现谬论。

  (7)可理解性。

  可理解性是用来描述用户对于统计数据的正确理解程度。统计数据究其根本是为用户服务的,用户对于统计数据和统计分析报告的理解对于统计部门来说,至关重要。为了充分地使用统计数据,用户必须了解这些统计数据的性质和统计分析报告的本质。这就要求统计部门给用户提供相关数据的同时,应该附带相关的补充说明,如提供隐含在有关概念下面的说明、已使用的分类法、数据收集和加工过程中所使用的方法以及统计机构自身对数据质量的评价。

  (8)透明性。

  透明性一般用作衡量统计数据的质量。按照国际上对数据透明性的解释,数据的透明性包含四个方面的基本要求:第一是要明确政府作用和职责。第二是公开政府预算程序。第三是公众应能获得全面的政府统计数据信息。第四是保证政府统计数据的真实性。第一方面是数据透明度的前提和基础,第二方面是数据透明的程序条件,第三、四方面是对数据透明度的内容和质量的要求。

  (9)可操作性。

  可操作性是对使用者对于统计数据处理过程的一种描述,对使用者而言,统计数据的简明和易用性至关重要。数据不仅要及时、准确、完整且有用,而且要有较强的处理可行性,达到易懂易用。因此,统计指标的设计要科学,含义要明确,数据的提供要精选,流程要明晰,可以被操作。

  (l0)可取得性。

  可取得性一般是指用户从统计部门取得统计数据的便捷程度。用户在使用数据时,必然会考虑能得到那些数据和如何得到这些数据。所以,统计数据必须以一种便捷且和负担的形式提供给用户。统计部门提供数据时,必须列明用户可得到的统计数据内容,同时为用户提供更便捷的数据支持服务。

  (11)可解释性。

  可解释性是指对对数的可说明性的定义。一般情况下在好的数据环境下是可以忽略数据的说明性的,但是对于政府数据为有目的的收集数据来说,数据还需要一些说明和补充。政府部门最好可以对数据类目的设置有一定的合理性披露解释,而被调查者的数据来源必须真实,才能保证数据的质量。

  (12)效益性。

  效益性是用来描述统计数据的所产生的效益与取得该数据的成本之间的费用关系。如果情况其成本大于产出,那么这种数据是缺乏经济价值的。虽然目前处理数据的效益和成本特别是后者还不很容易实现准确的核算,但这样的效益指导思想是还是十分重要的。这体现一种数据的经济效应,要求数据在的其他质量不受大影响的前提下,要尽可能降低数据的储存、处理等费用,提高效率。

  (13)安全性。

  安全性包含两个方面,一方面是指数据使用本身的安全,指采用先进的密码算法对数据进行主动保护,如采用数据保密、数据完整性、双向强身份认证等,另一方面是指数据防护安全,指采用现代信息存储手段增加对数据进行主动防护,如通过磁盘阵列、数据备份等方式保护数据的安全[41].

  3.1.2 大数据特征质量评价维度。

  (1)大数据规模质量维度。

  随着时代的发展,各种设备连成一个整体,而每个个体在这个整体中既是信息的收集者也是信息的传播者,大大加速了数据量的爆炸式增长数据从 TB级逐步上升到 PB 级。众所周知,政府大数据具有数据规模巨大的特点,其数据源规模也同样是巨大的,目前,还没有大数据的数据规模上的要求。但是按照已有大数据描述行定义来说,在数据源规模上,大数据必定有特定的高数据源量级要求,这种数据源的要求是大数据的界定和质量保证。如今,巨大的数据源与数据完整性不再受存储方式、科技手段等限制,使得绝大多数信号得以以最原始的状态保存下来,也就可以进行政府各部门数据之间的分和比对。统计与分析这些涉及面广、量大的环节,需要运行系统资源占用律很高,特别是输入和输出资源。如今,数据的采集大多采用模拟信号,利用很多个数据库同时接收,很有可能会同时成千上万的用户正在进行访问和操作,数据实时产生。

  这就要求政府大数据的采集端须要有效、科学的进行数据库之间负载均衡和分片处理。

  (2)政府大数据数据结构质量维度。

  大数据的多样性特点,也容易导致数据结构不一致的冲突。政府大数据意味着要在种类繁多的数据间发现其内在关联,促使我们要在各种各样的数据中挖掘数据信息之间的相互关联,把看似无用的数据转变为有效的信息,这就要求在数据的结构质量上我们要有特殊要求。数据结构至少能达到通过分布式计算或分布式数据库集群,对已存储的巨量数据库,分步骤进行简单的分类汇总、统计分析等,实现常见的分析需求,而那些基于半结构化或非结构化数据,我们需要借助高度集成技术,对视频和图像使用的大数据分析工具进行批量处理。

  现在党政领导对决策的数据支持越来越重视,信息多样性必然要求我们处理好结构化和非结构化的数据,尤其是对大数据的结构化、半结构化、非结构化数据能够高效进行处理和分析挖掘,才能够有效提取重要数据、显示合成图像。解决可视化分析技术的扩展性,满足政府大数据的需求。

  (3)政府大数据时效质量维度。

  大数据具有高速性的特点,从数据的角度来讲,与之对应的便是数据的时效质量。数据随着运算而快速的更新,就导致过时数据的产生不断增加,导致数据质量降低。数据融合是一种多层次、多方面的处理过程,在多信息源、多平台和多用户系统内起着重要的处理和协调作用,保证了数据处理系统各单元与汇集中心间的连通性与及时通信这个复杂的过程,还要对多源数据进行检测、结合、相关、估计和组合以达到精确的状态估计和身份估计,也要完成完整、及时的态势评估和威胁估计[59].政府大数据需要对各种结构化数据、非结构化数据、半结构化数据进行各种需求的处理方式,就必然存在在数据的内涵方面难以统一、含有噪声(数据中存在错误和异常值)、数据拟处理的属性指标不够完整、或者记录重复等各种问题,必须实时满足清洗和预处理的要求,而去掉噪声和剔除无关数据,都可以为后续的分析处理打下基础,这就对数据的融合质量提出了要求,必须充分利用多源数据的互补性和电子计算机的高速运算与智能来提高信息的质量。也就是说,对与大数据而言,数据的融合质量是至关重要的,而融合过程中对与数据的实时处理就与数据的时效质量息息相关。

  (4)政府大数据价值密度质量维度。

  大数据具有价值密度低的特点,也就是说对于数据量总体来说,真正有价值的数据只是少数。如何在海量数据中"大浪淘沙"是大数据的关键处理环节。除了识别出有价值的数据外,许多本来没有体现价值的数据依旧是值得研究处理的对象。因为在大数据时代,数据的价值并非是一成不变的,许多数据随着时间的变化、研究目的的特性等等产生新的价值,这就是数据的增值性。因此,我们应当根据不同的主体需求,选择不同的数据,不同的客体之间也可以通过不同的数据处理带来有形或无形的价值,实现数据的共享和价值增值。

  3.2 政府大数据质量评价指标影响因素分析。

  政府数据质量影响因素是多方面的,既有技术性因素,也有非技术性的因素;既有主观方面因素,也有客观方面的因素;既有外部影响因素,也有政府部门的内部因素。但是从质量评价每个指标来讲,多方面的影响可以从政府部门、被调查者和制度性因素的角度三方面来讨论,政府部门是政府大数据的采集存储的拥有者;被调查者是政府大数据的提供者;而制度性因素是影响两者在政府背景下最根本的影响因素。

  3.2.1 政府部门的角度分析。

  政府部门在数据处理的过程中既是整合政府资源的执行者,也是对大数据质量的监督者和控制者。在政府大数据的管理过程中,政府部门不可避免的会或多或少的影响数据质量。首先,从政府部门是政府大数据的来源,以数据类目来说,政府大数据质量就会在标准和方向上受到一些影响,如数据质量的相关性会受到的设置类目内容的影响,而数据质量的可解释性容易受到数据类目设置的合理性影响。其次,无论是由于硬件条件还是软件条件的限制,从政府部门的大数据处理能力来说,都对数据质量有重大的影响。如政府部门处理大数据的速度对数据的实时性产生影响,政府部门数据挖掘能力对数据的增殖性产生影响,而政府部门能够承受的采集、整理、存储、传输的大数据数量对政府大数据数量级的影响。再者,从政府部门的操作来说,日常的操作活动也会对数据质量产生影响,如政府部门操作造成的一般性数据误差对数据准确性的影响,而政府部门对政府数据防止泄露的防范措施也会对数据的安全性产生影响。

  3.2.2 被调查者的角度分析。

  被调查者是一个相对概念,是针对政府部门而言:既可以指被调查的企业,也可以是政府上下同级单位,甚至可以是个人。总之,被调查者是原始数据的来源,提供的数据对其质量具有非常大的影响。其影响主要表现在两方面:一个是利益驱动,被调查对象因其利益需要,比如上报数据与依法纳税存在着突出矛盾,往往会影响被调查者提供真实数据的意愿。尽管《统计法》已经明确规定了统计部门的数据不会作为诸如税务部门纳税,其它部门行政处罚的依据,也不会以个体为单位公布被调查者的具体信息,但是仍然有因被调查者主观对数据的修改、删减等处理造成的误差。另一个是数据基础统计工作薄弱的现象,客观的说,现阶段的数据环境仍不乐观,即使进来取得了长足的进步,但部分被调查者距离大数据的要求还有很大的发展空间。此外,有些基层部门对数据处理工作依旧重视不足、认识不够,工作的硬件条件得不到保证。许多数据处理人员还身兼数职,造成数据处理沦为附属工作。而一些企业原始数据记录、统计台帐不规范也不完整、跟不可能存在数据统计制度,靠工作人员的估报,往往凭记忆填报数据。这种随意处理数据的做法,直接影响数据的准确性,更难保证数据的质量。

  3.2.3 制度性因素角度的分析。

  对于政府部门来说,制度性因素的影响是方方面面的,数据质量也是如此,尤其是有关数据的机制性问题会直接影响数据处理的规范和流程,对数据质量差生重要的影响。首先,政府部门的统计数据占了相当大的比重,而作为一段时期内运营情况的反映,政府数据就被给予了特殊的意义和色彩。把数据指标作为考核机制的"数字出官",无形中刺激了"官出数字"造成的对现行体制的强烈干扰。部分数据的客观性、真实性受到了"修正".这个问题在地方政府显得尤为突出,全国统计局的 GDP 连续多年小于地方 GDP 汇报总和,各地政府掌握着该地统计部门的干部任免、经费来源等等,使得数据整理统计活动在各个流程上的无法做到客观独立。其次,由于制度性的机制,数据的调查仍旧停留在计划经济时期的以采取企业、单位报告式统计为主的旧模式上,甚至《统计法》在某种意义上也没有摆脱这样的思维。数据统计是完全从国家统计部门的角度按照上级部门的数据需求而设置的,而内容没有足够考虑社会管理和企业发展方面的需要,不一定具有很多的研究价值。如政府大数据很重要的效益性问题是直接关于大数据的投入和产出问题的,如果投入的大量人力物力的成本对应的产出价值有限,那无疑是缺少经济价值的。而政府从机制上还没有对于大数据的效益管理机制。

返回本篇论文导航
作者单位:
相关内容推荐
相关标签:
返回:信息管理论文