公共管理硕士论文

您当前的位置:学术堂 > 毕业论文 > 在职硕士论文 > 专业硕士论文 > 公共管理硕士论文 >

大数据技术研究综述

来源:学术堂 作者:姚老师
发布于:2015-11-19 共5367字
  本篇论文快速导航:

展开更多

  第 2 章 研究综述
  
  2.1 大数据概念的时代内涵

  在欧美国家,有一句俗语叫做"除了上帝,任何人都必须用数据来说话".这是典型的西方人的数据思维。着名学者涂子沛的《大数据:正在到来的数据革命》,就是这种思维的提倡者。作者以信息化为背景,讲述了作为一波世界性浪潮的大数据,给中国带来的思考与启示。《大数据》解释了何为大数据:简单而庸俗的理解就是超大量的数据。该书以别开生面的经典案例--奥巴马建设"前所未有的开放政府"的雄心、全民医改法案的波澜、统一身份证的百年纠结、街头警察的创新传奇、美国矿难的悲情历史以及商务智能的前世今生、数据开放运动的全球兴起等等,为我们一一细解"数据创新分析"给公民、政府、社会带来的种种挑战和变革。

  查阅百度百科与维基百科,"大数据"的定义如下:"大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。大数据具有 4V 的特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。"不过,我们从中可以看出,这条定义仍然是偏重商业运用的,而非政府进行公共管理的利用。

  有关大数据研究的书,有两本书是极其着名的。一本是上述提及的国内作者涂子沛的《大数据:正在到来的数据革命》,该书得到了现任国务院副总理、前广东省委书记汪洋的赞许。另一本就是英国作者舍恩·伯格的《大数据时代》,我们来看看舍恩·伯格是如何定义大数据的。

  《大数据时代》的作者舍恩·伯格说,数据量在过去 25 年当中急剧增长,所以就形成了现在的"数据雪崩".1987 年,模拟数据量是 26 亿,数字数据量是 2000万。2007 年,模拟数据量是 186 亿,数字数据量是 2760 亿。我们什么时候进入大数据时代呢?作者认为,世界进入"拍字节(PB,Petabyte)是大数据爆发的临界点".计算机上最小的数据单位是一个字节,一个英文字母或者一个阿拉伯数字就是一个字节,一个汉字相当于两个字节。最早我们知道的是 KB,就是千字节,MB 是百万字节,GB 是亿字节。世界进入大数据时代,后面还有 EB、ZB 等等,KB<MB<GB<TB<PB<EB<ZB<YB<BB<NB<DB.例如,中国国家图书馆藏书是 2631 万册,这相当于 41TB,美国国家图书馆是 1.5 亿册,相当于 235TB,一个 PB 相当于 4.36 个美国国家图书馆的数据量。现在新提出来一个概念,叫"数据宇宙".据有关方面预测,从现在到 2020 年,数字宇宙将每两年翻一倍,到 2020 年,全球的数据量会达到 40ZB,人均数据预计将达 5,247GB.现在,大部分数据没有得到充分保护。2012 年只有 35%的数据被以某种形式进行保护。

  如上述舍恩·伯格的定义中,大数据有四个特征即"4V".一是 Volume,数据量巨大。2007 年的数据量是 1987 年的 100 多倍,这么大的数据量对过去传统的存储技术产生了挑战,如果按照大数据时代的要求,现在的存储方式肯定是不能适应的,而且成本巨大。将来唯有储存到某个云计算中心或者云存储中心,才是最便宜最方便的。二是 Variety,数据的类型多。各种各样类型的数据都被展现出来,有数字、图像、声音、文本等各种各样的形式。三是 Velocity,速度处理的要求高。业内的"一秒定律"认为,各种处理必须在 1 秒钟内完成高速实时处理。四是 Value,价值大、密度低。对于大量的数据我们可能不能在很短的时间内分析出来,可是里面又藏着巨大的价值,所以需要"沙里淘金".

  大数据的要义是什么呢?《大数据时代》的作者舍恩·伯格认为,大数据跟我们传统的思维方式不一样,我们过去追求的是因果关系,追求的是"为什么",大数据时代最大的转变,是放弃对因果关系的渴求,而关注相关关系。也就是说只需要知道"是什么",而不需要知道"为什么".举例来说,美国是飓风经常发生的地方,大数据显示,发生飓风后人们会倾向于买两种东西:手电筒和小饼干。手电筒万一停电了用得着,为什么还要买小饼干,有些人百思而不得其解。

  但商家只需要知道买手电必买小饼干,或者发生飓风后必买小饼干,所以一旦发生飓风,他们就把手电筒和小饼干摆在最显眼的地方出售,而不用问为什么,其实知道为什么也没有多大用处。

  因此,建立一个政府信息共享平台,不仅要善于收集相关信息并进行分类,还要善于从海量信息中获取不同信息的相关性。例如,到基层政府遇到了某种突发性事件事,首先要将这种突发性事件进行分类、定位,其次,要从相关的大数据中,发现以往处理此类突发性事件最为有效的行政手段是什么。

  2.2 当代大数据技术与传统数据库技术的差异

  从数据量方面来看,当数据达到 PB 级别(1PB=1024TB=1048576GB)以上,即可称为大数据了,这是传统数据处理工具无法有效处理分析,且这些数据每天都在增加,需要新的思维方式和技术工具,进行有效的处理。从数据的使用方面看,传统的数据库只是存储使用数据的自身的涵义,没有利用数据的附加价值。而大数据更强调数据之间的关联性,主要研究对数据间的关系。

  从核心思想方面来看,传统的数据库主要是对数据进行存储和查询,以对过去产生的数据进行保存为核心作用。大数据以对事情发展的预测为核心思想,通过对海量数据的进行分析,得到未来发展趋势或推断出将来的可能性。这一点和人工智能还有所区别,人工智能是让机器像人一样思考,而大数据的预测作用是对未来发生事情的可能性进行推断。

  综上所述,政府部门间信息资源共享是一项基础性工作,是电子政务建设进一步发展的关键点。大数据技术作为一项新兴热点,是伴随信息技术发展而得到关注的。所以政府部门间信息资源共享与大数据技术两者具有很强的互补关系,政府部门间信息资源共享前期建设和发展为大数据的推广提供了基础,大数据为政府部门间信息资源共享深入发展指引了方向。

  2.3 国内外有关大数据以及信息资源共享的研究现状

  2.3.1 境外的大数据发展

  大数据的发展与政府数据开放之间有着不可分割的关系,可以说民间商业应用对利用数据的愿望是推动大数据发展的主要动力,政府将掌握的大量信息资源开放给公众是大数据发展的关键。各国商业公司、组织和个人都可利用政府公开的数据平台,经过加工、分析,发布应用程序,向公众提供数据服务。

  爆炸式的数据汇集,促进了大数据思维、技术、工具的蓬勃发展。从陆建英、郑磊以及刘叶婷,贾童舒等人的研究成果中,笔者得以窥见国外的大数据发展现状以及实践过程。

  美 国 于 1997 年 建 立 了 首 个 全 面 公 开 联 邦 政 府 统 计 数 据 的 网 站fedstats.gov,2007 年建立了联邦政府资金使用情况的网站(USAspending.gov)和经济刺激计划资金使用情况 (Recovery.gov)。2009 年,颁布了《开放政府指令》(US Open Government Directive),这项法案要求在"透明"(transparency)、"参与"(participation)、"协同"(collaboration)的原则下在政府网站上发布更多数据库,通过网站数据开放使公众了解政府信息。2009 年 5 月正式推出了data.gov 网站,由联邦信息官主导,以公民可以自由检索并获得联邦政府数据、实现政府透明化为目的,要求各联邦政府机构 data.gov 提供信息。截至 2013 年5 月,该网站提供来自 172 个联邦部门、机构和组织的 373029 条原始和地理空间数据、1209 个数据工具、350 个电脑应用、137 个手机应用。

  英国于 2010 年发布了政府数据网站 data.gov.uk,促进企业、公益组织、个人爱好者开发出更多的应用程序,并通过这些应用程序将政府数据向公众更好的公开。2012 年,发布新的政府数字化战略,旨在使政府服务实现"默认数字化",提供数字服务每年能为英国政府节约 17 亿-18 亿英镑。英国承诺 2015 年前开放有关交通、天气和健康方面的核心公共数据库,并将投资 1000 万英镑建立世界首个"开放数据研究所"(OpenDataInstitute)。

  澳大利亚于 2009 年推出了 data.gov.au,作为政府信息目录,用户可以方便搜索、浏览政府数据,目前包括 114 个部门的 1120 个数据库。

  日本没有发布 data.gov 网站,但是于 2012 年发布了电子政务开放数据战略草案和《面向 2020 年的 ICT 综合战略》,并在 2013 年行动计划提出"通过大数据和开放数据开创新市场".

  欧盟委员会于 2010 年提出"欧盟开放数据战略"和相关法律提案,希望让欧洲企业与市民获取欧盟公共管理部门的所有信息,计划在 2013 年建立一个汇集不同成员国以及欧洲机构数据的"泛欧门户".

  在开放数据的风潮下亚洲的中国香港、中国澳门、新加坡和韩国都建立了本国或地区的 data.gov 网站,目前为止,全世界已正式建立数据开放门户网站的国家和地区达到了 35 个。2011 年美国、英国、巴西、挪威、墨西哥、印尼、菲律宾、南非等八国宣布成立"开放政府联盟"(OGP),并发布《开放政府宣言》。2011 年,美国联邦政府宣布将和印度政府合作,将现有的 data.gov 改造成开源平台,并且与 2012 年开放全部平台代码,印度将率先移植 data.gov 作为中央政府的数据开放平台。

  2.3.2 国内外有关"政府数据信息共享"研究与比较

  与国外相比,国内关注"政府数据信息共享"的研究不论是在广度还是深度上,均稍有不足,且国内研究起步晚了几年。不过国内研究也取得了较好的进展。例如,2006 年左右,已有学者提出要在全国推行"小共享、大共建"信息共建共享模式,即通过系统共建信息平台实现全国共享,或通过区域性共建达到逐步融合,实现全国政务信息共享。有人通过高超的网络技术分析,发现政务信息是在网络上呈散乱分布的,因此提出要实现全国信息共享,必须首先发现网络环境下政府信息资源的异质性构成。也就是说,应该分析政府数据信息的类型(下一章中笔者将会论述有关政府网络信息的分类)。

  国内行政管理领域的学者通过分析政府的科层制度,以科层内信息如何传递为主题,发现由于行政科层内部协调机制不完善,从而导致政府部门间信息共享的障碍以及对策.还有人在更为具体的层面展开具体的策略分析。例如通过分析国际电子政务发展的成熟度模型,对我国电子政务建设的推进体制、机制和方法进行了分析,并且提出了跨部门政府信息资源共享的管理实施问题解决方法.有些学者在总结以前研究的基础上提出了电子政务环境下政府信息资源的共享模式和策略。再如,通过研究大数据时代政府信息沟通的网络模式和传统模式,阐述了电子政务下政府信息沟通网络模式的交流过程,并预测分析了网络环境下政府信息沟通可能出现的问题,提出政府信息沟通的网络模式.

  还有一批学者提出了政府部门间信息共享的理想状态、整体框架和动态实施过程,并从共享规划、流程再造、政府业务、组织再造和实施保障四个方面阐述了对政府部门间信息共享模式.

  目前看来,学者从总体设计上研究大数据时代政府信息共享建设的论文偏多。例如,高复先教授阐述了地方电子政务数据中心与交换平台的统一建设必要性,强调了总体设计是基于信息资源规划成功的关键与保障.还有学者从中央政府和地方正的关系角度出发,以地方政府建社角度论述了地方政府部门间信息资源共享模式及推进机制,研究政府部门间信息资源共享的微观模式,提出了主题数据库的建设思路。

  国外较具深度的相关研究以欧美为主,有关"政府数据信息共享"的研究集中于最近十几年中。例如,大卫·兰德史伯格与佐治·沃肯主要在技术层面研究了政府信息共享障碍,存在软硬件兼容困难、公私财产界限不明确和数据共享标准不一致等问题.伍思雷和保罗斯基等人分析、和解释了信息共享中利益相关者的决策模型和过程,研究了信息共享过程中利益相关者所面临主要问题的态度及相互关系.Shuang Sun 和 John Yen 提出用信息供应链平衡信息需求和供给,利用信息需求计划(计划、推断和满足信息需求,并用满足率(Fill rate)和总成本(Total cost)来衡量信息供应链.阿赞德与法拉等人则通过研究电子政务框架发展过程后,指出内在需求是电子政府长期维持的动力.Tung-Mou Yang 和TerrenceA. Maxwell 提出了消除组织内部的信息共享影响的对策建议.上述这些国外的相关研究都值得国内建设政府信息共享平台时予以借鉴。

  应该对国内外相关研究展开一些比较,以发现各家长短优劣。显然,欧美学者在政府信息管理领域、对政府信息资源共享问题的研究起步较早,不仅分析了不同组织和技术环境下的信息共享问题,而且形成了较具系统性的研究。

  更为重要的是,他们能够从理论层面出发,运用实际平台建设之中。因此,国外研究者在大数据的时代背景下,推进了对政府部门信息资源共享研究,体现出这一研究领域的高应用性和高科技性特征。而相应来说,国内学者对政府信息资源共享问题研究起步较晚,但是随着今年政府信息化加深和信息技术的迅猛发展,研究成果呈快速增长趋势,并且大量借鉴国外关于政府信息资源共享的理念,结合我国实际情况,也提出不少信息资源共享的发展方向和实现方法。

  经过比较国内和国外的相关研究,也可以从总体上看到,目前的研究仍然聚集在建设制度层面,主要是进行可行性与有效性的说理,相对较少实践案例的总结,真正展开数据共享平台建设的例子也是凤毛麟角。尤其是国内学者,还仍然停留在政府数据信息资料共享的必要性和可行性的论证方面,对具体策略的研究还是有所不足。虽然,一个时代的到来首先要有理念上的突破与革新,但是笔者论文,必须在理念与实践上双重推进,才能引领时代潮头。目前学术界有关大数据平台的实证研究以及建设策略研究,相关文献非常稀少。笔者即试图从某种程度上、或从某个角度出发,去弥补这方面的缺憾。

返回本篇论文导航
相关内容推荐
相关标签:
返回:公共管理硕士论文