随着科学技术的飞速发展,数据在科学研究和社会管理的认识论和方法论中的作用越来越重要。在信息化时代,数据随时随地与我们相伴而行,“用数据说话”已成为认知世界的一种方法。近年来,大数据已经引起全社会的广泛关注,这主要源于全球数据以40%的高速度急剧增加;更为重要的是,大数据触及到几乎所有的领域,并对政治、经济、教育、文化、科技等领域乃至于整个社会带来认识和生活方式的变革。数据被认为是一种与能源和材料相提并论的资源,其所蕴涵的价值难以估量。
大数据时代带来了新的机遇和挑战。面对潮水般涌来的数据,解读数据所包含的信息和知识是当前科学家们致力追求的目标,进而推动了信息技术的发展,并带动了大数据的广泛应用。然而,人们对大数据乃至于数据的内涵和本质目前还没有统一的认识,我们试图从历史的视角,对数到大数据的演变进行考察,以期理解数据在社会发展中的革命性作用,对数据的内涵进行进一步的理解。
本文提出从数到大数据的历史可划分为3个重要阶段,数据的产生、科学数据的形成和大数据的诞生作为其标志,并指出在科学数据和大数据阶段所引发的认识论和方法论上的重要变革可视为两次数据革命。
一、从数到大数据的历史发展
至今为止,学术界对数据还没有统一定义。广义上讲,数据包括数、量、数据和大数据,这是因为从数据的发展历史看,数据由数、量演变而来,大数据是信息技术和计算方法的发展引起的必然产物,是对一般数据的拓展,因此对数据的认识必须涵盖从数到大数据的各个发展阶段。在数据的发展进程中,其历史地位经历了从应用工具到构成我们对事物认识的基础、依据,再到因数据自身所蕴含的大量信息而被作为知识挖掘的直接对象等不同历史阶段;数据的类型从结构性数据—数值、数字发展到包括非结构性数据—图、表、文字均可数字化的所有形式。数据的演变是一个渐进的过程,它不是简单的一种形式代替另一种形式,而是一个由简单到复杂的各种形式相互包容、不断丰富的过程。我们以数据与技术、自然科学研究和社会科学研究的关系为依据,将数据的发展分为3个历史阶段:第一阶段是数据的产生。
数据作为一种计量工具与技术相融合,充分体现了其精确性和实用性特征;第二阶段是科学数据的形成。
数据除作为计量工具外,也成为认识事物的基础和依据,并融入到自然哲学的研究方法之中,使定量研究成为自然科学的基本研究范式;第三阶段是大数据的诞生。数据成为一种重要的社会资源,影响着整个社会的发展进程,大数据也为社会科学提供了定量研究方法,实现了数据与社会科学的结合,基于数据的社会管理、服务应运而生。
1. 数据的产生
数据与数有着密不可分的联系。数的概念从萌芽到诞生经历了极其漫长的岁月,可以追溯到人类蒙昧时期。在由同类事物组成的集合里,当事物数量发生变化时,数觉作为动物的基本心理特征,使人类祖先意识到事物是“多了”还是“少了”。一般认为,数产生于大约30万年以前。但是,数是从经验里产生的,还是凭借经验之力将早已隐藏在原始人头脑中数的概念直接显露出来的,这一问题归属玄学之列,至今尚未解决。而不争的事实是,数的概念始于原始人在采集、狩猎等生产活动中,通过对不同类事物之间的比较,逐渐认识到存在某种共通的特征,即在同类事物中存在最小事物个体,即事物的单位性。同时,意识到非同类事物之间数量的其他共同特点,如数量上相互间可以构成一一对应的关系,这种非同类事物所共有的数量的抽象性质,就是数。罗素对数的抽象性总结到:“仅仅在文明的高级阶段上,我们方能以一串数(自然数串)作为我们发现的起点。发现一对鸡、两昼夜都是2的实例,一定需要很多时代,其中所包含的抽象程度确实不易达到。至于1是一个数的发现,也必定很困难。说到0,这更是晚近加入的,希腊人和罗马人没有这个数字。”
数字在成为最终通用的记数方式之前经历了匹配法和实物记数时期。匹配法被原始部落使用。上古时期,中国古人“结绳记事”;在公元前8000年至前3500年间,苏美尔人将各种形状的小的粘土记号像珠子一样串在一起,保留记数信息,这些均属实物记数。数字的产生比有文字记载的历史早几千年,数字与数制紧密相连。公元前四五千年左右,尼罗河流域的古埃及人创造了十进制象形文数字;两河流域的苏美尔人和巴比伦人创造了六十进制的巴比伦数字;远古时代,生活在中美洲的玛雅人创造了玛雅数字;黄河流域的中华民族创造了以商代的甲骨文数字和西周的钟鼎数字为代表的中国数字,到唐代前后已形成汉字数字等。
随着数学知识,特别是数字计算发展的需要,逐步产生了一套不同于文字数字的符号数字。13世纪以前,流行于欧洲各国的罗马数字;由印度人创造,后来传到阿拉伯和欧洲的符号数字,即阿拉伯数字以及十进制记数法。由于阿拉伯数字具有简便、易懂等特点,因而逐步被世界各民族所采用,成为世界各国的通用数字。数字较文字具有简洁性、准确性和统一性的特点,更易于信息传播。
数制使表达不同种类事物多寡的概念与同一抽象的数相结合,为计算大量事物的多少以及事物的不同组合奠定了基础。数制是指数字集合必须排列成有先后顺序的序列,即从小到大的序列,也就是自然序列:1,2,3,……。数制一旦有了,记数某一集合的事物,就等于将集合中每个成员分别和有顺序的按次第规律与自然序列中的一项相对应,一直到集合中的所有成员对应完为止,对应于集合中最后一个成员的自然序列项,就称为该集合的序数。就数的有序性,美国学者丹齐克认为,“单凭匹配本身是不足以创造出一种计算方法的,设若不是我们能够将事物排列成有顺序的次第,进步就是不大可能的。对应和序列,这两大原理已经深深渗透进全部数学——不只是数学,实际是精密思想的全部领域——之中,交错地编织在我们数系的锦绣天衣之上。”
数的概念及数的完备体系构建起来以后,人们将数的神秘性作为探寻目标之一,从自然数的抽象概念开始逐渐扩展,不断建立起更加完备的、抽象的数的体系。以数为研究对象的数论成为数学学科的重要分支。
有了数作为基础,测量、比较事物就有了精确表达的语言。量是数学中最基本的概念之一,是客观事物所具有的能区别程度异同的属性。我们将量的内涵理解为事物存在的规模、等级、范围、程度及内部组成要素的结构,是事物可以用数来表示的规定性。量的大小是通过测量获得的,测量是将一个量与作为标准的一个同类量进行比较的过程,标准量就是计量单位,是事物类的表征。因此,量的表达是由抽象数字构成的数的集合(数学领域)与由物质集合相联系的计量单位构成。
计量单位是用于表示与其相比较的同种量的大小的约定定义和采用的特定量。其发展经历了从古代各地区不同习惯和认知而表现出多样化,发展到为了交流和共享的需要,对计量单位统一的历史过程。
1960 年 10 月十一届国际计量大会确定了国际通用的国际单位制(简称 SI 制),并确立了 7 个基本计量单位和2个辅助单位及其派生单位,其精确度和准确度在科学技术的支持下不断得到提高。
英语中数据(data)一词出现在13世纪,来源于拉丁语,有寄予的含义。数据的概念是在量的基础上进一步扩展而建立起来的,量成为数据的基本单位。在计算机普遍使用的今天,数字化已成为现实,因此数据形式已经扩展到除量之外,数以及可以转换成数字的图形、表格、文字都成为数据的组成部分。数据不仅限于表征事物特定属性,更为重要的是成为推演事物运动、变化规律的依据和基础。
目前学术界对数据尚未有一个统一的定义。对数据内涵的最新认识是基于近年来计算机技术发展的结果,在计算机领域,数据被理解为是能够客观反映事实的数字和资料。其内涵包括:(1)数据对客观事物的符号表示,是用于表示客观事物的未经加工的原始素材,如图形、数字、字母等。(2)数据是通过物理观察得来的事实和概念,是关于现实世界中的地方、事件、其他对象或概念的描述。(3)数据是客观对象的表示,是信息的表达,而信息则是数据内涵的意义,是数据的内容和解释。(4)数据的格式往往与计算机系统有关,并随载荷它的物理设备的形式而改变。哲学家们认为数据是事物现象的表征,只有通过数据才能获知事物的现象。
数据具有实用性的特征,其实际使用可追溯到各文明古国,上至帝王统治和管理的需要,下至民众的日常起居衣食的需求,促进了数据的广泛使用。天文观测和历法的历史最能体现数据的实用性。新旧历法的确立不仅是观察数据的结果,还是统治者权力的象征,罗马帝王恺撒、屋大维对儒略历的制定就是最好的佐证。数据在技术领域应用极其广泛,如建筑、冶金等。
2. 科学数据的形成
对数据的理性认识是从古希腊哲学家开始的。数的神秘性、数与万物本源的关系都引发了哲学家们对数的研究。毕达哥拉斯学派不仅提出了万物源于数的本体论思想,还创立了以数作为研究对象之一的数学学科,对近代科学的以数据为基础的数理研究方法奠定了基础。
弗朗西斯·培根对技术的高度评价以及倡导的实验观察-分析-归纳和笛卡尔倡导的数理演绎的科学方法都将数据的使用提高到了科学方法论的地位,收集数据成为归纳、演绎和验证科学理论的依据。近代科学的研究方法将定性研究转向定量研究,不仅提高了认识的精确性,而且为科学的数学化奠定了基础。
经过14世纪经院哲学家、笛卡尔、伽利略、牛顿的不懈努力,实现了科学的数学化变革,通过方程式的形式完成了不同物理量之间的数值关系表达,使数据成为自然科学研究的基本要素。
近代科学的最大特征是将数据融入到自然科学研究范式之中。17世纪的自然哲学家开普勒对第谷大量的天文观察数据的使用,推导出行星运动三大定律;伽利略对地球表面物体运动的数据测量建立了自由落体运动规律;牛顿利用大量的天文观察数据和实验室的测量数据,在前人研究的基础上创立了牛顿力学体系,为近代科学确立了数理方法的研究范式。我们认为,正是在近代科学建立之时,技术与科学已经从相互独立转向相互联系、相互影响,这得益于长期作为技术应用的数据被应用于科学研究,数据成为技术与科学联姻的媒介。
科学数据是科学共同体用于科学研究的一种普适语言,具有简洁、精确、易交流等特征。科学数据因其在不同学科之间具有可通约性而具有的共享性、精确性以及数据自身的生命周期性等特点,构成了科学数据的价值。
科学数据是在科学研究活动中通过观察和测量获得的,以此为依据推导自然界和人类自身的变化规律,或用以验证已有理论的数据。科学数据的分类方法有不同的路径,我们将科学数据分为:原始数据、衍生数据和知识数据。
原始数据是在科学研究的初级阶段,直接或借助于仪器设备获得的尚未进行加工的数据。对于原始数据的获取方法,拉普拉斯在其《宇宙体系论》中论述到:“在地球上我们可用实验的方法使现象改变,对于天象我们便只能仔细地测定天体运动呈现出的各种现象。用这些方法向自然界探询,并将其答案加以数学分析,由于这一系列审慎处理的归纳,我们便会达到从一切特殊事实所导出的带有普遍性的现象。”因此,依据原始数据的获取方法,可将原始数据分为观察数据和测量数据。
观察数据是直接或通过科学仪器获得的,观察对象的环境和条件没有人为的预设和干涉。测量数据是科研人员根据自己研究需要,对对象的环境和条件进行人工干预,分离出或突出某一具体特征量,直接或利用仪器设备获得的数据。原始数据的准确性并非完全由观察和测量仪器的精度决定,也取决于研究人员的理论基础和技能、共同体的规范,即观测渗透理论的观点对于数据的获取仍然有重要意义。
衍生数据是在已有理论和各类数据的基础上形成的。从其产生的来源可分为观测衍生数据、理论衍生数据、模拟数据、密集型数据。观测衍生数据是在原始数据的基础上,利用科学共同体的研究范式、数据的共享与管理等规范,对原始数据进行加工处理而产生的。理论衍生数据是基于已有的科学理论,借助于各类数据—包括原始数据和知识数据—为初始数据,形成的数据。模拟数据通过计算机模拟,即数值计算而获得的数据。密集型数据是将理论、实验、模拟各种方法相融合,通过计算机收集的海量数据。衍生数据成为通向形成系统理论的桥梁。
知识数据是在一个理论体系形成之后,经过验证的供科学共同体继续研究的基础性数据。知识数据的种类具有多样性的特征。最为熟悉的常数就是其中之一,常数可分为数学常数和物理常数,其差别在于数学常数是独立于物理测量的,数学常数通常是实数或复数域的元素。数学常数被称为是可定义的数字(通常都是可计算的)。
其中有的常数比较直观,如圆周率π表示圆的周长与直径之比是一个常数;有的是研究范围的扩展,如在17世纪产生的虚数单位标记为i,将实数系统能够延伸至复数系统……。物理学常数中的真空光速c,普朗克常数h等,都具有其深刻的认识论意义,并成为各科学研究的基础。
3. 大数据(Big data)的诞生
自20世纪中期,在生物学领域开始的基因组测序技术飞速发展,积累了大量的生物学数据,如何理解这些数据,成为一种新的挑战。相同的数据问题也蔓延到各个学科领域,大到宇观的天文学研究,小到微观的基本粒子研究;以及复杂系统的研究,如气象学、社会学研究等。1966年,国际科技数据委员会(CODATA)成立,旨在促进全球科技数据的共享。1984年6月,中国科学院作为国家会员加入CODATA。
以大量观察和观测数据、理论数据和计算机模拟数据为研究对象,通过挖掘、提取等手段,寻求研究对象内在规律的学科——数据科学应运而生。这一新学科是否叫数据科学目前尚有争论,有的学者如李国杰院士认为应该称作数据工程或数据技术等。但无论如何,以数据为对象的相关研究已经得到学术界的关注。数据科学(data science 或dataology)作为科学术语于1960年由Peter Naur提出。1996年,在日本东京召开的两年一次的分类国际联合会(the International Federation of Classification Societies(IFCS))上,第一次将数据科学用于会议题目——“数据科学,分类和相关方法”(“Data science, classification, andrelated methods”)。
将数据科学作为一门独立的学科,最早是由美国普渡大学统计学教授William S.Cleveland 在 2001 年提出的,他认为数据科学是统计学领域扩展到与以数据作为先进计算对象相结合的部分,并建立了数据科学的6个技术领域:多学科研究、数据模型和方法、数据计算、教育、工具评估、理论。
2001 年,国际科技数据委员会(CODATA)创建了学术期刊“CODATA Data Science Journal”,标志数据科学的诞生。2003年由美国和中国学者创办的“Journal of Data Science”在哥伦比亚大学正式出版,该期刊发表以统计应用的方法,对所有与数据有关的研究成果,如数据的收集、分析和建模。
2012 年由springer出版集团创办了“EPJ Data Science”,该期刊主办方认为,21世纪面临的数据驱动科学已经成为传统假说驱动科学方法的补充,这种进化伴随科学范式从还原主义(简化)到复杂系统科学转变的变革,不仅极大地改变了自然科学的研究范式,而且对技术-社会-经济科学产生相同的影响。
数据科学的产生再次推动了科学研究范式的变革。以电子计算机为技术手段,通过对大数据(密集型数据)的挖掘获得有用的知识,与传统科学的发展并驾齐驱,在不同学科领域催生了一批新的研究方向,如地理信息科学、生物信息科学、生命组学等。
1998 年,《科学》上刊登的一篇介绍计算机软件 HiQ 的文章《大数据的处理程序》(A Handler for BigData)中第一次使用了大数据(big data)一词。2008年9月《自然》杂志出版“big data”专刊,使“大数据”在学术界得到认可和广泛使用。学者们从互联网经济、超级计算、生物医药等多方面关注“大数据”带来的技术挑战、现有技术以及未来的发展方向。2010年,Bollier认为,计算机存储技术,产生数据流的设备,如摄像机、望远镜和交通监视设备,云计算,面向消费者的应用,如Google Earth和Map Quest,成为大数据产生的几个重要因素,并首次提出“一种新的知识基础设施正在实现,大数据时代正在出现”的观点。
究竟何为大数据? Manyika et al.认为“大数据是指数据集合,其大小已经超出了典型数据库在获取、存储、管理和分析的能力。”
达到多大的数据叫大数据,目前还没有一个普适的定义,一般认为,大数据的量级应该是“太字节”,即240。大数据的意义在于,为人类“分析和使用”的数据的量在增加,通过对大数据的交换、整合、挖掘和分析,可以发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。
二、数据革命
2007 年,已故图灵奖获得者吉姆 · 格雷(Jim Gray)在加州山景城召开的 NRC-CSTB 上,做了《第四科学研究范式:密集型数据挖掘》的演讲,提出eScience是科学范式的一次革命。按照格雷的观点,科学已经经历了几千年的历史演变,形成了四个关键性科学范式。第一个是经验范式,几千年来,以实验观察为主,描述自然现象;第二个是理论范式,在过去的数百年时间里,科学研究出现了理论研究分支,研究手段采用模型和归纳方法;第三个是计算范式,近几十年,针对科学研究面临的复杂问题,仅仅用理论研究建立的模型难以解决,模拟复杂现象的计算模拟方法应运而生;第四个是数据挖掘或eScience范式,近几年,实验、理论、模拟不同渠道正在产生大数据,这些大数据蕴含着大量的信息知识,对其挖掘研究已经成为一种新的科学范式。
与格雷德四个科学研究范式相对应,我们将数据的历史性变革归纳为两次数据革命。
1. 科学的数学化
第一次数据革命是指近代科学诞生之时,数据在科学研究中的基础地位得已确立,实现了数据与科学研究相融合,促成了科学革命的发生。从近代科学开始,数据与科学进行了完美结合,展示了数据的巨大魅力。无论是科学理论的产生和发展,还是实验科学对理论的验证,数据无处不在。随着科学和技术的发展,数据的形式和内涵也在不断变化和发展,除观测数据外,实验数据、理论数据、统计数据、模拟数据以及由图、表、文字的数字化随科学技术的发展而相继诞生。
对研究过程和结果赋予精确化的诉求是近代科学的基本特征之一,近代科学形成了一套完备的研究范式,这种研究范式包括:由科学的数学化而产生的数理方法,和以实证研究为目的的实验方法,而数据在数理方法和实验方法中始终处于基础地位。“世界这本书是由数学语言写成的”认识论观点,使数据成为科学认知过程和科学知识积累中的依据。科学的数学化,使原属于不同范畴的质和量由数据进行统一表征,实现了数据在各自学科体系之内的可通约性,数据的使用和获取成为科学家们关注的焦点,科学仪器的进步使数据的获取如虎添翼。随着科学技术的发展,数据的基础地位从来没有被削弱过,反而逐渐加强。
加拿大哲学家西斯蒙多认为,科技哲学中的两大基本流派逻辑实证主义和证伪主义均将理论和数据之间的关系置于科学的核心。逻辑实证主义强调科学的归纳过程,数据起到了的依据性作用;证伪主义更加强调科学与非科学的划界标准,数据起到判据性作用。甚至将以数据为依据的实证研究作为判断“科学”与“伪科学”的标准,特别明显的是社会科学研究一度由于缺乏数据的支持被排除于科学之外,被冠以“伪科学”。
科学数据是确定的和准确的吗?近代科学确立的机械自然观认为,客观性和确定性是认识论的基本要素,因此描绘世界的数据语言是确定的和准确的。17世纪,产生了基于大量数据的统计数据,以此建立的统计学使事物的或然性和偶然性被认识。面对多体问题等复杂性问题,使用传统的实验数据和理论数据已经不能满足需要,通过计算机产生的数值模拟方法促成了模拟数据的诞生。20世纪最为杰出的科学成果—量子力学引入了不确定性和互补性的概念,引发了人们对测量数据的确定性和客观性的质疑,观察渗透理论使人们意识到数据在表征现象时存在误差,对数据准确性的内涵有了进一步的认识。
2. 大数据
第二次数据革命是指21世纪大数据的产生及其使用,它不仅改变着科学研究范式,实现了社会科学研究的定量化,而且将促使经济、社会、军事等所有社会领域产生巨大的变革。在科学研究方面,大数据将改变传统的研究方法。通过遥感装置、感应器、计算机收集数据或模拟方法获取的密集型数据,经过计算机软件处理,产生的信息/知识被存储在计算机中,科学家们只需在后台利用数据管理和统计的方法对数据进行处理、分析,获取知识。计算科学将再次大显身手,将以大数据为基础的密集型科学区分出来,作为一个新的、科学探索的格雷第四种科学范式。([22], p.X)密集型数据由以下几个公共构件组成:(1)数据采集,(2)数据管理,(3)建模与仿真,(4)算法,(5)信息分析,(6)系统平台。
大数据是数据密集型计算的一种,需要新的公共构件来应对庞大数据的挑战。大数据可能导致社会科学研究的革命,使社会科学成为像自然科学一样的实证科学,其定量研究成为可能,使其告别“伪科学”的行列,成为科学殿堂的一员。哥伦比亚大学沃茨博士通过研究发现,大数据对极其复杂的人类行为的社会学研究起到了极其重大的作用,通过网络数据,大量的个人的或很小组织的真实行为通过计算机以数据形式被记录下来,这些数据为人类行为研究提供了极其丰富的可靠信息,避免了研究者认知的偏见、感知的误差和框架的歧义。
大数据再次突破了自然科学和社会科学的研究界限,实现了数据的可通约性,通过数据沟通了不同学科的资源共享。
大数据对经济、社会、人类日常生活产生的影响不仅仅限于技术层面,而且对于管理理念、运作方式都将产生巨大的影响。“数据驱动的社会管理”就是在社会管理中实施的一种新型管理模式,无论是政府还是组织机构,数据收集和数据分析已经成为基层管理部门的基本要求,根据数据分析结果制定政策和法规,将社会管理从事后处罚转向事前防备,在医疗健康、国土安全、智慧城市建设、防范和打击恐怖活动社会治安、治理社会腐败等方面发挥着重要作用。20世纪美国的警务管理模式CompStat(一种新的治安信息管理系统)是利用大数据对社会治安进行管理,并取得良好成效的成功范例。利用地方各种传感器收集的大数据和通过互联网搜索关键词,疾病控制部门可以预测和判断某地的流行病爆发的情况。商务智能实现了从数据到知识的挑战和跨越“,决策支持系统”更是以数据和信息为主要来源,等等。
无论是“数据驱动的社会管理”还是“决策支持系统”,数据的获取和对数据的挖掘都至关重大,对收集到的各种数据,在后台进行分析,建立模型,利用云计算等计算手段,为制定政策、法律和决策提供技术支撑。各国已经意识到大数据的重要性,将其视为与能源同等重要的资源。2012年3月29日,代表美国政府的白宫科技政策办公室发布了《大数据研究和发展计划》,并成立了“大数据高级指导小组”,将大数据技术革命带来的机遇和挑战提升到国家战略层面。
在移动网络、云计算和其他技术的支持下,大数据迅猛发展,同时,分析数据的技术不断创新,这些过程和收益既鼓舞人心,同时也令人担忧。大数据在推动社会变革的同时也造成了社会风险,例如,个人隐私、数据的客观性和准确性、大数据的滥用等问题,已经遍及科学研究、社会管理、医疗保健、商务智能等众多领域。
三、结束语
综上所述,数据是人类认知活动的产物,是对客观事物的主观反映,是对事物现象进行表征的一种逻辑语言。科学数据由于其简单性、精确性和普适性,已经成为科学研究的基本组成要素之一;大数据随着计算方法和信息技术的快速进步而诞生,目前已在众多领域成为分析、管理、决策等赖以进行的重要资源,是发现知识、创造知识和认识世界的一种新范式,对其的进一步研究已引起世界各国的高度重视。
从人类发展的历史来看,数的产生是从人类自身的生存、生活需要开始的,也正是这种需求推进了数到数据的发展,从观察数据的收集到技术中数据的使用,功利主义的性质无处不在。真正让数据从实用到抽象和理性则要归功于古希腊的哲学家,他们第一次远离实用主义,将其看成是事物的本源,这种思维方式也为自然哲学的研究开辟了新的道路。
从数据的发展历史来看,今天的数据已经将数、量全部囊括其中。自数的概念产生以来,数据与其它语言文字一样是人工产物,是用于记录事物的性质和交流的工具。从广义的角度讲,数据可以被认为是语言的一部分。与文字语言不同的是,数据的表达形式更为简单,虽然不同的文明发源地有不同的记数方式和不同的数制,但随着文化的交融,数据形式的高度统一超出了所有文字语言,这无不与其简单性和精确性密切相关,也更加有利于交流。数据因其是研究对象的本征表象而成为归纳和演绎出其内在规律的依据。从科学技术发展历史来看,科学数据之所以成为重要的研究手段,源于其精确性、一致性和易交流性的特征。数据的客观性仍然受到人类主观因素的影响,这一特性从数的产生就一直存在。可以说,数据是事物客观性和人类主观性的纽带,也是人类认识世界的桥梁。然而,由大量数据构成的大数据的内涵和其神秘性,仍然是科学家和哲学家有待进一步研究的重要领域。
数据不仅参与到社会、科学、技术等领域的变革之中,其自身也发生着革命性变化。数据以其实用性成为其产生发展的基础,数据与技术的自然结合是其先天性体现。近代科学中数据基础性地位的确立,是数据与科学融合的结果。21世纪信息技术的发展导致的大数据正在引发一场波及所有领域的革命,大数据已经从工具、依据性角色上升到自身蕴含有待开发的信息和知识的资源地位。
大数据引发的革命使人类世界正面临新的机遇和挑战。然而这场大革命需要解决一系列基础型问题,如数据的本质、性质、类型和价值;大数据引发的诸如隐私、安全和版权等问题;数据的获取、挖掘和共享的技术难题;以及相关数据科学家的教育和培训等问题。人们对这些基本问题进行的持续探索和研究,必将产生新一轮的数据革命,并导致新技术的诞生和人们生活方式的巨大变革。
[参 考 文 献]
[1]李文林:数学史教程[M],北京:高等教育出版社,2000,11。
[2][美]T.丹齐克:数:科学的语言[M],苏仲湘译,上海教育出版社,2000。
[3][英]B.罗素:数理哲学导论[M],晏成书译,北京:商务印书馆,1982,8。
[4]数学辞海(第一卷)[M],山西教育出版社中国科学技术出版社东南大学出版社,2002,13。
[5]郭奕玲、沈慧君:物理学史[M],清华大学出版社,1993,448。
一、科学技术哲学在我国的发展历程在我国,科学技术哲学有两个名称,即:自然辩证法和科学技术哲学,前者以恩格斯提出的自然辩证法命名,后者以科学技术哲学命名,一个学科长期有两个名称并重,这是不多见的。20世纪50年代,新民主主义向社会主义过渡时...
李约瑟问题(既然中国古代科学技术曾长期比西方遥遥领先,为何近代科学却没有在中国出现呢?)的实质是:应当如何评价中国古代的科学技术?中国古代的科学传统的背后,有着什么样的哲学思维方式和文化背景?它与西方古代的科学传统,及其哲学、文化之间,存在着什么...
在汉语中,机是一个关联很广,含义丰富的字,很多重要词汇都与它有关,如生机、危机、机遇、机器、机制、机体等。关于机的哲学思考,可以引发很多理论问题,从中获得一种融贯性的深入理解。一、关于机本身机的繁体字是机,来源于几。按照《说文解字》的...
随着全球对气候变暖等可持续发展问题的持续关注和担忧,生态创新在近年来是各国(或者经济体)政治及学术研究中的热点,因为它提供了达成可持续发展三重底线(环境社会经济)的可能性。2009年哥本哈根气候大会上,中国政府作出了到2020年单位国内生产总值二氧化碳...
一、引言辩证唯物主义认识论认为人类借由实践活动来认识外部物质世界,其认识实现过程是从基于感觉、知觉和表象为标志的感性认识,向经由人类大脑理性逻辑加工和思维抽象而形成的理性认识演进的过程。这一科学的认识理论在指导人类认识和改造世界的实践中发...