自然辩证法论文

您当前的位置:学术堂 > 哲学论文 > 自然辩证法论文 >

大数据主义者对理论、因果与规律的认识(3)

来源:未知 作者:chunt
发布于:2017-04-10 共11162字
  史蒂夫·洛尔在《大数据主义》一书中提出要“厘清大数据中的相关关系与因果关系”,认为相关关系可以为商业、医学等应用领域提供有效的预测工具,但不能因此否定因果性。他借用 IBM 人工智能专家费鲁奇的话说:“对于大量商业决策而言,有相关性就能得出令人满意的结果”.但是,“仅凭相关性是不够的”,“还要对因果关系产生有启发性的认识,包括理论、假设、现实世界的心理模型、事情的原委等,两者必须更密切地相互配合。”〔5〕163-164
  
  英国韦斯特敏斯特大学的 David Chandler 在论文《没有因果的世界:大数据与后人类时代的来临》中认为,大数据并不是要取代因果关系,它只是带来了新的归纳方法和新的知识生产方式。〔6〕牛津大学互联网研究中心的 Josh Cowls 和 Ralph Schroeder 在论文《因果性、相关性及社会科学研究的大数据》中,通过访谈 26 位学者,详细论述了大数据时代的因果性与相关性的关系。〔7〕受访者认为,理论终结及取代因果的说法有点过分夸张,但大数据对他们的影响的确很大,它使得社会科学研究所需数据的采集、处理变得容易。至于相关性和因果性问题,这取决于何种类型的研究:如果是商业应用之类的研究,找到相关性就够了,但社会科学理论研究则仍然需要因果性。
  
  归纳起来,大数据主义对相关性与因果性的态度是:在大数据时代,由于数据的暴增,寻找数据间的相关性比因果性更重要,大数据主义承认事物的因果性,但更应该把握事物的相关性。齐磊磊说大数据主义否认因果性的存在,它已被相关性完全取代,这是对大数据主义的误解或误读。大数据主义为什么强调相关性,弱化因果性呢?我们可以从四个方面来说明。(1)就相关性与因果性的关系来说,相关性更广泛,因果性更严格,因果性是相关性的一种特例。在哲学史上,对这两者关系的讨论很多,齐磊磊不但回顾了哲学史上两者之间的关系,而且从数学的集合论和函数关系论证了“相关性是一种比因果性更广泛的概念”,因果性是相关性的一种特殊状态。(2)大数据并不否定因果,只是不强调因果。自休谟对因果性进行全面怀疑和批判以来,虽然众多科学家、哲学家做出了种种努力,但仍然很难证明某两种现象或事物之间就一定存在着因果关系。休谟只是把因果性看成是人们的一种习惯,康德的《纯粹理性批判》也只是做出了一种工具主义的修补,仍然没法证明因果性的必然性。大数据没有站到彻底否定因果性的队伍中,而是承认因果性,但从相关性入手来把握。从方法论来说,相关性比较表象,只要两者之间有依随关系就认为具有相关性,因此容易被识别;而因果性则要反映事物之间内在的本质关系,这就不容易被认识和把握。大数据从相关性而不是因果性入手,是一种聪明的方法论策略。(3)大数据时代的来临,海量数据使得寻找因果关系如同大海捞针一样困难。大数据时代的数据量迅速发展到 PB、ZB 级别,要在这么多的数据中找到与某数据具有因果关系的另一个数据,这比大海捞针还困难。正如统计物理学面对海量的分子,研究者无法跟踪每个分子的运动轨迹以及它们之间的因果关系,只能用统计学的方法研究大量分子运动所表现出来的宏观行为和规律,而且这些规律只遵从统计规律,没有因果规律那种必然性。PB、ZB 级别的数据,跟统计物理学所面对的海量分子一样,我们不可能跟踪每个数据的来龙去脉、前因后果,只能使用数据挖掘工具挖掘出数据之间所表现出来的宏观行为以及数据之间的相关关系。(4)日常生活、商业应用中,相关关系就已经足够。在许多场合,我们的确不需要知道事物之间内在的因果关系,只要知道它们之间具有依随性质的相关关系,在我们发现某现象或数据变化时,大致能够推断与之相关的另一个现象或数据也可能会发生变化。例如,我们发现,天气长期下雨会带来雨具销售的增加,而我国南方总是春雨绵绵,于是聪明的商家早已准备好了各种雨具来迎接南方雨季的到来。又如,每年大学新生开学季,都有大量的银行卡、手机卡等商业机会,于是聪明的商家早已与学校相关部门将各种卡随录取通知书投送到新生手中。对商业应用来说,最关键的是快速抓住机会,至于背后的因果关系则留给学者们去探讨。
  
  总之,大数据主义不是要否定事物之间的因果性,并用相关性取代,只是不再过分执着于事物因果性的追求,采取从表象的、数据之间的相关性入手,发现数据规律,然后由此作为路径,再打开黑箱,寻找数据之间的因果关系。由此,相关关系就成了寻求因果关系的一把方便钥匙。当然,大数据也能够接受暂时找不到因果关系,只能找到相关关系的情况存在。
  
  三、大数据主义者如何看待规律
  
  在对待世界的本质及其规律性问题上,齐磊磊说,大数据主义否认世界的规律性,将世界的本质归结为混乱的数据。她把大数据主义的观点与卡特莱特为代表的新经验主义相比较,并由此来批判大数据主义者。齐磊磊对大数据的世界观和规律观的批判主要从统计学家的观点和网络科学家巴拉巴西的观点这两条路径来进行。她引用统计学家的观点说,统计样本的增加不一定能够增加统计的精确性,只有增加采样的随机性才能提高统计的精确性。她用舍恩伯格的“大数据的核心在于预测”来反证舍恩伯格主张世界混杂性的错误。此外,她引用巴拉巴西在其《爆发:大数据时代预见未来的新思维》的观点来证明世界的规律性和可预测性。
  
  齐磊磊所批判的观点主要来自舍恩伯格,因此我们有必要先还原舍恩伯格究竟说了些什么。舍恩伯格认为,万物皆数,通过大数据技术,一切现象或行为皆可转化为数据,这就是他所说的“量化一切”.通过智能感知、万物互联等量化手段之后,现象世界就映射为一个“数据世界”,这个数据世界可以被智能设备所识别、储存、传输和计算,世界的存在变成了数据的泛在。这样,数据就成了世界的本质属性,所以舍恩伯格说“世界的本质是数据”〔3〕125.
  
  舍恩伯格认为,在大数据时代,数据的获取变得十分容易,数据规模也暴增到海量,因此现在人们已经彻底告别了数据缺乏的时代,并进入到一个数据丰裕的时代。正因如此,舍恩伯格才强调,人们没必要再依靠抽样调查等手段来获取数据,可以采取一网打尽的“全数据模式”.由于数据来源多样化,数据规模海量化,因此,一方面这些数据难免鱼龙混杂,失去传统的精确性,另一方面数据的多样性也反映了世界的多样性。齐磊磊所批判的“混乱”,舍恩伯格所用的英文是 messy,其本义的确有“混乱”的意思,但也有“混杂”、“复杂”之义。〔8〕33中文版的《大数据时代》大部分时候都将其译成“混杂”,偶尔译成“混乱”.“混杂”的译法比较合适,而“混乱”则误解了舍恩伯格的原意。“只有 5%的数据是结构化且能适用于传统数据库。如果不接受混杂,剩下 95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。”〔3〕45因此,舍恩伯格提出应该允许和接受混杂性,不再过分执着于追求精确性。舍恩伯格并没有由此推断出世界就不再有规律性,相反,他正是想通过认识、接受混杂性来更好地把握世界的规律性,正如他自己所说:“接受数据的不精确和不完美,我们反而能更好地进行预测,也能更好地理解这个世界。”〔3〕56
  
  从大数据学者的论述中,我们可以看出大数据主义者对世界观、规律性的态度。归结起来,主要表现为如下五个方面,即整体主义、复杂多样、关注细节、数据规律、透明世界。
  
  (1)整体主义。自从古希腊以来,西方科学主要是通过打开黑箱,还原到部分甚至是“始基”去研究其中的奥秘。这种还原方法论反映到数据采集上就是受控实验或抽样调查方法。由于技术能力的限制,以往的数据采集只能在理想化处理之后,通过精心设计的受控实验,或精心设计调查问卷和调查对象之后所进行的抽样调查来获取所需的数据。小数据时代的随机采样就是试图以最少的数据获得最多的信息,这就是将复杂的现象还原为少量的抽样数据。大数据时代的来临,让我们不再需要选取样本,或者说样本量可以最大化,这就是大数据的“全数据模式”.由于与对象相关的所有可能性都包括其中,至大无外,所以这其实就是一个整体。以往我们经常说要用整体论的视野看问题,但由于没有将整体技术化,在解决实际问题时依然应用部分代替整体的还原方法。大数据的“全数据模式”将传统整体论数据化,用全部数据代表整体,并可以进行计算、分析,是一种数据化、可操作的整体观,因此大数据主义是一种数据化的整体主义。〔9〕
  
  (2)复杂多样。经过孤立、静止、抽样等理想化处理,所获数据变得简单、纯粹、单一,所反映出来的现象世界也变成了简单、单一的理想世界。大数据时代的数据来自各种途径,例如各类传感器数据、网络浏览数据、网络社交数据、电话短信数据、消费数据、刷卡数据等等,这些数据都属于原始数据。因此,数据粗糙、类型多样。但是,大数据时代的数据由于没有人工的预先参与,因而未被人工污染。因此,保留了原始性、粗糙性、复杂性、多样性等,由此所反映出来的现象世界也变成了一个复杂多样的真实世界。复杂性科学早就批判了传统科学的理想化和简单化,认为真实世界是复杂、粗糙、多样的世界,而大数据技术则用可计算的海量数据来刻画了复杂性科学的理念,让复杂性的科学理念变成了大数据的技术手段。
  
  (3)关注细节。理想化之后的受控实验和抽样调查,都是选取预先被认为重要的少量数据来代表所有数据,或者说由少量数据来描述真实世界的复杂现象,例如全国大学生有几千万,但不少做大学生相关问题调查的研究者往往在几所大学发放几百份问卷,就得出全国大学生怎么样的结论。做抽样调查者辩护说,只要能够保证抽样的绝对随机性,少量样本就能代表全体。问题是,我们怎么知道具有绝对随机性?事物本身千差万别、丰富多彩,少量样本又怎么来代表这些细节?大数据让所有样本都保留,不要少数样本来代表自己,这样每个样本的独特之处、出彩之处都有可能保留下来。因此,大数据的“全数据模式”就保留了每个样本的丰富细节和个性,具有统计学所说的“遍历性”,而且数据越多,细节越丰富。抽样的数据无法被放大以便观察细节,而大数据的数据可以被随意组合、放大,可以追溯每个数据的细节,大数据成了数据显微镜。因此,大数据比以往的小数据更加关注细节,更加注重个性。
  
作者单位:
相关内容推荐
相关标签:
返回:自然辩证法论文