数学建模优秀论文精选范文10篇之第五篇:大数据数学建模新模式的构建研究
摘要:大数据正在改变着人们的生活以及研究与理解世界的方式,对于大数据与数学建模算法的结合,高校中的大学生们接触的并不多。针对大学生数学建模能力的现状,结合大数据,找出传统数学建模存在的弱点,进行研究提升。让它们有机地结合在一起,构建一种大数据时代的大数据数学建模新模式。
关键词:数据预处理; 数学建模; 数学教学;
一、引言
当今的社会正步入一个大数据的时期,整个社会的信息的共享化越来越大,这也为科技的发展和社会的进步提供了一系列的便利。而这一切的变化、这一切的发展都是以数学为基石的。所以说,当今社会的电子信息、大数据信息的环境下数学的综合应用能力和创新、建模意识培养是当前高校中数学课程要解决的一个很大的任务。特别是现在数学与计算机之间的融合与交互发展,让数学的应用空间越来越宽广,现在很多地方已经将运筹学的相关知识加入到了中学课本中,加强中学生的数学应用思维。
同时,在国内的很多高校中也开设了很多数学应用、模型建立、数据分析与挖掘等方面的课程,现在高校中的全国大学生数学建模也搞的如火如荼,这一些都是将书本上的理论知识转化为看得见、用得着的实际研究,让学生们认识到数学的重要性,看到其发展性。数学在工科类专业与工商经管类专业中都是很重要的,但是其课时设置是固定的,在有限的时间内,只能将其基础知识进行讲解,而不能将其进行扩充、延伸。
这样,在课堂上学到的知识和在社会、工作中的实际应用联系不起来,特别是现在大数据的研究已经形成一种思维趋势。导致课堂与实际不能衔接,学生没有相应的训练、实践。没有相应的环境,就得不到相应的提高。大学生对于数学知识的运用,除了要学习课本知识还要了解很多的相应课外知识,利用课余时间多学习一些相应的课程,将数学知识面拓展到一定广度。学生需要根据自己的专业特点、就业方向,学习以后将可能利用到的数学知识,有目标、有目的地去学习,因为数学的面是非常宽广的,全部学习是不大可能的,所以要专业性。为了学生们能够有一个好的指导方向和学习环境,需要教师人为地为其进行指引,以培养学生的各种能力为方向。
二、在数学建模中运用大数据思维方式
大数据时代,人们的思维、研究方式都需要进行改变,以前的算法已经不再适应大数学模式,现在人们探索、创造、研发的方式都在进行着升级改变,它为新时代的新思维提供了一种源泉,也让新思维呈现出一种爆发之势。大数据会让社会让世界变得越来越好。数学建模中,运用大数据进行研究与思考的思维方式以及主要步骤有以下几方面:实际问题———数据抽取———数据预处理(包括:数据清洗、数据集成、数据转换、数据消减)———调用算法(适用大数据的算法)———数据训练———识别———数据评估。
(一)强调整体性,大局观。
主要是对于进行建模所需要的数据要进行处理的环节,传统的建模方式所涉及到的数据处理一般是着重强调使用部分的数据来替代整体的数据,换句话说就是采用抽样或者其他统计方式进行。而在大数据下,数据建模所要求和所强调的是一个都不能少,就是要使用全部的数据进行研究和规律的发掘。
(二)强调多样性、注重数据的平等性。
样本很小的时候,数据的取得都是经过不断的核实和处理过的,数据都具有一定的准确性,如今在大数据的背景下,应该先承认现在数据的多样性,也要承认其中一些非结构数据的合理性,要对这么多的数据进行分析处理。在数据样本很少的时候,用权值处理问题,一般是要强调它的贡献度;但在如今的大数据情况下,每一个数据都是同等的,都具有同等的贡献度。
三、大学生数学建模能力的现状及提升
现在很多专门研究数学建模的算法应用,但就大数据与数学建模算法的结合来说专门研究的不多,学生接触的也不多,因此学生在碰到问题时不知道如何下手。很多研究是专门针对大数据的,很多是专门针对算法的,学生在学完算法后,面对大数据不知所措,大数据给出的数据量太大,动则十几万、几十万的数据,数据中并且有很多的问题,那么如何对量这么大的数据进行分析处理、对里面的问题进行修正,对数据进行清洗,这一些学生都是不会的。针对大学生数学建模能力的现状,结合大数据,找出传统数学建模存在的弱点,进行研究提升。
(一)加强学生对于大数据模型建立的认知。
让学生们真正拿到实际问题的大数据,要使学生们真正明白什么是大数据,摆脱不见数据只建模型的纸上谈兵行为。在教师的指导下让学生们去进行数据分析,让他们在数据处理的过程中加强认知、学会处理方法。
(二)让学生掌握大数据的处理方法。
大数据的数据量是非常大的,它也并不是拿来就用的,这么大的信息量,哪些是有用的、哪些是没用的、哪些是缺失的等,那么针对大数据,应该如何分析、如何入手、如何清洗、如何筛选,这都是以前的数学建模中所遇不到的。只有实践才是检验真理的唯一标准,只有动手操作才能让学生在实践中去学会大数据的处理,一切纸上谈兵都是行不通的。
(三)让学生掌握大数据的算法。
大数据的算法与以往传统数学建模的算法是有所不同的。让学生在真正的大数据实践中学会各种算法。
四、大数据建模的常用分析步骤
当下,有多款针对于大数据建模的应用软件,如SPSS、SAS、MATLAB、Spark+Scala、Python、R、Java等工具。
(一)数据质量分析。
如果数据没有可信度,那么所谓利用数据建立的模型将会是空中楼阁,原始数据中是否存在脏数据,需要进行数据检查,将不符合要求及不能进行分析的数据找出来去掉。脏数据包括:不一致的值、异常值、缺失值、还有重复的数据以及含有一些如#*@¥&等特殊符号的数据。
1.缺失值分析。
缺失值存在的原因有,无法获取、被遗漏(输入遗漏、存储故障等)、不存在的属性值(如,一个小学生的工资,一个没有结过婚的女士的丈夫姓名等)等。缺失值的存在可能会使通过挖掘数据而建立的模型表现出的不确定因素更加突出,让规律更加难以掌握,而数据中出现的空值会使模型的建立过程陷入一种混乱,从而会导致在结果中出现一些不可靠的输出。
2.异常值分析。
在检验时需要注意数据录入时有没有错误、是不是含有不合理数据,如果将异常值忽略掉,这是会很危险的,不把异常值去除,直接包进数据中进行计算,可能会使结果不好,不能反映问题。
统计量中最常用的是Max和Min,用来判断它的取值是不是超出了合理范围(比如,年龄最大值是999,这显然是存在异常的)。
3σ原则:如果数据服从正态分布,那么距离平均值3σ之外的值出现的概率为P(|x-μ|>3σ)"0.003,属极个别小概率事件。如果不是正态分布,则可使用离平均值多少倍的标准来描述。
3.箱形图分析。
异常值被定义为小于QL-1.5IQR或QU+1.5IQR,QL为下四分位数,它表示数据中有四分之一的数据比它小;QU为上四分位数,表示数据中有四分之一的数据比它大;IQR为四分位数间距(等于QU-QL)。
异常值的检测运用R语言举例如下:
(二)数据特征分析。
对数据进行一系列的分析后,再进行图表绘制、特征量的计算等手段对数据的特征进行分析。
1.分布分析。
分布分析主要用于揭示数据的分布特征和类型。定量数据用于做频率分布表,绘频率分布直方图、茎叶图进行直观分析,定性数据则用做饼形图、条形图,显示分布情况。
定量数据的分布分析:第一步,求极差;第二步,决定组距与组数(根据具体题目决定组距、组数);第三步,决定分点(根据组距、组数列出分布区间);第四步,列出频率分布表;第五步,绘制频率分布直方图。
在分布分析中,要遵守以下原则:第一,各组之间必须要有排斥性,是相互排斥的;第二,各组的合并必须要将所有的数据全部都包含在里面;第三,组与组之间的组宽最好相等。
统计学上的定性数据包括:分类数据(如男、女)和顺序数据(如年龄、身高等),它是表示事物的性质、规定事物类别的一种文字表述,只能是将其进行定性,而不能将其量化。
2.对比分析。
对比分析是将两个指标进行相互比较,从数量上来展示研究对象规模的大小、速度的快慢、水平的高低等各类关系是否相互协调。特别适合:指标间的横纵向比较、时间序列的比较分析。
参考文献
[1] 周苏,冯婵璟,王硕苹等.大数据技术与应用[M].北京:机械工业出版社,2016:3~4
[2] 曾剑平.互联网大数据处理技术与应用[M].北京:清华大学出版社,2017:5~6
[3] 张良均,王路.python数据分析与挖掘实战[M].北京:机械工业出版社,2015:60~61
点击查看>>数学建模优秀论文(优秀范文10篇)其他文章