第 4 章 大数据技术在学生成绩分析中的应用。
通过第一章的文献总结,我们了解到我国已经有一部分高校利用大数据技术对教育数据进行了分析,其中包括学生行为的分析、学生成绩的分析、远程教育资源的分析和在线系统中师生的交互数据进行分析,得到了一些有价值的教学和教育决策的应用。本章采用吉林大学电子科学与工程学院 2002 年到 2010 年(除了 2005 年)的学生成绩作为输入数据集,结合 Hadoop 平台对其进行了统计分析以及发现了课程之间的关联规则,希望能为我的母校做一些贡献。
4.1 实验环境介绍。
本文通过在VMware workstation10.0.0上建立两台虚拟机来搭建Hadoop集群环境,其中一台作为 NameNode,另一台作为 DataNode.
(1)搭建 Linux 系统。
Hadoop 是开发在 Linux 平台上的,虽然在其它系统上也能运行,但是搭建的环境极为复杂,需要把原先的系统模拟成 Linux 环境才能使用 Hadoop,因此本文选择采用 Linux 系统。在 PC 机上安装了 VMware Workstation10.0.0,之后便可以搭建 Linux 系统了。图 4.1 是 Linux 版本信息。
(2)Hadoop 平台的搭建。
因为搭建的是集群环境,所以 Hadoop 采用完全分布式模式。
在 Linux 上搭建 Hadoop 之前,需要安装两个程序:JDK 和 SSH(Secure Shell安全外壳协议)。
● JDK1.6 或更高版本,本文采用 JDK1.7Hadoop 是用 Java 开发的,Hadoop 的编译以及 MapReduce 的运行都需要使用 JDK.
● SSH(安全外壳协议)Hadoop 运行过程中需要管理远端 Hadoop 守护进程。在 Hadoop 启动后,NameNode 是通过 SSH 来与 DataNode 进行交互的。也就是说必须在节点之间通信的时候采用不需要输入密码的形式,故我们需要配置 SSH 运用无密码公钥认证。这样 NameNode 就可以在不输入密码的情况下管理 DataNode.同样原理,DataNode 上也能使无密码访问 NameNode.
● 从 Apache Hadoop 的发布页面下载 Hadoop(本文所使用的是 Hadoop-1.0.3),首先为 master 机器安装 Hadoop.
● 配置 Hadoop 环境变量:
/etc/profile:添加 Hadoop 环境变量。
conf/hadoop-env.sh:配置 Java 环境变量、和 Hadoop 环境变量等。
conf/core-site.xml:用于定义系统级别的参数,如 Hadoop 的临时目录,配置NameNode 节点的 URI-统一资源标识符(包括协议,主机名称,端口号)。
conf/mapred-site.xml:配置指定 MapReduce 的 JobTracker 的地址。
conf/hdfs-site.xml:配置数据块副本的个数以及执行权限等。
● 通过 scp 命令将 master 上的 Hadoop 文件复制到 slave1 上,● 进入 master 的 Hadoop 安装目录,格式化 HDFS: bin/hadoop namenode -format运行 hadoop 进程:bin/start-all.shjps 查看进程启动情况,如图 4.2 所示(上面的图为 master 的节点信息,下面的图为 slave1 上的节点信息)。
(3)Eclipse 配置Eclipse 是本文编写 MapReduce 程序的开发环境,方便调试 MapReduce 程序。
Eclipse 版本:eclipse-jee-kepler-SR2-linux-gtk在 Eclipse 上配置 Hadoop 相关插件● 将 hadoop-1.0.3-eclipse-plugin.jar 复制到 eclipse 安装目录下。
● 配置 hadoop installation directory:选择 Hadoop 的安装目录。
● 配置 Map/Reduce Locations:添加 Location name、MapReduce Master 和 DFSMaster 的地址和端口。
这样整个 Hadoop 分布式集群环境就搭建成功了。图 4.3 为 Hadoop 集群部署示意图。
Master 管理 NameNode、SecondaryNamonode 和 JobTracker,slave1 管理DataNode 和 TaskTracker.
4.2 数据预处理。
大部分原始数据难免会存在某些数据记录的缺失和冗余等,为了保证结果的严谨性,很有必要对原始数据进行清洗;而将某些数据用特定的字符转换会方便程序的编写;本文将原始数据根据成绩的等级进行分类,这样的划分可以精准挖掘结果。基于以上三点本文的数据清洗过程如下:
(1)清理无效数据数据中存在"-",空值等不合法的字符,这些数据并不存在任何意义。而针对学生成绩数据,其中的选修课程并不是所有的学生都会选择的,本文也不会采用这样的数据。
(2)数据转换数据转换也就是用简单的字符代替课程名称,例如,本文采用不同的阿拉伯数字代表不同的课程名称。
(3)数据规范化我们将学生成绩按照这样的标准划分:90 分以上为优秀,80--90 分为良好,70--80 分为中等,60--70 分为及格,60 分以下为不及格。
4.3 基于学生成绩的统计分析。
根据数据本身的特点,即我们首先采用趋势图分析,所使用的绘图工具是Gnuplot.Gnuplot[51]
是一个可以在 Linux 下支持命令行模式绘图的软件,不仅图形漂亮,而且操作简单。
本文所采用的数据是吉林大学电子科学与工程学院各专业从 2002 到 2010(除了 2005)年的保研成绩。这里需要说明的就是在我们所获取的保研成绩中,从 2006 年开始电子信息工程专业、电子科学与技术专业和微电子科学与工程专业三个专业的保研成绩不计入大四的成绩,而从 2009 年开始电子信息科学与技术专业和生物医学工程专业的保研成绩也不计入大四的成绩。原始数据格式(以2002 年电子信息工程专业为例)的部分。
我们计算了各个专业的每个年级的排名与保研成绩相比上下波动±5 范围内的百分比。为了方便起见,在图中我们用英文缩写表示了一些名称,如 DG 表示电子信息工程专业、DK 表示电子科学与技术专业、DX 表示电子信息科学与技术专业、SY 表示生物医学工程专业、WD 表示微电子科学与技术专业。
结论:由以上的图形可以看出,在排名波动±5 范围内,绿色(大二)的线一直在上面,红色(大一)的线一直在下面,在此,我们忽略大四的成绩,因此说明无论是哪个专业,电子科学与工程学院的学生大二的成绩排名与最后的保研排名最相关,而大一的成绩排名与最后的保研成绩最不相关。所以想要保研的同学需要更加努力学习大二的基础课程。
4.4 MapReduce Apriori 在学生成绩分析中的应用。
4.4.1 输入数据格式。
根据 4.2 小节所述,我们将原始数据数据格式变换结果如图 4.10 所示,在这里我们还是以 2002 年电子信息工程专业的部分数据为例,符合分数要求的课程将以特殊符号代替(我们把所有的课程名称用不同的阿拉伯数字表示)减少占用空间。
通过以上数据格式的转换后我们分别对各个专业成绩">=90"分、">=80"分和">=70"分的数据进行了关联规则处理,因为发现我们所选取的数据集中很少有 60 分以下的同学,也就是大部分的学生都经过了期末考试,因此并没有必要对 70 分以下的数据进行处理。
4.4.2 分析结果。
我们将处理后的结果按专业分类,结果如下:
(1)微电子科学与技术专业。
图 4.11 为标识符所代表的课程名称,图 4.12 为本算法在微电子科学与技术专业的应用结果,本文只选取了一些有代表性的结果,以下专业如同。
结论:概率论与数理统计优秀的同学中有 66%的同学高等数学 AI 也优秀,但高等数学优秀的同学概率论与数理统计不一定优秀,比例只占了 47%;数字电子技术实验优秀的同学中有 60%的同学高等数学 AI 也优秀;而大部分模拟电子技术实验优秀的同学数字电子技术实验也优秀,同样数字电子技术实验优秀的同学模拟电子技术实验也优秀;(2)生物医学工程专业。
图 4.13 为标识符所代表的课程名称,图 4.14 为本算法在生物医学工程专业的应用结果。
结论:数字电子技术实验优秀的同学中有 60%的同学高等数学 AI 也优秀;概率论与数理统计优秀的同学中有 66%的同学高等数学 AI 也优秀;数字电子技术优秀的同学中有 75%的同学数字电子技术实验也优秀,所以理论课还是要好好学习的;而模拟电子技术实验优秀的同学数字电子技术实验也优秀,同样数字电子技术实验优秀的同学模拟电子技术实验也优秀。
(3)电子信息科学与技术专业。
图 4.15 为标识符所代表的课程名称,图 4.16 为本算法在电子信息科学与技术专业的应用结果。
结论:高等数学 AI 优秀的同学中有 64%的同学数字电子技术实验也优秀;数字电子技术优秀的同学中有 79%的同学概率论与数理统计也优秀;而模拟电子技术实验优秀的同学数字电子技术实验也优秀,同样数字电子技术实验优秀的同学模拟电子技术实验也优秀。
(4)电子科学与技术专业。
图 4.17 为标识符所代表的课程名称,图 4.18 为本算法在电子科学与技术专业的应用结果。
结论:大部分半导体物理学优秀的同学和电子功能材料和元器件也优秀,而大部分电子功能材料和元器件优秀的同学半导体物理学也优秀,并且比例都超过了 50%;高等数学 AI 优秀的同学中有 72%的同学数字电子技术实验也优秀;概率论与数理统计优秀的同学中有 81%的同学高等数学 AI 也优秀;而模拟电子技术实验优秀的同学数字电子技术实验也优秀,同样数字电子技术实验优秀的同学模拟电子技术实验也优秀。
(5)电子信息工程专业。
图 4.19 为标识符所代表的课程名称,图 4.20 为本算法在电子信息工程专业的应用结果。
结论:高等数学 AI 优秀的同学中有 87%的同学数字电子技术实验也优秀;高等数学 AI 优秀的同学中有 83%的同学物理实验也优秀;概率论与数理统计优秀的同学中有 56%的同学高等数学 AI 也优秀;信号与系统优秀的同学中有 74%的同学高等数学也优秀;物理实验优秀的同学数字电子技术实验也优秀,而数字电子技术实验优秀的同学物理实验也很优秀。
4.5 应用结果分析。
根据实验结果,提出以下几条参考意见:
高等数学和概率论与数理统计是两门非常重要的基础课,并且这两门课程相辅相成。然而我们发现各个专业普遍存在这样一种现象:概率论与数理统计优秀的同学中有一半以上的同学高等数学 AI 也优秀,但高等数学 AI 优秀的同学概率论与数理统计不一定优秀,通过查看课表我们知道大一和大二都有高等数学这门课,而概率论与数理统计是大二才上的课程,所以说如果把概率论与数理统计放在大一的课程中学生的学习效率会更高。
而实验课是基于理论的基础,要想在实验课中获得优异的成绩,理论课的学习至关重要。但是实验课并不是完全依赖于理论课,如高等数学和概率论与数理统计这样的基础课也很重要,因为我们发现高等数学和概率论与数理统计成绩好的同学实验课表现的也很好。
在电子科学与技术专业有这样两门课程:导体物理学以及电子功能材料和元器件,我们发现大部分半导体物理学优秀的同学和电子功能材料和元器件也优秀,而大部分电子功能材料和元器件优秀的同学半导体物理学也优秀,并且比例都超过了 50%.
该学院大部分同学的动手能力较强,应加强理论课的教学。
4.6 本章小结。
本章主要的工作是应用Hadoop平台对吉林大学电子科学与工程学院2002年到 2010 年的数据做了分析,其中包括两个方面:一是用统计分析对整体学生成绩做了初步处理,发现最后的保研排名与大二的成绩排名最接近,这也从侧面反映出基础课程的重要性,有些学生只是注重专业课的学习因而会忽略基础课的学习;其二,我们用改进的 MapReduceApriori 算法对课程做了关联规则挖掘,发现如高等数学和概率论与数理统计等基础课程非常重要,直接影响未来专业课的学习。
摘要: 随着国民经济的飞速发展, 信息管理系统在各行各业的应用不断融合深化, 但伴随而来的安全风险也在持续增加。数据库系统作为信息管理系统的核心部分, 它的安全直接关系到整个信息管理系统的安全。因此, 对于数据库系统的安全防护就显得特别重要。 关键...
Linux操作系统作为一种开源操作系统, 一直以性能稳定著称, 使用脚本对netfilter模块迚行高敁管理进不止这些, 还可以将脚本管理斱法扩展, 用于Linux的各种服务配置和性能伓化当中。...
随着科技水平的提高,计算机已经渐渐的融入到我们的生活中,并有着不可或缺的作用,给我们的生活增添了浓重而多彩的一笔。尽管如此,计算机应用技术也是一把双刃剑,在我们享受它给我们带来便利的同时,也要具有一定安全意识。同样,增强计算机与网络应用技...
虚拟现实技术作为一种全新的信息科技技术,对于我国的经济发展有非常重要的促进作用。...
随着科技不断的进步,信息化社 会已经趋于成熟,利用信息化手段辅助工业生产、市场营销及日常生活已经成为发展趋势。VB作为一款简单实用的编程开发工具,被广泛应用于各行各业。下面是搜索整理的vb设计论文8篇,供大家借鉴参考。...
本文在Internet/Intranet环境下利用WindowsNT/2000 Server下的ASP技术、COM+、SQL 2000数据库技术,设计一套网络办公系统(OA)的实现方案和技术分析。...
引言计算机图形学是一门比较复杂也比较实用的学科,它给人们带来了一个全新的认识世界的方式。现如今,以图形为主要认知方式的世界图形时代已经成为数字化时代的一个重要标志。因为它不需要言语文字或者一些文学的东西来表达思想,只需要借助于视觉感官加上...
物联网是基于互联网和射频识别技术的能够实现物与物之间互联的网络,已被看作信息产业的第三次浪潮,成为影响经济增长的战略产业。物联网是通过射频识别、全球定位系统、激光扫描器、红外感应器、气体感应器等传感设备,按约定的协议,把物品与互联网连接起...
近几年,不仅我国综合国力大力提升,我国的国民经济也快速地增长,这促使着我国的汽车工业也一同发展起来,科技迅速发展逐渐使汽车的制造成本降低,使汽车越来越百姓化。...
安全管理类软件的开发是为了保障我国计算机用户网络安全性,通过对网络进行管理和监督,帮助我们的用户免遭一些恶意软件的攻击,为我国网民的安全上网、健康网络提供了有效的保护.那么,面对网络飞速发展的今天,网络安全性问题逐渐走进了人们的视野,由于网络的虚...