计算机应用技术论文

您当前的位置:学术堂 > 计算机论文 > 计算机应用技术论文 >

学生业绩系统中大数据的应用研究绪论

来源:学术堂 作者:姚老师
发布于:2017-02-23 共9033字
  本篇论文快速导航:

展开更多

  第 1 章 绪 论。

  1.1 论文研究的背景和意义。

  大数据概述。

  (1)概念。

  随着计算机技术的迅猛发展,计算机与人们的日常生产和生活都已经变得密不可分。人们可以通过计算机进行数据的收集和存储,但是最近这几年,这些数据呈现出了几何数量级别的增长。图 1.1 向我们展示了一个世界范围内数据的增长量的评估,从 2010 年开始到 2020 年结束数据将会增长 50 倍[1].近年来,全球的数据呈爆炸式增长。"大数据"这个词不断地出现在公众的视野中。在 2008 年,《Nature》杂志出版了"Big Data"专刊[2],对其所蕴含的价值和挑战展开了深刻的讨论并引起了各行各业对大数据的关注,自此,"大数据"正式登上历史的舞台,也成为科学研究的热点问题。而在 2011 年,《Science》杂志出版了"Dealingwith Data"专刊[3],从互联网技术、环境科学、生物医药等多个方面讨论了大数据处理面临的难题,也标志着大数据时代的到来。而关于什么是大数据,社会各界并没有给出一个公认的定义,但是不同的定义基本上都是从大数据的三个基本特征出发的,即规模大、多样性和产生速度快。维基百科中大数据的定义是使用一些目前现有的传统数据处理工具很难处理的大型而复杂的数据集[4].徐子沛在《The Big Data Revolution》中说"大数据是指那些大小已经超越了传统的数据集,普通的软件工具不能采集、保存、管理和处理的数据"[5].Gartner(全球信息技术研究公司和分析)定义"大数据"是需要多样化的处理机制才能具有更准确的判断力、洞察力和优化力的海量、高增长率和新型的信息资产[6].随着全球数据爆炸式的增长,大数据这个词主要用来形容庞大的数据集。与传统的数据集相比,大数据通常包括结构化和非结构化的数据,并且都需要更多的实时分析。此外,大数据也带来了发现新的价值新的机遇。

  (2)产生。

  大数据的产生是计算机和网络通信技术广泛应用的必然结果,特别是移动互联网、云计算、物联网和社交网络等新一代信息技术的迅猛发展。在人类发展史上从未有哪个时代像今天一样能产生如此海量的数据,而且这些数据的产生已经完全不受时间和地点的限制。大数据已经普遍存在,工业、科学、医疗卫生、社会服务等领域都积累了 TB 级、PB 级乃至 EB 级的大数据。

  自 2010 起,全球进入了 web2.0 时代,Twitter(推特)、Facebook(脸书)、博客、微博、微信等新型社交网络的出现和互联网技术的发展,产生了海量的数据[7].Google 能够处理千亿以上的网页数据,每月处理超过 400PB 的数据并且这个数据量持续增长;淘宝网的会员以及商品的数量都已经超过了上亿件,每天的交易数据也呈高速增长的趋势;Facebook 和 Twitter 每天处理的数据都已经超过了几十亿。随着传统互联网向移动互联网的转型,以智能手机、平板电脑等常见的移动设备为代表的新型智能传感设备的出现,使得人们更加方便快捷地实现实时的互动。还有智能汽车、智能电视以及智能工业设备等都已经接入互联网,由此产生的数据将进一步暴增[8].

  根据美国市场调查公司 IDC 的预测[1],人类产生数据量的增长速度前所未有,基本上是每两年翻一倍,而在 2020 年之前,这个增长速度也会继续保持下去。

  全球在 2010 年正式进入 ZB 时代,预计到 2020 年,全球总共拥有 35ZB 的数据量,人类真正地进入了一个大数据的世界。

  (3)技术研究从 2003 年"大数据"概念的出现到现在,大数据处理技术经过了三代技术的更新[9].第一代是批处理技术,Google 在 2003 年和 2004 年分别发表了"GoogleFile System"[10]和"MapReduce"[11]两篇文章,详细地介绍了 Google 公司的数据存储和数据处理模型。直到 2006 年 Hadoop 的发布,使得批处理技术达到了顶峰时期,凭借其开源和易用等特性,成为大数据处理的首选技术。Hadoop是HDFS(Hadoop 分布式文件系统,基于 Google File System)和 MapReduce 的开源实现,Hadoop 平台是本论文中所使用的数据处理平台,具体介绍详见第 2 章。在之后的三、四年里,由于企业内部不同的需求,针对 Hadoop 子项目的开发层出不穷,比较有代表性的是 Facebook 发行的 Hive[12].Facebook 用 Hive 数据仓库存储数万张表,超过了 700TB 的数据,每个月处理超过 200 万个用户的报告以及 ad-hoc分析;雅虎发行的 Pig[13],Pig 提供了一个支持海量数据分析的平台;HBase[14]最初由 Powerset 公司建立(不久就被微软收购),开始是作为 Hadoop 的一部分,后来成为 Hadoop 的一个顶级的子项目。Facebook 使用大规模 HBase 机群,可以很方便地横向扩展服务规模,为数百万用户提供服务,每天处理数百亿条事件。这些子项目也将在第二章中进行简要的介绍。由于 MapReduce 是典型的离线计算框架,无法满足在线实时计算需求,所以从 2010 年开始,出现了第二代处理技术-实时处理技术。在这个阶段中典型的技术就是 Twitter 开发的 Storm[15]、Cloudera 开发的 Flume[16]、LinkedIn 开发的 Kafka[17]和 Samza[18].第三代大数据处理技术起始于 2012 年,Nathan Marz(Storm 的开发者)开发了 Lambda 架构[19].

  Lambda 是一种基于批处理和实时处理的混合型的架构,既可以实现对响应的实时性,又能解决海量数据的分析与处理问题,可以说是 Hadoop 和 Storm 的结合体。尽管目前又产生了新的大数据处理技术,还是有很多企业和研究机构继续采用 Hadoop 平台,或是将 Hadoop 平台与新型技术联合在一起处理数据。

  (4)应用。

  大数据开启了一次重大的时代转型,大数据应用已然成为当前最为热门的信息技术,互联网行业、零售行业、电信运营商、金融行业和政府等纷纷从海量数据中获得了新的认知,从而创造出新的价值。

  大数据技术在互联网行业的应用基本成熟,其它行业次之。互联网行业开发大数据应用具有非常大的优势。因为互联网行业如 Google 和 Amazon 等知名网站拥有大量的用户交易数据和极其强大的数据处理后台。Twitter、淘宝、新浪等都已开展较为成熟的大数据应用,如推荐好友、推荐相似商品等,电商交易分析,位置信息服务,广告交易、跟踪分析等[20].很多互联网应用在操作应用程序、安全分析、导航和社交媒体中加入了精确的 GPS 位置追踪,同时有频繁的更新。

  精确位置追踪为全球定位系统(GPS)测定点附近其他位置的海量相关数据处理打开了大门,这些位置信息可能带来增加销售或服务的机会[21].2012 年谷歌开发了无人驾驶汽车,根据海量的道路信息数据,该无人驾驶汽车可以像人类一样能够选择合适的路径行驶[22].Alibaba 在 2012 年发布了名为聚石塔的平台,该平台可以为天猫和淘宝的用户提供云服务。Alibaba 依靠大数据技术对用户交易数据的分析来为中小型企业提供小额贷款。同时联合多家物流集团建立了网上物流平台,为用户提供方便快捷的物流服务。

  大数据在零售业的应用目前主要集中在客户行为分析[21],通过对客户行为的分析,改善货架商品的摆放、产品推荐、产品细分和市场营销等。Wal-Mart 是零售业大数据应用的标杆。基于如此庞大的客户交易数据库,Wal-Mart 可以对顾客的购物行为进行分析,了解客户的购物习惯,发现其中的共性规律。两个著名的应用案例是:"啤酒-尿不湿的捆绑销售"和"手电筒-蛋挞的捆绑销售".

  Wal-Mart 的大数据分析显示,爸爸们一般在买尿不湿的时候,通常还要买一些啤酒。因此,商家把这两种商品摆放在一起销售,使得商品的销售量大增。另一个是手电筒和蛋挞的例子,Wal-Mart 的大数据分析显示,在飓风季节,手电筒和蛋挞的销售数据都很高。根据这一特点,一旦到了飓风季节,Wal-Mart 就会把手电筒和蛋挞摆放在一起销售。

  电信业大数据应用集中在客户行为分析、网络优化、威胁分析等方面。运营商收集来自各种产品和服务的客户行为信息,并进行相应服务的改进和网络优化。如分析客户的套餐使用情况,分析新老客户的忠诚度及其它业务需求,寻找以及预测潜在客户。电信行业应用大数据技术具有自身的数据优势,因为其所针对的用户群都需要实名制注册,而且这些信息往往都是真实有效的。所以基于此类的数据分析是可靠的,通过这些精准的分析结果可以为用户提供合适的套餐,流量预警等服务。而电信行业与互联网行业的联合促进了新的商机,如 Orange和 Facebook 开展的 Party Call 业务,用户需要将 Facebook 账号和电话号进行绑定,那么 Facebook 的任何活动将会通过短信或电话通知用户,还可以为 Facebook推送电话号中的好友。

  金融业应用系统的实时性要求很高,积累了非常多的客户交易数据,金融行业的大数据应用目前主要是客户行为分析、金融风险分析等。Citibank 在亚洲有超过 250 名数据分析人员,并在新加坡建立了一个"创新实验室"[22],专门用来进行大数据相关的研究和分析。比如 Citibank 根据消费者的信用卡交易数据如消费的时间、地点等为消费者推荐合适的商场和餐厅的优惠信息。我国很多中小企业在银行贷不了款,因为他们没有担保。Alibaba 公司根据淘宝网上的交易数据情况筛选出财务健康和诚信的中小企业,对这些企业不需要担保就可以贷款。

  ZestCash(美国公司)的主要业务就是给一些没有信用记录或信用记录不好的顾客提供贷款业务。ZestCash 与其它银行最大的不同在于其所依赖的是大数据处理和分析能力。如果一个顾客说他曾经有过信用不良记录,那么大多数银行都不会为其贷款,但是 ZestCash 会搜集顾客的相关数据,通过大数据分析,其实发现某些这种顾客是有可能一次付款的,那么 ZestCash 会为这种顾客贷款。

  大数据技术已经广泛应用到各行各业中,但是在我们所查阅的国内外文献中发现大数据技术在教育中的应用很少,而且存在一定的局限性。下面介绍一下大数据技术在教育中应用的国内外研究现状。

  国内外研究现状。

  目前国内外对教育数据的研究都取得了一定的成果,但是基本上都是采用传统的技术来挖掘信息。大数据的兴起为各行各业的转型都带来了契机,但是在教育领域中大数据技术的应用还处于起步阶段,虽然一些研究者提出了一些应用的理论但应用实践的案例还很少,只有部分高校和研究机构对此进行了研究。而这些技术也并没有完全解决当前高校教育管理者所面临的所有的难题。

  大学生的信息管理系统一直记录着学生的基本信息,如每门课程的成绩、校园卡刷卡记录、图书借阅信息等。随着时间的推移以及各大高校的扩招,这些信息呈爆炸式的增长。这些数据可被实时的收集,然后进行分析并改进教学计划。

  此外,若利用合适的工具加以分析处理,可以让教育机构的研究人员研究学生的学业表现。

  (1)国外研究现状。

  大数据挖掘和分析软件可以为学生和老师提供及时的学业表现的反馈,可以帮助教育部门评估高校的教学状况和取得了什么样的成就,从而更容易的评估教育机构的发展趋势。芝加哥公立学校使用一个名为 IMPACT(InstructionalManagement Program and Academic Communications Tool)的软件[23],通过以下四个方面来追踪学生在学校的表现: 学生信息管理,课程与教学管理,学生服务管理和成绩单。北亚利桑那大学[24]采用 GPS(Grade Performance System),当成绩、出勤率、学术成果出现问题时学生会收到警告信息,同时学生也可以进行积极的反馈。美国普度大学在课堂上应用课程信号系统(Course Signals System),应用该系统可以检测预警信号,并对那些学习能力和课堂表现相差悬殊的学生提前进行干预,以便让他们达到一个最佳的学习状态。博尔州立大学开发了一个可视化协同知识的分析应用平台,应用到学生的协同知识建设活动中,它采用交互设计和信息可视化技术,以评估并提升合作者之间的认知。但是这些技术并没有普及使用。文献[25]中通过收集社交网络的数据,应用 Hadoop 框架分析学生的行为。通过学生的考试分数和通过率分析学生的学业表现。数据集是来自 14 个不同大学从2008 年到 2012年的学生数据,例如Public大学, Cochin大学,MahatmaGandhi 大学等。根据学生的考试成绩对比了不同学校的通过率,并且根据学生成绩分析不同学校学生的智商对比分析。该系统平台集成了 Hadoop-Hive 来分析通过率、学校评分和其它的量化数据。这样的分析系统为教育管理部门提供了很多有意义的教学依据。像 Twitter、Facebook 和 YouTube 等社交平台,学生们随意地分享每天的生活状态,文献[26]中应用 Hadoop 框架对 Twitter 上学生发布的微博进行分类统计分析,最后发现大部分的学生都渴望参与更多的社交活动,这项结果是来自印度韦洛尔理工大学的研究。他们将 Twitter 上的数据下载到Hadoop 分布式文件系统中,然后进行自然语言处理以及加入分类算法,并且将Twitter 上的信息分为 4 大类:沉重的学习负担,消极的情绪,缺乏社交活动和其它数据。

  除了对学校、教师和学生的数据分析外,在线教育也是大数据在教育中应用的一个研究重点。2011 年是美国在线教育的一个重要的里程碑[27],来自 2500 多所高校,超过 610 万学生接受在线课程,比 2010 年增长 56 万以上。传统的教学方式是老师让学生把卷子带回家,学生做完卷子后再拿回学校给老师批改,老师批改完之后再发给学生,同时老师还要统计哪道题学生错的最多,哪个知识点学生没有理解等,这种方式浪费了师生大量的时间,而且效率低。新型的在线教育融合大数据技术完美的解决了这样的问题。学生每做完一道题,计算机会计算学生需要多长时间完成的任务,同时计算机也会及时反馈学生的答案是否正确,以及与全国各地做过这道题的同学相比来评估学生的表现。老师们也会收到学生所有表现的反馈信息,以便及时补充教学资源和改进教学方法。典型的教学方法很少提供及时的反馈信息,需要教师花费数小时制定日常任务,都不是很积极主动地展示学生如何提高理解能力,并没有充分利用数字资源的优势。通过大数据挖掘和大数据分析很容易洞察学生的表现和学习方法,大数据挖掘和分析软件可以为学生和老师提供及时的学业表现的反馈,这种方法可以分析潜在的教学模式,以预测学生的行为表现,如成绩下降、是否生活上出现困难需要额外的帮助,或是否能够完成苛刻的任务等。Vincent Aleven 和他的同事在 Carnegie Mellon 大学通过 Intelligent Tutoring Systems 进行实验研究[28],实验中所用的工具可以帮助老师们开发在线课程例如化学和物理等,老师可以根据学生在电子系统中记录的数据开发课前和课后测试。文献[29]中对美国大数据教育应用的领域和案例以及所面临的挑战进行了详细的介绍。文献[30]中通过处理在线学习系统中学生的登陆信息来分析和预测学生的行为。该文献利用 Hadoop MapReduce 框架来从 171GB的数据中提取学生的信息。每条信息代表的是学生从登陆系统到退出系统的一系列的活动。这些信息作为 weka(数据挖掘平台)的输入数据,这篇文章用到了5 种分类方法来预测学生的行为表现。根据预测的结果,课程管理人员就可以知道哪些学生需要额外的帮助。

  除了上面所列出的两个方向外,国外许多高校已经把大数据技术加入到传统的教学课堂中[31].高级计算机科学课程中就将一些大数据技术加入到教学计划中。例如在数据库这门课上,可以将 MapReduce 结合传统的关系型数据库,以此来证明 MapReduce 等大数据技术并没有完全让传统的数据处理技术过时。教师也可以结合 MapReduce 模型进行课上的练习。NoSQL 和 NewSQL 等技术也可以加入到数据库课程的介绍中。在高级数据库课程中不同类型的数据库管理系统的对比介绍会让学生对数据库有更深入的认识。

  (2)国内研究现状。

  我们主要对中国知网提供的论文进行检索,截止到 2015 年 6 月,除了报纸和会议报道,共检索出 253 篇有关"大数据"并且包含"教育"的文章。每年发表文章的情况如图 1.2 所示。从图中我们也可以看出,大数据在我国教育中的应用是从 2012 年开始的[32],并且逐年递增。教育信息化在 2014 年实现了快速发展。

  2014 年 3 月教育部办公厅印发的《2014 年教育信息化工作要点》中指出我国教育信息化的工作程序中已经列入了大数据在教育中的应用。大数据技术与教育数据的结合是当代教育事业发展的必然趋势。目前各大高校都已经开展了教育信息化工作,建立教育信息化的公共服务平台,开展数字化智能校园。

  北京邮电大学建立了一个基于 Hadoop 技术的高校学生行为分析系统[33],通过采集、存储以及处理校园大数据环境中的各类数据,对学校的教育和教学决策起到了至关重要的作用。在科研方面,通过科研项目记录,分析学校科研发展方向,以便更好的调整今后学校科研的工作重心;在教师数据方面,通过对学院教师工作量的分析从而帮助完成学校对学院和教师的评定工作;在学生数据方面,通过对学生的成绩进行分析,对表现不好的学生进行重点关注以及进行必要的思想辅导,促使学生的全面健康发展。文献[34]中设计了一种基于 Hadoop 的远程教育海量资源存储和检索的方法,支持基于内容的高效检索,相比传统的共享存储方法提高了检索效率。该架构使用 HBase 来存储远程教育资源,远程教育资源主要包括教案、题库、音频和视频等。使用 MapReduce 实现针对海量数据基于内容的检索。文献[35]采用 HDFS 进行远程课件的资源管理。华东师范大学建立了一个基于 Hadoop 的智能数字化教育服务架构,解决了海量教育信息的获取、存储、分析和分析报告可视化呈现等问题[36].

  基于校园大数据,可以用大数据技术分析和预测学生的学习情况、教师的教学情况等,这些分析结果可以帮助和引导学生健康快速的成长[37,38].同时也有利于教育工作者和高校领导及时掌握教学计划和学生学习动态,为教学决策提供重要的参考依据,从而使得校园管理更加智能和科学[39,40].文献[41]中建立了一个大数据处理平台,利用 Hadoop 平台实时分析海量的教育数据。通过 MapReduce对教育数据进行处理,提高了数据处理的速度和效率。它所采用的数据源主要包括:学生信息、教室信息等;采用 Hadoop 分布式文件系统存储这些数据,该平台可以做以下分析工作:学生的学习行为、学生的性格特征和学习能力等。北京师范大学利用社交网络分析方法,分析了在线学习系统中老师和学生的交互数据[42].文献[43]开发了一套在线教育分析系统,不仅能对学生的学习行为进行分析,又能对教学资源进行分析。

  无论是在国内还是国外,大数据技术在教育中的应用都处于起步阶段,主要研究方向就是教学模式和教学管理 2 方面。虽然大数据在教育中的应用具有很大的优势,也必将是未来教育领域发展的趋势。但是大数据技术对于我国教育领域的应用尚处在萌芽期,我国的教育工作者应该及时关注国外先进的技术和发展动态。随着大数据技术的发展,以及在各行各业越来越成熟的应用,那么一定会有更多的研究学者关注其在教育领域的应用。

  论文研究的意义。

  随着高校招生规模的不断扩大和信息技术的不断发展,各个高校都建立了自己的教务管理信息系统,这些系统大大提高了教学以及管理的水平,同时也积累了海量的教学和管理数据。例如在学生的成绩、书籍、论坛和就餐卡等方面就足以产生大量的数据,除此之外还有教学设备、教室信息和图书等领域。因此,学校的信息系统是非常庞大的信息集合,已经积累了大量的数据。这些数据也是本次论文中所重点研究的数据集。也许在大多数人眼中这些数据之间并不存在什么相关性,然而一旦找到合适的工具将这些数据加以处理,那么这些数据背后隐藏的价值是我们所想象不到的。目前,大多数的高校使用的数据库系统只能提供简单的操作如教育数据的录入、查询和统计等,然而随着数据量的增加,这些数据只能罗列在数据库中渐渐的被人们遗忘,而且会成为人们的负担。国际数据公司IDC 做了一个预测,截至到 2020 年,如果对数据加以分析,33%的数据都会包含有价值的信息,这些尚未开发的价值可以在社交媒体的使用模式、各个研究领域中科学数据的统计、和社会学数据交叉的医学信息等中挖掘[1].

  与其它数据相比,教育信息资源是无形存在的,是对一个学生乃至一所学校的发展都是至关重要的,而如何合理的利用这些数据进行教学的管理和决策更加重要。通过大数据技术可以对学生展开学习行为、生活习惯乃至思想变化方面的分析,并对其未来发展方向做出判断,以便于学生尽早进行自我调整,也更有利于学校优化教育和管理。

  1.2 论文的主要研究内容。

  本文利用 Hadoop 平台对吉林大学电子科学与工程学院(2002 年-2010 年,除了 2005 年)的学生成绩数据做了分析和处理,采用 HDFS 存储学生数据、采用关联规则算法分析学生成绩数据并对传统的关联规则算法-Apriori做了改进,使得改进后的 MapReduce Apriori 算法更加适用 Hadoop 平台也有利于更深入的挖掘学生的成绩数据。

  本文主要进行了以下几项工作:

  1. 阅读了大量的中英文文献,了解国内外发展现状,掌握 Hadoop 框架及其生态统、HDFS、MapReduce 和 Apriori 算法等基础知识,为论文的撰写奠定了夯实的理论基础。

  2.详细研究了关联规则算法的基本原理,结合 MapReduce 编程模型的特点改进了传统的 Apriori 算法,并通过实验验证了改进后算法的有效性,以及改进后算法的可行性分析和性能对比。

  3.通过搭建 Hadoop 平台,对学生数据做了初步的统计处理,并结合改进后的算法分析了所采集的学生数据,得到了其中蕴含的有价值的信息,可以为以后的教育研究者提供参考依据。

  本文的主要创新点如下:

  1.根据 MapReduce 编程模型的特点,对传统的 Apriori 关联规则算法进行了改进,改进的算法不仅实现了发现频繁项集这一过程,同时也根据发现的频繁项集筛选出了强关联规则。

  2.通过对大数据技术的学习和学生数据的分析,本文搭建了 Hadoop 集群平台来分析和处理真实的学生成绩数据。

  1.3 论文的组织结构。

  依据上一小节所述的主要内容,本文总共分为五个章节,每一章的主要研究内容如下:

  第一章主要介绍了本文的研究背景、大数据概念及其技术应用领域、有关教育大数据的国内外研究现状,介绍了本文的主要研究工作、创新点和本文的组织结构。

  第二章详细介绍了 Hadoop 框架及其生态系统、Hadoop 分布式文件系统(HDFS)工作原理和 MapReduce 编程模型的原理。

  第三章介绍了传统的 Apriori 算法,结合 MapReduce 编程模型的特点对其进行了改进,并通过实验验证了改进后算法的可行性以及其性能稳定性。

  第四章介绍了搭建 Hadoop 集群平台的过程,对原始数据进行了统计分析并且应用了改进后 MapReduce Apriori 算法,发现了学生数据中有价值的信息。

  第五章对本文进行了总结和展望,总结了主要研究的内容和存在的不足,同时也提出了一些改进的意见,为未来的教育工作者和研究学者提供了借鉴意义和研究方向。

  1.4 本章小结。

  本章为整篇论文的绪论部分,主要介绍了大数据概念、技术、应用和教育大数据,为本篇文章的立题和研究背景提供了重要的依据,之后又介绍了关于教育大数据的国内外研究现状,说明了本文的主要创新点,最后概括了本文的主要研究内容和组织结构。

返回本篇论文导航
相关内容推荐
相关标签:
返回:计算机应用技术论文