第 5 章 总结和展望
随着信息技术的快速发展,教育大数据的规模也急剧增长,而其中蕴含的价值也不断增高,如何更好的利用教育大数据必将是众多研究学者的目标,面对海量的数据,大数据技术将是完美的解决方案,大数技术与教育数据的结合必将是未来的一个发展趋势。
5.1 总结。
本文针对在教育领域中大数据技术应用的迫切需求,结合吉林大学电子科学与工程学院学生的真实成绩数据,研究改进了传统的 Apriori 关联规则算法,应用目前较为流行的大数据技术-Hadoop,得到了重要课程间的关联关系。主要工作包括以下几个方面:
1.阅读了大量的中英文文献,了解国内外发展现状,以及深入学习了一些基础知识,包括 Hadoop 框架及其生态系统、HDFS 原理、MapReduce 编程原理和Apriori 算法等,为之后的论文工作做好了充足的理论基础准备。
2.详细研究了 Apriori 算法的原理,并结合 MapReduce 编程模型的特点改进了传统的 Apriori 算法,实现了强关联规则的挖掘。为了验证改进后算法的性能本文通过改变数据集大小、最小支持度和最小置信度三个方面验证了改进后算法的可行性和性能优越性。
3.通过搭建 Hadoop 集群平台,对学生数据做了初步的统计处理,并结合改进后的算法分析了本校电子科学与工程学院的学生成绩数据,发现了一些课程之间的关联关系。
本文所研究的改进算法更加适合于像学生成绩这种数据集的挖掘,而当数据集无限增大时本文的算法将会更加凸显其独特的优势。通过本文的研究发现了一些重要课程的关联关系,例如,高等数学和概率论与数理统计,以及它们与一些实验课的关系。对于学生来说,这些关联规则结果可以让学生自主的调整不同课程的学习时间,对于课程的重要程度改进学习计划;对于学校的课程设置等具有重要的指导意义,具有一定的参考价值。
5.2 不足与展望。
本文在完成相应工作的同时,还存在一些不足,需要在未来的工作中进行改进:
1.由于学生数据的保密性,并没有拿到学生的姓名和籍贯等信息,若能拿到全部的学生信息数据,一定会挖掘出更有价值的信息。
2.由于实验环境有限、采用的数据集也不够大,所以并没有搭建真实的大型计算机集群;而且学生成绩的数据格式比较单一,并没有完全体现大数据处理技术所带来的优势。
然而当前大数据应用在我国教育领域中也面临诸多问题,包括无意识、大数据人才缺乏、数据泄露风险等。教育大数据的应用将会给教育事业的发展和创新带来巨大的影响。利用大数据分析技术能将现有的教育数据转变成改善教育和教学的决策。然而实现这一步还需要更多的研究学者参与进来,还需在实践中不断的探索和完善。基于大数据技术研究的不断深化,相信在未来通过研究学者的不断努力,大数据技术将会逐渐成熟,在教育大数据中的应用会逐渐增多。
参考文献:
[1] John Gantz and David Reinsel. THE DIGITAL UNIVERSE IN 2020: BigData,Bigger Digital Shadows,and Biggest Growth in the Far East. December2012.
[2] Specials Archive. Big data[DB/OL]. [2008-09-03]. Nature,
[3] Special Online Collection. Dealing with data [DB/OL]. [2011-02-11]. Science:
[4][5] 徐子沛。The Big Data Revolution[M].广西师范大学出版,2012.
[6] Douglas L.(2012)。The Importance of "Big Data":ADefinition. Gartner.
[7] 冯登国,张敏,李昊。大数据安全与隐私保护。CHINESE JOURNAL OFCOMPUTERS,2014,37(1)。
[8] 孟小峰,慈 祥。大数据管理:概念、技术与挑战。计算机研究与发展,2013,50(1):146-169.
[9] Rubén Casado,Muhammad Younas. Emerging trends and technologies in big data processing. CONCURRENCY AND COMPUTATION: PRACTICE AND EXPERIENCE,Concurrency Computat.: Pract. Exper. 2015( 27):2078–2091.
[10] Sanjay Ghemawat,Howard Gobioff , and Shun-Tak Leung.The Google File System.SOSP '03 Proceedings of the nineteenth ACM symposium on Operating systems principles,2003,29-43.
[11] Jeffrey Dean and Sanjay Ghemawat.MapReduce: Simplified Data Processing on Large Clusters.Communications of the ACM,2008(51)1:07-113.
[12] Thusoo A,Sarma J S,Jain N,et al.Hive - a petabyte scale data warehouse using Hadoop[C]//Data Engineering (ICDE),2010 IEEE 26th International Conference on,2010: 996-1005.
[13] Gates A F,Natkovich.Building a high-level dataflow system on top of Map-Reduce: the Pig experience[J]. Proceedings of the VLDB Endowment, 2009,2(2): 1414-1425.
[14] Mehul,Nalin,Vora.Hadoop-HBase for Large-Scale Data. 2011 International Conference on Computer Science and Network Technology,011(1):601 – 605.
[15] Storm,distributed and fault-tolerant realtime computation. [Online]. Available:
[16] Cloudera. Apache Flume,2011. [Online]. Available: http://flume.apache.org/.[Accessed: 10-Jun-2013].
[17] Linkedin. Apache Kafka,a high-throughput distributed messaging system,2011.[Online]. Available:
[18] Linkedin. Samza,2013. [Online]. Available:
[19] Marz N,Warren J. Big Data Principles and Best Practices of Scalable RealtimeData Systems. Manning Publications Co.: Shelter Island, NY,2014(425)。
[20] 维克托·迈尔·舍恩伯格,周涛。 大数据时代 生活、工作与思维的大变革[J].人力资源管理, 2013(3):136-136.
[21] 栗蔚,魏凯。大数据的技术、应用和价值变革。电信网技术,2013(7)。
[22] 赵刚。 大数据--技术与应用实践指南[M]. 电子工业,2013.
[23] Darrell M. West.Big Data for Education: Data Mining,Data Analytics and WebDashboards.Grovernance Studies at BROOKINGS,September 4,2012.
[24] Anthony G. Picciano.The Evolution of Big Data and Learning Analytics in American Higher Education.Journal of Asynchronous Learning Networks,2013,16(3)。
[25] S Ganesh,A Binu.Statistical Analysis to determine the performance of Multiple beneficiaries of educational sector using Hadoop-Hive.International Conference on Data Science & Engineering,2014:32-37.
[26] V Wadhai,SM Ansari,S Chepuri.Student Behaviour Predictions using Social Media Network in Hadoop Framework. International Journal of Computer Science and Mobile Computing,2015(4):704-709.
[27] Elaine Allen,Jeff Seaman.Going the Distance Online Education in the United States, 2011.Sloan Consortium,2011,18(12):44.
[28] West,Darrell M. Big Data for Education: Data Mining,DataAnalytics,and Web Dashboards.Governance Studies atBrookings[R].Washington: Brookings Institution,2012:1 -10.
[29] Enhancing Teaching and Learning through Educational Data Mining and Learning Analytics [OL]:
[30] TA Doan,Z Jie,WC Tjhi,S Bu.Analyzing Students' Usage of E-Learning Systems in the Cloud for Course Management.Proceedings of the 19th Inter- national Conference on Computers in Education (ICCE '11)。2011(28): 297-301.
[31] YN Silva,SW Dietrich,JM Reed,LM Tsosie.Integrating Big Data into the Computing Curricula.Acm Technical Symposium on Computer Science Education,2014:139-144.
[32] 刘凤娟。大数据的教育应用研究综述[J].Modern Educational Technology,2014.
[33] 潘奇。基于 Hadoop 技术的高校学生行为分析系统研究与实现[D]. 北京:北京邮电大学,2014.
[34] 朱晓丽。基于 Hadoop 的远程教育海量资源存储方法研究。山东广播电视大学学报[J],2012 (3)。
[35] 王月春。基于 HDFS 的远程教育课件资源管理。Network Security,2013.
[36] 冯 翔,余明华等。基于大数据技术的学习分析系统架构。华东师范大学学报[J](自然科学版),2014(2)。
[37] 于长虹,王运武。大数据背景下数字校园建设的目标、内容与策略。中国电化教育,2013(321)。
[38] 魏顺平。学习分析技术:挖掘大数据时代下教育数据的价值[J].现代教育技术,2013 (2):5-11.
[39] 张燕南,赵中建。大数据时代思维方式对教育的启示[J].教育发展研究,2013(21):1 -5.
[40] 梁文鑫。大数据时代-课堂教学将迎来真正的变革[J].北京教育学院学报(自然科学版),2013(1):14-16.
[41] 刘中宇,刘海良。大数据时代高校云资源应用[J].现代教育技术,2013(7)。
[42] 曹良亮。异步交互工具的交互潜能-项关于异步交互中教学交互结构模型的研究[J].开放教育研究,2008(1):97-101.
[43] 高兴媛。在线学习平台反馈功能的设计与实现[J].中国教育信息化,2012(21):50-51.
[44](美)怀特,曾大聃,周傲英等。 Hadoop权威指南[M]. 清华大学出版社,2010.
[45] ZooKeeper: Wait-free coordination for Internet-scale systems. Available at
[46] Avro Home Page[OL].
[47] Vavilapalli V K,Murthy A C. Apache Hadoop YARN: yet another resource negotiator[C].Symposium on Cloud Computing.ACM, 2013:1-16.
[48] Ryan S.J.d.Baker.Data Mining for Education. International Encyclopedia of Education (3rd edition)。
[49] Chang-Jiun Tsai S.S.Tseng,Chih-Yang Lin.A Two-Phase Fuzzy Mining and Learning Algorithm for Adaptive Learning Environment.Computational Science - ICCS 2001 :429-438.
[50] Agrawal R,Srikant R. Fast Algorithms for Mining Association Rules in Large Database [A]. Proceedingof the 20thInternational Conference on Very LargeDatabases [C ].1994.
[51] Gnuplot Home Page.
摘要: 随着国民经济的飞速发展, 信息管理系统在各行各业的应用不断融合深化, 但伴随而来的安全风险也在持续增加。数据库系统作为信息管理系统的核心部分, 它的安全直接关系到整个信息管理系统的安全。因此, 对于数据库系统的安全防护就显得特别重要。 关键...
Linux操作系统作为一种开源操作系统, 一直以性能稳定著称, 使用脚本对netfilter模块迚行高敁管理进不止这些, 还可以将脚本管理斱法扩展, 用于Linux的各种服务配置和性能伓化当中。...
随着科技水平的提高,计算机已经渐渐的融入到我们的生活中,并有着不可或缺的作用,给我们的生活增添了浓重而多彩的一笔。尽管如此,计算机应用技术也是一把双刃剑,在我们享受它给我们带来便利的同时,也要具有一定安全意识。同样,增强计算机与网络应用技...
第4章大数据技术在学生成绩分析中的应用。通过第一章的文献总结,我们了解到我国已经有一部分高校利用大数据技术对教育数据进行了分析,其中包括学生行为的分析、学生成绩的分析、远程教育资源的分析和在线系统中师生的交互数据进行分析,得到了一些有价...
虚拟现实技术作为一种全新的信息科技技术,对于我国的经济发展有非常重要的促进作用。...
随着科技不断的进步,信息化社 会已经趋于成熟,利用信息化手段辅助工业生产、市场营销及日常生活已经成为发展趋势。VB作为一款简单实用的编程开发工具,被广泛应用于各行各业。下面是搜索整理的vb设计论文8篇,供大家借鉴参考。...
本文在Internet/Intranet环境下利用WindowsNT/2000 Server下的ASP技术、COM+、SQL 2000数据库技术,设计一套网络办公系统(OA)的实现方案和技术分析。...
引言计算机图形学是一门比较复杂也比较实用的学科,它给人们带来了一个全新的认识世界的方式。现如今,以图形为主要认知方式的世界图形时代已经成为数字化时代的一个重要标志。因为它不需要言语文字或者一些文学的东西来表达思想,只需要借助于视觉感官加上...
物联网是基于互联网和射频识别技术的能够实现物与物之间互联的网络,已被看作信息产业的第三次浪潮,成为影响经济增长的战略产业。物联网是通过射频识别、全球定位系统、激光扫描器、红外感应器、气体感应器等传感设备,按约定的协议,把物品与互联网连接起...
近几年,不仅我国综合国力大力提升,我国的国民经济也快速地增长,这促使着我国的汽车工业也一同发展起来,科技迅速发展逐渐使汽车的制造成本降低,使汽车越来越百姓化。...