4.7 实验过程及分析。
此章节分别采用了 kddcup1999 和 Darknet 数据集分别进行实验。
在这个章节我们的目标是设计一个机器学习模型来发现是否我们可解决网络入侵检测系统在检测攻击时的缺陷。我们旨在以找出是否有可能通过采用一个较少的数据集,而且无需使用任何 ip 地址和端口号作为特征,以实现高检出率。
4.7.1 实验一 基于 darknet 数据集机器学习算法测试比较。
朴素贝叶斯和决策树模型:表 4.8 提出了基于不同数据集(darknet 数据集)和特征值训练数据机器学习评估的模型。正如你在表 4.8 清楚的看到,我们取得了 99%的准确率 100%的召回和通过决策树学习技术的 20%的训练,80%的测试数据集 99%的特异性。需要注意的是决策树模型的整体检测率,准确率,检出率和 F 评分结果比朴素贝叶斯在每个案例中都高,这表明决策树分类似乎在检测后向散射攻击检测中有更好的表现,此外,构建训练数据集的纪录 20%,保持在测试数据集中剩余还提供了比较高的精度和和低级 FPR,FNR 比率相一致的预测。它也表明,它不要求有一个大的数据集来训练监督分类,因为当数据的少量创建模型的监督分类器的成果检出率较高。这也说明,这种模式具有更好的推展能力。
此外,为了观察是否 ML 分类的时效性令人满意,我们通过使用 32g 内存酷睿 i5 英特尔3.10 GHz 的 CPU 和 Ubuntu14.04 操作系统来测量他们的计算时间。很显然,即使它更快的构建朴素贝叶斯分类器,测试时间大约比决策树大百倍。此外,使用不同的特征集影响分类器测试结果,这表明选择特征值的信息量大小是设计监督学习分类器的一个很大的问题。还需要注意的是是否知道源或者目的ip地址以及端口号对检测后向散射流量的准确性是否一定必要的。
综上所述,提出的决策树分类器达到了 99%的准确率和 100%的检出率,在使用特征集合 2 的情况下达到了 96%.相比与大多数在文件中的系统,没有使用 ip 地址和端口号探测后向散射攻击很有研究意义。此外,是在仅单向流量通行获得如此出色的表现,尤其是 bro 在分析了两个小时数据集后才探测出 13%的恶意流量。
表 6 显示了使用不同大小的训练和测试数据集的决策树中的关键特征值。这还指定了分裂点的数目为树的深度。特征值"协议,ack,rst".
据观察,当使用特征值集合 1 时,改变训练集从 80%到 20%影响了第五个重要的特征,它从数据包长度变为 TTL.然而,在使用第二组数据集时训练集的大小不能导致顶层特征值的不同。当我们使用较少的数据集,分裂点从 5 个增加到了 17 个。
4.7.2 实验二 使用机器学习算法对 kdd99 数据集分类。
我们实验所选取的平台为 spark,版本为 1.4.1,所选取的数据集为 kddcup99 的 10%子集。
(1) 对数据进行预处理。
我们首先对 kddcup1999 数据集进行预处理,因为数据集较大,因此我们只选择 KDD10%的数据集进行实验,预处理所采用的方法为 ReSampling.
(2) 实验方法。
我们将实验数据集平均分为 10 份,10 份当中的样本重叠,试验中我们取 8 份作为训练集,2 份作为测试集,我们对数据集进行 10 次分类,对分类测试取得的结果取平均值。
(3) 朴素贝耶斯模型验证实验。
该实验是朴素贝叶斯算法在 spark 上进行验证实验,我们对 kdd99 的 10%数据进行了分类预测,结果如表4.10和4.11所示,表格4.10是显示的kdd99其中10%的Dos攻击总共488735个样本分类结果。从表格中我们可以看出朴素贝叶斯算法对于 kdd99 数据分类效果很好,对于 land,teardrop 以及 pod 分类几乎无差错。但是由于这几种攻击数据的样本规模比较小,所以不能太说明问题,但在样本数量很多的比如 neptune,smurf 以及正常访问 normal 的分类中,模型表现依旧很好。
模型的性能指标由表格 4.11 所示,从表格中我们可以看出朴素贝叶斯模型对于 kdd99 的10%数据集分类进度很高,检出率高达 98%,准确率高达 99%,F-Score 高达 0.994.8 本章小结。
本章主要阐述了决策树和朴素贝叶斯算法基本原理与算法在 spark 框架上的实现,分别采用了 darknet 和 kdd99 数据集进行实验,使用了机器学习算法和传统的入侵检测系统对数据集进行探测,将两种技术检测的效率进行对比分析。
4.9 总结和展望未来工作。
在本文中,我们的目标是分析检测后向散射的优势和缺点和两个开源入侵检测系统的缺点都明显以及两个 ML 分类。为了实现这一目标,我们采用两个著名 NIDSs,即临 broV2.2和 CORSARO.在另一方面,我们采用两个著名的 ML 分类,即 CART 决策树和朴素贝叶斯,通过使用spark我们衡量他们的表现在攻击检测率和计算时间的表现。我们通过所有的从2008年 11 月一个暗网络数据集(包括后向散射)来评估。为使用 ML 分类,我们采用两个 80%和完整的数据集作为训练的 20%.这样一来,我们的目的是要了解的不同训练集大小如何影响我们的 ML 分类的质量。其结果是,我们实现通过使用整个数据集作为训练集的 20%99%的检出率。另一方面,bro 和 CORSARO 既无需训练。
此外,我们指定了两个不同的功能集来理解如何选择不同的数据集怎么影响我们的分类表现。通过提出的第二特征集,还旨在研究它是否能够不使用端口号和 IP 地址反向检测散射攻击。另一方面,bro 和 CORSARO 都有他们使用来分析流量自己预先定义的特征。据我们所知,这是第一次采用反向散射流量来评估这样的系统的。研究结果显示:
CORSARO 比 bro 具有较低的处理时间更高的检测精度。
决策树分类器的性能在检测精度和处理时间方面的比朴素贝叶斯分类更高。决策树分类器的处理时间比朴素贝叶斯减少约一百倍。
"protocol,ack,rst"这些特征值是我们决策树最重要的特征值当我们使用因为统计结果特别高,所以结果展示不使用 ip 地址和端口号来探测反向散射是可行的。
决策树的训练集使用 20%结果展示性能很高,但是决策树的复杂度也从 5 变成了 17.但是我们并不认为这是不利的因为 17 对专家而言还是很容易分析的。
表七展示了机器学习分类器与网络入侵检测系统的对比。需要注意的是机器学习分类器使用了特征值 2 中的 20%数据作为训练值。根据我们观察,我们的方法在探测后向散射数据集有很高的精度,然后我们的做法和 corsaro 的结果非常接近。请注意 corsaro 是设计的实时系统,它具有最合理的处理时间。我们的方法通过智能计算设计的,这意味着它能根据已使用的训练机学习新的攻击特征。另一方面,corsaro 使用预先定义的特征来探测 ddos 攻击;因此,它的特征必须被重新定义来探测 ddos 攻击。为了此目的,我们的结论是介于所述决策树分类用来补充 corsaro 分析系统,以适应新的恶意行为。
至于今后的工作中,我们将采用更大和更新的暗网络数据集探索其他节点和 ML 分类的性能。我们也将研究的复合功能,可能会增加 ML 分类器的性能的动态调整。最后但并非最不重要,我们将探讨这些类型的数据集的分类系统的通用性和稳健性的能力。
随着我国居民生活水平的提高,居民可支配的收入越来越高,随之而来的是居民生活压力增加,不健康饮食、不健康的生活习惯和生活压力导致居民的健康水平却越来越低,近些年我国居民对健康越来越重视。...
2.4Sparkmllib库与基于spark的数据挖掘算法。Spark之所以在机器学习方面具有得天独厚的优势,有以下几点原因:(1)机器学习算法一般都有很多个步骤迭代计算的过程,机器学习的计算需要在多次迭代后获得足够小的误差或者足够收敛才会停止,迭代时如果...
第五章系统测试整个智能家居系统的硬件平台搭建完成,软件编程和调试结束后,需要对系统进行一个全面的测试,来验证系统的功能的实现和稳定性。系统测试分为功能测试和性能测试。功能测试主要检测系统设计的功能是否都能完成;性能测试主要检验系统的稳定...
第四章个人防火墙系统设计与实现4.1开发环境操作系统:Windows7开发工具:VisualStudio20104.2防火墙系统设计架构4.2.1防火墙系统总体结构PSFW个人防火墙分为三个模块(总体模块划分见表4.1):(a)PSFWIOCONTROL为动态链接库模块和可执...
本文以软件开发为主线论述了主要的系统分析、设计与实现工作。在需求分析方面,从嘉饰公司亟需解决的主要营销问题出发,着重从营销基础信息管理、营销方案管理和营销的定价与成本信息管理方面进行了分析。...
第五章结论本文通过对物联网智能家居市场走访调查,结合行业发展趋势进行综合分析,充分考虑大众需求,研究和分析智能家居设备的控制技术,主要研究工作有以下几个方面:?1、对物联网和智能家居的发展历史,智能家居的发展现状进行了深入细致地研究,通...
第1章绪论随着计算机技术、互联网技术和嵌入式技术的日趋成熟,物联网开始逐渐走进人们的生活。在国家的政策支持下,科技在飞速的发展,智慧中国的概念也已经逐渐走入我们的城市。智能城市、智能家居、智慧医疗等基于物联网的智能系统已经为人们的生活...
本文的研究目标是以软件工程理论为指导,采用 PHP+My SQL 技术设计并实现科学合理、实用好用、能够满足实际需求的作业管理系统,以提高教学中作业管理环节的效率,增强教学效果,提高人才培养的质量。...
摘要微信是腾讯公司于2011年1月21日推出的一款通过网络快速发送语音短信、视频、图片和文字,支持多人群聊的手机即时通信软件,截止到2014年底,微信注册用户已接近8亿,海外用户突破1亿。面对如此庞大的用户群体,各种各样基于微信的应用系统...
第3章酒店客房预订管理系统的数据库分析及系统设计3.1数据库分析软件系统在工作的过程中,相关的数据信息都保存在数据库中,数据库的主要作用就是对软件系统中的数据信息进行存储和管理,保证这些数据信息的稳定和安全。数据库就是软件系统的后台,是...