卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,能够按其阶层结构对输入信息进行平移不变分类。下面我们就为大家介绍几篇关于卷积神经网络论文范文,供给大家参考阅读。
卷积神经网络论文范文第一篇:轻量化卷积神经网络的面部表情分类研究
作者:尚宇成 陈格恩 洪扬
作者单位的:南京邮电大学
摘要:针对目前卷积神经网络实现面部表情分类的模型和参数较复杂、识别准确率较低的问题,本文提出了轻量化的卷积神经网络,在深度可分离卷积网络的基础上改进,引入ELU激活函数解决神经元"坏死"问题,同时轻量化模型。实验结果显示,本文所提的方法在FER2013数据集上可达到68.91%的准确率,识别效率也大大提升。
关键词:深度可分离卷积;情绪识别;分类;
1 概述
计算机视觉技术飞速发展,人脸情绪识别技术也得到了快速推进,作为传达感情的一种方式,面部表情传达的信息占到了交流时传递信息总量的55%.常见的情感分为七类,包括开心、生气、惊讶、悲伤、害怕、厌恶和中性。人脸情绪识别主要包括图像采集、数据处理、特征提取以及情绪识别四部分,其中关键是对表情特征的提取,传统的检测方法设计较为复杂且已经不能满足准确性的要求,因此深度学习识别情绪方法随之诞生。大规模视觉识别挑战赛等竞赛提供了丰富的情绪数据,推动了深度学习技术的发展,其中卷积神经网络在分类识别任务上取得了显著成效。包含Alex Net、VGG、Res Net等网络。
本文采用深度学习方法,在Xception网络的基础上,设计训练轻量卷积神经网络,在FER2013数据集上进行训练,在减少训练参数的同时提高识别准确率,最终达到了68.91%的识别率。
2 改进的卷积神经网络
2.1 卷积神经网络
卷积神经网络由传统的多层神经网络发展而来,加入了有效的特征提取部分、卷积层以及池化层,用来有效地提取特征以及减少训练参数,降低网络复杂度。最后的全连接层进行损失计算并得到分类结果。
2.2 改进的网络模型
本文在Xception网络的基础上进行简化和改进,深度可分离卷积相较于正常卷积可以节省更多参数,其先对输入图像的三个通道RGB分别进行空间卷积(单通道卷积),然后进行1*1通道卷积,与Inception网络恰好相反。
本文模型首先在激活函数的选取上进行改进,常用的激活函数RELU,其优点很明显,因其无饱和区从而解决了梯度消失的问题,计算效率高,收敛快,但其负数部分恒为0,称为单侧抑制,学习率(Learning rarte)较大时,容易出现神经单元坏死,对数据无响应的问题。SELU,Scaled Exponential Linear Units (如公式(1)),存在饱和区,不存在死区,以及ELU,Exponential Linear Units(如公式(2)),都解决了Relu函数造成的神经元"死亡"问题,也不存在梯度消失和梯度爆炸现象,本文分别采取两种激活函数进行实验。
其中α=1.6732632423543772848170429916717
其次对深度可分离卷积网络进行轻量化处理,改进后的模型总参数为50263个,而训练参数降为49287个,先将输入图像进行两次3*3卷积,Relu激活,批归一化处理后,送入四个以SELU或ELU为激活函数的可分离卷积模块,每个模块中进行两次深度可分离卷积,批归一化,激活函数SELU或ELU激活,最大池化层以及残差直连,最后一个模块输出的数据经过1*1卷积及全局均值池化后送入Softmax激活函数进行分类。
3 实验
3.1 实验环境
在windows10 64位操作系统进行实验,实验采用Pycharm软件编程,在Keras深度学习框架下搭建网络,其高度模块化,高级API大大简化了代码量,几十行代码即可迅速搭建深度学习框架,且搭建的网络浅显易懂。在软件中安装keras、tensorflow、scikit-klearn、numpy、matplotlib、xlrd等依赖包进行模型训练与数据处理。
3.2 数据集选取
3.2.1 FER2013
FER2013表情数据集在Kaggle人脸表情分析比赛提出。含有28709张训练样本,验证集与测试集的样本数量均为3859张,像素大小规整。包含生气、厌恶、害怕、开心、悲伤、惊讶和中性七种类别的图像,对应数字0-6.该数据库人眼判别的准确率为65%±5%.
3.2.2 CK+数据集
CK+数据集是进行人脸表情识别最大的实验室数据集,发布于2010年。包含有123个对象的327个被标签的序列。包含愤怒,轻视、厌恶、悲伤、惊讶、恐惧、快乐七种情绪。也是人脸识别中较为常用的一个数据库。
本实验采用FER2013数据集进行模型训练。
3.3 数据处理
3.3.1 数据增强
在实际中,为了增加神经网络的学习能力,我们往往会增加神经网络的深度和广度,网络的加深会使学习的参数增多,数据集较小时,参数会拟合数据的全部特点,而不是数据间的共同特征,容易导致过拟合,使训练出来的模型缺乏泛化能力,准确率低。
数据增强即人为的对图像进行翻转、切割、旋转,可以防止过拟合现象,常见的数据增强方式包括随机旋转、随机裁剪、色彩抖动、高斯噪声等,可以增加数据的多样性,从而扩大数据量,增强训练网络的鲁棒性。本文设置参数随机旋转度数范围为10度,随机缩放范围为0.1,水平及垂直偏移的参数设为0.1,设置随机水平翻转,不进行去中心化及标准化。
3.3.2 训练参数
采用经过数据增强的FER2013数据集,利用Keras深度学习平台搭建改进的深度可分离卷积神经网络进行训练,并指定训练集的20%作为验证集,验证集与训练集无公共部分,设置分类个数(num_classes)为7类,训练总轮数(epochs)为200次,批大小(batch_size)为32个,即每次训练时在训练集中选32个样本,输入图像大小为1通道,大小为48*48,并采用Adam优化器降低损失。
3.4 实验结果分析(混淆矩阵)
通过多次实验得到实验结果,采用ELU激活函数的识别率优于SELU.ELU激活函数在FER2013数据集得到的混淆矩阵如表1.
表1 FER2013数据集七类表情混淆矩阵
由混淆矩阵可知,FER2013数据集的七种表情中开心和惊讶的识别率较高,分别为:0.86和0.81,而悲伤和害怕的识别率较低,为0.54和0.46.可能是因其两种情绪的面部表情较为接近,难以分辨,以及可能存在的标签错误以及头发、手等遮挡物的遮挡。
模型识别的训练集与验证集的准确率如图1.
图1 训练集与验证集的准确率
改进的Alex Net[2]卷积神经网络的方法在FER2013数据集上实现了68.85%的准确率。周章辉等[3]构建的双通道卷积神经网络在FER2013数据集上准确率为66.7%.而徐琳琳方法[1]则在此数据集上达到了65.6%的识别率。本文的方法达到了68.91%的准确率,较上述方法优化了模型,说明本文改进的网络模型在面部表情分类上有更好的识别效率,表2.
表2 模型准确率对比
4 结论
本文在Xception网络的基础上进行改进,ELU激活函数解决神经元坏死现象,有较好的鲁棒性。采用轻量化设计,大大减少模型参数数量,最后在FER2013数据集上取得了68.91%的准确率。模型训练需要大量数据作为支撑,模型准确率难以大幅度提升与数据集的标注,数据预处理与参数设置有较大关系,后续工作将考虑建立自己的数据库,并将光照、遮挡等因素考虑进去,进一步优化网络模型与参数选择,提高识别准确率。
参考文献
[1]徐琳琳,张树美,赵俊莉构建并行卷积神经网络的表情识别算法[J].中国图象图形学报,2019,24(2)。227-236.
[2]石翠萍,谭聪。左江赵可新基于改进AlexNet卷积神经网络的人脸表情识别[J]电讯技术2020,60(09): 1005-1012.
[3]周章辉,谭功全。基于深度学习的实时人脸表情识别研究[J] .四川轻化工大学学报(自然科学版),2020,33(05):28-34.
文献来源:尚宇成,陈格恩,洪扬。轻量化卷积神经网络的面部表情分类研究[J].科学技术创新,2021(18):72-73.
卷积神经网络论文范文第二篇:基于卷积神经网络的风格迁移网站设计
作者:林连坤 谢泽毅
作者单位:福州大学至诚学院计算机工程系
摘要:为了让用户能够方便的制作和处理含有艺术风格的图像,本文使用基于卷积神经网络的快速风格迁移,和基于 JavaEE 搭建了一个线上的图像风格迁移网站。网站采用MVC的架构模式设计,前端为 Bootstrap + Layui 框架,后端为 SSM 框架。
关键词:快速风格迁移; JavaEE;风格迁移网站; SSM框架;
基金:福建省大学生创新创业训练项目,AI艺术图片生成应用项目编号:S202013470011;
引言:
绘画是艺术创作重要的视觉表现形式之一,而绘画风格可以用于表现绘画的文化创作背景和艺术特征,是各门类艺术绘画派系最直接的特征表现。在现代,人工智能也已经能理解"艺术"了。例如风格迁移,它可以提取图片的风格,将另一张图片重绘为一张含有艺术风格的新图片。
例如下面图1所示:图1(a)是名画《神奈川冲浪里》,图1(b)是一副风景画,而图1(c)是通过风格迁移之后得到的新图像,既包含图1(a)的样式风格,又包含图1(b)的图像内容。[1]
图1 风格迁移流程图
随着深度学习技术不断地发展,会带来更多图像处理的技术。此时,图像处理的网站势必会为社会不同人群的生活带来更多的便利与多彩。为了有效的为用户带来便利,图像风格迁移网站致力于使用人工智能来对图片进行处理。同时,提供一个网站来让更多人进行艺术照片方面的探讨和交流。网站核心是让用户能够方便的处理和制作图像,同时也要能增加了用户之间的互动。
一、技术背景
1.1快速风格迁移
风格迁移中,根据内容图像和风格图像对风格化图像进行优化,使 loss 值最优。此处的梯度下降方法通过调整输入图像来达到loss值最小,属于网络参数不变、根据调整输入进行下降。每生成一张图像都要经过一个n次的迭代,相当于训练一个模型,需要较多的CPU资源和计算时间。
虽然基于图像迭代的方式,风格化图像的融合效果较优,但是考虑到服务器性能一般,而且等待时间过长容易给用户带来不好的体验。所以选择基于模型迭代的图像风格迁移的方法,该方法又称"快速风格迁移".
快速风格迁移使用了大量的图像来训练可生成风格化图像的生成模型,训练完成后即可使用此模型对图像进行风格迁移只需要几秒钟的时间,很大程度上解决了图像风格迁移的计算效率低下的问题,并且可以与基于图像迭代的方法进行组合[1].这就是快速风格迁移的特别之处,其结构图如图2所示。
二、应用的系统设计与实现
本系统主要是实现了对用户上传的图片进行风格迁移化的功能,具体风格迁移网站和后台管理系统。系统的主要功能包括图像风格化处理、用户和图像信息管理、用户进行互动的功能,包括留言评论、发布动态等。
用户首次使用,需要先在网站注册一个账号,接着使用该账号登录后,可以查看到其它用户的作品、动态、点赞、留言信息等,当然也可以进行动态发布、作品点赞、作品留言等操作,同时,用户需要制作图片时,只需进入到制作图片页面后,将图片上传后,选择一个滤镜,在点击制作后,后台会调用该滤镜对应的训练模型,用该模型对图片进行训练,然后等待一段时间训练完成后用户就可以在制作列表中看到风格化处理后的图像,此时用户可以选择发布该图像作为作品分享给其他人,也可以在该页面删除该作品。后台管理主要是针对图片信息管理,用户管理,动态信息管理。
图2 快速风格迁移结构
2.1系统架构
基于 JavaEE 的图像风格迁移网站采用MVC的架构模式设计。网站前端使用了 Bootstrap 和 Layui 前端UI框架,后端采用的是 SSM 框架[3],网页的前台设计主要功能是给用户提供制作图像的制作平台,同时通过互动功能让用户和用户之间能更好的分享图像风格迁移的乐趣。即包括了留言板、动态、作品信息查看、用户主页空间等,在对图片处理用的是tensorflow框架。
具体的系统功能架构如图3所示。
图3 系统功能架构
用户制作一张图像风格迁移的流程为:
1.用户进入制作图片页面,上传需要进行风格迁移化的原图,再选择一个滤镜后,点击制作图像
2.点击后通过本地Cookie上的账号密码验证用户登录信息是否正确,当用户信息正确时,将用户信息以及上传的图片和选择的滤镜发送给服务器,将图片保存到服务器中,并将该系列对应的信息传入MySQL数据库,同时将原图再进行了低质量图片和水印图片的存储,节约用户在网站上的流量以及加快了用户寻找自己想要的作品速度,水印图片是为了让用户发布的作品被直接进行盗取。
3.用户在点击制作图像后自动进入制作列表中,制作列表显示正在制作的图像和已经完成的图像,并在制作未制作完成时,即查询图片路径上的图片不存在时,设置一张默认的图像提示用户图像正在制作中,请等待。等待过程中,服务器将该上传的图片以及滤镜获取,此时开启一个线程调用Python脚本对图像进行风格化处理,在调用Python程序处理过程中,因为图像过大会导致程序的时间变长,所以第一步对内容图像进行缩放等处理;第二步获取用户选定的风格图像具体路径;第三步读入内容图像和风格图像后开始调用Python程序进行图像的风格迁移;最后将生成的图像按指定名称保存到指定的本地位置。当处理完成后,Python脚本已经在服务器中生成风格迁移化的图片,在用户重新刷新页面,由于当前地址有图像存在,即可显示图像,用户即可获得一张已经风格迁移化后的图像。
4.完成图像制作后,制作后的图像也会显示在制作列表中,当用户需要发布时可以选择发布来对图像的名称、描述等信息的编写,编写完成后点击发布,会再次将该风格化图像生成低质量图片和水印图片。也可以通过删除某一图像来管理制作列表。
图4 风格化图片列表
三、结束语
过去几年来,风格迁移已经持续成长为了一个蓬勃发展的研究领域。不过目前虽然已经有了成功的应用案例,但是距离广泛的商业应用还有较大的距离,且国内图片风格迁移网站较少,所以此网站可以作为艺术创作和社交的工具,具有重要意义和广阔前景。
参考文献
[1]杨晨,刘立波基于VGG网络的图像风格迁移Android应用[J].福建电脑, 2019,35(03)-51-53.
[2]陈淑環,韦玉科,徐乐,董晓华,温坤哲 基于深度学习的图像风格迁移研究综述[J].计算机应用研究, 2019,36(08):2250-2255.
[3]王梓,夏凯 于SSM框架的水质监测数据管理系统研究[J].计算机时代, 2018(07):25-27+31.
文献来源:林连坤,谢泽毅。基于卷积神经网络的风格迁移网站设计[J].中国新通信,2021,23(11):58-59.