计算机硕士开题报告(4),开题报告

　　5. 7. 2在Core15K数据集上的结果
　　5. 8小结第六章总结与展望
　　6. 1总结
　　6. 2展望

　　5、论文的理论依据、研究方法、研究内容。

　　针对图像检索中大规模化和语义鸿沟问题，本论文基于人脑视觉机制和深度学习的理论提出自主学习图像特征的思想，借鉴人脑视觉机制是逐层迭代、逐层抽象的过程，建立一个从图像底层视觉特征到高级语义特征逐层迭代、逐层抽象的深度网络映射模型，旨在减小语义鸿沟，得到图像语义特征提取系统，并深入研究图像语义相似性度量，为大规模图像自动标注提供良好的基础，实现基于语义特征的图像检索，真正有效地利用海量的图像信息资源。本论文具体所做的研究内容总结如下：
　　（1）对人脑视觉机制和深度学习的理论进行了深入分析，研究了最常见的几种深度学习网络模型，为下文设计基于深度学习的图像语义特征提取系统提供理论依据。同时对图像检索系统进行阐述，从图像特征提取，相似性度量，图像语义标注等方面进行分析，为实现大规模图像自动语义标注提供理论基础。
　　（2）基于深度学习是逐层迭代、逐层抽象的过程，各层可抽象为不同抽象程度的语义层（物体边缘、边缘组合、更为抽象的特征等等），将其应用到图像语义特征提取中，建立一个从图像底层视觉特征到高级语义特征的深度网络映射模型。针对现实情况下，标签数据资源有限，无法支撑起深度网络训练的情况下，研究了迁移学习的问题。把无监督学习得到的各层特征提取器迁移到卷积神经网络中，即将从一个环境中学习得到的知识用来帮助识别新环境中的知识。深度学习的这种可迁移性也证明了各层特征是具有不同抽象程度的语义含义，抛去最后的分类器层，则可以独立出一个语义特征提取器，每一幅图像都会有唯一对应的特征ID ,然后根据图像相似性度量方法，可以得到各图像之间的相似度，实现快速图像检索，同时也为下文的语义自动标注打下基础。
　　（3）基于深度学习的理论，提出了一种朴素的基于深度学习的图像标注方法。对深度卷积网络进一步优化，使得分类器的准确率到达最优。去掉最后分类器层，利用迁移学习的理论，把深度卷积网络的前几层作为语义特征提取器。利用相似性度量，设定阂值，得到和待标注图像最相近的一些图像及语义标签，最后利用投票的方式，得到最优的语义标签，对图像进行自动标注。

　　6、研究条件和可能存在的问题。

　　进一步提高图像检索的准确率解决语义鸿沟问题是目前图像检索领域中的主要问题。随着移动互联网飞速发展和用户上传到web上的图像资源的爆炸式增长，有效整合利用这么庞大的数据资源和满足用户快速检索到自己想要的图像成为当前图像检索的迫切需求。本文利用深度学习技术在图像分类、图像标注及以图搜图上作了一些工作，还有以下几个方面值得进一步的深入研究：
　　（1）目前的深度学习网络均要求输入图像的尺寸是一致的，对于不同尺寸的另一个数据集只有两种选择：1） Resize为深度网络一致的尺寸，2）重新设计一个深度学习网络，重新训练。这样就导致前一个网络学得的特征不能传递给下一个网络，知识没法迁移。如何解决多尺寸输入，多尺寸训练问题，是当前深度学习领域一个非常值得研究的课题。
　　（2）目前有学者把深度学习应用在基于图像分割的对象检测上，以此来对图像进行精准标注，取得了很大成绩，例如RCNN,依赖于候选框提取算法（ selectivesearch ），同时也存在时间开销很大问题。如何改进候选框提取算法，降低时间开销也是进一步值得研究的方向。
　　（3）在图像标注中，引入反馈机制，建立用户对图像标注的满意度的评价的交互机制，提高图像标注的准确率。

　　7、预期的结果。

　　（1）围绕着图像检索中的语义鸿沟问题进行了深入分析，类别了语义层次模型和深度学习网络，指出深度学习的高层特征具有对象级的语义概念，启发笔者可以用深度学习来缩短图像检索中语义鸿沟。研究了最常见的几种深度学习网络模型，为下文设计基于深度学习的图像语义特征提取系统提供理论依据。同时对图像检索系统进行阐述，从图像特征提取，相似性度量，检索系统性能评价等方面进行分析，为实现大规模图像自动语义标注提供理论基础。
　　（2）提出一种无监督的深度学习算法用来图像语义特征提取和分类。在带有标签的图像资源有限的情况下，先用稀疏降噪自动编码器算法在大量无标签数据驱动下自主学习特征，然后利用知识传播赋给卷积神经网络，当成语义特征提取器提取出特征，并用L2-SVM进行训练，最后采用多级级联方式把多个L2-SVM分类器融合起来，提高分类准确率。同时分析了单层卷积神经网络下，影响网络分类准确率的因素，发现随着卷积核个数增加对分类准确率贡献越来越小，池化的大小对分类准确率有很大影响。在STL-10数据集上进行了算法验证，在单个网络的情况下，本文的算法获得了最高的准确率。
　　（3）利用第三章提出的算法，在MATLAB GUI上开发了一套基于深度学习图像检索系统，介绍了软件功能和模块，包含基于分类的图像语义标注，基于语义特征的图像检索两种功能。以实际图像为例，对基于深度学习的图像分类模块和图像检索模块进行了仿真验证。
　　（4）针对基于分类的图像语义标注的问题，设计了基于深度学习和搜索的图像语义标注优化算法，根据第四章的F值曲线确定搜索相似图像语义特征距离阂值为0.2,然后设计了合并算法对语义概念向量进行打分，并归一化为一个置信概率向量，待标注的图像只标注大于0.1的语义概念。并通过实例图像对语义标注过程进行了仿真验证，实验结果表明基于深度学习和搜索的图像语义标注优化算法能够很好的标注图像，具有较强的可靠性。
　　通过本项目的研究，实现了基于深度学习的图像语义检索初步架构，为解决语义鸿沟问题提供了新思路，并针对标签数量稀少不足以支撑起深度学习训练的问题，采用稀疏降噪自动编码器逐层贪婪训练的方法训练得各层卷积核特征，实现了无监督学习的深度语义特征提取器。此外，用深度学习改进了基于搜索的图像语义标注算法，为图像语义标注提供了新思路。

　　8、论文写作进度安排。

　　2015.05-2015.06 开论文会议
　　2015.06-2015.07 确定论文题目
　　2015.07-2016.02 提交开题报告初稿
　　2016.02-2016.06 提交论文初稿
　　2016.07-2016.08 确定论文终稿
2016.08-2016.09 论文答辩