0引言
现今生物信息技术尤其是在昆虫学领域,迫切需要将生物学基础研究全过程的信息通过计算机技术和手段进行综合存储,同时将生物形态学与分子生物学数据结合起来,根据研究领域的特点和科研成果交流需要,实现信息交流与共享、多格式信息存储、生物信息决策与KDD应用等方面信息.
1设计背景
本文以"中国长足寄蝇亚科的系统分类研究"的需求为出发点,以全面合理的存储寄蝇数据、提升现有寄蝇研究成果和数据共享性为目的,力求实现通过计算机手段对国内外寄蝇研究的现有成果进行总结与分类,实现寄蝇信息的高效管理等而搭建长足寄蝇生物信息综合数据库.
相比较常见的单一数据库模式,该系统的数据仓库由关系数据库和多维数据库共同组建.数据展现平台用Java基于MVC设计模式实现,并将该平台分为Web层、服务层和数据访问层.访问关系数据库数据采用开源的Ibatis框架,将各种SQL语句存放在配置文件中进行统一维护通过JDBC DAO访问关系数据库;同时,对多维数据集访问的脚本语言的也具备Java接口用最实用的C语言.用C后对多维数据库的访问速度则明显改进.
数据存储方面,该系统兼容并济,采用关系模式ROLAP和多维模式MOLAP相结合,即混合模式HOLAP.数据检索方面,针对唯一索引、主键索引和聚集索引3种任取其一均不能满足生物系统海量信息检索的复杂性和高效行,在该系统中采取了唯一索引、主键索引及聚集索引相结合的方式.
2数据存储与检索
系统模型是统一业务系统的核心,模型设计的好坏直接关系到系统建设的成败.在建模时需要将寄蝇亚科研究的现有成果进行存储,并对其进行全面总结、分类和分析.
2.1元数据设计
系统形态学、分子生物学、物种形态信息标准、分类研究历史和生物综合防治和科学考察全过程信息采集等信息按照生物信息化元数据标准建设.包括生物本体53类元数据信息,共515个元数据属性.寄蝇科、亚科、族、属、种的基本研究成果和分类检索成果、物种基本信息和研究历史.包括:模式标本,鉴定和订正已知种、发现和记述新种、新纪录种外部形态、绘制头部与外生殖器结构特征图;补充未记载雌性或雄性标本.
27种形态分类描述属性、分子生物学研究的成果和实验过程.包括:DNA、引物PCR反应图片、测序线粒体COI和28SrRNA基因片断成果与数据、同源分析比对和分子系统树成果等.检视标本采集过程信息、标本管理信息、保存和储存状态和标本分类研究信息和生物形态/生境信息.系统形态分类研究.包括:板图、头胸、腹尾器.其他信息包括寄蝇进化、生态利用和害虫生物控制依据和解决对策、生境特征、科学考察信息、生物地理、自然地理情况(经纬度、行政区位置、海拔、自然区划、地貌、国内/外分布)和研究程度和研究文献等基础生物本体信息.
2.2信息存储类型
信息存储类型有简单文本属性信息、板图图片、实验图片、科考图片、系统发育树研究成果信息对象、基因分子数据大对象格式、统计与热点图形、自定义、共享格式数据、各类格式研究与交流文档对象等.
生物信息化数据库建库、元数据与采集标准建立.包括中国寄蝇科寄蝇信息数据库元数据标准和生物信息数据采集工作标准与指导方法及野外科学考察研究描述信息.
2.3数据设计与挖掘
系统一共包括53个表,包括5种信息、族属代码、人员权限、公共代码等相关表格.图1所示是族属E-R图,该模型主要描述了物种的分族、分属情况,以及其国内外分布情况.
图2所示是物种信息E-R图,该模型以物种无主题,主要描述了和物种信息有关的地域、地貌、生物地理分布等有关信息.
3数据挖掘
数据挖掘是指从大量数据中提示出隐藏的、未知的事物的特性或是规律,根据这些规律制定出合适的算法,然后根据算法进行数据的检索.数据挖掘的功能主要是描述和预测2方面,包括概念描述、关联、分类、聚类、演变分析等.以上功能也是现今应用于生物信息数据挖掘的几个主要方面.本系统建设中主要应用聚类、分类和关联分析算法.
3.1聚类分析
本系统使用聚类的目标是:通过聚类分析实现寄蝇分类,进而推断出系统发育树.根据实际情况和需求,因为寄蝇亚科各族属种之间的进化关系本身就是模糊的,相较于划分法、层次法等传统聚类非此即彼的"硬划分",模糊聚类的"软划分"显然更适用寄蝇信息数据库.系统聚类的实现决定采用基于模糊等价关系建立系统发育树,从而实现对寄蝇实体族属种等的分类,通过建立系统发育树一目了然的展现分类效果.
1)动态聚类方法的流程(如图3所示).通过对比发现,系统聚类是一次形成分类结果,对分类方法的要求很高,相应的计算量也很大.理所当然的,该系统选用动态聚类方法.
2)模糊等价关系的采用.从数学上讲,一个确切的分类通常是由一个明确的等价关系确定.类似的,一个模糊的分类,也可以利用一个模糊的等价关系实现.
3)基于模糊等价关系的动态聚类的优化.通过优化、动态聚类过程、获取样本向量和构造模糊相似矩阵,建立模糊等价关系矩阵,最后对模糊等价关系矩阵执行动态聚类的算法,得出最后分类,聚类过程结束.依据得出的分类,即可以推断出系统发育树.实践证明,基于模糊等价关系的动态聚类建立的系统发育树是值得信赖的.
3.2分类分析
分类分析是基于事先创建的分类模型,实现某个未知的数据项到数据库中已知类的映射.显然,人们不可能把每一个寄蝇实体的每一个属性值都通过生物实验来获取.利用已知寄蝇实体的相关属性值,通过分类挖掘,便可以对一个蝇类样本的特定属性值进行预测,从而解决实验过程不能解决的问题,是本系统使用分类分析的主要目标.从预测准确率、速度、健壮性和可伸缩性等全方位衡量的话,没有一种算法是完全优秀的.
实际上,在本系统中用到的分类分析算法是微软决策树算法.该算法由SQL Server 2008中的analysis service组件提供.实践证明,微软决策树算法对离散的和连续的属性预测表现均出色.足以应付该系统中的分类挖掘问题.在此不做详细介绍.
4结语
本系统以国家自然科学基金"中国长足寄蝇亚科的系统分类研究"的需求为出发点,以对寄蝇生物研究过程中产生的海量数据处理为主要任务,通过计算机手段实现了寄蝇数据的生物信息化.
参考文献:
[1]陆舟.Struts2技术内幕:深入解析Struts架构设计与实现原理[M].北京:机械工业出版社,2012:80-256.
[2]李刚.轻量级Java EE企业应用实战Struts2+Spring3+Hibernate整合开发[M].北京:电子工业出版社,2011:30-236.
[3]甘文丽,刘为超.基于Struts2和Ajax的企业级Web应用开发[J].工矿自动化,2013(2):23-26.
[4]常革新,任永昌.Struts2框架校验文件自动生成技术[J].计算机技术与发展,2013(1):305-321.
[5]薛峰,梁锋,徐书勋,等.基于Spring MVC框架的Web研究与应用[J].合肥工业大学学报:自然科学版,2012,35(3):337-340.
[6]廖福保.扩展Spring MVC模块的Web应用[J].实验室研究与探索,2012(10):70-73.
[7]严厉,俞永强.The spring prediction barrier in ENSO hindcast experiments using the FGOALS-g model[J].中国海洋湖沼学报:英文版,2012(6):1093-1104.
[8]ZHANG Chaolei,LIU Yazheng,ZHOU Leyu,et al.Secondary hardening,austenite grain coarsening and surfacedecarburization phenomenon in Nb-bearing spring steel[J].钢铁研究学报:英文版,2012(3):47-51.
[9]ZHANG Chaolei,ZHOU Leyu,LIU Yazheng.Heredity in the Microstructure and Mechanical Properties of Hot-rolled Spring Steel Wire 60Si2MnA during Heat Treatment Process[J].材料科学技术:英文版,2013(1):82-88.
[10]张春田,陈小琳.中国长足寄蝇亚科的系统分类研究[J].沈阳师范大学学报:自然科学版,2008,26(4):封二.
[11]徐海根.中国生物多样性元数据库的研究与开发[J].兰州大学学报:自然科学版,1999,35(4):103-108.
[12]徐海根,包浩生.中国生物多样性核心元数据标准的探讨[J].中国环境科学,2000,20(2):106-110.
[13]吴善杰.关于模糊聚类分析方法的进一步思考[J].华北科技学院学报,2008,5(1):108-111.
[14]李刚成,刘赞波,曾庆光.一种基于模糊聚类的构造进化树方法[J].计算机应用,2009,29(3):836-838.
[15]刘星毅.一种新的决策树分裂属性选择方法[J].计算机技术与发展,2008,18(5):70-72.
虚拟现实技术(Virtual Reality,简称:VR),是20世纪发展起来的一种虚拟与现实相互结合的实用技术。...