预测蛋白质二级结构的快速方法,生物化学论文

　　1、研究背景及意义

　　蛋白质二级结构的预测是生物、数学与计算机交叉领域的课题,进行二级结构预测对于理解蛋白质结构与功能的关系,以及分子设计、生物制药等领域都有重要的现实。随着人类基因组计划的顺利实施,已知氨基酸序列的蛋白质数量成级数增长,目前试验手段主要依靠X射线晶体衍射与核磁共振方法测定蛋白质二级结构,但测定周期较长,导致已测定二级结构的蛋白质数量与已知氨基酸序列的蛋白质数量差距越来越大,要求有一种快速简洁而适用性强的预测蛋白质二级结构的方法。而蛋白质的氨基酸排列顺序决定了它的空间结构,空间结构体现了蛋白质的生理功能,那么就可以从已知序列和结构的蛋白质出发,挖掘出其中的关系,就可以预测出其他已知序列的蛋白质的二级结构。如果准确率达到要求则对于了解生命现象的本质,解释疾病的发生机制,诊断、治疗疾病、设计新药、通过不同生物蛋白质结构研究生物进化、利用其他生物为人类服务等都有着非常重要的意义。综上,蛋白质结构的预测对于蛋白质的研究与应用领域具有很好的推动作用。

　　2、预测方法

　　二级结构预测一直都是学者喜欢研究的问题,研究时间长,目前预测二级结构预测的方法已经有很多,但是在准确率上都达不到所希望的要求,因此无数的人依然为此努力着(1)经验参数法。经验参数法是一种基于单个氨基酸残基统计的经验预测方法。通过统计分析,获得的每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。1970年由Peter Y.Chou和Gerald D.Fasman提出Chou-Fasman方法是预测蛋白质二级结构的经验方法。这种方法基于每个氨基酸在α螺旋的相对频率,测试表,和通过X射线晶体学已知的蛋白质结构。从这些频率、概率参数,可知道每个氨基酸在各个二级结构类型的外观,而这些参数是用来预测某一氨基酸序列将形成一个螺旋,一个测试链,或一个又一个蛋白质的概率的。该方法在确定正确的二级结构准确性约50-60%,这明显比现代机器学习技术的准确性要低。(2)GOR方法。

　　GOR方法是一种基于信息论和贝叶斯统计学的方法,是统计算法中理论基础最好的。GOR将蛋白质序列当作一连串的信息值来处理,基本原理是将蛋白质的一级结构和二级结构看成一个转化过程的两个相互联系的信息;GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响,而且考虑相邻残基种类对该位置构象的影响。为了避免大量的实验数据,GOR将信息函数分为多项式和的形式。(3)Lim方法-立体化学方法。氨基酸的理化性质对二级结构影响较大,在进行结构预测时考虑氨基酸残基的物理化学性质。立体化学是从三维空间揭示分子的结构和性能。手性分子是立体化学中极其重要的部分之一。同分异构在有机化学中是极为普遍的现象。立体异构是指分子中的原子或基团在空间的排列不同步产生的异构现象。利用不同氨基酸家族的性质差异来进行二级预测。(4)同源分析法。同源分析法是将待预测的片段与数据库中已知二级结构的片段进行相似性比较,利用打分矩阵计算出相似性得分,根据相似性得分以及数据库中的构象态,构建出待预测片段的二级结构。该方法对数据库中同源序列的存在非常敏感,若数据库中有相似性大于30%的序列,则预测准确率可大大上升。(5)BP神经网络算法。在生物信息学研究中,应用得最多的神经网络模型是多层前馈网络模型,这种模型使用最广泛的算法是BP算法,即反向传播算法。它属于有导师学习的算法。这种模型也叫BP神经网络。网络通过对已有氨基酸编码建立序列到结构,结构到结构的两层网络进行学习,预测的准确性上有极大的提高。

　　3、方法分析

　　蛋白质二级结构预测方法是首先预测蛋白质的结构类型,然后再预测二级结构。通过对各个方法的比较可以得到:(1)与传统经典方法相比,利用特征信息提取方法可涵盖序列统计特征、氨基酸物理化学特征、氨基酸片段位置分布三方面的信息,此方法可以较为全面地反映出蛋白质序列中有代表性的特征信息。(2)通过采用有效的特征挑选算法以及分类算法,既有效减少了信息的冗余,又提高了结构类预测模型的准确率。综上,本研究从信息学角度出发,系统地解决蛋白质信息提取、多特征信息组合及结构类预测等信息处理问题,有助于蛋白质的结构及功能研究,同时也对蛋白质序列分析、机器学习领域的发展有很大的帮助。(3)目前普遍使用的,考虑多条序列的方法,运用长程信息和蛋白质序列的进化信息,准确度有了比较大的提高。

　　4、结语

　　由上述的各种方法可以看出有很多方面的因素会影响蛋白质二级结构的预测,如目前已知的蛋白质太少,大部分处于未知阶段。

　　针对目前的蛋白质数据库资源的贫乏性特点,如何选择适当的预测方法和评估准则将决定蛋白质预测的准确率的高低。因此在选择时应该多种方法综合利用,不仅包括各种预测方法的综合,而且也包括结构实验结果、序列对比结果、蛋白质结构分类预测结果等信息的综合。多个程序同时预测,综合评判得到一致结果;序列比对与二级结构预测;双重预测。对模型进行反复优化,以提高预测的准确率和实际价值。

　　参考文献：
　　[1]闫平凡,张长水.人工神经网络语模拟退火计算[M].北京:清华大学出版社,2000.
　　[2]沈世镒,神经网络系统理论及其应用[M].科学出版社,2000.
　　[3]唐媛李,春花,蛋白质二级结构的研究进展[J].现代生物医学进展,2013.
　　[4]杨存荣,孙之荣,模式识别方法预测蛋白质二级结构的研究[N].清华大学学报(自然科学版),第32卷,第1期,1992.
　　[5]王勇献,蛋白质二级结构预测的模型与方法研究[D].工学博士学位论文．