1、 研究背景及意义
蛋白质二级结构的预测是生物、数学与计算机交叉领域的课题,进行二级结构预测对于理解蛋白质结构与功能的关系,以及分子设计、生物制药等领域都有重要的现实。随着人类基因组计划的顺利实施,已知氨基酸序列的蛋白质数量成级数增长,目前试验手段主要依靠X射线晶体衍射与核磁共振方法测定蛋白质二级结构,但测定周期较长,导致已测定二级结构的蛋白质数量与已知氨基酸序列的蛋白质数量差距越来越大,要求有一种快速简洁而适用性强的预测蛋白质二级结构的方法。而蛋白质的氨基酸排列顺序决定了它的空间结构,空间结构体现了蛋白质的生理功能,那么就可以从已知序列和结构的蛋白质出发,挖掘出其中的关系,就可以预测出其他已知序列的蛋白质的二级结构。如果准确率达到要求则对于了解生命现象的本质,解释疾病的发生机制,诊断、治疗疾病、设计新药、通过不同生物蛋白质结构研究生物进化、利用其他生物为人类服务等都有着非常重要的意义。综上,蛋白质结构的预测对于蛋白质的研究与应用领域具有很好的推动作用。
2、 预测方法
二级结构预测一直都是学者喜欢研究的问题,研究时间长,目前预测二级结构预测的方法已经有很多,但是在准确率上都达不到所希望的要求,因此无数的人依然为此努力着(1)经验参数法。经验参数法是一种基于单个氨基酸残基统计的经验预测方法。通过统计分析,获得的每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。1970年由Peter Y.Chou和Gerald D.Fasman提出Chou-Fasman方法是预测蛋白质二级结构的经验方法。这种方法基于每个氨基酸在α螺旋的相对频率,测试表,和通过X射线晶体学已知的蛋白质结构。从这些频率、概率参数,可知道每个氨基酸在各个二级结构类型的外观,而这些参数是用来预测某一氨基酸序列将形成一个螺旋,一个测试链,或一个又一个蛋白质的概率的。该方法在确定正确的二级结构准确性约50-60%,这明显比现代机器学习技术的准确性要低。(2)GOR方法。
GOR方法是一种基于信息论和贝叶斯统计学的方法,是统计算法中理论基础最好的。GOR将蛋白质序列当作一连串的信息值来处理,基本原理是将蛋白质的一级结构和二级结构看成一个转化过程的两个相互联系的信息;GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响,而且考虑相邻残基种类对该位置构象的影响。为了避免大量的实验数据,GOR将信息函数分为多项式和的形式。(3)Lim方法-立体化学方法。氨基酸的理化性质对二级结构影响较大,在进行结构预测时考虑氨基酸残基的物理化学性质。立体化学是从三维空间揭示分子的结构和性能。手性分子是立体化学中极其重要的部分之一。同分异构在有机化学中是极为普遍的现象。立体异构是指分子中的原子或基团在空间的排列不同步产生的异构现象。利用不同氨基酸家族的性质差异来进行二级预测。(4)同源分析法。同源分析法是将待预测的片段与数据库中已知二级结构的片段进行相似性比较,利用打分矩阵计算出相似性得分,根据相似性得分以及数据库中的构象态,构建出待预测片段的二级结构。该方法对数据库中同源序列的存在非常敏感,若数据库中有相似性大于30%的序列,则预测准确率可大大上升。(5)BP神经网络算法。在生物信息学研究中,应用得最多的神经网络模型是多层前馈网络模型,这种模型使用最广泛的算法是BP算法,即反向传播算法。它属于有导师学习的算法。这种模型也叫BP神经网络。网络通过对已有氨基酸编码建立序列到结构,结构到结构的两层网络进行学习,预测的准确性上有极大的提高。
3、 方法分析
蛋白质二级结构预测方法是首先预测蛋白质的结构类型,然后再预测二级结构。通过对各个方法的比较可以得到:(1)与传统经典方法相比,利用特征信息提取方法可涵盖序列统计特征、氨基酸物理化学特征、氨基酸片段位置分布三方面的信息,此方法可以较为全面地反映出蛋白质序列中有代表性的特征信息。(2)通过采用有效的特征挑选算法以及分类算法,既有效减少了信息的冗余,又提高了结构类预测模型的准确率。综上,本研究从信息学角度出发,系统地解决蛋白质信息提取、多特征信息组合及结构类预测等信息处理问题,有助于蛋白质的结构及功能研究,同时也对蛋白质序列分析、机器学习领域的发展有很大的帮助。(3)目前普遍使用的,考虑多条序列的方法,运用长程信息和蛋白质序列的进化信息,准确度有了比较大的提高。
4、 结语
由上述的各种方法可以看出有很多方面的因素会影响蛋白质二级结构的预测,如目前已知的蛋白质太少,大部分处于未知阶段。
针对目前的蛋白质数据库资源的贫乏性特点,如何选择适当的预测方法和评估准则将决定蛋白质预测的准确率的高低。因此在选择时应该多种方法综合利用,不仅包括各种预测方法的综合,而且也包括结构实验结果、序列对比结果、蛋白质结构分类预测结果等信息的综合。多个程序同时预测,综合评判得到一致结果;序列比对与二级结构预测;双重预测。对模型进行反复优化,以提高预测的准确率和实际价值。
参考文献:
[1]闫平凡,张长水.人工神经网络语模拟退火计算[M].北京:清华大学出版社,2000.
[2]沈世镒,神经网络系统理论及其应用[M].科学出版社,2000.
[3]唐媛李,春花,蛋白质二级结构的研究进展[J].现代生物医学进展,2013.
[4]杨存荣,孙之荣,模式识别方法预测蛋白质二级结构的研究[N].清华大学学报(自然科学版),第32卷,第1期,1992.
[5]王勇献,蛋白质二级结构预测的模型与方法研究[D].工学博士学位论文.
蛋白质组学研究的主要内容包括在蛋白质水平上大规模地分析组织细胞的蛋白质表达水平、翻译后修饰、蛋白质间的相互作用等,从而揭示蛋白质的功能,已在疫苗筛选、指导治疗、临床药物开发及预后判断等领域发挥了重要作用。...
蛋白质是生命代谢最重要的有机大分子,是细胞功能的主要执行者。生物体内所有的蛋白质都是以信使RNA(mRNA)作为遗传信息的载体通过核糖体合成的,这一过程被称为翻译(translation)。...
绝大多数真核生物的生命活动都离不开氧气,氧气与高等生物体的能量代谢等过程密切相关。氧气分子在代谢中间体、酶和辐射作用下产生活性氧(Reactive oxygen species,ROS),其在正常生理条件下对细胞代谢的调控发挥着至关重要的作用。...
蛋白质组是指一种细胞、组织乃至一种生物所表达的全部蛋白质。相较于传统的蛋白质研究,蛋白质组学可以在大规模水平上一次性鉴定成千上万种蛋白质的表达水平、修饰水平相互作用等,从而揭示蛋白质参与生命活动的作用。...
蛋白质晶体学是研究蛋白质结构与功能关系的重要方法.近年来,同步辐射光源强度的提高和晶体结构解析方法的更新都获得了快速的发展,但是蛋白质的结晶仍然是晶体学中的瓶颈.蛋白质的结晶包括最初的结晶条件的摸索(denovocrystallization...
蜘蛛丝拥有优异的机械和生物学性能,是一种理想的多功能材料。由于蜘蛛自相捕食和产丝量小等,通过驯养蜘蛛获取大量蛛丝纤维的难度较高,因此采用生物技术的方法重组表达蜘蛛丝蛋白成为获取仿生蜘蛛丝纤维的主要途径。到目前为止,在蛛丝仿生领域仍未取得突...
食品风味是消费者选购和接受食品的决定性因素之一,风味取决于多种挥发性成分在顶空中的浓度,阈值等,与温度、挥发性成分的蒸汽压及其他食品组分之间的相互作用有关。目前,风味研究主要集中于风味成分的形成机制,而有关风味成分的释放与感知报...
生物膜主要由磷脂双分子层和镶嵌或附着在其上的蛋白质构成。动物、植物和微生物通常都有一种或多种膜系统。细胞质膜 (质膜) 是最为常见的一种膜系统,负责把细胞质和其他内溶物与周围环境分隔开,并负责与环境交换物质和感受信号。...
自2003年中国人类蛋白质组组织(Chinahumanproteomeorganization,CNHUPO)成立至今,中国的蛋白质组学研究经历了十年多的发展,呈现出百家争鸣、百花齐放的局面.继中国科学家领衔人类肝脏蛋白质组计划(humanliverproteomeproject,HLPP)之后,2014...
随着纳米科技的飞速发展,人们对纳米材料的研究也越来越深入。纳米材料由于其粒径大小的特异性,具有独特的物理及化学性质,例如大的比表面积、量子效应以及界面效应等(Zhuetal.,2012),使其在工业、科学技术及生物医学等领域均有广泛的关注及应用,现...