Classification Modeling and Recognition of Protein Fold Type

LIU Yue, 北京工业大学生命科学与生物工程学院, 北京 100124,School of Life Science and Bioengineering, Beijing University of Technology, Beijing 100124, P. R. China, LI Xiao-Qin, XU Hai-Song, QIAO Hui
2009 Wuli huaxue xuebao  
北京工业大学生命科学与生物工程学院, 北京 100124) 摘要: 蛋白质的氨基酸序列如何决定空间结构是当今生命科学研究中的核心问题之一. 折叠类型反映了蛋白 质核心结构的拓扑模式, 折叠识别是蛋白质序列鄄结构研究的重要内容. 我们以占 Astral1.65 序列数据库中 琢, 茁 和 琢/茁 三类蛋白质总量 41.8%的 36 个无法独立建模的折叠类型为研究对象, 选取其中序列一致性小于 25%的 样本作为训练集, 以均方根偏差(RMSD)为指标分别进行系统聚类, 生成若干折叠子类, 并对各子类建立基于多 结构比对算法(MUSTANG)结构比对的概形隐马尔科夫模型(profile鄄HMM). 将 Astral1.65 中序列一致性小于 95%的 9505 个样本作为检验集,36 个折叠类型的平均识别敏感性为 90%, 特异性为 99%, 马修斯相关系数 (MCC)为 0.95. 结果表明: 对于成员较多, 无法建立统一模型的折叠类型, 基于 RMSD 的系统分类建模均可实现 较高准确率的识别, 为蛋白质折叠识别拓展了新的方法和思路, 为进一步研究奠定了基础. Abstract:
more » ... emechanismofhowproteinaminoacidsequencesdetermineproteinstructureisacoreissuein biology.Theproteinfoldtypereflectsthetopologicalpatternofthestructure忆score.Foldrecognitionisanimportant methodinproteinsequence鄄structureresearch.Thisarticlefocusesonthe36foldtypesthatarenotincorporatedinto theunifiedhiddenMarkovmodel(HMM)modelbutthataccountfor41.8%of 琢, 茁,and 琢/茁 protein忆sintheAstral1.65 sequencedatabase.Thetrainingsetcontainssamplesthathavelessthan25%sequenceidentitywitheachother.We appliedthehierarchicalclusteringmethodaccordingtorootmeansquaredeviation(RMSD)andfoldsubgroupswere generated.Aprofile鄄HMMbasedonamultiplestructuralalignmentalgorithm(MUSTANG)structurealignmentwas thenbuiltforeachsubgroup.Aftertesting9505proteinswithlessthan95%sequenceidentityfromtheAstral1.65 database,theaveragesensitivity,specificityandMatthew忆scorrelationcoefficient(MCC)ofthe36foldtypeswere foundtobe90%,99%and0.95,respectively.TheseresultsshowthatclassificationmodelingaccordingtoRMSDis abletoachieveprecisefoldrecognitionwhileaunifiedHMMcannotbebuiltbecausetherearetoomanyelementsin thetrainingset.Wehavedevelopedanewmethodandnovelideastoenableprofile鄄HMMproteinfoldrecognitionand havelaidthefoundationforfurtherresearch.
doi:10.3866/pku.whxb20091122 fatcat:irrvu7c3hrbbhlyosf3szxv62a