蛋白质结构分析原理及工具-文献综述

来源：五一七教育网

蛋白质结构分析原理及工具

（南京农业大学生命科学学院生命基地111班）

摘要：本文主要从相似性检测、一级结构、二级结构、三维结构、跨膜域等方面从原理到方法再到工具，系统地介绍了蛋白质结构分析的常用方法。文章侧重于工具的列举，并没有对原理和方法做详细的介绍。文章还列举了蛋白质分析中常用的数据库。关键词：蛋白质；结构预测；跨膜域；保守结构域

1 蛋白质相似性检测

蛋白质数据库。由一个物种分化而来的不同序列倾向于有相似的结构和功能。物种分化

后形成的同源序列称直系同源，它们通常具有相似的功能；由基因复制而来的序列称为旁系同源，它们通常有不同的功能[1]。因此，推测全新蛋白质功能的第一步是将它的序列与进化上相关的已知结构和功能的蛋白质序列比较。表一列出了常用的蛋白质序列数据库和它们的特点。

表一常用蛋白质数据库

数据库蛋白序列数据库 GenPept 说明 Translations of GenBank coding nucleotide entries PIR RefSeq International protein database Curated, non-redundant with expert annotation UniProt/SwissProt UniProt/TrEMBL Reviewed, manually annotated entries Automatically classified and annotated entries 蛋白质分类数据库 CATH Proteins classified based on class, architecture, topology and homology SCOP ProtClustDB Structural classification of proteins Proteins classified based on sequence similarity 蛋白质结构数据库 PDB Resolved 3D biomolecular structures 网址可能有更新

http://www.rcsb.org/pdb http://scop.mrc-lmb.cam.ac.uk/scop http://www.ncbi.nlm.nih.gov/proteinclusters http://www.cathdb.info/ http://www.uniprot.org/help/uniprotkb http://www.uniprot.org/help/uniprotkb http://pir.georgetown.edu/ http://www.ncbi.nlm.nih.gov/RefSeq/ 链接 http://www.ncbi.nlm.nih.gov/Genbank/ 氨基酸替代模型。进化过程中，一种氨基酸残基会有向另一种氨基酸残基变化的倾向。

氨基酸替代模型可用来估计氨基酸替换的速率。目前常用的替代模型有Point Accepted Mutation (PAM)矩阵、BLOck SUbstitution Matrix (BLOSUM)矩阵[2]、JTT模型[3]。

序列相似性搜索工具。序列相似性搜索又分为成对序列相似性搜索和多序列相似性搜索。成对序列相似性搜索通过搜索序列数据库从而找到与查询序列相似的序列。分为局部联配和全局联配。常用的局部联配工具有BLAST和SSEARCH，它们使用了Smith-Waterman算法。全局联配工具有FASTA和GGSEARCH，基于Needleman-Wunsch算法。多序列相似性搜索常用于构建系统发育树，这里不阐述。表二列举了常用的成对序列相似性比对搜索工具

表二成对序列相似性比对搜索工具

工具 BLAST FASTA GGSEARCH 说明 Basic local alignment search tool Global alignment search tool; Global alignment search tool 链接 http://blast.ncbi.nlm.nih.gov/Blast.cgi http://www.ebi.ac.uk/Tools/fasta33/ http://www.ebi.ac.uk/Tools/fasta33/ index.html?program=GGSEARCH SSEARCH-Protein Local alignment search tool against proteins http://www.ebi.ac.uk/Tools/fasta33/ index.html?program=SSEARCH 网址可能有更新

2 蛋白质一级结构分析（含保守结构域）

蛋白质结构的基本信息来源于它的一级结构，分析蛋白质一级结构的第一步是将它们分成其组成部分，然后处理每个部分的结构[4]。这种拆分常常是根据蛋白质具有的相互作用的结构域进行的[5, 6]。蛋白质结构域或蛋白质家族数据库对分析未知蛋白质的功能是很有用的，这些数据库通常被称为“特征数据库（signature databases）”。“基序（Motifs）”通常指没有间隔的多序列队列，通常由10-20个氨基酸构成。一系列基序构成的蛋白质域家族叫做“指纹（fingerprint）”。使用它们的优势是可以检测远距离的序列关系[7]。基序的典型例子是位置加权矩阵（position-specific score matrix，PSSM）。PSSM计算基序中每一位置的分数。任何一个保守位置的信息被缩小到一个叫“序列模式（sequence patterns）”的共同序列结果。“序列谱（sequence profiles）”用来描述一个较长的可能含有有用信息的保守序列片段。它们被用来较大结构域的检测。隐马尔可夫模型（Hidden Markov Models，HMMs）即是一种和序列谱有关的模型。表三列举了主要的蛋白质特征数据库。

表三常用蛋白质特征数据库

数据库 BLOCKS CDD 特征类型 Blocks HMM,MSA 外部来源 Pfam,SMART,COGs,ProtClustDB 网络链接 http://blocks.fhcrc.org/blocks/ http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml Gene3D InterPro HMM Integrated signature types of its member databases CATH Gene3D,PANTHER,Pfam,PIRSF,PRINTS,ProDom,PROSITE,SMART, SUPERFAMLY,TIGRFAMs Pfam PRINTS HMM,MSA Fringerprints UniProtKB,GenPept,metagenomicsdatasets http://pfam.sanger.ac.uk/ http://www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/index.php ProDom UniProtKB,SCOP http://prodom.prabi.fr/prodom/current/html/home.php PROSITE SBASE Patterns,profiles UniProtKB/SWISS-PROT BLOCKS,Pfam,PRINTS,ProDom,PROSITE SMART SUPERFAMILY MSA：多序列比对；CDD：保守结构域数据库 HMM HMM SCOP http://smart.embl.de/ http://supfam.org/SUPERFAMILY/ http://au.expasy.org/prosite/ http://hydra.icgeb.trieste.it/sbase/ http://gene3d.biochem.ucl.ac.uk/Gene3D/ http://www.ebi.ac.uk/interpro/ 值得一提的是，CDD数据库包含了蛋白质保守结构域分析。

上述数据库都有自带的搜索引擎供搜索，它们采用的算法也不尽相同，此处不再列举。

3 蛋白质二级结构分析

蛋白质的二级结构是由氨基酸骨架间的氢键决定的，通常有三种形态，螺旋（H），β链（E）和卷曲（C）。为了从蛋白质原子的结构中获得更多的信息，蛋白质二级结构字典（DPSS)定义了蛋白质二级结构的八种状态：三种螺旋，H (α-helix)、G (310-helix) 和 I (π-helix)，β链两种，E (extended strand in parallel and/or anti-parallel β-strand conformation) 和 B

(β-bridge)，三种卷曲，S (bend)、T (turn) 和 C (coil)。预测二级结构的第一步是搜索PDB数据库寻找与查询蛋白质同源的蛋白质的实验三维结构，例如FDM（Fragment Database Mining）算法首先会对PDB数据库进行搜索。早期的二级结构预测主要基于单个氨基酸的形成结构的倾向，GOR算法采用这种方式，但现在的GOR算法通过贝叶斯统计等方法改进。CDM算法（Consensus Data Mining）结合了FDM和GOR的优势。还有很多方法各有其特点：PSIPRED，PSSM等。更现代的方法利用了最新的机器学习技术例如SVMs（Support Vector Machines）和NNs（Neural Networks）。还有一些方法还考虑了氨基酸残基的相对溶解度（RSA）。表四列举了常用的蛋白质二级结构在线预测工具。

表四蛋白质二级结构在线预测工具

工具 CDM FDM GOR 说明 FDM + GOR PDB mining for structural fragments Information theory, Bayesian statistics, PSSM profiles Jpred PHD PORTER PSIPRED SABLE SSpro HMM and PSSM profiles; NNs; RSA Multiple sequence alignments; NNs PSSM profiles; NNs PSSM profiles; NNs PSSM profiles; NNs; RSA PSSM profiles; NNs and SVMs; RSA; 8-state prediction http://www.compbio.dundee.ac.uk/www-jpred/ http://www.predictprotein.org/ http://distill.ucd.ie/porter/ http://bioinf.cs.ucl.ac.uk/psipred/ http://sable.cchmc.org/ http://www.ics.uci.edu/~baldig/scratch/ 网络链接 http://gor.bb.iastate.edu/cdm/ http://gor.bb.iastate.edu/cdm/ http://gor.bb.iastate.edu/cdm/ 5 蛋白质跨膜结构域分析

跨膜（TM）蛋白跨过整个脂膜[8]，通常被分为两类α-helical TM (AHTM) 和 TM β-barrel (TMB) proteins。AHTM定位在细菌细胞膜的内膜和真核生物的细胞膜上。它们的跨膜区域有极性的环链接而成的α螺旋。对TMB蛋白的了解还不多，它们的跨膜域为反向平行的桶装β链通道[9]。

通过实验的方法（X-ray和NMR等）来决定TM蛋白的结构，相比较于球状蛋白，解析的TM蛋白3D结构非常有限。因此，人们开发了很多的方法用来预测蛋白质的跨膜结构域。这些方法中的大部分都只根据序列来识别跨膜结构。表五列举了常用的在线跨膜结构域预测工具。

表五在线跨膜结构域预测工具

工具 DAS-TMfilter MINNOU PRED-TMMB PRED-TMR 方法 DAS RSA/SS HMM Hydrophobicity profile 预测的结构 AHTM AHTM and TMB TMB AHTM and TMB 网络链接 http://mendel.imp.ac.at/sat/DAS/DAS.html http://minnou.cchmc.org/ http://bioinformatics.biol.uoa.gr/ PRED-TMBB/input.jsp http://athina.biol.uoa.gr/PRED-TMR/input.html SOSUI TMBETA-NET Hydropathy scale Amino acid composition; NNs AHTM TMB http://bp.nuap.nagoya-u.ac.jp/sosui/sosui_submit.html http://psfs.cbrc.jp/tmbeta-net/ TMB-Hunt k-NN algorithm TMB http://bmbpcu36.leeds.ac.uk/~andy/betaBarrel/AACompPred/aaTMB_Hunt.cgi TMMOD HMM profile AHTM http://liao.cis.udel.edu/website/servers/TMMOD/scripts/frame.php?p=submit TSEG Tandem clusters of membrane proteins AHTM and TMB http://www.genome.ad.jp/SIT/tsegdir/ tseg_exe.html 6 蛋白质三维结构分析

蛋白质的三维结构通常比其一级结构更加保守。目前最可靠的蛋白质三维结构预测方法是同源建模法。同源建模通常有三步：1选择模板，2目标模板分析，3三维模型的构建。有些同源建模法专注于同源建模的某些特定步骤，例如CPHmodels和Domain Fishing专注于模板的选择；ESyPred3D和Geno3D专注于目标模板的分析。

SWISS-MODEL是一个高度自动化的同源重组建模综合服务[10]，其他的在线同源重组建模工具如表六所示

表六在线同源重组建模工具

工具 CPHmodels 说明 PSSM profile-based search for templates Domain Fishing ESyPred3D Target-template alignment generated by different programs Geno3D Target-template alignment using PSI-BLAST SWISS-MODEL TASSER-Lite Iterative threading of the PDB for template selection; structure assembly http://cssb.biology.gatech.edu/skolnick/webservice/tasserlite/index.html Integrated service http://swissmodel.expasy.org/workspace/ http://geno3d-pbil.ibcp.fr http://www.fundp.ac.be/sciences/biologie/urbm/bioinfo/esypred/ Domain split http://www.bmm.icnet.uk/servers/3djigsaw/dom_fish 网络链接 http://www.cbs.dtu.dk/services/CPHmodels/ 蛋白质三维结构预测还有其他的方法和工具例如折叠识别法和从头计算法[11]，这里不再列举。

7 结论

本文列举了一系列对生物学有用的蛋白质生物信息学工具，但是，随着越来越多的物种被测序，越来越多的蛋白质功能被注释以及更多的蛋白质三维结构被解析，生物信息学的分析方法会更多，也会更准确。最后只得一提的是，生物性息学分析目前只能作为辅助工具，作为实验前的初步筛选，而其分析结果并不能作为准确的结论，准确结论的得出还有赖于实验的验证。

参考文献：

[1] Fitch WM. Homology - a personal view on some of the problems. Trends Genet 2000;16:227-31.

[2] Henikoff S, Henikoff JG. Amino-Acid Substitution Matrices from Protein Blocks. P Natl Acad Sci USA 1992;:10915-9.

[3] Jones DT, Taylor WR, Thornton JM. The Rapid Generation of Mutation Data Matrices from Protein Sequences. Comput Appl Biosci 1992;8:275-82.

[4] Paliakasis CD, Michalopoulos I, Kossida S. Web-based tools for protein classification. Methods in molecular biology 2008;428:349-67.

[5] Ponting CP, Russell RR. The natural history of protein domains. Annu Rev Bioph Biom 2002;31:45-71.

[6] Holland TA, Veretnik S, Shindyalov IN, Bourne PE. Partitioning protein structures into domains: Why is it so difficult? J Mol Biol 2006;361:562-90.

[7] Attwood TK. The quest to deduce protein function from sequence: the role of pattern databases. Int J Biochem Cell B 2000;32:139-55. [8] Schulz GE. The structure of bacterial outer membrane proteins. Bba-Biomembranes 2002;1565:308-17. [9] Schulz GE. beta-Barrel membrane proteins. Curr Opin Struc Biol 2000;10:443-7.

[10] Kiefer F, Arnold K, Kunzli M, Bordoli L, Schwede T. The SWISS-MODEL Repository and associated resources. Nucleic Acids Res 2009;37:D387-D92.

[11] Pavlopoulou A, Michalopoulos I. State-of-the-art bioinformatics protein structure prediction tools (Review). Int J Mol Med 2011;28:295-310.

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文