Аминокислотные остатки, определяющие специфичность в больших семействах белков тема диссертации и автореферата по ВАК РФ 03.00.03, кандидат физико-математических наук Калинина, Ольга Вячеславовна

  • Калинина, Ольга Вячеславовна
  • кандидат физико-математических науккандидат физико-математических наук
  • 2007, Москва
  • Специальность ВАК РФ03.00.03
  • Количество страниц 126
Калинина, Ольга Вячеславовна. Аминокислотные остатки, определяющие специфичность в больших семействах белков: дис. кандидат физико-математических наук: 03.00.03 - Молекулярная биология. Москва. 2007. 126 с.

Оглавление диссертации кандидат физико-математических наук Калинина, Ольга Вячеславовна

Глава 1. Введение.

1. Актуальность темы.

2. Цель и задачи исследования.

3. Новизна и практическая ценность.

4. Обзор литературы.

Глава 2. Методы.

1. Основные определения и допущения.

2. Новые алгоритмы, разработанные для предсказания СДП и функционально важных сайтов. a. Алгоритм для поиска позиций, определяющих специфичность белка (СДП). b. Алгоритм для предсказания специфичности новых белков на основе c. Алгоритм для предсказания функционально важных сайтов в структуре белка. d. Алгоритм для автоматического выделения групп специфичности.

3. Статистическая оценка качества предсказания.

4. Стандартные программы и ресурсы.

Глава 3. Программа для предсказания позиций, определяющих специфичность белка (СДП), ее тестирование и применение.

1. Общее описание программы.

2. Описание веб-сервера, реализующего алгоритм SDPpred.

3. Тестирование SDPpred на примере семейства бактериальных факторов транскрипции Lacl.

4. Применение SDPpred. a. Предсказание СДП для бактериальных транспортеров семейства MIP. b. Предсказание СДП для бактериальных факторов трансляции RF1 и RF2. c. Предсказание СДП для консервативного домена различных семейств аннексинов позвоночных. d. Предсказание СДП для НАД- и НАДФ-зависимых изоцитрат- и изопропилмалатдегидрогеназ.

Глава 4. Программа для предсказания функциональных сайтов, ее тестирование и применение.

1. Общее описание алгоритма.

2. Описание веб-сервера, реализующего алгоритм SDPsite.

3. Тестирование SDPsite. a. Тестирование SDPsite на примере семейства бактериальных факторов транскрипции LacI. b. Сравнение с другими методами. c. Тестирование SDPsite на базе данных CDD.

4. Применение SDPsite.

Глава 5. Обсуждение.

Глава 6. Выводы.

Рекомендованный список диссертаций по специальности «Молекулярная биология», 03.00.03 шифр ВАК

Введение диссертации (часть автореферата) на тему «Аминокислотные остатки, определяющие специфичность в больших семействах белков»

1. Актуальность темы Изучение функций белков является одной из важнейших задач молекулярной биологии и биохимии. В настоящее время объем расшифрованных белковых последовательностей (полученных путем прямого секвенирования или трансляции известных нуклеотидных последовательностей) во много раз превышает экспериментальные возможности исследования их функций. Поэтому все большую роль начинает играть функциональная аннотация т зШсо - методами биоинформатики. Такая аннотация с необходимостью носит характер предсказания, но может служить важной отправной точкой для дальнейших лабораторных исследований.

Объем информации, накопленной к настоящему времени в базах данных последовательностей, доменов, структур белков, позволяет с достаточной точностью предсказывать общую биохимическую функцию белка - класс транспортера, тип катализируемой реакции и т.п. Однако простой поиск по базе редко позволяет установить функцию с большей точностью или указать на важные функциональные сайты белка. Для этого требуются другие алгоритмы, которые могут дать предсказания, более точные и интересные с биологической точки зрения.

Настоящая диссертация посвящена описанию алгоритмов и анализу результатов работы пакета программ, позволяющего на основании последовательностей родственных белков, различающихся в деталях своей функциональности (специфичности), предсказывать аминокислотные остатки, отвечающие за эти различия, а также проводить с их помощью дальнейший анализ. Так, например, на основе предсказанных остатков можно предсказывать специфичность новых белков семейства и/или функциональные сайты белков (активный центр, поверхность взаимодействия с малыми молекулами, нуклеиновыми кислотами или другими белками). К моменту начала настоящего исследования было опубликовано лишь небольшое число подходов к решению этой задачи, и все они использовали дополнительную информацию об изучаемом белке, а значит, были не универсальны. Кроме того, ни один реализованный алгоритм не находился в свободном доступе. За прошедшие два года объем литературы - как новых алгоритмов, так и сделанных с их помощью предсказаний, в некоторых случаях подтвержденных экспериментально, - многократно возрос, что говорит о возросшем интересе и очевидной практической ценности данного направления.

Однако следует отметить, что описанный в настоящей работе алгоритм предсказания специфичных позиций был одним из первых опубликованных, и первым свободно доступным через Интернет средством для решения поставленной задачи. Разработанные в данной работе программы для предсказания специфичности новых белков и для определения функциональных сайтов в белках являлись на момент написания работы единственными доступными через Интернет средствами для решения таких задач с использованием информации о специфичности.

Похожие диссертационные работы по специальности «Молекулярная биология», 03.00.03 шифр ВАК

Заключение диссертации по теме «Молекулярная биология», Калинина, Ольга Вячеславовна

Результаты работы сценария (4) представлены на рис. 4.2.4.

Cluster - Results

Best cluster for sp|P11244|GLPFECOLI.

Structure file "CRYSTAL STRUCTURE OF THE E. COU GLYCEROL FACILITATOR (GLPF) WITH SUBSTRATE GLYCEROL

SDPs (SDPs not present in the structure omitted): 236PRO, 232TYR, 48TRP, 207ASP, 159LEU, 195GLY, 187ILE, 135PHE, 191GIY, 30ALA, 22ILE

CPs (CPs not present in the structure omitted): 66HIS, 69PRO, 2G4PRO, 240PRO, 89PHE, 17GLY, 25GLY, 27GLY, 68ASN, 96GLY, 176GLY, 184GLY, 203ASN, 243GLY

Best cluster:

1 22ILE

2 48TRP

3 68ASN

4 69PRO

5 135РНЕ

6 1S9LEU

7 187ILE

8 191GLY

9 195GLY

10 203ASN

11 204PRO

12 207ASP

13 232TYR

14 236PRO

Рис. 4.2.4. Результаты картирования СДП и КП на структуру и предсказания лучшего кластера.

На этой странице представлены СДП и остатки, соответствующие им в выбранной структуре; КП и остатки, соответствующие им в выбранной структуре; и остатки, входящие в лучший кластер.

Сценарии работы с сервером SDPsite представлены на рис. 4.2.5.

Сохранение в формате RTF

Рис. 4.2.5. Сценарии работы с сервером SDPsite.

3. Тестирование SDPsite

Алгоритм SDPsite был протестирован на трех примерах.

Во-первых, SDPsite был применен к семейству бактериальных факторов транскрипции Lacl, включающему в себя регуляторы катаболизма различных Сахаров. Для этого семейства имеются обширные данные по специфичности различных белков семейства (Laikova, 2003) и данные о влиянии мутации каждого остатка на функционирование белка (Suckow, et al., 1996). В этом случае результаты применения SDPsite хорошо согласуются с имеющимися данными.

Во-вторых, было проведено сравнение работы SDPsite с другими методами предсказания функционального сайта, описанными в работе (Soyer and Goldstein, 2004). На рассмотренных в этой работе примерах, LacI и субтилизин-подобных протеазах, результаты SDPsite лучше, чем у других методов.

В-третьих, SDPsite был применен к большому количеству семейств из базы данных NCBI CDD (Conserved Domain Database). Эта база данных содержит выравнивания белковых доменов, в которых некоторые позиции помечены как «особенности» ("features") - активный центр, поверхность контакта с лигандом, сайт фосфорелирования и т.п. Мы предполагаем, что эти «особенности» и являются функционально важными позициями. Несмотря на то, что при таком подходе мы неизбежно недооцениваем собственные результаты (неотмеченные «особенностями» позиции также могут быть функционально важными, а набор «особенностей» включает позиции, которые не подходят под определение функционального сайта, такие как сайты фосфорилирования, гликозилирования и т.п.), SDPsite дает удовлетворительные результаты.

Кроме того, SDPsite был применен к большому количеству семейств, для одного из белков которых пространственная структура разрешена в рамках проекта по структурной геномике. Мы выбрали семейства, для которых нет другой структурной информации, мало литературных данных, а значит, положение функциональных сайтов в большинстве случаев неизвестно. Примеры наиболее интересных предсказаний обсуждаются. а. Тестирование SDPsite на примере семейства бактериальных факторов транскрипции LacI

Было рассмотрено выравнивание некоторых регуляторов семейства LacI, содержащее 125 последовательностей, разбитых на следующие группы специфичности, различающиеся типом эффектора и операторной последовательности ДНК: PurR, ScrR, RbsR(EC), GntR, RbsR(PP), GalR, MalR, CytR, CcpA, FruR. Эта группировка получена с помощью анализа геномного контекста, регуляторных сайтов и т.п. методами сравнительной геномики (1л1ко\га, 2003). Эволюционные отношения белков и их разделение на группы представлены на филогенетическом дереве (рис. 4.3.1). Для визуализации предсказаний и нахождения кластеров мы использовали структуру РигК из Е.соИ (идентификатор РОВ 1 ЬсШ).

Рис 4.3.1. Филогенетическое дерево семейства Ьас!

Мы применили ЗОРзйе в двух модификациях: с применением автоматической группировки и с использованием ручной группировки, основанной на анализе методами сравнительной геномики (Ьа1коуа, 2003). Соответствие групп, полученных в обоих случаях показано в табл. 4.3.1. Результаты предсказания показаны в табл. 4.3.11 и на рис. 4.3.2.

Список литературы диссертационного исследования кандидат физико-математических наук Калинина, Ольга Вячеславовна, 2007 год

1. Ahmad, S., Gromiha, M.M. and Sarai, A. (2004) Analysis and prediction of DNA-binding proteins and their binding residues based on composition, sequence and structural information, Bioinformatics, 20,477-486.

2. Ahmad, S. and Sarai, A. (2004) Moment-based prediction of DNA-binding proteins, J. Mol. Biol., 341, 65-71.

3. Ahmad, S. and Sarai, A. (2005) PSSM-based prediction of DNA-binding sites in proteins, BMC Bioinformatics, 6, 33.

4. Altschul, S.F., Madden, T.L., Schaffer, A.A., Zhang, J., Zhang, Z., Miller, W. and Lipman, D.J. (1997) Gapped BLAST and PSI-BLAST: a new generation of protein database search programs., Nucl. Acids Res., 25, 3389-3402.

5. Aytuna, A.S., Gursoy, A. and Keskin, O. (2005) Prediction of protein-protein interactions by combining structure and sequence conservation in protein interfaces, Bioinformatics, 21,28502855.

6. Bell, R.E. and Ben-Tal, N. (2003) In silico identification of functional protein interfaces, Сотр. Funct. Genom., 4,420-423.

7. Caffrey, D.R., Somaroo, S., Hughes, J.D., Mintseris, J. and Huang, E.S. (2004) Are proteinprotein interfaces more conserved in sequence than the rest of the protein surface?, Prot. Sci., 13, 190-202.

8. Casari, G., Sander, C. and Valencia, A. (1995) A method to predict functional residues in proteins, Nat. Struct. Biol., 2,171-178.

9. Chakravarty, S., Hutson, A.M., Estes, M.K. and Prasad, B.V.V. (2005) Evolutionary trace residues in noroviruses: importance in receptor binding, antigenicity, virion assembly and strain diversity, J. Virol, 79, 554-568.

10. Chandonia, J.-M. and Brenner, S.E. (2006) The impact of structural genomics: expectations and outcomes, Science, 311, 347-351.

11. Chung, J.-L., Wang, W. and Bourne, P.E. (2006) Exploiting sequence and structure homologs to identify protein-protein binding sites, Proteins, 62, 630-640.

12. Cushman, I., Bowman, B.R., Sowa, M.E., Lichtarge, O., Quiocho, F.A. and Moore, M.S. (2004) Computational and biochemical identification of a nuclear pore complex binding site on the nuclear transport carrier NTF2, J. Mol. Biol., 344, 303-310.

13. Davis, F.P. and Sali, A. (2005) PIBASE: a comprehensive database of structurally defined protein interfaces, Bioinformatics, 21,1901-1907.

14. Gaucher, E.A., Gu, X., Miyamoto, M.M. and Benner, S.A. (2002) Predicting functional divergence in protein evolution by site-specific rate shifts, Trends in Biochemical Scinces, 27, 315-321.

15. Gerke, V. and Moss, S.E. (2002) Annexins: From structure to function, Physiol. Rev., 83,331371.

16. Glaser, F., Pupko, T., Paz, I., Bell, R.E., Bechor-Shental, D., Martz, E. and Ben-Tal, N. (2003) ConSurf: Indentification of functional regions in proteins by surface-mapping of phylogenetic information, Bioinformatics, 19,163-164.

17. Gogos, A., Jantz, D., Senturker, S., Richardson, D., Dizdaroglu, M. and Clarke, N.D. (2000)

18. Assignment of enzyme substrate specificity by principal component analysis of aligned proteinsequences: An experimental test using DNA glycosylase homologs, Proteins, 40, 98-105.

19. Gu, P., Morgan, D.H., Sattar, M., Xu, X., Wagner, R., Raviscioni, M., Lichtarge, O. and Cooney,

20. A.J. (2005) Evolutionary trace-based peptides identify a novel asymmetric interaction thatmediates oligomerization in nuclear receptors, J. Biol. Chem., 280,31818-31829.

21. Gu, X. and Vander Velden, K. (2002) DIVERGE: phylogeny-based analysis for functionalstructural divergence of a protein family, Bioinformatics, 18, 500-501.

22. Halperin, I., Wolfson, H. and Nussinov, R. (2004) Protein-protein interactions: coupling ofstructurally conserved residues and of hot spots across interfaces. Implications for docking,1. Structure, 12,1027-1038.

23. Hannenhalli, S.S. and Russell, R.B. (2000) Analysis and prediction of functional sub-types from protein sequence alignments, J. Mol. Biol., 303, 61-76.

24. Hendlich, M., Rippmann, F. and Barnickel, G. (1997) LIGSITE: Automatic and efficient detection of potential small molecule-binding sites in proteins, Journal of Molecular Graphics and Modelling, 15,359-363.

25. Henikoff, S. and Henikoff, J. (1992) Amino acid substitution matrices from protein blocks, Proc. Natl. Acad. Sci., 89,10915-10919.

26. Janin, J. (2005) Assessing predictions of protein-protein interaction: The CAPRI experiment, Prot. Sci., 14, 278-283.

27. Jones, S. and Thornton, J.M. (2004) Searching for functional sites in protein structures, Curr. Opin. Chem. Biol., 8, 3-7.

28. Jordan, I.K., Wolf, Y.I. and Koonin, E.V. (2004) Duplicated genes evolve slower than singletons despite the initial rate increase., BMCEvolBiol., 6,22.

29. Kalinina, O.V. and Gelfand, M.S. (2006) Amino acid residues that determine functional specificity of NADP- and NAD-dependent isocitrate and isopropylmalate dehydrogenases, Proteins.

30. Kalinina, O.V., Gelfand, M.S., Mironov, A.A. and Rakhmaninova, A.B. (2003) Amino acid residues forming specific contacts between subunits in tetramers of the membrane channel GlpF, Biophysics, 48, S141-SI45.

31. Khil, P.D., Oblomova, G., Teplyakov, A., Howard, A., Gilliand, G.L. and Camerini-Otero, R.D. (2004) Crystal structure of the Escherichia coli YjiA protein suggests a GTP-dependent regulatory function, Proteins, 54, 371-374.

32. Kinoshita, K. and Nakamura, H. (2005) Identification of the ligand binding sites on the molecular surfaces of proteins, Prot. Sci., 14, 711-718.

33. Ko, J., Murga, L.F., Andre, P., Yang, H., Ondrechen, M.J., Williams, R.J., Agunwamba, A. and Budil, D.E. (2005) Statistical criteria for the identification of protein active sites using theoretical microscopic titration curves, Proteins, 59,183-195.

34. Korkin, D., Davis, F.P. and Sali, A. (2005) Localization of protein-binding sites within families of proteins, Prot. Sci., 14, ??-??

35. Fuctional Genomics, 4, 159-166.1.olios, K., Tavernarakis, N., Hugenholtz, P. and Kyprides, N.C. (2006) The Genome OnLine Database (GOLD) v.2: a monitor of genome projects worldwide, Nucl. Acids Res., 34, D332-D334.

36. Ma, B., Elkayam, T., Wolfson, H. and Nussinov, R. (2003) Protein-protein interactions: structurally conserved residues distinguish between binding sites and exposed protein surfaces, Proc. Natl. Acad. Sci. USA, 100, 5772-5777.

37. Madabushi, S., Gross, A.K., Philippi, A., Meng, E.C., Wensel, T.G. and Lichtarge, O. (2004) Evolutionary trace of G protein-coupled receptors reveals clusters of residues that determine global and class-specific functions, J. Biol. Chem., 27, 8126-8132.

38. Magliery, T.J. and Regan, L. (2005) Sequence variation in ligand binding sites in proteins, BMC Bioinformatics, 6, 240.

39. Mulder, N.J., Apweiler, R., Attwood, T.K., Bairoch, A., Barrell, D., Bateman, A., Binns, D., Biswas, M., Bradley, P., Bork, P. and al., e. (2003) The InterPro Database, 2003 brings increased coverage and new features, Nucl. Acids Res., 31, 315-318.

40. Nemoto, W. and Toh, H. (2005) Prediction of interfaces for oligomerizations of G-protein coupled receptors, Proteins, 58, 644-660.

41. Panchenko, A.R., Kondrashov, F. and Bryant, S. (2004) Prediction of functional sites by analysis of sequence and structure conservation, Prot. Sci., 13, 884-892.

42. Park, H.-S., Nam, S.-H., Lee, J.K., Yoon, C.N., Mannervik, B., Benkovic, S.J. and Kim, H.-S. (2006) Design and evolution of new catalityc activity with an existing protein scaffold, Science, 311,535-538.

43. Quan, X.-J., Denayer, T., Yan, J., Jafar-Nejad, H., Philippi, A., Lichtarge, O., Vleminckx, K. and Hassan, B.A. (2003) Evolution of neural precursor selection: functional divergence of proneural proteins, Development, 131,1679-1689.

44. Russell, R.B., Alber, F., Aloy, P., Davis, F.P., Korkin, D., Pichaud, M., Topf, M. and Sali, A. (2004) A structural perspective on protein-protein interactions, Curr. Opin. Struct. Biol., 14, 313324.

45. Saier Jr, M.H., Tran, C.V. and Barabote, R.D. (2006) TCDB: the transporter classification database for membrane transport protein analyses and information, Nucl. Acids Res., 34, D181-D186.

46. Silberstein, M., Dennis, S., Brown III, L., Kortvelyesi, T., Clodfelter, K. and Vajda, S. (2003) Identification of substrate binding sites in enzymes by computational solvent mapping, J. Mol. Biol., 332,1095-1113.

47. Sjolander, K. (1998) Phylogenetic inference in protein superfamilies: Analysis of SH2 domains. Conference Intelligent Systems for Molecular Biology. 165-174.

48. Soyer, O.S. and Goldstein, R.A. (2004) Predicting functional sites in proteins: site-specific evolutionary models and their application to neurotransmitter transporters, J. Mol. Biol., 339, 227-242.

49. Sui, H., Han, B.G., Lee, J.K., Walian, P. and Jap, B.G. (2001) Structural basis of water-specific transport through the AQP1 water channel, Nature, 414, 872-878.

50. Sutormin, R.A., Rakhmaninova, A.B. and Gelfand, M.S. (2003) BATMAS30 the amino acidsubstitution matrix for alignment of bacterial transporters, Proteins, 51, 85-95.

51. Tawfik, D.S. (2006) Loop grafting and the origin of enzime species, Science, 311,475-476.

52. Thompson, J.D., Gibson, T.J., Plewniak, F., Jeanmougin, F. and Higgins, D.G. (1997) The CLUSTAL X windows interface: Flexible strategies for multiple sequence alignemnt aided by quality analysis tools, Nucl. Acids Res., 25,4876-4882.

53. Whelan, S., de Bakker, P.I.W., Quevillon, E., Rodriguez, N. and Goldman, N. (2006) PANDIT: an evolution-centric database of protein and associated nucleotide domains with inferred trees, Nucl. Acids Res., 34, D327-D331.

54. Whisstock, J.C. and Lesk, A.M. (2003) Prediction of protein function from protein sequence and structure, Q. Rev. Biophys., 36, 307-340.

55. Wilson, D.N., Guevremont, D. and Tate, W.P. (2000) The ribosomal binding and peptidyl-tRNA hydrolysis function of Escherichia coli release factor 2 are linked through residue 246., RNA, 6, 1704-1713.

56. Yao, H., Kristensen, D.M., Mihalek, I., Sowa, M.E., Shaw, C., Kimmel, M., Karvaki, L. and Lichtarge, O. (2003) An accurate, sensitive, and scalable method to identify functional sites in protein structures, J. Mol. Biol., 326,255-261.

57. Yoshikuni, Y., Ferrin, Т.Е. and Keasling, J.D. (2006) Designed divergent evolution of enzyme function, Nature, 440,1078-1082.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.