Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат физико-математических наук Ласкин, Андрей Александрович
- Специальность ВАК РФ05.13.18
- Количество страниц 157
Оглавление диссертации кандидат физико-математических наук Ласкин, Андрей Александрович
ВВЕДЕНИЕ.
ГЛАВА 1. ОБЗОР ЛИТЕРАТУРЫ.
§1.1. Математические методы изучения символьных последовательностей.
Сравнение символьных последовательностей методами динамического программирования. Алгоритмы, используемые программами Blast,
Fasta, PSI-Blast.
Применение методов динамического программирования для поиска периодичностей в символьных последовательностях.
Методы преобразования Фурье, применяемые для изучения периодичности символьных последовательностей.
Применение скрытых марковских моделей для поиска периодичностей символьных последовательностей.
Колмогоровская сложность символьных последовательностей.
Расширенное подобие символьных последовательностей.
§1.2. Принципы организации белковых последовательностей.
Первичная и вторичная структуры белковых последовательностей.
Связь между первичной и вторичной структурой.
Белковая глобула и алгоритмы для предсказания ее конформации.
Базы данных белковых последовательностей, мотивов и пространственных структур.
§1.3. Основы эволюции аминокислотных последовательностей.
ГЛАВА 2. ПОСТАНОВКА ЗАДАЧИ.
ГЛАВА 3. МАТЕМАТИЧЕСКИЕ МЕТОДЫ И АЛГОРИТМЫ.
§3.1. Информационное разложение символьных последовательностей.
§3.2. Циклическое выравнивание символьных последовательностей.
Циклическое выравнивание.
Профили и циклические профили.
Циклическое профильное выравнивание.
Поиск скрытой периодичности с помощью циклического профильного выравнивания.
Теорема об основном свойстве циклического выравнивания.
Оптимизированные алгоритмы для поиска циклического выравнивания.
§3.3. Статистика выравниваний.
§3.4. Итеративное сканирование и разложение шума.
ГЛАВА 4. РЕЗУЛЬТАТЫ.
§ 4.1. База данных аминокислотных последовательностей со скрытой периодичностью. Программный комплекс для итеративного профильного анализа.
§ 4.2. Скрытая периодичность ЫАО(+)-связывающих доменов.
§ 4.3. Скрытая периодичность активных центров протеинкиназ.
§ 4.4. Скрытая периодичность белков различного функционального назначения.
ГЛАВА 5. ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ.
§5.1. Сравнение результатов, полученных примененными в настоящей работе методами, с результатами, полученными методами поиска по гомологии и преобразования Фурье.
§5.2. Связь скрытой периодичности с пространственной структурой белков.
§5.3. Возможное эволюционное значение периодического строения аминокислотных последовательностей.
Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Применение метода информационного разложения символьных последовательностей для изучения генетических текстов2002 год, кандидат физико-математических наук Руденко, Валентина Михайловна
Разработка алгоритмов и программ для изучения регулярного строения последовательностей ДНК2008 год, кандидат физико-математических наук Шеленков, Андрей Александрович
Банк образов белковых семейств Prof-pat для быстрой идентификации аминокислотных последовательностей2007 год, кандидат биологических наук Низоленко, Лилия Филипповна
Алгоритмы сравнительного анализа первичных структур биополимеров2009 год, доктор физико-математических наук Ройтберг, Михаил Абрамович
О достоверности процедуры выравнивания первичных структур биополимеров2008 год, кандидат физико-математических наук Поляновский, Валерий Олегович
Введение диссертации (часть автореферата) на тему «Методы циклического выравнивания и разложения шума для поиска скрытой периодичности в белковых семействах»
С началом нового тысячелетия основные надежды человечества на научный прогресс связаны с молекулярной биологией. От представителей данной науки небезосновательно ждут достижения таких значительных результатов, как клонирование организмов, направленное создание лекарств от наследственных и иных заболеваний, создание искусственных организмов, обладающих требуемыми свойствами, и продление человеческой жизни. Недавно были получены важные промежуточные результаты на этом пути -расшифрованы генетические последовательности человека (Venter et al., 2001), а также многих модельных организмов (Adams et al., 2000; Blattner et al., 1997; Mewes et al., 1997), ведутся дальнейшие работы в этой области.
Специфика биологического знания такова, что здесь мы имеем дело с огромными (и все возрастающими) объемами информации; поэтому ее развитие было в значительной мере подстегнуто развитием компьютерной техники, способной вместить и обработать такие объемы, а также компьютерных сетей, благодаря которым появилась возможность оперативного доступа к ней из любой точки. Разнообразие биологической информации привело к тому, что количество одних только бесплатно доступных через Интернет баз данных достигло 548 и продолжает расти (Galperin, 2004). При этом обьем одного только банка нуклеотидных последовательностей Genbank составляет 37.9 миллиарда нуклеотидов в 32.5 миллионах последовательностей, и это число продолжает расти, удваиваясь при этом в среднем каждые 15 месяцев (Benson et al., 2003).
Однако применение вычислительных систем в молекулярной биологии не ограничивается лишь накоплением экспериментально полученной информации и обеспечением доступа к ней. Большое значение имеет также развитие и применение математических методов и алгоритмов, направленных на извлечение биологически значимой информации из имеющихся генетических последовательностей и других элементов данных. Какая же информация может быть извлечена из символьной последовательности с помощью разработанных к настоящему времени математических подходов? Ответ на этот вопрос определяет возможность получения биологически значимой информации из генетических текстов, понимание процессов эволюции генов и эволюционных перестроек геномов, а также создание динамической модели клеточной регуляции и искусственных белков с заранее заданными свойствами.
Одним из способов изучения организации символьной последовательности является исследование ее периодичности. Изучение периодичности символьной последовательности может иметь вполне очевидный биологический смысл, так как множественные тандемные дупликации фрагментов ДНК с последующими заменами оснований, а также вставками и делециями символов могли бы служить основой для эволюции генов и геномов. Обнаружение периодичности в активных центрах ферментов могло бы показывать, что в прошлом гены, кодирующие эти белки, могли бы быть созданы простым повторением сравнительно коротких фрагментов ДНК. Мы также можем предполагать, что такая периодическая структура аминокислотных последовательностей активных сайтов белков может иметь значение для стабилизации конформации белковой глобулы.
Для обнаружения повторов и периодичностей разработаны и обычно используются математические методы, основанные на динамическом программировании или преобразовании Фурье. В данной диссертационной работе для этих целей развивается собственный математический подход к поиску периодичности, который основан на Информационном Разложении (ИР) символьных последовательностей. Основная идея этого подхода заключается в том, что информационное содержание любой символьной / последовательности может быть разложено на взаимно непересекающиеся составные части. Каждая из этих частей представляет собой взаимную информацию между исследуемой символьной последовательностью и искусственной периодической последовательностью с определенной длиной t периода. Зависимость взаимной информации от длины периода может быть представлена в виде графика, который является информационным аналогом автокорреляционной функции, но имеет свои особые свойства. Информационное разложение позволяет обойти некоторые ограничения, которые свойственны динамическому программированию и преобразованию Фурье, и позволяет обнаружить так называемую скрытую периодичность, т.е. периодичность, которую другие развитые в настоящее время математические методы обнаружить не могут.
Однако, подобно преобразованию Фурье, метод информационного разложения в его настоящем виде не способен найти статистически значимую скрытую периодичность в присутствии множественных вставок и делеций символов. Это может привести к тому, что значительная часть скрытой периодичности, которую можно было бы найти в аминокислотных и нуклеотидных последовательностях, остается в настоящее время незамеченной, как методом информационного разложения, так и всеми другими применяемыми алгоритмами и подходами. В этом случае простейшим способом выявления скрытой периодичности со вставками и делециями символов является комбинация информационного разложения и модифицированного профильного анализа. В такой комбинации метод информационного разложения может служить для изначального обнаружения скрытой периодичности и для построения матрицы скрытой периодичности, из которой может быть получена матрица весов аминокислот в каждой позиции периода. После этого модифицированный профильный анализ позволяет выявить скрытую периодичность согласно этой матрице весов во множестве последовательностей из банка данных, такого как Swiss-Prot, но уже в присутствии вставок и делеций. Эти результаты применения модифицированного профильного анализа в свою очередь могут быть использованы для переопределения исходной весовой матрицы с целью улучшения чувствительности и специфичности поиска скрытой периодичности.
Первой целью настоящей диссертационной работы было развитие математических методов Разложения Шума и Циклического Выравнивания. У многих белков из известных белковых семейств тандемная периодичность нарушается присутствием вставок и делеций символов, так что только циклическое выравнивание дает возможность выявить скрытую периодичность в присутствии довольно значительного числа вставок и делеций символов. Методы Разложения Шума и Циклического Выравнивания позволяют также сделать различие между различными видами скрытой периодичности с одной и той же длиной периода. В данной диссертационной работе продемонстрировано, что применяемые алгоритмы способны различить даже столь близкие виды скрытой периодичности как те, что были обнаружены у серин-треониновых и тирозиновых протеинкиназ.
Вторая цель настоящей диссертационной работы состоит в том, чтобы показать, что скрытая периодичность различной длины и различного вида (задаваемого матрицей периодичности) присутствует во множестве белковых семейств. Для этого мы применили методы Информационного Разложения и Циклического Выравнивания к ряду белковых семейств, аннотированных в Swiss-Prot. В диссертационной работе приведено обсуждение этих результатов и выдвинуто предположение, что скрытая периодичность может отражать происхождение белков посредством множественных тандемных дупликаций в ходе эволюционного процесса.
Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Потенциальные функции для анализа сигналов и символьных последовательностей разной длины2009 год, кандидат физико-математических наук Сулимова, Валентина Вячеславовна
Компьютерный анализ координированных замен аминокислот в семействах гомологичных белковых последовательностей2002 год, кандидат биологических наук Афонников, Дмитрий Аркадьевич
Компьютерный анализ закономерностей кодирования функциональных сайтов белков в генах позвоночных2014 год, кандидат наук Медведева, Ирина Вадимовна
Характеристика новых бета-пропеллерных белковых доменов, гомологичных фолдону фибритина бактериофага Т42008 год, кандидат биологических наук Латыпов, Олег Рустамович
Получение и структурно-функциональный анализ актинопоринов мультигенных Hct-A и Hct-S семейств актинии Heteractis crispa2012 год, кандидат биологических наук Ткачева, Екатерина Сергеевна
Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Ласкин, Андрей Александрович
Результаты исследования NAD-связывающих сайтов с помощью периодических матриц длиной 19 и 24 аминокислоты приведены в таблице 4.1:
Всего в Swiss-Prot 39 Период 19 Период 24
Все белки 80000 (взято за 100%) 1121 (1.4%) 2196 (2.7%)
Ьелки, связывающиеся с NAD и его аналогами (согласно ключевым словам) 3454 (взято за 100%) 367 (П%) 1330 (38.5%)
Белки с обозначенными 838 212 402 местами связывания NAD и (взято за 100%) (25%) (48%) его аналогов
Заключение.
В представленной диссертационной работе разработаны математические методы Разложения Шума и Циклического Выравнивания. Необходимость их разработки и применения обусловлена тем, что у многих белков из известных белковых семейств тандемная периодичность нарушается присутствием вставок и делеций символов, так что только циклическое выравнивание дает возможность выявить скрытую периодичность в присутствии довольно значительного числа вставок и делеций символов.
В ходе исследования на конкретных примерах продемонстрировано, что методы Разложения Шума и Циклического Выравнивания позволяют также сделать различие между различными видами скрытой периодичности с одной и той же длиной периода. Применяемые алгоритмы способны различить даже столь близкие виды скрытой периодичности как те, что были обнаружены у серин-треониновых и тирозиновых протеинкиназ.
Разработанные алгоритмы обнаружения скрытой периодичности в генетических последовательностях были реализованы в виде программного комплекса. Кроме инструментов для выявления периодичности, этот комплекс также содержит инструменты для работы с найденными типами периодичности и соотнесения определенных типов периодичности со структурными и функциональными особенностями белков. При программной реализации алгоритмов производилась оптимизация времени выполнения расчетов, была обеспечена возможность пуска наиболее ресурсоемких задач комплекса на суперкомпьютере кластерного типа, а также разработаны унифицированные форматы данных по периодичности с целью быстрого осуществления поисковых запросов и добавления новых функциональных возможностей к комплексу.
В результате проведенной классификации случаев скрытой периодичности белковых последовательностей были изучены и систематизированы накопленные данные о периодичности, что позволило впервые сделать вывод о том, что в ряде практически важных случаев скрытая периодичность свойственна не отдельным белкам, а целым белковым семействам и доменам.
Последующее применение методов Циклического Выравнивания и Разложения Шума позволило подтвердить это предположение и открыть несколько десятков семейств со скрытой периодичностью, в которых она обнаруживается не менее чем в 80% аннотированных последовательностей данных семейств. Примененные методы позволяют исследовать тонкую структуру генетических текстов на уровне, недостижимом с помощью других методов.
Исследована связь скрытой периодичности со строением белков, в частности, с супервторичной структурой укладок Россмана и других нуклеотид-связывающих сайтов, а также с расположением каталитически активных аминокислотных остатков на поверхности белков. Полученные результаты свидетельствуют в пользу происхождения белков и доменов путем множественных дупликаций древних протобелковых структур размером 12-30 аминокислотных остатков, предположения о котором были ранее независимо выдвинуты другими исследователями на основе данных об эволюции и экзон-интронной структуре белков.
Все предложенные и реализованные в рамках данной диссертационной работы алгоритмы обработки и анализа аминокислотных последовательностей могут быть обобщены на случай последовательностей ДНК и элементов вторичных структур, а также негенетических символьных последовательностей произвольного типа. Также некоторые из этих методов могут быть применены для повышения эффективности классического профильного анализа.
Список литературы диссертационного исследования кандидат физико-математических наук Ласкин, Андрей Александрович, 2005 год
1. Adams M.D., Celniker S.E., Holt R.A., Evans C.A., Gocayne J.D., Amanatides P.G., Scherer S.E., Li P.W., Hoskins R.A., Galle R.F. et al. The Genome Sequence of Drosophila melanogaster. // Science 2000, 287:2185-2195
2. Altschul S.F. and Koonin E.V. Iterated profile searches with PSI-BLAST~a tool for discovery in protein databases. // Trends Biochem. Sci. 1998, 23:444-7.
3. Altschul S.F., Gish W., Miller W., Myers E.W., Lipman D.J. Basic local alignment search tool. // J Mol Biol 1990, 215:403-410.
4. Altschul S.F., Madden T.L., Schaffer A.A., Zhang J., Zhang Z., Miller W., Lipman D.J. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. // Nucleic Acids Res. 1997, 25:3389-402.
5. Andrade M.A., Ponting C.P., Gibson T.J., Bork P. Homology-based Method for Identification of Protein Repeats Using Statistical Significance Estimates. // J. Mol. Biol 2000, 298:521-537
6. Bacro J.N. and Comet J.P. Sequence alignment: an approximation law for the Z-value with applications to databank scanning. // Comput. Chem. 2001, 25(4):401-10.
7. Bairoch A., Boeckmann В., Ferro S., Gasteiger E. Swiss-Prot: Juggling between evolution and stability. // Brief. Bioinform. 5:39-55(2004).
8. Baker P.J., Britton K.L., Rice D.W., Rob A., Stillman T.J. Structural consequences of sequence paterns in the fingerprint region of the nucleotide binding fold .//J. Mol. Biol. 1992, 228:662-671
9. Baldi P., Brunak S., Chauvin Y., Krogh A. Naturally occurring nucleosome positioning signals in human exons and introns. // J Mol Biol 1996, 263:50310.
10. Bateman A., Coin L., Durbin R., Finn R.D., Hollich V., Griffiths-Jones S., Khanna A., Marshall M., Moxon S., Sonnhammer E.L., Studholme D.J., Yeats C.,
11. Eddy S.R. The Pfam protein families database. // Nucleic Acids Res 2004, 32:D138-41.
12. Bates P.A., Kelley L.A., MacCallum R.M., Sternberg M.J.E. Enhancement of Protein Modelling by Human Intervention in Applying the Automatic Programs 3D-JIGSAW and 3D-PSSM. // Proteins 2001, Suppl 5:39-46.
13. Bellamacina C.R. The nicotinamide inucleotide binding motif : a comparison of nucleotide binding proteins. // FASEB J. 1996, 10:1257-1269
14. Benson D.A., Karsch-Mizrachi I., Lipman D.J., Ostell J. and Wheeler D.L. GenBank. // Nucleic Acids Res 2003, 31:23-27
15. Benson G. and Waterman M.S. A method for fast database search for all k-nucleotide repeats. //Nucl. Acids Res. 1994, 22:4828-4836
16. Benson G. Sequence alignment with tandem duplication. // J Comput Biol 1997, 4:351-367.
17. Benson G. Tandem cyclic alignment. // In Proceedings of the 12th annual Symposium on Combinatorial Pattern Matching, Eds. Amir A., Landau G.M., Lecture Notes in Computer Science volume 2089, Springer-Verlag 2001, pp. 118-130.
18. Benson G. Tandem repeats finder: a program to analyze DNA sequences. // Nucleic Acids Res 1999,27:573-580.
19. Berman H.M., Westbrook J., Feng Z., Gilliland G., Bhat T.N., Weissig H., Shindyalov I.N., Bourne P.E. The Protein Data Bank. // Nucleic Acids Res 2000, 28:235-42.
20. Bleasby A.J., Akrigg D., Attwood Т.К. OWL a non-redundant composite protein sequence database. //Nucleic Acids Res 1994, 22:3574-7.
21. Bork P. Hundreds of ankyrin-like repeats in functionally diverse proteins: Mobile modules that cross phyla horizontally? // Proteins Struct Funct Genet 1993, 17: 363-374.
22. Bornberg-Bauer E., Rivals E., Vingron M. Computational approaches to identify leucine zippers. // Nucleic Acids Res 1998,26(11):2740-2746
23. Brakoulias A. and Jackson R.M. Towards a structural classification of phosphate binding sites in protein-nucleotide complexes: an automated all-against-all structural comparison using geometric matching. // Proteins 2004, 56:25060.
24. Brenner S.E., Chothia C., Hubbard T.I.P., Murzin A.G. SCOP : a structural classification of proteins database for the investigation of sequences and structures. III. Mol. Biol. 1995, 247:536-540
25. Bujnicki J.M., Elofsson A., Fischer D., Rychlewski L. Structure prediction meta server. // Bioinformatics 2001, 17:750-1.
26. Bystroff C., Thorsson V., Baker D. HMMSTR: a hidden Markov model for local sequence-structure correlations in proteins. // J Mol Biol. 2000, 301:173-90.
27. Cairns J., Overbaugh J., Miller S. The origin of mutant. // Nature 1988, 335:142146.
28. Cappello V., Tramontano A., Koch U. Classification of proteins based on the properties of the ligand-binding site: the case of adenine-binding proteins. Proteins 2002,47:106-15.
29. Chaley M.B., Korotkov E.V., Kudryashov N.A. Latent Periodicity of 21 bases TypicaL for MCP II Gene is Widely Present in Various Bacterial Genes. DNA Seq 2003, 14:37-52.
30. Chaley M.B., Korotkov E.V., Skryabin K.G. Method revealing latent periodicity of the nucleotide sequences for a case of small samples. // DNA Res. 1999, 6:153-163
31. Coward E. and Drablos F. Detecting periodic patterns in biological sequences. //
32. Efimov A.V. Complementary packing of alpha-helices in proteins. // FEBS Lett 1999, 463:3-6.
33. Eigen M. and Winkler-Oswatitsch R. Transfer-RNA: the early adaptor. // Naturwissenschaften 1981, 68:217-228.
34. Elder D. Split gene origin and periodic introns. // J Theor Biol 2000, 207:455-72.
35. Engelman D.M., Steitz T.A. and Goldman A. Identifying Nonpolar Transbilayer Helices in Amino Acid Sequences of Membrane Proteins. // Ann Rev Biophys Biophys Chem 1986,15:321-353.
36. Feldman H.J. and Hogue C.W.V. A Fast Method to Sample Real Protein Conformational Space. // Proteins 2000, 39:112-131.
37. Fjellstorm O., Olausson Т., Ни X., Kallebring В., Ahmad S., Bragg P.D., Rydstrom J. Three-dimensional structure prediction of the NAD-binding site of proton-pumping transhydrogenase from Escherichia Coli. // Proteins 1995,2:91-104.
38. Galperin M.Y. The Molecular Biology Database Collection: 2004 update. // Nucleic Acids Res 2004, 32:D3-D22.
39. Geisow M.J. and Roberts R.D.B. Amino acid preferences for secondary structure vary with protein class. // Int. J. Biol. Macromol. 1980, 2:387-389.
40. George R.A. and Heringa J. The REPRO server: finding protein internal sequence repeats through the Web. // Trends Biochem Sci 2000, 25:515-517.
41. Gerlt J.A. and Babbitt P.C. Barrels in pieces? // Nat Struct Biol 2001, 8:5-7.
42. Goldsmith E.J. and Cobb M.H. Protein kinases. // Curr Opin Struct Biol 1994, 4:833-40.
43. Gotoh О. An improved algorithm for matching biological sequences. // J Mol Biol 1982, 162:705-708.
44. Grantham R. Amino acid difference formula to help explain protein evolution. // Science 1974,185:862-864.
45. Gribskov M. and Robinson N.L. Use of receiver operating characteristic (ROC) analysis to evaluate sequence matching. // Comp Chem 1996, 20:25-33.
46. Gribskov M., McLachlan A.D., Eisenberg D. Profile analysis: detection of distantly related proteins. // Proc Natl Acad Sci USA 1987, 84:4355-8.
47. Grigoriev I.V. and Kim S.H. Detection of protein fold similarity based on correlation of amino acid properties. // Proc Natl Acad Sci USA 1999, 96:14318-23.
48. Hanks S.K., Quinn A.M., Hunter T. The protein kinase family: conserved features and deduced phylogeny of the catalytic domains. // Science 1988, 241(4861):42-52.
49. Heger A. and Holm L. Rapid automatic detection and alignment of repeats in protein sequences. //Proteins 2000, 41:224-37.
50. Henikoff S. and Henikkof J.G. Embedding strategies for effective use of information from multiple sequence alignments. // Protein Sci 1997, 6:698705.
51. Heringa J. and Argos P. A method to recognize distant repeats in protein sequences.//Proteins 1993, 17:391-411.
52. Heringa J. The evolution and recognition of protein sequence repeats. // Comp Chem 1994,17:233-243.
53. Horwich A.L., Weber-Ban E.U., Finley D. Chaperone rings in protein folding and degradation. // Proc Natl Acad Sci USA 1999, 96:11033-40.
54. Hulo N., Sigrist C.J., Le Saux V., Langendijk-Genevaux P.S., Bordoli L., Gattiker A., De Castro E., Bucher P., Bairoch A. Recent improvements to the PROSITE database. // Nucleic Acids Res 2004, D134-7.
55. Hung L.H. and Samudrala R. PROTINFO: Secondary and tertiary protein structure prediction. // Nucleic Acids Res. 2003, 31:3296-9.
56. Hunter T. Protein kinase classification. // Methods Enzymol 1991,200:3-37
57. Jones D.T. Protein secondary structure prediction based on position-specific scoring matrices. // J Mol Biol 1999, 292:195-202.
58. Jones D.T., Taylor W.R., Thornton J.M. The rapid generation of mutation data matrices from protein sequences. // CABIOS 1992, 8:275-282
59. Jones, D.T. THREADER: Protein Sequence Threading by Double Dynamic Programming. // In: Computational Methods in Molecular Biology. Steven Salzberg, David Searls, and Simon Kasif, eds. Elsevier Science 1998, Chapter 13.
60. Junker V.L., Apweiler R., Bairoch A. Representation of functional information in the SWISS-PROT data bank. // Bioinformatics 1999,15:1066-7.
61. Jurka J. Repeats in genomic DNA: mining and meaning. // Curr Opin Struct Biol 1998,8:333-337.
62. Jurnak F., Yoder M.D., Pickersgill R., Jenkins J. Parallel beta-domains: a new fold in protein structures. // Curr Opin Struct Biol 1994, 4(6):802-6.
63. Kajava A.V. Structural diversity of leucine-rich repeat proteins. // J Mol Biol 1998, 277:519-527.
64. Karlin S. and Altschul S.F. Applications and statistics for multiple high-scoring segments in molecular sequences. // Proc Natl Acad Sci USA 1990, 90:5873-5877.
65. Karlin S., Dembo A., Kawabata T. Statistical composition of high-scoring segments from molecular sequences. // Ann Stat 1990, 18:571-581.
66. Karplus K., Karchin R., Draper J., Casper J., Mandel-Gutfreund Y., Diekhans M., Hughey R. Combining local-structure, fold-recognition, and new fold methods for protein structure prediction. //Proteins 2003, 53 Suppl 6:491-6.
67. Katti M.V., Sami-Subbu R., Ranjekar P.K., Gupta V.S. Amino acid repeat patterns in protein sequences: their diversity and structural-functional implications. // Protein Sci 2000,9:1203-9.
68. Kawashima S., Ogata H., Kanehisa M. AAindex: amino acid index database. // Nucleic Acids Res. 1999, 27:368-369.
69. Kidera A., Konishi Y., Oka M., Ooi Т., Scheraga H. A. Statistical analysis of the physical properties of the 20 naturally occurring amino acids. // J Protein Chem 1985,4:23-54
70. Klaerr-Blanchard M., Chiapello H., Coward E. Detecting localized repeats in genomic sequences: a new strategy and its application to Bacillus subtilis and Arabidopsis thaliana sequences. // Comp Chem 2000, 24:57-70.
71. Knarr G., Gething M.J., Modrow S., Buchner J. BiP binding sequences in antibodies. // J Biol Chem 1995, 270:27589-94.
72. Knarr G., Modrow S., Todd A., Gething M.J., Buchner J. BiP-binding sequences in HIV gpl60. Implications for the binding specificity of bip. J Biol Chem 1999, 274:29850-7.
73. Koehl P. and Levitt M. Protein topology and stability define the space of allowed sequences. // Proc Natl Acad USA 2002, 99:1280-1285.
74. Koehl P. Protein structure similarities. // Curr Opin Struct Biol 2001, 11:348-353.
75. Korotkov E.V. and Korotkova M.A. DNA regions with latent periodicity in some human clones. // DNA Seq 1995, 5:353-358.
76. Korotkov E.V. and Korotkova M.A. Enlarged similarity of nucleic acid sequences. // DNA Res 1996, 3:157-164.
77. Korotkov E.V., Korotkova M.A., Kudryshov N.A. Information decomposition of symbolic sequences. // Phys Let A, 2003, 312:198-210.
78. Korotkov E.V., Korotkova M.A., Rudenko V.M., Skryabin K.G. Latent periodicity regions in amino acid sequences. // Mol Biol 1999, 33:611-617.
79. Korotkova M.A., Korotkov E.V., Rudenko V.M. Latent periodicity of protein sequences. //JMol Model 1999, 5:103-115.
80. Kubota Y, Takahashi S, Nishikawa K, Ooi T. Homology in protein sequences expressed by correlation coefficients. // J. Theor. Biol. 1981,91(2):347-61
81. Kullback S. Information theory and statistics. // London, John Wiley & Sons Inc, 1959.
82. M., Badger J.H., Chen X., Kwong S., Kearney P., Zhang H. An information-based sequence distance and its application to whole mitochondrial genome phylogeny. // Bioinformatics 2001, 17:149-54.
83. W. and Kaneko K. DNA correlations. // Nature 1992,360:635-6.
84. W., Jaroszewski L., Godzik A. Clustering of highly homologous sequences to reduce the size of large protein databases. // Bioinformatics 2001, 17:282-3.
85. Conte L., Brenner S.E., Hubbard T.J.P., Chothia C., Murzin A. SCOP database in 2002: refinements accommodate structural genomics. Nucleic Acids Res. 2002, 30:264-267.
86. Makeev V.Y., Frank G.K., Tumanyan V.G. Statistics of periodic patterns in the sequences of human introns. // Biophysics 1996, 41:263-268.
87. Marcotte E.M., Pellegrini M., Yeates Т.О., Eisenberg D. A census of protein repeats. // J Mol Biol 1999, 293:151-160.
88. McKie J.H. and Douglas K.T. Evidence for gene duplication forming similar binding folds for NAD(P)H and FAD in pyridine nucleotide-dependent flavoenzymes. // FEBS Lett 1991, 279:5-8.
89. McLachlan A.D. Analysis of periodic patterns in amino acid sequences: collagen. // Biopolymers 1977, 16:1271-97.
90. Mewes H.W., Albermann K., Bahr M., Frishman D., Gleissner A., Hani J., Heumann K., Kleine K., Maierl A., Oliver S.G., Pfeiffer F., Zollner A. Overview of the yeast genome. // Nature 1997, 387(6632 Suppl):7-65
91. Michelson A.M., Blake C.C., Evans S.T., Orkin S.H. Structure of the human phosphoglycerate kinase gene and the intron-mediated evolution and dispersal of the nucleotide-binding domain. // Proc Natl Acad Sci USA 1985, 82:6965-9.
92. Miller W. and Myers E. Approximate matching of regular expressions. // Bull Math Biol 1989,51:5-37.
93. Monne M., Hermansson M. and von Heijne G. A turn propensity scale for transmembrane helices. // J Mol Biol 1999, 288:141-145
94. Mott R. Accurate formula for P-values of gapped local sequence and profile alignments. // J Mol Biol 2000, 300:649-59.
95. Mott R. and Tribe R. Approximate statistics of gapped alignments. // J Comput Biol 1999,6:91-112.
96. Mulder N.J., Apweiler R., Attwood Т.К., Bairoch A., Barrell D., Bateman A., Binns D., Biswas M., Bradley P., Bork P., Bucher P., Copley R.R.,
97. Muller W.E., Kruse M., Blumbach В., Skorokhod A., Muller I.M. Gene structure and function of tyrosine kinases in the marine sponge Geodia cydonium: autapomorphic characters in Metazoa. // Gene 1999, 23 8(1): 179-93.
98. Nakashima H., Nishikawa K., Ooi T. Distinct character in hydrophobicity of amino acid composition of mitochondrial proteins. // Proteins 1990, 8:173-178 .
99. Needleman S.B. and Wunsch C.D. A general method applicable to the search for similarities in the amino acid sequence of two proteins. // J Mol Biol 1970, 48:443-453.
100. Neuwald A.F. and Poleksic A. PSI-BLAST searches using hidden Markov models of structural repeats : prediction of unusual sliding DNA clamp and of beta-propellers in UV-damaged DNA-binding protein. // Nucleic Acids Res. 2000, 28:3570-3580.
101. Ohno S. Evolution by gene duplication. // Springer-Verlag, Berlin, 1970.
102. Ohno S. Repeats of base oligomers as the primordial coding sequences of the primeval earth and their vestiges in modern genes. // J. Mol. Evol. 1984, 20:313-321.
103. Ohno S., Epplen J.T. The primitive code and repeats of base oligomers as the primordial protein-encoding sequence. // Proc. Natl. Acad. Sci. USA 1983, 80:3391-3395.
104. Orengo C.A., Michie A.D., Jones S., Jones D.T., Swindells M.B., Thornton J.M. CATH — A Hierarchic Classification of Protein Domain Structures. // Structure 1997,5:1093-1108.
105. Palau J., Argos P., Puigdomenech P. Protein secondary structure. // Int J Peptide Protein Res 1981,19:394-401.
106. Patthy L. Detecting homology of distantly related proteins with consensus sequences. IIJ Mol Biol 1987, 198:567-577.
107. Pearson W.R. and Lipman D.J. Improved tools for biological sequence comparison. // Proc Nat Acad Sci USA 1988, 85:2444-2448.
108. Pellegrini M. and Yeates Т.О. Searching for frameshift evolutionary relationships between protein sequence families. // Proteins 1999, 37:278-83
109. Ponnuswamy P.K., Prabhakaran M., Manavalan P. Hydrophobic packing and spatial arrangement of amino acid residues in globular proteins. // Biochem Biophys Acta 1980, 623(2):301-16
110. Prabhu V.V. and Claverie J.M. Correlations in intronless DNA. // Nature 1992, 359:782.
111. Rackovsky S. Hidden sequence periodicities and protein architecture. // Proc Natl Acad Sci USA 1998,95:8580-8584.
112. Radzicka A. and Wolfenden R. Comparing the polarities of the amino acids: Side-chain distribution coefficients between the vapor phase, cyclohexane, 1-octanol, and neutral aqueous solution. // Biochemistry 1988, 27:1664-1670.
113. Rao S.T. and Rossman M.G. Comparison of super-secondary structures in proteins. //J Mol Biol 1973, 76:241-256.
114. Ravi D. and Kececioglu J.D. Approximation algorithms for multiple sequence alignment under a fixed evolutionary tree. // Disc Appl Math 1998, 88:355366.
115. Rossman M.G. Evolution of glycolytic enzymes. // Philos Trans R Soc Lond В Biol Sci 1981,293:191-203.
116. Rossman M.G., Moras D., Olsen K.W. Chemical and biological evolution of a nucleotide-binding protein. //Nature 1974, 250:194-199.
117. Ruddon R.W. and Bedows E. Assisted protein folding. // J Biol Chem 1997, 272:3125-8.
118. Russell R.B., Sasieni P.D., Sternberg M.J.E. Supersites within superfolds. Binding site similarity in the absence of homology. // J Mol Biol 1998,282:903-918.
119. Sander C. and Schneider R. Database of homology-derived protein structures. // Proteins 1991,9:56-68
120. Schaffer A.A., Wolf Y.I., Ponting C.P., Koonin E.V., Aravind L., Altschul S.F. IMP ALA: matching a protein sequence against a collection of PSI-BLAST-constructed position-specific score matrices. // Bioinformatics 1999, 15:1000-11.
121. Schmidt J.P. An information theoretic view of gapped and other alignments. // Proc Рас Symp Biocomput 1998, pp.561-72.
122. Sigrist C.J.A., Cerutti L., Hulo N., Gattiker A., Falquet L., Pagni M., Bairoch A., Bucher P. PROSITE: a documented database using patterns and profiles as motif descriptors. // Brief Bioinform 2002, 3:265-274.
123. Smith T.F., Waterman M.S.,. Identification of common molecular subsequences. // J Mol Biol 1981,147:195-197.
124. Takano K. and Yutani K. A new scale for side-chain contribution to protein stability based on the empirical stability analysis of mutant proteins. // Protein Eng 2001, 14:525-528.
125. Tatusov R.L., Altschul S.F., Koonin E.V. Detection of conserved segments in proteins: iterative scanning of sequence databases with alignment blocks. // Proc Natl Acad Sci USA 1994,91:12091-12095.
126. Taylor S.S., Knighton D.R., Zheng J., Ten Eyck L.F., Sowadski J.M. Structural framework for the protein kinase family. // Annu Rev Cell Biol 1992, 8:42962.
127. Taylor S.S., Radzio-Andzelm E. Three protein kinase structures define a common motif. // Structure 1994,2:345-55.
128. Taylor S.S., Radzio-Andzelm E., Hunter T. How do protein kinases discriminate between serine/threonine and tyrosine? Structural insights from the insulin receptor protein-tyrosine kinase. // FASEB J 1995, 9:1255-66.
129. Taylor W.R. and Brown N.P. Iterated sequence databank search methods. // ComputChem. 1999, 23:365-85.
130. Taylor W.R. Identification of protein sequence homology by consensus template alignment. //J Mol Biol 1986, 188:233-258.
131. Taylor W.R., Heringa J., Baud F., Flores T.P. A Fourier analysis of symmetry in protein structure. // Protein Eng 2002, 15:79-89.
132. Thulasiraman V., Yang C.F., Frydman J. In vivo newly translated polypeptides are sequestered in a protected folding environment. // EMBO J 1999, 18:85-95.
133. Tiwari S., Ramachandran S., Bhattacharya A., Bhattacharya S., Ramaswamy R. Prediction of probable genes by Fourier analysis of genomic sequences. // CABIOS 1997, 13:263-270.
134. Trifonov E.N. 3-, 10.5-, 200- and 400-base periodicities in genome sequences. // Physica A, 1998, 249:511-516.
135. Trifonov E.N. and Berezovsky I.N. Molecular evolution from abiotic scratch. // FEBS Lett. 2002, 527:1-4.
136. Trifonov E.N. and Bettecken T. Sequence fossils, triplet expansion, and reconstruction of earliest codons. // Gene 1997,205:1-6.
137. Trifonov E.N., Kirzhner A., Kirzhner V.M., Berezovsky I.N. Distinct stages of protein evolution as suggested by protein sequence analysis. // J. Mol. Evol. 2001,53:394-401.
138. Ursing B.M., van Enckevort F.H., Leunissen J.A., Siezen R.J. EXProt: a database for proteins with an experimentally verified function. // Nucleic Acids Res. 2002,30:50-51.
139. Venter J.C., Adams M.D., Myers E.W., Li P.W., Mural R.J., Sutton G.G., Smith H.O., Yandell M., Evans C.A., Holt R.A. et.al. The sequence of the human genome. // Science 2001, 291:1304-1351.
140. Vyugin V. Algorithmic complexity and stochastic properties of finite binary sequences. // The Computer J. 1999, 42:294-317.
141. Ward J.J., McGuffin L.J., Buxton B.F., Jones D.T. Secondary structure prediction with support vector machines. // Bioinformatics 2003, 19:1650-5.
142. Waterman M.S. and Eggert M. A new algorithm for best subsequence alignments with application to tRNA-rRNA comparisons. // J. Mol. Biol. 1987, 197:723-728.
143. Webber C. and Barton G.J. Estimation of P-values for global alignment of protein sequences. // Bioinformatics 2001, 17:1158-1167.
144. Wierenga R.K. The TIM-barrel fold: a versatile framework for efficient enzymes. // FEBS Lett 2001, 492:193-198.
145. Wierenga R.K., Terpstra P., Hoi W.G.J. Prediction of the occurence of ADP-binding Роф-fold in proteins, using an amino acid sequence fingerprint. // J Mol Biol 1986, 187:101-107.
146. Wilbur W.J. and Neuwald A.F. A theory of information with special application to search problems. // Comput Chem. 2000, 24:33-42.
147. Woese C.R. Evolution of genetic code. // Naturwiss. 1973, 60:447-459.
148. Yi T.M., Lander E.S. Recognition of related proteins by iterative template refinement (ITR). // Protein Sci. 1994, 3:1315-1328.
149. Zarembinski T.I., Hung L.W., Mueller-Dieckmann H.J., Kim K.K., Yokota H., Kim R., Kim S.H. Structure-based assignment of the biochemical function of a hypothetical protein: a test case of structural genomics. // Proc Natl Acad Sci USA 1998,95:15189-93.
150. Zhang J. and Nei M. Accuracies of Ancestral Amino Acid Sequences Inferred by the Parsimony, Likelihood, and Distance Methods. // J Mol Evol 1997, 44(Suppl 1):S139—S146.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.