Идентификация и анализ тандемных повторов и близких структурированных сигналов в ДНК тема диссертации и автореферата по ВАК РФ 03.00.02, кандидат физико-математических наук Боева, Валентина Анатольевна
- Специальность ВАК РФ03.00.02
- Количество страниц 126
Оглавление диссертации кандидат физико-математических наук Боева, Валентина Анатольевна
ВВЕДЕНИЕ Стр.
ОБЗОР ЛИТЕРАТУРЫ
Микро-, минисателлиты и другие виды тандемных Стр.12 повторов. Механизмы возникновения и размножения в геноме. Их роль и особенности распределения.
Поиск тандемных повторов в последовательностях Стр.28 биополимеров. Обзор алгоритмов и приложений.
РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ
Глава I. Построение статистической модели для оценки Стр.33 статистической значимости наблюдаемых периодических структур. Формулировка статистических критериев, позволяющих идентифицировать характерные сложные структуры в генетических текстах.
Глава 11. Разработка алгоритма поиска периодических Стр.51 структур в последовательностях ДНК с использованием статистических инструментов. Реализация алгоритма и создание web-приложения. Разработка Интернет-сайта, посвященного программе.
Глава III. Создание базы данных тандемных повторов в Стр.60 различных эукариотических организмах. Анализ распределений повторов и выделение характерных особенностей повторов для хромосом.
Глава IV. Анализ распределений повторов с короткой Стр.74 длиной периода и выделение характерных особенностей повторов в различных функциональных участках ДНК на примере D. melanogaster. Гипотеза частичного происхождения минисателлитных последовательностей от микросателлитных.
Рекомендованный список диссертаций по специальности «Биофизика», 03.00.02 шифр ВАК
Структура и эволюция геномов полиплоидных пшениц и их дикорастущих сородичей: исследование с использованием макро- и микросателлитов2006 год, доктор биологических наук Салина, Елена Артемовна
Разработка алгоритмов и программ для изучения регулярного строения последовательностей ДНК2008 год, кандидат физико-математических наук Шеленков, Андрей Александрович
Спектрально-аналитический метод поиска протяженных повторяющихся нуклеотидных последовательностей в геномах2013 год, кандидат физико-математических наук Пятков, Максим Иванович
Применение метода информационного разложения символьных последовательностей для изучения генетических текстов2002 год, кандидат физико-математических наук Руденко, Валентина Михайловна
Внецентромерные α-сателлитные ДНК человека: структура, участие в сегментных дупликациях и эволюция2003 год, кандидат биологических наук Опарина, Нина Юрьевна
Введение диссертации (часть автореферата) на тему «Идентификация и анализ тандемных повторов и близких структурированных сигналов в ДНК»
Актуальность темы исследования. Основным механизмом геномной эволюции долгое время считались точечные мутации нуклеотидов в последовательностях ДНК. Однако в последнее время было показано, что одним из важных дополнительных механизмов изменчивости являются геномные перестройки, в частности тандемные дупликации и мультипликации.
Механизмы дупликаций коротких слов, приводящие к возникновению и размножению микросателлитов, отличны от механизмов дупликации более длинных участков генома, приводящих к возникновению минисателлитов. Тем не менее, в обоих случаях могут возникнуть новые промоторные области, сайты альтернативного сплайсинга и т.д.
После возникновения сателлитной последовательности в результате действия одного из вышеописанных механизмов возможно изменение последовательности в результате точечных мутаций, что может привести к почти полному «исчезновению» сателлита. По-видимому, именно такие, деградировавшие сателлиты рекрутируются для различных биологических функций, включая регуляцию транскрипции и репликации, структурные модификации белков и т.д. Таким образом, требуется метод поиска сильно вырожденных, тандемно повторяющихся мотивов в последовательностях ДНК. Ввиду значительной вырожденности подобных повторов возможна неверная идентификация случайного участка генома как вырожденной сателлитной последовательности. Поэтому необходима оценка значимости найденных структур как неслучайных.
Вопрос разработки алгоритма для поиска тандемных повторов в ДНК стоит последние пятнадцать лет. В настоящий момент существует более десяти различных программ для поиска периодических структур в последовательностях ДНК. Но пока нельзя сказать, что существует единственно возможный исчерпывающий алгоритм поиска. Каждый алгоритм нацелен на определенную задачу и класс определяемых повторов; степень их вырожденности, длина периода и другие параметры различны от программы к программе.
Объект, предмет и метод исследования. Объектом исследования являются периодические структуры в ДНК: микросателлиты (вырожденные и точные повторы с длиной повторяющейся единицы до 6 п.н.), минисателлиты (точные и средне вырожденные повторы с длиной повторяющейся единицы от 6 п.н. до 100 п.н.), сателлитные последовательности (точные и средне вырожденные тандемные повторы с длиной повторяющейся единицы от 100 п.н. до 200 п.н.) и сильно вырожденные, «исчезающие» тандемные повторы с длиной периода до 200 п.н. Предметом исследования является разработка метода идентификации тандемных повторов в ДНК и анализа свойства распределения тандемных повторов в различных функциональных участках ДНК, а также в хромосомах различных эукариотических геномов. Основные применяемые в диссертационном исследовании методы -автокорреляционный анализ для поиска кандидатных тандемных повторов, метод производящих функций и элементарных языков, а также средств комбинаторного анализа для получения формул для оценки статистической значимости найденных повторов. Исходной теоретической основой исследования являются труды отечественных и зарубежных ученых как в области теории алгоритмов, так и в области построения статистических моделей.
Цель и задачи исследования. Основной целью данного исследования является построение алгоритма идентификации тандемных повторов в ДНК с последующим анализом свойств распределения тандемных повторов в ДНК различных эукариотических геномов. Основным результатом работы должно стать получение алгоритма поиска повторов, удовлетворяющих заданным условиям по степени вырожденности и длине периода, как на уровне полногеномного анализа, так и в коротких ДНК-последовательностях, его использование для картирования геномов на предмет наличия периодических структур, выводы о свойствах распределений повторов в геномах.
Достижение поставленных целей предполагает решение следующих задач.
• Построение моделей для представления периодических последовательностей в ДНК.
• Получение формул для оценки статистической значимости повторов для построенных моделей через подсчет вероятностей наблюдения данных структур в случайной последовательности.
• Разработка алгоритма идентификации участков ДНК, обладающих периодической структурой на основе методов автокорреляционного анализа.
• Интеграция процедуры оценки статистической значимости с процедурой поиска периодичностей для построения нового современного алгоритма определения сильно и слабо вырожденных тандемных повторов.
• Имплементация алгоритма в виде отдельного приложения, а также создание Интернет-сайта для возможности сканирования последовательностей ДНК на наличие периодических участков через Интернет.
• Создание базы данных тандемных повторов в различных функциональных участках ДНК различных организмов.
• Анализ распределений повторов и выделение характерных особенностей повторов в каждой группе.
Научная новизна диссертационного исследования.
• Благодаря построению нового алгоритма идентификации периодических структур в ДНК стало возможно изучение нового объекта - сильно вырожденных тандемных повторов.
• Стало возможно получение более полных карт повторов для геномов эукариот. С помощью нового метода были определены обладающие периодической структурой участки, покрывающие до 30% генома, значительная часть которых не была определена как таковая до настоящего момента в существующих аннотациях геномов.
• С помощью нового алгоритма поиска повторов стало возможно провести сравнительный анализ распределения повторов с большой длиной периода (до 200п.н.) в маштабе полных геномов эукариот.
Практическая значимость. Получение формул для оценки статистической значимости повторов дает возможность оценить значимость повторов, найденных в ДНК при помощи других алгоритмов, тем самым, давая инструмент для сравнения качества работы различных алгоритмов.
Были созданы базы данных для различных эукариотических геномов, включая геном человека, содержащие информацию о расположении, длине и количестве копий повторов с указанием их статистической значимости. Эти данные могут быть использованы в научных исследованиях как для маскирования повторов для их дальнейшей элиминации, так и для поиска в них различных сигналов: сайтов связывания белков, горячих точек рекомбинации и др.
Также, анализ распределения повторов в геномах близких и далеких организмов позволит лучше понять процессы эволюции геномов, предположить новые возможные механизмы. Более того, сравнение тандемных повторов в различных гаплотипах даст информацию о полиморфизмах и мутационных явлениях. Это может помочь понять причины возникновения некоторых наследственных заболеваний, а также заболеваний, вызванных соматической изменчивостью, в том числе некоторых разновидностей канцерогенеза.
Знание о характерных семействах или свойствах повторов может позволить определить принадлежность последовательностей ДНК к определенным участкам геномов или хромосомам.
Апробация диссертационного исследования. Основные результаты были представлены на Московской Конференции по Вычислительной и Молекулярной Биологии МССМВ в 2003 и 2005 годах, на конференции BGRS по Биоинформатике Геномной Регуляции и Структуре в Новосибирске в 2004 и 2006 годах, на конференции JOBIM в Монреале в 2004 году, на конференции молодых ученых «Ломоносов» в 2004 и 2005 годах, на Международной школе «Биоинформатика, геномика, протеомика» в Алматы в 2006 году, на Международной Конференции по Исследованиям в области Вычислительной Молекулярной Биологии RECOMB в Венеции в 2006 году, на симпозиуме по Биоинформатике, Геномике и Функциональному Назначению Микросателлитов и Полиморфных Тандемных Повторов (VNTRs) MICROSAT в Будапеште в 2006 году, а также на Международной Летней Школе и Симпозиуме по Эволюционной Геномике в Берлине в 2006 году.
Структура и объем диссертационного исследования.
Диссертационное исследование состоит из Введения, Обзора Литературы, четырех глав, Заключения, Приложений и библиографического списка. Глава 1 основной части (Результаты и Обсужедение) посвящена подробному описанию построения статистической модели для оценки статистической значимости наблюдаемых периодических структур, используя вероятностные формулы (полученные с помощью производящих функций в рамках теории элементарных языков развитой в INRIA), либо с помощью средств комбинаторной алгебры и формулировке статистических критериев,
Похожие диссертационные работы по специальности «Биофизика», 03.00.02 шифр ВАК
Микро- и макросателлиты генома мягкой пшеницы и ее сородичей2000 год, кандидат биологических наук Песцова, Елена Геннадьевна
Хромосомы домашней курицы и японского перепела (Phasianidae, Galliformes): сравнительный молекулярно-цитогенетический анализ высокого разрешения2013 год, кандидат биологических наук Злотина, Анна Михайловна
Характеристика сателлитных повторов видов Aegilops L. секции Sitopsis и их использование в качестве молекулярных маркеров2007 год, кандидат биологических наук Адонина, Ирина Григорьевна
Организация больших тандемных повторов в геноме мыши2012 год, кандидат биологических наук Комиссаров, Алексей Сергеевич
Повторяющиеся последовательности генома тупай: Mammalia, Scandentia2006 год, кандидат биологических наук Тен, Олег Андреевич
Заключение диссертации по теме «Биофизика», Боева, Валентина Анатольевна
ЗАКЛЮЧЕНИЕ
В результате диссертационного исследования были достигнуты следующие результаты:
1) Разработка алгоритма поиска сильно вырожденных тандемных повторов без делеций и вставок.
2) Получение формул для оценки статистической значимости сильно вырожденных тандемных повторов без делеций и вставок с учетом их самоперекрывающейся структуры.
3) Использование разработанного алгоритма для выявления новых объектов, обладающих выраженной регулярной структурой.
4) Выявление характерных паттернов распределения тандемных повторов в зависимости от длин периодов для хромосом различных геномов эукариот, включая геном человека.
5) Выделение семейств локальных и дисперсных микро- и минисателлитов, характерных для той или иной хромосомы, и их анализ с учетом существующих аннотаций.
6) Выявление различий в распределении тандемных повторов в различных функциональных областях геномов: регуляторных, кодирующих, спейсерных, межгенных областях, гетерохроматине, 5'-и 3'- нетранслируемых областях.
ТАБЛИЦЫ И ИЛЛЮСТРАЦИИ
700000
600000 ь- без фильтрации SSV >3 К—SSV >5 >—SSV >7 I—SSV >9 ■—SSV >11 ■—SSV >13
500000 g 300000
200000
100000 о, 400000 а: О
2 3 4 5 б 7 в 9 10 11 12 13 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 11 42 43 44 <15 48 47 46 -<9 50 S1 52 53 Я 55 56 57 53 59 60 61 62 КЗ 64 SS 66 67 69 69 70 71 длина периода
Рисунок 2. Суммарное покрытие тандемными повторами с различной длиной периода хромосомы 22 (49554710 п.н.) генома человека (Пая UCSC версия, [93]). Фильтрация на основе различной статистической значимости Prs (SSV = -log10 Prs).
400000
350000
X г 300000 ф
S н 250000
J о.
ЬЙ о г 200000 ф о
X п 150000 га
5
100000 о
50000 Все повторы, найденные TandemSWAN (SSV >15, С = 3) ■ Из них, замаскированные TRF/RepeatMasker
П ГЦ
25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70
Длина периода
Рисунок 3. Покрытие 22-ой хромосомы генома человека тандемными повторами, найденными программами TandemSWAN и TRF/RepeatMasker.
Список литературы диссертационного исследования кандидат физико-математических наук Боева, Валентина Анатольевна, 2006 год
1. Subramanian, S., V.M. Madgula, G. Ranjan, R.K. Mishra, M.W. Pandit, C.S. Kumar, and L. Singh, Triplet repeats in human genome: distribution and their association with genes and other genomic regions. Bioinformatics, 2003.19(5): p. 549-552.
2. O'Dushlaine, C.T., R.J. Edwards, S.D. Park, and D.C. Shields, Tandem repeat copy- variation in protein-coding regions of human genes. Genome Biology, 2005. 6(8): p. R69.
3. Ellegren, H., Microsatellites: simple sequences with complex evolution. Nature Genetics, 2004. 5: p. 5435-445.
4. Li, Y.C., A.B. Korol, T. Fahima, and E. Nevo, Microsatellites within genes: structure, function, and evolution. Mol Biol Evol., 2004. 21(6): p. 991-1007.
5. Li, Y.C., A.B. Korol, T. Fahima, A. Beiles, and E. Nevo, Microsatellites: genomic distribution, putative functions and mutational mechanisms: a review. Mol Ecol., 2002.11(12): p. 2453-2465.
6. Gorbunova, V., Seluanov, A., Mittelman, D., Wilson, J.H., Genome-wide demethylation destabilizes CTG-CAG trinucleotide repeats in mammalian cells. Human Molecular Genetics, 2004.13(23): p. 2979-2989.
7. Dieringer, D. and C. Schlotterer, Two distinct modes of microsatellite mutation processes: evidence from the complete genomic sequences of nine species. Genome Res, 2003.13(10): p. 2242-51.
8. Toth, G., Z. Gaspari, and J. Jurka, Microsatellites in different eukaryotic genomes: survey and analysis. Genome Res, 2000.10(7): p. 967-81.
9. Katti, M.V., P.K. Ranjekar, and V.S. Gupta, Differential Distribution of Simple Sequence Repeats in Eukaryotic Genome Sequences. Mol. Biol. Evol., 2001.18(7): p. pp.1161-1167.
10. Ross, C.L., К.A. Dyer, Т. Erez, S.J. Miller, J. Jaenike, and T.A. Markow, Rapid divergence of microsatellite abundance among species of Drosophila. Mol Biol Evol, 2003. 20(7): p. 1143-57.
11. Webster, M.T., N.G. Smith, and H. Ellegren, Microsatellite evolution inferredfrom human-chimpanzee genomic sequence alignments. Proc Natl Acad Sci USA, 2002. 99(13): p. 8748-53.
12. Andres, A.M., M. Soldevila, O. Lao, V. Volpini, N. Saitou, H.T. Jacobs, I. Hayasaka, F. Calafell, and J. Bertranpetit, Comparative genetics of functional trinucleotide tandem repeats in humans and apes. J Mol Evol,2004. 59(3): p. 329-39.
13. Clark R.M., B.S.S., Miyahara M., Dalgliesh G.L., Bidichandani S.I., Expansion of GAA trinucleotide repeats in mammals. Genomics, 2006. 87: p. 57-67.
14. Majewski, J. and J. Ott, Distribution and characterization of regulatory elements in the human genome. Genome Res, 2002.12(12): p. 1827-36.
15. Han, K., G. Yeo, P. An, C.B. Burge, and P.J. Grabowski, Combinatorial Code for Splicing Silencing: UAGG and GGGG Motifs. PLOS Biology,2005. 3(5): p. 0843-0860.
16. Li Y.-C., A.B.K., T. Fahima, E. Nevo, Microsatellites Within Genes: Structure, Function, and Evolution. Molecular Biology and Evolution, 2004.21(6): p. pp.991-1007.
17. Sinha, S. and E.D. Siggia, Sequence turnover and tandem repeats in cis-regulatory modules in drosophila. Mol Biol Evol, 2005. 22(4): p. 874-85.
18. Spinelli, G., Heterochromatin and complexity: a theoretical approach. Nonlinear Dynamics Psychol Life Sci, 2003. 7(4): p. 329-61.
19. Morgante M., H.M., Powell W., Microsatellites are preferentially associated with nonrepetitive DNA in plant genomes. Nature genetics,2002.30: p. 194-200.
20. Xu, G., Goodrige, A.G., A CT repeat in the promoter of the chicken malic enzyme gene is essential for function at an alternative transcription start site. Arch. Biochem Biophys., 1998. 358(1): p. 83-91.
21. Lu Q, T.J., Granok H, Swede MJ, Xu J, Elgin SC., The capacity to form H-DNA cannot substitute for GAGA factor binding to a (CT)n*(GA)n regulatory site. NAR, 2003. 31(10): p. 2483-94.
22. Raghu G., T.S., Anant S., Subramanian K.N., George D.L., Mirkin S.M., Transcriptional activity of the homopurine-homopyrimidine repeat of the c-Ki-ras promoter is independent of its H-forming potential. NAR, 1994. 22(16): p. 3271-3279.
23. Stallings R.L., F.A.F., Nelson D., Torney D.C., Hildebrand C.E., Moyzis R.K., Evolution and distribution of (GT)n repetitive sequences in mammalian genomes. Genomics, 1991.10(3): p. 807-15.
24. Wilkins, R.C. and J.T. Lis, GAGA factor binding to DNA via a single trinucleotide sequence element. Nucleic Acids Res, 1998. 26(11): p. 2672
25. Schwendemann, A. and M. Lehmann, Pipsqueak and GAGA factor act in concert as partners at homeotic and many other loci. Proc Natl Acad Sci U S A, 2002. 99(20): p. 12883-8.
26. Lehmann, M., Anything else but GAGA: a nonhistone protein complex reshapes chromatin structure. Trends Genet, 2004. 20(1): p. 15-22.
27. Nakamura, Y., Koyama, K., Matsushima, M., VNTR (variable number of tandem repeat) sequences as transcriptional, translational, or functional regulators. J. Hum. Genet., 1998. 43: p. 149-152.
28. Gebhardt, F., K.S. Zanker, and B. Brandt, Modulation of epidermal growth factor receptor gene transcription by a polymorphic dinucleotide repeat in intron 1. J Biol Chem, 1999. 274(19): p. 13176-80.
29. Chamberlain N.L., D.E.D., Miesfeld R.L., The length and location of CAG trinucleotide repeats in the androgen receptor N-terminal domain affect transactivation function. NAR, 1994. 22(15): p. 3181-3186.
30. Okladnova, O., Y.V. Syagailo, M. Tranitz, G. Stober, P. Riederer, R. Mossner, and K.-P. Lesch, A Promoter-Associated Polymorphic Repeat Modulates PAX-6 Expression in Human Brain. Biochem. and Biophys. Res. Communications, 1998. 248: p. 402-405.
31. Vafiadis P., B.S.T., Tedd J.A., Nadeau J., Grabs R., Goodyer C.G., Wickramasinghe S., Colle E., Polychronakos C., Insulin expression in human thymus is modulated by INS VNTR alleles at the IDDM2 locus. Nat.Genet., 1997.15(3).
32. Streelman, J.T. and T.D. Kocher, Microsatellite variation associated with prolactin expression and growth of salt-challenged tilapia. Physiol Genomics, 2002. 9(1): p. 1-4.
33. Akai, J., A. Kimura, R. I. Hata., Transcriptional regulation of the human type I collagen alpha2 (COL 1A 2) gene by the combination of two dinucleotide repeats. Gene, 1999. 239: p. pp.65-73.
34. Ranum L.P., D.J.W., Dominantly inherited, non-coding microsatellite expansion disorders. Car Opin Genet Dev., 2002.12(3).
35. Liquori C.L., R.K., Moseley M.L., Jacobsen J.F., Kress W., Naylor S.L., Day J.W., Ranum L.P.W., Myotonic Dystrophy Type 2 Caused by a CCTG Expansion in Intron 1 ofZNF9. Science, 2001. 293(5531): p. 864 867.
36. Saveliev, A., C. Everett, T. Sharpe, Z. Webster, and R. Festenstein, DNA triplet repeats mediate heterochromatin-protein-1 -sensitive variegated gene silencing. Nature, 2003. 422(6934): p. 909-13.
37. Pearson, C.E. and R.R. Sinden, Alternative structures in duplex DNA formed within the trinucleotide repeats of the myotonic dystrophy and fragileXloci. Biochemistry, 1996. 35(15): p. 5041-53.
38. Sinden, R.R., V.N. Potaman, E.A. Oussatcheva, C.E. Pearson, Y.L. Lyubchenko, and L.S. Shlyakhtenko, Triplet repeats DNA structures and human genetic diseass: dinamic mutations from dynamic DNA. J.Biosci (Suppl.l), 2002. 27: p. 53-65.
39. Catasti P., C.X., Mariappan S.V., Bradbury E.M., Gupta G., DNA repeats in the human genome. Genetica, 1999.106(1-2): p. 15-36.
40. Pearson, C.E., A. Ewel, S. Acharya, R.A. Fishel, and R.R. Sinden, Human MSH2 binds to trinucleotide repeat DNA structures associated with neurodegenerative diseases. Human Molecular Genetics, 1997. 6(7): p. 1117-1123.
41. Aharoni, A., N. Baran, and H. Manor, Characterization of a multisubunit human protein which selectively binds single stranded d(GA)nand d(GT)nsequence repeats in DNA. NAR, 1993. 21(22).
42. Sharma, V.K., S.K. Brahmachari, and S. Ramachandran, 3(TG/CA)n repeats in human gene families: abundance and selective patterns of distribution according to function and gene length. BMC Genomics, 2005. 6(83).
43. Timchenko, N.A., A.L. Welm, X. Lu, and L.T. Timchenko, CJJG repeat binding protein (CUGBP1) interacts with the 5' region of C/EBPbeta mRNA and regulates translation of C/EBPbeta isoforms. Nucleic Acids Res., 1999. 27(22): p. 4517-4525.
44. Timchenko, N.A., A.L. Welm, X. Lu, and L.T. Timchenko, CUG repeat binding protein (CUGBP1) interacts with the 5' region of C/EBPbeta mRNA and regulates translation of C/EBPbeta isoforms. Nucleic Acids Research, 2005. 27(22): p. 4517-4525.
45. Jackson, R.J., Alternative mechanisms of initiatiating translation of mammalian mRNAs. Biochemical Society transaction, 2005. 3(6): p. 12311241.
46. Yamada, M., S. Tsuji, and H. Takahashi, Involvement oflysosomes in the pathogenesis of CAG repeat diseases. Ann Neurol, 2002. 52(4): p. 498503.
47. Galvao, R., L. Mendes-Soares, J. Camara, I. Jaco, and M. Carmo-Fonseca, Triplet repeats, RNA secondary structure and toxic gain-offunction models for pathogenesis. Brain Res Bull, 2001. 56(3-4): p. 191-201.
48. Duval, A., S. Rolland, E. Tubacher, H. Bui, G. Thomas, and R. Hamelin, The Human T-Cell Transcription Factor-4 Gene: Structure, Extensive Characterization of Alternative Splicings, and Mutational Analysis in
49. Colorectal Cancer Cell Lines. Cancer Research, 2000. 60: p. 3872-3879.
50. Riley, D.E. and J.N. Krieger, Transcribed short tandem repeats occur in couples with strongly preferred registers. Biochem Biophys Res Commun, 2003. 305(2): p. 257-65.
51. Riley, D.E. and J.N. Krieger, Diverse eukaryotic transcripts suggest short tandem repeats have cellular functions. Biochem Biophys Res Commun, 2002.298(4): p. 581-6.
52. Hefferon, T.W., J.D. Groman, C.E. Yurk, and G.R. Cutting, A variable dinucleotide repeat in the CFTR gene contributes to phenotype diversity by forming RNA secondary structures that alter splicing. Proc Natl Acad Sci USA, 2004.101(10): p. 3504-9.
53. Hui, J., G. Reither, and A. Bindereif, Novel functional role of CA repeats andhnRNPLin RNA stability. Rna, 2003. 9(8): p. 931-6.
54. Gabellini, N., A polymorphic GT repeat from the human cardiac Na+Ca2+ exchanger intron 2 activates splicing. Eur J Biochem, 2001. 268(4): p. 1076-83.
55. Shelley, C.S. and F.E. Baralle, Deletion analysis of a unique 3' splice site indicates that alternating guanine and thymine residues represent an efficient splicing signal. Nucleic Acids Res, 1987.15(9): p. 3787-99.
56. Krontiris, T.G., B. Devlin, D.D. Karp, N.J. Robert, and N. Risch, An association between the risk of cancer and mutations in the HRAS1 minisatellite locus. N Engl J Med, 1993. 329(8): p. 517-23.
57. Kashi, Y. and D.G. King, Simple sequence repeats as advantageous mutators in evolution. Trends in Genetics, 2006. 22(5): p. 253-259.
58. Sawyer, L.A., J.M. Hennessy, A.A. Peixoto, E. Rosato, H. Parkinson, R. Costa, and C.P. Kyriacou, Natural Variation in a Drosophila Clock Gene and Temperature Compensation. Science, 1997. 278(5346): p. 2117 -2120.
59. Lim, M.M., Z. Wang, D.E. Olazabal, X. Ren, E.P. Terwillinger, and L.J. Young, Enchancedpartner prefrence in a promiscous species by manipulating the expression of a single gene. Nature, 2004. 429(17): p. 754-757.
60. Hammock, E.A.D. and L.J. Young, Microsatellite Instability Generates Diversity in Brain andSociobehavioral Traits. Science, 2005. 308(5728): p. 1630- 1634.
61. Hammock, E.A.D. and L.J. Young, Functional Microsatellite Polymorphism Associated with Divergent Social Structure in Vole Species.
62. Mol. Biol. Evol., 2004. 21(6): p. 1057-1063.
63. Fondon, J.W. and H.R. Garner, Molecular origins of rapid and continuous morphological evolution. PNAS USA, 2004.101(52): p. 18058-18063.
64. Kashi, Y. and D.G. King, Simple sequence repeats as advantageous mutators in evolution. Trends Genet, 2006. 22(5): p. 253-9.
65. Makeev, V.J., A.P. Lifanov, A.G. Nazina, and D.A. Papatsenko, Distance preferences in the arrangement of binding motifs and hierarchical levels in organization of transcription regulatory information. Nucleic Acids Res, 2003.31(20): p. 6016-26.
66. Trifonov, E.N., 3-, 10.5-, 200- and 400-baseperiodicitiesin genome sequences. Physica A, 1998. 249: p. 511-516.
67. Ioshikhes, I., E.N. Trifonov, and M.Q. Zhang, Periodical distribution of transcription factor sites in promoter regions and connection with chromatin structure. PNAS USA, 1999. 96: p. 2891-2895.
68. Rice, P., I. Longden, and A. Bleasby, EMBOSS: the European Molecular Biology Open Software Suite. Trends Genet, 2000.16(6): p. 276-7.
69. Smit, A.F.A., R. Hubley, and P. Green, Repeat Masker Ореп-З.О, 19962004.
70. Landau, G.M., J.P. Schmidt, and D. Sokol, An algorithm for approximate tandem repeats. J Comput Biol, 2001. 8(1): p. 1-18.
71. Hamming, R.W., Error detecting and error correcting codes. Bell System Tech. J., 1950. 29: p. 147-160.
72. Levenshtein, V.I., Binary codes capable of correcting spurious insertions and deletions of ones. Russian Problemy Peredachi Irzfbrmatsii, 1965.1: p. 12-25.
73. Benson, G. and M.S. Waterman, A methodfor fast database search for all k-nucleotide repeats. Nucleic Acids Res, 1994. 22(22): p. 4828-36.
74. Sagot, M.-F. and E.W. Myers. Identifying satellites in nucleic acid sequences, in The 2nd Annual International Conference on Computational Molecular Biology (RECOMB 98). 1998: ACM Press.
75. Benson, G., Tandem repeats finder: a program to analyze DNA sequences. Nucleic Acids Res., 1999. 27: p. 573-578.
76. Altschul, S.F., W. Gish, W. Miller, E.W. Myers, and D.J. Lipman, Basic local alignment search tool. J Mol Biol, 1990. 215(3): p. 403-10.
77. Makeev, V.J. and V.G. Tumanyan, Search of periodicities in primary structure of biopolymers: a general Fourier approach. Comput Appl Biosci, 1996.12(1): p. 49-54.
78. Chaley, M.B., E.V. Korotkov, and K.G. Skryabin, Method revealing latent periodicity of the nucleotide sequences modified for a case of small samples. DNA Res, 1999. 6(3): p. 153-63.
79. Chechetkin, V.R. and V.V. Lobzin, Nucleosome units and hidden periodicities in DNA sequences. J Biomol Struct Dyn, 1998.15(5): p. 93747.
80. Hauth, A.M. and D.A. Joseph, Beyond tandem repeats: complex pattern structures and distant regions of similarity. Bioinformatics, 2002.18 Suppl 1: p. S31-7.
81. Castelo, A.T., W. Martins, and G.R. Gao, TROLL-tandem repeat occurrence locator. Bioinformatics, 2002.18(4): p. 634-6.
82. Aho, A.V. and M.J. Corasick, Efficient string matching: an aid to bibliographic search. Communications of the ACM, 1975.18(6): p. 333
83. Kolpakov, R., G. Bana, and G. Kucherov, mreps: efficient andflexible detection of tandem repeats in DNA. Nucleic Acids Res., 2003. 31: p. 3672-3678.
84. Laboratory, L.A.N., Tandyman, unpublished.
85. Abajian, C., Sputnik. 1994.
86. Schlotterer, C., Evolutionary dynamics of microsatellite DNA. Chromosoma, 2000.109(6): p. 365-71.
87. Regnier, M., A unified approach to word occurrences probabilities. Discrete Applied Mathematics, 2000.104(1): p. 259-280.
88. Boeva, V., J. Clement, M. Regnier, and M. Vandenbogaert. Assessing the Significance of Sets of Words, in Combinatorial Pattern Matching (CPM) 2005. 2005. Jeju Island, Korea: Published online in Lecture Notes in Computer Science, Springer Verlag.
89. Schug, M.D., C.M. Hutter, K.A. Wetterstrand, M.S. Gaudette, T.F. Mackay, and C.F. Aquadro, The mutation rates of di-, tri- and tetranucleotide repeats in Drosophila melanogaster. Mol Biol Evol, 1998. 15(12): p. 1751-60.
90. Boeva, V., M. Regnier, D. Papatsenko, and V. Makeev, Short fuzzy tandem repeats in genomic sequences, identification, and possible role in regulation of gene expression. Bioinformatics, 2006. 22(6): p. 676-684.
91. Batzer, M.A. and P.L. Deininger, Alu repeats and human genomicdiversity. Nat Rev Genet, 2002.3(5): p. 370-9.
92. Lander, E.S., et al., Initial sequencing and analysis of the human genome. Nature, 2001. 409(6822): p. 860-921.
93. Nagai, K., Y. Nakaseko, K. Nasmyth, and D. Rhodes, Zinc-finger motifs expressed in E. coli andfolded in vitro direct specific binding to DNA. Nature, 1988.332(6161): p. 284-6.
94. Chavrier, P., P. Lemaire, 0. Revelant, R. Bravo, and P. Charnay, Characterization of a mouse multigene family that encodes zinc finger structures. Mol Cell Biol, 1988. 8(3): p. 1319-26.
95. Лагутин, М.Б., Наглядная математическая статистика. Vol. Книга 2. 2003, Москва: ООО "Фирма "П-центр".
96. Боровков, А.А., Математическая статитика. Наука, 1984.
97. Manuelidis, L. and J.C. Wu, Homology between human and simian repeated DNA. Nature, 1978. 276: p. 92-94.
98. Rudd, M.K., G.A. Wray, and H.F. Willard, The evolutionary dynamics of alpha-satellite. Genome Res, 2006.16(1): p. 88-96.
99. Kazakov, A.E., V.A. Shepelev, I.G. Tumeneva, A.A. Alexandrov, Y.B. Yurov, and I. A. Alexandrov, Interspersed repeats are found predominantly in the "old" alpha-satellite families. Genomics, 2003. 82: p. 619-627.
100. Alexandrov, I., A. Kazakov, I. Tumeneva, V. Shepelev, and Y. Yurov, Alpha-Satellite DNA of primates: Old and new families. Chromosoma, 2001.110: p. 253-266.
101. Rudd, M.K. and H.F. Willard, Analysis of the centromeric regions of the human genome assembly. Trends Genet., 2004. 20: p. 529-533.
102. Yu, X., X. Zhu, W. Pi, J. Ling, L. Ко, Y. Takeda, and D. Tuan, The long terminal repeat (LTR) ofERV-9 human endogenous retrovirus binds to NF-Y in the assembly of an active LTR enhancer complex NF
103. Y/MZF1/GA TA-2. J Biol Chem, 2005. 280(42): p. 35184-94.
104. Cardone, M.F., L. Ballarati, M. Ventura, M. Rocchi, A. Marozzi, E. Ginelli, and R. Meneveri, Evolution of beta satellite DNA sequences: evidence for duplication-mediated repeat amplification and spreading. Mol Biol Evol, 2004. 21(9): p. 1792-9.
105. Gao, Y.G., H. Robinson, R. Sanishvili, A. Joachimiak, and A.H. Wang, Structure and recognition of sheared tandem GxA base pairs associated with human centromere DNA sequence at atomic resolution. Biochemistry, 1999.38(50): p. 16452-60.
106. Birney, E., et al., Ensembl 2006. Nucleic Acids Res, 2006. 34(Database issue): p. D556-61.
107. Grumbling, G., V. Strelets, and T.F. Consortium, FlyBase: anatomical data, images and queries. NAR, 2006. 34: p. D484-D488.
108. Papatsenko, D.A., V.J. Makeev, A.P. Lifanov, M. Regnier, A.G. Nazina, and C. Desplan, Extraction offunctional binding sites from unique regulatory regions: the Drosophila early developmental enhancers. Genome Res, 2002.12(3): p. 470-81.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.