Анализ регуляторных геномных последовательностей с помощью компьютерных методов оценок сложности генетических текстов тема диссертации и автореферата по ВАК РФ 03.00.15, кандидат биологических наук Орлов, Юрий Львович

  • Орлов, Юрий Львович
  • кандидат биологических науккандидат биологических наук
  • 2004, Новосибирск
  • Специальность ВАК РФ03.00.15
  • Количество страниц 180
Орлов, Юрий Львович. Анализ регуляторных геномных последовательностей с помощью компьютерных методов оценок сложности генетических текстов: дис. кандидат биологических наук: 03.00.15 - Генетика. Новосибирск. 2004. 180 с.

Оглавление диссертации кандидат биологических наук Орлов, Юрий Львович

ВВЕДЕНИЕ

Список сокращений

Глава 1. ОБЗОР ЛИТЕРАТУРЫ

1.1. ЗАДАЧИ КОМПЬЮТЕРНОГО АНАЛИЗА ГЕНЕТИЧЕСКИХ 15 МАКРОМОЛЕКУЛ

1.1.1. Проблемы компьютерного анализа генетических текстов

1.1.2. Международные проекты геномных исследований

1.2. СТРУКТУРА ГЕНОМНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

1.2.1. Особенности структуры генов и геномов про- и эукариот

1.2.2. Формальная классификация типов повторов

1.2.3. Повторы в геномах

1.2.4. Взаимная совместимость генетических сообщений

1.3. СТРУКТУРНО-ФУНКЦИОНАЛЬНАЯ ОРГАНИЗАЦИЯ РЕГУЛЯТОРНЫХ 25 РАЙОНОВ ТРАНСКРИПЦИИ ГЕНОВ ЭУКАРИОТ

1.3.1. Строение регуляторных районов генов эукариот

1.3.2. Иерархическая организация регуляторных районов эукариот

1.3.3. Анализ нуклеосомного кода укладки хроматина

1.4. АЛГОРИТМЫ ОЦЕНКИ СЛОЖНОСТИ ГЕНЕТИЧЕСКИХ ТЕКСТОВ

1.4.1. Сложность символьных последовательностей

1.4.2. Сложность текстов по Лемпелю и Зиву

1.4.3. Анализ лингвистической (комбинаторной) сложности ДНК

1.4.4. Анализ структуры геномных последовательностей: преобразование Фурье

1.5. МЕТОДЫ МНОЖЕСТВЕННОГО ВЫРАВНИВАНИЯ И ПОИСКА 35 ГОМОЛОГИИ

1.5.1. Алгоритмы попарного выравнивания

1.5.2. Метод 1-граммного разложения

1.5.3. Поиск гомологий на основе алгоритмов выравнивания FASTA и BLAST

1.5.4. Реконструкция деревьев сходства

1.6. КОМПЬЮТЕРНЫЕ МЕТОДЫ РАСПОЗНАВАНИЯ ФУНКЦИОНАЛЬНЫХ 41 РАЙНОВ ГЕНОМНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

1.6.1. Стандарты описания функциональных сайтов

1.6.2. Методы компьютерного распознавания регуляторных районов

1.6.3. Метод скрытых марковских цепей

1.6.4. Обзор программ распознавания промоторов

1.6.5. Сравнение точности методов распознавания

1.7. ИНТЕГРАЛЬНЫЕ МЕТОДЫ ПРЕДСКАЗАНИЯ ФУНКЦИОНАЛЬНЫХ 48 РАЙОНОВ В ГЕНЕТИЧЕСКИХ ТЕКСТАХ

1.7.1. Методика отбора контекстных характеристик на основе теории полезности для 48 принятия решений

1.7.2. Нейронные сети для классификации генетических текстов

1.7.3. Поиск закономерностей в базах данных

1.7.4. Алгоритмы поиска закономерностей на основе вероятностных реляционных 51 моделей

Рекомендованный список диссертаций по специальности «Генетика», 03.00.15 шифр ВАК

Введение диссертации (часть автореферата) на тему «Анализ регуляторных геномных последовательностей с помощью компьютерных методов оценок сложности генетических текстов»

Актуальность проблемы

Начало XXI века ознаменовалось значительными достижениями в молекулярной биологии и генетике. Важнейшим по праву можно считать создание автоматизированных систем для определения последовательностей оснований ДНК, позволяющих расшифровывать отдельные участки ДНК и протяженные геномные последовательности организмов различных видов вплоть до полных геномов (Venter et al., 2001). Осуществление крупномасштабных проектов по секвенированию геномов человека, животных, растений, бактерий и вирусов привело к лавинообразному росту объема информации о нуклеотидных последовательностях (http://www.ncbi.rim.mh.gov/Genbank/genbankstats.html). Их анализ, обобщение и накопление знаний о структуре и функции генетических молекул относятся в наступившую пост-геномную эпоху к числу наиболее важных проблем молекулярной генетики. Одним из подходов к решению этой проблемы является функциональная аннотация новых генов с помощью компьютерных программ на основе анализа последовательностей ДНК и экспериментальной информации, накопленной в базах данных. Представляемая диссертационная работа посвящена применению современных математических и компьютерных методов теории передачи информации и сжатия данных, а также теории анализа данных и поиска закономерностей к исследованию генетических последовательностей.

В последние 10-15 лет усилия научного сообщества были направлены на накопление последовательностей ДНК, и вершиной этой деятельности стала расшифровка генома человека, состоящего из приблизительно 3109 нуклеотидных пар (Venter et al., 2001). В настоящее время в основных молекулярно-генетических банках данных (EMBL, GenBank, DDBJ) уже накоплена информация о 180 полностью секвенированных геномах микроорганизмов и десятке геномов эукариот, включая геном человека, причем объем расшифрованных последовательностей стремительно растет (http://www.ncbi.nlm.nih.gov/ genomes/MCROBES/Complete.html). Невозможно переоценить значение полученной информации для науки, медицины и других областей жизни человечества (Киселев, 2000; Kanehisa and Bork, 2003). Однако, для успешного использования этой информации необходимо, понять ее биологический смысл, определить функцию последовательностей, их регуляторную роль, эволюционные взаимоотношения.

Прямое применение экспериментальных методов для поиска, сравнения, картирования огромного количества доступных в настоящее время последовательностей ДНК и аминокислот просто невозможно из-за их большой трудоемкости и значительной стоимости. Первоочередная задача состоит в привлечении биополимеров современных компьютерных технологий и разработке математических алгоритмов и компьютерных программ анализа последовательностей генетических макромолекул - ДНК, РНК и белков. Удобство использования программ анализа генетических текстов на персональных компьютерах и возможность обработки больших объемов данных делают их необходимым инструментом в экспериментальной работе молекулярных биологов. Математические методы для анализа последовательностей ДНК, РНК и белков не смогут полностью заменить экспериментальные, поскольку мы не обладаем полными знаниями обо всех молекулярных процессах, проходящих в живой клетке. Но компьютерные методы важны сами по себе -огромное количество экспериментальных данных о последовательностях ДНК, накопленное в специализированных базах данных (Kanehisa and Bork, 2003; Galperin, 2004), дает возможность получения качественно новых знаний о структуре и эволюции геномов. Именно получение новых знаний об организации генетической информации на основе статистического анализа геномных данных является основной целью компьютерных исследований, представленных в настоящей работе.

За последние два десятилетия создан широкий круг программных продуктов, направленных на изучение свойств и структуры последовательностей ДНК и белков (Колчанов, 1988; Wang et al, 1999; Pevzner, 2000; Mount, 2001; Koonin and Galperin, 2002). Большинство алгоритмов, заложенных в эти программы, применяют технику теории вероятностей и математической статистики (Durbin et al, 1998; Ewens and Grant, 2001) и дискретной математики (Gusfield, 1997) для исследования статистических свойств и закономерностей в строении последовательностей биополимеров (Франк-Каменецкий, 1990; Mount, 2001).

Одной из ключевых проблем является анализ сложности генетических текстов с помощью математических оценок, учитывающих эволюционные ограничения на изменение последовательности. Не менее важна проблема компьютерного исследования и поиска в геноме последовательностей, регулирующих экспрессию генов эукариот.

Для всестороннего исследования контекстной организации и количественного анализа сложности текста регуляторных последовательностей необходима разработка современных Интернет-доступных компьютерных программ. Актуальной становится обработка информации о последовательностях ДНК из наиболее полных на сегодняшний день молекулярно-биологических ресурсов (GenBank, EMBL), включая специализированные базы данных по регуляции генной экспрессии (TRRD, TRANSFAC, EPD). В представленной диссертационной работе поставлены задачи разработки и применения новых компьютерных методов статистического анализа генетических текстов, предсказания функциональных сайтов и регуляторных районов в геномной ДНК, поиска повторов в геномах и анализа их структуры.

Цели и задачи исследования

Цели исследования включали:

1) анализ контекстной организации регуляторных районов генов эукариот (сайтов связывания транскрипционных факторов, промоторов, сайтов сплайсинга и др.), сравнение сложности текста содержащих их последовательностей ДНК, выявление фундаментальных контекстных свойств и поиск комплексных сигналов регуляции экспрессии генов;

2) изучение структурной организации полных бактериальных геномов и хромосом эукариот, выявление участков низкой сложности текста и исследование их взаимосвязи с регуляцией экспрессии генов, анализ распределения повторов и их иерархической организации в геномах.

Цели исследования достигались с помощью двух основных математических подходов.

Первым ключевым подходом в данной работе была концепция сложности нуклеотидной последовательности. Сложность как общенаучное понятие приближается по своему статусу к философской категории. Применительно к символьным последовательностям основополагающей является фундаментальная идея А.Н. Колмогорова (Колмогоров, 1965) об определении сложности последовательности как длины кратчайшей программы, по которой эта последовательность может быть синтезирована. В таком общем определении сложность по Колмогорову не может быть вычислена. Существует несколько конструктивных реализаций идеи А.Н. Колмогорова, которым соответствуют различные определения сложности - комбинаторная, операционная сложность, энтропийные меры. Наиболее распространена мера сложности, предложенная Лемпелем и Зивом (Lempel and Ziv, 1976), на основе которой реализованы многие программы сжатия данных (архиваторы). Модификация меры Лемпеля и Зива для генетических текстов (Гусев и др., 1991а; 19916; Gusev et al., 1999), была использована в настоящей работе и реализована в Интернет-доступной программе LZcomposer. Были использованы и реализованы в единой компьютерной системе Complexity (Orlov and Potapov, 2004) также оценки лингвистической сложности (Trifonov, 1990; Troyanskaya et al., 2002) и оценки неравномерности нуклеотидного состава (Wootton and Federhen, 1996).

Вторым фундаментальным подходом являлся метод установления комплексных сигналов и закономерностей по алгоритму "Дискавери" (Discovery), разработанный ранее в рамках теории анализа данных и открытий (Data Mining, Knowledge Discovery) (Витяев, 1993; Kovalerchuk and Vityaev, 2000).

Необходимыми условиями работы были компьютерная реализация указанных математических алгоритмов, подготовка данных и выборок последовательностей, создание соответствующего Интернет-доступного программного обеспечения (Orlov and Potapov, 2000; 2004; Orlov et al., 2002a; 20026; 2002e).

Конкретные задачи исследования включали: (1) компьютерный анализ нуклеотидных последовательностей сайтов связывания транскрипционных факторов и регуляторных районов генов эукариот с помощью оценок сложности; (2) поиск комплексных закономерностей контекстной организации промоторов эукариот и разработку компьютерных методов распознавания таких последовательностей в геномной ДНК; (3) анализ контекстной структуры сайтов формирования нуклеосом; 4) поиск повторов в полных бактериальных геномах и хромосомах эукариот и анализ их структуры.

Методические задачи исследования включали разработку и компьютерную реализацию на языке С++ алгоритмов: (1) оценки сложности генетических текстов; (2) определения оптимальной марковской модели с переменной памятью (модели контекстного дерева источника) по нуклеотидной последовательности; (3) предсказания функциональных районов в геномных последовательностях на основе марковских моделей; (4) выявления повторов и быстрого поиска гомологии в сверхдлинных последовательностях (до 250 Мб); (5) поиска закономерностей (комплексных характеристик) в регуляторных районах генов эукариот на основе методов теории анализа данных (алгоритм "Gene Discovery").

Все указанные методы реализованы в виде компьютерных программ с интерфейсом пользователя (Витяев и др., 2001; Orlov et al, 2002а; 2002б; 2002в; 2002г; Kolchanov et al, 2003). В Интернет-доступном варианте реализованы программы: (1) построения профилей сложности генетических текстов с помощью набора методов (Orlov and Potapov, 2004); (2) сложностных разложений по модифицированному методу Лемпеля-Зива (Orlov et al, 2002e); (3) определения оптимальной контекстно-древовидной модели и ее визуализации (Orlov and Potapov, 2000; Orlov et al, 2002г).

Программная реализация алгоритмов создавалась с учетом того, что исследованию подвергаются огромные массивы данных (в частности, последовательности хромосом человека размером до 250 Мб). Поэтому особое внимание уделялось оптимизации времени выполнения основных расчетных процедур, сведению к времени счета, линейному в зависимости от длины последовательности. Использованные алгоритмы описаны в Главе 2 диссертации.

Применение компьютерных программ выполнялось на группах объектов в соответствии с иерархией организации молекулярно-генетической информации: (1) нуклеотидные последовательности сайтов связывания транскрипционных факторов (база данных ТШФ, КокЬапоу е/ а!., 2002а); (2) функциональные последовательности ДНК -регуляторные районы генов (базы данных ТШШ, Ко1сЬапоу е1 а1, 2002а; ЕРБ, Ргаг е/ а/., 2002), экзоны и интроны (база данных ЕЮ, Бахопоу е/ а1., 2000), (3) промоторы совместно регулируемых генов эукариот ТМШ (КокЬапоу е/ а1, 2002а); (4) сайты сплайсинга (база данных БрНсеОВ, Вигее! ег а1., 2001); (5) 5-нетранслируемые последовательности мРНК (5'-НТП) генов эукариот (ЕМВЬ); (6) сайты формирования нуклеосом (Ьеукзку et а!., 1999); (7) полные бактериальные геномы и хромосомы эукариот (базы данных ОепВапк, ЕМВЬ, ТАЖ). Результаты исследования представлены в соответствующих разделах Главы 3.

Научная новизна и актуальность работы

Предложен оригинальный метод распознавания функциональных районов на основе марковских моделей с переменной памятью. Показано статистически значимое различие сложности нуклеотидных последовательностей экзонов, интронов и регуляторных районов генов эукариот. Впервые показано изменение сложности нуклеотидных последовательностей, содержащих донорные и акцепторные сайты сплайсинга генов эукариот. Впервые выявлены тренды изменения сложности в нуклеотидных последовательностях, содержащих сайты формирования нуклеосом.

Анализ встречаемости прямых, инвертированных и симметричных повторов в полных последовательностях бактериальных геномов и хромосом эукариот выполнен на наиболее полных данных, доступных на момент выполнения работы (релиз 34 ОепВапк МСВ1 2003 г.). Найдены максимальные внутри- и межгеномные совершенные повторы для 130 полных геномов прокариот. Показано наличие протяженных совершенных внутригеномных повторов (максимальный размер - 47 тысяч и.о.), занимающих для некоторых организмов до 3-х процентов размера генома.

Разработан метод компьютерного поиска закономерностей контекстной организации регуляторных последовательностей генов эукариот. Закономерности определяются в форме комплексных сигналов, состоящих из наборов олигонуклеотидов в 15-буквенном алфавите ШРАС. Впервые найдены такие комплексные сигналы для промоторных последовательностей шести ткане- и функционально специфичных групп генов эукариот из базы данных TRRD.

Структура и объем работы

Похожие диссертационные работы по специальности «Генетика», 03.00.15 шифр ВАК

Заключение диссертации по теме «Генетика», Орлов, Юрий Львович

ВЫВОДЫ ПО ДИССЕРТАЦИОННОЙ РАБОТЕ

1. Для исследования контекстной организации нуклеотидных последовательностей и полных геномов про- и эукариот разработаны Интернет-доступные программы: (i) Complexity (для выявления статистически значимых контекстов - олигонуклеотидных слов на основе марковских моделей с переменной памятью) и (ii) LZcomposer (для поиска прямых и инвертированных повторов, а также участков низкой сложности).

2. Установлено, что нуклеотидные последовательности большинства сайтов связывания транскрипционных факторов эукариот (-75%) имеют повышенную сложность по сравнению с фланкирующими районами. Показано, что максимальное значение сложности контекстной организации промоторов эукариот достигается в районе [-50;-1] относительно старта транскрипции.

3. В промоторах шести групп генов (эритроид-специфичных, интерферон-регулируемых, глюкокортикоид-регулируемых, липидного метаболизма, системы регуляции холестерина и ответа на тепловой шок) выявлены комплексные сигналы, представляющие собой наборы специфичных олигонуклеотидов с характерным порядком расположения и варьирующим расстоянием между ними.

4 Показано, что сложность контекстной организации нуклеотидных последовательностей экзонов достоверно выше (р < 0.01), чем интронов. Установлено, что сложность контекстной организации 5'-фланкирующих районов донорных сайтов сплайсинга достоверно выше, чем 3'-фланкирующих районов этих сайтов (р<0.005), а сложность контекстной организации 5'-фланкирующих районов акцепторных сайтов сплайсинга достоверно ниже, чем их 3'-фланкирующих районов.

5. Впервые выявлены тренды изменения сложности контекстной организации в пределах сайтов формирования нуклеосом: уменьшение сложности от центров сайтов к их 5'-и З'-концам и увеличение сложности в районах линкерной ДНК. В пределах сайтов формирования нуклеосом найдена локальная периодичность профиля контекстной сложности с периодом 11 п.о. Разработан метод предсказания сайтов формирования нуклеосом на основе учета локальных контекстных зависимостей в рамках марковской модели с переменной памятью.

6. Установлено, что 5-НТП мРНК эукариот с низким уровнем экспрессии характеризуются достоверно пониженной (р<0.01) контекстной сложностью по Лемпелю-Зиву, связанной с присутствием большого количества инвертированных повторов. На основе марковских моделей с переменной памятью выявлены статистически значимые контексты, характерные для 5'-НТП мРНК с высокой и низкой экспрессией.

7. Найдены максимальные внутри- и межгеномные совершенные повторы для 130 полных геномов прокариот. Показано наличие протяженных совершенных внутригеномных повторов (максимальная длина - 47 тысяч п.о.), занимающих для некоторых организмов до 3-х процентов размера генома.

Список публикаций по теме диссертации

1. Orlov Yu.L., Potapov V.N. (2004) Complexity: Internet-resource for analysis of DNA sequence complexity. I I Nucleic Acids Res., Web-issue 2004, V.32, W628-W633.

2. Orlov Yu.L., Potapov V.N., Poplavsky A.S. (2004) Computer analysis of genomic sequence complexity: new applications. // In: Proceedings of the Fourth International conference on Bioinformatics of Genome Regulation and Structure (BGRS'2004), IC&G, Novosibirsk, V.l, p. 153-157.

3. Kolchanov N.A., Pozdnyakov M.A., Orlov Yu.L., Vishnevsky O.V., Podkolodny N.L., Vityaev E.E., Kovalerchuk B. (2003) Computer System "Gene Discovery" for Promoter Structure Analysis. // In: Artificial Intelligence and Heuristic Methods in Bioinformatics (Eds: P. Frasconi and R. Shamir), IOS Press (ISBN 1-58603-294-1), p. 173-192.

4. Vityaev E.E., Orlov Yu.L., Vishnevsky O.V., Pozdnyakov M.A., Kolchanov N.A. (2002) Computer system "Gene Discovery" for promoter structure analysis // (Bioinformation Systems e.V.) In Silico Biology 2(3), p. 233-247.

5. Orlov Yu.L., Filippov V.P., Potapov V.N., Kolchanov N.A. (2002) Construction of stochastic context trees for genetic texts // (Bioinformation Systems e.V.) In Silico Biology 2(3), p. 257-262.

6. Витяев E.E., Орлов Ю.Л., Поздняков M.A., Левицкий В.Г., Вишневский О.В., Подколодный Н.Л., Колчанов Н.А. (2002) Компьютерная система "Gene Discovery" для поиска закономерностей и представления знаний по регуляции генной экспрессии в интегрированной электронной библиотеке GeneExpress. // Труды Четвертой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» 15-17 октября 2002 г., ОИЯИ, Дубна, Том 2, с. 84-93.

7. Kolchanov N.A., Podkolodny N.L., Ananko Е.А., Ignatieva E.V., Podkolodnaya O.A., Stepanenko I.L., Merkulova Y.I., Lavryushev S.V., Grigorovich D.A., Kochetov A.V., Orlova G.V., Titov I.I., Vishnevsky O.V., Orlov Yu.L., Ivanisenko V.A., Vorobiev D.G., Oshchepkov D.Yu., Omelyanchuk N.A., Pozdnyakov M.A., Afonnikov D.A., Matushkin Yu.G., Likhoshvai V.A., Ratushny A.V., Katokhin A.V., Turnaev I.I., Proscura A.L., Suslov V.V., Nedosekina E.A. (2002) GeneExpress-2002: An integrated system on gene expression regulation. //In: Proceedings of the Third International Conference on Bioinformatics of Genome Regulation and Structure (BGRS'2002), Novosibirsk, Instof Cytology&Genetics Press, Vol.3, p.232-234.

8. Orlov Yu.L., Potapov V.N., Filippov V.P. (2002) Recognizing functional DNA sites and segmenting genomes using the program "Complexity". // Proceedings of the Third International Conference on Bioinformatics of Genome Regulation and Structure (BGRS'2002), Novosibirsk, Instof Cytology&Genetics Press, Vol.3, p.243-246.

9. Orlov Yu.L., Gusev V.D., Nemytikova L.A. (2002) Software package LZcomposer: analysis of occurrence of repeats in complete genomes. // Proceedings of the Third International Conference on Bioinformatics of Genome Regulation and Structure (BGRS'2002), Novosibirsk, Inst.of Cytology&Genetics Press, Vol.3, p.247-250.

10. Vityaev E.E., Pozdnyakov M.A., Orlov Yu.L., Vishnevsky O.V., Podkolodny N.L., Kolchanov N.A. (2002) "Gene Discovery" computer system for analysis of regulatory regions. // Proceedings of the Third International Conference on Bioinformatics of Genome Regulation and Structure (BGRS'2002), Novosibirsk, Instof Cytology&Genetics Press, Vol.3, p.257-259.

11. Gusev V.D., Nemytikova L.A., Orlov Yu.L., Filippov V.P. (2002) Internet-available software system LZcomposer for analysis of genome sequence structure on the basis of complexity decompositions // Proceedings of the Third International Conference on Bioinformatics of Genome Regulation and Structure (BGRS'2002), Novosibirsk, Inst.of Cytology&Genetics Press, Vol.3, p.260-263.

12. Orlov Yu.L., Potapov V.N. (2002) Stochastic complexity estimation for genetical texts. // In: Fifth German workshop on artificial life: Abstracting and synthesizing the principles of living systems, 18-20 March 2002, Luebeck, Germany (GWAL-5), D.Polani, J.Kim, T.Martinetz (Eds.) Berlin: Akad.Verl.-Ges. Aka (ISBN 3-89838-030-0, ISBN 158603-242-9), p.81-88.

13. Orlov Y.L., Filippov V.P., Potapov V.N., Kolchanov N.A. (2002) Complexity: Software Tools for Analysis of Information Measures of Genetic Texts. // In Proceedings of Workshop on Genomic Signal Processing and Statistics (GENSIPS-2002) CP 1-08, p.l-4 (http://www.gensips.gatech.edu/proceedings/).

14. Витяев E.E., Орлов Ю.Л., Вишневский O.B., Беленок А.С., Колчанов Н.А. (2001) Компьютерная система "GENE DISCOVERY" для поиска закономерностей организации регуляторных последовательностей эукариот. // Молекулярная биология, 2001, 35(6), с. 952-960.

15. Orlov Yu.L., Potapov V.N. (2000) Estimation of stochastic complexity of genetical texts. // Computational technologies (Novosibirsk), V.5 (Special issue), p. 5-15.

16. Afonnikov D.A., Valuev V.P., Kashinskaya Ju.O., Orlov Yu.L. (2000) The ASPD database on synthetic peptides. // Computational technologies (Novosibirsk), V.5 (Special issue), p. 75-78.

17. Орлов Ю.Л. (2000) Компьютерный поиск информативных характеристик функциональных сайтов в аминокислотных и нуклеотидных последовательностях // Материалы VIII Всероссийского семинара "Нейроинформатика и ее приложения", 6-8 октября 2000 г. (Ред. Горбань А.Н.) ИВМ СО РАН, Красноярск, 2000, с. 128-129.

18. Орлов Ю.Л., Потапов В.Н. (2000) Оценка стохастической сложности генетических текстов //Четвертый Сибирский конгресс по прикладной и индустриальной математике (ИНПРИМ-2000) Тез.докл., ч.Ш, ИМ СО РАН, Новосибирск, 2000, с. 68.

19. Kolchanov N.A., Podkolodny N.L., Ponomarenko M.P., Ananko E.A., Ignatieva E.V., Kolpakov F.A., Levitsky V.G., Podkolodnaya O.A., Stepanenko I.L., Merkulova T.I., Vorobiev D.G., Lavryushev S.V., Grigorovich D.A., Ponomarenko J.V., Kochetov A.V., Orlova G.V., Kondrakhin Y.V., Titov I.I., Vishnevsky O.V., Orlov Yu.L., Valuev V.P., Ivanisenko V.A., Oschepkov D.Yu., Omel'yanchuk N.A., Pozdnyakov M.A., Kosarev P.S., Goryachkovskaya T.N., Fokin O.N., Kalinichenko L.A., Kotlyarov Yu.V. (2000) Integrated system on gene expression regulation Geneexpress - 2000. // In: Proceedings ofBGRS'2000, ICG Press, Novosibirsk, 12-16.

20. Orlov Yu.L., Potapov V.N. (2000) Determining Markov model of genetical texts by stochastic complexity estimation. // In: Proceedings of BGRS'2000, ICG Press, Novosibirsk, p.69-71.

21. Orlov Yu.L., Kosarev P.S., Orlova N.G., Potapov V.N. (2000) Analysis of context dependencies within regulatory gene regions in eukaryotes. // In: Proceedings of BGRS'2000, ICG Press, Novosibirsk, p.l 15-117.

22. Orlov Yu.L., Levitsky V.G. (2000) Nucleosome code analysis by estimating Markov dependencies. // In: Proceedings of BGRS'2000, ICG Press, Novosibirsk, p. 153156.

23. Ponomarenko M.P., Kel A.E., Orlov Yu.L., Benjukh D.N., Ischenko I.V., Bockhonov V.B., Likhachev E.A., Kolchanov N.A. (1993) System "Site-Video". Recognition of Functional Sites Using Recursive Context Systems. // In: "Computer analysis of genetic macromolecules: Structure, Function and Evolution" (Kolchanov N.A., Lim H., eds), World Sci.Pub.Co., Singapore, p.35-65.

24. Rogozin I.B., Milanesi L., Ischenko I.V., Kel A.E., Kolchanov N.A., Ponomarenko M.P., Orlov Yu.L. (1993) Computer system "GenView" for Recognition of exon-intron structure of genes in human genome. // In: "Computer analysis of genetic macromolecules: Structure, Function and Evolution" (Kolchanov N.A., Lim H., eds), World Sci.Pub.Co., Singapore, 142-153.

25. Kel A.E., Ponomarenko M.P., Likhachev E.A., Orlov Y.L., Ischenko I.V., Milanesi L., Kolchanov N.A. (1993) SITEVIDEO: a computer system for functional site analysis and recognition. Investigation of the human splice sites. CABIOS, V. 9, 617-627.

26. Kel A.E., Kolchanov N.A., Solovyev V.V., Ponomarenko M.P., Ischenko I.V., Orlov Yu.L., Kapitonov V.V. (1992) Computer investigation of structural organization and evolution of functional sites in polynucleotide sequences. // In: "Modeling and computer methods in molecular biology and genetics" (Ratner V.A., Kolchanov N.A., eds), Nova Sci.Publ., Inc., New York, 49-62.

27. Пономаренко M.P., Бенюх Д.Н., Орлов Ю.Л., Колчанов Н.А. (1991) Метод точного распознавания структурно-функциональных детерминант белковых молекул. // Биофизика, 36, с. 943-956.

ЗАКЛЮЧЕНИЕ

Интернет-доступные программные средства, разработанные в рамках диссертационной работы, позволили получить новые теоретические результаты по анализу контекстной структуры нуклеотидных последовательностей геномов.

Исследование контекстной структуры геномных последовательностей было упорядочено по объектам анализа: нуклеотидные последовательности сайтов связывания транскрипционных факторов, промоторные районы, экзоны и интроны, 5'-нетранслируемые последовательности, сайты формирования нуклеосом и полные геномы. Работа была объединена идей иерархической организации структурно-функциональных районов и использованием общих методов количественной оценки сложности генетических текстов. Показано статистически значимое различие сложности нуклеотидных последовательностей экзонов, интронов и регуляторных районов, что подтверждает идеи Э.Н. Трифонова (Трифонов, 1996) о связи сложности текста и его функциональной нагруженности. Различие сложности текста экзонов и интронов подтверждено исследованием сайтов сплайсинга, где были найдены тренды изменения сложности. Таким образом, установлена точка изменения сложности нуклеотидных последовательностей при переходе от кодирующих к некодирующим районам.

С использованием программы ТгееСотр1ех11у построены контекстные древовидные модели для выборок нуклеотидных последовательностей сайтов связывания транскрипционных факторов, 5'-нетранслируемых районов генов эукариот, сайтов формирования нуклеосом. Показано наличие контекстных сигнатур (наборов неслучайных контекстов), характеризующих исследованные классы последовательностей. С помощью древовидных моделей можно выполнять поиск функциональных районов, соответствующих этим моделям, в геномной ДНК. Ключом к построению оптимальных древовидных моделей служила концепция стохастической сложности текста. Такой подход оказался плодотворным, в частности, для выделения коровых районов в нуклеотндных последовательностях сайтов связывания транскрипционных факторов.

С помощью контекстных древовидных моделей показана возможность оценки нуклеосомного потенциала последовательности ДНК, т.е. предпочтения последовательности к формированию нуклеосомы. Выделены характерные периодические паттерны в сайтах формирования нуклеосом и тренды изменения сложности текста в пределах сайтов. На основе контекстных закономерностей исследовано предпочтение локализации нуклеосом в геномной ДНК. Показано большее предпочтение к формированию нуклеосом в интронах и некодирующей ДНК по сравнению с экзонами и промоторами. Кроме того найдена корреляция между сложностью и нуклеосомным потенциалом для ССТФ.

Показаны различия в контекстной организации 5'-НТП генов с высоким и низким уровнем экспрессии, дающие возможность использования оценок сложности в качестве дополнительных характеристик для оценки уровня экспрессии гена по нуклеотидной последовательности.

Исследована сложность промоторных районов эукариот, показана консервативность района инициации транскрипции в промоторных районах. Проведен анализ промоторов 6 групп генов эукариот (эритроид-специфичных, интерферон-регулируемых, глюкокортикоид-регулируемых генов, генов липидного метаболизма, генов системы регуляции холестерина и генов ответа на тепловой шок). Выявлены комплексные сигналы, представляющие собой группы специфичных олигонуклеотидов с характерным порядком расположения и варьирующим расстоянием между ними, что отражает паттерны регуляции экспрессии этих генов.

Исследовано распределение протяженных внутри- и межгеномных совершенных повторов для 130 полных геномов прокариот, найдены уникальные протяженные прямые и инвертированные повторы, достигающие более 40 тысяч п.о. Показана связь протяженных совершенных повторов с кластерами генов РНК, генов РНК в бактериальных геномах. Впервые с помощью программы Ь7сотрозег показано, что протяженных симметричные и неканонические прямые комплементарные совершенные повторы, образованы только короткими тандемными повторами. Представленные Интернет-доступные компьютерные программы работают с затратами компьютерного времени, линейно зависящими от длины последовательности, что делает их необходимым инструментом исследования вновь секвенируемых протяженных геномных последовательностей, включая полные геномы.

Список литературы диссертационного исследования кандидат биологических наук Орлов, Юрий Львович, 2004 год

1. Бабенко В.Н., Косарев П.С., Базин В.В., Фролов A.C. (1999) Повторяющиеся последовательности в промоторных районах генов эукариот. Биофизика, 44(4), с.664-667.

2. Витяев Е.Е. (1991) Обнаружение закономерностей (методология, метод, программная система SINTEZ). 1. Методология. Методологические проблемы науки. Вычислительные системы, Новосибирск, 138, с.26-60.

3. Витяев Е.Е., Москвитин A.A. (1993) Введение в теорию открытий. Программная система DISCOVERY. Логические методы в информатике. Вычислительные системы, Новосибирск, 148, с. 117-163.

4. Витяев Е.Е., Орлов Ю.Л., Вишневский О.В., Беленок A.C., Колчанов H.A. (2001) Компьютерная система "GENE DISCOVERY" для поиска закономерностей организации регуляторных последовательностей эукариот. Молекулярная биология, 35(6), с.952-960.

5. Витяев Е.Е., Орлов Ю.Л., Вишневский О.В., Беленок A.C., Колчанов H.A. (2001) Компьютерная система "GENE DISCOVERY" для поиска закономерностей организации регуляторных последовательностей эукариот. Молекулярная биология, 35(6), с.952-960.

6. Вишневский О.В., Витяев Е.Е. (2001) Анализ и распознавание промоторов эритроид -специфичных генов на основе наборов вырожденных олигонуклеотидных мотивов. Молекулярная биология, 35(6), с.979-986.

7. Григорьева А.Н. (1981) Меры сложности слов на основе предиката вхождения и редакционного расстояния. Зап. научн. семинаров ЛОМИ АН СССР, 105, с. 18-24.

8. Гусев В.Д. (1989) Сложностные профили символьных последовательностей. Методы обработки символьных последовательностей и сигналов. Вычислительные системы, Новосибирск, 132, с.35-63.

9. Гусев В.Д., Куличков В.А., Чупахина О.М. (1991а) Анализ сложности геномов. Мера сложности и классификация выявленных структурных особенностей. Молекулярная биология, 25, с.825-834.

10. Гусев В.Д., Куличков В.А., Чупахина О.М. (1991 б) Сложностной анализ геномов. II. Зоны обширной гомологии в бактриофаге X. Молекулярная биология, 25(4), с. 1080-1089.

11. Гусев В.Д., Немытикова Л.А. (2001) Учет проявлений повторности, симметрии и изоморфизма в символьных последовательностях. Методы обнаружения эмпирических закономерностей. Вычислительные системы, Новосибирск, 167, с.11-33.

12. Гусев В.Д., Немытикова Л.А. Сложностные характеристики генетических текстов Труды 4-й Всероссийской конф. "Распознавание образов и анализ изображений". 4.1.16.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.