Компьютерный анализ нуклеосомной организации ДНК и промоторов эукариот тема диссертации и автореферата по ВАК РФ 03.00.15, кандидат биологических наук Левицкий, Виктор Георгиевич
- Специальность ВАК РФ03.00.15
- Количество страниц 237
Оглавление диссертации кандидат биологических наук Левицкий, Виктор Георгиевич
Цели и задачи исследования.
Глава 1. Обзор литературы
1.1. Структурно-функциональная организация геномов эукариот.
1.1.1. Особенности организации геномов и генов эукариот
1.1.2. Структурно-функциональная организация 5'-регуляторных районов, контролирующих транскрипцию генов эукариот
1.1.3. Функциональная роль и эволюционные мотивации возникновения интронов
1.1.4. Повторяющиеся последовательности геномов эукариот 3 О
1.2. Структура геномной ДНК.
1.2.1 Общие сведения об организации двойной спирали ДНК
1.2.2. Конформационные и физико-химические контекстно зависимые свойства ДНК
1.3. Нуклеосомная организация хроматина.
1.3.1. Компактизация ДНК в ядре эукариот, уровни упаковки хроматина
1.3.2. Негистоновые белки хроматина HMG-14 и HMG
1.3.3. MAR/SAR-элементы и высокие уровни упаковки хроматина
1.3.4. Влияние компактизации хроматина на репликацию ДНК
1.3.5. Картирование нуклеосомных сайтов в геномных последовательностях
1.3.6. Экспериментальные исследования ультраструктуры нуклеосомы
1.3.7. Модели нуклеосомной упаковки хроматина
1.3.8. Классификация типов неслучайного расположения нуклеосом на ДНК
1.3.9. Интроны и нуклеосомная организация хроматина
1.4. Роль нуклеосомной организации хроматина в регуляции-транскрипции генов.
1.4.1. Нуклеосомная упаковка ДНК в промоторном районе гена
1.4.2. Нуклеосома как регулятор транскрипции. Взаимодействие нуклеосом и транскрипционных факторов
1.4.3. Изменения нуклеосомной организации хроматина в процессе инициации и элонгации транскрипции
1.4.4. Модификации гистонов: изменения в клеточном цикле и при экспрессии генов
1.4.5. Регуляция транскрипции генов с помощью гистона HI
1.5. Компьютерный анализ нуклеосомной организации ДНК.
1.5.1. Особенности нуклеосомного кода укладки хроматина
1.5.2. Метод анализа частот динуклеотидов
1.5.3. Метод консенсусов
1.5.4. Анализ лингвистической сложности ДНК
1.5.5. Анализ периодичности расположения тринуклеотидов VWG
1.5.6. Метод множественного выравнивания и анализ частот динуклеотидов
1.5.7. Метод контурной длины ДНК
1.5.8. Метод конформационных параметров и профилей
1.6. Компьютерные методы распознавания регуляторных геномных последовательностей
1.6.1. Метод весовых матриц
1.6.2. Метод скрытых марковских цепей
1.6.3. Метод дискриминантного анализа
1.6.4. Метод реализаций
1.6.5. Метод конформационных параметров: система B-DNA Video
1.6.6. Методы распознавания промоторов и построения моделей регуляторных районов
1.6.7. Обзор программ распознавания промоторов, доступных по сети Интернет
1.6.8. Статистические характеристики, используемые для сравнения точности разных методов
Введение диссертации (часть автореферата) на тему «Компьютерный анализ нуклеосомной организации ДНК и промоторов эукариот»
Актуальность темы
Отличительная особенность геномов эукариот - наличие сложно организованного хроматина, обеспечивающего компактизацию и упорядоченную упаковку геномной ДНК. Базовый уровень этой упаковки соответствует нуклеосомной организации геномной ДНК. Регуляция экспрессии генов эукариот тесно связана с изменениями нуклеосомной организации хроматина (Steger and Workman, 1996).
В настоящее время имеется большой набор методов экспериментального исследования нуклеосом. Структура нуклеосомной ДНК исследуется с помощью методов рентгеноструктурного анализа (Luger et al., 1997, Arents and Moudrianakis, 1993), электронной микроскопии, методами химической физики (Mirzabekov et al., 1990; Ebralidse et al, 1993). К настоящему времени выявлены различные особенности нуклеосомной ДНК (Satchwell et al., 1986; Ulyanov and Stormo, 1995; Ioshikhes et al, 1996).
Многочисленные данные, полученные в экспериментальных и компьютерных исследованиях, свидетельствуют о том, что расположение нуклеосом может контролироваться особым контекстным кодом укладки хроматина (Trifonov, 1997). Однако вопрос о природе кода нуклеосомной упаковки ДНК остается открытым. Не решен также вопрос о природе конформационных сигналов, обеспечивающих оптимальную конформацию ДНК, необходимую для формирования нуклеосомы, а также о способах кодирования конформационных сигналов в нуклеотидных последовательностях нуклеосомных сайтов. Исследование этих вопросов является актуальной задачей молекулярной биологии и генетики. Особую важность имеет создание технологий компьютерного анализа нуклеосомных сайтов, направленных на комплексное изучение их структурно-функциональной организации и выявление значимых контекстных и конформационных сигналов, обеспечивающих позиционирование нуклеосом.
Локализация сайтов формирования нуклеосом в геномной ДНК может выявляться с использованием разнообразных экспериментальных подходов (Wu, 1980; Nedospasov and Georgiev, 1980; Nedospasov et al, 1989). Однако эти методы не пригодны для массового анализа нуклеосомной организации геномной ДНК, в особенности - изучения нуклеосомной организации протяженных участков геномной ДНК размером в десятки и сотни тысяч пар оснований. Эта проблема приобрела особую актуальность в последние годы в связи с огромными успехами в массовом секвенировании геномов эукариот (Marshall, 2000; Dunham et al., 1999; Jang et al, 1999). Секвенирование геномов превратилось в рутинную процедуру молекулярной биологии и в настоящее время в рамках множества геномных проектов происходит стремительное накопление информации о нуклеотидных последовательностях геномов эукариот. Вместе с тем, эффективные процедуры компьютерного анализа нуклеосомной организации последовательностей геномов эукариот в настоящее время отсутствуют. В связи с этим важное значение имеет разработка надёжных методов компьютерного распознавания нуклеосомных сайтов в нуклеотидных последовательностях геномной ДНК. Их создание является актуальной задачей информационной генетики.
Показано, что позиционирование нуклеосомы в промоторном районе гена может затруднять формирование многокомпонентного комплекса инициации транскрипции (Adams and Workmann, 1993). С другой стороны, упаковка промоторной ДНК в нуклеосому может приводить к пространственному сближению удалённых сайтов связывания транскрипционных факторов, способствующему формированию транскрипционного комплекса (Wolffe, 1994). Однако в настоящее время имеется лишь ограниченное количество экспериментальных и компьютерных исследований, посвященных изучению особенностей нуклеосомной ДНК промоторов эукариот. В частности, остаются открытыми вопросы о связи нуклеосомной упаковки ДНК промоторов с характером экспрессии генов. Не изучены особенности нуклеосомной упаковки ДНК в других типах функциональных районов геномов эукариот (кодирующих частях генов, интронах, повторяющихся последовательностях и т.д.). Решение этих задач является актуальным для понимания механизмов регуляции функций геномов и экспрессии генов эукариот. Исследование этих вопросов с помощью методов компьютерного анализа является одной из актуальных задач молекулярной биологии и генетики.
В начальный период массового секвенирования геномов эукариот основное внимание исследователей при их компьютерном анализе уделялось изучению кодирующих частей генов. Несколько позднее перед исследователями встала задача компьютерного анализа и распознавания промоторов. В настоящее время, несмотря на наличие большого разнообразия программ распознавания промоторов (Brazma et al., 1998; Fickett and Hatzigeorgiou, 1997), их точность по-прежнему остается невысокой. Создание новых методов компьютерного анализа и распознавания промоторов является актуальной задачей не только потому, что на этой основе возможно создание более надежных методов поиска генов в геномной ДНК эукариот, но также и потому, что оно может внести существенный вклад в изучение структурнофункциональной организации транскрипционных регуляторных районов и понимание сложных процессов регуляции транскрипции.
Цели и задачи исследования
Целью настоящей работы является комплексный компьютерный анализ нуклеосомных сайтов и промоторов генов эукариот, направленный на изучение базовых особенностей их структурно-функциональной организации и создание методов их распознавания. Для достижения этой цели в рамках диссертации решаются следующие задачи.
1. Компьютерный анализ контекстной организации нуклеосомных сайтов. Разработка программы для распознавания нуклеосомных сайтов в последовательностях геномной ДНК на основе значимых особенностей контекста.
Характерная особенность геномов эукариот - упаковка ДНК в хроматин, базовым уровнем организации которого являются нуклеосомы. Показано, что позиционирование нуклеосом на ДНК контролируется специальным кодом (Trifonov, 1997). Несмотря на многочисленные исследования, контекстные особенности этого кода окончательно не установлены. Исследование контекстных особенностей нуклеосомного кода требует разработки новых подходов, учитывающих его вырожденность и распределенность контекстных сигналов этого кода вдоль нуклеосомных сайтов.
2. Исследование конформационных и физико-химических особенностей ДНК нуклеосомных сайтов. Разработка программ для распознавания нуклеосомных сайтов в последовательностях геномной ДНК на основе их значимых конформационных и физико-химических особенностей.
Необходимость решения этой задачи обусловлена тем, что природа ДНК-белковых взаимодействий в нуклеосоме определяется конформационными и физико-химическими свойствами ДНК, которые, в свою очередь, зависят от локального нуклеотидного контекста нуклеосомных сайтов. Зависимость конформационных и физико-химических свойств ДНК от её локального нуклеотидного контекста позволяет исследовать конформационные и физико-химические особенности нуклеосомной ДНК. При этом особую важность представляет выявление конформационных и физико-химических особенностей ДНК, значимых для формирования нуклеосом и установление характера их зависимости от контекста нуклеосомных сайтов и создание на этой основе метода распознавания нуклеосомных сайтов в геномной ДНК.
3. Компьютерный анализ структурно-функциональной организации промоторов генов эукариот. Разработка программ распознавания промоторов.
Промоторы генов эукариот, транскрибируемых РНК-полимеразой П, являются объектом исследования с использованием как экспериментальных, так и компьютерных методов. Однако, несмотря на многочисленные исследования, глубокое понимание особенностей организации промоторов, определяющих их функцию до настоящего времени отсутствует (Pedersen etal., 1999). По-видимому, в связи с этим создание надежных методов распознавания промоторов оказалась одной из самых трудных задач современной биоинформатики. Хотя к настоящему времени предложено несколько подходов к распознаванию промоторов эукариот (Fickett and Hatzigeorgiou, 1997, Pedersen et al, 1999), вопрос о создании эффективных методов распознавания промоторов нельзя считать решённым. В связи с этим в рамках диссертации нами проведено комплексное исследование промоторов генов эукариот, направленное на изучение их блочно-контекстной организации и создание на этой основе метода распознавания промоторов.
4. Исследование нуклеосомной организации промоторов генов эукариот.
Имеющиеся экспериментальные данные показывают, что нуклеосомная организация промоторов оказывает существенное влияние на транскрипцию генов эукариот (Hahn, 1998; Paranjape et al, 1994). Компьютерное исследование нуклеосомной организации промоторов может дать ценные знания о роли нуклеосомной организации хроматина в механизмах регуляции экспрессии генов. В связи с этим в настоящей работе проведено систематическое исследование особенностей нуклеосомной организации промоторов генов, транскрибируемых РНК-полимразой П, имеющих различную специфичность транскрипции (генов "домашнего хозяйства", генов, экспрессирующихся в широком круге тканей, тканеспецифичных генов).
5. Изучение особенностей нуклеосомной организации генов, связанных с их экзон-интронной структурой.
Экзон-интронная организация генов и нуклеосомная упаковка ДНК - характерная особенность геномов эукариот. Несмотря на важность вопроса об их взаимосвязи, систематического исследования этого вопроса до настоящего времени не проводилось. Компьютерное исследование этого вопроса являлось одной из задач настоящей работы. Еще одна характерная особенность геномов эукариот - наличие повторяющихся последовательностей различных типов, функциональная роль которых в большинстве случаев остается неизвестной. В связи с этим нами проведено компьютерное исследование различных типов повторов в геномах эукариот для оценки их нуклеосомного потенциала, то есть способности к формированию нуклеосом.
6. Создание баз знаний по структурно-функциональной организации нуклеосомных сайтов.
В результате компьютерного анализа нуклеосомных сайтов, проведенного в рамках диссертации, было накоплено большое количество значимой информации и созданы программы их распознавания. Для хранения полученных результатов, их накопления, визуализации и обеспечения эффективного Интернет-доступа к ней нами в рамках новых информационных технологий осуществлялась разработка базы знаний по структурно-функциональной организации нуклеосомной ДНК, содержащей: (1) нуклеотидные последовательности нуклеосомных сайтов; (2) описание выявленных значимых контекстных и конформационных свойств ДНК; (3) интерактивные программы распознавания нуклеосомных сайтов в произвольных последовательностях ДНК; (4) знания о нуклеосомной ДНК, полученные на основе применения этих программ.
Научная новизна и практическая ценность
Предложен новый, не имеющий аналогов метод распознавания нуклеосомных сайтов, основанный на использовании дискриминантного анализа и учёте частот динуклеотидов в локальных участках этих сайтов. Этот метод опирается на выявление блочной структуры нуклеосомного сайта при разбиении его на локальные участки со специфическим динуклеотидным контекстом.
С использованием этого метода впервые получены систематические оценки потенциала формирования нуклеосомы для промоторов генов эукариот. Показано, что промоторы тканеспецифичных генов обладают более высоким потенциалом формирования нуклеосомы по сравнению с промоторами генов, экспрессирующихся в широком круге тканей и генов "домашнего хозяйства".
Исследован потенциал формирования нуклеосомы для экзонов, интронов, сайтов сплайсинга, повторяющихся последовательностей.
Выявлены существенные отличия потенциала формирования нуклеосомы для районов генов, соответствующих донорным и акцепторным сайтам сплайсинга.
На базе разбиения нуклеосомного сайта на локальные участки впервые проведено систематическое исследование конформационных и физико-химических свойств ДНК в локальных участках нуклеосомных сайтов со специфическим динуклеотидным контекстом. Выявлены конформационные и физико-химические свойства ДНК наиболее значимые для отдельных локальных участков нуклеосомной ДНК.
На базе дискриминантного анализа разработан оригинальный алгоритм распознавания промоторов эукариот, основанный на учёте частот динуклеотидов в пределах локальных неперекрывающихся участков промотора. Распознавание промоторов основано на учете модульной структуры промоторных районов. Разработанный подход применён для распознавания ТАТА-содержащих и ТАТА-несодержащих промоторов DrosophiJa melanogaster. Показано, что разработанная программа распознавания промоторов способна правильно предсказывать положение ТАТА-несодержащих промоторов, для которых характерны слабые и неточно локализованные контекстные сигналы. С помощью разбиения промоторной ДНК на локальные участки сайтов со специфическим динуклеотидным контекстом проведено исследование конформационных и физико-химических свойств ДНК в локальных участках ТАТА-содержащих промоторов. Выявлены конформационные и физико-химические свойства ДНК, наиболее важные для района ТАТА-бокса и его флангов.
Впервые создана база знаний для накопления информации о значимых результатах компьютерного анализа нуклеосомных сайтов. Для представления полученных результатов ДНК разработан формат интегрированной базы знаний, содержащей сведения о последовательностях ДНК различных типов функционально значимых районов геномов, их контекстной и структурной организации, а также программы распознавания нуклеосомных сайтов и промоторов в последовательностях геномной ДНК. База знаний - это справочно-информационная система для всех исследователей, изучающих нуклеосомную организацию хроматина, кроме того, она может быть полезной в целях обучения.
Практическая значимость полученных оригинальных результатов заключается в том, что они могут ускорить процесс аннотации вновь секвенируемых геномных последовательностей. Возможность поиска компьютерными методами сайтов посадки нуклеосом и промоторов очень важна для выяснения молекулярных механизмов функционирования геномных последовательностей, изучения их структуры и эволюции.
По итогам диссертационной работы опубликовано 15 работ, включая четыре статьи в рецензируемых журналах. Результаты работы представлены на четырёх российских и пяти международных конференциях: Третий сибирский конгресс по индустриальной и прикладной математике (ИНПРИМ-98, г. Новосибирск, июнь 1998 г.); Первая международная конференция по биоинформатике, структуре и регуляции генома (г. Новосибирск, август 1998 г.); Школа молодых учёных по молекулярной биологии и биомедицине (апрель 1999 г., г. Черноголовка Московской обл.); Конференция по актуальным проблемам современной
11 биологии (г. Новосибирск, август 1999 г.); Школа молодых учёных по биоинформатике (г. Магдебург, Германия, сентябрь 1999 г.); Международный симпозиум по инактивации X хромосомы млекопитающих (г. Новосибирск, сентябрь 1999 г.); П съезд Всероссийского Общества Генетиков и Селекционеров (г. Санкт-Петербург, февраль 2000 г.); Вторая международная конференция по биоинформатике, структуре и регуляции генома (г. Новосибирск, август 2000 г.); Конференция молодых учёных, посвященная 100-летию со дня рождения академика М. А. Лаврентьева (декабрь 2000 г., Новосибирск).
Структура работы
Диссертационная работа состоит из введения, обзора литературы (первая глава), трёх глав, содержащих основные результаты, выводов, списка цитированной литературы (376 ссылок). Работа изложена на 237 страницах, содержит 72 рисунка и 38 таблиц. Нумерация рисунков, таблиц и формул производится отдельно для каждой главы.
Позиционирование нуклеосом на гене неомицинфосфотрансферазы в репрессированном состоянии и при индукции экспрессии в составе дрожжевых плазмид2008 год, кандидат биологических наук Захарова, Мария Глебовна
Комплексное исследование метилотипов злокачественных новообразований: фундаментальные и прикладные аспекты2012 год, доктор биологических наук Стрельников, Владимир Викторович
Полногеномный компьютерный анализ распределения сайтов связывания транскрипционных факторов эукариот по данным иммунопреципитации хроматина и высокопроизводительного секвенирования2014 год, кандидат наук Орлов, Юрий Львович
Роль субъединиц и доменов комплекса FACT в разворачивании нуклеосом2022 год, кандидат наук Сивкина Анастасия Львовна
Влияние белкового комплекса FACT на структуру нуклеосом2017 год, кандидат наук Валиева Мария Евгеньевна
Заключение диссертации по теме «Генетика», Левицкий, Виктор Георгиевич
выводы по диссертационной работе
Предложен метод разбиения сайтов формирования нуклеосом на локальные участки с гомогенным ринуклеощдным контекстом. На основе этого метода разработана программа вычисления (уклеосомного потенциала нуклеотидной последовательности - количественной характеристики июсобност ДНК к формированию нуклеосом Показано, что эта программа обеспечивает давильную классификацию нуклеогидных последовательностей, обладающих повышенным и юниженным сродством к гистоновому октамеру.
Хоказано выраженное возрастание нуклеосомного потенциала по направлению от экзонов к [тронам в донорных сайгах сплайсинга и выраженное падение по направлению ог интронов к кзонам в акцепторных сайгах сплайсинга.
Ьказано, что нуклеосомный потенциал промоторных районов генов "домашнего хозяйства" и генов, кспрессирующихся во многих тканях существенно ниже, чем промспорных районов канеспецифичных генов.
Ставлены следующие наиболее значимые контекстно-зависимые информационные и физико-имические свойства ДНК для локальных участков сайтов формирования нуклеосом: "вероятность онтасга малой бороздки ДНК с нуклеосомным кором" и "угол раскрытия пары оснований вдоль её орогкой оси для ДНК-белковых комплексов".
1редгожен новый метод распознавания промоторов РНК-подимеразы П, основанный на разбиении ромоторов на локальные участки и учёте распределения динуклесгтидных частот в пределах этих часгков. Разработаны программы распознавания ТАТА-содержащих и ТАТА-несодержащих ромоторов Drasophila melanogasler. t ТАТА-содержащих промоторах при переходе ог ТАТА-боксов к их G/C-ботшым флангам оказано резкое изменение величин конформационных и физико-химических свойств ДНК, таких как ширина малой бороздки", "гибкость в сторону малой бороздки", "гибкость в сторону большой ороздки".
