Эволюция альтернативного сплайсинга генов млекопитающих тема диссертации и автореферата по ВАК РФ 03.00.28, кандидат физико-математических наук Нуртдинов, Рамиль Наилевич
- Специальность ВАК РФ03.00.28
- Количество страниц 105
Оглавление диссертации кандидат физико-математических наук Нуртдинов, Рамиль Наилевич
Введение
Актуальность темы
Цели и задачи исследования
Научная новизна
Апробация работы
Публикации
Глава 1. Обзор литературы
1.1 Методы предсказания экзон-интронной структуры гена.
1.2 Альтернативный сплайсинг.
1.3 Альтернативный сплайсинг и структура белка
1.4 Современные представления об эволюции альтернативного сплайсинга . 39 Выводы по главе 1- • • • • • • • • I
Глава 2. Материалы, алгоритмы и методы
2.1 Данные работы по предварительному анализу консервативности альтернативного сплайсинга
2.2 Создание базы данных альтернативно сплайсируемых генов ЕОАБ
2.2.1 Последовательности
2.2.2 Выравнивания
2.2.3 Алгоритм выделения элементарных альтернатив
2.3 Методика определения консервативности экзонов и альтернативно сплайсируемых участков
2.4 Создание выборки участков интронов мыши, предназначенных для анализа доли случайно консервативных альтернатив
2.5 Выделение дуплицированных генов
Глава 3. Результаты
3.1 Предварительная оценка консервативности альтернативного сплайсинга
3.2 Создание базы данных альтернативно сплайсируемых генов ЕБАБ
3.3 Оценка доли альтернативно сплайсируемых генов
3.4 Статистический анализ альтернативных сайтов сплайсинга
3.5 Консервативность элементарных событий альтернативного сплайсинга генов человека в геномах мыши и собаки
3.6 Консервативность элементарных событий альтернативного сплайсинга генов мыши в геномах человека, собаки и крысы
3.7 Альтернативный сплайсинг в дуплицированных генах . Основные результаты и выводы
Благодарности
Рекомендованный список диссертаций по специальности «Биоинформатика», 03.00.28 шифр ВАК
Отбор и эпистаз в сайтах сплайсинга2017 год, кандидат наук Денисов, Степан Владимирович
Компьютерный анализ сплайсинга2007 год, кандидат биологических наук Неверов, Алексей Дмитриевич
Исследование механизма транс-сплайсинга у Drosophila melanogaster2020 год, кандидат наук Уткина Марина Валерьевна
Компьютерный анализ и предсказание функциональных особенностей последовательностей ДНК1998 год, доктор биологических наук Гельфанд, Михаил Сергеевич
Анализ возрастных изменений альтернативного сплайсинга в коре головного мозга высших приматов2018 год, кандидат наук Мазин, Павел Владимирович
Введение диссертации (часть автореферата) на тему «Эволюция альтернативного сплайсинга генов млекопитающих»
Актуальность темы
Все живые организмы на Земле можно, базируясь на клеточной организации, разделить на две группы, прокариоты и эукариоты (от греческого слова карион — ядро). Клетки прокариот не имеют полноценного клеточного ядра, в то время как для эукариот характерно четко выраженное клеточное ядро, отделенное от цитоплазмы двойной ядерной мембраной, а также наличие большого количества других мембранных органелл.
Характерной особенностью эукариотических генов является существование механизма вырезания из первичного транскрипта пре-мРНК протяженных участков, называемых интронами. Оставшиеся участки, экзоны, сшиваются, и получаемая мРНК впоследствии используется как матрица для синтеза белка. Процесс вырезания интрона и сшивки экзонов называется сплайсинг. Сильно упрощенный процесс сплайсинга наблюдается также у некоторых видов прокариот: самосплайсинг у бактерий и архей, а также сплайсинг пре-мРНК в хлоропластах, однако он наблюдается у незначительного числа генов и не играет значительной роли. Каждое событие сплайсинга вырезает один интрон и, как правило, спласинг интрона происходит независимо от сплайсинга остальных интронов. Сплайсинг осуществляется сплайсосомой, комплексом, состоящим из нескольких малых ядерных РНК и большого числа белков, непосредственно участвующих в процессе вырезания интрона. Кроме того, существует большая группа белков, называемых факторами сплайсинга, которые осуществляют регуляцию сплайсинга, блокируя, или наоборот, способствуя вырезанию конкретных интронов или групп интронов. донорныи сайт акцепторный сайт сплайсинга сайт сплайсинга ветвления и) 5П(?МР ленин
А тпдга
Абеи А (ТгАОви экзон 1 интрон экзон 2
Рисунок I. Нуклеотидные последовательности, участвующие в процессе сплайсинга.
В процессе сплайсинга происходит распознавание трех участков пре-мРНК (Рисунок I): донорного сайта сплайсинга (консенсус Ав/СиИЛОи; косая черта обозначает границу интрона и экзона), сайта ветвления (консенсус СТЯАУУ), и акцепторного сайта сплайсинга (консенсус УТУУУУУЫСАОЛЗ). В процессе распознавания сайтов сплайсинга происходит узнавание донорного сайта сплайсинга комплексом малых ядерных РНК иб/114, а также узнавание сайта ветвления малой ядерной РНК Ш. На следующем этапе происходит сближение 5' и 3' концов интрона и образование комплекса Ш, 114/1)6. Далее происходит разрезание мРНК по донорному сайту сплайсинга и замыкание 5' конца интрона на 2' положение рибозы нуклеотида точки ветвления (Рисунок 2).
Соединенные экзоны
Рисунок 2. Сплайсинг пре-мРНК.
Малая ядерная РНК и5 сводит вместе донорный и акцепторный сайт сплайсинга. В результате последующей реакции происходит сшивка донорного и акцепторного сайта и полное вырезание интрона.
Для многих генов характерен альтернативный сплайсинг - процесс неоднозначного вырезания интронов. В результате один ген может кодировать несколько разных белков, которые могут иметь как сходное строение и функцию, так и сильно отличаться друг от друга. В случае недостаточно эффективного узнавания донорного, акцепторного сайта или сайта ветвления соответствующий экзон может иногда быть пропущен и отсутствовать в зрелой мРНК, что приведет к появлению двух разных матриц. При наличии рядом двух одинаковых или почти одинаковых донорных или акцепторных сайтов сплайсинга выбор только одного сайта будет невозможен, и частота появления соответствующих мРНК будет зависеть от соотношения эффективностей связывания с ними комплекса сплайсосомы. Существует также регулируемый альтернативный сплайсинг, когда некоторые белки, связываясь с пре-мРНК, могут препятствовать образованию комплекса сплайсосомы, либо, наоборот, усиливать действие слабых сайтов, делая их более предпочтительными.
Как и любой другой клеточный процесс, сплайсинг подвержен ошибкам, в частности, альтернативный сплайсинг можно рассматривать как своего рода "узаконенную" ошибку сплайсинга, приносящую пользу организму. В общем случае нет четкой границы между ошибками сплайсинга и альтернативным сплайсингом. Единственным критерием может быть функциональность альтернативной формы белка. Например, если в результате альтернативного или ошибочного сплайсинга изменится активный центр белка-фермента, фермент может превратиться из катализатора в ингибитор соответствующей реакции, в результате чего скорость этой реакции будет зависеть от соотношения концентраций этих двух вариантов белка. Если такая регуляция полезна, возможность создания альтернативной формы может быть закреплена в о популяции, и возможная ошибка сплайсинга станет альтернативным сплайсингом.
Большинство ошибок сплайсинга приводят к образованию мРНК, кодирующих нефункциональные короткие варианты белка. В основном это происходит из-за сдвига рамки считывания, получаемого в результате пропуска экзона длины не кратной трем, не кратного трем сдвига сайта сплайсинга, а также вставок в мРНК последовательностей, содержащих терминирующие кодоны. Для предотвращения массового образования таких белков клетка имеет механизм уничтожения ошибочных мРНК — NMD (nonsense-mediated decay). После вырезания интрона в месте соединения акцепторного и донорного сайтов остаются белки, являющиеся мишенями для белков, разрушающих одноцепочечную РНК. Рибосома, транслируя матрицу, счищает эти белки-мишени, и, в случае правильной матрицы, полностью их убирает. Ошибка сплайсинга, приводящая к досрочному прекращению трансляции белка, оставляет несколько белков-мишеней на 3' конце мРНК, и данная матрица через некоторое время уничтожается.
Для предсказания экзон-интронной структуры гена и возможного альтернативного сплайсинга используются два класса методов: статистические методы и методы, основанные на выравнивании. Статистические методы используют статистики длин экзонов и интронов, их аминокислотный (после формальной трансляции) и нуклеотидный состав, частоты нуклеотидов в сайтах сплайсинга. Недостатком статистических методов является недостаточная точность предсказания и предсказание сильно ограниченного множества из возможных схем альтернативного сплайсинга.
Другим классом методов является выравнивание нуклеотидной последовательности уже прошедших сплайсинг мРНК с последовательностью геномной ДНК. Для предсказания альтернативного сплайсинга необходим очень большой объем таких данных. Обычно ген имеет одну, базовую, схему вырезания интронов. Альтернативные варианты белка порождаются реже, или, в случае регулируемого альтернативного сплайсинга, достигают уровня экспрессии базового варианта в ограниченном наборе тканей или в течение ограниченного промежутка времени.
Уровень современных технологий секвенирования мРНК не позволяет получать в большом количестве мРНК для конкретных генов, поскольку для этого требуется большой объем ручного труда. Необходимо отделить требуемые мРНК от продуктов экспрессии других генов. Для качественного и многократного секвенирования выделенных матриц необходимы дорогостоящие реагенты и технологии. Сейчас разработаны методики массового секвенирования, позволяющие в автоматическом режиме быстрое, качественное и достаточно полное секвенирование всей клеточной мРНК. Это позволяет за счет объема данных получить адекватную информацию об экспрессии большинства генов. Получаемые нуклеотидные последовательности мРНК были названы EST (Expressed Sequence Tag). Первоначально их природа соответствовала содержащемуся в названии слову tag — обрывок, поскольку это были короткие последовательности длиной 200-500 нуклеотидов. Современные методы выделения и секвенирования позволяют получать практически полноразмерные мРНК. Преимуществом EST является их массовость, дающая возможность получать данные об экспрессии генов в разных тканях и на разных стадиях эмбрионального и постэмбрионального развития. Массовость EST одновременно является и их недостатком, поскольку вероятность секвенирования мРНК для определенного гена зависит от уровня его экспрессии. Из-за этого гены с высоким уровнем экспрессии, например гены белков рибосомы, в сотни или даже тысячи раз более представлены среди EST чем, например, гены систем клеточной регуляции. Поскольку сплайсинг подвержен ошибкам, большое количество EST приводит к секвенированию и этих ошибочных вариантов.
Согласно современным представлениям, более половины генов млекопитающих подвержены альтернативному сплайсингу. Сходные по функции гены имеют сходный альтернативный сплайсинг, например, для многих рецепторов характерно существование трех вариантов белка: растворимой или секретируемой, закрепленной в мембране функциональной или цитоплазматической и закрепленной в мембране нефункциональной или мембранной форм. Выбор между этими вариантами белка осуществляется в результате альтернативного сплайсинга. Трансмембранный домен рецептора обычно кодируется одним экзоном, пропуск его приводит к образованию растворимой формы белка. Функциональный домен, взаимодействующий с соответствующим лигандом, обычно кодируется последним экзоном, его модификация или замена на альтернативный вариант приводит к образованию нефункционального варианта рецептора.
Многие белки, связывающиеся с ДНК, содержат несколько копий ДНК-связывающих доменов, каждый из которых обычно кодируется одним экзоном. В результате альтернативного сплайсинга в белке варьируется количество таких доменов и расстояние между ними.
Альтернативный сплайсинг играет ключевую роль во многих важных клеточных процессах, например, регулирует выбор пола у дрозофилы. Выбор пола дрозофилы зависит от соотношения X хромосом и аутосом. При развитии в мужскую особь в гене sex-lethal (sxl) во 2-м кодирующем экзоне происходит терминация трансляции и образование нефункционального белка. Женский путь развития отличается тем, что происходит блокировка данного экзона, его пропуск, и образование функционального белка. Функциональный белок Sxl участвует в регуляции альтернативного сплайсинга своего собственного гена, закрепляя женский путь развития. Кроме того, он действует на ген transformer (tra) блокируя один из пары акцепторных сайтов, который, так же как и в случае гена sxl, приводит к синтезу нефункционального белка при мужском пути развития. Вместе оба функциональных белка Sxl и Тга способствуют активации альтернативного акцепторного сайта сплайсинга гена doublesex (dsx), продукт которого является уже непосредственным участником процесса дифференциации в женскую особь.
В общем случае альтернативный сплайсинг может порождать большое количество вариантов белка. Например, альтернативный сплайсинг гена человека CD44 может породить более тысячи разных вариантов белка. В центральной области данного гена находятся подряд десять экзонов, каждый из которых, независимо, может быть включен в мРНК или исключен из нее. Описание и анализ всех возможных вариантов кодирования белка для таких генов является крайне затруднительным и нолученные результаты не сопоставимы при сравнении разных генов, поэтому необходимо иметь унифицированную систему описания альтернативного сплайсинга.
Так как интроны вырезаются из мРНК практически независимо друг от друга, то альтернативный сплайсинг каждого из них можно также рассматривать отдельно. Можно выделить несколько характерных путей реализации альтернативного сплайсинга, элементарных альтернатив (Рисунок 3).
Элементарные альтернативы описывают самый простой уровень альтернативного сплайсинга, сплайсинг одного интрона и прилежащих экзонов. Альтернативный донорный сайт сплайсинга - выбор между двумя донорными сайтами сплайсинга (Рисунок ЗА). Альтернативный акцепторный сайт сплайсинга - выбор между двумя акцепторными сайтами сплайсинга (Рисунок ЗБ). Кассетный экзон - возможность пропуска экзона (Рисунок ЗВ). Удерживаемый интрон - возможность не вырезать интрон из мРНК (Рисунок ЗГ). Приведенные выше типы элементарных альтернатив не покрывают весь спектр наблюдаемых вариантов альтернативного сплайсинга, однако большинство сложных вариантов можно свести к набору вышеперечисленных элементарных альтернатив.
Цели и задачи исследования
Объект исследования: объектом исследования является альтернативный сплайсинг генов млекопитающих.
Цель исследования: целью данной работы является исследование альтернативного сплайсинга и его эволюции с использованием биоинформатических методов анализа данных EST.
Сильно снизившееся, по сравнению с предварительными оценками, количество генов человека указывает на значительную роль альтернативного сплайсинга в процессах эмбрионального и постэмбрионального развития человека. Исследование консервативности альтернативного сплайсинга дает возможность отделить альтернативный сплайсинг характерный, например, для млекопитающих и общий для всех них от вариантов белков, возникших, например, в ходе эволюции приматов. Информация о тканевой принадлежности и стадии развития, на которой получена последовательность EST, позволяет определять места и стадии экспрессии как гена в целом, так и его альтернативно сплайсируемых вариантов.
В ходе исследования решались следующие конкретные задачи:
• Предварительная оценка консервативности альтернативно сплайсируемых участков человека в геномной последовательности ортологичных генов мыши, и наоборот.
• Создание базы данных для альтернативно сплайсируемых генов и наблюдаемых схем альтернативного сплайсинга.
• Оценка вероятности того, что наблюдаемая альтернатива является ошибкой данных EST или ошибкой непосредственно самого процесса сплайсинга.
• Оценка доли альтернативно сплайсированных генов человека и мыши.
• Определение свойств альтернативы, таких как частота встречаемости альтернативного варианта, влияние на последовательность белка (удаление или вставка аминокислот), функциональность (способность кодировать полноразмерный белок) альтернативного варианта мРНК.
• Определение консервативности альтернатив человека в геномах мыши и собаки в зависимости от свойств альтернатив.
• Определение консервативности альтернатив мыши в геноме человека, собаки и крысы.
• Выявление закономерностей эволюции альтернативного сплайсинга на основе данных о его консервативности на уровне вида, таксона и класса.
• Выявление закономерностей эволюции альтернативного сплайсинга на основе данных о его консервативности внутри разных по скорости молекулярной эволюции групп генов.
• Выявление закономерностей эволюции альтернативного сплайсинга дуплицированных генов.
Научная новизна
Впервые оценена доля неконсервативного альтернативного сплайсинга: около 30% альтернативно сплайсируемых участков человека не консервативны в геноме мыши, около 20% альтернативно сплайсируемых участков мыши не консервативны в геноме человека.
В ходе выполнения работы создан набор программных средств, позволяющий с минимальным участием пользователя производить отбор EST, выравнивание их с соответствующим участком геномной последовательности, оценку качества полученных выравниваний и последующую обработку для получения информации о сплайсинге.
Полученная информация о 28957 генах человека и 31811 генов мыши собрана в базу данных EDAS. Разработан и реализован алгоритм выделения альтернатив и декомпозиции их на элементарные альтернативы.
На основании полученных данных об альтернативном сплайсинге оценена частота встречаемости альтернативно сплайсируемых генов человека. Исследована зависимость доли альтернативно сплайсированных генов от степени EST-покрытия генов и от степени EST-покрытия альтернативы.
Создан web интерфейс, позволяющий наглядно демонстрировать структуру гена, наблюдаемые альтернативы, информацию о тканевой экспрессии каждого экзона, интрона или всего гена. Реализована возможность фильтрации данных, позволяющая варьировать качество EST-покрытия экзонов, интронов и альтернатив. Создана система поиска нужного гена по его названию или его части, короткому имени и по идентификаторам общепризнанных баз данных.
Реализован метод оценки возможной ошибочности наблюденных альтернатив, на основании сравнения EST-покрытия базового и альтернативного вариантов.
Для приблизительно 10 тысяч генов человека определены ортологичные гены мыши и собаки.
Для белок-кодирующих альтернатив человека исследовалась консервативность элементарных событий альтернативного сплайсинга человека в геномах мыши и собаки, в зависимости от EST-покрытия и функциональности альтернативного варианта белка.
Выделены группы ортологичных генов, имеющих разные скорости молекулярной эволюции аминокислотной последовательности. Для каждой группы был проведен анализ консервативности элементарных альтернатив мыши в человека, собаке и крысе.
Набор программных средств и база данных EDAS были использованы в ряде совместных проектов:
1. Оценка встречаемости альтернативного сплайсинга среди разных по функциональности групп генов.
2. Анализ скоростей эволюции белковой последовательности в альтернативно сплайсируемых участках генов.
Апробация работы
Результаты работы были представлены на международных конференциях:
S Third International Conference on Bioinformatics of Genome Regulation and Structure.
BGRS'2002), Новосибирск, 2002; S First Moscow Conference on Computational Molecular Biology (МССМВ'ОЗ, Москва, 2003).
S Second Moscow Conference on Computational Molecular Biology (MCCMB'05, Москва, 2005);
S Meeting of HHMI International Research Scholars (Ashburn, Virginia, USA, 2006); S а также на конференции Информационные технологии и системы (ИТиС'07, Звенигород, 2007).
Публикации
1. Нуртдинов РН, Миронов АА и Гельфанд МС: Консервативен ли альтернативный сплайсинг млекопитающих? Биофизика, 2002, 47(4): 587-594.
2. Nurtdinov RN, Artamonova II, Mironov АА and Gelfand MS: Low conservation of alternative splicing patterns in the human and mouse genomes. Hum. Mol. Genet., 2003,12(11): 1313-1320.
3. Offinan MN, Nurtdinov RN, Gelfand MS and Frishman D: No statistical support for correlation between the positions of protein interaction sites and alternatively spliced regions. BMC Bioinformatics, 2004, 5: 41.
4. Neverov AD, Artamonova II, Nurtdinov RN, Frishman D, Gelfand MS and Mironov AA: Alternative splicing and protein function. BMC Bioinformatics. 2005, 6: 266.
5. Ermakova EO, Nurtdinov RN and Gelfand MS. Fast rate of evolution in alternatively spliced coding regions of mammalian genes. BMC Genomics, 2006, 7: 84.
6. Нуртдинов РН, Неверов АД, Малько ДБ, Космодемьянский ИА, Ермакова ЕО, Раменский BE, Миронов АА и Гельфанд МС: EDAS, база данных альтернативно сплайсируемых генов человека. Биофизика, 2006, 51(4), 589-592.
7. Ermakova ЕО, Nurtdinov RN, Gelfand MS: Overlapping alternative donor splice sites in the human genome. J Bioinform Comput Biol. 2007, 5(5): 991-1004.
8. Nurtdinov RN, Neverov AD, Favorov AV, Mironov AA, Gelfand MS: Conserved and species-specific alternative splicing in mammalian genomes. BMC Evol Biol. 2007, 7: 249.
9. Ramensky VE, Nurtdinov RN, Neverov AD, Mironov AA, Gelfand MS: Positive selection in alternatively spliced exons of human genes. Am J Hum Genet. 2008,1: 94-98.
Похожие диссертационные работы по специальности «Биоинформатика», 03.00.28 шифр ВАК
Исследование общих закономерностей эволюции генома человека при дупликации генов и точечном мутагенезе2011 год, кандидат биологических наук Панчин, Александр Юрьевич
Сравнительно-геномный анализ посттранскрипционных и посттрансляционных механизмов регуляции структуры и функции белков2011 год, кандидат биологических наук Курмангалиев, Ербол Жанузакович
Особенности эволюции различных функциональных областей альтернативно сплайсируемых генов эукариот2008 год, кандидат биологических наук Ермакова, Екатерина Олеговна
Исследование общих закономерностей изменения сплайсинга пре-мРНК под воздействием химиотерапевтических препаратов2021 год, кандидат наук Ануфриева Ксения Сергеевна
Дальние взаимодействия в геномах эукариот и регуляция сплайсинга2014 год, кандидат наук Храмеева, Екатерина Евгеньевна
Заключение диссертации по теме «Биоинформатика», Нуртдинов, Рамиль Наилевич
Основные результаты и выводы
1. Создана база данных альтернативно сплайсируемых генов ЕЭАБ, в которой собрана информация об альтернативном сплайсинге генов человека и мыши.
2. Разработан алгоритм анализа выделения сложных и элементарных альтернатив с использованием алгоритмов анализа графов сплайсинга. Реализован алгоритм оценки достоверности наблюденных альтернатив.
3. Проведен анализ консервативности элементарных событий альтернативного сплайсинга генов человека в геномах мыши и собаки, а также анализ консервативности элементарных событий альтернативного сплайсинга генов мыши в геномах человека, собаки и крысы. Впервые показана существенно меньшая консервативность альтернативных экзонов и сайтов сплайсинга по сравнению с константными.
4. Показано, что нарушающие рамку считывания альтернативы существенно менее консервативны, чем сохраняющие рамку считывания. Показано, что существенная доля редких нарушающих рамку считывания альтернатив функциональны.
5. Показано, что распределение альтернативных сайтов сплайсинга согласуется с моделью случайной фиксации сайтов. Альтернативный вариант акцепторного и донорного сайтов преимущественно приближает длину экзона к стандартной, укорачивая длинные экзоны и удлиняя короткие.
6. Установлено, что максимальная консервативность кассетных экзонов наблюдается в генах с наименьшей скоростью молекулярной эволюции, в более быстро эволюционирующих генах возрастает доля неконсервативных альтернатив.
7. Показано, что гены с повышенной скоростью молекулярной эволюции существенно более часто приобретают новые кассетные экзоны в ходе эволюции. Также такое поведение характерно для дуплицированных генов, особенно для изменивших в ходе эволюции функцию кодируемого белка дуплицированных копий генов.
Благодарности
Автор данной работы благодарен научному руководителю А.А Миронову, а также М.С. Гельфанду за огромное количество идей, поправок и замечаний в процессе непосредственно научной работы, а также при подготовке диссертационной работы.
Особая благодарность выражается соавторам многих совместных работ:
А.Д. Неверову, И.И. Артамоновой, Е.О. Ермаковой, А.Д. Фаворову, В.Е. Раменскому, И.А.
Космодемьянскому, Д.Б. Малько, а также коллегам из Германии М.Н. Оффману и Д.
Фришману.
Также благодарность выражается сотрудникам Национальной Лаборатории Лоуренса в городе Беркли США под руководством И. Дубчак за предоставленные вычислительные ресурсы, и конкретно А. Полякову.
В разное время научная работа была поддержана грантами: РФФИ (00-15-99362), РФФИ (04-04-49440), ШТАБ (99-1476), ШТАБ (05-1000008-8028), ННМ1 (55000309), ННМ1 (55001056), ЫСК/СЮЭР (КВО-1268) и программой "Молекулярная и клеточная биология" РАН России.
Список литературы диссертационного исследования кандидат физико-математических наук Нуртдинов, Рамиль Наилевич, 2008 год
1. Wang J, Li S, Zhang Y, Zheng H, Xu Z, Ye J, Yu J, Wong GK: Vertebrate gene predictions and the problem of large genes. Nat Rev Genet. 2003, 9: 741-749
2. Mather C, Sagot M, Schiex T, Rouze P: Current methods of gene prediction, their strength and weaknesses. Nucl. Acids Res. 2002, 30(19): 4103-4117.
3. Bürge С, Karlin S: Prediction of Complete Gene Structures in Human Genomic DNA. J.
4. Mol. Biol. 1997, 268(1): 78-94.
5. Kulp D, Haussler D, Reese M, Eeckman F: A generalized Hidden Markov Model for the recognition of human genes in DNA. Intell. Sys.for Mol. Biol., 4: 134-142.
6. Salamov A, Solovyev V: Ab initio gene finding in Drosophila genomic DNA. Genome Res. 2000,10(4): 516-522.
7. Lukashin A, Borodovsky M: GeneMark.hmm: new solution for gene finding. Nucl. Acids Res 1998,26(4): 1107-1115.
8. Sorek R, Shemesh R, Cohen Y, Basechess O, Ast G, Shamir R: A non-EST-based method for exon-skipping prediction. Genome Res., 2004,14(8): 1617-1623.
9. Sorek R, Ast G: Intronic sequences flanking alternatively spliced exons are conserved between human and mouse. Genome Res., 2003,13(7): 1631-1637.
10. Dror G, Sorek R, Shamir R: Accurate identification of alternatively spliced exons using support vector machine. Bioinformatic, 2005, 21(7): 897-901.
11. Sorek R, Dror G, Shamir R: Assessing the number of ancestral alternatively spliced exons in the human genome. BMC Genomics. 2006, 7: 273.
12. Yeo GW, Van Nostrand E, Holste D, Poggio T, Bürge CB: Identification and analysis of alternative splicing events conserved in human and mouse. Proc Natl Acad Sei USA, 2005, 102(8): 2850-2855.
13. Pan Q, Bakowski MA, Morris Q, Zhang W, Frey BJ, Hughes TR, Blencowe BJ: Alternative splicing of conserved exons is frequently spccies-specific in human and mouse.
14. Trends Genet, 2005, 21(2): 73-77.
15. Wang M, Marin A: Characterization and prediction of alternative splice sites. Gene, 2006,366(2): 219-227.
16. Clark F, Thanaraj TA: Categorization and characterization of transcript-confirmed constitutively and alternatively spliced introns and exons from human. Hum Mol Genet., 2002,11(4): 451-464.
17. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ: Basic local alignment search tool. J Mol Biol. 1990, 215(3): 403-410.
18. Gelfand MS, Mironov AA, Pevzner PA: Gene recognition via spliced sequence alignment.
19. Proc Nat Acad Sci USA. 1996, 93(17): 9061-9066.
20. Mott R: ESTGENOME: a program to align spliced DNA sequences to unspliced genomic DNA. Comput Appl Biosci. 1997,13(4): 477-478.
21. Needleman SB, Wunsch CD: A general method applicable to the search for similarities in the amino acid sequence of two proteins. J Mol Biol. 1970, 48(3): 443-453
22. Mironov AA, Novichkov PS, Gelfand MS: Pro-Frame: similarity-based gene recognition in eukaryotic DNA sequences with errors. Bioinformatics, 2001,17(1): 13-15.
23. Parra G, Agarwal P, Abril JF, Wiehe T, Fickett JW, Guigo R: Comparative gene prediction in human and mouse. Genome Res., 2003,13(1): 108-117.
24. Novichkov PS, Gelfand MS, Mironov AA: Gene recognition in eukaryotic DNA by comparison of genomic sequences .Bioinformatics. 2001, 17(11): 1011-1018.
25. Berget SM, Moore C, Sharp PA: Spliced segments at the 5' terminus of adenovirus 2 latemRNA. Proc Natl Acad Sci USA. 1977, 74(8): 3171-5317.
26. Chow LT, Gelinas RE, Broker TR, Roberts RJ: An amazing sequence arrangement at the 5' ends of adenovirus 2 messenger RNA. Cell, 1977,12(1): 1-8.
27. Behlke MA, Loh DY: Alternative splicing of murine T-cell receptor beta-chain transcripts. Nature, 1986, 322(6077): 379-382.
28. Sikder SK, Kabat EA, Morrison SL: Alternative splicing patterns in an aberrantly rearranged immunoglobulin kappa-light-chain gene. Proc Natl Acad Sci USA, 1985, 82(12): 4045-4049.
29. Naor D, Sionov RV, Ish-Shalom D: CD44: structure, function, and association with the malignant process. Adv Cancer Res. 1997, 71: 241-319.
30. Houck KA, Ferrara N, Winer J, Cachianes G, Li B, Leung DW: The vascular endothelial growth factor family: identification of a fourth molecular species and characterization of alternative splicing of RNA. Mol Endocrinol, 1991,5(12): 1806-1814.
31. McKeown M: Sex differentiation: the role of alternative splicing. Curr Opin Genet Dev. 1992, 2(2): 299-303.
32. Sharp PA: Split genes and RNA splicing. Cell, 1994, 77(6): 805-815.
33. Fields C, Adams MD, White O, Venter JC: How many genes in the human genome? Nat Genet. 1994, 7(3): 345-346.
34. Mironov AA, Fickett JW, Gelfand MS: Frequent alternative splicing of, human genes.
35. Genome Res., 1999, 9(12): 1288-1293.
36. Liang F, Holt I, Pertea G, Karamycheva S, Salzberg SL, Quackenbush J: Gene index analysis of the human genome estimates approximately 120,000 genes. Nat Genet., 2000, 25(2): 239-240.
37. Brett D, Hanke J, Lehmann G, Haase S, Delbrück S, Krueger S, Reich J, Bork P: EST comparison indicates 38% of human mRNAs contain possible alternative splice forms.
38. FEBSLett., 2000, 474(1): 83-86.
39. Ewing B, Green P: Analysis of expressed sequence tags indicates 35,000 human genes.
40. Nat Genet., 2000, 25(2): 232-234.
41. Modrek B, Resch A, Grasso C, Lee C: Genome-wide detection of alternative splicing in expressed sequences of human genes. Nucleic Acids Res., 2001, 29(13): 2850-2859.
42. Venter JC, at al: The sequence of the human genome. Science 2001, 291(5507):1304-1351.
43. International Human Genome Sequencing Consortium: Initial sequencing and analysis of the human genome. Nature, 2001, 409(6822): 860-921.
44. Kan Z, Rouchka EC, Gish WR, States DJ: Gene structure prediction and alternative splicing analysis using genomically aligned ESTs. Genome Res. 2001,11(5): 889-900
45. Kan Z, States D, Gish W: Selecting for functional alternative splices in ESTs. Genome Res., 2002,12(12): 1837-1845.
46. International Human Genome Sequencing Consortium: Finishing the euchromatic sequence of the human genome. Nature, 2004, 431(7011): 931-945.
47. Southan C: Has the yo-yo stopped? An assessment of human protein-coding genenumber. Proteomics, 2004, 4(6): 1712-1726.
48. Schadt EE, at al: A comprehensive transcript index of the human genome generated using microarrays and computational approaches. Genome Biol., 2004, 5(10): R73.
49. Goodstadt L, Ponting CP: Phylogenetic reconstruction of orthology, paralogy, and conserved synteny for dog and human. PLoS Comput Biol. 2006, 2(9): el33.
50. Kim E, Magen A, Ast G: Different levels of alternative splicing among eukaryotes.
51. Nucleic Acids Res. 2007, 35(1): 125-131.
52. Chromosomes: A synthesis, by Robert P. Wagner, Marjorie P. Maguire, and Raymond L. Stailings, Wiley-Liss, New York, 1993, 523 pp.
53. Antequera F, Bird A: Number of CpG islands and genes in human and mouse. Proc Natl AcadSci USA. 1993,90(24): 11995-11999.
54. Wheeler DL, Church DM, Federhen S, Lash AE, Madden TL, Pontius JU, Schuler GD, Schriml LM, Sequeira E, Tatusova TA, Wagner L: Database resources of the National Center for Biotechnology. Nucleic Acids Res., 2003, 31(1): D28-33.
55. Quackenbush J, Liang F, Holt I, Pertea G, Upton J: The TIGR gene indices: reconstruction and representation of expressed gene sequences. Nucleic Acids Res., 2000, 28(1): 141-145.
56. Dunham I, at al: The DNA sequence of human chromosome 22. Nature, 1999, 402(6761): 489-495.
57. Springer MS, Murphy WJ, Eizirik E, O'Brien SJ: Placental mammal diversification and the Cretaceous-Tertiary boundary. Proc Natl Acad Sci USA, 2003 100: 1056-1061.
58. Lejeune F, Li X, Maquat LE: Nonsense-mediated mRNA decay in mammalian cells involves decapping, deadenylating, and exonucleolytic activities. Mol Cell, 12(3):675-687.
59. Gatfield D, Izaurralde E: Nonsense-mediated messenger RNA decay is initiated by cndonucleolytic cleavage in Drosophila. Nature, 2004, 429(6991): 575-578.
60. Gehring NH, Kunz JB, Neu-Yilik G, Breit S, Viegas MH, Hentze MW, Kulozik AE: Exon-junction complex components specify distinct routes of nonsense-mediated mRNA decay with differential cofactor requirements. Mol Cell, 2005, 20(1): 65-75.
61. Rehwinkel J, Raes J, Izaurralde E: Nonsense-mediated mRNA decay: target genes and functional diversification of effectors. Trends Biochem Sci., 2006, 31(11): 639-646.
62. Mitrovich Q, Anderson P: Unproductively spliced ribosomal protein mRNAs are natural targets of mRNA surveillance in C. elegans. Genes Dev., 2000,14(17): 2173-2184.
63. Cuccurese M, Russo G, Russo A, Pietropaolo C: Alternative splicing and nonsensemediated mRNA decay regulate mammalian ribosomal gene expression. Nucleic Acids Res., 2005, 33(18): 5965-5977.
64. Lewis BP, Green RE, Brenner SE: Evidence for the widespread coupling of alternative splicing and nonsense-mediated mRNA decay in humans. Proc Natl Acad Sci USA, 2003, 100(1): 189-192.
65. Pruitt KD, Tatusova T, Maglott DR: NCBI Reference Sequence (RefSeq): a curated nonredundant sequence database of genomes, transcripts and proteins. Nucleic Acids Res., 2005, 33(Database issue): D501-504.
66. Shoemaker DD, et al: Experimental annotation of the human genome using microarray technology. Nature, 2001, 409(6822): 922-927.
67. Deloukas P et al: The DNA sequence and comparative analysis of human chromosome 20. Nature. 2001, 414(6866): 865-871.
68. Johnson JM, Castle J, Garrett-Engele P, Kan Z, Loerch PM, Armour CD, Santos R, Schadt EE, Stoughton R, Shoemaker DD: Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science, 2003, 302(5653): 2141-2144.
69. Torrents D, Suyama M, Zdobnov E, Bork P: A genome-wide survey of human pseudogenes. Genome Res. 2003,13(12): 2559-2567.
70. Harrison PM, Zheng D, Zhang Z, Carriero N, Gerstein M: Transcribed processed pseudogenes in the human genome: an intermediate form of expressed retrosequence lacking protein-coding ability. Nucleic Acids Res., 2005, 33(8): 2374-2383.
71. Sakai H, Koyanagi KO, Imanishi T, Itoh T, Gojobori T: Frequent emergence and functional resurrection of processed pseudogenes in the human and mouse genomes. Gene, 2007, 389(2): 196-203.
72. Svensson O, Arvestad L, Lagergren J: Genome-wide survey for biologically functional pseudogenes. PLoS Comput Biol., 2006, 2(5): e46.
73. Mouse Genome Sequencing Consortium: Initial sequencing and comparative analysis of the mouse genome. Nature. 2002, 420(6915): 520-562.
74. Lindblad-Toh K at all: Genome sequence, comparative analysis and haplotype structure of the domestic dog. Nature. 2005, 438(7069): 803-819.
75. Pontius JU at all: Initial sequence and comparative analysis of the cat genome. Genome Res., 2007,17(11): 1675-1689.
76. Hubbard TJ at all: Ensembl 2007. Nucleic Acids Res., 2007, 35: D610-617.
77. Kriventseva EV, Koch I, Apweiler R, Vingron M, Bork P, Gelfand MS, Sunyaev S: Increase of functional diversity by alternative splicing. Trends Genet., 2003,19(3): 124-128.
78. Apweiler R et al: The InterPro database, an integrated documentation resource for protein families, domains and functional sites. Nucleic Acids Res., 2001, 29(1): 37-40.
79. Homma K, Kikuno RF, Nagase T, Ohara O, Nishikawa K: Alternative splice variants encoding unstable protein domains exist in the human brain. J Mol Biol., 2004, 343(5): 1207-1220.
80. Taneri B, Snyder B, Novoradovsky A, Gaasterland T: Alternative splicing of mouse transcription factors affects their DNA-binding domain architecture and is tissue specific.
81. Genome Biol., 2004, 5(10): R75.
82. Cline MS, Shigeta R, Wheeler RL, Siani-Rose MA, Kulp D, Loraine AE: The effects of alternative splicing on transmembrane proteins in the mouse genome. Pac Symp Biocomput. 2004, 17-28.
83. The FANTOM Consortium and the RIKEN Genome Exploration Research Group Phase I and II Team: Analysis of the mouse transcriptorae based on functional annotation of 60,770 full-length cDNAs. Nature, 2002, 420(6915): 563-573.
84. Wang P, Yan B, Guo JT, Hicks C, Xu Y: Structural genomics analysis of alternative splicing and application to isoform structure modeling. Proc Natl Acad Sci USA, 2005, 102(52): 18920-18925.
85. Boeckmann B, Bairoch A, Apweiler R, Blatter MC, Estreicher A, Gasteiger E, Martin MJ, Michoud K, O'Donovan C, Phan I, Pilbout S, Schneider M: The SWISS-PROT protein knowledgebase and its supplement TrEMBL. Nucleic Acids Res., 2003, 31(1): 365-370.
86. Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE: The Protein Data Bank. Nucleic Acids Res., 2000, 28(1): 235-242.
87. Proc Natl Acad Sci USA, 2006,103(22): 8390-8395.
88. Liu S, Altman RB: Large scale study of protein domain distribution in the context of alternative splicing. Nucleic Acids Res., 2003, 31(16): 4828-4835.
89. Pruitt KD, Maglott DR: RefSeq and LocusLink: NCBI gene-centered resources. Nucleic Acids Res., 2001, 29(1): 137-140.
90. Marchler-Bauer A, Panchenko AR, Shoemaker BA, Thiessen PA, Geer LY, Bryant SH: CDD: a database of conserved domain alignments with links to domain three-dimensional structure. Nucleic Acids Res., 2002, 30(1): 281-283.
91. Resch A, Xing Y, Modrek B, Gorlick M, Riley R, Lee C: Assessing the impact of alternative splicing on domain interactions in the human proteome. JProteome Res., 2004, 3(1): 76-83.
92. Sonnhammer EL, Eddy SR, Durbin R: Pfam: a comprehensive database of protein domain families based on seed alignments. Proteins, 1997, 28(3): 405-420.
93. Ponting CP, Schultz J, Milpetz F, Bork P: SMART: identification and annotation of domains from signalling and extracellular protein sequences. Nucleic Acids Res., 1999, 27(1): 229-232.
94. Schmucker D, Clemens JC, Shu H, Worby CA, Xiao J, Muda M, Dixon JE, Zipursky SL: Drosophila Dscam is an axon guidance receptor exhibiting extraordinary molecular diversity. Cell, 2000,101(6): 671-684.
95. Chen BE, Kondo M, Gamier A, Watson FL, Puettmann-Holgado R, Lamar DR, Schmucker D: The molecular diversity of Dscam is functionally required for neuronal wiring specificity in Drosophila. Cell, 2006,125(3): 607-620.
96. Zipursky SL, Wojtowicz WM, Hattori D: Got diversity? Wiring the fly brain with Dscam. Trends Biochem Sci., 2006, 31(10):581-588.
97. Wojtowicz WM, Flanagan JJ, Millard SS, Zipursky SL, Clemens JC: Alternative splicing of Drosophila Dscam generates axon guidance receptors that exhibit isoform-specific homophilic binding. Cell, 2004,118(5): 619-633.
98. Zhan XL, Clemens JC, Neves G, Hattori D, Flanagan J J, Hummel T, Yasconcelos ML, Chess A, Zipursky SL: Analysis of Dscam diversity in regulating axon guidance in Drosophila mushroom bodies. Neuron, 2004, 43(5): 673-686.
99. Graveley BR, Kaur A, Gunning D, Zipursky SL, Rowen L, Clemens JC: The organization and evolution of the dipteran and hymenopteran Down syndrome cell adhesion molecule (Dscam) genes. SNA, 2004,10(10): 1499-1506.
100. Crayton ME 3rd, Powell BC, Vision TJ, Giddings MC: Tracking the evolution of alternatively spliced exons within the Dscam family. BMC Evol Biol., 2006, 6: 16.
101. Letunic I, Copley RR, Bork P: Common exon duplication in animals and its role in alternative splicing. Hum Mol Genet., 2002,11(13): 1561-1567.
102. Kondrashov FA, Koonin EV: Evolution of alternative splicing: deletions, insertions and origin of functional parts of proteins from intron sequences. Trends Genet., 2003, 9(3): 115119.
103. Artamonova II, Gelfand MS: Evolution of the exon-intron structure and alternative splicing of the MAGE-A family of cancer/testis antigens. J Mol Evol., 2004, 59(5): 620-631.
104. Sorek R, Ast G, Graur D: Alu-containing exons are alternatively spliced. Genome Res., 2002,12(7): 1060-1067.
105. Claverie JM, Makalowski W: AIu alert. Nature, 1994, 371(6500): 752.
106. Lev-Maor G, Sorek R, Shomron N, Ast G: The birth of an alternatively spliced exon: 3' splice-site selection in Alu exons. Science, 2003, 300(5623): 1288-1291.104. http://www.ncbi.nlm.nih.gov/sites/entrcz?db=:PubMed
107. Duret L, Mouchiroud D, Gouy M: HOVERGEN: a database of homologous vertebrate genes. Nucleic Acids Res., 1994, 22(12): 2360-2365.
108. Modrek B, Lee CJ: Alternative splicing in the human, mouse and rat genomes is associated with an increased frequency of exon creation and/or loss. Nat Genet. 2003, 34(2): 177-80.
109. Nurtdinov Nurtdinov RN, Artamonova II, Mironov AA, Gelfand MS: Low conservation of alternative splicing patterns in the human and mouse genomes. Hum Mol Genet. 2003, 12(11): 1313-1320.
110. Thanaraj TA, Clark F, Muilu J: Conservation of human alternative splice events inmouse. Nucleic Acids Res. 2003, 31(10): 2544-2552.
111. Clark F, Thanaraj TA: Categorization and characterization of transcript-confirmed constitutively and alternatively spliced introns and exons from human. Hum Mol Genet., 2002,11(4): 451-464.
112. Malko DB, Makeev VJ, Mironov AA, Gelfand MS: Evolution of exon-intron structure and alternative splicing in fruit flies and malarial mosquito genomes. Genome Res., 2006, 16(4): 505-509.
113. Nurtdinov RN, Neverov AD, Favorov AV, Mironov AA, Gelfand MS: Conserved and species-specific alternative splicing in mammalian genomes. BMC Evol Biol. 2007, 22; 7:249.
114. Wang W, Zheng H, Yang S, Yu H, Li J, Jiang H, Su J, Yang L, Zhang J, McDermott J, Samudrala R, Wang J, Yang H, Yu J, Kristiansen K, Wong GK, Wang J. Origin and evolution of new exons in rodents. Genome Res., 2005,15(9): 1258-1264.
115. Alekseyenko AV, Kim N, Lee CJ: Global analysis of exon creation versus loss and the role of alternative splicing in 17 vertebrate genomes. RNA, 2007, 13(5): 661-670.
116. Blanchette M, Kent WJ, Riemer C, Elnitski L, Smit AF, Roskin KM, Baertsch R, Rosenbloom K, Clawson H, Green ED, Haussler D, Miller W: Aligning multiple genomic sequences with the threaded blockset aligner. Genome Res. 2004,14(4): 708-715.
117. Ji H, Zhou Q, Wen F, Xia H, Lu X, Li Y: AsMamDB: an alternative splice database of mammals. Nucleic Acids Res., 2001, 29(1): 260-263.
118. Altschul SF, Boguski MS, Gish W, Wootton JC: Issues in searching molecular sequence databases. Nat Genet., 1994, 6(2): 119-129.
119. Modrek B, Resch A, Grasso C, Lee C: Genome-wide detection of alternative splicing in expressed sequences of human genes. Nucleic Acids Res., 2001, 29(13): 2850-2809.
120. Mironov AA, Novichkov PS, Gelfand MS: Pro-Frame: similarity-based gene recognition in eukaryotic DNA sequences with errors. Bioinformatics, 2001,17(1): 13-15.
121. Maglott D, Ostell J, Pruitt KD, Tatusova T: Entrez Gene: gene-centered information at NCBI. Nucleic Acids Res. 2005, 33: D54-58.121. ftp://ftp.ncbi.nih.gov/repository/UniGene/
122. Neverov AD, Artamonova II, Nurtdinov RN, Frishman D, Gelfand MS and Mironov AA: Alternative splicing and protein function. BMC Bioinformatics. 2005, 6: 266.
123. Kent WJ: BLAT—the BLAST-Iike alignment tool. Genome Res. 2002,12(4): 656-664.
124. Drummond DA, Bloom JD, Adami C, Wilke CO, Arnold FH: Why highly expressed proteins evolve slowly. Proc Natl Acad Sci USA. 2005,102(40): 14338-14343.
125. Choi JK, Kim SC, Seo J, Kim S, Bhak J: Impact of transcriptional properties on essentiality and evolutionary rate. Genetics. 2007,175(1): 199-206.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.