Классификация и идентификация структурных мотивов РНК тема диссертации и автореферата по ВАК РФ 03.01.09, кандидат наук Баулин Евгений Федорович

  • Баулин Евгений Федорович
  • кандидат науккандидат наук
  • 2021, ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)»
  • Специальность ВАК РФ03.01.09
  • Количество страниц 134
Баулин Евгений Федорович. Классификация и идентификация структурных мотивов РНК: дис. кандидат наук: 03.01.09 - Математическая биология, биоинформатика. ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)». 2021. 134 с.

Оглавление диссертации кандидат наук Баулин Евгений Федорович

Введение

Глава 1. Обзор литературы

1.1 Экспериментальные методы определения структуры РНК

1.2 Методы представления вторичных структур РНК

1.3 Анализ экспериментально определённых пространственных структур РНК

1.3.1 Рекуррентные третичные мотивы РНК

1.3.1.1 Мотив А-минор

1.3.1.2 Мотивы с интеркалированным основанием

1.3.2 Базы данных пространственных структур РНК

1.4 Вычислительные методы определения структуры РНК

1.4.1 Алгоритмы предсказания вторичной структуры РНК

1.4.1.1 Ковариационный анализ

1.4.1.2 Метод минимизации свободной энергии

1.4.1.3 Алгоритмы предсказания псевдоузловых структур

1.4.2 Алгоритмы поиска генов некодирующих РНК

1.4.3 Алгоритмы предсказания пространственной структуры РНК

1.4.4 Алгоритмы предсказания внутри- и межмолекулярных взаимодействий РНК

1.4.4.1 Внутримолекулярные взаимодействия и мотивы

1.4.4.2 Межмолекулярные взаимодействия

1.5 Заключение

Глава 2. Материалы и методы

2.1 Модель описания вторичной структуры РНК

2.1.1 Основные определения

2.1.2 Стемы и петли

2.1.3 Структура петель

2.1.4 Псевдоузлы

2.2 Классификация третичных мотивов РНК

2.2.1 Мотив А-минор

2.2.2 Мотивы В1Е и BWE

2.3 База данных

2.3.1 Детали реализации

2.3.2 Веб-интерфейс

2.4 Методы машинного обучения

2.4.1 Задачи классификации и выборки данных

2.4.2 Используемые модели и их параметры

2.4.3 Метрики качества

Глава 3. Результаты

3.1 База данных URSDB

3.1.1 Общие сведения

3.1.2 Веб-интерфейс

3.2 Анализ неканонических спариваний оснований в РНК

3.3 Короткие стемы в псевдоузловых структурах РНК

3.4 Классификация третичных мотивов РНК типа А-минор

3.4.1 Соответствие полученных классов и выполняемых функций

3.4.2 Новый третичный мотив РНК, содержащий А-миноры

3.4.3 Анализ кластеров А-миноров

3.4.4 Идентификация А-стемов

3.5 Аннотация и анализ мотивов BIE и BWE

3.6 Резюме результатов

Заключение

Выводы

Список публикаций по теме диссертации

Список сокращений

Список литературы

Введение

Исследование пространственной структуры рибонуклеиновых кислот (РНК)

- одно из важнейших направлений современной молекулярной биологии и биоинформатики [1]. Помимо матричных РНК, кодирующих последовательности белков, важную роль в клеточных процессах играют молекулы некодирующих РНК [2-4]. В настоящее время хорошо изучены некоторые классы таких молекул

- рибосомальные РНК, транспортные РНК, малые ядерные РНК, рибосвитчи - но появляется все больше информации о других некодирующих РНК, участвующих в процессах репликации ДНК, регуляции экспрессии генов, сплайсинга, модификации РНК, контроля экспрессии транспозонов и многих других [59]. Функция, выполняемая такими РНК, во многих случаях определяется пространственной структурой молекулы [10]. Изучение принципов структурной организации РНК представляется важным и с точки зрения теории (вопросы разнообразия и эволюции структур, идентификация ключевых структурных элементов РНК, задействованных в клеточных процессах) и с точки зрения практики (рациональный дизайн РНК с заданной структурой, таргетированное изменение структурных элементов, разработка лекарств на основе механизма РНК-интерференции, редактирование генома с помощью технологии CRISPR)

[11-13].

В структуре РНК выделяют четыре уровня организации [14]: первичная структура (последовательность нуклеотидов), вторичная структура (множество канонических спариваний оснований), третичная структура (расположение атомов молекулы в пространстве) и четвертичная структура (комплекс, образованный двумя и более молекулами).

В работе предложена новая модель описания вторичной структуры РНК, обобщающая общепринятый подход на случай псевдоузловых структур, т.е. структур, в которых нарушается правило вложенности участков двойной

спирали. Также, в работе представлены результаты применения предложенной модели для анализа третичных мотивов в экспериментально определенных пространственных структурах РНК.

Рекомендованный список диссертаций по специальности «Математическая биология, биоинформатика», 03.01.09 шифр ВАК

Введение диссертации (часть автореферата) на тему «Классификация и идентификация структурных мотивов РНК»

Актуальность темы исследования

Экспериментальные методы определения последовательностей нуклеотидов по скорости генерации данных на порядки опережают технологии определения пространственных структур РНК. Методы высокопроизводительного секвенирования позволили разработать новые техники и для экспериментального определения вторичных структур [15]. Это открыло новый класс задач по предсказанию пространственной структуры РНК по данным о последовательности и, дополнительно, информации о вторичной структуре. Выявление консервативных третичных мотивов в известных структурах РНК, а также их соответствия элементам вторичной структуры, позволяет повысить качество решения таких задач и уменьшить время работы используемых алгоритмов, сократив пространство поиска [16]. Также, консервативные мотивы структуры РНК часто служат признаками в задачах полногеномного поиска РНК-генов [17].

Кроме того, аннотация третичных мотивов РНК и анализ их структурного окружения позволяет лучше понимать механизмы их образования и роли в разнообразных клеточных процессах. Так, например, сегодня нам известно, что действие некоторых антибиотиков - ингибиторов белкового синтеза обусловлено фиксированием в рибосоме мотивов типа А-минор, узнающих связь кодон-антикодон, что приводит к значительному росту ошибок трансляции и последующей гибели бактерии в силу накопления нефункциональных белков [18].

Таким образом, современные данные и постановки задач вычислительной биологии РНК, обусловленные развитием экспериментальных методов,

определяют актуальность формализованного описания вторичной структуры РНК и разработку методов для выявления и анализа консервативных структурных мотивов.

Научная новизна исследования

На данный момент для описания вторичной структуры РНК широко используется модель Цукера-Мэтьюза-Тернера (модель ближайшего соседа, Nearest Neighbor Model, NNM [19, 20]), в рамках которой вторичная структура РНК разбивается на петли (loops) и участки двойной спирали (стемы, stems). Данная модель изначально разрабатывалась для решения задачи предсказания вторичной структуры путем минимизации её свободной энергии [21]. В рамках этой задачи модель NNM неприменима к структурам РНК, содержащим псевдоузлы (т.е. участки с пересекающимися стемами), т.к. их предсказание является NP-сложным [22].

Простейшие типы псевдоузлов (kissing hairpins, H-knots и др.) были ранее описаны в литературе [23], однако единого метода формального представления вторичной структуры при наличии псевдоузлов (подобного модели NNM для описания вторичных структур без псевдоузлов) не существовало. В настоящей работе предложена новая модель вторичной структуры РНК, допускающая псевдоузловые структуры. Также, нам впервые удалось показать, что в экспериментально определенных пространственных структурах функциональных РНК все псевдоузлы кроме двух простейших типов образованы с участием энергетически неустойчивых коротких стемов, состоящих из 2-3 спариваний оснований.

Для описания третичной структуры РНК, обусловленной относительно слабыми взаимодействиями и образованной «поверх» вторичной структуры, принято использовать понятие третичного мотива: рекуррентного структурного элемента, выступающего в роли функциональной единицы и участвующего либо

в стабилизации пространственной структуры, либо в узнавании других молекул [24-26]. Выделяют мотивы, содержащие неканонические спаривания оснований, изгибы сахаро-фосфатного остова, стекинг участков двойной спирали и др. [27-29]. Также, различают локальные мотивы, соответствующие отдельным элементам вторичной структуры, и мотивы с дальнодействием (long-range motifs), в образовании которых задействовано несколько различных петель и (или) стемов. Связь между мотивами с дальнодействием и элементами вторичной структуры РНК остается слабо изученной. В работе впервые предложена классификация третичных мотивов РНК, объединяющая локальные мотивы и мотивы с дальнодействием. На примере мотивов типа А-минор показано соответствие полученных структурных классов выполняемым функциям. Также впервые показано, что в экспериментально определенных структурах РНК более половины мотивов типа А-минор существуют в кластерах.

Наконец, в работе был проаннотирован ряд новых типов третичных мотивов РНК: А-кластер - кластер взаимодействий типа А-минор; Across-bulged мотив - асимметричная внутренняя петля, содержащая А-миноры и выпяченные основания; BIE/BWE - новый класс мотивов с интеркалированным основанием. Для всех перечисленных мотивов был впервые произведен систематический поиск в известных структурах РНК, описаны закономерности строения, структурные классы и выполняемые функции.

Степень научной разработанности темы

Основными алгоритмическими задачами современной структурной биоинформатики РНК являются задачи предсказания вторичной структуры РНК, поиска РНК-генов и предсказания пространственной структуры РНК.

Задача предсказания вторичной структуры РНК приобрела популярность во второй половине XX века, благодаря работам Р. Нуссинов и Д. Санкоффа [30, 31]. Существенное влияние на решение задачи предсказания вторичных структур,

не содержащих псевдоузлы, оказали работы Д.Х. Мэтьюза, М. Цукера и Д.Х. Тернера [20,32]. В последние годы данной задаче уделяли внимание П.Ф. Стадлер и И. Хофакер [33-35]. Изучению псевдоузловых структур в значительной мере способствовали работы А. Кондон, А.П. Гультяева и С.М. Рейдиса [22, 36, 37].

В работах А.А. Миронова, Р. Бекофена и Ш.Р. Эдди алгоритмы предсказания вторичной структуры РНК применялись к задаче поиска РНК-генов [38-40].

Существенный вклад в развитие многих алгоритмов, применяемых в биоинформатике РНК, внесли работы Е. Ривас и Ш.Р. Эдди [41-43].

Привлечению внимания к изучению пространственной структуры РНК способствовали базы данных экспериментально определенных структур, отраженные в работах Х.М. Берман [44, 45]. Значительную роль в сборе данных и систематизации третичных мотивов сыграли работы С.Е. Бреннера, С.Р. Холбрука и К.Д. Лю [24, 46, 47]. Анализу пространственной структуры РНК методами молекулярной динамики уделял внимание Я. Шпунер [48-50]. Значительную роль в решении задачи предсказания вторичной структуры РНК сыграла экспериментальная методика SHAPE (Selective 2'-Hydroxyl Acylation analyzed by Primer Extension, селективное ацилирование 2'-гидроксила РНК с последующим анализом удлинения затравки), изложенная в работах К. Викса [51, 52]. Методика SHAPE была использована для предсказания пространственной структуры РНК в работах Н.В. Дохоляна [53, 54]. В последнее время анализу третичных мотивов и предсказанию пространственной структуры РНК уделяли внимание К.Л. Зирбель, Н. Леонтис, Я. Буйницкий, А.А. Богданов, М. Попенда, Т. Шлик и Х.Я. Вольфсон [55-60].

Исследования вторичных структур РНК в значительной части охватывают только классические структуры, не содержащие псевдоузлов, т.к. задача предсказания вторичной структуры РНК при наличии псевдоузлов является NP-сложной. Как следствие, до настоящей работы отсутствовал единый язык описания произвольных вторичных структур РНК, в том числе содержащих

псевдоузлы, что затрудняло изучение взаимосвязи между вторичной структурой и третичными мотивами. В работах по изучению третичных мотивов либо не рассматривается контекст вторичной структуры [61], либо рассматриваются только локальные (внутри одной петли) третичные мотивы РНК [55]. Данная работа направлена на восполнение указанных пробелов.

Цель и задачи исследования

Целью исследования является выявление и формализованное описание новых типов структурных мотивов РНК, а также новых свойств известных мотивов, которые могут быть использованы для улучшения функциональной аннотации и качества предсказания структур РНК.

Были поставлены и решены следующие задачи:

1. Разработать модель и формализованный язык описания вторичной структуры РНК, допускающие наличие псевдоузлов;

2. Разработать классификацию третичных мотивов РНК на основе предложенной модели;

3. Создать и сделать доступной для исследовательского сообщества базу данных пространственных структур РНК и структурных мотивов на основе предложенной модели;

4. Применить разработанную модель и классификацию для анализа, систематизации, поиска и предсказания третичных мотивов РНК и псевдоузлов.

Теоретическая и практическая значимость работы

Теоретическая значимость исследования обусловлена следующим: предложена новая модель описания вторичной структуры РНК, применимая к псевдоузловым структурам; разработана новая структурная классификация третичных мотивов РНК, объединяющая локальные мотивы и мотивы с

дальнодействием. Разработанная классификация позволила выявить строгую зависимость между структурным окружением мотива и его функцией. Описаны новые типы функциональных структурных мотивов, выявлены новые свойства неканонических спариваний оснований и псевдоузлов.

Работа имеет и практическую ценность: разработана и предоставлена в открытый доступ база данных пространственных структур РНК и структурных мотивов URSDB, которая может быть использована как источник исходных данных, в частности для составления обучающих и валидационных выборок в задачах классификации элементов структур РНК. Пользователям доступен веб-интерфейс базы данных (http://urs.lpm.org.ru), а также руШоп-библиотека для анализа пространственных структур РНК (https://github.com/febos/ и^МЬ). Результаты работы применимы для улучшения функциональной аннотации структурных мотивов РНК, а также для улучшения качества решения в задачах предсказания вторичных и пространственных структур РНК и в задачах поиска генов некодирующих РНК.

Апробация результатов исследования

Результаты работы были представлены на международных конференциях МССМВ'11 (Москва, 2011 г), МССМВ'13 (Москва, 2013 г.), BGRS'14 (Новосибирск, 2014 г), 1СМВВ'14 (Пущино, 2014 г.), МССМВ'15 (Москва, 2015 г), 1СМВВ'16 (Пущино, 2016 г), МССМВ'17 (Москва, 2017 г.), 1СМВВ'18 (Пущино, 2018 г), МССМВ'19 (Москва, 2019 г), 1СМВВ'20 (Пущино, 2020 г), на семинарах в Институте математических проблем биологии РАН - филиале Института прикладной математики им. М.В. Келдыша РАН, Институте белка РАН.

Публикации по теме исследования

По результатам исследования опубликовано 18 печатных работ, в том числе 5 статей в рецензируемых научных журналах из списка ВАК.

Глава 1. Обзор литературы

1.1 Экспериментальные методы определения структуры РНК

Рассмотрим современное состояние развития экспериментальных методик получения данных, относящихся к четырем выделяемым уровням организации структуры РНК.

На данный момент самым массово применяемым высокопроизводительным экспериментальным методом молекулярной биологии является технология параллельного секвенирования ДНК (определения последовательности нуклеотидов), которая служит основным источником экспериментальных данных [62]. В частности, методы полнотранскриптомного секвенирования позволяют получать последовательности всех РНК, экспрессируемых в клетках

[63], с последующим картированием полученных транскриптов на референсный геном, в том числе для определения генов некодирующих РНК (РНК-генов)

[64]. К сожалению, поиск РНК-генов затруднен их относительно слабой экспрессией в клетках [65]. Наиболее популярными коллекциями известных последовательностей РНК-генов в настоящее время являются базы RNAcentral [66] и Rfam [67].

В последние 10 лет бурное развитие получили технологии определения вторичной структуры РНК, такие как SHAPE-seq [68], DMS-seq [69] и другие, см. [70]. Общим принципом указанных технологий являются модификации неспаренных (в случае SHAPE) нуклеотидов, индуцирующие терминацию обратной транскрипции, с последующим высокопроизводительным секвенированием полученных фрагментов. Данный принцип позволяет оценивать вероятность участия конкретных нуклеотидов в спариваниях оснований (т.н. реактивности). Использование этой информации значительно увеличивает точность предсказания вторичной структуры РНК.

Экспериментальные данные реактивно стей, полученные в ходе полногеномных исследований, доступны в ряде баз данных [71-73].

Основными экспериментальными методиками определения пространственных структур РНК и РНК-содержащих комплексов являются ядерно-магнитный резонанс (ЯМР, [74]), рентгеновская кристаллография [75] и криоэлектронная микроскопия [76]. Основным общедоступным банком данных экспериментально определенных пространственных структур биологических макромолекул является банк PDB (Protein data bank, [77]), содержащий в настоящее время (декабрь 2020 года) более 5000 структур РНК и РНК-содержащих комплексов. К сожалению, перечисленные экспериментальные методы являются дорогостоящими и плохо масштабируются. Кроме того, методы разрешения структур зачастую не позволяют точно определять координаты малых молекул окружения, в том числе ионов металлов [78].

К уровню четвертичной структуры РНК относят взаимодействия молекул РНК с другими молекулами, в том числе, например, РНК-белковые взаимодействия в составе рибонуклеопротеиновых комплексов, или стабилизирующие структуру РНК взаимодействия с малыми молекулами окружения, такими как молекулы воды, ионы металлов и др.

Общим этапом пайплайнов экспериментальных методов полногеномного определения РНК-РНК, РНК-ДНК и РНК-белковых контактов in vivo является очищение целевого продукта с последующим высокопроизводительным секвенированием полученных фрагментов РНК и их картированием на референсный геном. В качестве примеров таких методов отметим CLIP [79], ECLIP [80] и fRIP [81] для определения РНК-белковых контактов, Red-C [82] для определения РНК-ДНК взаимодействий и LIGR [83] для определения РНК-РНК взаимодействий. Общими проблемами подобных методов являются низкая воспроизводимость и высокая доля ложноположительных результатов.

Для определения функциональных сайтов связывания ионов металлов с РНК

применяют т.н. rescue-методы [84, 85], принципом работы которых являются мутации нуклеотидов, изменяющие предпочтения функциональных РНК к типам контактирующих ионов. Однако, rescue-методы являются дорогостоящими, как по стоимости, так и по времени их работы.

Таким образом, в настоящее время успешно решенной можно считать только экспериментальную задачу определения первичной структуры РНК, в то время как определение вторичной, третичной и четвертичной структур РНК затрудняется рядом ограничений, присущих современным техникам.

В заключение отметим, что высокий уровень развития методики секвенирования ДНК, а также быстрорастущая точность методов определения вторичной структуры РНК обуславливают актуальность задачи de novo предсказания пространственной структуры РНК по данным о её последовательности и вторичной структуре.

1.2 Методы представления вторичных структур РНК

Существует три основных способа представления вторичной структуры РНК

- неориентированный граф (модель Фреско-Альбертса-Доти [86, 87]), дуговая диаграмма [88, 89] и скобочная диаграмма [90-92] (см. рис. 1.1). В случае графа нуклеотиды изображаются вершинами, а канонические спаривания оснований и фосфодиэфирные связи - ребрами, причем спаривания изображаются отрезками фиксированной длины. На дуговой диаграмме последовательность РНК представлена точками на прямой линии, спаривания отмечаются дугами между соответствующими нуклеотидами. В случае скобочной диаграммы спаривания отмечаются парами соответственных скобок, неспаренные нуклеотиды обозначаются точками. Также, стоит упомянуть т.н. кольцевые диаграммы

- случай дуговых диаграмм, на которых последовательность РНК изображена в виде окружности [88].

Рисунок 1.1. Три способа представления вторичной структуры РНК: граф, дуговая и скобочная диаграммы. (А) Классическая структура РНК. (Б) Псевдоузловая структура РНК (из [93]).

Основными инструментами визуализации вторичной структуры РНК являются программы VARNA [94], Foma [95] (графы) и R-chie [96] (дуговые диаграммы). Данные о вторичной структуре РНК принято хранить либо в dbn-формате (скобочная диаграмма), либо в ct-формате (список спариваний), см., например, [97].

Граф классической (не содержащей псевдоузлов) вторичной структуры РНК является плоским (т.е. не содержит самопересечений при изображении на плоскости) и традиционно разбивается на элементарные циклы. Такое разбиение согласно модели Nearest Neighbor Model (NNM, [19, 20, 98]) позволяет однозначно выделить в структуре РНК стемы (участки двойной спирали, наборы последовательных спариваний) и четыре типа петель (замкнутые участки неспаренных нуклеотидов) - шпильки, выпячивания, внутренние петли и мульти-петли, см. рис. 1.2.

Рисунок 1.2. Стемы и петли вторичной структуры РНК (из [99]).

На данный момент не существует общепринятого мнения о том, к какому уровню структурной организации должны быть отнесены псевдоузлы, являются ли они частью вторичной структуры или третичным мотивом [100]. Однако известно, что псевдоузлы являются важным функциональным элементом, задействованным, например, в образовании каталитических ядер рибозимов [101, 102], сплайсинге интронов [103], функционировании теломераз [104].

Псевдоузел традиционно [41] определяется, как элемент структуры РНК, в котором нарушено следующее условие вложенности: если в цепи РНК спарены нуклеотиды (¡, j) и (т, п), то отрезки [¡, ^ и [т, п] либо не пересекаются, либо один из них лежит строго внутри другого (см. рис. 1.1 Б). Отметим, что это определение не указывает точно, какой именно фрагмент

РНК относится к псевдоузлу, общепринятого определения сейчас нет. Обзор различных определений дан в работах А. Кондон [22, 105]. Перечисленные в этих работах определения псевдоузлов соответствуют классам структур, которые охватываются тем или иным алгоритмом предсказания вторичных структур РНК.

В настоящее время недостаточно разработан язык для описания псевдоузлов, описаны лишь наиболее простые (но наиболее распространенные) виды таких структур, например, kissing hairpins и узлы H-типа. В работе [106] предлагается представление псевдоузлов в виде стандартного графа канонической вторичной структуры с дополнительными ребрами, отвечающими псевдоузлам. Главный недостаток такого подхода заключается в том, что равноправные спирали (например, образующие псевдоузлы H-типа, см. рис. 1.1 Б) зачастую изображаются по-разному, что негативно отражается на наглядности и затрудняет работу исследователей. В работе [107] описаны би-дуговые диаграммы, являющиеся более наглядным способом представления дуговых диаграмм, содержащих пересекающиеся дуги. Это представление подходит для описания псевдоузлов 2-го уровня (не более двух взаимно пересекающихся дуг), однако реальные пространственные структуры РНК содержат и более сложные псевдоузлы. В работе [108] предлагается оригинальный подход к описанию вторичных структур РНК в виде графов, соответствующих её элементам (петлям, нитям, спиралям), однако, вследствие недостаточной детализации данный подход не был широко распространен. Наиболее актуальным на наш взгляд является топологический подход к классификации псевдоузлов, описанный в работах [37, 93, 109]. Согласно данному подходу каждому псевдоузлу ставится в соответствие строка, отражающая его упрощенную архитектуру, в которой не учитываются количества последовательных спиралей и их длины (т.е. количества спариваний в каждой спирали).

1.3 Анализ экспериментально определённых пространственных структур РНК

Вопрос о свойствах пространственных структур РНК представляет интерес, как с теоретической (пример: эволюционная теория, см. [110]), так и с практической (пример: дизайн РНК, см. обзор [111]) точки зрения.

Известно, что пространственная структура некодирующих РНК в значительной степени определяет их функцию [10]. Структура РНК имеет модульную организацию и состоит из т.н. "строительных блоков" - третичных мотивов, повторяющихся элементов, сохраняющих свою конфигурацию в разных структурных окружениях [112]. В отличие от элементов вторичной структуры РНК, стемов и петель, общепринятого определения третичного мотива не существует. Так, третичным мотивом называют, например, и коаксиальный стекинг (мотив, состоящий как минимум из восьми нуклеотидов, образующих два стема, находящихся в стекинге, [113]), и динуклеотидную платформу (спаривание оснований двух последовательных нуклеотидов, [114]).

На данный момент наиболее распространены два подхода к описанию третичных мотивов. В работе [115] предлагается нотация неканонических спариваний между основаниями в РНК, которая накладывается на стандартный граф вторичной структуры. В работе [116] представлен алгоритм поиска мотивов, основанный на геометрии остовных атомов РНК (по умолчанию атомы С1') и не учитывающий последовательность и контекст вторичной структуры, что позволяет находить общие мотивы в негомологичных участках РНК. В обеих работах описаны базы данных, в этих базах проведена аннотация и классификация третичных мотивов. Недостаток данных работ состоит в том, что в них не рассматриваются неканонические спаривания внутри стемов и между стемами.

1.3.1 Рекуррентные третичные мотивы РНК

Среди существующих работ, посвященных третичным мотивам РНК, можно выделить два направления. Первое направление - это классификация структурных мотивов определенного типа и сбор сведений о вариациях таких структур, их встречаемости и т.п., т.е. создание «атласов» в терминологии RNA 3D Motif Atlas [27]. В цитированной работе изучаются «мотивы» -устойчивые образования взаимодействующих нуклеотидов ("well-defined geometric arrangements of interacting nucleotides"). Авторы предлагают автоматизированную методику выделения и кластеризации локальных мотивов (мотивов, которые являются разновидностями шпилек и внутренних петель), описывают возможные виды подобных мотивов. В частности, в этой работе описаны такие распространенные локальные мотивы, как Kink-turn [2S], C-loop [117], Sarcin-Ricin [11S], T-loop [119], GNRA-tetraloop [120] и др. Другой важной работой по описанию локальных мотивов является база SCOR [46]. Мотивы в указанной базе, кроме кластеризации, были также проклассифицированы на основе ациклического направленного графа мотивов (см. рис 1.3) и функционально аннотированы. К сожалению, база SCOR в настоящее время не поддерживается.

Другим важным классом мотивов, помимо локальных мотивов, являются мотивы с дальнодействием (long-range motifs). Такие мотивы изучены значительно хуже, в силу сложностей в их идентификации. В работе [121] проведен поиск по неизбыточному подмножеству структур РНК таких мотивов, как коаксиальный стекинг (coaxial helix, [29]), А-минор (A-minor, [122]), рибозная молния (ribose zipper, [123]), loop-loop receptor [124], tRNA D-loop/T-loop [125] и др. Результаты не были внедрены ни в одну базу данных, хотя доступны онлайн в виде неинтерактивных карт вторичной структуры с наложением третичных взаимодействий.

Внутренние петли

3" 5VC20

V>G21 триплексами \ " дА22

1еху

Петли с иплексаг оснований

N

Структурная Классификация

ч

Шпильки

А151 А152 A153L J G150

С154 Г~1 G149

п

429d

^ ч

3' 5'

1gid

Петли с динуклеотидными платформами

1bgz

5" 3'

Петли с динуклеотидными

лЧ

платформами, образующими триплекс оснований

A151VV-|A5

С16Г —1G4

1esy

Рисунок 1.3. Пример направленного ациклического графа классов локальных мотивов из базы данных SCOR. Каждый класс представлен схемой примера мотива и идентификатором

соответствующей PDB-структуры (из [46]).

Авторы в работе [121] для поиска мотивов использовали инструмент FR3D [126]. Помимо FR3D наиболее популярными инструментами являются NASSAM [127] (поиск элементарных мотивов, таких как триплексы и третичные взаимодействия) и DSSR [47] (поиск, в том числе, мотивов A-minor, Kink-turn, U-turn [128] и ribose zipper). Стоит также отметить, что с 2015 года основным форматом банка PDB стал формат mmCIF [129]. На данный момент программа NASSAM не может обрабатывать формат mmCIF; программа DSSR начала обрабатывать mmCIF с февраля 2015 года. В другой работе авторов NASSAM [61] описана база данных InterRNA, содержащая данные о мотивах A-minor и ribose zipper. В работе [130] представлена база мотивов с дальнодействием, являющихся набором нуклеотидов, связанных неканоническими спариваниями оснований, в

том числе включающих взаимодействия типа А-минор и ribose zipper.

Анализу видов псевдоузлов посвящены работы [93] и [131]. В данных работах предлагается топологическая классификация псевдоузлов (подобная классификация предложена также в [37]) и анализируется ряд представленных в PDB структур с точки зрения этой классификации. Однако, представленные в статьях данные неполны с точки зрения современного состояния базы PDB.

Другое направление работ связано с анализом распределений различных характеристик мотивов пространственной структуры. Интересными примерами таких работ являются работы [132, 133]. В [132] авторы анализируют асимметрию в длинах петель и спиралей в псевдоузлах H-типа и дают объяснение этого эффекта с точки зрения свойств малой и большой бороздок спиралей РНК; см. также обзор [134]. В работе [133] описаны распределения 11-ти параметров, характеризующих мотивы типа А-минор, которые предлагается использовать для их идентификации. Работы этого направления важны и с точки зрения эволюционной теории. Так, в цитированной работе [110] исследуется компенсаторная эволюция митохондриальных РНК. Методика этой работы основана на анализе статистики спариваний нуклеотидов в сочетании с методами сравнительной геномики. Работа выполнена, используя только данные о корреляциях в последовательностях РНК, что ограничивает исследование Уотсон-Криковскими спариваниями (канонические спаривания).

Похожие диссертационные работы по специальности «Математическая биология, биоинформатика», 03.01.09 шифр ВАК

Список литературы диссертационного исследования кандидат наук Баулин Евгений Федорович, 2021 год

использование

геометрических параметров

для кластеризации элементов

универсальная по Недостатки

8 RNA3DHub [55] FR3D база структур РНК структурам, по петлям нет полного описания структуры, приводится только список содержащихся спариваний и петель; долгое ожидание загрузки объемных страниц

Достоинства

учитывается окружение

элементов (лиганды,

вспомогательная по петлям, металлы, белки,

9 RnaBricks [116] MC-Annotate база для структурного моделирования по спиралям, по нитям взаимодействия между ячейками кристалла) Недостатки нет полного описания структур

по

структурам, Достоинства

универсальная по петлям, по гибкий поиск по множеству

10 RnaFRABASE [58] RNAView база структур РНК нуклеотидам, по спариваниям, по спиралям структурных элементов Недостатки нет псевдоузловых структур

Достоинства

база, используются

посвященная геометрические параметры

11 RNAJunction [164] RNAView отдельным структурным элементам (петлям) по петлям спиралей для кластеризации мульти-петель Недостатки нет ничего кроме петель и kissing loops

Достоинства

большое количество

имеющихся атрибутов

структуры, большой охват

12 RNAStrand [165] RNAView универсальная база структур РНК по структурам исходных данных, описание псевдоузлов Недостатки нет поиска по отдельным элементам, нет белков, неполноценный язык описания псевдоузлов

Достоинства

имеется классификация

универсальная по третичных мотивов по их

13 SCOR [46] Собственный база структур РНК структурным элементам функциям Недостатки не поддерживается в настоящее время

Все базы пространственных структур РНК основаны на данных PDB [166] (в случае RNAStrand [165] - и на других источниках, например, CRW [167]) и различаются возможностями поиска (например, поиск только по структурам в целом или по отдельным элементам), полнотой охвата известных структур (например, включены ли в базу сведения о РНК-белковых комплексах), полнотой описания отдельных структур (некоторые базы содержат сведения только о петлях, в большинстве баз нет сведений о псевдоузлах). К сожалению, ни одна из рассматриваемых баз данных не обеспечивает всей полноты возможностей поиска.

Во всех изученных работах, так или иначе, используются инструменты разметки водородных связей по пространственным координатам атомов. Для некоторых баз с этой целью были созданы собственные программы, однако большинство баз используют один из трех наиболее популярных инструментов: FR3D, RNAView и MC-Annotate [126, 168, 169].

Все существующие базы данных можно условно разделить на три типа: вспомогательные базы для структурного моделирования; базы, посвященные отдельным элементам вторичной структуры РНК и универсальные базы пространственных структур РНК. Остановимся подробнее на последнем классе баз. Наиболее интересными с точки зрения полноты имеющихся данных и функциональности веб-интерфейса представляются базы RnaFRABASE [58] и RNAStгand. Можно отметить такие специфичные достоинства указанных баз, как наличие гибкого поиска структурных элементов (RnaFRABASE) и обширность и полноту представленных данных (RNAStгand). Однако данные базы имеют и недостатки, так, например, в RnaFRABASE исключены псевдоузловые структуры, а в RNAStгand отсутствует возможность поиска отдельных структурных элементов. Более того, в RNAStгand представлены не все содержащие РНК структуры из PDB. К универсальным можно отнести и базу RNA3DHub [55]. Однако данная база не рассматривает такой важный элемент вторичной структуры РНК, как спирали, а, значит, не вполне соответствует требованиям универсальности. Тем не менее, с точки зрения выделения мотивов, которые встречаются в различных пространственных структурах, база RNA3DHub, как и другие разработки группы Н. Леонтиса и К. Зирбеля, представляют большой интерес. С точки зрения удобства пользования и полноты охвата известных структур интерес представляет и база КРГОВ [161], однако эта база специализирована для анализа нуклеиново-белковых контактов и не содержит разметки вторичной структуры РНК.

Следует отметить, что, в отличие от многих биоинформатических баз

данных, в частности, баз данных по первичным структурам РНК и белков, базы данных пространственных структур РНК используются, в основном, для гомологического моделирования, оценки статистических потенциалов и тестирования программ предсказания и сравнения структур РНК [56, 170175] (в дополнение к упоминавшимся базам стоит указать специализированную базу данных BRASERO [176]). Их потенциал для собственно биологических исследований используется недостаточно.

Единственной базой, которая включает в себя более или менее универсальный инструмент анализа псевдоузловых структур является база RNAStrand. Однако, и этот инструмент не лишен недостатков. Так, он не позволяет анализировать петли, находящиеся внутри псевдоузлового участка (это можно увидеть, например, при изучении структур 1FFK и 1BJ2). Помимо RNAStrand информация о псевдоузлах представлена в таких базах, как PseudoBase++ [36] и RNAJunction [164]. Однако, эти базы организованы как набор разрозненных классов псевдоузловых структур, выбор этих классов носит эмпирический характер и, например, обнаруженная нами на предварительном этапе исследований структура «тройной узел» [177] в этих базах не описана. Кроме того, эти базы не универсальные; они описывают только отдельные элементы вторичных структур (псевдоузлы в PseudoBase++; петли и псевдоузлы типа "kissing hairpins" в RNAJunction).

1.4 Вычислительные методы определения структуры РНК

Основными вычислительными задачами структурной биоинформатики РНК на данный момент являются задачи предсказания вторичной и пространственной структур РНК, а также поиск РНК-генов в геноме. Задача предсказания вторичной структуры РНК является наиболее разработанной, к тому же в настоящее время бурно развиваются соответствующие экспериментальные подходы. Наиболее актуальной и нерешенной проблемой является задача

предсказания пространственной структуры РНК. Стоит отметить, что как постановка задачи, так и точность ее решения в значительной степени зависят от полноты и многообразия имеющихся исходных экспериментальных данных.

1.4.1 Алгоритмы предсказания вторичной структуры РНК

Предсказание вторичной структуры РНК - одна из классических задач вычислительной молекулярной биологии. Знание оптимальной, т.е. имеющей минимально возможную свободную энергию, вторичной структуры молекулы РНК является решающим для понимания функции РНК [92, 178-181].

Традиционно основное внимание при изучении РНК уделяется структурам, не содержащим псевдоузлов. Это связано с тем, что структуры, содержащие псевдоузлы, значительно менее распространены (~20%) и, с другой стороны, определение энергетических параметров для них более затруднительно [ 182]. Тем не менее, псевдоузловые структуры встречаются в ряде молекул РНК, играющих важную роль в жизнедеятельности клетки, таких как рибосомальные РНК, РНК рибонуклеазы Р и других.

С алгоритмической точки зрения, наличие псевдоузлов делает невозможным использование алгоритмов динамического программирования [30, 178, 183, 184] и вынуждает использовать другие, вычислительно более затратные методы [185-188]. Таким образом, алгоритмы предсказания структур, содержащих псевдоузлы, с одной стороны имеют большую вычислительную сложность, а с другой стороны некоторые из них допускают наличие чрезмерно общего класса псевдоузлов, возможность существования которых в реальных РНК вызывает сомнения, см. обзор в [22].

В последние годы для решения задачи предсказания вторичной структуры РНК активно применяются алгоритмы машинного обучения [189-193]. На данный момент прирост качества предсказаний, достигаемый такими подходами, не превышает 5-10% относительно классических алгоритмов. Однако, успешное

применение алгоритма AlphaFold [194] для предсказания структуры белков позволяет надеяться и на значительное повышение качества предсказания вторичной структуры РНК методами глубинного обучения уже в ближайшем будущем.

1.4.1.1 Ковариационный анализ

Наиболее простой (и успешно решенной) постановкой задачи предсказания вторичной структуры РНК является задача предсказания консервативной вторичной структуры по множественному выравниванию последовательностей родственных РНК [34]. Основной принцип решения заключается в использовании информации о компенсаторных заменах для определения пар нуклеотидов, образующих канонические спаривания оснований. Точность решения данной задачи достигает 90-95% правильно предсказанных спариваний от общего числа спариваний вторичной структуры РНК [195].

К этому направлению примыкают работы по выравниванию последовательностей РНК с учетом знаний о вторичной структуре, см., например, [31, 39, 196, 197]. Как правило, выравнивание последовательностей с известными вторичными структурами демонстрирует биологически более релевантный результат.

Общим недостатком алгоритмов построения консенсусной вторичной структуры является их высокая вычислительная сложность.

1.4.1.2 Метод минимизации свободной энергии

Задача предсказания классической (не содержащей псевдоузлов) вторичной структуры РНК по её последовательности была поставлена ещё в 1970-х годах, и в настоящее время основным алгоритмическим подходом к её решению

является метод динамического программирования. Точность решения в общем случае не превышает 80% правильно предсказанных спариваний от общего числа спариваний вторичной структуры РНК [198].

Методы, описанные в пионерских работах [98, 199] впоследствии совершенствовались в двух направлениях. Первое направление - использование более реалистичных энергетических функций. В ранних работах (например, [30]) свободная энергия оценивалась пропорционально числу пар нуклеотидов, образующих водородные связи. В настоящее время используется значительно более сложная и точная модель NNM (Nearest Neighbour Model, см. [200]). В такой модели вторичная структура РНК рассматривается как составленная из петель (loops) различных типов, таких как стекинг-пары, выпячивания (bulges), шпильки (hairpins), внутренние петли (internal loops) и мульти-петли (multiple junctions). NNM включает правила, которые оценивают энергию петель каждого из указанных типов; энергия полной структуры при этом будет суммой энергий составляющих ее петель. Параметры NNM уточнялись в серии экспериментальных работ (см. [19, 21] и обзор [20]).

Другое направление - рассмотрение различных характеристик, связанных со вторичной структурой РНК. Среди таких характеристик отметим множество пар оснований, входящих в субоптимальную структуру [201], множество субоптимальных структур [201, 202], статистическая сумма и вероятность наличия в структуре заданных спариваний нуклеотидов [178, 203], неветвящаяся оптимальная структура [204].

Алгоритмы для поиска данных объектов базируются на соответствующих вариантах метода динамического программирования. Удивительно, что наиболее сложной проблемой оказался анализ внутренних петель, т.е. петель, содержащих только две пары оснований, образующих водородные связи, и два региона с неспаренными нуклеотидами между ними. Алгоритм, вычисляющий все внутренние петли молекулы РНК длиной L за время O(L3) был предложен

только в 1999 году [181]. Поиск оптимальной неветвящейся вторичной структуры (НВС), т.е. структуры без мульти-петель, тесно соотносится с определением энергий всех возможных внутренних петель. В работе [204] предложен алгоритм, использующий метод динамического программирования для разреженных матриц (SDP), который находит оптимальную НВС. Время работы алгоритма имеет порядок O(M * log2(L)), а требуемый объем памяти -O(M), где M - число допустимых пар нуклеотидов и L - длина молекулы РНК в нуклеотидах. Очевидно, M < L2; это означает, что время работы алгоритма имеет порядок O(L2 * log2(L)).

Однако, этот интересный алгоритм не используется в программах предсказания вторичной структуры РНК. Причина в том, что он требует, чтобы энергия внутренних циклов была выпуклой или вогнутой функцией от суммы длин двух неспаренных участков, которые образуют цикл. Между тем энергетические функции используемые в наиболее популярной в настоящее время модели NNM зависят как от суммы так и от разности двух этих длин. Также часто необходимо найти не только оптимальную НВС, но и множество всех «разумных» НВС, чего не позволяет метод SDP.

1.4.1.3 Алгоритмы предсказания псевдоузловых структур

В общем случае задача предсказания произвольной вторичной структуры РНК, допускающей псевдоузлы, является NP-сложной [22]. Существующие алгоритмы предсказания псевдоузловых структур РНК можно разделить на два направления. Первым направлением являются модификации классических алгоритмов динамического программирования, допускающие ограниченное множество типов псевдоузлов, см. обзор [22].

Второй класс алгоритмов объединяет различные эвристические подходы, в том числе случайные и эволюционные алгоритмы [185, 205], а также алгоритмы

машинного обучения [206]. В среднем качество решения данной задачи не превышает 60-70% правильно предсказанных спариваний от общего числа канонических спариваний структуры РНК, лишь в частных случаях достигая значений, сравнимых с качеством предсказания классических вторичных структур РНК.

1.4.2 Алгоритмы поиска генов некодирующих РНК

Отсутствие в РНК-генах триплетного кода, характерного для генов, кодирующих белки [207], затрудняет их поиск в геноме. Наиболее простая постановка данной задачи заключается в поиске в новом геноме РНК-генов, гомологичных уже известным генам. Для этого используется поиск по базам данных последовательностей некодирующих РНК, например Rfam [67] и RNAcentral [66].

Более сложной задачей является поиск новых РНК-генов определенного типа, например транспортных РНК или малых ядерных РНК. В данном случае используются различные признаки последовательностей известных представителей генов, а точность зависит от однородности рассматриваемого типа молекул. Так, в работе [40] описан алгоритм de novo поиска генов транспортных РНК, представляющий собой ковариационную модель, основанную на стохастических контекстно-свободных грамматиках. Точность алгоритма превышает 99% и соответствует одному ложному предсказанию на 15 гигабаз (млрд. п.н.). В то же время, точность алгоритмов, предсказывающих малые некодирующие РНК в бактериальных геномах, варьируется в пределах 40-60% [208, 209].

Наиболее трудной постановкой является задача поиска РНК-генов новых типов. Для решения данной задачи эксплуатируется гипотеза, состоящая в том, что функциональные некодирующие РНК должны иметь более стабильную структуру, чем случайные последовательности. Несмотря на

то, что данная гипотеза не выполняется в общем случае [210], на данный момент существует ряд программ, реализующих поиск структурированных РНК в геноме, основываясь на Z-значении, отражающем отношение свободной энергии предсказанной вторичной структуры РНК данной последовательности к среднему значению свободной энергии структур случайных последовательностей того же нуклеотидного состава [38, 211].

1.4.3 Алгоритмы предсказания пространственной структуры РНК

Поскольку экспериментальные техники определения пространственной структуры РНК являются весьма ограниченными и дорогостоящими, крайне актуальной является задача предсказания структуры РНК вычислительными методами. Подходы к решению данной задачи делятся на три направления. В качестве первого направления отметим метод молекулярной динамики, имитирующий процесс сворачивания цепочки РНК в пространстве под действием физических сил [212, 213]. Данный метод ограничен малыми временами имитируемых процессов, является высокозатратным с точки зрения вычислительных ресурсов, а также зависит от точности используемых параметров силовых полей.

Альтернативным подходом являются алгоритмы гомологического моделирования [214]. В данном случае для предсказания пространственной структуры РНК используются локальные конфигурации фрагментов последовательности, встречающиеся в уже известных структурах. Недостатком данного подхода является ограниченность множества известных фрагментов. Явным преимуществом является высокое быстродействие.

Наиболее успешными являются алгоритмы третьего направления, т.н. гибридные методы, объединяющие преимущества гомологического моделирования и метода молекулярной динамики. В данном случае, как правило, из известных фрагментов собирается начальный вариант структуры,

который затем "докручивается" с помощью молекулярной динамики [215]. Для ускорения работы зачастую используются "крупнозернистые" (coarse-grained) модели, в которых нуклеотиды представляются малым числом "псевдо-атомов" [216,217].

На данный момент проведено несколько раундов соревнования по предсказанию пространственной структуры РНК - RNA Puzzles [218-221]. Наиболее успешные результаты были продемонстрированы алгоритмами, описанными в работах [214, 222-224]. Среднеквадратичное отклонение (root mean square deviation, RMSD) лучших решений достигало в среднем 2-5 ангстрем (см. рис. 1.6), доля правильно предсказанных канонических спариваний достигала 95%, доля правильно предсказанных третичных спариваний достигала 70% [221].

Рисунок 1.6. Соревнование RNA-Puzzles, 4-й раунд, задача 20, структура рибозима Twister sister. Референсная структура изображена зеленым цветом, предсказанная структура лучшего качества изображена синим цветом. RMSD предсказанной структуры равно 4.908 ангстрем, доля правильно предсказанных канонических спариваний оснований - 96%, доля правильно предсказанных неканонических спариваний оснований - 60% (из [221]).

Стоит отметить, что точность предсказания пространственной структуры РНК напрямую зависит от входных данных - чем их больше, и чем они разнообразнее, тем точнее будет решение. Так, например, по последовательности нуклеотидов и вторичной структуре РНК предсказание будет значительно точнее, чем только по последовательности нуклеотидов.

1.4.4 Алгоритмы предсказания внутри- и межмолекулярных взаимодействий РНК

Тот факт, что задача de novo предсказания пространственной структуры РНК на данный момент остается нерешенной на достаточном уровне достоверности [221], определяет необходимость поиска дополнительных ограничений (constraints) для возможных конформаций фрагментов РНК, использование которых позволит увеличить точность решения, а также уменьшить пространство поиска, тем самым повысив быстродействие используемых программ [225].

В качестве таких ограничений могут выступать данные о рекуррентных третичных взаимодействиях и мотивах, а также о контактах с другими молекулами.

1.4.4.1 Внутримолекулярные взаимодействия и мотивы

В настоящее время существует ряд алгоритмов, предсказывающих третичные взаимодействия и мотивы РНК по данным о последовательности (последовательностях) нуклеотидов и (опционально) о вторичной структуре РНК.

В работе [226] описан подход к предсказанию третичных контактов между нуклеотидами по множественному выравниванию последовательностей РНК. Алгоритм эксплуатирует взаимную информацию пары позиций аналогично принципу компенсаторных замен для случая канонических спариваний

оснований. Стоит отметить, что третичные взаимодействия менее специфичны к определенным типам оснований, к тому же не ограничиваются парными контактами, что существенно снижает качество работы данного алгоритма по сравнению с задачей определения консенсусной вторичной структуры РНК. В работе [227] описан алгоритм de novo предсказания "расширенной" вторичной структуры РНК, т.е. множества канонических спариваний и локальных (внутри петель) неканонических спариваний оснований. Алгоритм допускает задание пользователем вторичной структуры, в противном случае предсказание вторичной структуры осуществляется на предварительном этапе работы алгоритма.

Алгоритм, описанный в работе [228], осуществляет поиск четырех наиболее специфичных для определенных типов оснований локальных третичных мотивов РНК по одной последовательности или по выравниванию нескольких последовательностей РНК. В работе [229] мульти-петли рассматриваемой вторичной структуры РНК классифицируются на образующие и не образующие коаксиальный стекинг стемов.

В отличие от локальных третичных мотивов РНК, предсказание третичных мотивов РНК с дальнодействием затрудняется т.н. эффектом комбинаторного взрыва. Так, например, число триплексов нуклеотидов [230] в экспериментально определенных пространственных структурах РНК из PDB не превышает 0.1 * N, в то время как число потенциальных троек нуклеотидов равно N3, где N - длина цепи РНК.

1.4.4.2 Межмолекулярные взаимодействия

Так как РНК-РНК и РНК-ДНК контакты как правило реализуются посредством спариваний оснований комплементарных нуклеотидов, задача предсказания таких контактов сводится к задаче предсказания общей для

нескольких молекул вторичной структуры и решается вариациями алгоритмов динамического программирования [178, 231].

Постановки задач предсказания РНК-белковых контактов значительно варьируют в зависимости от выбора входных данных. На данный момент разработано множество алгоритмов, предсказывающих сайты связывания с РНК по последовательности и (опционально) вторичной структуре белка, см., например, обзор [232], в том числе алгоритмы машинного обучения, см. обзор [233]. Значительно меньше внимания уделялось симметричной задаче предсказания сайтов связывания с белками по последовательности и (опционально) вторичной структуре РНК [234-236].

Для предсказания сайтов связывания РНК с ионами металлов на данный момент существует ряд подходов, основанных на компьютерном имитационном моделировании (молекулярная динамика, броуновская динамика). Так, в работе [237] описана модель броуновской динамики диффузии ионов металлов для предсказания сайтов связывания, а в работе [238] используются уравнения Пуассона-Больцмана для определения вероятных областей расположения ионов. Среди недостатков данных методов можно отметить необходимость больших вычислительных мощностей и недостаточно надежные данные для расчета параметров взаимодействия. Существуют также вычислительные методы определения сайтов связывания ионов путем минимизации энергии связывания на основе подобранных статистических потенциалов взаимодействия [239, 240].

1.5 Заключение

Существующие в настоящее время базы данных пространственных структур РНК имеют ряд недостатков, среди них: ограниченные возможности поиска структурных элементов, исключение РНК-белковых комплексов, исключение псевдоузловых структур РНК и др.

Отсутствие модели описания произвольной вторичной структуры РНК

обусловлено проблемой предсказания псевдоузловых структур. Задача предсказания вторичной структуры РНК при наличии псевдоузлов является КР-сложной, поэтому основное внимание уделяется классическим структурам.

Анализ мотивов пространственной структуры РНК не носит систематический характер. Изученные работы ограничиваются либо локальными мотивами, либо рассматривают лишь отдельные классы мотивов с дальнодействием.

Представляется необходимой разработка единого языка описания структурных мотивов (как локальных, так и мотивов с дальнодействием), что позволит не только внедрить разметку всех мотивов в аннотированную базу данных, но и открыть новые, более редкие виды повторяющихся мотивов с дальнодействием, обладающих, возможно, важными функциями.

Глава 2. Материалы и методы

В данной главе предлагается оригинальная модель описания вторичной структуры РНК, а именно: вводится вся необходимая терминология, включая основное для предлагаемого подхода понятие петли, обобщающее понятие петли модели ЫЫМ, а также доказываются утверждения, позволяющие установить общий вид петель и согласовать новую модель с моделью ЫЫМ.

В главе вводятся принципиально новые понятия, такие как линк, грань, блок и др., которые позволяют обобщить модель ЫЫМ на случай псевдоузловых структур. Также, наглядно доказано, что при отсутствии псевдоузлов представленные модели полностью совпадают.

С помощью предложенной модели разработана классификация третичных мотивов РНК, которая была применена для аннотации третичных спариваний оснований, мотивов А-минор и элементов с интеркалированными основаниями.

На основе предложенной модели разработана база данных пространственных структур РНК URSDB, используемая для анализа рассматриваемых структурных мотивов РНК, а также для формирования датасетов для решения поставленных задач бинарной классификации методами машинного обучения.

2.1 Модель описания вторичной структуры РНК

Изложенная в данном разделе модель описания произвольной вторичной структуры РНК опубликована в работе [241].

2.1.1 Основные определения

Молекула РНК в работе представлена как последовательность нуклеотидов, иначе говоря, как символьная последовательность в алфавите {А, С, G, и}. Каждый нуклеотид в молекуле имеет свой номер от 1 до L, где L - длина

по следовательно сти.

Связь (Спаривание) - это пара нуклеотидов (i, j), где i < j, которая образует водородные связи. При этом допускаются не только канонические спаривания, т.е. связи между комплементарными нуклеотидами (A-U и G-C, Watson-Crick pairs) и G-U связи (Wobble pairs), но и неканонические связи, см. [47, 115]. Для описания геометрических типов спариваний мы используем классификацию Леонтиса-Вестхофа [115], согласно которой каждое спаривание характеризуется парой концов взаимодействующих нуклеотидов (Hoogsteen-конец (H) / Sugar-конец (S) / Watson-Crick-конец (W)), а также относительной ориентацией гликозидных связей (cis/trans, c/t). Например, спаривание между Sugar-концом аденина и Hoogsteen-концом гуанина в trans ориентации обозначается как A-G tSH или G-A tHS.

Спираль (Стем) - это максимальная последовательность пар нуклеотидов вида (i, j), (i + 1,j- 1),..., (i + k,j -k) такая, что

1) i<j, i + k<j-k, k> 1;

2) все пары вида (i + x, j - x), где x = 0, ..., k, образуют Уотсон-Криковские связи (WC-связи), т.е. связи между комплементарными нуклеотидами, или G-U связи.

Участок цепи [i, i + k] будем называть левым крылом стема, соответственно участок [j - k, j] будем называть правым крылом стема.

Пару (i, j) будем называть внешней парой стема или торцом стема, пару (i + k, j - k) будем называть внутренней парой стема.

Нить - это такой участок цепи [i, j], где i < j, что

1) не существует такой WC-связи или G-U связи (k, t), что i < k < j или i < t < j и связь (k, t) является парой стема;

2) существуют пары, являющиеся частью стемов, в которые входят нуклеотиды i - 1 и j + 1.

Замечание. Допускаются нити «нулевой длины», для их обозначения используется запись [г + 1, г], где г - номер последнего нуклеотида предшествующего крыла.

Вторичная структура РНК - это такое множество WC и G-U связей, что

1) каждый нуклеотид входит не более чем в одну связь;

2) каждая пара входит в некоторую спираль.

Отметим, что в экспериментально определенных пространственных структурах РНК есть значительное число водородных связей, не входящих в стемы [242], роль таких связей в настоящее время изучена слабо. Мы исходим из предположения, что полезно отдельно рассматривать «базовую» вторичную структуру, образованную стемами, и (над этой структурой) - одиночные спаривания, называемые линками (или третичными спариваниями).

Линк - одиночное спаривание (г, j), не являющееся частью стема.

Будем говорить, что два стема (стем и линк, два линка) находятся в конфликте, если между крыльями одного стема (линка) находится одно, и только одно крыло другого стема (линка).

Псевдоузловой участок - участок вторичной структуры, содержащий хотя бы одну пару стемов, находящихся в конфликте друг с другом.

По наличию конфликтов линки делятся на три типа. Линк называется внутренним, если он не конфликтует с другими стемами (линками); связанным, если он конфликтует с линками, но не со стемами; свободным, если он конфликтует со стемами.

2.1.2 Стемы и петли

Здесь и далее будем считать фиксированной цепь РНК с заданной на ней вторичной структурой. Эту цепь можно рассматривать как чередующуюся последовательность нитей и крыльев. Для удобства изложения мы будем считать,

что перед первым и после последнего нуклеотида цепи добавлены крылья «внешнего стема» (ср. с [243]).

С каждым стемом связан внутренний по отношению к нему участок цепи -участок между концом левого крыла и началом правого крыла, иначе говоря, -между нуклеотидами, образующими внутреннюю пару стема. Для фиктивного внешнего стема внутренним участком является вся исходная последовательность РНК.

Пусть Н - стем и (г, j) - его внутренняя пара.

Определение 1. Позиция цепи t - внутренняя для стема Н (синоним: лежит внутри Н), если г < t < j. Фрагмент цепи - внутренний для стема Н (синоним: лежит внутри Н), если все его позиции - внутренние для стема Н. Стем Н1 лежит внутри стема Н (является внутренним для Н), если все позиции его крыльев - внутренние для Н.

Определение 2. Позиция цепи t принадлежит стему Н, если она внутренняя для Н и не существует стема Н1, лежащего внутри Н, такого, что х < t < у, где (х, у) - внешняя пара (торец) Н1.

Определение 3. Петля стема Н - это множество всех позиций, принадлежащих стему Н.

Очевидно, каждая позиция, не входящая в связь, принадлежит хотя бы одной петле - обычной или внешней. При этом если какая-то позиция нити (крыла) принадлежит некоторой петле, то и вся нить (все крыло) принадлежит этой петле.

Если в структуре нет псевдоузлов, то каждая петля в смысле определения 3 является петлей согласно модели и наоборот. При этом каждая нить

принадлежит ровно одной петле (возможно, внешней), а ни одно крыло не принадлежит какой-либо петле. Для структур с псевдоузлами оба эти свойства нарушаются.

2.1.3 Структура петель

Определение 4. Пусть H - стем и (u, v) - его внутренняя пара. Участок [i, j] называется элементарным замкнутым участком относительно H (H-ЭЗУ,, в общем случае элементарный замкнутый относительно стема участок, С-ЭЗУ, stem-related elementary closed region, S-ECR), если

1) [i, j] лежит внутри H;

2) не существует таких связей (k, t), что i < k < j < t < v или u < k< i < t < j;

3) существуют связи (i, k) и (t,j), где k < j; i < t;

4) не существует отличного от [i, j] участка [i', j'] такого, что i' < i < j < j' и участок [i', j'] удовлетворяет условиям 1) - 3).

Пара нуклеотидов (i, j) называется торцом замкнутого относительно H участка.

Утверждение 1. Пусть Z = [f, g] - участок, замкнутый относительно стема H; (u, v) - внутренняя пара стема H. Тогда:

1) Участок Z целиком лежит внутри стема H;

2) Крыло либо целиком лежит в Z, либо целиком лежит вне Z;

3) Замкнутый относительно H участок начинается левым крылом некоторого стема H1, лежащего внутри H, и заканчивается правым крылом некоторого стема H2, лежащего внутри H;

4) Если H1 = H2 - это один и тот же стем, то торец f g) участка Z - это торец данного стема. В противном случае f - это начало левого крыла стема H1, g - это конец правого крыла стема H2.

Доказательство - следует из определения 4 и того, что крылья не пересекаются.

Определение 5. Пусть Z-участок, замкнутый относительно стемаH. Участок Z называется простым, если его торец - это торец некоторого стема и сложным в

Сложные участки для краткости будем называть блоками (см.

Простой Н-ЭЗУ_11 Блок

Рисунок 2.1. Пример замкнутых относительно стема Н участков. Цепь РНК изображена черной

стрелкой, спаривания оснований изображены в виде дуг. Стем Н обозначен фиолетовым; спаривания, образующие торцы Н-ЭЗУ, обозначены синим. Рисунок подготовлен с помощью

веб-сервера R-chie [96].

Утверждение 2. Пусть Н - стем; (и, V) - его внутренняя пара. Тогда

1) Никакие два участка, замкнутых относительно Н, не пересекаются;

2) Пусть позиция t лежит внутри спирали Н. Позиция t НЕ принадлежит спирали Н тогда и только тогда, когда t лежит внутри некоторого участка 2, замкнутого относительно Н (т.е. лежит в 2, но не входит в его торец).

Доказательство - следует из определений 1, 2 и 4.

Определение 6. Пусть Н - стем и (и, V) - его внутренняя пара. Пусть tl),

($п, П - торцы всех участков, замкнутых относительно Н; sl < tl < ... < < tn. Для удобства пусть to = и; + 1 = V. Пусть k - целое; 1 < k < п + 1. Тогда к-я грань петли Н - это фрагмент + 1, 1].

Замечание. Если Sk = tk-l + 1, то к-я грань петли Н - пустой отрезок.

Утверждение 3. Пусть Н - стем и (и, V) - его внутренняя пара. Пусть (л1, tl),

($п, П - торцы всех участков, замкнутых относительно Н; sl < tl < ... < Sn <

tn. Для удобства пусть to = u; Sn + 1 = v. Тогда петля стема H - это объединение торцов всех участков, замкнутых относительно H, и расположенных между ними граней.

Доказательство - следует из утверждения 2.

Утверждение 4. Пусть H - стем и (u, v) - его внутренняя пара и позиция x принадлежит грани (t, s) петли стема H. Тогда

1) Позиция x либо не участвует в связи, либо принадлежит крылу стема H', другое крыло которого лежит вне стема H;

2) Если x принадлежит нити (крылу стема), то все позиции этой нити (этого крыла) принадлежат той же грани петли стема H.

Доказательство - следует из определения граней и того, что крылья не пересекаются.

Утверждения 3 и 4 описывают возможные структуры петель. Отметим, что в случае структур, которые не содержат псевдоузлов, все замкнутые участки

- простые и каждая грань состоит из единственного однонитевого участка. Поэтому можно дать такое определение.

Определение 7. Петля называется классической (classical), если она не содержит крыльев и торцов блоков. Петля называется изолированной (isolated), если она не содержит крыльев, и узловой (pseudoknotted), если она содержит крылья (см. рис. 2.2).

Стем называется узловым, если его петля - узловая.

Применим классификацию петель модели NNM к введенному нами обобщению, основываясь на количестве торцов, входящих в петлю. Отметим, что в нашем случае торцы могут быть как торцами стемов (иными словами

- простых замкнутых участков), так и торцами блоков (сложных замкнутых участков).

Рисунок 2.2. Типы внутренних петель согласно предложенной модели. Структуры петель изображены в виде дуговых диаграмм (сверху) и графов вторичной структуры (снизу). Составляющие петлю однонитевые участки выделены розовыми линиями (сверху) и розовыми стрелками (снизу). (А) Классическая петля. (Б) Изолированная петля, содержащая один торец блока. (В) Узловая петля, содержащая одно крыло стема. Рисунок подготовлен с помощью

веб-серверов R-chie [96] и forna [95].

Определение 8. Петля называется шпилькой (hairpin), если она не содержит торцов и, соответственно имеет одну грань. Петля называется внутренней (internal loop), если она содержит ровно один торец, и, соответственно, имеет две грани. Петля называется мульти-петлей (multiple junction, multiple loop), если она содержит более одного торца, и, соответственно, более двух граней. Отметим, что на рисунке 2.2 изображены классы внутренних петель в классификации модели NNM.

Замечание 1. Будем называть выпячиванием (bulge) такую внутреннюю петлю, одна из граней которой является нитью нулевой длины.

Замечание 2. Данная классификация распространяется как на обычные, так и на внешние петли (принадлежащие «внешним» стемам).

2.1.4 Псевдоузлы

Элементарный замкнутый участок (ЭЗУ, elementary closed region, ECR) -минимальный участок [i,j], такой что:

1) Не существует связи (к, I), такой что г < к < у < I или к < г < I < у;

2) Не существует позиции I, такой что г < I < у и оба участка [г, ..., I] и [I + 1, ...,у] удовлетворяют условию 1);

3) Существуют связи (г, к) и (I, у); допускаются равенства к = у и 1 = 1.

Пара (г, у) называется торцом ЭЗУ [г, у]. Отметим, что если пара (г, у) является связью и принадлежит некоторому стему, то торец ЭЗУ совпадает с торцом данного стема.

ЭЗУ [к, I] является суб-ЭЗУ ^ub-ECR) относительно ЭЗУ [г, у], если г < к < I < у и не существует такого ЭЗУ [т, п], что г < т < к < I < п <у.

ЭЗУ называется псевдоузлом (синоним: псевдоузловой ЭЗУ) если принадлежащие ему стемы находятся в конфликте. В противном случае ЭЗУ называется свободным от псевдоузлов или классическим.

Классификация псевдоузлов, реализованная в данной работе, основана на понятии сигнатуры. Классификация схожа с топологической классификацией псевдоузлов, предложенной в работе [244]. Основным отличием нашей классификации является исключение из рассмотрения одиночных спариваний (линков).

Рассмотрим все спирали ЭЗУ и обозначим их буквами латинского алфавита в соответствии с позициями их крыльев от 5'- к З'-концу. Левое крыло будем обозначать строчными буквами, например, а, а правое крыло - заглавными буквами, например, А. Таким образом, каждый стем будет обозначен двумя буквами, например, аА.

Полной сигнатурой ЭЗУ называется последовательность его крыльев в соответствии с их позициями от 5'- к З'-концу.

Пример 1. Пусть ЭЗУ [10, 70] содержит три стема, ([10, 15]; [65, 70]), ([20, 25]; [45, 50]), ([З0, З5]; [55, 60]), здесь [10, 15]и[65, 70]-крылья стема ([10, 15]; [65, 70]), ит.д. Тогдастем ([10, 15]; [65, 70]) обозначимкакаА,стем ([20, 25]; [45, 50]) - ЬВ, а стем ([З0, З5]; [55, 60]) - сС. Полной сигнатурой данного ЭЗУ будет последовательность аЬсВСА. Участок [20, 60] является суб-ЭЗУ относительно исходного ЭЗУ (см. рис. 2.3).

а Ь с В С А

I

Рисунок 2.3. (А) Дуговая диаграмма крыльев и (Б) граф вторичной структуры ЭЗУ из примера 1. Строчные буквы обозначают левые крылья стемов, заглавные буквы - правые крылья. Каждый стем обозначен парой соответствующих его крыльям букв и набором дуг. Синим и зеленым цветами обозначены стемы суб-ЭЗУ, красным цветом выделен стем, содержащий торец ЭЗУ Рисунок подготовлен с помощью веб-серверов Я-сЫе [96] и PseudoViewer [245].

Пример 2. Пусть ЭЗУ содержит четыре спирали, ([10, 15]; [70, 75]), ([20, 25]; [50, 55]), ([30, 35]; [40, 45]), ([60, 65]; [80, 85]), здесь[10, 15]и[70, 75]-крылья стема ([10, 15]; [70, 75]), и т.д. Тогда стем ([10, 15]; [70, 75]) обозначим как аА, стем ([20, 25]; [50, 55]) - ЬВ, стем ([30, 35]; [40, 45]) - сС, а стем ([60, 65]; [80, 85]) - dD. Полной сигнатурой данного ЭЗУ будет последовательность abcCBdAD. Участок [20, 55] является суб-ЭЗУ относительно исходного ЭЗУ, а участок [30, 45] является суб-ЭЗУ относительно участка [20, 55] (см. рис. 2.4).

Рисунок 2.4. (А) Дуговая диаграмма крыльев и (Б) граф вторичной структуры ЭЗУ из примера 2. Строчные буквы обозначают левые крылья стемов, заглавные буквы - правые крылья. Каждый

стем обозначен парой соответствующих его крыльям букв и набором дуг. Синим цветом обозначены стемы суб-ЭЗУ, красным и зеленым цветами выделены конфликтующие стемы ЭЗУ. Рисунок подготовлен с помощью веб-серверов R-chie [96] и PseudoViewer [245].

Пример 3. Пусть ЭЗУ содержит шесть стемов, ([2, 7]; [90, 95]), ([10, 15]; [80, 85]), ([20, 25]; [50, 55]), ([30, 35]; [40, 45]), ([60, 65]; [120, 125]), ([70, 75]; [110, 115]), здесь [2, 7] и [90, 95] - крылья стема ([2, 7]; [90, 95]), и т.д. Тогда стем ([2, 7]; [90, 95]) обозначим как аА, стем ([10, 15]; [80, 85]) - ЬВ, стем ([20, 25]; [50, 55]) - сС, стем ([30, 35]; [40, 45]) - dD, стем ([60, 65]; [120,125]) - еЕ, а стем ([70, 75]; [110, 115]) - /Р. Полной сигнатурой данного ЭЗУ будет последовательность abcdDCefBAFE. Участок [20, 55] является суб-ЭЗУ относительно исходного ЭЗУ, а участок [30, 45] является суб-ЭЗУ относительно участка [20, 55] (см. рис. 2.5).

Рисунок 2.5. (А) Дуговая диаграмма крыльев и (Б) граф вторичной структуры ЭЗУ из примера 3. Строчные буквы обозначают левые крылья стемов, заглавные буквы - правые крылья. Каждый стем обозначен парой соответствующих его крыльям букв и набором дуг. Синим цветом обозначены стемы суб-ЭЗУ, красным и зеленым цветами выделены конфликтующие группы стемов ЭЗУ Рисунок подготовлен с помощью веб-серверов R-chie [96] и PseudoViewer [245].

Верхняя сигнатура ЭЗУ получается из полной сигнатуры в результате:

1) удаления крыльев, соответствующих всем суб-ЭЗУ;

2) переименования стемов в порядке использования последовательных букв латинского алфавита, сохраняя порядок крыльев.

Верхней сигнатурой ЭЗУ из примера 1 будет последовательность aA; участок bcBC, отвечающий суб-ЭЗУ [20, 60], был удален из полной сигнатуры abcBCA.

Верхней сигнатурой ЭЗУ из примера 2 будет последовательность abAB. Сначала участок bcCB, отвечающий суб-ЭЗУ [20, 55], был удален из полной сигнатуры abcCBdAD. Затем мы, заменяя d и D на b и B, получаем abAB.

Аналогично, верхней сигнатурой ЭЗУ из примера 3 будет последовательность abcdBADC.

СтемыxX, yY,... называются связанными в верхней сигнатуре, если оба слова xy... и ...YX являются подстроками верхней сигнатуры.

Сигнатура ЭЗУ (усеченная сигнатура ЭЗУ) - это последовательность, полученная из верхней сигнатуры в результате:

1) удаления всех букв, кроме x и X (первая буква левой части и последняя буква правой части), соответствующих цепочкам связанных стемов;

2) переименования стемов в порядке использования последовательных букв латинского алфавита с сохранением порядка крыльев.

Сигнатуры ЭЗУ из примеров 1 и 2 совпадают со своими верхними сигнатурами. Сигнатурой ЭЗУ из примера 3 будет последовательность abAB, что совпадает с сигнатурой ЭЗУ из примера 2.

Примеры типичных сигнатур:

а) H-узел (H-knot): abAB;

б) «Целующиеся петли» (kissing loops): abAcBC;

в) Тройной узел (triple knot): abcABC.

2.2 Классификация третичных мотивов РНК

На основе предложенной модели описания вторичной структуры РНК была разработана классификация третичных мотивов РНК, обобщающая понятия локального мотива и мотива с дальнодействием [246]. Согласно классификации каждому нуклеотиду мотива приписывается тип соответствующего элемента вторичной структуры. Так, нуклеотиду соответствует метка S, если нуклеотид принадлежит стему, и метка T1C1T2C2...TnCn, если нуклеотид принадлежит N петлям, где Ti - тип петли (H - шпилька, B - выпячивание, I - внутренняя петля, J - мульти-петля), Ci - класс петли (C - классическая петля, I - изолированная петля, P - узловая петля). Каждой паре нуклеотидов мотива ставится в соответствие взаимное расположение их элементов вторичной структуры. Так, паре нуклеотидов соответствует метка SM (same, т.е. пара внутри элемента), если нуклеотиды принадлежат одному элементу вторичной структуры, метка LC (local, т.е. локальная пара), если нуклеотиды принадлежат соседним элементам, и меткаLR (long-range, т.е. пара с дальнодействием), если нуклеотиды принадлежат взаимно удаленным элементам.

2.2.1 Мотив А-минор

Наше определение А-минора совпадает с определением, принятым в программе DSSR [47].

А-минор взаимодействие (А-минор) - это тройка нуклеотидов, состоящая из аденина и спаривания оснований, с малой бороздкой которого аденин контактирует посредством образования водородных связей. А-миноры, О2'-атом аденина которых участвует в водородных связях, принадлежат геометрическому типу I или II, согласно классификации Ниссена [122]. Иначе, А-минор относится к типу X (extended, т.е. расширенный, см. [47]). Аденин А-минора обозначается буквой А, нуклеотиды спаривания обозначаются буквами L (ближайший к 5'-

концу цепи РНК) и Я (ближайший к 3-концу цепи РНК). А-минор называется внутримолекулярным, если все три его нуклеотида принадлежат одной цепи РНК, иначе А-минор называется межмолекулярным. Если нуклеотиды L и Я принадлежат разным цепям РНК, порядок их обозначения определяется алфавитным порядком идентификаторов соответствующих цепей РНК.

Для каждого РНК-содержащего файла из банка PDB [247] был определен граф G = (V, Е), где V = {л>1 = Л Li, Я)} - множество А-миноров, Е = (еу = (уи Уу)} -множество ребер между А-минорами. (у^ Уу) Е Е, если существуют такие Ni Е (Ли Li, Я} и N Е (Лу, Lj, Яу}, что либо Ni = Ыу, либо Ni и N находятся в стеке друг с другом. Компоненту связности графа G будем называть мотивом А-минор. Мотив А-минор будем называть А-кластером (кластером А-миноров), если он содержит как минимум два разных аденина Л^ и Лу или два разных спаривания ^^ Я) и Яу). Размер мотива А-минор определяется парой чисел - числом аденинов и числом спариваний, так, например, мотив размера (3, 2) состоит из трех аденинов и двух спариваний. А-минор взаимодействие будем называть кластерным, если оно является частью А-кластера. А-минор, не принадлежащий никакому А-кластеру, будем называть одиночным.

Все А-минор взаимодействия были проклассифицированы в соответствии с предложенным подходом. Каждому нуклеотиду А-минора были поставлены в соответствие содержащий его стем или петля (петли), а каждой паре нуклеотидов их взаимное расположение в контексте вторичной структуры РНК - внутри одной петли (стема), между соседними стемом и петлей или между удаленными элементами.

На рисунке 2.6 изображен пример классификации А-минора из лизинового рибосвитча (PDB код 3Б0и, цепь Л). Аденин Л124 принадлежит классической шпильке (НС), замкнутой стемом 58. Нуклеотид Л20 неканонического спаривания (Л20, G66) принадлежит классической внутренней петле (1С), замкнутой стемом 52. Нуклеотид G66 спаривания также принадлежит этой

внутренней петле, а кроме того принадлежит узловой шпильке (ИР) стема 84, образуя класс ИР1С. Так как А20 и G66 имеют общую петлю, пара нуклеотидов Л20^бб принадлежит классу 8М (внутри одной петли). Пары А124-А20 и А124-G66 принадлежат классу LR, т.к. обе пары состоят из удаленных во вторичной структуре РНК нуклеотидов. Таким образом, данному А-минору приписывается класс ИС-1С-ИР1С^^-8М.

Рисунок 2.6. Пример классификации А-минора. Граф вторичной структуры лизинового рибосвитча из PDB-файла 3D0U построен с помощью программы VARNA [94]. Петли и стемы аннотированы в соответствии с предложенной моделью описания вторичной структуры РНК. Нуклеотиды А-минора A124\A20-G66, принадлежащего геометрическому типу X, выделены на графе красным, зеленым и синим цветами соответственно, а также изображены отдельно в виде 3D структуры. Каждый нуклеотид А-минора аннотирован соответствующим элементом вторичной структуры РНК. Каждая пара нуклеотидов А-минора аннотирована типом их

взаимного расположения.

1074 РНК-содержащих PDB-файла из неизбыточного подмножества структур РНК (версия 3.76 с разрешением не больше 3.0 ангстрем, [248]) были отобраны для анализа А-миноров. Для аннотации А-минор взаимодействий использовалась программа DSSR (версия v1.8.5-2018nov29, [47]). Мотивы А-минор были аннотированы с помощью оригинального программного комплекса urslib (https:

//github.com/febos/urslib, [249]). Итоговый датасет включал 2431 А-минор взаимодействие, которые образовывали 1504 мотива А-минор. 626 мотивов А-минор являлись А-кластерами. Описание А-минор взаимодействий включало геометрические характеристики, параметры водородных связей, контекст вторичной структуры РНК, размер соответствующего мотива А-минор, а также аннотацию последовательностей основных тетралупов (шпилек, состоящих из четырех нуклеотидов, см. [250]). Описание ребер между А-минорами включало параметры соответствующих А-миноров, характеристики стекинг-взаимодействий, а также класс ребра в формате последовательности пар NidNj, разделенных нижними подчеркиваниями, где Nk является одним из нуклеотидов (A, L или R) А-минора vk, а отношение d Е {"e" - совпадают, "n" - соседи в последовательности нуклеотидов, "s" - находятся в стекинге, "ns" -соседи в последовательности нуклеотидов и находятся в стекинге}. Например, класс "AsALeLReR' описывает ребро между А-минорами, имеющими общее спаривание и два непоследовательных аденина, находящихся в стекинге.

2.2.2 Мотивы BIE и BWE

Элементом с интеркалированным основанием (base-intercalated element, BIE) или с вклиненным основанием (base-wedged element, BWE) будем называть такую тройку нуклеотидов Ni, Nj, Nk, в которой:

1) N и Nk принадлежат одной цепи РНК;

2) k = i+ 1 (BIE) или k=i + 2 и j = i + 1(BWE);

3) существуют стекинг-взаимодействия (Ni, Nj) и (Nj, Nk).

Мотив BIE (BWE) называется внутримолекулярным, если Ni и Nj принадлежат одной цепи РНК, и межмолекулярным в обратном случае.

Все мотивы BIE и BWE были проклассифицированы в соответствии с предложенным подходом. Каждому нуклеотиду мотива были поставлены в

соответствие содержащий его стем или петля (петли), а каждой паре нуклеотидов их взаимное расположение в контексте вторичной структуры РНК - внутри одной петли (стема), между соседними стемом и петлей или между удаленными элементами.

В качестве источника данных была использована разработанная база пространственных структур РНК URSDB [249]. Поиск и аннотация мотивов В1Е и BWE были проведены в 4551 PDB-файле (полное множество структур РНК базы URSDB на октябрь 2019). Аннотация стекинг-взаимодействий была выполнена с помощью программы DSSR [47]. В результате поиска было проаннотировано около 55 тысяч мотивов В1Е и BWE. Для анализа мотивов было выбрано неизбыточное подмножество структур РНК (версия 3.96 с разрешением не больше 3.5 А, [248]). Полные повторы (например между моделями одной структуры, полученной ЯМР методом) и повторы между идентичными копиями молекулы РНК внутри PDB-файла были удалены. В процессе удаления полных повторов из разных PDB-файлов в итоговый набор данных попадали мотивы из файла с лучшим разрешением. Описание мотивов В1Е и BWE включало идентификаторы нуклеотидов, классы мотивов (BIE/BWE, внутримолекулярный/межмолекулярный), контекст вторичной структуры РНК, параметры стекинг-взаимодействий, а также аннотацию третичных взаимодействий, в которых участвует нуклеотид N, в том числе контакты основание-фосфат [251] и стекинг-взаимодействия вида основание - О4'-атом рибозы [252].

В итоговый набор данных для анализа отбирались мотивы с расстояниями между нуклеотидами в стекинге не больше 4.0 А и углами между плоскостями оснований не больше 30°. Всего было отобрано 1466 мотивов из 241 PDB-файла.

2.3 База данных

На основе предложенной модели описания вторичной структуры РНК была разработана база данных пространственных структур РНК URSDB [249].

2.3.1 Детали реализации

В качестве исходных данных были выбраны все РНК-содержащие экспериментально определенные пространственные структуры из банка данных PDB. По состоянию на декабрь 2020 года база данных URSDB включает структуры из более чем 5200 файлов банка PDB в формате ттСШ. В связи с тем, что с начала 2015 года основным форматом PDB стал формат ттСШ [129], разработанная нами база данных также перешла на использование файлов в данном формате. Преимуществом формата ттСШ (см. рис. 2.7) является отсутствие ограничений на размер файла, что позволило объединить в один файл многие структуры, разделенные из-за ограничений старого формата .pdb.

structrefseq.pdbxauthseqalignbeg st ruct_ref_seq.pdbxauth_seq_align_end

1 1 2KMJ A 1 ? 28 ? 2KMJ

2 2 2KMJ В 1 ? 4 ? 2KMJ

3 2 2KMJ С 1 ? 4 ? 2KMJ #

loop_

chemcomp.id _chem_comp.type chemcomp.monnstdflag chemcomp.name chemcomp.pdbxsynonyms chemcomp.formula chemcomp.formulaweight

16 1

43

4

4

16 1

46

4

4

A 1RNA linking'

C 'RNA linking'

DAR 'D-peptide linking'

G 'RNA linking'

NH2 non-polymer

U 'RNA linking'

ZUK 'D-peptide linking'

l#_

у "ADENOSINE-5'-MONOPHOSPHATE" у "CYTIDINE-5'-MONOPHOSPHATE" . D-ARGININE

у "GUANOSINE-5'-MONOPHOSPHATE" . 'AMINO GROUP' у "URIDINE-5'-MONOPHOSPHATE" . 5-pyrimidin-2-yl-D-norvaline

? 'СЮ Н14 N5 07 Р' 347 .221

? 1С9 Н14 N3 08 Р' 323 .197

? 'С6 Н15 N4 02 1' 175 .209

? 'СЮ Н14 N5 08 Р' 363 .221

? ' Н2 N' 16.1 023

? ■С9 Н13 N2 09 Р' 324 .181

? 1С9 Н13 N3 02' 195 .218

Рисунок 2.7. Фрагмент файла 2KMJ из банка PDB в формате mmCIF.

Для разметки водородных связей, образующих вторичную структуру РНК, была использована программа DSSR [47]. Данная программа была выбрана среди более распространенных аналогов [126, 168, 169] как самая свежая и обладающая наиболее богатым функционалом. Более того, мы принимали активное участие в ее тестировании. Выходные данные программы DSSR

7 1 С V-» м

файлов с аннотациями спариваний, элементов вторичной структуры и некоторых третичных мотивов. Основной выходной файл имеет формат .оМ [47] (см. рис. 2.8) и содержит подробное описание спариваний между основаниями нуклеотидов, а также других водородных связей и стекинг-взаимодействий.

List of 20 base pairs

ntl nt2 bp name Saenger LW DSSR

114..A.G.I. 14..A.C.16. G-C -- n/a cWW cW-W

[-162.6(anti) ____ lambda=46.8] [-158.4(anti) ~C3'-endo lambda=22.8]

d(CI1-CI1)=12.36 d(Nl-N9)=10.00 d(C6-C8)=9.93 tor(CI'-N1-N9-C1')=-7.9 H-bonds[1]: "06(carbonyl)-N4(amino)[3.06]"

interBase-angle=21 Simple-bpParams: Shear=2.47 Stretch=0.82 Buckle=19.6 Propeller=-8.2 bp-pars: [2.60 0.17 -1.86 16.93 -12.84 -38.87]

2 14..A.G.I. 14..A.C.17. G-C WC 19-XIX cWW cW-W

[-162.6(anti) ____ lambda=56.8] [-161.3(anti) ~C3'-endo lambda=52.7]

d(CI'-CI')=10.52 d(Nl-N9)=8.82 d(C6-C8)=9.72 tor(CI'-N1-N9-C1')=-20.6

H-bonds[3]: "06(carbonyl)-N4(amino)[2.72],Nl(imino)-N3[2.72],N2(amino)-02(carbonyl)[2.59]" interBase-angle=10 Simple-bpParams: Shear=0.61 Stretch=-0.24 Buckle=4.6 Propeller=-9.0 bp-pars: [0.59 -0.28 0.18 4.07 -9.26 0.59]

3 14..A.G.2. 14..A.C.16. G-C WC 19-XIX cWW cW-W

[-159.6(anti) ~C3'-endo lambda=45.0] [-158.4(anti) ~C3'-endo lambda=52.9] d(CI'-CI')=10.50 d(Nl-N9)=8.57 d(C6-C8)=9.21 tor(CI'-N1-N9-C1')=-20.8

H-bonds[3]: "06(carbonyl)-N4(amino)[2.31],Nl(imino)-N3[2.60],N2(amino)-02(carbonyl)[2.78]" interBase-angle=8 Simple-bpParams: Shear=-0.77 Stretch=-0.71 Buckle=-3.1 Propeller=-7.1 bp-pars: [-0.72 -0.77 0.32 -2.54 -7.34 -10.05]

4 14..A.G.3. 14..A.C.15. G-C WC 19-XIX cWW cW-W

[-154.6(anti) ~C3'-endo lambda=56.5] [-158.0(anti) ~C3'-endo lambda=50.2] d(CI1-CI1)=10.58 d(Nl-N9)=8.83 d(C6-C8)=9.67 tor(CI'-N1-N9-C1') = -26.6

H-bonds[3]: "06(carbonyl)-N4(amino)[2.61],Nl(imino)-N3[2.69],N2(amino)-02(carbonyl)[2.65]" interBase-angle=10 Simple-bpParams: Shear=0.57 Stretch=-0.31 Buckle=0.7 Propeller=-10.0 _bp-pars: [0.56 -0.34 0.23 0.06 -10.05 -2.63]_

Рисунок 2.8. Фрагмент основного выходного файла программы DSSR в ои1-формате для

PDB-структуры 1Л60.

Для каждой структуры из банка PDB в качестве исходных данных использовались координаты атомов и описание цепей биополимеров из файла в формате ттСЩ а также разметка спариваний оснований из выходного файла программы DSSR в ои1;-формате (см. рис. 2.9).

Рисунок 2.9. Схема обработки данных, используемая для наполнения базы данных пространственных структур РНК URSDB.

Для обработки исходных данных был разработан программный комплекс, реализованный на языке программирования Python 3 [253]. Программа выполнена в виде библиотеки, состоящей из независимых наборов модулей. Данная библиотека содержит все необходимые функции для извлечения исходных данных о структурах РНК, их обработки, построения базы данных и анализа, как полученных элементов вторичной структуры, так и взаимодействий РНК с другими молекулами. По выполняемым действиям программа делится на три части:

1) Подготовка исходных данных (разделение файлов на модели, прогонка моделей через DSSR);

2) Конструктор текстовых файлов для наполнения базы данных (обработка моделей и out-файлов, разметка элементов вторичной структуры, разметка РНК-белковых и других взаимодействий, разметка сигнатур псевдоузлов, разметка третичных мотивов);

3) Конструктор скрипта в формате SQL [254] для создания базы данных на SQL-сервере и ее наполнения.

Алгоритм разметки водородных связей между РНК и белком был взят из [161] с согласия авторов. Данный алгоритм использует численный инвариант, который отражает достоверность водородных связей - от 0.1 (недостоверная связь) до 1.0 (достоверная связь).

Начиная с марта 2015 года для работы с разработанным программным комплексом используется система контроля версий Git [255]. Исходный код доступен в виде GitHub-репозитория (https://github.com/febos/urslib/) под лицензией GNU GPL 3 [256].

2.3.2 Веб-интерфейс

Веб-интерфейс реализован в виде набора CGI скриптов [257], выполненных на языке программирования Python 2 [253]. В процессе работы использовалась система контроля версий Git [255]. Также, в процессе работы были задействованы язык разметки HTML, таблицы стилей CSS [258, 259] и скриптовый язык программирования JavaScript [260].

В рамках реализации веб-интерфейса использовались следующие технологии:

1) Local Storage - возможность HTML5 [258], позволяющая сохранять данные на стороне клиента. Была использована для сохранения выдачи результатов поиска в течение сессии пользователя;

2) jQuery [261] - сторонняя библиотека языка JavaScript. Была задействована для выполнения асинхронных запросов к серверу (Ajax [262]) в процессе выдачи информации об отдельной структуре;

3) Jmol [263] - Java-апплет визуализации пространственных структур биологических макромолекул;

4) JSmol [264] - НТМЬ5-версия апплета Jmol. Был интегрирован в качестве

альтернативного инструмента визуализации;

5) ExtJS [265] - сторонняя библиотека CSS.

2.4 Методы машинного обучения

2.4.1 Задачи классификации и выборки данных

Для формирования датасетов и решения задач бинарной классификации третичных спариваний и А-миноров использовалась методика, апробированная нами в работе [266].

При решении задачи предсказания третичных спариваний оснований рассматривалось два подмножества структур РНК - подмножество структур -представителей классов эквивалентности ([248], версия 3.76 с разрешением не выше 3.0 А, один представитель для пары молекула-организм) и неизбыточное подмножество структур (один представитель для каждого типа молекулы РНК, без учета организма). Неизбыточное подмножество структур было составлено вручную из структур РНК, содержащих хотя бы один стем. В качестве представителей выбирались структуры лучшего разрешения с максимальным количеством третичных спариваний оснований. В результате отбора неизбыточное подмножество составили 44 цепи РНК (включая 23 рибосвитча, 7 рибозимов и 6 рибосомальных РНК). Подмножество представителей классов составляло 398 цепей РНК, содержащих хотя бы один внутримолекулярный стем.

По двум подмножествам структур РНК были составлены датасеты, содержащие все возможные пары нуклеотидов, исключая принадлежащие стемам спаривания оснований, т.е. пары, являющиеся частью вторичной структуры РНК. Для каждой пары [Ni,Nj] симметричная ей пара [Nj, Ni] также включалась в датасет. Пара нуклеотидов [Ni ,Nj] относилась к положительному классу (класс 1), если нуклеотиды Ni и Nj образовывали спаривание оснований, и к отрицательному классу (класс 0) в обратном случае.

Для уменьшения несбалансированности классов рассматривались только пары нуклеотидов, находящихся на расстоянии не более 60 позиций друг от друга в последовательности РНК. Таким образом удалось избавиться от более чем 90% объектов отрицательного класса, сохранив более 80% объектов положительного класса. Итоговые датасеты содержали около 18 тысяч объектов класса 1 и 6790 тысяч объектов класса 0 для подмножества структур-представителей и около 4 тысяч объектов класса 1 и 1500 тысяч объектов класса 0 для неизбыточного подмножества структур РНК. Каждый элемент выборки описывался более чем 300 значениями признаков, включая типы оснований, контекст вторичной структуры РНК, длины соответствующих нитей и крыльев, порядковые номера нуклеотидов внутри нити или крыла, взаимное расположение нуклеотидов согласно предложенной классификации, а также наличие спаривания между нуклеотидами в качестве целевого признака.

В процессе постановки задачи предсказания А-миноров были учтены следующие факты:

1) 64% А-миноров принадлежат А-кластерам;

2) 87% А-миноров содержат спаривание, принадлежащее какому-либо стему;

3) Заметная часть А-миноров имеет общие нуклеотиды с другими А-минорами, часто из-за неоднозначности при аннотации.

С учетом перечисленного в качестве объекта бинарной классификации была выбрана пара фрагментов РНК, состоящая из стема и серии последовательных неспаренных аденинов. Данный объект получил название А-стем. Мы считали, что А-стем принадлежит к положительному классу (класс 1), если он содержит хотя бы один А-минор, и к отрицательному классу (класс 0) в обратном случае (см. рис. 2.10).

иСибАСиШАССАСААСи0ибСиССССАСиСА6АССАС->

Рисунок 2.10. Формулировка задачи бинарной классификации А-стемов. А-стем принадлежит классу 1, если он содержит хотя бы один А-минор, иначе А-стем принадлежит классу 0.

Для составления выборки А-стемов использовалось репрезентативное неизбыточное подмножество структур, содержащее 44 цепи РНК. Итоговый датасет включал 347 объектов положительного класса и 183298 объектов отрицательного класса (доля объектов положительного класса составила 0.19%, датасет с подробным описанием признаков доступен по адресу https://github.com/febos/urs_aminors). Каждый объект описывался 288 значениями признаков, относящихся к четырем группам: локальные признаки, относящиеся к последовательности нуклеотидов (/oca/seq), признаки взаимного расположения в последовательности нуклеотидов (re/seq), локальные признаки, относящиеся к вторичной структуре РНК (/oca/ss), и признаки взаимного расположения во вторичной структуре РНК (re/ss).

Классификация А-стемов в контексте вторичной структуры РНК была выполнена по аналогии с классификацией А-миноров. Так, А-стему,

содержащему А-миноры типа IC-S-S-LC-LC-SM, приписывался класс IC-LC.

2.4.2 Используемые модели и их параметры

Для решения задач бинарной классификации использовался алгоритм машинного обучения «случайный лес» (реализация RandomForest из Python-библиотеки scikit-learn [267]), как один из наиболее устойчивых к переобучению.

Для задачи предсказания третичных спариваний оснований все эксперименты проводились в формате кросс-валидации GroupKfold [267]] со значением K = 10. Для уменьшения размерности при визуализации результатов кластеризации правильно предсказанных классов использовалась техника t-SNE [268].

Для задачи предсказания А-стемов также использовалась кросс-валидация формата GroupKfold со значением K = 10. Следующие значения параметров модели были подобраны в результате автоматического перебора: n_estimators = 100, max_depth = 50, min_samples_leaf = 5, max_features = 50, class_weight = "balanced'', criterion = "entropy". Стоит отметить, что изменение данных параметров приводило лишь к незначительным изменениям метрики качества решения задачи.

2.4.3 Метрики качества

Для оценки качества решения задач бинарной классификации применялись классические метрики, для вычисления которых используются следующие значения:

• TP (true-positive) - число объектов класса 1, которые были правильно отнесены алгоритмом к классу 1;

• FP (false-positive) - число объектов класса 0, которые были ошибочно отнесены алгоритмом к классу 1;

• TN (true-negative) - число объектов класса 0, которые были правильно

отнесены алгоритмом к классу 0;

• FN (false-negative) - число объектов класса 1, которые были ошибочно отнесены алгоритмом к классу 0;

Перечислим используемые метрики качества:

• Точность (accuracy), вычисляемая по формуле:

Accuracy = t p+f p+tn+ fn

• Точность (precision), вычисляемая по формуле:

Precision = tpt+pfp

• Полнота (recall), вычисляемая по формуле:

Recall tp i fn

• Истинно-положительный уровень (TPR, true-positive rate), вычисляется по формуле:

TPR =

tp

tp+fn

Ложно-положительный уровень (FPR, false-positive rate), вычисляется по формуле:

FPR =

fp

fp+tn

Точка равновесия точность=полнота (precision-recall break-even point, PR BEP) - значение полноты при таком пороге (threshold), определяющем принадлежность объекта к классу 0 или 1, при котором значения точности (precision) и полноты (recall) достигают равенства.

Глава 3. Результаты

3.1 База данных URSDB 3.1.1 Общие сведения

Для анализа экспериментально полученных структур РНК была разработана и реализована база данных URSDB, основанная на новом способе описания петель. Данная разработка направлена на углубленное изучение структуры РНК и сбор статистики для последующего применения в рамках предсказания структур реальных последовательностей РНК, учитывая наличие псевдоузлов, а также для составления атласа третичных мотивов и их систематизации.

Схема базы данных состоит из 51 таблицы и содержит исчерпывающий набор данных, необходимых для составления выборок аннотированных структурных элементов РНК, включая таблицы стемов, нитей, петель, граней, псевдоузлов и др.

Таблицы базы данных URSDB можно условно разделить на 4 блока данных:

1) Блок данных, полученных в результате обработки PDB-файлов формата mmCIF (таблицы моделей, молекул, цепей биополимеров, мономеров, атомов);

2) Блок данных, полученных в результате обработки данных о вторичной структуре РНК (таблицы спариваний, стемов, петель, крыльев, линков и пр.);

3) Блок данных, полученных непосредственно из выходного файла программы DSSR, предназначенный для верификации разметки (таблицы некоторых третичных мотивов, мультиплетов, и пр.);

4) Блок данных, полученных в процессе исследования структуры РНК (таблицы псевдоузлов, стемовых мотивов, РНК-белковых контактов и пр.).

По состоянию на январь 2021 года база данных URSDB содержит описания 14500 цепей РНК, около 3 млн. спариваний и 10449 псевдоузлов. Из 5257

РНК-содержащих PDB-файлов, представленных в URSDB, 3122 файла содержат структуры РНК-белковых комплексов, 1538 файлов содержат структуры РНК, 544 файла содержат структуры РНК в комплексе с ДНК и белками и 53 файла содержат структуры РНК в комплексе с ДНК. Данные регулярно обновляются (не реже, чем раз в месяц).

3.1.2 Веб-интерфейс

Для взаимодействия с базой данных URSDB в режиме онлайн разработан веб-интерфейс URS. Веб-интерфейс доступен по адресу http://urs.lpm.org.ru.

Разработанный интерфейс позволяет пользователю формировать выборку интересующих его РНК-содержащих структур, после чего собирать статистику по имеющимся в них структурным элементам. Кроме того пользователю доступны индивидуальные структуры и структурные элементы с подробными данными для детального анализа.

Формирование выборки структур происходит согласно запросу к базе данных; запрос состоит из дизъюнкции (связка ИЛИ) нескольких конъюнкций (связка И) элементарных условий. Элементарные условия, доступные пользователю на данный момент, состоят из 4 групп: (1) общая информация о PDB-файле, (2) информация о содержащихся макромолекулах, (3) шаблоны структурных элементов, а также (4) информация о содержащихся спариваниях между основаниями в РНК и между атомами РНК и белка. Результатом запроса является список структур, удовлетворяющих введенным параметрам (см. рис. 3.1).

Universe of RNA Structures

Method:X-RAY DIFFRACTION AND Resolution^. OA

Clean query Clean results

© General Information

Q Contained Molecules

O Contained RNA Structure Patterns

© Contained Interactions

Time used: 2.82 sec

Query History

(Method:X-RAY DIFFRACTION AND Resolution<3.0A)

Help ® Help t§> Help ® Help ff

Help ff

Select Fields

PDB ID Header

Sort by: PDB ID

Resolution

1 to N (A to Z)

Help s

Structures List

Structures found: 1271

N PDB ID (# Models)

01 157D (1)

02 165D (1)

03 1A34 (1)

Header

RNA

DNA-RNA HYBRID Virus/RNA

Date

1994-02-01 1994-03-21 1998-01-28

Method

X-RAY DIFFRACTION X-RAY DIFFRACTION X-RAY DIFFRACTION

Help e

Resolution

1.8 1.55 1.81

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.