Изучение белок-кодирующего потенциала длинных некодирующих РНК человека на примере LINC01420 и LINC00493 тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Конина Дарья Олеговна

  • Конина Дарья Олеговна
  • кандидат науккандидат наук
  • 2023, ФГБУН Институт молекулярной биологии им. В.А. Энгельгардта Российской академии наук
  • Специальность ВАК РФ00.00.00
  • Количество страниц 162
Конина Дарья Олеговна. Изучение белок-кодирующего потенциала длинных некодирующих РНК человека на примере LINC01420 и LINC00493: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГБУН Институт молекулярной биологии им. В.А. Энгельгардта Российской академии наук. 2023. 162 с.

Оглавление диссертации кандидат наук Конина Дарья Олеговна

ВВЕДЕНИЕ

Актуальность темы исследования

Степень разработанности темы исследования

Цель исследования

Задачи, решаемые в ходе исследования

Научная новизна

Теоретическая и практическая значимость работы

Методология и методы исследования

Положения, выносимые на защиту

Степень достоверности

Личный вклад автора в проведение исследования

Апробация работы

Объем и структура диссертации

1 ОБЗОР ЛИТЕРАТУРЫ

1.1 Эволюция и классификация длинных некодирующих РНК

1.2 Сравнение биогенеза днРНК и мРНК

1.2.1 Сравнение инициации транскрипции и взаимодействия с транскрипционными факторами для днРНК и мРНК

1.2.2 Взаимосвязь с энхансерами и специфичность днРНК

1.2.3 Роль мобильных элементов генома в биогенезе днРНК

1.2.4 Причины низкой эффективности процессинга днРНК

1.2.5 Преждевременная терминация транскрипции днРНК

1.2.6 Характеристики структур днРНК и мРНК

1.2.7 Механизмы контроля внутриклеточной локализации днРНК

1.2.8 Выводы по результатам сравнения биогенеза днРНК и мРНК

1.3 Классификация функций днРНК

1.3.1 Роль днРНК в регуляции архитектуры хроматина

1.3.2 Механизмы регуляции факторов транскрипции для днРНК

1.3.3 Контроль активности энхансеров, выполняемый днРНК

1.3.4 Реализация функций днРНК путем образования биомолекулярных конденсатов

1.3.5 Варианты посттранскрипционной регуляции, реализуемые днРНК

1.3.6 Высокопроизводительные исследования функций днРНК

1.3.7 Выводы по анализу функций днРНК

1.4 Переаннотация днРНК

1.4.1 Идентификация микропептидов как причина переаннотации днРНК

1.4.2 Характеристки коротких открытых рамок считывания для днРНК

1.4.3 Варианты методов оценки белок-кодирующего потенциала днРНК и обнаружения микропептидов

1.4.4 Подходы к характеризации микропептидов, транслируемых с днРНК

1.4.5 Эталонные базы данных микропептидов в различных биологических образцах

1.4.6 Функции микропептидов, транслируемых с днРНК

1.4.7 Базы данных бифункциональных днРНК

1.4.8 Выводы по анализу переаннотации днРНК

2 Материалы и методы

2.1 Материалы

2.1.1 Реактивы

2.1.2 Клеточные культуры

2.1.3 Среды, условия хранения и культивирования клеток

2.2 Методы

2.2.1 Биоинформатические методы

2.2.1.1 Методы анализа нуклеотидных последовательностей

2.2.1.2 Метод подбора праймеров

2.2.1.3 Метод подбора siRNA

2.2.1.4 Методы анализа коротких открытых рамок считывания

2.2.1.5 Методы анализа данных крупномасшибного скрининга

2.2.2 Молекулярные методы

2.2.2.1 Методы работы с эукариотическими клетками

2.2.2.2 Методы работы с бактериальными штамами

2.2.2.3 Базовые молекулярно - биологические методы

2.2.2.4 Методы проведения функциональной оценки днРНК и транслируемого пептида

2.2.2.5 Сборка векторных конструкций для оценки вклада трансляции пептида

3 Результаты

3.1 Биоинформатический анализ высокоэкспрессирующихся длинных некодирующих РНК человека

3.2 Характеризация новой длинной некодирующей РНК ЬГЫС01420

3.2.1 Определение экзон-интронной структуры ЬГЫС01420

3.2.2 Исследование профиля экспрессии и внутриклеточной локализации КТМС01420

3.3 Исследование функциональной значимости длинной некодирующей РНК ЕТЫС01420

3.3.1 Исследование влияния нокдауна ЬШС01420 на базовые клеточные процессы

3.3.1.1 Разработка эффективной системы нокдауна ЬШС01420

3.3.1.2 Валидация методики оценки влияния нокдауна на жизнеспособность клеток

3.3.1.3 Оценка влияния нокдауна ЕГЫС01420 на базовые клеточные процессы

3.3.2 Проведение оценки вклада транслируемой и транскрибируемой последовательности ЬШС01420/ШБУ

3.3.3 Исследование молекулярных партнеров и оценка возможного участия ЕГЫС01420 в патогенезе заболеваний

3.4 Характеризация новой длинной некодирующей РНК ЬШС00493

3.4.1 Определение экзон-интронной структуры ЬШС00493

3.4.2 Исследование профиля экспрессии и внутриклеточной локализации ЕТЫС00493

3.5 Исследование функциональной значимости длинной некодирующей РНК LINC00493

3.5.1 Исследование влияния нокдауна ЬШС00493 на базовые клеточные процессы

3.5.1.1 Разработка эффективной системы нокдауна ЬШС00493

3.5.1.2 Оценка влияния ЕТЫС00493 на базовые клеточные процессы

3.5.2 Проведение функциональной оценки вклада транслируемой и транскрибируемой последовательности LINC00493/SMIM26

3.5.2.1 Разработка эффективной системы оверэкспрессии ЬШС00493

3.5.2.2 Оценка вклада транслируемой и транскрибируемой последовательности длинной некодирующей РНК LINC00493

3.5.3 Исследование молекулярных партнеров и оценка возможного участия ЕГЫС00493 в патогенезе заболеваний

ЗАКЛЮЧЕНИЕ

ВЫВОДЫ

СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ

СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ

СПИСОК ИСПОЛЬЗУЕМЫХ ЛИТЕРАТУРНЫХ ИСТОЧНИКОВ

ВВЕДЕНИЕ

Актуальность темы исследования

Поиск транскрипционно-активных областей в геноме человека, транскрибирующих длинные некодирующие РНК (днРНК), стал возможным с развитием технологий высокопроизводительного секвенирования. К классу днРНК относятся транскрипты длиной более 200 нуклеотидов, не содержащие протяжённой открытой рамки считывания. По последним данным проекта GENCODE в геноме человека аннотировано сравнимое количество генов днРНК (19 928) и белок-кодирующих генов (19 393), однако функциональная значимость определена меньше чем для 10% транскриптов днРНК.

В последние годы понимание регуляторной роли днРНК в развитии организмов сильно прибавилось. Из проведенных на сегодняшний день исследований известно, что днРНК могут действовать как тонкие регуляторы экспрессии генов на различных стадиях, тем самым оказывая влияние на многие базовые клеточные процессы. Так показано, что днРНК могут сохранять консервативность при эволюционном отборе и демонстрировать специфические профили экспрессии для различных тканей и стадий развития организмов. Таким образом, изучение днРНК очень важно с фундаментальной точки зрения, поскольку позволяет открыть новые механизмы регуляции и оценить их вклад в общий регуляторный ландшафт, а также предоставляет возможность дополнить знания об эволюционных процессах.

Многочисленные исследования показывают значимость изучения днРНК также и с прикладной точки зрения. Экспрессия днРНК может изменяться с развитием патологических процессов: уже доказана ассоциация днРНК с патогенезом различных заболеваний, включая рак, сердечно-сосудистые заболевания, нейродегенеративные заболевания и аутоиммунные состояния. Согласно базе данных lncRNADisease, собраны сведения о 2297 днРНК, ассоциированных с развитием 529 заболеваний. Выявление специфических днРНК, связанных с определенными заболеваниями или клиническими состояниями, позволяет разработать новые неинвазивные диагностические инструменты и персонализированные стратегии лечения.

Дополнительно было идентифицировано, что некоторые днРНК имеют транслируемые короткие открытые рамки считывания. Биоинформатически предсказано, что 98% аннотированных днРНК содержат, по крайней мере, одну короткую открытую рамку считывания. Доказательства того, что днРНК могут транслироваться, были получены в результате анализа экспериментальных данных рибосомного профайлинга клеточных линий и тканей. Функции пептидов, транслируемых с днРНК, в целом неизвестны, однако для некоторых из них показана роль в специфической регуляции генов в зависимости от типа клеток или

тканей. Подтверждение трансляции указывает на необходимость пересмотра роли днРНК в масштабе всего генома человека.

Настоящее исследование посвящено изучению белок-кодирующего потенциала длинных некодирующих РНК человека на примере LINC01420 и LINC00493.

Степень разработанности темы исследования

На момент выполнения работы в России и мире не проводилось экспериментального исследования длинных некодирующих РНК человека ЬШС01420 и ЬШС00493. Для выбранных новых, ранее неописанных днРНК не была проведена экспериментальная характеризация экзон-интронной структуры, профиля экспрессии и внутриклеточной локализации транскриптов. Кроме того, для данных генов не была проведена оценка кодирующего потенциала и функциональной значимости для базовых клеточных процессов.

Во время выполнения работы начали появляться работы других групп авторов, посвященные изучению длинных некодирующих РНК человека ЬШС01420 и ЬШС00493 при патогенезе различных заболеваний, а также исследованию функций для целевых транскриптов и транслируемых пептидов.

В России исследования длинных некодирующих РНК человека ЬШС01420 и ЬШС00493 не проводились.

Цель исследования

Изучение белок-кодирующего потенциала длинных некодирующих РНК человека на примере ЬШС01420 и ЬШС00493.

Задачи, решаемые в ходе исследования

1. Провести анализ высокоэкспрессирующихся длинных некодирующих РНК человека и оценить их белок-кодирующий потенциал.

2. Экспериментально охарактеризовать новую длинную некодирующую РНК ЬШС01420 и определить ее экзон-интронную структуру, профиль экспресиии, внутриклеточную локализацию.

3. Исследовать функциональную значимость длинной некодирующей РНК ЬШС01420 и транслируемого пептида NBDY, провести анализ возможных молекулярных партнеров и и клеточных процессов, в которые может быть вовлечена LINC01420.

4. Экспериментально охарактеризовать новую длинную некодирующую РНК ЬШС00493 и определить ее экзон-интронную структуру, профиль экспресиии, внутриклеточную локализацию.

5. Исследовать функциональную значимость длинной некодирующей РНК LINC00493 и транслируемого пептида 8М1М26, провести анализ возможных молекулярных партнеров и и клеточных процессов, в которые может быть вовлечена КТМС00493.

Научная новизна

На момент проведения исследования данная работа представляет первое в мире исследование новых, ранее неописанных, длинных некодирующих РНК человека ЬШС01420 и ЬШС00493.

Для длинной некодирующей РНК человека ЬШС01420 были выявлены и охарактеризованы две основные изоформы и определены их точные 5'- и 3'- границы транскриптов. Нуклеотидные последовательности коротких и длинных изоформ были депонированы в GenBank под номерами доступа МН892397 и МН892398 соответственно. Проведено экспериментальное исследование профилей экспрессии и внутриклеточной локализации выявленных изоформ ЬШС01420 в различных клеточных линиях человека, которое показало высокий уровень экспрессии и цитоплазматическую локализацию транскриптов, что соответствует сведениям баз данных FANTOM5 и GTEx. В работе впервые проведено исследование влияния транскриптов ЬШС01420 на базовые клеточные процессы, а именно разработана эффективная система нокдауна и продемонстрировано, что нокдаун LINC01420 приводит к увеличению миграции и не влияет на жизнеспособность клеток А375.

Несмотря на то, что в 2017 году D'Lima [1] провел экспериментальную характеризацию пептида NBDY (68 а.к), который транслируется с открытой рамки считывания первого экзона иГЫС01420, влияние этого пептида на миграцию клеток не было показано.

Для длинной некодирующей РНК человека LINC00493 были выявлены и охарактеризованы две основные изоформы и определены их точные 5'- и 3'- границы транскриптов. Нуклеотидные последовательности коротких и длинных изоформ были депонированы в GenBank под номерами доступа MW979249 и MW979250. Проведено экспериментальное исследование профилей экспрессии и внутриклеточной локализации выявленных изоформ LINC00493 в различных клеточных линиях человека, которое показало высокий уровень экспрессии и цитоплазматическую локализацию транскриптов что соответствует сведениям баз данных FANTOM5 и GTEx. В работе впервые проведено исследование влияния транскриптов КТМС00493 на базовые клеточные процессы, а именно

разработана эффективная система нокдауна и продемонстрировано, что нокдаун LINC00493 снижает жизнеспособность клеток HEK293 и A375 и повышает жизнеспособность клеток MDA-MB-231. Эти результаты согласуются с ранее полученными данными Liu et al.[2]. Также показано, что нокдаун LINC00493 в HEK293, A375, MDA-MB-231 не влияет на жизнеспособность клеток.

Несмотря на то, что для LINC00493 сначала биоинформатически и иммуногистохимически в ходе проекта ProteinAtlas [3], а затем и экспериментально было показано [4] существование пептида (94/95 а.к), транслируемого с короткой открытой рамки считывания LINC00493, его функциональная значимость и влияние на базовые клеточные процессы не было описано. Таким образом, впервые в мире проведена оценка вклада транслируемого белка SMIM26 и транскрипта LINC00493 на жизнеспособность клеток HEK293, A375, показано их противоположное влияние на жизнеспособность клеток.

Суммируя вышесказанное, проведенное исследование вносит существенный вклад в решение задачи пересмотра роли днРНК в клетках, углубляет наши знания об эволюционных процессах и об устройстве генома, является ярким примером применения современных молекулярно-генетических методик для изучения кодирующего потенциала и экспериментальной характеризации новых, ранее неописанных генов длинных некодирующих РНК.

Теоретическая и практическая значимость работы

Изучение длинных некодирующих РНК важно как с фундаментальной, так и с прикладной точки зрения. Определение точной экзон-интронной структуры, подтверждение паттерна экспрессии генов домашнего хозяйства и выявление цитоплазматической локализации длинных некодирующих РНК LINC01420 и LINC00493 позволяет расширить наши знания о молекулярных процессах в регуляции генов и сделать предположение о функциональной значимости исследуемых генов и возможном их участии в процессах посттранскрипционной регуляции. Идентифицированный характер консервативности нуклеотидной последовательности транскриптов LINC01420 и LINC00493 и аминокислотной последовательности транслируемых пептидов NBDY и SMIM26 дает представление об эволюционной динамике функциональных элементов некодирующих областей генома. Результаты исследования влияния нокдауна длинных некодирующих РНК LINC01420 и LINC0049 на базовые клеточные процессы, а также проведение функциональной оценки вклада транслируемой и транскрибируемой последовательности длинных некодирующих РНК

демонстрируют бифункциональность днРНК, что также важно для понимания регуляторного ландшафта генома.

Результаты анализа нуклеотидных вариантов генов, идентифицированные возможные молекулярные партнеры, а также и данные проекта TCGA (The Cancer Genome Atlas) позволяют сделать предположение о возможном участии LINC01420 и LINC00493 в развитии опухолей. Данное предположение определяет возможность использования днРНК в качестве диагностических и прогностических маркеров и мишеней для терапии. Разработанные в работе системы эффективного нокдауна и оверэкспресии LINC01420 и LINC00493 могут быть использованы в последующих исследованиях роли днРНК в патогенезе заболеваний, а также стать основой для разработки терапевтических средств на основе РНК. Установление точной экзон-интронной структуры LINC01420 и LINC00493, аминокислотных последовательностей NBDY и SMIM26 позволяет выполнить их синтез для задач синтетической биологии и биотехнологии.

Методология и методы исследования

Методологической и теоретической основной диссертационного исследования стали научные работы отечественных и зарубежных исследователей в области изучения структуры и функции новых генов длинных некодирующих РНК. В работе использованы следующие молекулярно-генетические методы: полимеразная цепная реакция (ПЦР анализ), RACE-ПЦР анализ, ПЦР в реальном времени, определение внутриклеточной локализации, ведение и пересев клеточных линий человека (HEK293, A375, MDA-MB-231), подбор специфичных малых интерферирующих РНК (siRNA) и клонирование локусов гена для создания конструкций, экспрессирующих полноразмерную кДНК, внесение в получившиеся конструкции исследуемых вариантов с помощью сайт-направленного мутагенеза, трансфекция клеточных линий человека полученными плазмидами и siRNA, выделение тотальной РНК и проведение реакции обратной транскрипции, проведение МТТ-теста и Wound healing анализа, использование методов статистической обработки результатов.

Положения, выносимые на защиту

1. По результатам анализа высоэкспрессирующихся днРНК выявлено 18 функционально значимых генов, для которых показан высокий белок кодирующий потенциал с использанием биоинформатических подходов и опубликованных экспериментальных данных.

2. Показано, что LINC01420 имеет две изоформы MH892397 (701 п.н.) и MH892398 (1510 п.н.). Короткая изоформа MH892397 является мажорной с уровнем экспресси

~150 раз выше, чем МН892398. LINC01420 активно экспрессируется в клеточных линиях человека и имеет цитоплазматическую локализацию.

3. Продемонстрировано, что нокдаун LINC01420 ингибирует миграцию клеток меланомы. Проведена оценка вклада транслируемого пептида КББУ в наблюдаемый фенотип, по результатам которой показано, что как сама последовательность К^С01420, так и NBDY могут оказывать влияние на базовые клеточные процессы.

4. Показано, что LINC00493 имеет две изоформы MW979249 (500 п.н.) и MW979250 (497 п.н.). Короткая изоформа MW979250 является мажорной с уровнем экспресси ~3 раз выше чем MW979249. LINC00493 высоко представлена в клеточных линиях человека и локализуется в цитоплазме.

5. Продемонстрировано, что нокдаун LINC00493 тканеспецифично влияет на жизнеспособности раковых клеток. Эксперимнетально подтверждено, что наблюдаемый эффект связан как с самой LINC00493, так и с транслируемым белком SMIM26

6. Разработанные в рамках исследования системы эффективного нокдауна и оверэкспресии LINC01420 и LINC00493 могут быть использованы в последующих исследованиях роли днРНК в патогенезе заболеваний, а также стать основой для разработки терапевтических средств на основе РНК. Установление точной экзон-интронной структуры КШС01420 и LINC00493, аминокислотных последовательностей NBDY и SMIM26 позволяет выполнить их синтез для задач синтетической биологии и биотехнологии.

Личный вклад автора в проведение исследования

Автор исследовательской работы принимал непосредственное участие в проведении работы на всех её этапах: участие в постановке задач и выборе методов исследования, проведение биоинформатического анализа и экспериментальных работ в соответствии с задачами исследования, аналитическая обработка и интерпретация полученных результатов. Материалы исследования подготовлены автором к публикации в рецензируемых отечественных и зарубежных журналах. Результаты работы представлены автором лично на 11 международных и всероссийских конференциях.

Степень достоверности

Для достижения высокого уровня достоверности работа проводилась с использованием широко принятых современных молекулярно-биологических и генетических методов исследования с применением высокоточного оборудования. Все эксперименты были проведены с достаточным числом технических и биологических повторов, обработаны с использованием

статистических методов для оценки погрешностей и обладают высокой воспроизводимостью. Соответствие полученных результатов анализа функциональной значимости днРНК с опубликованными данными из научной литературы подтверждает адекватность результатов нашей работы.

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Изучение белок-кодирующего потенциала длинных некодирующих РНК человека на примере LINC01420 и LINC00493»

Апробация работы

Материалы диссертационной работы представлены в 11 печатных работах, в том числе в 2 статьях (2 в WoS и Scopus), опубликованных в журналах, рекомендованных ВАК РФ. В опубликованных научных работах полностью отражены основные результаты диссертации, положения и выводы.

Основные положения диссертационной работы также были представлены на российских и международных конференциях: 30-я зимняя молодежная научная школа «Перспективные направления физико-химической биологии и биотехнологии» (12-15 февраля 2018, Москва, Россия), Международная научная конференция студентов, аспирантов и молодых учёных «Ломоносов-2018» (9-13 апреля 2018, Москва, Россия), 60-я и 61-я, 64-я Всероссийская научная конференция МФТИ(20-26 ноября 2017; 19-25 ноября 2018; 29 ноября-03 декабря 2021 Москва-Долгопрудный-Жуковский, Россия), 11-ая Международная мультиконференция по биоинформатике регуляции и структуры геномов и системной биологии (20 - 25 августа 2018, Новосибирск, Россия), 25-я Международная медико-биологическая научная конференция молодых исследователей «Фундаментальная наука и клиническая медицина. Человек и его здоровье» (16 апреля 2022, Санкт-Петербург, Россия), European Human Genetics Conference (1114 июня 2022, Вена, Австрия), Вычислительная биология и искусственный интеллект для персонализированной медицины, (2-4 августа 2022, Россия), OpenBio- 2022 (27-30 сентября 2022, Новосибирск -Наукоград Кольцово, Россия), Московская конференция по перспективам генной и клеточной терапии (15-28 августа 2022, Россия).

Объем и структура диссертации

Диссертационная работа имеет следующую структуру: введение; обзор литературы; материалы и методы; результаты; заключение; выводы; список работ, опубликованных по теме диссертации; список сокращений и условных обозначений; список используемых литературных источников. Работа представлена на 162 страницах машинописного текста, содержит 17 таблиц и 35 рисунков. Библиографический указатель включает 333 наименований, из них 1 отечественный и 332 зарубежных источника.

1 ОБЗОР ЛИТЕРАТУРЫ 1.1 Эволюция и классификация длинных некодирующих РНК

Результаты изучения транскриптома за последние десятилетия показали, что большая часть генома (80%) транскрибируется. Одним из классов генов, которые вносят значимый вклад в показанный уровень транскрипции, является класс генов длинных некодирующих РНК. Длинные некодирующие РНК определяются как класс некодирующих РНК, имеющих длину транскрипта более 200 нуклеотидов и не содержат продолжительной открытой рамки считывания. днРНК содержат отличительные черты транскриптов РНК-полимеразы 2, в том числе кэпирование 5' конца транскрипта, полиаденирование 3' конца транскрипта, наличие более 1 экзона.

Экзоны днРНК человека составляют порядка 1% генома, что сравнимо с белок-кодирующими генами. Столь же значимое количество днРНК предсказано и для других геномов млекопитающих [5, 6].

Были проведены исследования эволюции днРНК среди различных многоклеточных организмов[7, 8]. Показано, что многоклеточные виды содержат сотни и тысячи локусов днРНК (рис. 1), даже включая виды с относительно компактными геномами, такие как Drosophila melanogaster, Caenorhabditis е^аш и Arabidopsis ШаНапа.

В работе A.Necsulea [9] проведена оценка «максимального» эволюционного возраста. Оценка проведена путем сравнения гомологичных семейства днРНК. Было идентифицировано 13 533 семейства днРНК, транскрипция которых наблюдается у не менее 3 видов. Большинство (81%) семейств днРНК специфичны для приматов, но 2508 (19%) семейств, вероятно, возникли более 90 млн лет назад и 425 (3%) более 300 млн лет назад. Большая доля предполагаемых молодых днРНК может быть связана с быстрой эволюцией днРНК. С другой стороны, возраст ДНК порядка 3,5 млрд лет [10].

На первый взгляд, по-видимому, существуют значимые различия в количестве генов днРНК, аннотированных в разных видах многоклеточных организмов, в зависимости от размера генома отдельного вида. Однако цифры должны быть интерпретированы с осторожностью поскольку различные исследования принимают различные методологии и критерии для выявления, фильтрации, аннотации и классификации днРНК.

Также отметим, что для генома млекопитающих, который включает большинство локусов днРНК, первоначально определяли нейтральный характер эволюции, который обусловлен расчетным критерием скорости расхождения общих повторов между геномами человека и мыши при предположении, что что эти последовательности нефункциональны и репрезентативны для

оценки исходного распределения у предка. Однако появляется все больше свидетельств того, что мобильные элементы широко используются в качестве функциональных элементов, образуя регуляторные сети, и поэтому не могут использоваться в качестве критерия нейтральной эволюции. Известно, что регуляторные последовательности, включая промоторы и днРНК, быстро эволюционируют, что обусловлено более слабыми структурными и функциональными ограничениями и влиянием положительного отбора при радиационном излучении.

Таким образом, можно утверждать, что в любом многоклеточном эукариоте количество идентифицированных локусов днРНК будет продолжать расти, поскольку растет количество исследований по аннотации и идентификации, определению функций днРНК.

Виды

Человек (Н.sapiens) Шимпанзе (P.troglodytes) Макака (M.mulatta) Мышь (M.musculus) Крыса (R.norvegicus) Корова (B.taurus) Опоссум (М.domestica) Курица (G.gailus)

Лягушка (X.tropicalis) Данио-рерио {D.rerio) Нематода (C.elegans) Плодовая мушка (D.melanogaster) Москит (A.gambiae) Дрожжи (S.cerevisiae) Ганодерма (G.lucidum) Плазмодий (P.falciparum) Резуховидка (A.thaliana) Кукуруза (Z.mays)

Рисунок 1 - Эволюция днРНК. МЭ- мобильные элементы генома. Заимствовано из работы [7].

Функциональные единицы генома, которые продуцируют РНК - гены -можно разделить на два основных биотипа - белок-кодирующие гены и белок-некодирующие гены.

Категория белок-кодирующих генов составляет всего 2% всех транскриптов и содержит гены, кодирующие мРНК, которые служат матрицей для синтеза(трансляции) всех пептидов и

белков в клетке. Категория белок-некодирующих генов составляет 98% всех транскриптов генома и определяет большой гетерогенный класс молекул РНК, которые не способны транслироваться в белки. В зависимости от их регуляторной роли, некодирующих РНК (нкРНК) можно разделить на две категории (таблица 1, рис. 2) [11]. нкРНК «домашнего хозяйства» -инфраструктурные нкРНК, высоко представлены во всех типах клеток организма и регулируют базовые клеточные функции. Второй класс - регуляторные нкРНК - функционируют как регуляторы экспрессии генов на эпигенетическом, транскрипционном и посттранскрипционном

уровнях.

Таблица 1 - Классификация некодирующих РНК по [11].

Тип Обозначение Наименование Размер

Инфраструктурные нкРНК рРНК (rRNA) рибосомные РНК (ribosomal RNA) 120-4,500 п.н.

тРНК (tRNA) транспортная РНК (tansfer RNA) 76-90 п.н.

мяРНК(БЖ^) малые ядерные РНК (small nuclear RNA) 100-300 п.н.

мякРНК (snoRNA) малые ядрышковые РНК (small nucleolar RNA) 60-40 п.н.

ТЕРНК (TERC) Теломеразные РНК (telomerase RNA) /

тРФ (tRF) тРНК направленные фрагметны (tRNA-Derived Fragments) 16-28 п.н.

тиРНК (tiRNA) половинки тРНК (tRNA halves) 29-50 п.н.

Регуляторные нкРНК микроРНК (miRNA) микроРНК (microRNA) 21-23 п.н.

киРНК (siRNA) короткие интерферирующие РНК (small interfering RNA) 20-25 п.н.

пиРНК (piRNA) пиви взаимодействующие РНК (piwi-interacting RNA) 26-32 п.н.

эРНК (eRNA) энхансерные РНК(enhancer RNA) 50-2,000 п.н.

днРНК (lncRNA) длинные некодирующие РНК (long non-coding RNAs) >200 п.н.

коРНК(сМ^) кольцевые РНК (circular RNA) 100-10,000 п.н.

Y РНК (Y RNA) Y РНК /

Рисунок 2 - Классификация неккодирующих РНК. Заимствовано из работы [11].

Размер нкРНК домашнего хозяйства составляет от 50 нуклеотидов (нт) до 500 нт. Данный биотип нкРНК конститутивно экспрессируется во всех типах клеток и необходим для их жизнеспособности. Помимо выполнения основных функциональных ролей, таких как: рРНК и тРНК в синтезе белка, мяРНК в сплайсинге РНК и мякРНК в модификациях РНК; некоторые нкРНК домашнего хозяйства могут выполнять регуляторные роли посредством расщепления на функциональные фрагменты (тРФ, тиРНК, и др).

Регуляторные некодирующие РНК можно разделить на малые (20-400 нуклеотидов) и длинные (от 200-400 до десятков тысяч нуклеотидов). Все они участвуют в регуляции экспрессии генов на разных уровнях. Длинные некодирующие РНК (днРНК) - класс некодирующих РНК длиной более 200 нуклеотидов и не содержащий продолжительной, более 100 аминокислот,

открытой рамки считывания. В последнее время гены днРНК привлекли большое внимание из-за их широкого спектра действия и общей недоиследованности класса, так как функции днРНК определены только для порядка 10% транскриптов.

В соответствии с последними данными проектов GENCODE [12] и FANTOM [13], аннотировано 19 928 и 27 919 генов днРНК соответственно. Следовательно, количество генов днРНК сопоставимо или даже немного выше с количеством белок-кодирующих генов (19 393). В будущем этот в настоящее время очень гетерогенный класс днРНК может быть подразделен на более конкретные биотипы.

В зависимости от области генома, из которой они транскрибируются по отношению к белок-кодирующим генам днРНК можно классифицировать как интронные, межгенные, промотор ассоциированные, двунапрвленные, смысловые и антисмысловые [14].

Интронные днРНК представляют собой класс транскриптов, последовательность которых лежит полностью в интронах белок-кодирующих генов - один из самых больших классов некодирующих транскриптов у человека. Межгенные днРНК - класс днРНК, гены которых располагаются между белок-кодирующими генами, и их транскрипция регулируется независимо от них. Промотор ассоциированные днРНК транскрибируются в антисмысловой цепи вышележащего к ТСС участка ДНК. Двунаправленные днРНК образуются в результате транскрипции с промотора белок-кодирующего гена. Смысловые днРНК- класс днРНК, последовательность которых перекрывается с последовательностью экзонов и/или интронов белок-кодирующих генов. Антисмысловые днРНК транскрибируются с противоположной цепи ДНК по отношению к белок-кодирующим генам.

В зависимости от их клеточной локализации днРНК могут быть ядерными, цитоплазматическими, хроматин-ассоциированными [15]. днРНК могут быть кэпированы, сплайсированы и полиаденилированы, или моноэкзоны и неполиаденилированы, в зависимости от их биогенеза[14]. днРНК могут воздействовать на мишени в зависимости от их расположения к сайту начала транскрипции днРНК, цис- регуляция - когда мишень находится в непосредственной близости к ТСС, транс -регуляция - не зависит от ТСС, мишень может иметь произвольную локализацию в клетке [16]. Кроме того, днРНК можно классифицировать в соответствии с периодом полураспада [5] и уровнем экспрессии в клетке [16]. Наконец, в зависимости от характера представленности в организме, днРНК могут быть тканеспецифичными или экспрессироваться во всех органах и тканях [17], дополнительно экспрессия днРНК может быть связана с этапами развития организма/клетки, поэтому выделяют днРНК экспрессирующиеся на этапах раннего развития, в тканях взрослых особей, на протяжении всей жизни клетки или организма [18].

По мере изучения днРНК, разрабатываются новые способы и параметры классификации на различные биотипы. Основные классификации приведены в таблице 2. Таблица 2 - Классификация длинных некодирующих РНК.

Параметр Классификация

Расположение относительно белок-кодирующих генов двунаправленные

интронные

межгенные

промотор ассоциированные

смысловые РНК

антисмысловые РНК

Локализация преимущественно в ядре

преимущественно в цитоплазме

по всей клетке

Процессинг кэпирована, сплайсирована, полиаденирована

моноэкзонная, неполиаденированная

Распределение тканеспецифичная

во всех органах и тканях

Уровень экспрессии <10 копий на клетку

10-50 копий на клетку

>50 копий на клетку

Этапы развития организма преимущественно у эмбрионов

преимущественно у взрослых

на протяжение всей жизни

Стабильность короткое время полужизни (<2 ч)

среднее время полужизни (2-16 ч)

Продолжение таблицы 2

длительное время полужизни (>16ч)

Способ регуляции цис

транс

Широкий спектр функций днРНК и их способность реализовывать функции как локально, так и/или на некотором расстоянии, не позволяет прямо классифицировать[19]. Некоторые днРНК выполняют двойную функцию кодирующей и регуляторной РНК, а некоторые, возможно многие, днРНК цитоплазматической локализации кодируют малые пептиды [20-23]. Локусы генома, кодирующие белок, также могут экспрессировать днРНК посредством альтернативного сплайсинга. Стоит отметить, что основной транскрипт, продуцируемый ~17% локусов, кодирующих белок человека, не является кодирующим. Действительно, как гены днРНК, так и гены мРНК могут продуцировать транскрипты, которые выполняют свои функции после определенной стадии процессинга. Несплайсированные транскрипты, сплайсированные транскрипты, кольцевые РНК, интроны РНК и малые РНК, полученные из них, могут иметь свою функцию [24, 25]. Более подробно сравнение биогенеза днРНК и мРНК рассмотрим в разделе 1.2.

1.2 Сравнение биогенеза днРНК и мРНК

Из представленных на сегодняшний день исследований известно, что регуляторные элементы транскрипции, такие как энхансеры и промоторы, инициируют транскрипцию двунаправленно, можно предположить, что многие днРНК, на самом деле представляют собой РНК, которые инициируются на энхансерах или промоторах, но не выполняют специфических для последовательности функций. Однако несмотря на кажущуюся схожесть, растет число работ, показывающих различия процессов биогенеза днРНК и мРНК, которые доказывают существование существенной разницы между этими двумя классами. Характер транскрипции днРНК и мРНК в единичных клетках был изучен с использованием технологии scRNA-seq [26]. Использование данного метода позволяет ответить на вопрос является ли низкий уровень экспрессии днРНК следствием экспрессии в меньшем числе клеток или транскрипции меньшего числа молекул днРНК в клетке. Анализ порядка 500 первичных фибробластов человека выявил суммарно 24 653 гена, в том числе 15 869 мРНК и 3311 днРК. Среднее количество днРНК на клетку оказалось порядка 408, в сравнении 9 173 молекул мРНК. Для днРНК был показан высокий уровень изменчивости от клетки к клетке (клеточной специфичности), а также более длительный период между вспышками экспрессии по сравнению с мРНК.

В следующих подразделах 1.2.1 - 1.2.8 рассмотрим идентифицированные различия биогенеза классов днРНК и мРНК более подробно.

1.2.1 Сравнение инициации транскрипции и взаимодействия с транскрипционными

факторами для днРНК и мРНК

Процесс транскрипции зависит от определенных функциональных элементов генома. Основным элементом, который инициирует транскрипцию РНК, является промотор. Доступный ОС-богатый участок генома (эухроматин) будет привлекать полимеразный механизм и общие транскрипционные факторы (ТФ). Этот участок генома может быть достаточным для инициации транскрипции [27]. Транскрипция РНК начинается с сайта старта транскрипции (ТСС), который расположен внутри ядра промотора. Промотор - последовательность ДНК выше ТСС необходимая для инициации транскрипции гена, которая состоит из ядра промотора и проксимальных или перекрывающихся энхансеров. Суммируя выше представленную информацию, можно определить ядро промотора (или минимальный промотор), как короткую последовательность, окружающую ТСС, которая может напрямую рекрутировать РНК-полимеразу и инициировать транскрипцию.

Подобно мРНК, большинство днРНК транскрибируются с помощью РНК-полимеразы 2 типа, что определяет наличие у некоторых днРНК 5'-концевых кэпов т7О(7-метилгуанозина) и 3'-концевых ро1у(А)-хвостов, однако днРНК являются более тканеспецифичными по сравнению мРНК. Оба биотипа (мРНК и днРНК) имеют консервативные последовательности ядра промотора, однако промоторы днРНК имеют меньшее количество перекрывающихся энхансеров и мотивов связывания ТФ, что приводит к общему более низкому уровню экспрессии по сравнению с мРНК (рис. 3А, В) [18]. Было показано, что в промоторах межгенных днРНК последовательности сайтов связывания ТФ на 87,4%, в то время как для мРНК консервативность последовательностей связывания ТФ составила 97,8%. Тем не менее, в некоторых случаях, например, для GATA2, КАР1 и MBD4, средняя консервативность была выше в промоторах днРНК, чем в промоторах мРНК. Дополнительно было установлено, что количество и консервативность промоторных TFBS взаимосвязано с уровнем экспрессии, тканеспецифичностьо и может быть полезной характеристикой для идентификации функционально значимых днРНК.

Таким образом, архитектура ядра промотора является первым значимым фактором, определяющим степень экспрессии днРНК [28].

Рисунок 3 - Процесс транскрипции днРНК(А) и мРНК(В). Адаптировано из [28].

В другом исследовании, проведенном Sarah Djebali в 2012 году [29], было проведено сравнение ТСС, определяемых GENCODE (5,3'пары) или RNA-seq (poly(A) хвосты) и CAGE (cap-analysis of gene expression) способами анализа, и сопоставили их с особенностями хроматина и ДНК, характерными для инициации транскрипции, такими как чувствительность к ДНКазе I, модификации хроматина и ДНК-связывающие элементы (рис. 4). Все ТСС, определенные GENCODE/RNA-seq, были исследованы в каждой из клеточных линий (использовано 15 клеточных линий для анализа). Из этих избыточных позиций 44,7% (199 146) ТСС, идентифицированных RNA-seq были определены и с использованием CAGE анализа. Приблизительно 50% таких ТСС связаны по крайней мере с одним из других характерных признаков инициации транскрипции (ДНКаза I, модификации хроматина H3K27ac и H3K4me3). Таким образом, только небольшая часть ТСС, идентифицированных с помощью CAGE или RNA-seq/GENCODE, демонстрировала все необходимые параметры начала транскрипции (наличие сайтов связывания ДНКазы I, H3K4me3, H3K27ac и связывание либо TAF1, либо TBP). Полученные данные определяют проблему корректной аннотации транскриптов различных

биотипов в геноме и соотносятся с существующим разнообразием количества аннотированных днРНК в различных базах данных.

Рисунок 4 - Сравнение ТСС, определяемых GENCODE /RNA-seq и CAGE способами анализа.

Адаптировано из [29].

1.2.2 Взаимосвязь с энхансерами и специфичность днРНК

Вторым важным элементом, влияющим на транскрипцию генов, являются энхансеры, представляющие собой цис-регуляторные элементы, которые оказывают как положительное, так и отрицательное воздействие на свои гены-мишени, что определяет их двунаправленное функционирование. Энхансеры представляют собой геномные области, которые кодируют сайты связывания для специфичных к последовательности активаторов или репрессоров ТФ. Эти функциональные элементы поддерживают эффективную транскрипцию и определяют клеточно специфичную активность промоторов, а также контролируют пространственно -временной профиль генной экспрессии. днРНК и энхансеры имеют схожее геномное окружение, некоторые днРНК могут выполнять функции энхансеров и активировать транскрипцию близлежащих генов. Процесс транскрипции многих днРНК может быть инициирован из таких энхансерных областей

генома, что способствует их общей более тканеспецифичной экспрессии по сравнению с мРНК [18].

Так, например, транскрипция протоонкогена SPHK1 регулируется KHPS1, антисмысловой днРНК [30], которая активирует экспрессию SPHK1. KHPS1 образует триплекс РНК-ДНК-ДНК на энхансере SPHK1. Опосредованное триплексом связывание KHPS1 с его геном-мишенью необходимо для рекрутирования E2F1 и р300, а также транскрипции энхансерной РНК eRNA-Sphk1. eRNA-Sphk1 вытесняет CTCF, который изолирует энхансер от промотора SPHK1, и тем самым способствует экспрессии SPHK1 (рис. 5).

еР^А-врИИ ЭРИК-тРЫД

КНР81

рЗОО

Рисунок 5 - Механизм действия KHPS1. Адаптировано из работы [30].

1.2.3 Роль мобильных элементов генома в биогенезе днРНК

Еще одним классом элементов генома, играющих важную роль в регуляции активности генов и генома, являются мобильные элементы (МЭ) [31], которые составляют более 44% генома человека [32]. МЭ также являются важным компонентом биогенеза днРНК. Из представленных на рисунке 10 данных, можно сделать вывод, что приблизительно 75% транскриптов днРНК включают участки последовательностей МЭ [33], некоторые из них представляют собой важные элементы последовательности для определения локализации днРНК [34].

днРНК нкРНК Бело|<

Рисунок 6 - Распределение содержания мобильных элементов генома (МЭ) для некодирующих

транскриптов. (А) Сравнение содержания МЭ в транскриптах днРНК, нкРНК, белок кодирующих генов. (В) Содержание МЭ в транскриптах днРНК. Адаптировано из работы [33].

Кроме того, было показано, что 25% МЭ перекрываются с сигналами ТСС и полиаденирования генов днРНК [33]. Следовательно, они являются важной движущей силой экспрессии днРНК. Одним из примеров является примато-специфичная днРНК XACT, которая, как было показано, защищает активную Х-хромосому (антагонист днРНК ХКТ). Последовательность XACT содержит элементы, полученные из МЭ [35]. Интересно, что днРНК XACT также регулируется производным от МЭ энхансерным элементом, который содержит сайты связывания фактора плюрипотентности. Таким образом, МЭ, содержащие мотивы факторов транскрипции, могут направлять тканеспецифическую экспрессию, когда они встраиваются рядом с промоторным элементом.

1.2.4 Причины низкой эффективности процессинга днРНК

Посттранскрипционные модификации РНК (процессинг РНК) реализуются в процессе синтеза РНК в клетках для превращения первичного транскрипта в зрелую РНК, их состав зависит от типа РНК. В случае с днРНК и мРНК, процессинг включает - полиаденилорование, кэпирование, сплайсинг.

Реализация процесса сплайсинга зависит от наличия сайтов сплайсинга между промотором и элементом терминации транскрипции - сигналом полиаденилирования (рис. 7А) [36]. Механизм сплайсинга мРНК и днРНК аналогичен, хотя эффективность сплайсинга днРНК ниже, чем у мРНК, из-за дефосфорилирования 5'-сайтов сплайсинга днРНК (модификации S5P). Сигналы полипиримидинового тракта днРНК имеют меньшее число пиримидинов (рис. 7Б) и большее соотношение урацилов к цитозинам (рис. 7В, С), чем у мРНК. Показано для днРНК и мРНК, что в большинстве клеточных линий, общее количество пиримидинов положительно коррелирует с эффективностью сплайсинга.

Также на эффективность сплайсинга влияет расстояние между точкой ветвления и 3'-сайтами сплайсинга. Эти расстояния больше в днРНК, чем в мРНК (рис. 7Е).

Уровень полиаденилирования для днРНК так же ниже, чем у мРНК. Кроме того, днРНК в целом демонстрируют распределение событий альтернативного сплайсинга аналогичное мРНК, с некоторыми заметными отклонениями, наблюдаемыми для пропуска экзонов (31,8% против 47,7%) и альтернативных последовательностей последних экзонов транскрипта (15,6% против 4,4%).

Рисунок 7 - Особенности сплайсинга днРНК и мРНК. (А) Схематическое изображение сайтов и регуляторов сплайсинга РНК. (В) Количество цитозинов выше для З'-сайта сплайсинга днРНК (С) Количество урацилов выше для З'-сайта сплайсинга днРНК (О) Количество пиримидиновых оснований выше для З'-сайтов сплайсинга мРНК. (Е) Распределение расстояний (п.н.) между 3'-сайтом сплайсинга и ближайшим мотивом точки ветвления для днРНК и мРНК. Адаптировано

из работы [36].

1.2.5 Преждевременная терминация транскрипции днРНК

Терминация транскрипции мРНК происходит по СрА-зависимому механизму. Сигналами терминации транскрипции являются элементы последовательности ДНК, состоящие из ААТААА и последующих ОИ (или и) богатых мотивов [37]. Коплекс СрА (комплексом расщепления и полиаденирования) распознает сигналы терминации транскрипции, что приводит

к расщеплению пре-мРНК и последующим полиаденилированием синтезированной мРНК (рис. 8А).

Для днРНК существуют CpA-независимые механизмы терминации транскрипции. При терминации транскрипции для днРНК обнаруживают признаки ко-транскрипционного расщепления и преждевременной терминации транскрипции [38, 39]. Было показано, что модификации T4P (фосфорилирование остатков ^г4 РНК полимеразы 2), ассоциированные с сайтом терминации транскрипции для белок-кодирующих генов, распределены равномерно по всей последовательности генов днРНК, что свидетельствует о том, что терминация днРНК может происходить многократно и в разным участках транскрипта [40]. Однако, большинство слабо сплайсированных и неполиаденилированных транскриптов днРНК деградируются в ядре с помощью экзосом и по DGCR8-зависимому пути (рис. 8B).

Рисунок 8 - Терминация транскрипции мРНК и днРНК. (A) Гены, кодирующие белок, транскрибируются с участием РНК-полимеразы Pol 2 и сплайсосомы (фиолетовыый овал), связанной с C-концевым доменом S5P полимеразы. 3'-концы мРНК синтезируются ко-транскрипционно с помощью фактора полиаденилирвоания CPSF73 как часть комплекса CpA, что способствует терминации Pol 2. (B) Гены днРНК слабо сплайсированы и полиаденилированы, что приводит к CPSF73-независимой терминации и DGCR8

опосредованной деградации экзосомами, а также к котранскрипционному разрезанию синтезированной днРНК и ее последующей деградации. ТСС - сайт старта транскрипции, ПАС-сигнал полиаденилирования, Poll 2- РНК полимераза 2. Адаптировано из работы [39].

1.2.6 Характеристики структур днРНК и мРНК

Исследования характеристик днРНК и мРНК показали, что гены днРНК преимущественного короче (рис. 9А), содержат меньше экзонов (рис. 9В) и имеет меньшее количество изоформ (рис. 9С), чем мРНК.

Рисунок 9 - Различие структур днРНК и мРНК. (А) Количество экзонов для мРНК и днРНК с учетом CAGE пиков и PET меток. (B) Распределение размеров транскриптов днРНК и мРНК. (C) Распределение количества альтернативных сплайсированных форм на днРНК и мРНК. 59,

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Конина Дарья Олеговна, 2023 год

СПИСОК ИСПОЛЬЗУЕМЫХ ЛИТЕРАТУРНЫХ ИСТОЧНИКОВ

1. Fekry, M.I. and K.S. Gates, DNA-catalyzedhydrolysis of DNAphosphodiesters. Nat Chem Biol, 2009. 5(10): p. 710-1.

2. Liu, S.J., et al., CRISPRi-basedgenome-scale identification of functional long noncoding RNA loci in human cells. Science, 2017. 355(6320).

3. Uhlen, M., et al., Proteomics. Tissue-based map of the human proteome. Science, 2015. 347(6220): p. 1260419.

4. Yeasmin, F., et al., Identification and analysis of short open reading frames (sORFs) in the initially annotated noncoding RNA LINC00493 from human cells. J Biochem, 2021. 169(4): p. 421-434.

5. Liu, J., et al., Genome-wide analysis uncovers regulation of long intergenic noncoding RNAs in Arabidopsis. Plant Cell, 2012. 24(11): p. 4333-45.

6. Brown, J.B., et al., Diversity and dynamics of the Drosophila transcriptome. Nature, 2014. 512(7515): p. 393-9.

7. Kapusta, A. and C. Feschotte, Volatile evolution of long noncoding RNA repertoires: mechanisms and biological implications. Trends Genet, 2014. 30(10): p. 439-52.

8. Uszczynska-Ratajczak, B., et al., Towards a complete map of the human long non-coding RNA transcriptome. Nat Rev Genet, 2018. 19(9): p. 535-548.

9. Necsulea, A., et al., The evolution of lncRNA repertoires and expression patterns in tetrapods. Nature, 2014. 505(7485): p. 635-40.

10. Microbes liked it hot 3.5 billion years ago. Nature, 2017. 545(7654): p. 269.

11. Zhang, P., et al., Non-Coding RNAs and their Integrated Networks. J Integr Bioinform, 2019. 16(3).

12. Frankish, A., et al., GENCODE: reference annotation for the human and mouse genomes in 2023. Nucleic Acids Res, 2023. 51(D1): p. D942-D949.

13. Noguchi, S., et al., FANTOM5 CAGE profiles of human and mouse samples. Sci Data, 2017. 4: p. 170112.

14. Bonasio, R. and R. Shiekhattar, Regulation of transcription by long noncoding RNAs. Annu Rev Genet, 2014. 48: p. 433-55.

15. Cabili, M.N., et al., Localization and abundance analysis of human lncRNAs at single-cell and single-molecule resolution. Genome Biol, 2015. 16(1): p. 20.

16. Ulitsky, I. and D.P. Bartel, lincRNAs: genomics, evolution, and mechanisms. Cell, 2013. 154(1): p. 26-46.

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

Chillon, I. and M. Marcia, The molecular structure of long non-coding RNAs: emerging patterns

and functional implications. Crit Rev Biochem Mol Biol, 2020. 55(6): p. 662-690.

Mattioli, K., et al., High-throughput functional analysis of lncRNA core promoters elucidates

rules governing tissue specificity. Genome Res, 2019. 29(3): p. 344-355.

Kopp, F. and J.T. Mendell, Functional Classification and Experimental Dissection of Long

NoncodingRNAs. Cell, 2018. 172(3): p. 393-407.

Dinger, M.E., D.K. Gascoigne, and J.S. Mattick, The evolution of RNAs with multiple functions. Biochimie, 2011. 93(11): p. 2013-8.

Makarewich, C.A. and E.N. Olson, Mining forMicropeptides. Trends Cell Biol, 2017. 27(9): p. 685-696.

Wright, B.W., et al., The dark proteome: translation from noncanonical open reading frames. Trends Cell Biol, 2022. 32(3): p. 243-258.

Wu, P., et al., Emerging role of tumor-related functional peptides encoded by lncRNA and circRNA. Mol Cancer, 2020. 19(1): p. 22.

Hube, F., et al., Alternative splicing of the first intron of the steroid receptor RNA activator (SRA) participates in the generation of coding and noncoding RNA isoforms in breast cancer cell lines. DNA Cell Biol, 2006. 25(7): p. 418-28.

Williamson, L., et al., UVIrradiation Induces a Non-coding RNA that Functionally Opposes the Protein Encoded by the Same Gene. Cell, 2017. 168(5): p. 843-855 e13.

Johnsson, P., et al., Transcriptional kinetics and molecular functions of long noncoding RNAs. Nat Genet, 2022. 54(3): p. 306-317.

Deaton, A.M. and A. Bird, CpG islands and the regulation of transcription. Genes Dev, 2011. 25(10): p. 1010-22.

Batut, P.J. and T.R. Gingeras, Conserved noncoding transcription and core promoter regulatory code in early Drosophila development. Elife, 2017. 6.

Djebali, S., et al., Landscape of transcription in human cells. Nature, 2012. 489(7414): p. 1018.

Blank-Giwojna, A., A. Postepska-Igielska, and I. Grummt, lncRNA KHPS1 Activates a Poised Enhancer by Triplex-Dependent Recruitment of Epigenomic Regulators. Cell Rep, 2019. 26(11): p. 2904-2915 e4.

Chuong, E.B., N.C. Elde, and C. Feschotte, Regulatory activities of transposable elements: from conflicts to benefits. Nat Rev Genet, 2017. 18(2): p. 71-86.

Lander, E.S., et al., Initial sequencing and analysis of the human genome. Nature, 2001. 409(6822): p. 860-921.

33. Kapusta, A., et al., Transposable elements are major contributors to the origin, diversification, and regulation of vertebrate long noncoding RNAs. PLoS Genet, 2013. 9(4): p. e1003470.

34. Lubelsky, Y. and I. Ulitsky, Sequences enriched in Alu repeats drive nuclear localization of long RNAs in human cells. Nature, 2018. 555(7694): p. 107-111.

35. Casanova, M., et al., A primate-specific retroviral enhancer wires the XACT lncRNA into the core pluripotency network in humans. Nat Commun, 2019. 10(1): p. 5652.

36. Mele, M., et al., Chromatin environment, transcriptional regulation, and splicing distinguish lincRNAs andmRNAs. Genome Res, 2017. 27(1): p. 27-37.

37. Eaton, J.D., et al., A unified allosteric/torpedo mechanism for transcriptional termination on human protein-coding genes. Genes Dev, 2020. 34(1-2): p. 132-145.

38. Krchnakova, Z., et al., Splicing of long non-coding RNAs primarily depends on polypyrimidine tract and5' splice-site sequences due to weak interactions with SRproteins. Nucleic Acids Res, 2019. 47(2): p. 911-928.

39. Schlackow, M., et al., Distinctive Patterns of Transcription and RNA Processing for Human lincRNAs. Mol Cell, 2017. 65(1): p. 25-38.

40. Eaton, J.D. and S. West, Termination of Transcription by RNA Polymerase II: BOOM! Trends Genet, 2020. 36(9): p. 664-675.

41. Derrien, T., et al., The GENCODE v 7 catalog of human long noncoding RNAs: analysis of their gene structure, evolution, and expression. Genome Res, 2012. 22(9): p. 1775-89.

42. Tavares, R.C.A., A.M. Pyle, and S. Somarowthu, Phylogenetic Analysis with Improved Parameters Reveals Conservation in lncRNA Structures. J Mol Biol, 2019. 431(8): p. 1592-1603.

43. Diederichs, S., The four dimensions of noncoding RNA conservation. Trends Genet, 2014. 30(4): p. 121-3.

44. Noviello, T.M.R., et al., Detection of long non-coding RNA homology, a comparative study on alignment and alignment-free metrics. BMC Bioinformatics, 2018. 19(1): p. 407.

45. Blythe, A.J., A.H. Fox, and C.S. Bond, The ins and outs of lncRNA structure: How, why and what comes next? Biochim Biophys Acta, 2016. 1859(1): p. 46-58.

46. Patel, T.R., et al., Structural studies of RNA-protein complexes: A hybrid approach involving hydrodynamics, scattering, and computational methods. Methods, 2017. 118-119: p. 146-162.

47. Manigrasso, J., et al., Visualizing group II intron dynamics between the first and second steps of splicing. Nat Commun, 2020. 11(1): p. 2837.

48. Novikova, I.V., et al., 3S: shotgun secondary structure determination of long non-coding RNAs. Methods, 2013. 63(2): p. 170-7.

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

Mefford, M.A., E.P. Hass, and D.C. Zappulla, A 4-Base-Pair Core-Enclosing Helix in Telomerase RNA Is Essential for Activity and for Binding to the Telomerase Reverse Transcriptase Catalytic Protein Subunit. Mol Cell Biol, 2020. 40(24).

Valsecchi, C.I.K., et al., RNA nucleation by MSL2 induces selective X chromosome compartmentalization. Nature, 2021. 589(7840): p. 137-142.

Pandya-Jones, A., et al., A protein assembly mediates Xist localization and gene silencing. Nature, 2020. 587(7832): p. 145-151.

Klattenhoff, C.A., et al., Braveheart, a longnoncodingRNA requiredfor cardiovascular lineage commitment. Cell, 2013. 152(3): p. 570-83.

Xue, Z., et al., A G-Rich Motif in the lncRNA Braveheart Interacts with a Zinc-Finger Transcription Factor to Specify the Cardiovascular Lineage. Mol Cell, 2016. 64(1): p. 37-50. Gonzalez-Porta, M., et al., Estimation of alternative splicing variability in human populations. Genome Res, 2012. 22(3): p. 528-38.

Statello, L., et al., Gene regulation by long non-coding RNAs and its biological functions. Nat Rev Mol Cell Biol, 2021. 22(2): p. 96-118.

Lagarde, J., et al., High-throughput annotation of full-length long noncoding RNAs with capture long-read sequencing. Nat Genet, 2017. 49(12): p. 1731-1740.

Liu, S. and C. Trapnell, Single-cell transcriptome sequencing: recent advances and remaining challenges. F1000Res, 2016. 5.

Yin, Y., et al., U1 snRNP regulates chromatin retention of noncoding RNAs. Nature, 2020. 580(7801): p. 147-150.

Vos, S.M., et al., Structure of activated transcription complex Pol II-DSIF-PAF-SPT6. Nature, 2018. 560(7720): p. 607-612.

Nojima, T., et al., Deregulated Expression of Mammalian lncRNA through Loss of SPT6 Induces R-Loop Formation, Replication Stress, and Cellular Senescence. Mol Cell, 2018. 72(6): p. 970984 e7.

Rosenberg, A.B., et al., Learning the sequence determinants of alternative splicing from millions of random sequences. Cell, 2015. 163(3): p. 698-711.

Guo, C.J., et al., Distinct Processing of lncRNAs Contributes to Non-conserved Functions in Stem Cells. Cell, 2020. 181(3): p. 621-636 e22.

Xiang, J.F., et al., Human colorectal cancer-specific CCAT1-L lncRNA regulates long-range chromatin interactions at the MYC locus. Cell Res, 2014. 24(5): p. 513-31. Azam, S., et al., Nuclear retention element recruits U1 snRNP components to restrain spliced lncRNAs in the nucleus. RNA Biol, 2019. 16(8): p. 1001-1009.

65. Shukla, C.J., et al., High-throughput identification of RNA nuclear enrichment sequences. EMBO J, 2018. 37(6).

66. Hacisuleyman, E., et al., Function and evolution of local repeats in the Firre locus. Nat Commun, 2016. 7: p. 11021.

67. Chan, S.N. and J.W. Pek, Stable Intronic Sequence RNAs (sisRNAs): An Expanding Universe. Trends Biochem Sci, 2019. 44(3): p. 258-272.

68. Schuettengruber, B., et al., Genome regulation by polycomb and trithoraxproteins. Cell, 2007. 128(4): p. 735-45.

69. Djupedal, I. and K. Ekwall, Epigenetics: heterochromatin meets RNAi. Cell Res, 2009. 19(3): p. 282-95.

70. Ziller, M.J., et al., Charting a dynamic DNA methylation landscape of the human genome. Nature, 2013. 500(7463): p. 477-81.

71. Merry, C.R., et al., DNMT1-associated long non-coding RNAs regulate global gene expression and DNA methylation in colon cancer. Hum Mol Genet, 2015. 24(21): p. 6240-53.

72. Wu, X. and Y. Zhang, TET-mediated active DNA demethylation: mechanism, function and beyond. Nat Rev Genet, 2017. 18(9): p. 517-534.

73. Liu, D., et al., Long noncoding RNA ADAMTS9-AS2 suppresses the progression of esophageal cancer by mediating CDH3 promoter methylation. Mol Carcinog, 2020. 59(1): p. 32-44.

74. Zhang, S., et al., LncRNA HOTAIR-mediated MTHFR methylation inhibits 5-fluorouracil sensitivity in esophageal cancer cells. J Exp Clin Cancer Res, 2020. 39(1): p. 131.

75. Li, N., et al., Silencing of long non-coding RNA LINC01270 inhibits esophageal cancer progression and enhances chemosensitivity to 5-fluorouracil by mediating GSTP1methylation. Cancer Gene Ther, 2021. 28(5): p. 471-485.

76. Guo, X., et al., Long non-coding RNA-HAGLR suppressed tumor growth of lung adenocarcinoma through epigenetically silencingE2F1. Exp Cell Res, 2019. 382(1): p. 111461.

77. Shen, T., et al., A pair of long intergenic non-coding RNA LINC00887 variants act antagonistically to control Carbonic Anhydrase IX transcription upon hypoxia in tongue squamous carcinoma progression. BMC Biol, 2021. 19(1): p. 192.

78. Fang, S., et al., H3K27me3 induces multidrug resistance in small cell lung cancer by affecting HOXA1 DNA methylation via regulation of the lncRNA HOTAIR. Ann Transl Med, 2018. 6(22): p. 440.

79. Liu, B., et al., A cytoplasmic NF-kappaB interacting long noncoding RNA blocks IkappaB phosphorylation and suppresses breast cancer metastasis. Cancer Cell, 2015. 27(3): p. 370-81.

80. Jones, R., et al., A long intergenic non-coding RNA regulates nuclear localization of DNA methyl transferase-1. iScience, 2021. 24(4): p. 102273.

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

Qi, D., et al., Long non-coding RNA DBCCR1-003 regulate the expression of DBCCR1 via DNMT1 in bladder cancer. Cancer Cell Int, 2016. 16: p. 81.

Lai, I.L., et al., Male-Specific Long Noncoding RNA TTTY15 Inhibits Non-Small Cell Lung Cancer Proliferation and Metastasis via TBX4. Int J Mol Sci, 2019. 20(14). Jia, L., et al., Oplr16 serves as a novel chromatin factor to control stem cell fate by modulating pluripotency-specific chromosomal looping and TET2-mediated DNA demethylation. Nucleic Acids Res, 2020. 48(7): p. 3935-3948.

Zhou, L., et al., TET2-interacting long noncoding RNA promotes active DNA demethylation of the MMP-9 promoter in diabetic wound healing. Cell Death Dis, 2019. 10(11): p. 813. Arab, K., et al., Long noncoding RNA TARID directs demethylation and activation of the tumor suppressor TCF21 via GADD45A. Mol Cell, 2014. 55(4): p. 604-14.

Xu, M., et al., LncRNA SATB2-AS1 inhibits tumor metastasis and affects the tumor immune cell microenvironment in colorectal cancer by regulating SATB2. Mol Cancer, 2019. 18(1): p. 135. Huang, W., et al., LncRNA-mediatedDNA methylation: an emerging mechanism in cancer and beyond. J Exp Clin Cancer Res, 2022. 41(1): p. 100.

Zhao, J., et al., Polycomb proteins targeted by a short repeat RNA to the mouse Xchromosome. Science, 2008. 322(5902): p. 750-6.

Nagano, T., et al., The Air noncoding RNA epigenetically silences transcription by targeting G9a to chromatin. Science, 2008. 322(5908): p. 1717-20.

Pandey, R.R., et al., Kcnq1ot1 antisense noncoding RNA mediates lineage-specific transcriptional silencing through chromatin-level regulation. Mol Cell, 2008. 32(2): p. 232-46. Khalil, A.M., et al., Many human large intergenic noncoding RNAs associate with chromatin-modifying complexes and affect gene expression. Proc Natl Acad Sci U S A, 2009. 106(28): p. 11667-72.

Davidovich, C., et al., Promiscuous RNA binding by Polycomb repressive complex 2. Nat Struct Mol Biol, 2013. 20(11): p. 1250-7.

Deng, C., et al., HoxBlinc RNA Recruits Set1/MLL Complexes to Activate Hox Gene Expression Patterns and Mesoderm Lineage Development. Cell Rep, 2016. 14(1): p. 103-114. Subhash, S., et al., H3K4me2 and WDR5 enriched chromatin interacting long non-coding RNAs maintain transcriptionally competent chromatin at divergent transcriptional units. Nucleic Acids Res, 2018. 46(18): p. 9384-9400.

Wang, K.C., et al., A long noncoding RNA maintains active chromatin to coordinate homeotic gene expression. Nature, 2011. 472(7341): p. 120-4.

Yang, Y.W., et al., Essential role of lncRNA binding for WDR5 maintenance of active chromatin and embryonic stem cellpluripotency. Elife, 2014. 3: p. e02046.

97. Gomez, J.A., et al., The NeST long ncRNA controls microbial susceptibility and epigenetic activation of the interferon-gamma locus. Cell, 2013. 152(4): p. 743-54.

98. Amirinejad, R., M. Rezaei, and Z. Shirvani-Farsani, An update on long intergenic noncoding RNA p21: a regulatory molecule with various significant functions in cancer. Cell Biosci, 2020. 10: p. 82.

99. Sun, X., M.S.S. Haider Ali, and M. Moran, The role of interactions of long non-coding RNAs and heterogeneous nuclear ribonucleoproteins in regulating cellular functions. Biochem J, 2017. 474(17): p. 2925-2935.

100. Li, Z., et al., The long noncoding RNA THRIL regulates TNFalpha expression through its interaction with hnRNPL. Proc Natl Acad Sci U S A, 2014. 111(3): p. 1002-7.

101. Kirshenbaum, L.A., et al., Human E2F-1 reactivates cell cycle progression in ventricular myocytes and represses cardiac gene transcription. Dev Biol, 1996. 179(2): p. 402-11.

102. Elamir, A., et al., Expression profile of serum LncRNA THRIL and MiR-125b in inflammatory bowel disease. PLoS One, 2022. 17(10): p. e0275267.

103. Clapier, C.R., et al., Mechanisms of action and regulation of ATP-dependent chromatin-remodelling complexes. Nat Rev Mol Cell Biol, 2017. 18(7): p. 407-422.

104. Luo, Z., S.K. Rhie, and P.J. Farnham, The Enigmatic HOXGenes: Can We Crack Their Code? Cancers (Basel), 2019. 11(3).

105. Tantin, D., Oct transcription factors in development and stem cells: insights and mechanisms. Development, 2013. 140(14): p. 2857-66.

106. Fan, J., et al., Long non-coding RNA ROR decoys gene-specific histone methylation to promote tumorigenesis. Genome Biol, 2015. 16(1): p. 139.

107. Postepska-Igielska, A., et al., LncRNA Khpsl Regulates Expression of the Proto-oncogene SPHK1 via Triplex-Mediated Changes in Chromatin Structure. Mol Cell, 2015. 60(4): p. 62636.

108. Selleri, L., et al., A Hox-Embedded Long Noncoding RNA: Is It All Hot Air? PLoS Genet, 2016. 12(12): p. e1006485.

109. Grossi, E., et al., A lncRNA-SWI/SNF complex crosstalk controls transcriptional activation at specific promoter regions. Nat Commun, 2020. 11(1): p. 936.

110. Kung, J.T., et al., Locus-specific targeting to the Xchromosome revealed by the RNA interactome of CTCF. Mol Cell, 2015. 57(2): p. 361-75.

111. Liu, Y., et al., The CTCF/LncRNA-PACERR complex recruits E1A binding protein p300 to induce pro-tumour macrophages in pancreatic ductal adenocarcinoma via directly regulating PTGS2 expression. Clin Transl Med, 2022. 12(2): p. e654.

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

Willingham, A.T., et al., A strategy for probing the function of noncoding RNAs finds a repressor of NFAT. Science, 2005. 309(5740): p. 1570-3.

Imamura, K., et al., Long noncoding RNA NEATl-dependent SFPQ relocation from promoter region to paraspeckle mediates IL8 expression upon immune stimuli. Mol Cell, 2014. 53(3): p. 393-406.

Zhu, J., et al., Long Noncoding RNA MEG3 Interacts with p53 Protein and Regulates Partial p53 Target Genes in Hepatoma Cells. PLoS One, 2015. 10(10): p. e0139790. Liu, Z., et al., Regulatory role of long non-coding RNA UCA1 in signaling pathways and its clinical applications. Oncol Lett, 2021. 21(5): p. 404.

Zheng, F., et al., The HIF-lalpha antisense long non-coding RNA drives a positive feedback loop of HIF-lalpha mediated transactivation and glycolysis. Nat Commun, 2021. 12(1): p. 1341. Schmitt, A.M., et al., An inducible long noncoding RNA amplifies DNA damage signaling. Nat Genet, 2016. 48(11): p. 1370-1376.

Consortium, E.P., An integrated encyclopedia of DNA elements in the human genome. Nature, 2012. 489(7414): p. 57-74.

Li, S. and I. Ovcharenko, Enhancer jungles establish robust tissue-specific regulatory control in the human genome. Genomics, 2020. 112(3): p. 2261-2270.

Li, W., D. Notani, and M.G. Rosenfeld, Enhancers as non-coding RNA transcription units: recent insights andfuture perspectives. Nat Rev Genet, 2016. 17(4): p. 207-23. Cajigas, I., et al., The Evf2 Ultraconserved Enhancer lncRNA Functionally and Spatially OrganizesMegabase Distant Genes in the DevelopingForebrain. Mol Cell, 2018. 71(6): p. 956972 e9.

Groff, A.F., et al., Enhancers in the Peril lincRNA locus regulate distant but not local genes. Genome Biol, 2018. 19(1): p. 219.

Lewandowski, J.P., et al., The Firre locus produces a trans-acting RNA molecule that functions in hematopoiesis. Nat Commun, 2019. 10(1): p. 5137.

Rom, A., et al., Regulation of CHD2 expression by the Chaserr long noncoding RNA gene is essential for viability. Nat Commun, 2019. 10(1): p. 5092.

Dong, A., et al., A long noncoding RNA, LncMyoD, modulates chromatin accessibility to regulate muscle stem cell myogenic lineage progression. Proc Natl Acad Sci U S A, 2020. 117(51): p. 32464-32475.

Schaukowitch, K., et al., Enhancer RNA facilitates NELF release from immediate early genes. Mol Cell, 2014. 56(1): p. 29-42.

Balcerak, A., et al., RNA-protein interactions: disorder, moonlighting and junk contribute to eukaryotic complexity. Open Biol, 2019. 9(6): p. 190096.

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

Musselman, C.A. and T.G. Kutateladze, Characterization of functional disordered regions within chromatin-associated proteins. iScience, 2021. 24(2): p. 102070.

Staby, L., et al., Eukaryotic transcription factors: paradigms of protein intrinsic disorder. Biochem J, 2017. 474(15): p. 2509-2532.

Wu, M., et al., IncRNA SLERT controls phase separation of FC/DFCs to facilitate Pol I transcription. Science, 2021. 373(6554): p. 547-555.

Wang, X., et al., Mutual dependency between lncRNA LETN and protein NPM1 in controlling the nucleolar structure andfunctions sustaining cell proliferation. Cell Res, 2021. 31(6): p. 664683.

Spector, D.L. and A.I. Lamond, Nuclear speckles. Cold Spring Harb Perspect Biol, 2011. 3(2). Tripathi, V., et al., The nuclear-retainednoncodingRNA MALAT1 regulates alternative splicing by modulating SR splicing factor phosphorylation. Mol Cell, 2010. 39(6): p. 925-38. Ishizuka, A., et al., Formation of nuclear bodies by the lncRNA Gomafu-associating proteins Celf3 and SF1. Genes Cells, 2014. 19(9): p. 704-21.

Yamazaki, T., et al., Functional Domains of NEAT1 Architectural lncRNA Induce Paraspeckle Assembly through Phase Separation. Mol Cell, 2018. 70(6): p. 1038-1053 e7. Elguindy, M.M. and J.T. Mendell, NORAD-induced Pumilio phase separation is required for genome stability. Nature, 2021. 595(7866): p. 303-308.

Cai, Z., et al., RIC-seq for global in situ profiling of RNA-RNA spatial interactions. Nature, 2020. 582(7812): p. 432-437.

Yin, Q.F., et al., Long noncoding RNAs with snoRNA ends. Mol Cell, 2012. 48(2): p. 219-30. Wu, H., et al., Unusual Processing Generates SPA LncRNAs that Sequester Multiple RNA Binding Proteins. Mol Cell, 2016. 64(3): p. 534-548.

Yap, K., et al., A Short Tandem Repeat-Enriched RNA Assembles a Nuclear Compartment to Control Alternative Splicing and Promote Cell Survival. Mol Cell, 2018. 72(3): p. 525-540 e13. Ninomiya, K., et al., LncRNA-dependent nuclear stress bodies promote intron retention through SR protein phosphorylation. EMBO J, 2020. 39(3): p. e102729.

Hacisuleyman, E., et al., Topological organization of multichromosomal regions by the long intergenic noncoding RNA Firre. Nat Struct Mol Biol, 2014. 21(2): p. 198-206. Mattick, J.S., et al., Long non-coding RNAs: definitions, functions, challenges and recommendations. Nat Rev Mol Cell Biol, 2023. 24(6): p. 430-447.

Lee, S., et al., Noncoding RNA NORAD Regulates Genomic Stability by Sequestering PUMILIO Proteins. Cell, 2016. 164(1-2): p. 69-80.

Tichon, A., et al., SAM68 is requiredfor regulation of Pumilio by the NORAD long noncoding RNA. Genes Dev, 2018. 32(1): p. 70-78.

146

147

148

149

150

151

152

153

154

155

156

157

158

159

Wang, H., et al., NF-kappaB-InteractingLongNoncodingRNA Regulates HIV-1 Replication and Latency by RepressingNF-kappaB Signaling. J Virol, 2020. 94(17).

Xu, T.P., et al., E2F1 induces TINCR transcriptional activity and accelerates gastric cancer progression via activation of TINCR/STAU1/CDKN2B signaling axis. Cell Death Dis, 2017. 8(6): p. e2837.

Eckhart, L., et al., TINCR is not a non-coding RNA but encodes a protein component of cornified epidermalkeratinocytes. Exp Dermatol, 2020. 29(4): p. 376-379.

Carrieri, C., et al., Long non-coding antisense RNA controls Uchl1 translation through an embeddedSINEB2 repeat. Nature, 2012. 491(7424): p. 454-7.

Grelet, S., et al., A regulatedPNUTS mRNA to lncRNA splice switch mediates EMTand tumour progression. Nat Cell Biol, 2017. 19(9): p. 1105-1115.

Zhang, W., et al., Decoding Roles of Exosomal lncRNAs in Tumor-Immune Regulation and Therapeutic Potential. Cancers (Basel), 2022. 15(1).

Liang, Z.-x., et al., LncRNA RPPH1 promotes colorectal cancer metastasis by interacting with TUBB3 and by promoting exosomes-mediated macrophage M2 polarization. Cell death & disease, 2019. 10(11): p. 829.

Huang, Y., et al., Exosomal lncRNA SNHG10 derived from colorectal cancer cells suppresses natural killer cell cytotoxicity by upregulatingINHBC. Cancer Cell Int, 2021. 21(1): p. 528. Liu, T., et al., Exosomal long noncoding RNA CRNDE-h as a novel serum-based biomarker for diagnosis and prognosis of colorectal cancer. Oncotarget, 2016. 7(51): p. 85551-85563. Xian, D., et al., LncRNA KCNQ1OT1 Secreted by Tumor Cell-Derived Exosomes Mediates Immune Escape in Colorectal Cancer by Regulating PD-L1 Ubiquitination via MiR-30a-5p/USP22. Front Cell Dev Biol, 2021. 9: p. 653808.

Mao, Y., et al., Circulating exosomes from esophageal squamous cell carcinoma mediate the generation of B10 andPD-1(high) Breg cells. Cancer Sci, 2019. 110(9): p. 2700-2710. Xu, M., et al., Tumor associated macrophages-derived exosomes facilitate hepatocellular carcinoma malignance by transferring lncMMPA to tumor cells and activating glycolysis pathway. J Exp Clin Cancer Res, 2022. 41(1): p. 253.

Mi, X., et al., M2 Macrophage-Derived Exosomal lncRNA AFAP1-AS1 and MicroRNA-26a Affect Cell Migration and Metastasis in Esophageal Cancer. Mol Ther Nucleic Acids, 2020. 22: p. 779-790.

Jiang, H., et al., M1 macrophage-derived exosomes and their key molecule lncRNA HOTTIP suppress head and neck squamous cell carcinoma progression by upregulating the TLR5/NF-kappaBpathway. Cell Death Dis, 2022. 13(2): p. 183.

160. Li, Z., et al., Exosomal IncRNA ZFAS1 regulates esophageal squamous cell carcinoma cell proliferation, invasion, migration and apoptosis via microRNA-124/STAT3 axis. J Exp Clin Cancer Res, 2019. 38(1): p. 477.

161. Sirey, T.M., et al., The long non-coding RNA Ceroxl is a post transcriptional regulator of mitochondrial complex I catalytic activity. Elife, 2019. 8.

162. Huang, S., et al., lncRNA UCA1 inhibits mitochondrial dysfunction of skeletal muscle in type 2 diabetes mellitus by sequestering miR-143-3p to release FGF21. Cell Tissue Res, 2023. 391(3): p. 561-575.

163. Vendramin, R., et al., SAMMSON fosters cancer cell fitness by concertedly enhancing mitochondrial andcytosolic translation. Nat Struct Mol Biol, 2018. 25(11): p. 1035-1046.

164. Rackham, O., et al., Long noncoding RNAs are generated from the mitochondrial genome and regulated by nuclear-encoded proteins. RNA, 2011. 17(12): p. 2085-93.

165. Bai, J., et al., LncND5 encoded by mitochondrial genomes regulating mitochondrial autophagy via activation of complex I and binding to HMGCS1. 2022.

166. Villegas, J., et al., Expression of a novel non-coding mitochondrial RNA in human proliferating cells. Nucleic Acids Res, 2007. 35(21): p. 7336-47.

167. Burzio, V.A., et al., Expression of a family of noncoding mitochondrial RNAs distinguishes normal from cancer cells. Proc Natl Acad Sci U S A, 2009. 106(23): p. 9430-4.

168. Haswell, J.R., et al., Genome-wide CRISPR interference screen identifies long non-coding RNA loci required for differentiation and pluripotency. PLoS One, 2021. 16(11): p. e0252848.

169. Liu, Y., et al., Genome-wide screening for functional long noncoding RNAs in human cells by Cas9 targeting of splice sites. Nat Biotechnol, 2018.

170. Joung, J., et al., Genome-scale activation screen identifies a lncRNA locus regulating a gene neighbourhood. Nature, 2017. 548(7667): p. 343-346.

171. Ramilowski, J.A., et al., Functional annotation of human long noncoding RNAs via molecular phenotyping. Genome Res, 2020. 30(7): p. 1060-1072.

172. Ingolia, N.T., L.F. Lareau, and J.S. Weissman, Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell, 2011. 147(4): p. 789802.

173. Guttman, M., et al., Ribosome profiling provides evidence that large noncoding RNAs do not encode proteins. Cell, 2013. 154(1): p. 240-51.

174. Ingolia, N.T., et al., Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Rep, 2014. 8(5): p. 1365-79.

175. Patraquim, P., et al., Translation and natural selection of micropeptides from long non-canonical RNAs. Nat Commun, 2022. 13(1): p. 6515.

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

Couso, J.P. and P. Patraquim, Classification and junction of small open reading frames. Nat Rev Mol Cell Biol, 2017. 18(9): p. 575-589.

Guo, J.C., et al., CNIT: a fast and accurate web toolfor identifying protein-coding and long non-coding transcripts based on intrinsic sequence composition. Nucleic Acids Res, 2019. 47(W1): p. W516-W522.

Badger, J.H. and G.J. Olsen, CRITICA: coding region identification tool invoking comparative analysis. Mol Biol Evol, 1999. 16(4): p. 512-24.

Kong, L., et al., CPC: assess the protein-coding potential of transcripts using sequence features and support vector machine. Nucleic Acids Res, 2007. 35(Web Server issue): p. W345-9. Kang, Y.J., et al., CPC2: a fast and accurate coding potential calculator based on sequence intrinsic features. Nucleic Acids Res, 2017. 45(W1): p. W12-W16.

Tong, X. and S. Liu, CPPred: coding potential prediction based on the global description of RNA sequence. Nucleic Acids Res, 2019. 47(8): p. e43.

Zhu, M. and M. Gribskov, MiPepid: MicroPeptide identification tool using machine learning. BMC Bioinformatics, 2019. 20(1): p. 559.

Hanada, K., et al., sORF finder: a program package to identify small open reading frames with high coding potential. Bioinformatics, 2010. 26(3): p. 399-400.

Straub, D. and S. Wenkel, Cross-Species Genome-Wide Identification of Evolutionary ConservedMicroProteins. Genome Biol Evol, 2017. 9(3): p. 777-789.

Siepel, A., et al., Evolutionarily conserved elements in vertebrate, insect, worm, and yeast genomes. Genome Res, 2005. 15(8): p. 1034-50.

Lin, M.F., I. Jungreis, and M. Kellis, PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics, 2011. 27(13): p. i275-82. Casimiro-Soriguer, C.S., et al., Using AnABlast for intergenic sORF prediction in the Caenorhabditis elegans genome. Bioinformatics, 2020. 36(19): p. 4827-4832. Zhou, P., et al., Detecting small plant peptides using SPADA (Small Peptide Alignment Discovery Application). BMC Bioinformatics, 2013. 14: p. 335.

Baranov, P.V. and A.M. Michel, Illuminating translation with ribosome profiling spectra. Nat Methods, 2016. 13(2): p. 123-4.

Ji, Z., RibORF: Identifying Genome-Wide Translated Open Reading Frames Using Ribosome Profiling. Curr Protoc Mol Biol, 2018. 124(1): p. e67.

Ji, Z., et al., Transcriptome-scale RNase-footprintingof RNA-protein complexes. Nat Biotechnol, 2016. 34(4): p. 410-3.

Ingolia, N.T., J.A. Hussmann, and J.S. Weissman, Ribosome Profiling: Global Views of Translation. Cold Spring Harb Perspect Biol, 2019. 11(5).

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

Kiniry, S.J., et al., Trips-Viz: an environment for the analysis of public and user-generated ribosomeprofiling data. Nucleic Acids Res, 2021. 49(W1): p. W662-W670. Michel, A.M., et al., GWIPS-viz: development of a ribo-seq genome browser. Nucleic Acids Res, 2014. 42(Database issue): p. D859-64.

Crappe, J., et al., PROTEOFORMER: deepproteome coverage through ribosome profiling and MS integration. Nucleic Acids Res, 2015. 43(5): p. e29.

Raj, A., et al., Thousands of novel translated open reading frames in humans inferred by ribosome footprint profiling. Elife, 2016. 5.

Reuter, K., et al., PreTIS: A Tool to Predict Non-canonical 5' UTR Translational Initiation Sites in Human and Mouse. PLoS Comput Biol, 2016. 12(10): p. e1005170.

Brunet, M.A., et al., OpenProt 2021: deeper functional annotation of the coding potential of eukaryotic genomes. Nucleic Acids Res, 2021. 49(D1): p. D380-D388.

Xiao, Z., et al., De novo annotation and characterization of the translatome with ribosome profiling data. Nucleic Acids Res, 2018. 46(10): p. e61.

Erhard, F., et al., Improved Ribo-seq enables identification of cryptic translation events. Nat Methods, 2018. 15(5): p. 363-366.

Ji, Z., Rfoot: Transcriptome-Scale Identification of RNA-Protein Complexes from Ribosome Profiling Data. Curr Protoc Mol Biol, 2018. 124(1): p. e66.

Xu, Z., et al., Ribosome elongating footprints denoised by wavelet transform comprehensively characterize dynamic cellular translation events. Nucleic Acids Res, 2018. 46(18): p. e109. Calviello, L., et al., Detecting actively translated open readingframes in ribosome profiling data. Nat Methods, 2016. 13(2): p. 165-70.

Ahrens, C.H., et al., A Practical Guide to Small Protein Discovery and Characterization Using Mass Spectrometry. J Bacteriol, 2022. 204(1): p. e0035321.

Schlesinger, D. and S.J. Elsasser, Revisiting sORFs: overcoming challenges to identify and characterize functional microproteins. FEBS J, 2022. 289(1): p. 53-74.

Anderson, D.M., et al., A micropeptide encoded by a putative long noncoding RNA regulates muscle performance. Cell, 2015. 160(4): p. 595-606.

Anderson, K.M., et al., Transcription of the non-coding RNA upperhand controls Hand2 expression and heart development. Nature, 2016. 539(7629): p. 433-436. Pauli, A., et al., Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science, 2014. 343(6172): p. 1248636.

Wang, Y., et al., LncRNA-encodedpolypeptide ASRPS inhibits triple-negative breast cancer angiogenesis. J Exp Med, 2020. 217(3).

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

Apcher, S., et al., Translation of pre-spliced RNAs in the nuclear compartment generates peptides for the MHC class I pathway. Proc Natl Acad Sci U S A, 2013. 110(44): p. 17951-6. Koh, M., et al., A short ORF-encoded transcriptional regulator. Proc Natl Acad Sci U S A, 2021. 118(4).

Olexiouk, V., et al., sORFs.org: a repository of small ORFs identified by ribosome profiling. Nucleic Acids Res, 2016. 44(D1): p. D324-9.

Hao, Y., et al., SmProt: a database of small proteins encoded by annotated coding and non-coding RNA loci. Brief Bioinform, 2018. 19(4): p. 636-643.

Liu, H., et al., ncEP: A Manually Curated Database for Experimentally Validated ncRNA-

encodedProteins or Peptides. J Mol Biol, 2020. 432(11): p. 3364-3368.

Luo, X., et al., SPENCER: a comprehensive database for small peptides encoded by noncoding

RNAs in cancer patients. Nucleic Acids Res, 2022. 50(D1): p. D1373-D1381.

Zhang, Q., et al., Deeply Mining a Universe of Peptides Encoded by Long Noncoding RNAs. Mol

Cell Proteomics, 2021. 20: p. 100109.

Choteau, S.A., et al., MetamORF: a repository of unique short open reading frames identified by both experimental and computational approaches for gene and metagene analyses. Database (Oxford), 2021. 2021.

Neville, M.D.C., et al., A platform for curated products from novel open reading frames prompts reinterpretation of disease variants. Genome Res, 2021. 31(2): p. 327-36. Liu, T., et al., LncPep: A Resource of Translational Evidences for lncRNAs. Front Cell Dev Biol, 2022. 10: p. 795084.

Dragomir, M.P., et al., FuncPEP: A Database of Functional Peptides Encoded by Non-Coding RNAs. Noncoding RNA, 2020. 6(4).

UniProt, C., UniProt: the universal protein knowledgebase in 2021. Nucleic Acids Res, 2021. 49(D1): p. D480-D489.

Duvaud, S., et al., Expasy, the Swiss Bioinformatics Resource Portal, as designed by its users. Nucleic Acids Res, 2021. 49(W1): p. W216-W227.

Hartford, C.C.R. and A. Lal, When Long Noncoding Becomes Protein Coding. Mol Cell Biol, 2020. 40(6).

Burkholder, W.F., I. Kurtser, and A.D. Grossman, Replication initiation proteins regulate a developmental checkpoint in Bacillus subtilis. Cell, 2001. 104(2): p. 269-79. Cunningham, K.A. and W.F. Burkholder, The histidine kinase inhibitor Sda binds near the site of autophosphorylation and may sterically hinder autophosphorylation and phosphotransfer to SpoOF. Mol Microbiol, 2009. 71(3): p. 659-77.

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

Pang, Y., et al., Peptide SMIM30promotes HCC development by inducing SRC/YES1 membrane

anchoring andMAPK pathway activation. J Hepatol, 2020. 73(5): p. 1155-1169.

Min, K.W., et al., eIF4E phosphorylation by MST1 reduces translation of a subset of mRNAs,

but increases IncRNA translation. Biochim Biophys Acta Gene Regul Mech, 2017. 1860(7): p.

761-772.

Matsumoto, A., et al., mTORCl and muscle regeneration are regulated by the LINC00961-encoded SPAR polypeptide. Nature, 2017. 541(7636): p. 228-232.

Tupy, J.L., et al., Identification of putative noncodingpolyadenylated transcripts in Drosophila melanogaster. Proc Natl Acad Sci U S A, 2005. 102(15): p. 5495-500.

Magny, E.G., et al., Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science, 2013. 341(6150): p. 1116-20.

Rathod, N., et al., Nothing Regular about the Regulins: Distinct Functional Properties of SERCA

Transmembrane Peptide Regulatory Subunits. Int J Mol Sci, 2021. 22(16).

Chugunova, A., et al., LINC00116 codes for a mitochondrial peptide linking respiration and

lipid metabolism. Proc Natl Acad Sci U S A, 2019. 116(11): p. 4940-4945.

Meng, N., et al., Small Protein Hidden in lncRNA L0C90024 Promotes "Cancerous" RNA

Splicing and Tumorigenesis. Adv Sci (Weinh), 2020. 7(10): p. 1903233.

Slavoff, S.A., et al., A human short open reading frame (sORF)-encoded polypeptide that

stimulates DNA end joining. J Biol Chem, 2014. 289(16): p. 10950-10957.

Cai, B., et al., LncRNA-Six1 Encodes a Micropeptide to Activate Six1 in Cis and Is Involved in

Cell Proliferation and Muscle Growth. Front Physiol, 2017. 8: p. 230.

Bi, P., et al., Control of muscle formation by the fusogenic micropeptide myomixer. Science, 2017. 356(6335): p. 323-327.

Wang, L., et al., The micropeptide LEMPplays an evolutionarily conserved role in myogenesis. Cell Death Dis, 2020. 11(5): p. 357.

al, v.S.C.e., a micropeptide concealed in a putative long Non-coding RNA directs inflammation. Arteriosclerosis, Thrombosis, and Vascular Biology, 2018. T. 38. - №. Suppl_1.: p. C. A027-A027.

Niu, L., et al., A micropeptide encoded by lncRNA MIR155HG suppresses autoimmune inflammation via modulating antigen presentation. Sci Adv, 2020. 6(21): p. eaaz2059. Charpentier, M., et al., IRES-dependent translation of the long non coding RNA meloe in melanoma cells produces the most immunogenic MELOE antigens. Oncotarget, 2016. 7(37): p. 59704-59713.

241

242

243

244

245

246

247

248

249

250

251

252

253

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.