Перекрывающиеся открытые рамки считывания у табака и вируса табачной мозаики: особенности организации и функционирования тема диссертации и автореферата по ВАК РФ 03.01.03, кандидат наук Шешукова, Екатерина Владимировна

  • Шешукова, Екатерина Владимировна
  • кандидат науккандидат наук
  • 2018, Москва
  • Специальность ВАК РФ03.01.03
  • Количество страниц 86
Шешукова, Екатерина Владимировна. Перекрывающиеся открытые рамки считывания у табака и вируса табачной мозаики: особенности организации и функционирования: дис. кандидат наук: 03.01.03 - Молекулярная биология. Москва. 2018. 86 с.

Оглавление диссертации кандидат наук Шешукова, Екатерина Владимировна

ОГЛАВЛЕНИЕ

ОГЛАВЛЕНИЕ

СПИСОК СОКРАЩЕНИЙ

ВВЕДЕНИЕ

ОБЗОР ЛИТЕРАТУРЫ

Общие представления о понятии «ген»

Альтернативная инициация транскрипции и альтернативный сплайсинг

Идентификация генов-матрёшек

Биоинформатический поиск кОРС

Обнаружение и верификация функционально-активных транслируемых кОРС

Гены-матрёшки: перекрывающиеся гены, «вложенные» гены и ОРС с альтернативным стартовым кодом

аОРС располагается в 5'-НТО мРНК

аОРС располагается в 3'-НТО мРНК

«Вложенная» аОРС расположена внутри основной ОРС

аОРС и гены-матрёшки в геноме растений

МАТЕРИАЛЫ И МЕТОДЫ

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

Исследование генной матрешки ЫЪКР1ЬР, кодирующей КР1-подобный белок

Идентификация и анализ гена ЫЪКР1ЬР N. ЪвЫкат1апа

Накопление мРНК ШКР1ЬР в листьях N. ЪвЫкат1апа увеличивается после инкубации в темноте и синтезе чужеродных белков

Роль транскрипционного промотора в регуляции гена МКР1ЬР

Ген ^КР1ЬР содержит вложенную ОРС, контролирующую накопление своей мРНК в листьях

Роль 53ак-аОРС в накоплении мРНК ШКР1ЬР в листе N. ЪвЫкат1апа

Организация 3' -терминальных перекрывающихся ОРС у тобамовирусов обеспечивает эффективную адаптацию и репродукцию в данном хозяине

Перекрывающиеся ОРС в 3'-терминальной части генома тобамовирусов

Влияние перекрывания ТБ/БО на синтез и трансляцию сгРНК БО

ВЫВОДЫ

БЛАГОДАРНОСТИ

СПИСОК ЛИТЕРАТУРЫ

СПИСОК СОКРАЩЕНИЙ

5'RACE - быстрая амплификация 5'-концов кДНК ATPC - гамма-цепь хлоропластной АТФ-синтазы ATXN1 - ген, кодирующий атаксин-1

CASP1 - каспаза 1, связанная с апоптозом цистеиновая пептидаза

dNTP - дезоксинуклеозидтрифосфат

GAPDH - глицеральдегид-3-фосфатдегидрогеназа

GFP - green fluorescent protein, зеленый флуоресцирующий белок

GUS - ß-глюкуронидаза

IRES - область внутренней посадки рибосомы

KPI - ингибитор пептидазы Кунитца

MES - 2-этансульфоновая кислота

MUG - 4-метилумбеллиферил^-0-глюкуронид

NbKPILP - гомолог ингибитора пептидазы Кунитца из растения N. benthamiana PBS - фосфатно-солевой буфер PME - пектинметилэстераза

RCA - рибулозобисфосфаткарбоксилаза/оксигеназа

RNA-seq - секвенирование транскриптома

pri-miRNA - РНК-предшественник микроРНК

Prnp - ген белка PrPN

SAGE - серийный анализ экспрессии генов

TSP2 - тромбоспондин-2

TYRP1 - связанный с тирозиназой белок

Zm908 - преобладающий в пыльце ген кукурузы

аОРС - альтернатвная открытая рамка считывания

АС - амфипатическая спираль

БО - белок оболочки

ВМЦК - вирус мозаики цветной капусты

ВТМ - вирус табачной мозаики

ГКБ - ген, кодрующий белок

гРНК - геномная РНК

ДСН - додецилсульфат натрия

кДНК - комплементарная ДНК

кОРС - короткая открытая рамка считывания кПЕП - короткие пептиды

крВТМ - тобамовирус, заражающий растения сем. Крестоцветные

мРНК - матричная РНК

НСК - неканонический стартовый кодон

НТО - нетранслируемая область

ОРС - открытая рамка считывания

ОТ-ПЦР - полимеразная цепная реакция с обратной транскрипцией

ПААГ - полиакриламидный гель

ПГ - перекрывающиеся гены

ППБ - полипуриновый блок

рРНК - рибосомная РНК

сгРНК - субгеномная РНК

СЦА1 - спиноцеребеллярная атаксия типа

ТБ - транспортный белок

тРНК - транспортная РНК

ТХУ - трихлоруксусная кислота

УИС - участок инициации сборки вирионов

УФ - ультрафиолет

ЭДТА - этилендиаминтетраацетат натрия

Рекомендованный список диссертаций по специальности «Молекулярная биология», 03.01.03 шифр ВАК

Введение диссертации (часть автореферата) на тему «Перекрывающиеся открытые рамки считывания у табака и вируса табачной мозаики: особенности организации и функционирования»

ВВЕДЕНИЕ

Регулирование экспрессии генов у эукариот на разных этапах роста и развития, а также после воздействия внешних раздражителей осуществляется на транскрипционном, посттранскрипционном и посттрансляционном уровнях. В последние годы пересмотрено устоявшееся мнение, что один зрелый РНК-транскрипт кодирует один белок. Установлено, что одна мРНК может содержать помимо основной открытой рамки считывания (ОРС) альтернативную или перекрывающуюся ОРС и направлять синтез двух полипептидов. Эту ситуация хорошо моделирует игрушка матрёшка. Вообще, перекрывающиеся ОРС являются универсальным явлением как для эукариот, так и для вирусов. Такая структура возникает с участием различных механизмов, включая использование альтернативных стартовых кодонов, рибосомного "проскальзывания" и сдвигов рамки (Krakauer, 2000). Вирусы, в особенности РНК-вирусы, имеют высокое содержание перекрывающихся ОРС. Это сочетается с высокой скоростью мутаций в РНК-геноме и высокой скоростью эволюции вируса, которая на 2-3 порядка выше в сравнении с ДНК-содержащими вирусами (Belshaw et al., 2008). Перекрывающиеся ОРС помогают вирусу сжимать максимальный объем информации в относительно небольшой РНК-геном и является эффективным механизмом генерации новых генов путем создания новой открытой рамки считывания на базе существующей нуклеотидной последовательности (Pavesi et al., 2013). Однако, остается неясной роль перекрывающихся ОРС в приспособленности и адаптации вируса к разным хозяевам.

Что касается транскриптома человека, то растет число публикаций, указывающих на существование мРНК, содержащих две перекрывающиеся ОРС, кодирующие два структурно различных белковых продукта (Xu et al., 2010). У растений известен пока только один пример, когда одна мРНК направляет синтез двух белковых продуктов (Dong et al., 2013), хотя многие такие гены-кандидаты предсказаны на основе биоинформационного анализа. Поиск генных матрешек у растений и их исследование чрезвычайно актуально. Кодирующий потенциал таких рамок в большинстве случаев не принимается во внимание, прежде всего, из-за отсутствия информации о возможности образования соответствующих продуктов трансляции в клетке (Andrews and Rothnagel, 2014). мРНК растений содержит множество кОРС как в области 5'-лидерной последовательности, так и ОРС, перекрывающиеся с основной ОРС (Hayden and Jorgensen, 2007; Tran et al., 2008; Vaughn et al., 2012). По оценкам, примерно 20% лидерных

последовательностей генов, кодирующих белок, A. thaliana содержат кОРС (Jorgensen and Dorantes-Acosta, 2012). Как и у животных, кОРС, расположенные в 5'-нетранслируемой области мРНК растений, функционируют в качестве регулятора трансляции основной ОРС. Важная роль подобных кОРС в ответе растительной клетки на стресс была подтверждена рибосомным профайлингом транскриптома в норме и стрессовых условиях (Bailey-Serres and Ma, 2017; Juntawong et al., 2014; Schepetilnikov and Ryabova, 2017; Sesma et al., 2017; Tanaka et al., 2016; Xu et al., 2017a, 2017b). В свою очередь, экспрессия альтернативной ОРС (аОРС), расположенной в кодирующей области гена, была продемонстрирована только для гена кукурузы Zm908 (Dong et al., 2013; Hanada et al., 2013).

Проблема поиска и идентификации аОРС тесно сопряжена с еще одной задачей геномики - функционирование генов, содержащих интроны, и генов, их не содержащих. Доля неинтронированных генов составляет у человека 3-5% (Grzybowska, 2012), у растений - от 6 до 28% (Yan et al., 2016). Считается, что появление неинтронированных генов - это событие эволюционно позднее и связано с необходимостью быстрой реакции на стресс (Heyn et al., 2015). В отличие от безинтронных генов у интронированного гена в регуляции синтеза мРНК принимает участие альтернативный сплайсинг. Поэтому возникает вопрос, не может ли наличие функциональной аОРС замещать альтернативный сплайсинг в механизме регуляции экспрессии неинтронных генов.

Все эти предпосылки позволили сформулировать цель исследования: выявление особенностей организации и функционирования генной матрешки, кодирующей гомолог ингибитора пептидазы Кунитца (NbKPILP), и перекрывающихся открытых рамок считывания у вируса табачной мозаики. Для достижения поставленной цели были решены следующие задачи:

1. Выделение и исследование гена, кодирующего NbKPILP, и его транскрипционного промотора.

2. Исследование роли вложенной альтернативной ОРС в накоплении материнской мРНК NbKPILP в листьях.

3. Анализ перекрывающихся 3'-терминальных генов у тобамовирусов и их возможная роль в адаптации и эффективной репродукции вируса в данном хозяине.

Положения и результаты, выносимые на защиту:

1. Ген, кодирующий NbKPILP, не содержит интронов, и его реакция на воздействие стрессовых факторов не определяется активностью транскрипционного промотора.

2. Ген NbKPILP содержит вложенную ОРС, контролирующую накопление материнской мРНК в листьях.

3. Организация 3' -терминальных перекрывающихся ОРС у тобамовирусов определяет их приспособленность к данному растению-хозяину.

Полученные в данной работе результаты обладают научной новизной, имеют теоретическую и практическую значимость. Впервые установлено, что ген, кодирующий ЫЬКРГЬР, представляет собой генную матрешку, содержащую вложенную альтернативную ОРС. Проведенный анализ показывает, что существование перекрывающихся генов у тобамовирусов определяется не только «экономией» генетического материала, но и эволюционным приобретением, способствующим адаптации к данному растению-хозяину и расширению круга хозяев.

Экспериментальная работа проводилась на хорошо изученных вирусах: вирусе табачной мозаики (ВТМ) и ВТМ крестоцветных (крВТМ), а также модельных растениях Nicotiana benthamiana и N. tabacum. Для создания генноинженерных конструкций были использованы стандартные молекулярно-биологические методы; для анализа накопления мРНК и белка в растении был применен метод транзиентной экспрессии, а трансформация растений осуществлялась с помощью Agrobacterium tumefaciens; оценка уровня мРНК проводилась с помощью количественной ПЦР в реальном времени, с предварительным получением кДНК; работа с белками и мРНК осуществлялась согласно методам, описанным ранее в литературе.

Достоверность полученных данных подтверждается достаточным количеством воспроизводимых результатов, их статистической обработкой и публикацией результатов в рецензируемых журналах.

Теоретическая и практическая значимость работы определяется следующим:

1. Способность альтернативной вложенной ОРС контролировать основную («материнскую») ОРС в условиях стресса расширяет репертуар механизмов, с помощью которых растение противостоит влиянию факторов окружающей среды.

2. Выявлены особенности организации генома тобамовирусов, определяющие приспособленность к растению-хозяину и способствующие эффективной репродукции вируса в этом растении.

Результаты были представлены на 38-м, 39-м, 40-м и 42-м Конгрессах FEBS 2013, 2014, 2015 и 2017 гг, соответственно, на V Съезде Биохимиков России, 2016 г., VI Всероссийском симпозиуме «Трансгенные растения: технология создания, биологические свойства, применение, биобезопасность» 2016 г., международной объединенной научной конференции "XII чтения памяти академика Юрия Анатольевича Овчинникова" и VIII Российский симпозиум "Белки и пептиды" 2017 г.

По материалам диссертации опубликовано 6 печатных работ, из них 4 статьи в рецензируемых международных и отечественных журналах, входящих в перечень ВАК РФ, и две книги, Результаты исследования также представлены в материалах 5 отечественных и международных конференций.

ОБЗОР ЛИТЕРАТУРЫ

Общие представления о понятии «ген»

Изначально определение понятия «ген» было непосредственно сопряжено со зрелой матричной РНК и, в том числе, с открытой рамкой считывания (Rogic et al., 2001), начинающейся со стартового кодона и заканчивающейся стоп-кодоном, в результате трансляции с которой получался один белковый продукт. Соответственно пространство между генами не рассматривали в качестве функциональной и транскрибируемой области. Понимание гена ограничивалось генами, кодирующими белок (ГКБ), а также структурными РНК, такими как рРНК и тРНК. Однако, с открытием интронов (Chow et al., 1977) и благодаря появлению чувствительных методов анализа транскриптома, стало меняться и понятие гена (Brosius, 2009). Выяснилось, что различные механизмы экспрессии генов определяются не только количеством ГКБ, но и альтернативными сайтами инициации транскрипции, альтернативным сплайсингом и редактированием транскрипта (Carninci et al., 2006; Mercer and Mattick, 2013). И межгенная область, изначально считавшаяся лишенной какой-либо функции, оказалась способной к транскрипции. Более того, почти каждый нуклеотид ДНК-генома человека соответствует нуклеотиду, включенному, по меньшей мере, в один РНК-транскрипт (ENCODE Project Consortium et al., 2007). Однако, синтез каждого полноразмерного смыслового транскрипта сопровождается синтезом не менее чем 100 коротких, прерывисто синтезированных РНК (Goldman et al., 2009). Так в генетике появился термин «тёмная материя», дающий определение численности и разнообразию некодирующих транскриптов (Baboo and Cook, 2014; Kapranov and St Laurent, 2012).

Такое разнообразие РНК-транскриптов, не кодирующих белки, привело к модификации концепции гена. Одним из определений является «локализованная область геномной последовательности, соответствующая единице наследственности, которая связана с регуляторными элементами, транскрибируемым участком и/или другими функциональными областями последовательности» (Pearson, 2006). В другом определении ген представляется «единицей геномной последовательности, кодирующей когерентный набор потенциально перекрывающихся функциональных продуктов» (Gerstein et al., 2007).

Развитие молекулярной генетики привело к изменению понимания того, что такое ГКБ, при этом оценочное количество ГКБ постепенно уменьшалось (Raabe and Brosius,

2015). На первом этапе проекта по полному секвенированию генома человека было предсказано приблизительно 100000 ГКБ (Lander et al., 2001). Затем это число было снизилось до 50000 (Liang et al., 2000), а после - до 30000 (Claverie, 2001). Наконец, к моменту завершения проекта оценочное число ГКБ достигло 19000 (Ezkurdia et al., 2014), (Flicek et al., 2014). Только 1% человеческого генома, по-видимому, кодирует белки (Chong et al., 2015), . Тем не менее, это относительно небольшое количество человеческих ГКБ, успешно выполняет все необходимые функции благодаря развитию в ходе эволюции дополнительных свойств и возможностей (Sudmant et al., 2015; Raabe and Brosius, 2015; Zhouravleva, 2015).

К таким приобретениям относится и то, что некоторые белки способны выполнять несколько совершенно разных и не связанных между собой функций (Jeffery, 2003). Было обнаружено, что, например, глицеральдегид-3-фосфатдегидрогеназа (GAPDH), известный белок «домашнего хозяйства», по совместительству является белком, участвующим в регуляции транскрипции, репарации ДНК, поддержании структуры теломер, апоптозе и нейродегенеративных расстройствах (Jung et al., 2014). Кроме того, GAPDH является мишенью метаболического метанола (Dorokhov et al., 2012; Shindyapina et al., 2014). И этим список функций GAPDH не ограничивается.

Всё больше появляется работ, посвящённых обнаружению мРНК с альтернативными стартовыми кодонами и коротких открытых рамок считывания, что указывает на повышенный интерес к этой теме и позволяет расширить возможности и функции ГКБ. Как было упомянуто, ранее считалось, что один транскрипт кодирует один белок, но были обнаружены транскрипты с двумя ОРС, трансляция с которых давала два белка различных по структуре (Xu et al., 2010). Хотя многие такие гены-кандидаты предсказываются на основе биоинформационного анализа, на данный момент обнаружено всего несколько транскриптов, для которых экспериментально показано, что они напрявляют синтез двух различных белков. ГКБ с перекрывающимися ОРС в литературе описываются такими терминами, как «вложенный» ген/рамка (Gibson et al., 2005), «перекрывающийся» ген/рамка (Ho et al., 2012), или более близким нам термином «ген-матрёшка» (Ribrioux et al., 2008).

Но, несмотря на возникновение новых концепций понимания термина «ген», более ранние определения оказались не полностью вытесненными, что позволило одновременно сосуществовать нескольким формулировкам (Carninci et al., 2006; Mercer and Mattick, 2013; Rogic et al., 2001).

Альтернативная инициация транскрипции и альтернативный сплайсинг

Большинство ГКБ у животных и растений содержат интроны, и их транскрипты в процессе созревания подвергаются сплайсингу (Chorev and Carmel, 2012). Относительно небольшая доля ГКБ не содержит интронов, и их можно назвать безинтронными генами. Содержание неинтронированных генов у человека составляет около 3-5% (Shabalina et al., 2010), а у растений от б до 28 % (Zhang et al., 2014). Синтез мРНК интронированного гена РНК-полимеразой II занимает более продолжительное время по сравнению с безинтронным геном. Поэтому, предположительно, появление в процессе эволюции эукариот неинтронированных генов связано с необходимостью быстрого ответа на стресс (Heyn et al., 2015). Присутствие интронов в гене является основой механизма альтернативного сплайсинга. Альтернативный сплайсинг представляет собой процесс комбинаторной перегруппировки частей экзонов и интронов в зрелую РНК, что приводит к образованию множества вариантов транскриптов. Альтернативная инициация транскрипции и альтернативный сплайсинг являются основными механизмами, обеспечивающими многообразие вариантов экспрессии одних и тех же генов. Например, транскриптом человека содержит > 80000 белок-кодирующих транскриптов, однако количество белков, синтезированных с этих транскриптов, находится в диапазоне от 250000 до 1 млн (de Klerk and 't Hoen, 2015). Анализ показывает, что синтез такой огромной массы транскриптов осуществляется менее чем с 20000 генов. Недавние исследования транскриптома с использованием высокопроизводительного секвенирования (Djebali et al., 2012) (FANTOM Consortium and the RIKEN PMI and CLST (DGT) et al., 2014) и другие проекты секвенирования РНК (Pan et al., 2008) показали, что примерно для 90% человеческих генов характерна альтернативная инициация транскрипции или альтернативный сплайсинг.

Механизм альтернативной инициации транскрипции у человека хорошо исследован в ходе изучения патогенеза различных заболеваний, включая рак. В частности, в результате поиска связи между раком мочевого пузыря и ангиогенезом было обнаружена ключевая роль альтернативной инициации транскрипции в синтезе тромбоспондина-2 (TSP2), антиангиогенного матричного белка, который ингибирует рост опухоли и ангиогенез (Roudnicky et al., 2018). Установлено, что при этом заболевании вследствие альтернативной транскрипции синтезируется более короткий транскрипт TSP2, который полностью потерял свою антиангиогенную активность.

Альтернативный сплайсинг, играя важную роль в росте и развитии организмов, так же как и альтернативная инициация транскрипции, имеет решающее значение в

11

патогенезе и развитии злокачественных опухолей, включая рак молочной железы (Xiping et al., 2017). Накоплен большой экспериментальный материал, показывающий, что альтернативный сплайсинг одних генов может способствовать раку груди, тогда как некоторые другие гены могут подавлять рак молочной железы. Все вместе является основой для диагностики и эффективного вмешательства при этом заболевании.

Идентификация генов-матрёшек

Благодаря усовершенствованию методов предсказания и анализа, потенциально кодирующих кОРС, стало появляться большое количество работ, посвящённых доказательствам трансляции кОРС. Если раньше анализ каждого отдельного гена для понимания его организации не обходился без этапов клонирования и последующего секвенирования ДНК, то в настоящее время методы биоинформатики улучшили качество анализа уже аннотированных генов и позволили предсказать новые. Благодаря этому время, затраченное на изучение структуры генов, значительно сократилось.

Для идентификации новых генов-матрёшек, необходимо осуществлять поиск потенциальных вложенных ОРС и проводить анализ для оценки вероятности их трансляции. Известно, что кОРС содержатся во всех геномах, однако в большинстве случаев кодирующий потенциал таких ОРС не рассматривается в связи с тем, что отсутствует информации о непосредственном синтезе с этих кОРС белковых продуктов в клетке (Andrews and Rothnagel, 2014; Cooper, 2014). С развитием компьютерных технологий, высокопроизводительного секвенирования и протеомики стало возможным определение сайтов начала трансляции и множества потенциальных кОРС. Но даже если существует экспериментальное подтверждение трансляции каких-либо кОРС, то еще остаётся неизвестным, осуществляют ли кодируемые ими короткие пептиды (кПЕП) какую-либо функцию в клетке. Основной разницей между кОРС и другими ОРС является их длина, и хотя нет чётко определенных рамок, обычно ОРС не более 200-250 кодонов считаются короткими (Canto et al., 2004; Fukuda et al., 1981; Hayden and Bosco, 2008; Yang et al., 2011). На сегодняшний день самый короткий пептид, существование которого в клетке подтверждено экспериментально, состоит из 6 аминокислот и кодируется кОРС из 7 кодонов (Dorokhov et al., 1994a; Law et al., 2001).

Транслируемые кОРС могут по-разному располагаться в гене-матрёшке на

протяжении всей мРНК. Так, обнаружены кОРС как в 5'-нетранслируемой области (5'-

НТО) (Crowe et al., 2006; Iacono et al., 2005; Mercer et al., 2011), так и в 3'-НТО (Crowe et

al., 2006; Vanderperre et al., 2013), частично в основной ОРС и НТО (Andrews and

12

Rothnagel, 2014) и, наконец, в пределах основной ОРС (рис. 1). Кроме того, кОРС, способные к трансляции, также обнаружены в транскриптах, ранее считавшихся некодирующими, к ним относятся межгенные области (Ladoukakis et al., 2011), предшественники микро-РНК, длинные некодирующие РНК (Chew et al., 2013), и антисмысловые транскрипты (Slavoff et al., 2013).

1 ) 5-кэп

2) 5'-кэп

3) 5'-кэп

5' НТО «вложенная» кОРС З'НТО

-аааа

5' НТО

\ 5'-кОРС З'-кОРС

■5'-кОРС5- —!3'-кОРС

З'НТО

З'НТО

аааа

АААА

Рисунок 1. Возможное расположение кОРС в мРНК гена-матрёшки. 1) кОРС находится внутри основной ОРС; 2) кОРС начинается или заканчивается в 5'-НТО или 3'-НТО мРНК соответственно; 3) кОРС располагается в НТО мРНК. обозначено пять возможных позиций "вложенной" ОРС (светлые прямоугольники), НТО -нетранслируемая область.

Поиск предполагаемых кОРС аналогичен подходу для предсказания обычных ОРС и использует три стратегии: (а) межвидовое сравнение последовательностей кОРС для идентификации консервативных участков; (б) анализ кодонового состава кОРС; (в) анализ экспериментальных данных, полученных с помощью секвенирования транскриптома (RNA-seq), масс-спектрометрического анализа и рибосомного профайлинга, для подтверждения транскрипции и трансляции вероятных кОРС (Andrews and Rothnagel, 2014; Brent and Guigo, 2004; Sleator, 2010; Wang et al., 2003).

Биоинформатический поиск кОРС

При анализе потенциальной возможности трансляции кОРС довольно трудно

различить некодирующие и кодирующие рамки, с чем реже сталкивается исследователь

при анализе обычных кодирующих ОРС. Многие компьютерные программы для

предсказания ОРС анализируют потенциальные ОРС, опираясь на ряд параметров: 1)

каноничность кодонов инициации и терминации трансляции, 2) последовательность

промоторной области, 3) сигналы полиаденилирования, и 4) сайты сплайсинга (Brent and

Guigo, 2004; Frith et al., 2006; Sleator, 2010; Wang et al., 2003). Основные программы

разработаны для обнаружения канонических ОРС длиной более 100 кодонов (Cheng et al.,

13

2011; Hanada et al., 2007). Таким образом, алгоритмы программ для аннотирования генов не вполне подходят для поиска кОРС менее 100 кодонов, принимая их за бессмысленную последовательность. Чтобы уменьшить долю ложно-положительного определения генов, подобные программы используют особые критерии, из-за чего происходит игнорирование кОРС, потенциально способных к трансляции (Frith et al., 2006; Hanada et al., 2007).

Специальные программы, такие как sORFfinder (Hanada et al., 2010), HAltORF (Vanderperre et al., 2012) и uPEPperoni (Skarshewski et al., 2014), обычно используются для биоинформационного определения потенциальных кОРС. Межвидовое сравнение, при котором особое внимание уделяют длине и положению кОРС относительно уже аннотированной ОРС, дает возможность идентификации консервативных кОРС (Ladoukakis et al., 2011; Zhang and Dietrich, 2005). Доказательство эволюционной консервативности потенциальной кОРС очень важно, поскольку без этого признака кОРС, вероятнее всего, является случайной последовательностью, с которой не осуществляется синтез функционального кПЕП (Clamp et al., 2007). Но, тем не менее, те кОРС, которые не прошли подобный анализ, полностью отвергать не следует; их стоит иметь в виду при дальнейшем анализе наличия соответствующего биологически функционального кПЕП. Такой подход наилучшие результаты дает в сочетании с алгоритмами, анализирующими последовательность, кроме того, надо брать во внимание и характеристики основного гена. Для удобства отбора и анализа кОРС можно использовать следующие параметры: контекст стартового кодона, частоту использования кодонов для данного организма и так называемый потенциал кодирования.

Что касается нуклеотидного контекста стартового кодона, то, по мнению М. Козак (Kozak, 1987), оптимальное окружение инициаторного кодона свидетельствует о том, что ОРС скорее всего потенциально может транслироваться (Brent and Guigo, 2004; Xu et al., 2010). Однако следует также рассматривать существование других особенностей контекста. Не так давно с помощью метода, использующего сортировку клеток с активированной флуоресценцией с последующим РНК-секвенированием (FACS-seq), было проанализировано более 65,5 тыс. стартовых кодонов мРНК млекопитающих: оказалось, что мотив RYMRMVAUGGC повышает эффективность распознавания стартового кодона и увеличивает эффективность инициации трансляции на таком AUG-кодоне (Noderer et al., 2014).

Потенциально транслирующиеся кОРС можно определить, проанализировав состав

кодонов и частоту их использования (Karlin et al., 1998). Тут имеется в виду анализ

особенностей последовательности, отличный от сравнения с другими генами, основанный

на следующих оценках организации и гетерогенности последовательности: (а)

14

композиционные смещения коротких олигонуклеотидов; (б) относительные количества динуклеотидов (сигнатура генома); (в) сдвиги кодонов; (г) кластеризация, избыточная дисперсия или избыточная равномерность в распределении различных маркеров, например, конкретные олигонуклеотиды, сайты рестрикции, мишени метилирования.

Наконец, могут быть использованы программы, основанные на сложных алгоритмах, такие как Coding Index (Hanada et al., 2007), специально разработанная для оценки потенциала кодирования кОРС (Hanada et al., 2010). Статистические методы анализа включаются в некоторые сервисы и программы - CSTMiner (Castrignanô et al., 2004), CRITICA (Badger and Olsen, 1999) и Coding Potential Calculator (Kong et al., 2007).

Стоит также учитывать, что некоторые кОРС начинаются с неканонических стартовых кодонов (НСК) (Ingolia et al., 2011; Studtmann et al., 2014). Рибосомный профайлинг - метод, основанный на определении последовательности мРНК, активно транслируемой в конкретный момент времени (Ingolia et al., 2009) - дает представление об обилии кОРС в геноме млекопитающих. Согласно результатам, полученным при использовании рибосомного профайлинга, многие сайты начала трансляции кОРС представлены такими НСК, как CUG, UUG, GUG и ACG (Ingolia et al., 2011; Ivanov et al., 2011; Хазигалеева и Фесенко, 2017).

Суммируя вышесказанное, идентификация предполагаемого гена-матрёшки основана на: (а) сравнении межвидовой последовательности для идентификации консервативных последовательностей; (б) анализе состава и особенностей кодирующих кодонов и (в) анализе транскрипции и трансляции вероятных генов-матрёшек.

Обнаружение и верификация функционально-активных транслируемых кОРС

Идентификация транскриптов. Необходимым признаком генов-матрёшек, является наличие кодирующих кОРС, а экспериментальное доказательство их существования должно начинаться с идентификации соответствующего транскрипта. Т.е. поиск кОРС должен осуществляться именно в транскриптоме. Методы анализа экспрессии генов довольно разнообразны и подходят для получения данных на разных уровнях. К такими методам относятся ОТ-ПЦР, микрочипы с перекрывающимися ДНК-зондами, серийный анализ экспрессии генов (SAGE), секвенирование РНК и построение библиотек EST (Expressed Sequence Tags) (Andrews and Rothnagel, 2014; Brent and Guigo, 2004; Sleator, 2010). Геномные исследования показали, что многие гены содержат альтернативные промоторы транскрипции (FANTOM Consortium et al. 2009; Carninci et al. 2006), таким образом, поиск генов-матрёшек, содержащих кОРС, требует точного

картирования сайта инициации транскрипции. Для этого обычно используется метод, основанный на быстрой амплификации 5'-концов кДНК (5'RACE) (Kodzius et al., 2006; Ni et al., 2010; Plessy et al., 2010). Этот метод довольно точен и даёт возможность определить последовательность 5'-конца мРНК, а также характеристики транскрипта. Недавно был предложен новый протокол определения активности промоторов, включающий и определение сайта инициации транскрипции, под названием RAMPAGE (аннотация РНК и картирование промоторов для анализа экспрессии генов). Он позволяет с очень высокой точностью (до одного нуклеотида) определять 5'-концевые последовательности кДНК и оценивать активность транскрипции с того или иного промотора. С помощью такого анализа было показано на транскриптоме Drosophila melanogaster, что более 40% генов, экспрессирующихся в процессе развития, имеют, по меньшей мере, два промотора, причем альтернативные промоторы запускают разные программы регуляции экспрессии генов (Batut et al., 2013).

Таким образом, в настоящее время существует ряд высокоточных и высокопроизводительных методов, а также массивов данных, полученных с их помощью, что позволяет ограничить поиск кОРС именно транскрибируемыми генами.

Похожие диссертационные работы по специальности «Молекулярная биология», 03.01.03 шифр ВАК

Список литературы диссертационного исследования кандидат наук Шешукова, Екатерина Владимировна, 2018 год

СПИСОК ЛИТЕРАТУРЫ

1. Aguilar, I., Sánchez, F., Martín, A. M., Martínez-Herrera, D., and Ponz, F. (1996). Nucleotide sequence of Chinese rape mosaic virus (oilseed rape mosaic virus), a crucifer tobamovirus infectious on Arabidopsis thaliana. Plant Mol. Biol. 30, 191-197. doi:10.1007/BF00017814.

2. Andreev, D. E., O'Connor, P. B. F., Fahey, C., Kenny, E. M., Terenin, I. M., Dmitriev, S. E., et al. (2015a). Translation of 5' leaders is pervasive in genes resistant to eIF2 repression. eLife 4, e03971. doi:10.7554/eLife.03971.

3. Andreev, D. E., O'Connor, P. B. F., Zhdanov, A. V., Dmitriev, R. I., Shatsky, I. N., Papkovsky, D. B., et al. (2015b). Oxygen and glucose deprivation induces widespread alterations in mRNA translation within 20 minutes. Genome Biol. 16, 90. doi:10.1186/s13059-015-0651-z.

4. Andrews, S. J., and Rothnagel, J. A. (2014). Emerging evidence for functional peptides encoded by short open reading frames. Nat. Rev. Genet. 15, 193-204. doi:10.1038/nrg3520.

5. Ashida, Y., Matsushima, A., Tsuru, Y., Hirota, T., and Hirata, T. (2000). Isolation and sequencing of a cDNA clone encoding a 20-kDa protein with trypsin inhibitory activity. Biosci. Biotechnol. Biochem. 64, 1305-1309. doi:10.1271/bbb.64.1305.

6. Asurmendi, S., Berg, R. H., Koo, J. C., and Beachy, R. N. (2004). Coat protein regulates formation of replication complexes during tobacco mosaic virus infection. Proc. Natl. Acad. Sci. U. S. A. 101, 1415-1420. doi:10.1073/pnas.0307778101.

7. Baboo, S., and Cook, P. R. (2014). "Dark matter" worlds of unstable RNA and protein. Nucl. Austin Tex 5, 281-286. doi:10.4161/nucl.29577.

8. Badger, J. H., and Olsen, G. J. (1999). CRITICA: coding region identification tool invoking comparative analysis. Mol. Biol. Evol. 16, 512-524.

9. Bailey-Serres, J., and Ma, W. (2017). Plant biology: An immunity boost combats crop disease. Nature. doi:10.1038/nature22497.

10. Batut, P., Dobin, A., Plessy, C., Carninci, P., and Gingeras, T. R. (2013). High-fidelity promoter profiling reveals widespread alternative promoter usage and transposon-driven developmental gene expression. Genome Res. 23, 169-180. doi:10.1101/gr.139618.112.

11. Belshaw, R., Gardner, A., Rambaut, A., and Pybus, O. G. (2008). Pacing a small cage: mutation and RNA viruses. Trends Ecol. Evol. 23, 188-193. doi:10.1016/j.tree.2007.11.010.

12. Belshaw, R., Pybus, O. G., and Rambaut, A. (2007). The evolution of genome compression and genomic novelty in RNA viruses. Genome Res. 17, 1496-1504. doi:10.1101/gr.6305707.

13. Bendahmane, M., Szecsi, J., Chen, I., Berg, R. H., and Beachy, R. N. (2002). Characterization of mutant tobacco mosaic virus coat protein that interferes with virus cell-to-cell movement. Proc. Natl. Acad. Sci. U. S. A. 99, 3645-3650. doi:10.1073/pnas.062041499.

14. Benfey, P. N., Ren, L., and Chua, N. H. (1990). Combinatorial and synergistic properties of CaMV 35S enhancer subdomains. EMBO J. 9, 1685-1696.

15. Bergeron, D., Lapointe, C., Bissonnette, C., Tremblay, G., Motard, J., and Roucou, X. (2013). An out-of-frame overlapping reading frame in the ataxin-1 coding sequence encodes a novel ataxin-1 interacting protein. J. Biol. Chem. 288, 21824-21835. doi:10.1074/jbc.M113.472654.

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

Bhattacharjee, N., Banerjee, S., and Dutta, S. K. (2014). Cloning, expression and mutational studies of a trypsin inhibitor that retains activity even after cyanogen bromide digestion. Protein Expr. Purif. 96, 26-31. doi:10.1016/j.pep.2014.01.013. Boisvert, F.-M., Ahmad, Y., Gierlinski, M., Charriere, F., Lamont, D., Scott, M., et al. (2012). A quantitative spatial proteomics analysis of proteome turnover in human cells. Mol. Cell. ProteomicsMCP 11, M111.011429. doi:10.1074/mcp.M111.011429. Brandes, N., and Linial, M. (2016). Gene overlapping and size constraints in the viral world. Biol. Direct 11, 26. doi:10.1186/s13062-016-0128-3.

Brent, M. R., and Guigo, R. (2004). Recent advances in gene structure prediction. Curr. Opin. Struct. Biol. 14, 264-272. doi:10.1016/j.sbi.2004.05.007.

Brosius, J. (2009). The fragmented gene. Ann. N. Y. Acad. Sci. 1178, 186-193. doi: 10.1111/j .1749-6632.2009.05004.x.

Bunyatang, O., Chirapongsatonkul, N., Bangrak, P., Henry, R., and Churngchow, N. (2016). Molecular cloning and characterization of a novel bi-functional a-amylase/subtilisin inhibitor from Hevea brasiliensis. Plant Physiol. Biochem. PPB 101, 76-87. doi:10.1016/j.plaphy.2016.01.014.

Calvo, S. E., Pagliarini, D. J., and Mootha, V. K. (2009). Upstream open reading frames cause widespread reduction of protein expression and are polymorphic among humans. Proc. Natl. Acad. Sci. U. S. A. 106, 7507-7512. doi:10.1073/pnas.0810916106. Canto, T., MacFarlane, S. A., and Palukaitis, P. (2004). ORF6 of Tobacco mosaic virus is a determinant of viral pathogenicity in Nicotiana benthamiana. J. Gen. Virol. 85, 31233133. doi:10.1099/vir.0.80270-0.

Carninci, P., Sandelin, A., Lenhard, B., Katayama, S., Shimokawa, K., Ponjavic, J., et al. (2006). Genome-wide analysis of mammalian promoter architecture and evolution. Nat. Genet. 38, 626-635. doi:10.1038/ng1789.

Castellana, N. E., Payne, S. H., Shen, Z., Stanke, M., Bafna, V., and Briggs, S. P. (2008). Discovery and revision of Arabidopsis genes by proteogenomics. Proc. Natl. Acad. Sci. U. S. A. 105, 21034-21038. doi:10.1073/pnas.0811066106.

Castrignano, T., Canali, A., Grillo, G., Liuni, S., Mignone, F., and Pesole, G. (2004). CSTminer: a web tool for the identification of coding and noncoding conserved sequence tags through cross-species genome comparison. Nucleic Acids Res. 32, W624-627. doi:10.1093/nar/gkh486.

Chatterjee, S., and Ahituv, N. (2017). Gene Regulatory Elements, Major Drivers of Human Disease. Annu. Rev. Genomics Hum. Genet. 18, 45-63. doi:10.1146/annurev-genom-091416-035537.

Cheng, H., Chan, W. S., Li, Z., Wang, D., Liu, S., and Zhou, Y. (2011). Small open reading frames: current prediction techniques and future prospect. Curr. Protein Pept. Sci. 12, 503-507.

Cherezov, R. O., and Simonova, O. B. (2014). [Overlapping genes and antisense transcription in eukaryotes]. Genetika 50, 749-764.

Chew, G.-L., Pauli, A., Rinn, J. L., Regev, A., Schier, A. F., and Valen, E. (2013). Ribosome profiling reveals resemblance between long non-coding RNAs and 5' leaders of coding RNAs. Dev. Camb. Engl. 140, 2828-2834. doi:10.1242/dev.098343. Chong, J. X., Buckingham, K. J., Jhangiani, S. N., Boehm, C., Sobreira, N., Smith, J. D., et al. (2015). The Genetic Basis of Mendelian Phenotypes: Discoveries, Challenges, and Opportunities. Am. J. Hum. Genet. doi:10.1016/j.ajhg.2015.06.009. Chorev, M., and Carmel, L. (2012). The Function of Introns. Front. Genet. 3. doi:10.3389/fgene.2012.00055.

Chow, L. T., Gelinas, R. E., Broker, T. R., and Roberts, R. J. (1977). An amazing sequence arrangement at the 5' ends of adenovirus 2 messenger RNA. Cell 12, 1-8.

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

Chu, Q., Ma, J., and Saghatelian, A. (2015). Identification and characterization of sORF-encoded polypeptides. Crit. Rev. Biochem. Mol. Biol. 50, 134-141. doi:10.3109/10409238.2015.1016215.

Chung, W.-Y., Wadhawan, S., Szklarczyk, R., Pond, S. K., and Nekrutenko, A. (2007). A first look at ARFome: dual-coding genes in mammalian genomes. PLoS Comput. Biol. 3, e91. doi:10.1371/journal.pcbi.0030091.

Clamp, M., Fry, B., Kamal, M., Xie, X., Cuff, J., Lin, M. F., et al. (2007). Distinguishing protein-coding and noncoding genes in the human genome. Proc. Natl. Acad. Sci. U. S. A. 104, 19428-19433. doi:10.1073/pnas.0709013104.

Claverie, J. M. (2001). Gene number. What if there are only 30,000 human genes? Science 291, 1255-1257.

Cooper, B. (2014). Proof by synthesis of Tobacco mosaic virus. Genome Biol. 15, R67. doi:10.1186/gb-2014-15-5-r67.

Crowe, M. L., Wang, X.-Q., and Rothnagel, J. A. (2006). Evidence for conservation and selection of upstream open reading frames suggests probable encoding of bioactive peptides. BMC Genomics 7, 16. doi:10.1186/1471-2164-7-16.

Culver, J. N., Lehto, K., Close, S. M., Hilf, M. E., and Dawson, W. O. (1993). Genomic position affects the expression of tobacco mosaic virus movement and coat protein genes. Proc. Natl. Acad. Sci. U. S. A. 90, 2055-2059.

Dawson, W. O. (2014). A personal history of virus-based vector construction. Curr. Top. Microbiol. Immunol. 375, 1-18. doi:10.1007/82_2011_182.

de Klerk, E., and 't Hoen, P. A. C. (2015). Alternative mRNA transcription, processing, and translation: insights from RNA sequencing. Trends Genet. TIG 31, 128-139. doi: 10.1016/j .tig.2015.01.001.

De Meester, P., Brick, P., Lloyd, L. F., Blow, D. M., and Onesti, S. (1998). Structure of the Kunitz-type soybean trypsin inhibitor (STI): implication for the interactions between members of the STI family and tissue-plasminogen activator. Acta Crystallogr. D Biol. Crystallogr. 54, 589-597.

Deom, C. M., Schubert, K. R., Wolf, S., Holt, C. A., Lucas, W. J., and Beachy, R. N. (1990). Molecular characterization and biological function of the movement protein of tobacco mosaic virus in transgenic plants. Proc. Natl. Acad. Sci. U. S. A. 87, 3284-3288. Djebali, S., Davis, C. A., Merkel, A., Dobin, A., Lassmann, T., Mortazavi, A., et al. (2012). Landscape of transcription in human cells. Nature 489, 101-108. doi:10.1038/nature 11233.

Dong, X., Wang, D., Liu, P., Li, C., Zhao, Q., Zhu, D., et al. (2013). Zm908p11, encoded by a short open reading frame (sORF) gene, functions in pollen tube growth as a profilin ligand in maize. J. Exp. Bot. 64, 2359-2372. doi:10.1093/jxb/ert093. Dorokhov, Y. L., Ivanov, P. A., Novikov, V. K., Agranovsky, A. A., Morozov SYu, null, Efimov, V. A., et al. (1994). Complete nucleotide sequence and genome organization of a tobamovirus infecting cruciferae plants. FEBSLett. 350, 5-8.

Dorokhov, Y. L., Komarova, T. V., Petrunia, I. V., Kosorukov, V. S., Zinovkin, R. A., Shindyapina, A. V., et al. (2012). Methanol may function as a cross-kingdom signal. PloS One 7, e36122. doi:10.1371/journal.pone.0036122.

Dorokhov, Y. L., Makinen, K., Frolova, O. Y., Merits, A., Saarinen, J., Kalkkinen, N., et al. (1999). A novel function for a ubiquitous plant enzyme pectin methylesterase: the host-cell receptor for the tobacco mosaic virus movement protein. FEBS Lett. 461, 223228.

Dorokhov, Y. L., Skulachev, M. V., Ivanov, P. A., Zvereva, S. D., Tjulkina, L. G., Merits, A., et al. (2002). Polypurine (A)-rich sequences promote cross-kingdom conservation of internal ribosome entry. Proc. Natl. Acad. Sci. U. S. A. 99, 5301-5306. doi:10.1073/pnas.082107599.

51. ENCODE Project Consortium, Birney, E., Stamatoyannopoulos, J. A., Dutta, A., Guigó, R., Gingeras, T. R., et al. (2007). Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project. Nature 447, 799-816. doi:10.1038/nature05874.

52. Erlanger, B. F., Kokowsky, N., and Cohen, W. (1961). The preparation and properties of two new chromogenic substrates of trypsin. Arch. Biochem. Biophys. 95, 271-278.

53. Ezkurdia, I., Juan, D., Rodriguez, J. M., Frankish, A., Diekhans, M., Harrow, J., et al. (2014). Multiple evidence strands suggest that there may be as few as 19,000 human protein-coding genes. Hum. Mol. Genet. 23, 5866-5878. doi:10.1093/hmg/ddu309.

54. FANTOM Consortium and the RIKEN PMI and CLST (DGT), Forrest, A. R. R., Kawaji, H., Rehli, M., Baillie, J. K., de Hoon, M. J. L., et al. (2014). A promoter-level mammalian expression atlas. Nature 507, 462-470. doi:10.1038/nature13182.

55. FANTOM Consortium, Suzuki, H., Forrest, A. R. R., van Nimwegen, E., Daub, C. O., Balwierz, P. J., et al. (2009). The transcriptional network that controls growth arrest and differentiation in a human myeloid leukemia cell line. Nat. Genet. 41, 553-562. doi:10.1038/ng.375.

56. Flicek, P., Amode, M. R., Barrell, D., Beal, K., Billis, K., Brent, S., et al. (2014). Ensembl 2014. Nucleic Acids Res. 42, D749-755. doi:10.1093/nar/gkt1196.

57. Frith, M. C., Forrest, A. R., Nourbakhsh, E., Pang, K. C., Kai, C., Kawai, J., et al. (2006). The abundance of short proteins in the mammalian proteome. PLoS Genet. 2, e52. doi:10.1371/journal.pgen.0020052.

58. Fritsch, C., Herrmann, A., Nothnagel, M., Szafranski, K., Huse, K., Schumann, F., et al. (2012). Genome-wide search for novel human uORFs and N-terminal protein extensions using ribosomal footprinting. Genome Res. 22, 2208-2218. doi:10.1101/gr.139568.112.

59. Fukuda, M., Meshi, T., Okada, Y., Otsuki, Y., and Takebe, I. (1981). Correlation between particle multiplicity and location on virion RNA of the assembly initiation site for viruses of the tobacco mosaic virus group. Proc. Natl. Acad. Sci. 78, 4231-4235.

60. Geoghegan, J. L., Duchene, S., and Holmes, E. C. (2017). Comparative analysis estimates the relative frequencies of co-divergence and cross-species transmission within viral families. PLOS Pathog. 13, e1006215. doi:10.1371/journal.ppat.1006215.

61. Gerstein, M. B., Bruce, C., Rozowsky, J. S., Zheng, D., Du, J., Korbel, J. O., et al. (2007). What is a gene, post-ENCODE? History and updated definition. Genome Res. 17, 669-681. doi:10.1101/gr.6339607.

62. Gibbs, A. J., Fargette, D., García-Arenal, F., and Gibbs, M. J. (2010). Time - the emerging dimension of plant virus studies. J. Gen. Virol. 91, 13-22. doi:10.1099/vir.0.015925-0.

63. Gibbs, A. J., Wood, J., Garcia-Arenal, F., Ohshima, K., and Armstrong, J. S. (2015). Tobamoviruses have probably co-diverged with their eudicotyledonous hosts for at least 110 million years. Virus Evol. 1, vev019. doi:10.1093/ve/vev019.

64. Gibson, C. W., Thomson, N. H., Abrams, W. R., and Kirkham, J. (2005). Nested genes: biological implications and use of AFM for analysis. Gene 350, 15-23. doi:10.1016/j.gene.2004.12.045.

65. Goldman, S. R., Ebright, R. H., and Nickels, B. E. (2009). Direct detection of abortive RNA transcripts in vivo. Science 324, 927-928. doi:10.1126/science.1169237.

66. Goodwin, P. H., Xie, W., and Valliani, M. (2012). Three genes of miraculin-like proteins from Nicotiana benthamiana with dissimilar putative structures show highly similar patterns of induction following bacterial and fungal infections. Eur. J. Plant Pathol. 134, 795-810. doi:10.1007/s10658-012-0056-8.

67. Gruden, K., Strukelj, B., Ravnikar, M., Poljsak-Prijatelj, M., Mavric, I., Brzin, J., et al. (1997). Potato cysteine proteinase inhibitor gene family: molecular cloning, characterisation and immunocytochemical localisation studies. Plant Mol. Biol. 34, 317323.

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

Grzybowska, E. A. (2012). Human intronless genes: Functional groups, associated diseases, evolution, and mRNA processing in absence of splicing. Biochem. Biophys. Res. Commun. 424, 1-6. doi:10.1016/j.bbrc.2012.06.092.

Guo, J., Erskine, P. T., Coker, A. R., Wood, S. P., Cooper, J. B., Mares, M., et al. (2015). Structure of a Kunitz-type potato cathepsin D inhibitor. J. Struct. Biol. 192, 554-560. doi:10.1016/j.jsb.2015.10.020.

Gupta, P., Rangan, L., Ramesh, T. V., and Gupta, M. (2016). Comparative analysis of contextual bias around the translation initiation sites in plant genomes. J. Theor. Biol. 404, 303-311. doi:10.1016/j .jtbi.2016.06.015.

Guttman, M., Russell, P., Ingolia, N. T., Weissman, J. S., and Lander, E. S. (2013). Ribosome profiling provides evidence that large noncoding RNAs do not encode proteins. Cell 154, 240-251. doi:10.1016/j.cell.2013.06.009.

Hanada, K., Akiyama, K., Sakurai, T., Toyoda, T., Shinozaki, K., and Shiu, S.-H. (2010). sORF finder: a program package to identify small open reading frames with high coding potential. Bioinforma. Oxf. Engl. 26, 399-400. doi:10.1093/bioinformatics/btp688. Hanada, K., Higuchi-Takeuchi, M., Okamoto, M., Yoshizumi, T., Shimizu, M., Nakaminami, K., et al. (2013b). Small open reading frames associated with morphogenesis are hidden in plant genomes. Proc. Natl. Acad. Sci. U. S. A. 110, 23952400. doi:10.1073/pnas.1213958110.

Hanada, K., Zhang, X., Borevitz, J. O., Li, W.-H., and Shiu, S.-H. (2007). A large number of novel coding small open reading frames in the intergenic regions of the Arabidopsis thaliana genome are transcribed and/or under purifying selection. Genome Res. 17, 632-640. doi:10.1101/gr.5836207.

Hannan, E. J., and Thomson, P. J. (1988). Time Delay Estimation. J. Time Ser. Anal. 9, 21-33. doi: 10.1111/j .1467-9892.1988.tb00450.x.

Hashimoto, M., Komatsu, K., Iwai, R., Keima, T., Maejima, K., Shiraishi, T., et al. (2015). Cell Death Triggered by a Putative Amphipathic Helix of Radish mosaic virus Helicase Protein Is Tightly Correlated With Host Membrane Modification. Mol. Plant-Microbe Interact. MPMI28, 675-688. doi:10.1094/MPMI-01-15-0004-R. Hashimoto, Y., Kondo, T., and Kageyama, Y. (2008). Lilliputians get into the limelight: novel class of small peptide genes in morphogenesis. Dev. Growth Differ. 50 Suppl 1, S269-276. doi: 10.1111/j.1440-169X.2008.00994.x.

Hayden, C. A., and Bosco, G. (2008). Comparative genomic analysis of novel conserved peptide upstream open reading frames in Drosophila melanogaster and other dipteran species. BMC Genomics 9, 61. doi:10.1186/1471-2164-9-61.

Hayden, C. A., and Jorgensen, R. A. (2007). Identification of novel conserved peptide uORF homology groups in Arabidopsis and rice reveals ancient eukaryotic origin of select groups and preferential association with transcription factor-encoding genes. BMC Biol. 5, 32. doi:10.1186/1741-7007-5-32.

Hernandez-Garcia, C. M., and Finer, J. J. (2014). Identification and validation of promoters and cis-acting regulatory elements. Plant Sci. Int. J. Exp. Plant Biol. 217-218, 109-119. doi:10.1016/j.plantsci.2013.12.007.

Heyn, P., Kalinka, A. T., Tomancak, P., and Neugebauer, K. M. (2015). Introns and gene

expression: Cellular constraints, transcriptional regulation, and evolutionary

consequences. Bioessays 37, 148-154. doi:10.1002/bies.201400138.

Ho, M.-R., Tsai, K.-W., and Lin, W. (2012). A unified framework of overlapping genes:

towards the origination and endogenic regulation. Genomics 100, 231-239.

doi:10.1016/j.ygeno.2012.06.011.

Hsu, P. Y., Calviello, L., Wu, H.-Y. L., Li, F.-W., Rothfels, C. J., Ohler, U., et al. (2016). Super-resolution ribosome profiling reveals unannotated translation events in Arabidopsis. Proc. Natl. Acad. Sci., 201614788. doi:10.1073/pnas.1614788113.

84. Huang, H., Qi, S.-D., Qi, F., Wu, C.-A., Yang, G.-D., and Zheng, C.-C. (2010). NtKTIl, a Kunitz trypsin inhibitor with antifungal activity from Nicotiana tabacum, plays an important role in tobacco's defense response. FEBS J. 277, 4076-4088. doi: 10.1111/j .1742-4658.2010.07803.x.

85. Huang, M. T. (1975). Harringtonine, an inhibitor of initiation of protein biosynthesis. Mol. Pharmacol. 11, 511-519.

86. Iacono, M., Mignone, F., and Pesole, G. (2005). uAUG and uORFs in human and rodent 5'untranslated mRNAs. Gene 349, 97-105. doi:10.1016/j.gene.2004.11.041.

87. Ingolia, N. T., Ghaemmaghami, S., Newman, J. R. S., and Weissman, J. S. (2009). Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science 324, 218-223. doi:10.1126/science.1168978.

88. Ingolia, N. T., Lareau, L. F., and Weissman, J. S. (2011). Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell 147, 789-802. doi:10.1016/j.cell.2011.10.002.

89. Ishikawa, A., Ohta, S., Matsuoka, K., Hattori, T., and Nakamura, K. (1994). A family of potato genes that encode Kunitz-type proteinase inhibitors: structural comparisons and differential expression. Plant Cell Physiol. 35, 303-312.

90. Islam, A., Leung, S., Burgess, E. P. J., Laing, W. A., Richardson, K. A., Hofmann, R. W., et al. (2015). Knock-down of transcript abundance of a family of Kunitz proteinase inhibitor genes in white clover (Trifolium repens) reveals a redundancy and diversity of gene function. New Phytol. 208, 1188-1201. doi:10.1111/nph.13543.

91. Ivanov, I. P., Firth, A. E., Michel, A. M., Atkins, J. F., and Baranov, P. V. (2011). Identification of evolutionarily conserved non-AUG-initiated N-terminal extensions in human coding sequences. Nucleic Acids Res. 39, 4220-4234. doi:10.1093/nar/gkr007.

92. Ivanov, P. A., Karpova, O. V., Skulachev, M. V., Tomashevskaya, O. L., Rodionova, N. P., Dorokhov YuL, null, et al. (1997). A tobamovirus genome that contains an internal ribosome entry site functional in vitro. Virology 232, 32-43.

93. Jeffery, C. J. (2003). Moonlighting proteins: old proteins learning new tricks. Trends Genet. TIG 19, 415-417. doi:10.1016/S0168-9525(03)00167-7.

94. Jofuku, K. D., and Goldberg, R. B. (1989). Kunitz trypsin inhibitor genes are differentially expressed during the soybean life cycle and in transformed tobacco plants. Plant Cell 1, 1079-1093. doi:10.1105/tpc.1.11.1079.

95. Johnson, Z. I., and Chisholm, S. W. (2004). Properties of overlapping genes are conserved across microbial genomes. Genome Res. 14, 2268-2272. doi:10.1101/gr.2433104.

96. Jones, D. T., Taylor, W. R., and Thornton, J. M. (1992). The rapid generation of mutation data matrices from protein sequences. Comput. Appl. Biosci. CABIOS 8, 275-282.

97. Jorgensen, R. A., and Dorantes-Acosta, A. E. (2012). Conserved Peptide Upstream Open Reading Frames are Associated with Regulatory Genes in Angiosperms. Front. Plant Sci. 3, 191. doi:10.3389/fpls.2012.00191.

98. Joshi, C. P., Zhou, H., Huang, X., and Chiang, V. L. (1997). Context sequences of translation initiation codon in plants. Plant Mol. Biol. 35, 993-1001. doi:10.1023/A:1005816823636.

99. Jung, D.-W., Kim, W.-H., and Williams, D. R. (2014). Chemical genetics and its application to moonlighting in glycolytic enzymes. Biochem. Soc. Trans. 42, 1756-1761. doi:10.1042/B ST20140201.

100. Kapranov, P., and St Laurent, G. (2012). Dark Matter RNA: Existence, Function, and Controversy. Front. Genet. 3, 60. doi:10.3389/fgene.2012.00060.

101. Karlin, S., Campbell, A. M., and Mrazek, J. (1998). Comparative DNA analysis across diverse genomes. Annu. Rev. Genet. 32, 185-225. doi:10.1146/annurev.genet.32.1.185.

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

Kawaguchi, R., and Bailey-Serres, J. (2005). mRNA sequence features that contribute to translational regulation in Arabidopsis. Nucleic Acids Res. 33, 955-965. doi:10.1093/nar/gki240.

Kawakatsu, T., and Takaiwa, F. (2010). Cereal seed storage protein synthesis: fundamental processes for recombinant protein production in cereal grains. Plant Biotechnol. J. 8, 939-953. doi:10.1111/j.1467-7652.2010.00559.x. Keese, P. K., and Gibbs, A. (1992). Origins of genes: "big bang" or continuous creation? Proc. Natl. Acad. Sci. U. S. A. 89, 9489-9493.

Kim, D.-S., Cho, C.-Y., Huh, J.-W., Kim, H.-S., and Cho, H.-G. (2009). EVOG: a database for evolutionary analysis of overlapping genes. Nucleic Acids Res. 37, D698-702. doi:10.1093/nar/gkn813.

Kim, N. R., Hong, J. S., Song, Y. S., Chung, B. N., Park, J. W., and Ryu, K. H. (2012). The complete genome sequence of a member of a new species of tobamovirus (rattail cactus necrosis-associated virus) isolated from Aporcactus flagelliformis. Arch. Virol. 157, 185-187. doi:10.1007/s00705-011-1142-5.

Kodzius, R., Kojima, M., Nishiyori, H., Nakamura, M., Fukuda, S., Tagami, M., et al. (2006). CAGE: cap analysis of gene expression. Nat. Methods 3, 211-222. doi:10.1038/nmeth0306-211.

Komarova, T. V., Kosorukov, V. S., Frolova, O. Y., Petrunia, I. V., Skrypnik, K. A., Gleba, Y. Y., et al. (2011). Plant-Made Trastuzumab (Herceptin) Inhibits HER2/Neu+ Cell Proliferation and Retards Tumor Growth. PLOS ONE 6, e17541. doi:10.1371/journal.pone.0017541.

Kong, L., Zhang, Y., Ye, Z.-Q., Liu, X.-Q., Zhao, S.-Q., Wei, L., et al. (2007). CPC:

assess the protein-coding potential of transcripts using sequence features and support

vector machine. Nucleic Acids Res. 35, W345-349. doi:10.1093/nar/gkm391.

Kozak, M. (1986). Point mutations define a sequence flanking the AUG initiator codon

that modulates translation by eukaryotic ribosomes. Cell 44, 283-292.

Kozak, M. (1987). An analysis of 5'-noncoding sequences from 699 vertebrate

messenger RNAs. Nucleic Acids Res. 15, 8125-8148.

Krakauer, D. C. (2000). Stability and evolution of overlapping genes. Evol. Int. J. Org. Evol. 54, 731-739.

Krug, K., Nahnsen, S., and Macek, B. (2011). Mass spectrometry at the interface of proteomics and genomics. Mol. Biosyst. 7, 284-291. doi:10.1039/c0mb00168f. Kumar, A. (2009). An overview of nested genes in eukaryotic genomes. Eukaryot. Cell 8, 1321-1329. doi:10.1128/EC.00143-09.

Ladoukakis, E., Pereira, V., Magny, E. G., Eyre-Walker, A., and Couso, J. P. (2011). Hundreds of putatively functional small open reading frames in Drosophila. Genome Biol. 12, R118. doi: 10.1186/gb-2011-12-11-r118.

Laemmli, U. K. (1970). Cleavage of structural proteins during the assembly of the head of bacteriophage T4. Nature 227, 680-685.

Lander, E. S., Linton, L. M., Birren, B., Nusbaum, C., Zody, M. C., Baldwin, J., et al. (2001). Initial sequencing and analysis of the human genome. Nature 409, 860-921. doi:10.1038/35057062.

Lartey, R. T., Voss, T. C., and Melcher, U. (1995). Completion of a cDNA sequence from a tobamovirus pathogenic to crucifers. Gene 166, 331-332. doi:10.1016/0378-1119(95)00674-5.

Lartey, R. T., Voss, T. C., and Melcher, U. (1996). Tobamovirus evolution: gene overlaps, recombination, and taxonomic implications. Mol. Biol. Evol. 13, 1327-1338. doi:10.1093/oxfordjournals.molbev.a025579.

Lauressergues, D., Couzigou, J.-M., Clemente, H. S., Martinez, Y., Dunand, C., Becard, G., et al. (2015). Primary transcripts of microRNAs encode regulatory peptides. Nature 520, 90-93. doi:10.1038/nature14346.

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

Law, G. L., Raney, A., Heusner, C., and Morris, D. R. (2001). Polyamine regulation of ribosome pausing at the upstream open reading frame of S-adenosylmethionine decarboxylase. J. Biol. Chem. 276, 38036-38043. doi:10.1074/jbc.M105944200. Lee, C., Lai, H.-L., Lee, Y.-C., Chien, C.-L., and Chern, Y. (2014). The A2A adenosine receptor is a dual coding gene: a novel mechanism of gene usage and signal transduction. J. Biol. Chem. 289, 1257-1270. doi:10.1074/jbc.M113.509059.

Levy, A., Zheng, J. Y., and Lazarowitz, S. G. (2013). The tobamovirus Turnip Vein Clearing Virus 30-kilodalton movement protein localizes to novel nuclear filaments to enhance virus infection. J. Virol. 87, 6428-6440. doi:10.1128/JVI.03390-12. Li, J., Brader, G., and Palva, E. T. (2008). Kunitz trypsin inhibitor: an antagonist of cell death triggered by phytopathogens and fumonisin b1 in Arabidopsis. Mol. Plant 1, 482495. doi:10.1093/mp/ssn013.

Liang, F., Holt, I., Pertea, G., Karamycheva, S., Salzberg, S. L., and Quackenbush, J. (2000). Gene index analysis of the human genome estimates approximately 120,000 genes. Nat. Genet. 25, 239-240. doi:10.1038/76126.

Lim, M. A., Hong, J. S., Song, Y. S., and Ryu, K. H. (2010). The complete genome sequence and genome structure of frangipani mosaic virus. Arch. Virol. 155, 1543-1546. doi:10.1007/s00705-010-0766-1.

Liu, L., Dilworth, D., Gao, L., Monzon, J., Summers, A., Lassam, N., et al. (1999). Mutation of the CDKN2A 5' UTR creates an aberrant initiation codon and predisposes to melanoma. Nat. Genet. 21, 128-132. doi:10.1038/5082.

Lykke-Andersen, J., and Bennett, E. J. (2014). Protecting the proteome: Eukaryotic cotranslational quality control pathways. J. Cell Biol. 204, 467-476. doi:10.1083/jcb.201311103.

Ma, J., Ward, C. C., Jungreis, I., Slavoff, S. A., Schwaid, A. G., Neveu, J., et al. (2014). Discovery of human sORF-encoded polypeptides (SEPs) in cell lines and tissue. J. Proteome Res. 13, 1757-1765. doi:10.1021/pr401280w.

Major, I. T., and Constabel, C. P. (2008). Functional analysis of the Kunitz trypsin inhibitor family in poplar reveals biochemical diversity and multiplicity in defense against herbivores. Plant Physiol. 146, 888-903. doi:10.1104/pp.107.106229. Maston, G. A., Evans, S. K., and Green, M. R. (2006). Transcriptional regulatory elements in the human genome. Annu. Rev. Genomics Hum. Genet. 7, 29-59. doi:10.1146/annurev.genom.7.080505.115623.

Matz, M., Shagin, D., Bogdanova, E., Britanova, O., Lukyanov, S., Diatchenko, L., et al. (1999). Amplification of cDNA ends based on template-switching effect and step-out PCR. Nucleic Acids Res. 27, 1558-1560.

Menschaert, G., Van Criekinge, W., Notelaers, T., Koch, A., Crappe, J., Gevaert, K., et al. (2013). Deep proteome coverage based on ribosome profiling aids mass spectrometry-based protein and peptide discovery and provides evidence of alternative translation products and near-cognate translation initiation events. Mol. Cell. Proteomics MCP 12, 1780-1790. doi:10.1074/mcp.M113.027540.

Mercer, T. R., and Mattick, J. S. (2013). Understanding the regulatory and transcriptional complexity of the genome through structure. Genome Res. 23, 1081-1088. doi:10.1101/gr.156612.113.

Mercer, T. R., Wilhelm, D., Dinger, M. E., Solda, G., Korbie, D. J., Glazov, E. A., et al. (2011). Expression of distinct RNAs from 3' untranslated regions. Nucleic Acids Res. 39, 2393-2403. doi:10.1093/nar/gkq1158.

Michel, A. M., Choudhury, K. R., Firth, A. E., Ingolia, N. T., Atkins, J. F., and Baranov, P. V. (2012). Observation of dually decoded regions of the human genome using ribosome profiling data. Genome Res. 22, 2219-2229. doi:10.1101/gr.133249.111.

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

Min, B. E., Chung, B. N., Kim, M. J., Ha, J. H., Lee, B. Y., and Ryu, K. H. (2006). Cactus mild mottle virus is a new cactus-infecting tobamovirus. Arch. Virol. 151, 13-21. doi:10.1007/s00705-005-0617-7.

Miras, M., Miller, W. A., Truniger, V., and Aranda, M. A. (2017). Non-canonical Translation in Plant RNA Viruses. Front. Plant Sci. 8, 494. doi:10.3389/fpls.2017.00494. Molina, C., and Grotewold, E. (2005). Genome wide analysis of Arabidopsis core promoters. BMC Genomics 6, 25. doi:10.1186/1471-2164-6-25.

Ni, T., Corcoran, D. L., Rach, E. A., Song, S., Spana, E. P., Gao, Y., et al. (2010). A paired-end sequencing strategy to map the complex landscape of transcription initiation. Nat. Methods 7, 521-527. doi:10.1038/nmeth.1464.

Noderer, W. L., Flockhart, R. J., Bhaduri, A., Diaz de Arce, A. J., Zhang, J., Khavari, P. A., et al. (2014). Quantitative analysis of mammalian translation initiation sites by FACS-seq. Mol. Syst. Biol. 10, 748.

Odell, J. T., Knowlton, S., Lin, W., and Mauvais, C. J. (1988). Properties of an isolated transcription stimulating sequence derived from the cauliflower mosaic virus 35S promoter. Plant Mol. Biol. 10, 263-272. doi:10.1007/BF00027403. Orr, H. T., Chung, M. Y., Banfi, S., Kwiatkowski, T. J., Servadio, A., Beaudet, A. L., et al. (1993). Expansion of an unstable trinucleotide CAG repeat in spinocerebellar ataxia type 1. Nat. Genet. 4, 221-226. doi:10.1038/ng0793-221.

Oyama, M., Itagaki, C., Hata, H., Suzuki, Y., Izumi, T., Natsume, T., et al. (2004).

Analysis of small human proteins reveals the translation of upstream open reading frames

of mRNAs. Genome Res. 14, 2048-2052. doi:10.1101/gr.2384604.

Oyama, M., Kozuka-Hata, H., Suzuki, Y., Semba, K., Yamamoto, T., and Sugano, S.

(2007). Diversity of translation start sites may define increased complexity of the human

short ORFeome. Mol. Cell. Proteomics MCP 6, 1000-1006. doi:10.1074/mcp.M600297-

MCP200.

Pan, Q., Shai, O., Lee, L. J., Frey, B. J., and Blencowe, B. J. (2008). Deep surveying of alternative splicing complexity in the human transcriptome by high-throughput sequencing. Nat. Genet. 40, 1413-1415. doi:10.1038/ng.259.

Pavesi, A., Magiorkinis, G., and Karlin, D. G. (2013). Viral proteins originated de novo by overprinting can be identified by codon usage: application to the "gene nursery" of Deltaretroviruses. PLoS Comput. Biol. 9, e1003162. doi:10.1371/journal.pcbi.1003162. Pearson, H. (2006). Genetics: what is a gene? Nature 441, 398-401. doi:10.1038/441398a.

Peremarti, A., Twyman, R. M., Gómez-Galera, S., Naqvi, S., Farré, G., Sabalza, M., et al. (2010). Promoter diversity in multigene transformation. Plant Mol. Biol. 73, 363-378. doi:10.1007/s 11103-010-9628-1.

Plessy, C., Bertin, N., Takahashi, H., Simone, R., Salimullah, M., Lassmann, T., et al. (2010). Linking promoters to functional transcripts in small samples with nanoCAGE and CAGEscan. Nat. Methods 7, 528-534. doi:10.1038/nmeth.1470.

Raabe, C. A., and Brosius, J. (2015). Does every transcript originate from a gene? Ann. N. Y. Acad. Sci. 1341, 136-148. doi:10.1111/nyas.12741.

Ribone, P. A., Capella, M., Arce, A. L., and Chan, R. L. (2017). A uORF represses the transcription factor AtHB1 in aerial tissues to avoid a deleterious phenotype. Plant Physiol., pp.01060.2017. doi:10.1104/pp.17.01060.

Ribrioux, S., Brüngger, A., Baumgarten, B., Seuwen, K., and John, M. R. (2008). Bioinformatics prediction of overlapping frameshifted translation products in mammalian transcripts. BMC Genomics 9, 122. doi:10.1186/1471-2164-9-122. Rogic, S., Mackworth, A. K., and Ouellette, F. B. (2001). Evaluation of gene-finding programs on mammalian sequences. Genome Res. 11, 817-832. doi:10.1101/gr.147901. Ronsin, C., Chung-Scott, V., Poullion, I., Aknouche, N., Gaudin, C., and Triebel, F. (1999). A non-AUG-defined alternative open reading frame of the intestinal carboxyl

esterase mRNA generates an epitope recognized by renal cell carcinoma-reactive tumor-infiltrating lymphocytes in situ. J. Immunol. Baltim. Md 1950 163, 483-490.

156. Roudnicky, F., Yoon, S. Y., Poghosyan, S., Schwager, S., Poyet, C., Vella, G., et al. (2018). Alternative transcription of a shorter, non-anti-angiogenic thrombospondin-2 variant in cancer-associated blood vessels. Oncogene. doi:10.1038/s41388-018-0129-z.

157. Saarikoski, P., Clapham, D., and von Arnold, S. (1996). A wound-inducible gene from Salix viminalis coding for a trypsin inhibitor. PlantMol. Biol. 31, 465-478.

158. Saha, D., Podder, S., and Ghosh, T. C. (2016). Overlapping Regions in HIV-1 Genome Act as Potential Sites for Host-Virus Interaction. Front. Microbiol. 7, 1735. doi:10.3389/fmicb.2016.01735.

159. Sanna, C. R., Li, W.-H., and Zhang, L. (2008). Overlapping genes in the human and mouse genomes. BMC Genomics 9, 169. doi:10.1186/1471-2164-9-169.

160. Schepetilnikov, M., and Ryabova, L. A. (2017). Auxin Signaling in Regulation of Plant Translation Reinitiation. Front. Plant Sci. 8, 1014. doi:10.3389/fpls.2017.01014.

161. Sesma, A., Castresana, C., and Castellano, M. M. (2017). Regulation of Translation by TOR, eIF4E and eIF2a in Plants: Current Knowledge, Challenges and Future Perspectives. Front. Plant Sci. 8, 644. doi:10.3389/fpls.2017.00644.

162. Shabalina, S. A., Ogurtsov, A. Y., Spiridonov, A. N., Novichkov, P. S., Spiridonov, N. A., and Koonin, E. V. (2010). Distinct Patterns of Expression and Evolution of Intronless and Intron-Containing Mammalian Genes. Mol. Biol. Evol. 27, 1745-1749. doi:10.1093/molbev/msq086.

163. Shindyapina, A. V., Petrunia, I. V., Komarova, T. V., Sheshukova, E. V., Kosorukov, V. S., Kiryanov, G. I., et al. (2014). Dietary methanol regulates human gene activity. PloS One 9, e102837. doi:10.1371/journal.pone.0102837.

164. Simon-Loriere, E., Holmes, E. C., and Pagan, I. (2013). The effect of gene overlapping on the rate of RNA virus evolution. Mol. Biol. Evol. 30, 1916-1928. doi:10.1093/molbev/mst094.

165. Skarshewski, A., Stanton-Cook, M., Huber, T., Al Mansoori, S., Smith, R., Beatson, S. A., et al. (2014). uPEPperoni: an online tool for upstream open reading frame location and analysis of transcript conservation. BMC Bioinformatics 15, 36. doi:10.1186/1471-2105-15-36.

166. Slavoff, S. A., Mitchell, A. J., Schwaid, A. G., Cabili, M. N., Ma, J., Levin, J. Z., et al.

(2013). Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nat. Chem. Biol. 9, 59-64. doi:10.1038/nchembio.1120.

167. Sleator, R. D. (2010). An overview of the current status of eukaryote gene prediction strategies. Gene 461, 1-4. doi:10.1016/j.gene.2010.04.008.

168. Somers, J., Poyry, T., and Willis, A. E. (2013). A perspective on mammalian upstream open reading frame function. Int. J. Biochem. Cell Biol. 45, 1690-1700. doi:10.1016/j.biocel.2013.04.020.

169. Song, Y. S., Min, B. E., Hong, J. S., Rhie, M. J., Kim, M. J., and Ryu, K. H. (2006). Molecular evidence supporting the confirmation of maracuja mosaic virus as a species of the genus Tobamovirus and production of an infectious cDNA transcript. Arch. Virol. 151, 2337-2348. doi:10.1007/s00705-006-0823-y.

170. Song, Y. S., and Ryu, K. H. (2011). The complete genome sequence and genome structure of passion fruit mosaic virus. Arch. Virol. 156, 1093-1095. doi:10.1007/s00705-011-0961-8.

171. Studtmann, K., Olschlager-Schutt, J., Buck, F., Richter, D., Sala, C., Bockmann, J., et al.

(2014). A non-canonical initiation site is required for efficient translation of the dendritically localized Shank1 mRNA. PloS One 9, e88518. doi:10.1371/journal.pone.0088518.

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

Sudmant, P. H., Mallick, S., Nelson, B. J., Hormozdiari, F., Krumm, N., Huddleston, J., et al. (2015). Global diversity, population stratification, and selection of human copy number variation. Science, aab3761. doi:10.1126/science.aab3761. Suh, M. C., Oh, S.-K., Kim, Y.-C., Pai, H.-S., and Choi, D. (2003). Expression of a novel tobacco gene, NgCDM1, is preferentially associated with pathogen-induced cell death. Physiol. Mol. Plant Pathol. 62, 227-235. doi:10.1016/S0885-5765(03)00049-3. Takahashi, N., Hitotsuya, H., Hanzawa, H., Arata, Y., and Kurihara, Y. (1990). Structural study of asparagine-linked oligosaccharide moiety of taste-modifying protein, miraculin. J. Biol. Chem. 265, 7793-7798.

Tanaka, M., Sotta, N., Yamazumi, Y., Yamashita, Y., Miwa, K., Murota, K., et al.

(2016). The Minimum Open Reading Frame, AUG-Stop, Induces Boron-Dependent Ribosome Stalling and mRNA Degradation. Plant Cell 28, 2830-2849. doi:10.1105/tpc.16.00481.

Tattini, L., D'Aurizio, R., and Magi, A. (2015). Detection of Genomic Structural Variants from Next-Generation Sequencing Data. Front. Bioeng. Biotechnol. 3, 92. doi:10.3389/fbioe.2015.00092.

Terenin, I. M., Smirnova, V. V., Andreev, D. E., Dmitriev, S. E., and Shatsky, I. N.

(2017). A researcher's guide to the galaxy of IRESs. Cell. Mol. Life Sci. CMLS 74, 14311455. doi:10.1007/s00018-016-2409-5.

Tian, W.-M., Peng, S.-Q., Wang, X.-C., Shi, M.-J., Chen, Y.-Y., and Hu, Z.-H. (2007). Vegetative storage protein in Litchi chinensis, a subtropical evergreen fruit tree, possesses trypsin inhibitor activity. Ann. Bot. 100, 1199-1208. doi:10.1093/aob/mcm216. Töpfer, R., Matzeit, V., Gronenborn, B., Schell, J., and Steinbiss, H. H. (1987). A set of plant expression vectors for transcriptional and translational fusions. Nucleic Acids Res. 15, 5890.

Tran, M. K., Schultz, C. J., and Baumann, U. (2008). Conserved upstream open reading

frames in higher plants. BMC Genomics 9, 361. doi:10.1186/1471-2164-9-361.

Ueda, M., Horibata, Y., Shono, M., Misumi, Y., Oshima, T., Su, Y., et al. (2011).

Clinicopathological features of senile systemic amyloidosis: an ante- and post-mortem

study. Mod. Pathol. 24, 1533-1544. doi:10.1038/modpathol.2011.117.

Uetz, P., Rajagopala, S. V., Dong, Y.-A., and Haas, J. (2004). From ORFeomes to

Protein Interaction Maps in Viruses. Genome Res. 14, 2029-2033.

doi:10.1101/gr.2583304.

Van Damme, P., Gawron, D., Van Criekinge, W., and Menschaert, G. (2014). N-terminal proteomics and ribosome profiling provide a comprehensive view of the alternative translation initiation landscape in mice and men. Mol. Cell. Proteomics MCP 13, 12451261. doi:10.1074/mcp.M113.036442.

Vanderperre, B., Lucier, J.-F., Bissonnette, C., Motard, J., Tremblay, G., Vanderperre, S., et al. (2013). Direct detection of alternative open reading frames translation products in human significantly expands the proteome. PloS One 8, e70698. doi:10.1371/journal.pone.0070698.

Vanderperre, B., Lucier, J.-F., and Roucou, X. (2012). HAltORF: a database of predicted out-of-frame alternative open reading frames in human. Database J. Biol. Databases Curation 2012, bas025. doi:10.1093/database/bas025.

Vanderperre, B., Staskevicius, A. B., Tremblay, G., McCoy, M., O'Neill, M. A., Cashman, N. R., et al. (2011). An overlapping reading frame in the PRNP gene encodes a novel polypeptide distinct from the prion protein. FASEB J. Off. Publ. Fed. Am. Soc. Exp. Biol. 25, 2373-2386. doi:10.1096/fj.10-173815.

Vattem, K. M., and Wek, R. C. (2004). Reinitiation involving upstream ORFs regulates ATF4 mRNA translation in mammalian cells. Proc. Natl. Acad. Sci. U. S. A. 101, 1126911274. doi:10.1073/pnas.0400541101.

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

Vaughn, J. N., Ellingson, S. R., Mignone, F., and Arnim, A. von (2012). Known and novel post-transcriptional regulatory sequences are conserved across plant families. RNA N. Y. N 18, 368-384. doi:10.1261/rna.031179.111.

Vavilov, N. I., and Dorofeev, V. F. (1992). Origin and Geography of Cultivated Plants. Cambridge University Press.

Wang, R. F., Robbins, P. F., Kawakami, Y., Kang, X. Q., and Rosenberg, S. A. (1995).

Identification of a gene encoding a melanoma tumor antigen recognized by HLA-A31-

restricted tumor-infiltrating lymphocytes. J. Exp. Med. 181, 799-804.

Wang, R. F., and Rosenberg, S. A. (1996). Human tumor antigens recognized by T

lymphocytes: implications for cancer therapy. J. Leukoc. Biol. 60, 296-309.

Wang, W., Vinocur, B., and Altman, A. (2003). Plant responses to drought, salinity and

extreme temperatures: towards genetic engineering for stress tolerance. Planta 218, 1-14.

doi:10.1007/s00425-003-1105-5.

Waterhouse, P. M., and Hellens, R. P. (2015). Plant biology: Coding in non-coding RNAs. Nature 520, 41-42. doi:10.1038/nature14378.

Wen, Y., Liu, Y., Xu, Y., Zhao, Y., Hua, R., Wang, K., et al. (2009). Loss-of-function mutations of an inhibitory upstream ORF in the human hairless transcript cause Marie Unna hereditary hypotrichosis. Nat. Genet. 41, 228-233. doi:10.1038/ng.276. Wethmar, K., Smink, J. J., and Leutz, A. (2010). Upstream open reading frames: molecular switches in (patho)physiology. BioEssays News Rev. Mol. Cell. Dev. Biol. 32, 885-893. doi:10.1002/bies.201000037.

Wiestner, A., Schlemper, R. J., van der Maas, A. P., and Skoda, R. C. (1998). An activating splice donor mutation in the thrombopoietin gene causes hereditary thrombocythaemia. Nat. Genet. 18, 49-52. doi:10.1038/ng0198-49. Xiping, Z., Qingshan, W., Shuai, Z., Hongjian, Y., and Xiaowen, D. (2017). A summary of relationships between alternative splicing and breast cancer. Oncotarget 8, 5198651993. doi:10.18632/oncotarget.17727.

Xu, G., Greene, G. H., Yoo, H., Liu, L., Marqués, J., Motley, J., et al. (2017). Global translational reprogramming is a fundamental layer of immune regulation in plants. Nature. doi:10.1038/nature22371.

Xu, G., Yuan, M., Ai, C., Liu, L., Zhuang, E., Karapetyan, S., et al. (2017). uORF-mediated translation allows engineered plant disease resistance without fitness costs. Nature advance online publication. doi:10.1038/nature22372.

Xu, H., Wang, P., Fu, Y., Zheng, Y., Tang, Q., Si, L., et al. (2010). Length of the ORF,

position of the first AUG and the Kozak motif are important factors in potential dual-

coding transcripts. Cell Res. 20, 445-457. doi:10.1038/cr.2010.25.

Yan, H., Dai, X., Feng, K., Ma, Q., and Yin, T. (2016). IGDD: a database of intronless

genes in dicots. BMC Bioinformatics 17, 289. doi:10.1186/s12859-016-1148-9.

Yang, J. L., Zhu, X. F., Zheng, C., Zhang, Y. J., and Zheng, S. J. (2011). Genotypic

differences in Al resistance and the role of cell-wall pectin in Al exclusion from the root

apex in Fagopyrum tataricum. Ann. Bot. 107, 371-378. doi:10.1093/aob/mcq254.

Yu, P., Ma, D., and Xu, M. (2005). Nested genes in the human genome. Genomics 86,

414-422. doi:10.1016/j.ygeno.2005.06.008.

Zhang, C., Gschwend, A. R., Ouyang, Y., and Long, M. (2014). Evolution of Gene Structural Complexity: An Alternative-Splicing-Based Model Accounts for Intron-Containing Retrogenes. Plant Physiol. 165, 412-423. doi:10.1104/pp.113.231696. Zhang, Z., and Dietrich, F. S. (2005). Identification and characterization of upstream open reading frames (uORF) in the 5' untranslated regions (UTR) of genes in Saccharomyces cerevisiae. Curr. Genet. 48, 77-87. doi:10.1007/s00294-005-0001-x. Zhou, D., Palam, L. R., Jiang, L., Narasimhan, J., Staschke, K. A., and Wek, R. C. (2008). Phosphorylation of eIF2 directs ATF5 translational control in response to diverse stress conditions. J. Biol. Chem. 283, 7064-7073. doi:10.1074/jbc.M708530200.

207. Zhouravleva, G. A. (2015). The birth and death of genes. Russ. J. Genet. 51, 9-21. doi:10.1134/S1022795415010159.

208. Zvereva, S. D., Ivanov, P. A., Skulachev, M. V., Klyushin, A. G., Dorokhov, Y. L., and Atabekov, J. G. (2004). Evidence for contribution of an internal ribosome entry site to intercellular transport of a tobamovirus. J. Gen. Virol. 85, 1739-1744. doi:10.1099/vir.0.79792-0.

209. Комарова, Т. В., Шварц, А. М., Макаров, А. А., и Дорохов, Ю. Л. (2012). Интенсивный синтез зеленого флуоресцирующего белка ведет к формированию Y-тел включения в растительной клетке. Биохимия 77, 742-749.

210. Маниатис Т. и др., 1984 Available at: http://medbiol.ru/medbiol/oncogenetics/000aa1ce.htm [Accessed March 6, 2018].

211. Хазигалеева, Р. А., and Фесенко, И. А. (2017). Биологически Активные Пептиды, Кодируемые Короткими Открытыми Рамками Считывания. Биоорганическая Химия 43, 588-597.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.