Изучение точек разладки триплетной периодичности последовательностей ДНК, кодирующих белки тема диссертации и автореферата по ВАК РФ 03.01.09, кандидат наук Суворова, Юлия Максимовна

  • Суворова, Юлия Максимовна
  • кандидат науккандидат наук
  • 2015, Москва
  • Специальность ВАК РФ03.01.09
  • Количество страниц 135
Суворова, Юлия Максимовна. Изучение точек разладки триплетной периодичности последовательностей ДНК, кодирующих белки: дис. кандидат наук: 03.01.09 - Математическая биология, биоинформатика. Москва. 2015. 135 с.

Оглавление диссертации кандидат наук Суворова, Юлия Максимовна

Оглавление

ВВЕДЕНИЕ

Актуальность проблемы

Степень научной разработанности проблемы

Цель работы

Задачи исследования

Личный вклад автора

Научная новизна

Теоретическая и практическая значимость работы

Положения, выносимые на защиту

Методология и методы исследования

Достоверность научных результатов

Апробация работы

Публикации по теме диссертации

Глава 1. ОБЗОР ЛИТЕРАТУРЫ

1.1 Определения спектра научных работ для обзора

1.2 Краткий обзор задач и методов компьютерного анализа последовательностей ДНК

1.2.1 Методы анализа последовательностей, не основанные на выравниваниях

1.3 Определение периодических последовательностей

1.4 Методы исследования триплетной периодичности

1.5 Гипотезы, объясняющие свойство триплетной периодичности

1.6 Применение свойства триплетной периодичности в программном обеспечении для анализа нуклеотидных последовательностей

1.7 Образование гибридных генов в результате объединения или вставки кодирующих последовательностях генов

1.8. Методы исследования гибридных генов

1.9. Математические методы, использующие точки разладки для изучения биологических последовательностей

1.10. Выводы из литературного обзора

Глава 2. МАТЕРИАЛЫ И МЕТОДЫ

2.1. Поиск точек разладки триплетной периодичности в нуклеотидных последовательностях

2.1.1. Математические принципы, лежащие в основе алгоритмов поиска точек разладки

2.1.2. Мера различия частотных матриц

2.1.3. Создание искусственных последовательностей

2.1.4. Уровень значимости меры различия частотных матриц

2.1.5. Алгоритм поиска точек разладки

2.2. Поиск парных точек разладки в нуклеотидных последовательностях

2.2.1. Определение парных точек разладки

2.2.2. Мера подобия матриц триплетной периодичности

2.2.3. Поиск парных точек разладки в последовательности

2.2.4. Разделение случаев одинарных и парных точек разладки

2.2.5. Выбор уровня значимости для поиска парных точек разладки

2.2.6. Алгоритм поиска парных точек разладки

2.2.7. Построение контурных диаграмм различия триплетной периодичности

2.3. Изучение однородности триплетной периодичностью

2.3.1. Модели и гипотезы распределения триплетной периодичности

2.3.2. Исследование распределения триплетной периодичностью внутри генома

2.3.3. Распределение различий триплетной периодичностью между геномами

2.3.4. Изучение геномной специфичности триплетной периодичности

2.4. Программная реализация используемых алгоритмов

Глава 3. РЕЗУЛЬТАТЫ

3.1. Результаты поиска точек разладки триплетной периодичности

3.1.1. Результаты анализа искусственных последовательностей

3.1.2. Результаты обработки банка данных KEGG

3.1.3. Поиск подобий, подтверждающих склейку, в последовательностях с точками разладки

3.1.4. Изучение влияния аминокислотных повторов на точки разладки триплетной периодичности

3.1.5. Исключение из результатов высокогомологичных последовательностей

3.1.6. Анализ функций кодируемых белков

3.1.7. Сравнение с границами доменов и известными склейками

3.2. Результаты поиска парных точек разладки триплетной периодичности

3.2.1. Результаты обработки искусственных последовательностей

3.2.2. Результат поиска парных и одинарных точек разладки

3.2.3. Анализ последовательностей с парными точками разладки

3.3. Распределение триплетной периодичности бактериальных геномов

3.3.1. Распределение триплетной периодичности внутри геномов

3.3.2. Распределение триплетной периодичности между геномами

3.3.3. Попарная классификация геномов по типу триплетной периодичности

3.3.4. Обсуждение результатов изучения распределение триплетной периодичности бактериальных геномов

ЗАКЛЮЧЕНИЕ

ВЫВОДЫ

СПИСОК ЛИТЕРАТУРЫ

Рекомендованный список диссертаций по специальности «Математическая биология, биоинформатика», 03.01.09 шифр ВАК

Введение диссертации (часть автореферата) на тему «Изучение точек разладки триплетной периодичности последовательностей ДНК, кодирующих белки»

ВВЕДЕНИЕ

Наступившая "постгеномная" эра ассоциируется с продолжением экспоненциального роста объемов геномных данных и с увеличением значимости биоинформатических методов. Новый рост данных в первую очередь связан с усовершенствованием технологий секвенирования и появлением секвинаторов новейшего поколения, которые обеспечивают высокую производительность на фоне значительно сократившейся стоимости процесса чтения генетической информации. Благодаря этому банки данных биологических последовательностей, такие как GenBank [Benson и др., 2004], UniProt [Consortium, 2009], KEGG [Ogata и др., 1999] и другие достигли очень больших размеров. Объемы данных ежегодно добавляемых различными институтами и группами в эти базы данных растут. При этом скорость понимания смысла этих последовательностей пока значительно отстает от скорости их накопления. При таком потоке данных обработка их без использования компьютерных программ уже давно невозможна. По-прежнему потенциал последовательностей используется не в полной мере. Потому новые технологии секвенирования требуют создания новых методов дальнейшей обработки и хранения полученной информации. Это означает, что в настоящее время разработка новых методов извлечения информации из последовательностей является особенно, актуальной задачей.

Конечно, биохимические методы являются наиболее предпочтительными при анализе биологических последовательностей. Однако, они имеют высокую стоимость, требуют значительных временных затрат и могут быть направлены только на конкретные, тщательно выбранные цели. В то время как выбор таких целей, а также анализ результатов и выявление закономерностей давно стали задачами

компьютерных методов. Компьютерные методы позволяют использовать достижения компьютерной промышленности (в том числе высокопроизводительные суперкомпьютеры) для решения биологических задач (in silico) [Ventura Di и др., 2006]. К одним из основных типов задач компьютерного анализа последовательностей ДНК относятся исследования, направленные на изучение происхождения генов. Понимание механизмов эволюции последовательностей может дать ключ к созданию новых искусственных белков.

В настоящее время среди методов компьютерного анализа последовательностей основой (стандартом де-факто) являются методы анализа последовательностей, основанные на выравниваниях. Такие методы для некоторого исследуемого гена находят наиболее похожую последовательность (или семейство последовательностей) и на основании их сходства делают выводы об эволюционных и биологических свойствах исследуемой последовательности. Методы такого типа разрабатываются уже довольно долгое время, их точность и скорость работы достигли высоких показателей и постоянно совершенствуются. Однако эти методы не лишены недостатков и основной недостаток заключается в том, что если для исследуемой последовательности не удается найти "похожую", то такие методы оказываются бессильны. В последнее время все чаще появляются работы, посвященные созданию альтернативных методов анализа последовательностей, не основанных на выравниваниях (так называемые, alignment-free методы)[Vinga, Almeida, 2003].

Изучение однородности последовательностей ДНК и разделение последовательностей на однородные участки в соответствии с определенными свойствами проводится достаточно давно. Примером

тому может быть выделение изохор, отделение кодирующих участков от некодирующих и так далее. Такие методы используют статистические свойства последовательностей, используются также методы, основанные на выравнивании. Параллельно с этим с середины 1950-х годов развивалась, так называемая, теория точек разладки {change-point theoiy), впервые возникшая в контексте контроля качества на производстве. Задача о разладке состоит в определения позиции изменения статистических свойств последовательности или ряда. Такие изменения отражают внутренне изменения исследуемого процесса, детектируемые математическими методами. Позже некоторые из этих методов были также применены к последовательностям ДНК [Braun, Müller, 1998]. Большинство методов, изучающих однородность последовательностей ДНК, работает на уровне геномов. В то же время возможно и существование неоднородностей на уровне отдельных генов, на что указывает сложная структура многих кодирующих последовательностей.

Свойство триплетной периодичности известно уже довольно долгое время [Konopka и др., 1987; Shepherd, 1981а; Trifonov, Sussman, 1980; Tsonis, Elsner, Tsonis, 1991]. Триплетная периодичность характеризуются неравномерным распределением символов в различных позициях кодонов. Эта периодичность отсутствует в некодирующих областях генома и интронах. За время изучения феномена триплетной периодичности были разработаны различные математические методы для ее исследования и сложилось несколько гипотез, объясняющих ее существование [Herzel и др., 1998]. Различные вероятности нуклеотидов в различных позициях кодонов были предложены в работе [Gutiérrez, Oliver, Marín, 1994] в качестве математического обоснования триплетной периодичности. Триплетная

периодичность нашла свое применение в компьютерных программах анализа последовательностей ДНК. В основном она используется для отделения кодирующих последовательностей от некодирующих, например, в работе [ТюкеИ, 1982].

Триплетная периодичность может использоваться для изучения однородности на уровне отдельной кодирующей последовательности. Точки разладки триплетной периодичности соответствующие позициям изменения этого свойства в последовательности могут отражать эволюционную структуру данной последовательности. Исследование, посвященное классификации триплетной периодичности, |Тгепке1, Когс^коу, 2008] показало, что триплетная периодичность большинства известных белок-кодирующих генов может быть отнесена к одному из примерно 2 500 классов. Очевидно, что полученное значения числа классов намного меньше общего числа известных генов. Этот факт позволяет предположить, что если некоторый ген был сформирован, например, в результате объединения последовательностей двух разных генов, триплетная периодичность которых значительно отличалась, то на границе будет присутствовать точка разладки триплетной периодичности.

Актуальность проблемы

Вопрос о происхождении современных генов и белков исследуется уже много лет и является одним из фундаментальных вопросов. В процессе эволюции геном в целом и кодирующие последовательности в частности подвергаются различным типам мутаций: таким как вставки и делеции (как отдельных символов, так и довольно протяженных участков), а также замены одних символов на другие. В случае, если изменения затрагивают кодирующие участки, это может привести к

различным исходам: мутация может оказаться незначительной и не изменит функцию белка; или напротив мутация может оказаться летальной для данного гена - белок окажется неспособным к выполнению своей функции; возникновение стоп-кодонов в последовательности приведет к образованию, так называемых, псевдогенов. И наконец - наиболее интересный вариант - появление в результате мутации белка с новыми свойствами.

Считается что, на определенном этапе эволюции дальнейшее усложнение происходит не за счет создания новых, а за счет комбинации более мелких существующих элементов. Различные виды хромосомных перестроек могут приводить к образованию так называемых гибридных генов, состоящих из частей ранее независимых генов. Гибридные гены могут образоваться в результате объединения (склейки) двух ранее независимых генов или их частей (далее будем называть такие гены склеенными) или посредством вставки одного гена или его фрагмента внутрь другого.

Изучение нуклеотидных последовательностей в настоящее время очень актуально, так как дает возможность получить принципиально новую информацию. В качестве такой новой информации могут выступать данные о местах склеек генов или их фрагментов, которые были осуществлены в ходе эволюции. Программы, основанные на выравниваниях, которые в настоящее время, используются в качестве основного инструмента для компьютерного предсказания мест склеек, имеют свои ограничения. Эти ограничения, прежде всего, связанны с поиском предковых последовательностей в банках данных из которых могли образоваться гибридные гены. Предковые последовательности могут отсутствовать в базе данных либо потому, что еще не были секвенированы, либо потому, что были утеряны в процессе эволюции.

Кроме того, они могли настолько измениться в процессе эволюции, что не опознаются существующими программами. Потому дополнительные методы, которые могли бы предсказывать места склеек генов или фрагментов генов без использования дополнительной информации в виде баз данных, имеют большое значение.

В качестве методов для поиска мест склеек можно предложить методы обнаружения точек разладки триплетной периодичности в нуклеотидных последовательностях. Задача о разладке состоит в нахождении точки изменения статистических свойств последовательности. Такие изменения отражают внутренне изменения исследуемого процесса, детектируемые математическими методами. Впервые они были разработаны для контроля качества на производстве. Позже некоторые из этих методов были применены к последовательностям ДНК. Примером тому может быть выделение изохор, отделение кодирующих участков от некодирующих и т.д. Все эти методы используют статистические свойства последовательностей без использования выравниваний. Большинство работ по поиску точек разладки посвящены изучению неоднородности последовательностей ДНК на уровне геномов. В то же время существование неоднородностей возможно и на уровне отдельных генов, так как в генах существует так называемая триплетная периодичность. Она отсутствует в некодирующих областях генома и интронах. Триплетная периодичность характеризуются неравномерным распределением нуклеотидов в различных позициях кодонов. Точки разладки триплетной периодичности в последовательности, могут отражать эволюционные изменения, приведшие к формированию данной последовательности. Исследование, посвященное классификации триплетной периодичности, показало, что триплетная периодичность большинства генов может быть

отнесена к одному из примерно 2500 классов. Это позволяет предположить, что если некоторый ген был сформирован, в результате вставки или склейки двух последовательностей, триплетная периодичность которых значительно отличалась, то на границе будет присутствовать точка разладки триплетной периодичности. В этом месте статистические свойства триплетной периодичности будут резко меняться. Это означает, что можно разработать математические алгоритмы по поиску таких точек разладки в генах. Найденные таким образом точки разладки триплетной периодичности будут предсказывать существование в местах разладки склеек генов или их фрагментов. Эти данные могут помочь в выстраивании картины эволюционной изменчивости генов. Полученные таким образом данные могут быть применены для создания искусственных гибридных генов.

Степень научной разработанности проблемы.

Уже несколько десятилетий известно, что последовательности ДНК, кодирующие белки, обладают свойством триплетной периодичности. За это время разработано большое число методов для ее определения, такие как корреляционные методы, методы, основанные на динамическом программировании, преобразовании Фурье, вэйвлет-преобразованиях, информационные методы и некоторые другие. Триплетная периодичность нашла свое применение в компьютерных программах анализа последовательностей ДНК, таких как в программы для поиска генов эукариогических и прокариотических геномов. Все разработанные методы для поиска точек разладки в генах основаны на установление факта наличия или отсутствия триплетной периодичности на данном участке последовательности, а не на определение различия триплетной периодичности двух участков. Математические методы по сравнению триплетной периодичности у отдельных районов генов ранее

не были разработаны. Поэтому для поиска точек разладки требуется разработать метод, позволяющий изучать изменения триплетной периодичности вдоль некоторой последовательности. Также ранее не было ничего известно о существовании точек разладки триплетной периодичности в реальных последовательностях генов.

Цель работы.

Целью работы является разработка новых математических

алгоритмов для поиска точек разладки в нуклеотидных

последовательностях генов и проведение поиска и изучения точек

разладки триплетной периодичности в кодирующих последовательностях различных генов.

Задачи исследования.

Для достижения поставленной цели был определен следующий список задач:

1. Разработка математического метода для поиска точек разладки триплетной периодичности в кодирующих последовательностях ДНК с учетом возможного сдвига рамки считывания

2. Разработка и тестирование программного обеспечения, реализующего метод поиска точек разладки триплетной периодичности в кодирующих последовательностях ДНК с учетом возможного сдвига рамки считывания.

3. Обработка при помощи разработанного программного обеспечения кодирующих последовательностей банка данных КЕОС.

4. Изучение найденных случаев точек разладки триплетной периодичности посредством поиска подобий в банке данных 8\у188-Рго1:.

5. Разработка метода поиска парных точек разладки триплетной периодичности в кодирующих последовательностях ДНК с учетом возможных сдвигов рамки считывания.

6. Разработка и тестирование программного обеспечения, реализующего метода поиска парных точек разладки триплетной периодичности в кодирующих последовательностях ДНК с учетом возможных сдвигов рамки считывания

7. Изучение при помощи разработанного метода поиска парных точек разладки триплетной периодичности кодирующих последовательностей 17 бактериальных геномов.

8. Исследование распределения триплетной периодичности генов внутри одного генома и генов, принадлежащих разным геномам. С целью оценки того, какой процент генов при склейке генов или их фрагментов может привести к появлению точки разладки триплетной периодичности.

Личный вклад автора

1. Разработка алгоритмов поиска одинарных и парных точек разладки триплетной периодичности в кодирующих последовательностях ДНК.

2. Разработка и тестирование программного обеспечения, реализующего алгоритмы поиска точек разладки в кодирующих последовательностях ДНК.

4. Отладка параметров работы программ поиска точек разладки триплетной периодичности при помощи имитационного моделирования.

3. Создание версии программы поиска одинарных точек разладки триплетной периодичности в кодирующих последовательностях ДНК для параллельной обработки на вычислительном кластере. Обработка реальных биологических последовательностей из банка данных КБвв.

4. Анализ связи найденных случаев точек разладки триплетной периодичности с различными биологическими причинами с использованием известных программ.

5. Разработка и тестирование программного комплекса для сравнения триплетной периодичности генов, принадлежащих одному геному, и генов, принадлежащих разным геномам.

Научная новизна

Данная работа обладает научной новизной, так как в ее рамках:

1. Впервые разработан математический поиска одинарных точек разладки триплетной периодичности в кодирующих последовательностях ДНК с учетом возможного сдвига рамки считывания и реализующее его программное обеспечение.

2. Впервые разработан алгоритм поиска парных точек разладки в кодирующих последовательностях ДНК и реализующее его программное обеспечение.

3. Впервые показано существование множества одинарных и парных точек разладки триплетной периодичности как в генах прокариот, так и в генах эукариот.

4. Впервые проведено исследование распределения триплетной периодичности на множестве генов, принадлежащих одному геному, и разным геномам.

Теоретическая и практическая значимость работы

Теоретическое значение работы состоит в демонстрации того факта, что триплетная периодичность белок-кодирующих последовательностей ДНК неоднородна на протяжении одной последовательности и может содержать статистически значимые точки разладки, как одинарные, так и парные. Эти точки разладки указывают на возможность

существования склейки фрагментов ДНК в данном месте гена. Это означает, что разработанные методы имеют предсказательную функцию.

Практическое значение созданных алгоритмов, программного обеспечения и полученных результатов состоит в следующем. Разработан метод поиска одинарных и парных точек разладки триплетной периодичности кодирующих последовательностей ДНК и реализующее его оригинальное программное обеспечение. Исследование одинарных точек и парных точек разладки триплетной периодичности в кодирующих последовательностях ДНК может быть использовано для поиска генов, образованных в результате вставки или склейки. Исследование таких последовательностей может дать ключ к более глубокому пониманию эволюции генов. Новый метод поиска склеенных генов может дать информацию о том, как формируются новые белки в процессе эволюции и дать возможность для разработки новых методов создания искусственных ферментов. Возникает возможность объединения фрагментов генов в тех позициях, которые были уже использованы в ходе эволюции для создания гибридных генов. Специфичность триплетной периодичности к определенному геному может быть использована для поиска генов, появившихся в геноме в результате горизонтального переноса.

Положения, выносимые на защиту

Метод поиска одинарных точек разладки триплетной периодичности с учетом возможного сдвига рамки считывания в белок-кодирующих последовательностях ДНК.

Метод поиска парных точек разладки, на основании мер различия и подобия матриц триплетной периодичности с учетом возможного сдвига рамки считывания в белок-кодирующих последовательностях ДНК.

Исследование однородности триплетной периодичности генов, принадлежащих одному геному и генов, принадлежащих разным геномам.

Методология и методы исследования

Теоретические основы исследования составили научные труды широкого круга отечественных и зарубежных ученых в области анализа символьных последовательностей. В диссертационной работе для решения поставленных задач использовались следующие методы исследования: методы теории вероятностей, математической статистики, методы теории информации и методы математического моделирования.

Достоверность научных результатов

Достоверность полученных результатов основана на использовании методов математической статистики и тестировании разработанных алгоритмов с использованием модельных объектов с заранее известными свойствами. Достоверность также проверялась путем сравнения получепных результатов с результатами, полученными ранее как теоретическими, так и экспериментальными методами.

Апробация работы

Основные результаты, представленные в данной диссертационной работе, докладывались на следующих конференциях: международной конференции "Новые информационные технологии в медицине, биологии, фармакологии и экологии", Гурзуф, Украина. 2010; III и IV международных конференциях "Математическая биология и биоинформатика", Пущино, в 2010 и 2012 годах; Четвертой международной конференции для молодых ученых "Молекулярная биология: достижения и перспективы" Киев, Украина, 2011; Школе-конференции молодых ученых "Фундаментальная наука для

биотехнологии и медицииы-201 1" Москва, Россия; Конференции «Методы математической физики и математическое моделирование физических процессов», проводимой в рамках «Научной сессии НИЯУ МИФИ-2012» Москва, 2012; Средиземноморской конференции по встроенным вычислениям (МЕСО 2012), Бар, Черногория, 2012; Конференции, посвященной сложности генома, проводимой в рамках Европейской конференции по сложным системам, Брюссель, Бельгия, 2012 и межлабораторном семинаре Центра «Биоинженерия» РАН, Москва, 2015.

Публикации по теме диссертации

По материалам диссертации опубликовано 15 печатных работ, из них 5 работ - в рецензируемых научных изданиях и 10 - в материалах научных конференций.

Статьи в рецензируемых научных журналах:

1. Suvorova Y. М., Rudenko V. М., Korotkov E.V. Detection change points of triplet periodicity of gene // Gene. 2012. V. 491, P. 58-64.

2. Суворова Ю. M., Короткова M. А., Короткое E. В. Изучение точек разладки триплетной периодичности в нуклеотидиых последовательностях генов // Прикладная информатика. 2012. Т. 5. С. 75-89.

3. Суворова Ю. М., Короткое Е. В. Изучение геномной специфичности триплетной периодичности генов прокариот // Вестник НИЯУ МИФИ. 2014. Т. 3(2). С. 232-239.

4. Suvorova, Y. М., Korotkova М.А., Korotkov Е. V. Study of the Paired Change Points in Bacterial Genes // IEEE/ACM Trans Comput Biol Bioinform. 2014. V. 11(5) C. 955 - 964.

5. Suvorova Y. M., Korotkov E. V, Study of triplet periodicity differences inside and between genomes. // Statistical Applications in Genetics and Molecular Biology. 2015. Vol. 14 №2. C. 113-123.

Публикации в трудах конференций:

6. Суворова Ю.М., Короткое Е. В. Поиск склеенных генов в банке данных KEGG // Сборник трудов международной конференции "Новые информационные технологии в медицине, биологии, фармакологии и экологии". Гурзуф. 2010. С 138-139.

7. Суворова Ю. М., Коротков Е. В. Изучение склеенных генов в банке данных KEGG // Сборник трудов III международной конференции "Математическая биология и биоинформатика". Пущино. 2010. С 133134.

8. Suvorova Y. М., Korotkov Е. V. Detecting genes with triplet periodicity splicing // Proceed. The International Moscow Conference On Computational Molecular Biology (MCCMB' 11). Москва. 2011 P. 358-359.

9. Suvorova Y.M., Korotkov E.V. Splicing of the triplet periodicity in genes from different species. // Proc. of the 6th International Symposium on Health Informatics and Bioinformatics (HIBIT 2011). Измир 2011. P. 245249.

10. Suvorova Y. M., Korotkov E. V. Changes of triplet periodicity in coding sequences // Abstr. The 4th international IMBG Conference For Young Scientists "Molecular Biology: Advances And Perspectives", Киев. 2011. P. 197.

11. Суворова Ю. M., Коротков E. В. Метод поиска точек разладки в последовательностях генов. // Научная сессия НИЯУ МИФИ-2012 Москва. 2012. Т. 3. С. 146

12. Суворова Ю. М., Коротков Е. В. Анализ распределения триплетной периодичности между генами одного генома // IV

Международная конференция "Математическая биология и биоинформатика", Пущино. 2012. С. 61-62.

13. Коротков Е. В., Суворова Ю. М. Изучение одиночных и парных точек разладки в кодирующих последовательностях ДНК // V съезд биофизиков России, Нижний Новгород. 2012. Том. 1. С. 383

14. Suvorova Y., Korotkov Е. Change points in DNA coding sequences // Mediterranean Conference on Embedded Computing. Бар. 2012. P. 251 - 254

15. Suvorova Y. M., Korotkova M.A., Korotkov E.V. Search of Possible Insertions in Bacterial Genes. // International Conference on Bioinformatics Models, Method and Agorithms. Анже. P.99-108

Структура и объем диссертации

Диссертация состоит из введения, трех глав, выводов и списка литературы. Общий объем работы составляет 135 страниц, в том числе 28 рисунков, 7 таблиц и список литературы из 142 наименований.

Глава 1. ОБЗОР ЛИТЕРАТУРЫ 1.1 Определения спектра научных работ для обзора

В данном литературном обзоре будут подробно рассмотрены методы изучения периодичности символьных последовательностей, в частности методы изучения триплетной периодичности белок-кодирующих последовательностей. В том числе методы поиска участков, содержащих триплетную периодичность в последовательности, работы изучающие причины возникновения триплетной периодичности и способы ее применения. Освещены также методы поиска точек разладки и работы, применяющие их к последовательностям ДНК. А также исследования, посвященные эволюции генов, которые приводят к идее о связи между точками разладки триплетной периодичности генов с их эволюционным происхождением.

1.2 Краткий обзор задач и методов компьютерного анализа последовательностей ДНК

За последние десятилетия для анализа нуклеотидных последовательностей создано большое число методов, направленных на решение различных задач. С точки зрения компьютерного анализа последовательность ДНК чаще всего представляет собой символьную последовательность (5) четырех буквенного алфавита А. Каждая буква соответствует одному из оснований ДНК: аденип [А], гуанин [С], цитозин [С] и тимин [7]. В некоторых алгоритмах вводятся сокращенные версии алфавита, полученные в результате объединения нуклеотидов в группы по различным биохимическим принципам. Три самых распространенных правила для построения сокращенных алфавитов:

[ x[i] = 0, иначе

КМгиЦХ['] = 1^{А-С) (1)

[ .x[z] = 0, иначе

\x[i\ = \,s\i\ = {A,G} RY rule = <

[ .v[/] = 0, иначе

Одно из центральных понятий, используемых в биоинформатике -понятие подобия последовательностей. Оно подразумевает, что символьное подобие последовательностей ДНК отражает функциональное, структурное и эволюционное сходство между ними (и кодируемыми белками), а существующие различия были приобретены в процессе эволюции. Таким образом, если есть некоторая последовательность, о которой ничего неизвестно и есть другая последовательность похожая на нее с известными свойствами, то на основании этого сходства можно предсказать структуру, функции или эволюционное происхождение неизвестной последовательности. Потому одной из первых задач стало создание алгоритмов и программ, позволяющих выявлять уровень подобия между двумя (и более) последовательностями (задача выравнивания).

Выравнивание - один из основных инструментов, используемый современной биоинформатикой. Выравнивание (двух или более) последовательностей - это процедура сопоставления символов последовательностей, при котором достигается максимальный уровень подобия (максимум функции сходства). Эта процедура основана на методе динамического программировании с использованием весовых матриц [Durbin и др., 1998] и системы штрафов. Весовые матрицы представляют собой симметричную квадратную матрицу, ячейки которой - это веса, задающие уровень сходства между отдельными символами алфавита. При этом разрешается вставлять в

Похожие диссертационные работы по специальности «Математическая биология, биоинформатика», 03.01.09 шифр ВАК

Список литературы диссертационного исследования кандидат наук Суворова, Юлия Максимовна, 2015 год

СПИСОК ЛИТЕРАТУРЫ

1. Afreixo V., Ferreira P.J.S.G., Santos D. Fourier analysis of symbolic data: A brief review// Digit. Signal Process. 2004. T. 14. № 6. C. 523-530.

2. Altschul S.F. h flp. Basic local alignment search tool. // J. Mol. Biol. 1990. T. 215. №3. C. 403^410.

3. Anastassiou D. Frequency-domain analysis of biomolecular sequences. // Bioinformatics. 2000. T. 16. № 12. C. 1073-1081.

4. Auger I.E., Lawrence C.E. Algorithms for the optimal identification of segment neighborhoods // Bull. Math. Biol. 1989. T. 51. № 1. C. 39-54.

5. Azad R.K., Borodovsky M. Probabilistic methods of identifying genes in prokaryotic genomes: connections to the HMM theory. // Brief. Bioinfonn. 2004. T. 5. №2. C. 118-130.

6. Babushok D. V, Ostertag E.M., Kazazian H.H. Current topics in genome evolution: molecular mechanisms of new gene formation. // Cell. Mol. life Sci. C. 2007. T. 64. № 5. C. 542-554.

7. Baldi P. h flp. Periodic sequence patterns in human exons. // Proc. Int. Conf. Intell. Syst. Mol. Biol. ISMB Int. Conf. Intell. Syst. Mol. Biol. 1995. T. 3. C. 30-38.

8. Bellani M., Epps J., Huttley G.A. A comparison of periodicity profile methods for sequence analysis // Proceedings 2012 IEEE International Workshop on Genomic Signal Processing and Statistics (GENSIPS). : IEEE, 2012. C. 78-81.

9. Benson D.A. h flp. GenBank: update. // Nucleic Acids Res. 2004. T. 32. № Database issue. C. D23-D26.

10. Benson G. Tandem repeats finder: a program to analyze DNA sequences. //Nucleic Acids Res. 1999. T. 27. № 2. C. 573-580.

11. Benson G., Waterman M.S. A method for fast database search for all k-nucleotide repeats. //Nucleic Acids Res. 1994. T. 22. № 22. C. 4828-4836.

12. Bernaola-Galvan P. h Finding borders between coding and noncoding DNA regions by an entropic segmentation method. // Phys. Rev. Lett. 2000. T. 85. № 6. C. 1342-1345.

13. Bernardi G. h ;jp. The mosaic genome of warm-blooded vertebrates. // Science. 1985. T. 228. № 4702. C. 953-958.

14. Bhattacharya P. Some aspects of change-point analysis // Carlstein, E., Müller, H.-G., Siegmund, D. (eds.), Chang. Point Probl. IMS Lect. Notes -Monogr. Ser. 1994. T. 23. № 1980. C. 28-56.

15. Bohlin J., Skjerve E. Examination of Genome Homogeneity in Prokaryotes Using Genomic Signatures // PLoS One. 2009. T. 4. № 12. C. 12.

16. Bohlin J., Skjerve E., Ussery D.W. Correction: Investigations of Oligonucleotide Usage Variance Within and Between Prokaryotes // PLoS Comput. Biol. 2009. T. 5. № 7. C. 9.

17. Bonham-Carter O., Steele J., Bastola D. Alignment-free genetic sequence comparisons: a review of recent approaches by word analysis. // Brief. Bioinform. 2013. T. 15. № 6. C. 890-905.

18. Borozan I., Watt S., Ferretti V. Integrating alignment-based and alignment-free sequence similarity measures for biological sequence classification. // Bioinfonnatics. 2015. C. btv006.

19. Boys R.J., Henderson D.A., Wilkinson D.J. Detecting homogeneous segments in DNA sequences by using hidden Markov models // J. R. Stat. Soc. Ser. C (Applied Stat. 2000. T. 49. № 2. C. 269-285.

20. Bradley J. V. Distribution-free statistical tests | Clc. : Englewood Cliffs: Prentice Hall, 1968. 388 c.

21. Braun J. V, Müller H.-G. Statistical methods for DNA sequence segmentation // Stat. Sei. 1998. T. 13. № 2. C. 142-162.

22. Carrara M. h jsp. State-of-the-art fusion-finder algorithms sensitivity and specificity. I I Biomed Res. Int. 2013. T. 2013. C. 340620.

23. Chechetkin V.R., Lobzin V. V. Study of correlations in segmented DNA sequences: application to structure coupling between exons and introns. // J. Theor. Biol. 1998. T. 190. № 1. C. 69-83.

24. Chechetkin V.R., Turygin A.Y. On the spectral criteria of disorder in non-periodic sequences: application to inflation models, symbolic dynamics and DNA sequences // J. physics. A, Math. Gen. 1994. T. 27. № 14. C. 48754898.

25. Chechetkin V.R., Turygin AYu. Search of hidden periodicities in DNA sequences. // J. Theor. Biol. 1995. T. 175. № 4. C. 477-494.

26. Chen B. An improved random-walk approach for visualizing periodicities hidden in biological sequences // 2014 International Conference on Multisensor Fusion and Information Integration for Intelligent Systems (MFI). : IEEE, 2014. C. 1-5.

27. Chen B., Ji P. An Exploration of the Triplet Periodicity in Nucleotide Sequences with a Mature Self-Adaptive Spectral Rotation Approach // J. Appl. Math. 2014.

28. Churchill G.A. Stochastic models for heterogeneous DNA sequences. // Bull. Math. Biol. 1989. T. 51. № 1. C. 79-94.

29. Consortium T.U. The Universal Protein Resource (UniProt) 2009 // Nucleic Acids Res. 2009. T. 37. № Database issue. C. 169-174.

30. Coward E., Drables F. Detecting periodic patterns in biological sequences. // Bioinformatics. 1998. T. 14. № 6. C. 498-507.

31. Craig C.C. On the frequency function of xy // he Ann. Math. Stat. 1936. T. 7. № 1. C. 1-15.

32. Deng S. h flp. Detecting the borders between coding and non-coding DNA regions in prokaryotes based on recursive segmentation and nucleotide doublets statistics // BMC Genomics. 2012. T. 13. № 8. C. S19.

33. Durbin R. h ,ap. Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. : Cambridge University Press, 1998. 356 c.

34. Enright A.J. h AP- Protein interaction maps for complete genomes based on gene fusion events [see comments] // Nature. 1999. T. 402. № 6757. C. 86-90.

35. Epps J. A hybrid technique for the periodicity characterization of genomic sequence data. // EURASIP J. Bioinform. Syst. Biol. 2009. C. 924601.

36. Epps J., Ambikairajah E., Akhtar M. An integer period DFT for biological sequence processing // 2008 IEEE Int. Work. Genomic Signal Process. Stat. 2008.

37. Epps J., Ying H., Huttley G.A. Statistical methods for detecting periodic fragments in DNA sequence data. // Biol. Direct. 2011. T. 6. C. 21.

38. Eskesen S.T. и др. Periodicity of DNA in exons // BMC Mol. Biol. 2004. T. 5.C. 12.

39. Evans G.E. и др. Estimating Change-Points in Biological Sequences via the Cross-Entropy Method. // Ann. Oper. Res. 2010. T. 189. № 1. C. 155— 165.

40. Ferreira P.J.S.G. и др. Exploring Three-Base Periodicity for DNA Compression and Modeling // 2006 IEEE Int. Conf. Acoust. Speech Signal Process. Proc. 2006. T. 5.

41. Fickett J.W. Recognition of protein coding regions in DNA sequences. // Nucleic Acids Res. 1982. T. 10. № 17. C. 5303-18.

42. Fickett J.W., Tung C.S. Assessment of protein coding measures. // Nucleic Acids Res. 1992. T. 20. № 24. C. 6441-6450.

43. Frenkel F.E., Korotkov E. V. Classification analysis of triplet periodicity in protein-coding regions of genes. // Gene. 2008. T. 421. № 1-2. C. 52-60.

44. Frenkel F.E., Korotkov E. V. Using Triplet Periodicity of Nucleotide Sequences for Finding Potential Reading Frame Shifts in Genes // DNA Res. 2009. T. 16. №2. C. 105-114.

45. Fu Y., Curnow R.N. Maximum likelihood estimation of multiple change points // Biometrika. 1990. T. 77. № 3. C. 563-573.

46. Gluncic M., Paar V. Direct mapping of symbolic DNA sequence into frequency domain in global repeat map algorithm // Nucleic Acids Res. 2013. T. 41. № 1.

47. Gmurman V.E. Fundamentals of probability theory and mathematical statistics / под ред. I.I. Berenblut.: Iliffe Books , 1968.

48. Grosse I. Estimating entropies from finite samples // Dynamik ~ Evolution/ под ред. J. Freund. Berlin: Kosster Verlag, 1996. C. 181-190.

49. Gutiérrez G., Oliver J.L., Marin A. On the origin of the periodicity of three in protein coding DNA sequences. // J. Theor. Biol. 1994. T. 167. № 4. C. 413-414.

50. Gwadera R., Gionis A., Mannila H. Optimal Segmentation Using Tree Models // Sixth Int. Conf. Data Min. ICDM06. 2006. T. 15. № 3. C. 259-283.

51. Herzel H. h ^p. Interpreting correlations in biosequences // Phys. A Stat. Mech. its Appl. 1998. T. 249. № 1-4. C. 449-459.

52. Herzel H., Große I. Measuring correlations in symbol sequences // Phys. A Stat. Mech. its Appl. 1995. T. 216. № 4. C. 518-542.

53. Herzel H., Große I. Correlations in DNA sequences: The role of protein coding segments // Phys. Rev. E. 1997. T. 55. № 1. C. 800-810.

54. Herzel H., Weiss O., Trifonov E.N. 10-11 bp periodicities in complete genomes reflect protein structure and DNA folding. // Bioinformatics. 1999. T. 15. №3. C. 187-193.

55. Holste D. h ap. Repeats and correlations in human DNA sequences. // Phys. Rev. E - Stat. Nonlinear Soft Matter Phys. 2003. T. 67. № 6 Pt 1. C. 061913.

56. Howe E.D., Song J.S. Categorical spectral analysis of periodicity in human and viral genomes. // Nucleic Acids Res. 2013. T. 41. № 3. C. 1395— 1405.

57. Hurles M. Gene Duplication: The Genomic Trade in Spare Parts // PLoS Biol. 2004. T. 2. № 7. C. E206.

58. Iriarte A. h General trends in selectively driven codon usage biases in the domain archaea. // J. Mol. Evol. 2014. T. 79. № 3-4. C. 105-10.

59. Kaessmann H. Origins, evolution, and phenotypic impact of new genes // Genome Res. 2010. T. 20. № 10. C. 1313-1326.

60. Kantorovitz M.R., Robinson G.E., Sinha S. A statistical method for alignment-free comparison of regulatory sequences. // Bioinformatics. 2007. T. 23. № 13. C. 249-255.

61. Karlin S., Brendel V. Patchiness and correlations in DNA sequences. // Science (80-. ). 1993. T. 259. № 5095. C. 677-680.

62. Kim P. h flp. ChimerDB 2.0—a knowledgebase for fusion genes updated //Nucleic Acids Res. 2010. T. 38. Database issue. C. 81-85.

63. Kongcharoen J. h ^p. The Analysis of Pattern Change in Intron Sequences // Cent. Stat. Surv. Methodol. Univ. Wollongong, Work. Pap. 2011. C. 5-11.

64. Konopka A.K. и др. Distance analysis helps to establish characteristic motifs in intron sequences. // Gene Anal. Tech. 1987. T. 4. № 4. C. 63-74.

65. Konopka A.K. Sequences and codes: fundamentals of biomolecular cryptology // BIOCOMPUTING: Informatics and Genome Projects / под ред. Smith D. San Diego: Academic Press, 1994. С. 119-174.

66. Korotkov E. V и др. The informational concept of searching for periodicity in symbol sequences // Mol. Biol. (Mosk). 2003. T. 37. № 3. C. 436-451.

67. Korotkov E. V, Korotkova M.A., Kudryashov N.A. Information decomposition of symbolic sequences // Phys. Lett. A. 2003. T. 312. № 3. C. 198-210.

68. Korotkova M.A., Korotkov E. V, Kudryashov N.A. An approach for searching insertions in bacterial genes leading to the phase shift of triplet periodicity// Genomics. Proteomics Bioinformatics. 2011. T. 9. C. 158-170.

69. Kotlar D., Lavner Y. Gene Prediction by Spectral Rotation Measure: A New Method for Identifying Protein-Coding Regions // Genome Res. 2003. T. 13. №8. C. 1930-1937.

70. Kullback S. Information Theory and Statistics. / под ред. S. Kullback. New York: Dover publications., 1997.

71. Kummerfeld S.K., Teichmann S.A. Relative rates of gene fusion and fission in multi-domain proteins. // Trends Genet. 2005. T. 21. № 1. C. 25-30.

72. Li W. Mutual information functions versus correlation functions // J. Stat. Phys. 1990. T. 60. № 5-6. C. 823-837.

73. Li W. The study of correlation structures of DNA sequences: a critical review. // Comput. Chem. 1997. T. 21. № 4. C. 257-271.

74. Li W. и др. Applications of recursive segmentation to the analysis of DNA sequences. // Comput. Chem. 2002. T. 26. № 5. C. 491-510.

75. Li W.H. и др. Evolutionary analyses of the human genome. // Nature. 2001. T. 409. № 6822. C. 847-849.

76. Li X., Kahveci T. A Novel algorithm for identifying low-complexity regions in a protein sequence. // Bioinformatics. 2006. T. 22. № 24. C. 29807.

77. Loewenstein Y. h AP- Protein function annotation by homology-based inference // Genome Biol. 2009. T. 10. № 2. C. 207.

78. López-Villaseñor I., José M. V, Sánchez J. Three-base periodicity patterns and self-similarity in whole bacterial chromosomes. // Biochem. Biophys. Res. Commun. 2004. T. 325. № 2. C. 467^178.

79. Lorden G. Procedures for Reacting to a Change in Distribution // Ann. Math. Stat. 1971. T. 42. № 6. C. 1897-1908.

80. Makeev V.J., Tumanyan V.G. Search of periodicities in primary structure of biopolymers: a general Fourier approach. // Comput. Appl. Biosci. CABIOS. 1996. T. 12. № 1. C. 49-54.

81. Makeev V.Y., Frank G.K., Tumanyan V.G. Statistics of periodic patterns in the sequences of human introns // Biophys. 1996. T. 41. № 1. C. 263-268.

82. Mantegna R.N. h /jp. Linguistic features of noncoding DNA sequences. // Phys. Rev. Lett. 1994. T. 73. № 23. C. 3169-3172.

83. Marcotte E.M. h ap- Detecting protein function and protein-protein interactions from genome sequences. // Science (80). 1999. T. 285. № 5428. C. 751-753.

84. Martín N., Pardo L. Comments on: Extensions of some classical methods in change point analysis // TEST. 2014. T. 23. № 2. C. 279-282.

85. Masoom H. h ap. A Fast Algorithm for Detecting Frame Shifts in DNA sequences // 2006 IEEE Symp. Comput. Intell. Bioinforma. Comput. Biol. 2006. C. 1-8.

86. Matsumoto M., Nishimura T. Mersenne twister: a 623-dimensionally equidistributed uniform pseudo-random number generator // ACM Trans. Model. Comput. Simul. 1998. T. 8. № 1. C. 3-30.

87. Mering C. Von h ap. STRING: a database of predicted functional associations between proteins //Nucleic Acids Res. 2003. T. 31. № 1. C. 258261.

88. Messaoudi I., Elloumi-Oueslati A., Lachiri Z. Building Specific Signals from Frequency Chaos Game and Revealing Periodicities Using a Smoothed Fourier Analysis // IEEE/ACM Trans. Comput. Biol. Bioinforma. 2014. T. 11. №5. C. 863-877.

89. Moore A.D. h pp. Arrangements in the modular evolution of proteins. // Trends Biochem. Sci. 2008. T. 33. № 9. C. 444-451.

90. Needleman S.B., Wunsch C.D. A general method applicable to the search for similarities in the amino acid sequence of two proteins. // J. Mol. Biol. 1970. T. 48. № 3. C. 443^153.

91. Nicorici D., Astola J. Information divergence measures-for detection of borders between coding and noncoding DNA regions using recursive entropic segmentation // IEEE Work. Stat. Signal Process. 2003.

92. Nicorici D., Astola J. Segmentation of DNA into Coding and Noncoding Regions Based on Recursive Entropic Segmentation and Stop-Codon Statistics // EURASIP J. Adv. Signal Process. 2004. T. 2004. № 1. C. 81-91.

93. Nur D. h «p. Bayesian hidden Markov model for DNA sequence segmentation: A prior sensitivity analysis. // Comput. Stat. Data Anal. 2009. T. 53. № 5. C. 1873-1882.

94. Ogata H. h flp. KEGG: Kyoto Encyclopedia of Genes and Genomes // Nucleic Acids Res. 1999. T. 27. № 1. C. 29-34.

95. Papapetrou P., Benson G., Kollios G. Mining poly-regions in DNA // Int. J. Data Min. Bioinform. 2012. T. 6. № 4. C. 406 - 428.

96. Parra G. h ,np. Tandem chimerism as a means to increase protein complexity in the human genome. // Genome Res. 2006. T. 16. № 1. C. 3744.

97. Pasek S., Risler J.-L., Brezellec P. Gene fusion/fission is a major contributor to evolution of multi-domain bacterial proteins. // Bioinformatics. 2006. T. 22. № 12. C. 1418-1423.

98. Pearl F. h ,ap. The CATH Domain Structure Database and related resources Gene3D and DHS provide comprehensive domain family information for genome analysis // Nucleic Acids Res. 2005. T. 33. Database Issue. C. D247-D251.

99. Peng C.K. h ;jp. Long-range correlations in nucleotide sequences. // Nature. 1992. T. 356. № 6365. C. 168-70.

100. Perina A. h ,ap. Fully non-homogeneous hidden Markov model double net: a generative model for haplotype reconstruction and block discovery. // Artif. Intell. Med. 2009. T. 45. № 2-3. C. 135-150.

101. Pinho A.J. h ,zjp. Exploring Homology Using the Concept of Three-State Entropy Vector//LNBI 6282. ,2010. C. 161-170.

102. Plotkin J.B., Kudla G. Synonymous but not the same: the causes and consequences of codon bias. //Nat. Rev. Genet. 2011. T. 12. № 1. C. 32-42.

103. Pugacheva V., Frenkel F., Korotkov E. Investigation of phase shifts for different period lengths in the genomes of C. elegans, D. melanogaster and S. cerevisiae // Comput. Biol. Chem. 2014. T. 51. C. 12-21.

104. R Development Core Team R. R: A Language and Environment for Statistical Computing // R Found. Stat. Comput. 2011. T. 1. № 2.11.1. C. 409.

105. Resch A. h AP- Assessing the impact of alternative splicing on domain interactions in the human proteome. // J. Proteome Res. 2004. T. 3. № 1. C. 76-83.

106. Roberto R.B. Di, Peisajovich S.G. The role of domain shuffling in the evolution of signaling networks // J. Exp. Zool. Part B Mol. Dev. Evol. 2014. T. 322. № 2. C. 65-72.

107. Rudenko V., Suvorova Y., Korotkov E. Detection of Possible Reading Frame Shifts in Genes Using Triplet Frequencies Homogeneity // Austrian J. Stat. 2011. T. 40. № 1. C. 137-146.

108. Sánchez J. 3-base periodicity in coding DNA is affected by intercodon dinucleotides // Bioinformation. 2011. T. 6. № 9. C. 327-329.

109. Sánchez J., López-Villaseñor I. A simple model to explain three-base periodicity in coding DNA. // FEBS Lett. 2006. T. 580. № 27. C. 6413-6422.

110. Sellers P.H. On the theory and computation of evolutionary distances // SIAM J. Appl. Math. 1974. T. 26. № 4. C. 787-793.

111. Serres M.H., Riley M. Gene fusions and gene duplications: relevance to genomic annotation and functional analysis. // BMC Genomics. 2005. T. 6. C. 33.

112. Sharp P.M. h AP- Codon usage patterns in Escherichia coli, Bacillus subtilis, Saccharomyces cerevisiae, Schizosaccharomyces pombe, Drosophila melanogaster and Homo sapiens; a review of the considerable within-species diversity. //Nucleic Acids Res. 1988. T. 16. № 17. C. 8207-8211.

113. Shepherd J.C. Periodic correlations in DNA sequences and evidence suggesting their evolutionary origin in a comma-less genetic code. // J. Mol. Evol. 1981a. T. 17. № 2. C. 94-102.

114. Shepherd J.C.W. Method to Determine the Reading Frame of a Protein from the Purine/Pyrimidine Genome Sequence and Its Possible Evolutionary Justification // Proc. Natl. Acad. Sei. 1981b. T. 78. № 3. C. 1596-1600.

115. Shiryayev A.N. On optimal method in earliest detection problems // Theory Probab. Its Appl. 1963. T. 8. C. 26-51.

116. Silverman B.D., Linsker R. A measure of DNA periodicity // J. Theor. Biol. 1986. T. 118. № 3. C. 295-300.

117. Smith T.F., Waterman M.S. Identification of common molecular subsequences. // J. Mol. Biol. 1981a. T. 147. № 1. C. 195-197.

118. Smith T.F., Waterman M.S. Comparison of biosequences // Adv. Appl. Math. 1981b. T. 2. № 1 981. C. 482-489.

119. Sorek R. The birth of new exons: mechanisms and evolutionary consequences. //Rna New York Ny. 2007. T. 13. № 10. C. 1603-1608.

120. Stoffer D.S., Tyler D.E., McDougall A.J. Spectral Analysis for Categorical Time Series: Scaling and the Spectral Envelope // Biometrika. 1993. T. 80. №3. C. 611.

121. Stuart G.W., Moffett K., Baker S. Integrated gene and species phylogenies from unaligned whole genome protein sequences. // Bioinformatics. 2002. T. 18. № 1. C. 100-108.

122. Suvorova Y.M., Rudenko V.M., Korotkov E. V. Detection change points of triplet periodicity of gene // Gene. 2012. T. 491. № 1. C. 58-64.

123. Suzuki H. h AP- Comparison of Correspondence Analysis Methods for Synonymous Codon Usage in Bacteria // DNA Res. 2008. T. 15. № 6. C. 357-365.

124. Thompson L.H., Schild D. Homologous recombinational repair of DNA ensures mammalian chromosome stability. // Mutat. Res. 2001. T. 477. № 12. C. 131-153.

125. Tiwari S. h ap. Prediction of probable genes by Fourier analysis of genomic sequences. // Comput. Appl. Biosci. CABIOS. 1997. T. 13. № 3. C. 263-270.

126. Trifonov E.N. Translation framing code and frame-monitoring mechanism as suggested by the analysis of mRNA and 16 S rRNA nucleotide sequences. // J. Mol. Biol. 1987. T. 194. № 4. C. 643-652.

127. Trifonov E.N., Sussman J.L. The pitch of chromatin DNA is reflected in its nucleotide sequence. // Proc. Natl. Acad. Sci. 1980. T. 77. № 7. C. 38163820.

128. Trotta E. The 3-Base Periodicity and Codon Usage of Coding Sequences Are Correlated with Gene Expression at the Level of Transcription Elongation // PLoS One. 2011. T. 6. № 6. C. 11.

129. Trotta E. Selection on codon bias in yeast: A transcriptional hypothesis // Nucleic Acids Res. 2013. T. 41. № 20. C. 9382-9395.

130. Tsonis A.A., Eisner J.B., Tsonis P.A. Periodicity in DNA coding sequences: implications in gene evolution. // J. Theor. Biol. 1991. T. 151. № 3. C. 323-31.

131. Ventura B. Di h ^p. From in vivo to in silico biology and back. // Nature. 2006. T. 443. № 7111. C. 527-33.

132. Vinckenbosch N., Dupanloup I., Kaessmann H. Evolutionary fate of retroposed gene copies in the human genome. // Proc. Natl. Acad. Sci. U. S. A. 2006. T. 103. № 9. C. 3220-3225.

133. Vinga S. Editorial: Alignment-free methods in computational biology. // Brief. Bioinform. 2014. T. 15. № 3. C. 341-2.

134. Vinga S., Almeida J. Alignment-free sequence comparison-a review. // Bioinfonnatics. 2003. T. 19. № 4. C. 513-523.

135. Wang L., Stein L.D. Localizing triplet periodicity in DNA and cDNA sequences // BMC Bioinfonnatics. 2010. T. 11. № 1. C. 550.

136. Weiner J., Bornberg-Bauer E. Evolution of circular permutations in multidomain proteins. // Mol. Biol. Evol. 2006. T. 23. № 4. C. 734-743.

137. Yin С. Representation of DNA sequences in genetic codon context with applications in exon and intron prediction. // J. Bioinform. Comput. Biol. 2015. T. 13. №2. C. 1550004.

138. Yin C., Chen Y., Yau S.S.-T. A measure of DNA sequence similarity by Fourier Transform with applications on hierarchical clustering. // J. Theor. Biol. 2014. Т. 359C. C. 18-28.

139. Yin C., Yau S.S.-T. Prediction of protein coding regions by the 3-base periodicity analysis of a DNA sequence. // J. Theor. Biol. 2007. T. 247. № 4. C. 687-694.

140. Zhang M. и др. Mining periodic patterns with gap requirement from sequences // ACM Trans. Knowl. Discov. Data. 2007. Т. 1. № 2. C. 7-es.

141. Добеши И. Десять лекций по вейвлетам. : Ижевск РХД, 2001.

142. Лобзин В.В., Чечеткин В.Р. Порядок и корреляции в геномных последовательностях ДНК. Спектральный подход // Успехи физических наук. 2000. Т. 170. № 1. С. 57-81 .

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.