Спектрально-аналитический метод поиска протяженных повторяющихся нуклеотидных последовательностей в геномах тема диссертации и автореферата по ВАК РФ 03.01.02, кандидат физико-математических наук Пятков, Максим Иванович

  • Пятков, Максим Иванович
  • кандидат физико-математических науккандидат физико-математических наук
  • 2013, Пущино
  • Специальность ВАК РФ03.01.02
  • Количество страниц 94
Пятков, Максим Иванович. Спектрально-аналитический метод поиска протяженных повторяющихся нуклеотидных последовательностей в геномах: дис. кандидат физико-математических наук: 03.01.02 - Биофизика. Пущино. 2013. 94 с.

Оглавление диссертации кандидат физико-математических наук Пятков, Максим Иванович

Содержание

Введение

1 Повторяющиеся структуры в геномах

1.1 Классификация структур

1.1.1 Диспергированные повторы

1.1.2 Тандемные повторы

1.2 Биологическое значение

1.3 Основные задачи и подходы

2 Спектральный метод распознавания повторов

2.1 Структурная схема метода

2.2 Применение к геномам

2.2.1 Преобразование нуклеотидной последовательности

в функцию-аналог

2.2.2 Восстановление нуклеотидной последовательности

из функции-аналога

2.2.3 Получение спектров разложения

2.2.4 Сравнение спектров разложения

2.2.5 Точечная матрица для отображения результатов сравнения

2.3 Преобразования в пространстве коэффициентов

3 Алгоритмы

3.1 Вычисление коэффициентов разложения

3.1.1 Выбор метода разложения

3.1.2 Разложение функции по коэффициентам

3.2 Маски и отображение на матрице

3.3 Координаты повторов

3.4 Поиск периода протяженных тандемных повторов

3.5 Программная реализация

4 Тестирование и применение спектрального метода

4.1 Сравнение с аналогами

4.2 Тандемные повторы

4.3 Инвертированные повторы

4.4 Регионы синтении

Заключение

Литература

А Алгоритмы вычисления коэффициентов разложения

А.1 Рекуррентный алгоритм

А.2 Векторно-рекуррентный алгоритм

А.З Матричный алгоритм

А.4 Векторно-рекуррентный алгоритм с фиксированной глубиной векторизации

Рекомендованный список диссертаций по специальности «Биофизика», 03.01.02 шифр ВАК

Введение диссертации (часть автореферата) на тему «Спектрально-аналитический метод поиска протяженных повторяющихся нуклеотидных последовательностей в геномах»

Введение

Актуальность диссертационного исследования

Первые годы двадцать первого столетия ознаменовали начало новой эры в понимании живых систем - были ссквенированы геномы человека и основных модельных эукариотических организмов. Накопленный к настоящему времени и постоянно увеличивающийся объем генетической информации открывает возможности для проведения полномасштабных исследований на уровне целых геномов, однако при этом возникает необходимость разработки новых алгоритмов, способных эффективно и быстро обрабатывать большие объемы генетической информации. Одной из частных задач геномики является поиск повторяющихся элементов, изучение их структуры и распределения в геномах. Важность поиска повторяющихся элементов обусловлена биологической ролью данных структур в функционировании организма. Повторы могут быть мобильными элементами, способными вырезаться или копироваться в одном участке ДНК и встраиваться в другом, что в случаях попадания в регуляторные или кодирующие области может приводить к потере функции генов. Взаимодействие между повторяющимися элементами может вызывать различные хромосомные перестройки, такие как дупликации, инверсии, транслокации и т. д. Подобные хромосомные аберрации в кодирующих областях генома могут приводить к развитию генетических заболеваний. Изучение повторяющихся структур также важно с точки зрения их возможной роли в укладке и реорганизации ДНК. Стоит отметить тот факт, что повторы являются удобными генетическими маркерами, которые широко используются в прикладных и фундаментальных исследованиях. Например, короткие тандемные повторы применяются для определения родства и идентификации индивидуальных генотипов в криминалистике. Приме-

ром фундаментальных исследований может служить использование крупных повторяющихся структур генома при решении эволюционных и филогенетических задач - определении родства групп организмов на генном уровне.

Сложность определения повторяющихся фрагментов нуклеотидных последовательностей тесно связана с мутационными процессами, происходящими в организме, благодаря которым происходят вставки, замены и делеции отдельных нуклеотидов, а иногда и целых участков ДНК. Большинство методов поиска повторяющихся последовательностей основано на алгоритмах, которые работают с нуклеотидной последовательностью как со строкой символов. В этом случае учет точечных мутаций является вычислительно сложной операцией. Для решения этой проблемы предлагаются различные подходы, при этом некоторые из них базируются на спектральных методах, где в основу положено быстрое преобразование Фурье (БПФ). Помимо того, что спектральные подходы, основанные на БПФ, только отчасти решают проблему учета мутаций, они также ограничены в плане масштабируемости вследствие однозначного соответствия получаемого спектра нуклеотидной последовательности. Данные подходы позволяют исследовать нуклеотидные последовательности длиной порядка до 104 нуклеотидных пар (н. п.). Однако для решения отдельных задач в области эволюции и структурной геномики требуется работа с протяженными последовательностями на различных масштабах, включая хромосомы и полные геномы (порядка 109 н. п.). При этом с накоплением информации о новых организмах все большую роль будет приобретать скорость обработки генетических текстов. Таким образом, в настоящее время является актуальной разработка программных инструментов, позволяющих быстро сравнивать протяженные нуклеотидные последовательности, выделяя при сравнении наиболее значимые участки.

В настоящей работе предлагается использовать аппроксимирующие возможности рядов Фурье посредством анализа функций, получаемых из нуклеотидной последовательности, таких как ОС-состав. Это может обеспечить анализ нуклеотидных последовательностей на разных масштабах.

Объект, предмет и метод исследования

Объектом исследования являются протяженные (от 1000 н. п.) повторяющиеся структуры в ДНК, организация которых может иметь как диспергированный, так и тандемный характер. Предметом исследования является разработка математического подхода к решению задачи быстрого поиска крупных повторяющихся структур в нуклеотидных последовательностях, сопоставимых по размеру с хромосомами или целыми геномами. Для решения данной задачи применялись методы из области обработки сигналов, основанные на приближении непрерывных функций с помощью рядов Фурье по ортогональным базисным функциям и спектральных преобразований в пространстве коэффициентов разложения.

Цели и задачи

Целью данной работы является разработка спектрально-аналитического метода поиска протяженных повторяющихся нуклеотидных последовательностей в геномах. Для достижения поставленной цели необходимо было решить следующие задачи:

1. Разработать математический аппарат для поиска протяженных повторяющихся структур и получить аналитические соотношения для оценки различных типов повторов в пространстве коэффициентов разложения.

2. Разработать алгоритмы вычисления и сравнения векторов коэффициентов разложения, базирующиеся на параллельности и векторизации вычислений.

3. Разработать программное обеспечение, позволяющее производить поиск и анализ повторящихся нуклеотидных последовательностей в геномах.

4. Проанализировать модельные организмы с целью поиска ранее неизвестных повторяющихся последовательностей.

Научная новизна

Научная новизна работы состоит в том, что в качестве функционального аналога нуклеотидной последовательности впервые использовались две статистические кривые ОС-,ОА-содержания, позволяющие однозначно восстановить нуклеотидную последовательность. Впервые в задаче поиска повторяющихся последовательностей были применены аппроксимирующие возможности ортогональных многочленов, использование которых позволило производить изучение протяженных нуклеотидных последовательностей на разных масштабах.

Научно-практическая значимость

1. Предложенный метод позволяет быстро исследовать протяженные нуклеотидные последовательности на наличие крупных диспергированных и тандемных повторов. Исследования подобного рода позволят дополнить уже существующие работы, связанные с картированием генома и классификацией организмов на генном уровне.

2. Аналитические соотношения полученные в ходе диссертационной работы могут быть использованы в работах, посвященным теории приближения функций классическими полиномиальными базисами.

3. Реализованы быстрые алгоритмы вычисления коэффициентов разложения для ряда классических ортогональных полиномов, которые могут быть использованы в других областях науки, например, в распознавании образов.

4. Разработано методическое пособие, в котором показано, как можно эффективно оптимизировать некоторые алгоритмы спектрального анализа с применением сторонних программных библиотек для векторизации вычислений.

5. Разработана программа SB ARS для интерактивной обработки нуклеотидных последовательностей с целью выявления диспергированных и тандемных последовательностей. Программа является свободно распространяемой и доступна по адресу:

http: //тру atko v. github. сот/sbars/.

Основные положения, выносимые на защиту

1. Разработан метод поиска протяженных повторяющихся структур в нуклеотидных последовательностях, основанный на спектральном анализе пары кривых ОС-,ОА-содержания на разных масштабах и позволяющем выявлять различные типы повторяющихся структур (прямых, обратных, комплементарных, инвертированных).

2. Предложены и реализованы алгоритмы, которые позволяют максимально использовать параллельность и векторизацию современных процессорных архитектур.

3. На основе метода реализована процедура автоматического распознавания и поиска мегасателлитных повторов. На основе этой процедуры в хромосоме 17 кролика (Oryctolagus cuniculus) выявлен ранее неизвестный мегасателлитный повтор с длиной повторяющего фрагмента 2623 нуклеотида.

Аппробация диссертационного исследования

Результаты диссертационной работы были доложены на следующих конференциях: 13, 14, 15 Всероссийские конференции "Математические методы распознавания образов (ММРО)" (Зеленогорск, 2007; Суздаль, 2009; Петрозаводск, 2011); на 9-ой международной конференции "Распознавание образов и анализ изображений (РОАИ)" (Нижний Новгород,

2008); на II, III, IV Международных конференциях "Математическая биология и биоинформатика (1СМВВ)" (Пущино, 2008, 2010, 2012); на 8 и 9 международных конференциях "Интеллектуализация обработки информации (ИОИ)" (Пафос, 2010; Будва, 2012); на 12, 14, 16 Международных пущинских школах-конференциях молодых ученых "Биология наука XXI века" (Пущино, 2008, 2010, 2012); на 12 и 13 Международных суперкомпьютерных конференциях "Научный сервис в сети интернет" (Новороссийск, 2010, 2011), а также на IV Летней школе по научным вычислениям (Москва, 2009). Работа получила второе место в межлабораторном конкурсе "Intel Software - продемонстрируй красоту решения" (Москва,

2009), была выбрана для участи в проекте "Intel Manycore Testing Lab" и

является победителем всех этапов конкурса "Эффективное использование вРи-ускорителей при решении больших задач" проводимого компанией Т-Платформы (Москва, 2010, 2011).

Публикации

По теме диссертации опубликовано 27 научных работ, в том числе: 2 в списках журналов рекомендованных ВАК; 1 методическое пособие; 2 электронные публикации; 22 в сборниках тезисов конференций.

Структура и объем

Диссертация изложена на 94 страницах машинописного текста и состоит из введения, четырех глав, заключения и списка литературы. Список литературы состоит из 94 наименований. Работа содержит 24 рисунка, 6 таблиц.

Похожие диссертационные работы по специальности «Биофизика», 03.01.02 шифр ВАК

Заключение диссертации по теме «Биофизика», Пятков, Максим Иванович

Выводы

1. Разработан метод поиска протяженных повторяющихся структур в нуклеотидных последовательностях, основанный на спектральном анализе пары кривых ОС-,ОА-содержания.

2. Получены аналитические соотношения, которые позволяют анализировать различные типы повторяющихся структур (прямых, обратных, комплементарных, инвертированных) путем преобразований над коэффициентами разложения.

3. Предложена методика построения точечных матриц гомологии, позволяющая анализировать нуклеотидные последовательности на разных масштабах.

4. Для классических ортогональных базисов реализованы алгоритмы вычисления и сравнения коэффициентов разложения, которые на многоядерных вычислительных системах позволяют получить ускорение, близкое к линейному.

5. На основе предложенного метода реализована процедура автоматического распознавания и поиска мегасателлитных повторов.

6. В хромосоме 17 кролика (ОгусШа^Б ситсгйт) выявлен ранее неизвестный мегасателлитный повтор с длиной повторяющегося фрагмента 2623 нуклеотида.

Список публикаций автора по теме диссертации

1. Панкратов А.Н., Поволоцкий A.B., М.И. Пятков. Параллельные алгоритмы спектрального анализа сигналов и их применение для обработки данных. // Математические методы распознавания образов: 13-ая Всероссийская конференция, г. Москва. Сборник докладов. - М: МАКС Пресс. 2007. С. 690-691.

2. Поиск и визуализация повторов в геномах на основе спектрального подхода / М.И. Пятков, А.Н. Панкратов, Р.К. Тетуев, Дедус Ф.Ф. // 12-ая Международная пущинская школа-конференция молодых ученых "Биология - наука XXI века", г. Пущино. Сборник тезисов. 2008. С. 338-339.

3. Обобщенный спектрально-аналитический метод - перспективная вычислительная технология биоинформатики / Ф.Ф. Дедус, Л.И. Куликова, H.H. Махортых, С.А. Назипова, М.М. Олыневец, А.Н. Панкратов, М.И. Пятков, В.Р. Руднев, Р.К. Тетуев /7 Математическая биология и биоинформатика: II Международная конференция, г. Пущино. Доклады/ Под ред. В.Д.Лахно. - М: МАКС Пресс. 2008. С. 116-117.

4. Спектральный подход для быстрог. поиска повторов в геномах / Ф.Ф. Дедус, Л.И. Куликова, H.H. Махортых, С.А. Назипова, М.М. Оль-шевец, А.Н. Панкратов, М.И. Пятков, Р.К. Тетуев // Математическая биология и биоинформатика: II Международная конференция, г. Пущино. Доклады/ Под ред. В.Д.Лахно. - М: МАКС Пресс. 2008. С. 133— 134.

5. 2D visualization of genetic homology / R Tetuev, F Dedus, L Kulikova, S Makhortykh, N Nazipova, M Olshevetz, A Pankratov, M Pyatkov // Математическая биология и биоинформатика: II Международная конференция, г. Пущино. Доклады/ Под ред. В.Д.Лахно. - М: МАКС Пресс. 2008. С. 121-122.

6. Spectral approach for rapid recognition and visualization of repeats in genomes / F. Dedus, L. Kulikova, S. Makhortykh, N. Nazipova, M. Ol-shevets, A. Pankratov, M. Pyatkov, R. Tetuev // Proceedings of the 9-th Intern. Conf. Pattern Recognition and Image Analysis: New Information Technologies. Nizhni Novgorod. V. 1. 2008. P. 80-81.

7. Создание базы данных и знаний по структурно-функциональным элементам геномов / В.Р. Руднев, М.М. Олыпевец, А.Н. Панкратов, М.И. Пятков, Р.К. Тетуев, Л.И. Куликова, Н.Н. Назипова, С.А. Махор-тых, Ф.Ф. Дедус // Материалы Пятого Московского международного конгресса, г. Москва. М.: ЗАО «Экспо-биохим-технологии», РХТУ им. Д.И. Менделеева. 2009. С. 414-415.

8. Спектральный подход в задаче распознавания и визуализации нечётких повторов в генетических последовательностях / А.Н. Панкратов, М.А. Горчаков, Ф.Ф. Дедус, Н.С. Долотова, Л.И. Куликова, С.А. Ма-хортых, Н.Н. Назипова, Д.А. Новикова, М.М. Олыпевец, М.И. Пятков, В.Р. Руднев, Р.К. Тетуев, В.В. Филиппов // Математические методы распознавания образов: 14-ая Всероссийская конференция, г. Суздаль. Сборник докладов. - М: МАКС Пресс. 2009. С. 586-588.

9. Спектральная реализация метода наименьших квадратов / Ф.Ф. Дедус, С.А. Алёшин, А.И. Двойнев, Л.И. Куликова, С.А. Махортых, А.Н. Панкратов, М.И. Пятков, Р.К. Тетуев // Математические методы распознавания образов: 14-ая Всероссийская конференция, г. Суздаль. Сборник докладов. - М: МАКС Пресс. 2009. С. 116-118.

10. Spectral analysis for identification and visualization of repeats in genetic sequences / A. Pankratov, M. Pyatkov, F. Dedus, N. Dolotova, L. Kulikova, S. Makhortykh, N. Nazipova, D. Novikova, M. Olshevets, M. Gorchakov,

V. Rudnev, R. Tetuev, V. Filippov // Pattern Recognition and Image Analysis. 2009. V. 19, No. 4. P. 687-692.

11. Gorchakov M., Pyatkov M., Filippov V. Search of extended inexact repetitions with usage of spectral indexing of sequence // IV Summer school on scientific computing. Moscow. 2009.

12. Пятков М.И. Распараллеливание спектрального алгоритма поиска повторов в геномных последовательностях // Научный сервис в сети Интернет: суперкомпьютерные центры и задачи. Труды Международной суперкомпьютерной конференции, г. Новороссийск. -М.: Изд-во МГУ. 2010. С. 663-666.

13. Пятков М.И., Панкратов А.Н., Тетуев Р.К. Дедус Ф.Ф. Оптимизация спектрального алгоритма распознавания повторяющихся последовательностей в геномах // 14-ая Международная пущинская школа-конференция молодых ученых "Биология - наука XXI века", г. Пущино. Сборник тезисов. 2010. С. 288-289.

14. Pankratov A., Tetuev R., Pyatkov М. Fast Spectral Estimation of Genetic Homology. 2010. URL: http://software.intel.com/en-us/articles/fast-spectral-estimation-of-genetic-homology.

15. Об оценке осцилляции GC% при поиске тандемных повторов / Р.К. Тетуев, Ф.Ф. Дедус, М.М. Олыпевец, А.Н. Панкратов, М.И. Пятков, Н.Н. Назипова // Интеллектуализация обработки информации: 8-ая Международная конференция. Республика Кипр, г. Пафос. Сборник докладов. - М.:МАКС Пресс. 2010. С. 483^86.

16. Использование спектрального представления для анализа последовательностей ДНК / Р.К. Тетуев, Ф.Ф. Дедус, М.М. Олыпевец, А.Н. Панкратов, М.И. Пятков, Н.Н. Назипова // Математическая биология и биоинформатика: Доклады III международной конференции, г. Пущино. Под ред. д.ф.-м.н. В.Д.Лахно. М.:МАКС Пресс. 2010. С. 127-128.

17. Пятков М.И., Панкратов А.Н. О масштабируемости на многоядерных процессорах алгоритма поиска повторов в ДНК // Математическая биология и биоинформатика: Доклады III международной конференции. г. Пущино. Под ред. д.ф.-м.н. В.Д.Лахно. М.-.МАКС Пресс. 2010. С. 162-163.

18. Распараллеливание спектрального алгоритма поиска повторов в геномах. / А.Н. Панкратов, М.И. Пятков, С.А. Комаров, М.С. Колесин, H.H. Попова // Научный сервис в сети Интернет: экзафлопсное будущее. Труды Международной суперкомпьютерной конференции, г. Новороссийск. М.: Издательство МГУ. 2011. С. 304-306.

19. Исследование масштабируемости спектрального алгоритма распознавания повторов в геномах. / А.Н. Панкратов, Р.К. Тетуев, С.А. Комаров, М.С. Колесин, H.H. Попова, М.И. Пятков, Ф.Ф. Дедус // Ломоносовские чтения: Тезисы докладов научной конференции, посвященной 300-летию со дня рождения М.В. Ломоносова, г. Москва. М.: Издательский отдел факультета ВМиК МГУ имени М.В. Ломоносова. 2011. С. 26-27.

20. Панкратов А.Н., Пятков М.И., Тетуев Р.К., Куликова Л.И. Алгоритмы спектрального анализа с использованием библиотек Intel IPP и MKL. Методическое пособие. Москва. 2011. URL: http://intel.cs. msu.n^sites/intel/files/files/tutoriapankratov.pdf.

21. Панкратов А.Н., Пятков М.И. О спектральном алгоритме распознавания протяженных тандемных повторов в геноме. // Математические методы распознавания образов: Сборник докладов 15-ой Всероссийской конференции, г. Петрозаводск. М.: МАКС Пресс. 2011. С. 525-528.

22. Преимущество оценок подобия фрагментов ДНК с помощью спектрально-аналитического метода. / Ф.Ф. Дедус, Р.К. Тетуев, H.H. Назипова, М.М. Олыиевец, А.Н. Панкратов, М.И. Пятков // Математические методы распознавания образов ММРО-15: Сборник докладов 15-ой Всероссийской конференции, г. Петрозаводск. М.: МАКС Пресс. 2011. С. 529-531.

23. Пятков М.И., Панкратов А.Н. Быстрый поиск протяженных повторов в геномах // 16-ая Международная пущинская школа-конференция молодых ученых "Биология - наука XXI века", г. Пущино. Сборник тезисов. 2012. С. 82.

24. Развитие спектрального подхода для распознавания повторов в геномах и белках / М.И. Пятков, А.Н. Панкратов, М.В. Разумейко, В.Р. Руднев, Р.К. Тетуев, Л.И. Куликова, Ф.Ф. Дедус // Интеллектуализация обработки информации: 9-я международная конференция. Черногория, г. Будва. Сборник докладов. - М.: Торус Пресс. 2012. С. 577-580.

25. Пятков М.И., Панкратов А.Н. Спектральные методы в задаче поиска различных типов повторов в геномах // Математическая биология и биоинформатика: IV Международная конференция, г. Пущино. Доклады/ Под редакцией д.ф.-м.н. В.Д.Лахно. - М.: МАКС-Пресс. 2012. С. 65.

26. Pyatkov M., Filippov V., Pankratov A. Consensus of repeated région of rabbit chromosome 17 containing over 15 huge approximate tandem repeats. // Repbase Reports. 2012. V. 12, No. 3. P. 256.

27. Поиск протяженных повторов в геномах на основе спектрально-аналитического метода / А. Н. Панкратов, М. И. Пятков, Р. К. Тетуев, H. Н. Назипова, Ф. Ф. Дедус // Математическая биология и бион-форматика. 2012. Т. 7, № 2. С. 476^192.

Список литературы диссертационного исследования кандидат физико-математических наук Пятков, Максим Иванович, 2013 год

Литература

1. Wolfsberg Т. G., McEntyre J., Schuler G. D. Guide to the draft human genome//Nature. 2001. V. 409. P. 824-826.

2. Collins F. S., Morgan M., Patrinos A. The Human Genome Project: lessons from large-scale biology // Science. 2003. Apr. V. 300, No. 5617. P. 286290.

3. Richard G.-F., Kerrest A., Dujon B. Comparative Genomics and Molecular Dynamics of DNA Repeats in Eukaryotes // Microbiology and molecular biology reviews MMBR. 2008. V. 72, No. 4. P. 686-727. URL: http://www.ncbi.nlm.nih.gov/pubmed/19052325.

4. Vanin E. F. Processed pseudogenes: characteristics and evolution. // Annu Rev Genet. 1985. V. 19. P. 253-272.

5. McCarrey J. R., Thomas K. Human testis-specific PGK gene lacks introns and possesses characteristics of a processed gene // Nature. 1987. V. 326, No. 6112. P. 501-505.

6. Initial sequencing and analysis of the human genome / E. S. Lander, L. M. Linton, B. Birren et al. // Nature. 2001. Feb. V. 409, No. 6822. P. 860-921.

7. Long E. O., Dawid I. B. Repeated genes in eukaryotes // Annu. Rev. Biochem. 1980. V. 49. P. 727-764.

8. McClintock B. The origin and behavior of mutable loci in maize // Proc. Natl. Acad. Sci. U.S.A. 1950. Jun. V. 36, No. 6. P. 344-355.

9. Льюин Б. Гены. M.: Мир, 1987. С. 647.

10. A unified classification system for eukaryotic transposable elements. / T. Wicker, F. Sabot, A. Hua-Van et al. // Nat Rev Genet. 2007. Dec. V. 8, No. 12. P. 973-982. URL: http://dx.doi.org/10.1038/nrg2165.

11. Belancio V. P., Hedges D. J., Deininger P. Mammalian non-LTR retrotrans-posons: for better or worse, in sickness and in health. // Genome Res. 2008. Mar. V. 18, No. 3. P. 343-358. URL: http://dx.doi.org/10.1101/gr.5558208.

12. Chromosomal evolution in Saccharomyces. / G. Fischer, S. A. James, I. N. Roberts et al. // Nature. 2000. May. V. 405, No. 6785. P. 451454. URL: http://dx.doi.org/10.1038/35013058.

13. Initial sequencing and comparative analysis of the mouse genome / R. H. Waterston, K. Lindblad-Toh, E. Birney et al. // Nature. 2002. Dec. V. 420, No. 6915. P. 520-562.

14. Молекулярная биология клетки: в трех томах. Т.1 / Б. Альберте, Д. Брей, Дж. Льюис [и др.]. М: Мир, 1994. С. 517.

15. Pritham Е. J., Putliwala Т., Feschotte С. Mavericks, a novel class of giant transposable elements widespread in eukaryotes and related to DNA viruses. // Gene. 2007. Apr. V. 390, No. 1-2. P. 3-17. URL: http://dx.doi.Org/10.1016/j.gene.2006.08.008.

16. Prokopowich C. D., Gregory T. R., Crease T. J. The correlation between rDNA copy number and genome size in eukaryotes // Genome. 2003. Feb. V. 46, No. 1. P. 48-50.

17. KIT S. Equilibrium sedimentation in density gradients of DNA preparations from animal tissues // J. Mol. Biol. 1961. Dec. V. 3. P. 711-716.

18. Walker P. M. Origin of satellite DNA // Nature. 1971. Jan. V. 229, No. 5283. P. 306-308.

19. Lohe A. R., Hilliker A. J., Roberts P. A. Mapping simple repeated DNA sequences in heterochromatin of Drosophila melanogaster // Genetics. 1993. Aug. V. 134, No. 4. P. 1149-1174.

20. Sharma S., Raina S. N. Organization and evolution of highly repeated satellite DNA sequences in plant chromosomes. // Cyto-genet Genome Res. 2005. V. 109, No. 1-3. P. 15-26. URL: http://dx.doi.org/10.1159/000082377.

21. Tyler-Smith C., Willard H. F. Mammalian chromosome structure. // Curr Opin Genet Dev. 1993. Jun. V. 3, No. 3. P. 390-397.

22. Miklos G. Localized highly repetitive DNA sequences in verterbrate and inverterbrate genomes // Maclntyre R.J. (ed), Molecular Evolutionary Genetics. Plenum, New York. 1985. P. 241-321.

23. Prakash M. Genomic Evolution. Discovery Publishing Pvt.Ltd, 2007. P. 320.

24. Queller D. C., Strassmann J. E., Hughes C. R. Microsatellites and kinship // Trends Ecol. Evol. (Amst.). 1993. Aug. V. 8, No. 8. P. 285-288.

25. Analysis of the largest tandemly repeated DNA families in the human genome / P. E. Warburton, D. Hasson, F. Guillem et al. // BMC Genomics. 2008. V. 9. P. 533.

26. Поиск мегасателлитных тандемных повторов в геномах эукариот по оценке осцилляций кривых GC-содержания. / Р. К. Тетуев, Н. Н. На-зипова, А. Н. Панкратов [и др.] // Математическая биология и бион-форматика. 2010. Т. 5, № 1. С. 30^2.

27. Bums К. Н., Boeke J. D. Great exaptations. /'/ J Biol. 2008. V. 7, No. 2. P. 5. URL: http://dx.doi.org/10.1186/jbiol66.

28. Deininger P. L., Batzer M. A. Mammalian retroelements. // Genome Res. 2002. Oct. V. 12, No. 10. P. 1455-1465. URL: http://dx.doi.org/10.1101/gr.282402.

29. Feschotte C., Pritham E. J. DNA transposons and the evolution of eu-karyotic genomes. // Annu Rev Genet. 2007. V. 41. P. 331-368. URL: http://dx.doi.org/10.1146/annurev.genet.40.110405.090448.

30. Eucaryotic genome evolution through the spontaneous duplication of large chromosomal segments. / R. Koszul, S. Caburet, B. Dujon et al. // EMBO J. 2004. Jan. V. 23, No. 1. P. 234-243.

31. Inversions disrupting the factor VIII gene are a common cause of severe haemophilia A. / D. Lakich, H. H. Kazazian, S. E. Antonarakis et al. // Nat Genet. 1993. Nov. V. 5, No. 3. P. 236-241. URL: http://dx.doi.org/10.1038/ngll93-236.

32. Emery A. E. Emery-Dreifuss syndrome. // J Med Genet. 1989. Oct. V. 26, No. 10. P. 637-641.

33. Small K., Iber J., Warren S. T. Emerin deletion reveals a common X-chromosome inversion mediated by inverted repeats. // Nature Genetics. 1997. V. 16, No. 1. P. 96-99.

34. Chromosome-specific alpha satellite DNA from human chromosome 1: hierarchical structure and genomic organization of a polymorphic domain spanning several hundred kilobase pairs of centromeric DNA / J. S. Waye, S. J. Durfy, D. Pinkel et al. // Genomics. 1987. Sep. V. 1, No. 1. P. 43-51.

35. Fragile X syndrome unstable element, p(CCG)n, and other simple tandem repeat sequences are binding sites for specific nuclear proteins / R. I. Richards, K. Holman, S. Yu et al. // Hum. Mol. Genet. 1993. Sep. V. 2, No. 9. P. 1429-1435.

36. Mitas M. Trinucleotide repeats associated with human disease // Nucleic Acids Res. 1997. Jun. V. 25, No. 12. P. 2245-2254.

37. Toth G., Gaspari Z., Jurka J. Microsatellites in different eukaryotic genomes: survey and analysis // Genome Res. 2000. Jul. V. 10, No. 7. P. 967-981.

38. Gibbs A., Mclntyre G. The diagram, a method for comparing sequences Its use with amino acid sequences // European Journal of Biochemistry. 1970. V. 16. P. 1-11.

39. Sonnhammer E. L., Durbin R. A dot-matrix program with dynamic threshold control suited for genomic DNA and protein sequence analysis. // Gene. 1995. Dec. V. 167, No. 1-2. P. GC1-G10.

40. OWEN: aligning long collinear regions of genomes. / A. Y. Ogurtsov, M. A. Roytberg, S. A. Shabalina et al. // Bioinformatics. 2002. Dec. V. 18, No. 12. P. 1703-1704.

41. Krumsiek J., Arnold R., Rattei T. Gepard: a rapid and sensitive tool for creating dotplots on genome scale // Bioinformatics. 2007. Apr. V. 23, No. 8. P. 1026-1028.

42. Needleman S. B., Wunsch C. D. A general method applicable to the search for similarities in the amino acid sequence of two proteins // J. Mol. Biol. 1970. Mar. V. 48, No. 3. P. 443-453.

43. Smith T. F., Waterman M. S. Identification of common molecular subsequences // J. Mol. Biol. 1981. Mar. V. 147, No. 1. P. 195-197.

44. Basic local alignment search tool / S. F. Altschul, W. Gish, W. Miller et al. // J. Mol. Biol. 1990. Oct. V. 215, No. 3. P. 403^10.

45. Groult R., Leonard M., Mouchard L. Speeding up the detection of evolutive tandem repeats. // Theor. Comput. Sci. 2004. V. 310, No. 1-3. P. 309-328.

46. Benson G. Tandem repeats finder: a program to analyze DNA sequences // Nucleic Acids Res. 1999. Jan. V. 27, No. 2. P. 573-580.

47. Benson G. Sequence alignment with tandem duplication // J. Comput. Biol. 1997. V. 4, No. 3. P. 351-367.

48. Hamming R. W. Error detecting and error correcting codes // Bell System Technical Journal. NEW YORK, 1950. V. 29, No. 2. P. 147-160.

49. Kolpakov R., Bana G., Kucherov G. mreps: Efficient and flexible detection of tandem repeats in DNA // Nucleic Acids Res. 2003. Jul. V. 31, No. 13. P. 3672-3678.

50. Landau G. M., Schmidt J. P., Sokol D. An algorithm for approximate tandem repeats // J. Comput. Biol. 2001. V. 8, No. 1. P. 1-18.

51. Sokol D., Benson G., Tojeira J. Tandem repeats over the edit distance // Bioinformatics. 2007. Jan. V. 23, No. 2. P. 30-35.

52. Levenshtein V. I. Binary codes capable of correcting, deletions, insertions and reversals // Soviet Phys. Dokl. 1966. No. 10. P. 707-710.

53. Smit A. F. A., Hubley R., Green P. RepeatMasker Ореп-З.О. 1996-2004. URL: http://www.repeatmasker.org.

54. FORRepeats: detects repeats on entire chromosomes and between genomes / A. Lefebvre, T. Lecroq, H. Dauchel et al. // Bioinformatics. 2003. Feb. V. 19, No. 3. P. 319-326.

55. REPuter: the manifold applications of repeat analysis on a genomic scale / S. Kurtz, J. V. Choudhuri, E. Ohlebusch et al. // Nucleic Acids Res. 2001. Nov. V. 29, No. 22. P. 4633^1642.

56. Felsenstein J., Sawyer S., Kochin R. An efficient method for matching nucleic acid sequences // Nucleic Acids Res. 1982. Jan. V. 10, No. 1. P. 133-139.

57. Benson D. C. Fourier methods for biosequence analysis // Nucleic Acids Res. 1990. Nov. V. 18, No. 21. P. 6305-6310.

58. Волков В. В., Леонтьев А. Ю. Исследование симметрии генетических текстов методом Фурье-анализа // Биополимеры и клетка. 1990. Т. 6, № 6. С. 68-72.

59. Spectral Repeat Finder (SRF): identification of repetitive sequences using Fourier transformation / D. Sharma, B. Issac, G. P. Raghava et al. // Bioinformatics. 2004. Jun. V. 20, No. 9. P. 1405-1412.

60. Du L., Zhou H., Yan H. OMWSA: detection of DNA repeats using moving window spectral analysis // Bioinformatics. 2007. Mar. V. 23, No. 5. P. 631-633.

61. PARALIGN: rapid and sensitive sequence similarity searches powered by parallel computing technology / P. E. Saeb, S. M. Andersen, J. Myrseth et al. // Nucleic Acids Res. 2005. Jul. V. 33, No. Web Server issue. P. W535-539.

62. Обобщенный спектрально-аналитический метод. / Ф.Ф. Дедус, А.Ф. Дедус, С.А. Махортых [и др.]. М.: Машиностроение, 1999.

63. Панкратов А. Н. Алгебраические операции над ортогональными рядами в задачах обработки данных. Дис. канд. физ.-мат. наук: Вычислительный центр им. А. А. Дородницына РАН. 2004.

64. Тетуев Р. К. Алгебра спектральных преобразований в задачах обработки данных. Дис. канд. физ.-мат. наук: Вычислительный центр им. А. А. Дородницына РАН. 2007.

65. Курант Р, Гильберт Д. Методы математической физики. Т.1. Гостех-издат. М.- Л., 1951. С. 476.

66. Ильин В. А. Базисы в евклидовых пространствах и ряды Фурье // Соросовский образовательный журнал. 1998. № 4. С. 95-101.

67. Аналитические методы распознавания повторяющихся структур в геномах / Ф. Ф. Дедус, Л. И. Куликова, С. А. Махортых [и др.] // Доклады Академии Наук. 2006. Т. 411, № 5. С. 599-602.

68. Recognition of the structural-functional organization of genetic sequences / R. K. Tetuev, F. F. Dedus, L. I. Kulikova et al. // Moscow University Computational Mathematics and Cybernetics. 2007. V. 31, No. 2. P. 49-53.

69. Spectral analysis for identification and visualization of repeats in genetic sequences / A. Pankratov, M. Pyatkov, F. Dedus et al. // Pattern Recognition and Image Analysis. 2009. V. 19, No. 4. P. 687-692.

70. Сингер В., Берг П. Гены и геномы: В 2-х т. Т. 2. Пер. с англ. М:. Мир, 1998. С. 391.

71. Никифоров А. Ф., Суслов С. К., Уваров В. Б. Классические ортогональные полиномы дискретной переменной. М.: Наука, 1985. С. 215.

72. Никифоров А. Ф., Скачков М. В. Методы вычисления q-полиномов // Матем. моделирование. 2001. Т. 13, № 8. С. 85-94.

73. Хэмминг Р. В. Численные методы для научных работников и инженеров. Пер. с англ. М.: Наука, 1972. С. 400.

74. Numerical Recipes in С. The Art of Scientific Computing. / W. Press, S. Teukolsky, W. Vetterling et al. Cambridge University Press., 1992.

75. Pankratov A. N., Tetuev R. K., Pyatkov M. 1. Fast Spectral Estimation of Genetic Homology. 2010. July. Retrieved December 14, 2012. URL: http://software.intel.com/en-us/articles/fast-spectral-estimation-of-genetic-homology.

76. Tetuev R. K., Nazipova N. N. Consensus of repeated region of mouse chromosome 6 containing 60 tandem copies of a complex pattern // Rep-base Reports. 2010. V. 10, No. 5. P. 776.

77. ClustalW and ClustalX version 2.0 / M. A. Larkin, G. Blackshields, N. P. Brown et al. // Bioinformatics. 2007. Nov. V. 23, No. 21. P. 29472948.

78. Pyatkov M. I., Filippov V. V., Pankratov A. N. Consensus of repeated region of rabbit chromosome 17 containing over 15 huge approximate tandem repeats. // Repbase Reports. 2012. V. 12, No. 3. P. 256.

79. Pyatkov M., Pankratov A. SBARS manual. 2012. December. Retrieved January, 2013. URL: http://mpyatkov.github.com/sbars/.

80. A physical map of the human Y chromosome / C. A. Tilford, T. Kuroda-Kawaguchi, H. Skaletsky et al. // Nature. 2001. Feb. V. 409, No. 6822. P. 943-945.

81. Gelfand Y., Rodriguez A., Benson G. TRDB-the Tandem Repeats Database // Nucleic Acids Res. 2007. Jan. V. 35, No. Database issue. P. D80-87.

82. Comparative analyses of human single- and multilocus tandem repeats / D. Ames, N. Murphy, T. Helentjaris et al. // Genetics. 2008. Jul. V. 179, No. 3. P. 1693-1704.

83. Giacalone J., Friedes J., Francke U. A novel GC-rich human macrosatellite VNTR in Xq24 is differentially methylated on active and inactive X chromosomes//Nat. Genet. 1992. May. V. 1, No. 2. P. 137-143.

84. A novel tandem repeat sequence located on human chromosome 4p: isolation and characterization / M. Kogi, S. Fukushige, C. Lefevre et al. // Genomics. 1997. Jun. V. 42, No. 2. P. 278-283.

85. Analysis of the tandem repeat locus D4Z4 associated with facioscapulohumeral muscular dystrophy / J. E. Hewitt, R. Lyle, L. N. Clark et al. // Hum. Mol. Genet. 1994. Aug. V. 3, No. 8. P. 1287-1295.

86. Human megasatellite DNA RS447: copy-number polymorphisms and interspecies conservation / Y. Gondo, T. Okada, N. Matsuyama et al. // Genomics. 1998. Nov. V. 54, No. 1. P. 39^19.

87. Repbase Update, a database of eukaryotic repetitive elements / J. Jurka, V. V. Kapitonov, A. Pavlicek et al. // Cytogenet. Genome Res. 2005. V. 110, No. 1-4. P. 462-167.

88. Tetuev R. K., Nazipova N. N., Dedus F. F. Consensus of repeated region of rat chromosome 4 similar to mouse chromosome 6 repeated region, enclosed in the intergenic region between genes Hrhl and Atg7 // Repbase Reports. 2010. V. 8, No. 8. P. 1185.

89. Identification of brain-specific and imprinted small nucleolar RNA genes exhibiting an unusual genomic organization / J. Cavaille, K. Buiting, M. Kiefmann et al. // Proc. Natl. Acad. Sci. U.S.A. 2000. Dec. V. 97, No. 26. P. 14311-14316.

90. Inverted Alu repeats unstable in yeast are excluded from the human genome / K. S. Lobachev, J. E. Stenger, O. G. Kozyreva et al. // EM-BO J. 2000. Jul. V. 19, No. 14. P. 3822-3830.

91. Inverted repeat structure of the human genome: the X-chromosome contains a preponderance of large, highly homologous inverted repeats that contain testes genes. / P. E. Warburton, J. Giordano, F. Cheung et al. // Genome Res. 2004. Oct. V. 14, No. 10A. P. 1861-1869.

92. Genome sequence of the Brown Norway rat yields insights into mammalian evolution. / R. A. Gibbs, G. M. Weinstock, M. L. Metzker et al. // Nature. 2004. Apr. V. 428, No. 6982. P. 493-521.

93. Loots G., Ovcharenko 1. ECRbase: database of evolutionary conserved regions, promoters, and transcription factor binding sites in vertebrate genomes // Bioinformatics. 2007. Jan. V. 23, No. 1. P. 122-124.

94. Vladimirova A. Intel Integrated Performance Primitives - Documentation. 2012. July. Retrieved January, 2013. URL: http://software.intel.com/en-us/articles/intel-integrated-performance-primitives-documentation.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.