Анализ аллель-специфичного связывания факторов транскрипции в геноме человека для интерпретации влияния однонуклеотидных замен на активность транскрипции тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Абрамов Сергей Александрович

  • Абрамов Сергей Александрович
  • кандидат науккандидат наук
  • 2024, ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 105
Абрамов Сергей Александрович. Анализ аллель-специфичного связывания факторов транскрипции в геноме человека для интерпретации влияния однонуклеотидных замен на активность транскрипции: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)». 2024. 105 с.

Оглавление диссертации кандидат наук Абрамов Сергей Александрович

Введение

Глава 1. Обзор литературы

1.1 Регуляция экспрессии генов

1.2 Высокопроизводительные экспериментальные методы для изучения взаимодействий между транскрипционными факторами и ДНК

1.2.1 Изучение связывания ТФ in vivo с помощью технологии ChIP-Seq

1.2.2 Изучение связывания ТФ in vitro с помощью технологии HT-SELEX

1.3 Моделирование мотивов связывания факторов транскрипции

1.4 Базы данных позиционно-весовых матриц

1.5 Анализ эффектов геномных замен

1.5.1 Методы для определения эффектов однонуклеотидных замен

1.6 Аллель-специфичное связывание факторов транскрипции

1.6.1 Учет систематических ошибок картирования прочтений

1.6.2 Учет систематических ошибок возникающих в результате вариации числа геномных копий

1.7 Существующие подходы к выявлению событий аллель-специфичного связывания

1.8 Заключение

Глава 2. Материалы и методы

2.1 Поиск событий аллель-специфичного связывания из данных ChIP-Seq

2.2 Определение фонового аллельного дисбаланса с использованием разработанного алгоритма сегментации

2.3 Применение разработанной методологии для коллекции ChIP-Seq экспериментов

2.4 Повышение статистической значимости САСС с помощью агрегации P-значений

2.5 Оценка силы эффекта событий аллель-специфичного связывания

2.6 Аннотация найденных однонуклеотидных замен

2.7 Анализ обогащения аллель-специфичными событиями

2.8 Согласованность экспериментальных измерений эффектов замен и

их предсказаний с помощью позиционно-весовых матриц

2.8.1 Предсказание эффектов замен, измеренных in vivo, с использованием позиционно-весовых матриц

2.8.2 Выбор позиционно-весовых матриц для сравнения с deltaSVM

2.8.3 Предсказание эффектов замен, измеренных in vitro, с помощью позиционно-весовых матриц

Глава 3. Результаты

3.1 Аллель-специфичное связывание транскрипционных факторов

3.1.1 Описание вычислительного конвейера для поиска событий аллель-специфичного связывания

3.1.2 Оценка фонового аллельного дисбаланса из аллельных прочтений на гетерозиготных заменах

3.1.3 Составление геномных карт фонового аллельного дисбаланса

3.1.4 Систематическая валидация составленных карт фонового аллельного дисбаланса

3.1.5 Идентификация САСС с учетом систематических ошибок картирования прочтений

3.2 База данных ADASTRA

3.2.1 Обзор базы данных

3.2.2 Обогащение событиями аллель-специфичного связывания замен, ассоциированных с заболеваниями и eQTL

3.2.3 Практическое применение ADASTRA

3.3 Согласованность предсказаний ПВМ и событий аллель-специфичного связывания

3.3.1 ПВМ могут быть успешно использованы для предсказания эффектов замен, измеренных in vivo

3.3.2 Использование ПВМ для предсказания эффектов замен измеренных in vitro

Заключение

Выводы

Список публикаций по теме диссертации

Список сокращений

Список литературы

Введение

Исследование структуры и функций генома человека с разрешением вплоть до отдельных нуклеотидов - одно из важнейших направлений современной вычислительной и молекулярной биологии. Участки генома человека, кодирующие белки, относительно хорошо изучены, но составляют лишь около 1-2% от его длины [1, 2]. Существенный интерес представляют так называемые некодирующие участки, занимающие большую часть генома и играющие значительную роль в регуляции экспрессии генов. Тщательное изучение функций этих менее изученных участков ДНК критически важно для всестороннего описания и понимания молекулярных основ жизненного цикла человека и патогенеза различных заболеваний [3]. В частности, именно некодирующие участки содержат факторы транскрипции (ТФ) - ключевые элементы механизма, управляющего экспрессией генов. ТФ представляют собой особые белки которые могут связываться с регуляторными участками ДНК в некодирующих районах генома и модулировать экспрессию подконтрольных генов [4-7]. Факторы транскрипции определяют широкий спектр процессов на разных уровнях, начиная от отдельных клеток до целого организма, включая контроль клеточного цикла [8], реакцию на сигналы окружающей среды [9] и онтогенез [4].

Различия в регуляции клеточных процессов между организмами одного вида во многом определяются генетической природой, а именно, индивидуальными геномными вариациями [10-12]. Они ранжируются от вариаций отдельных нуклеотидов [13-15] до удаления или дублирования протяженных участков хромосом [16, 17]. Однонуклеотидные замены - наиболее распространенный тип геномных вариантов. Они являются фундаментальными элементами генетического разнообразия и играют ключевую роль в определении уникальных особенностей организма, влияя на широкий спектр биологических процессов

и фенотипических признаков [18-20]. Большинство однонуклеотидных замен находятся в некодирующих областях генома [21-23], и заметная их доля локализована непосредственно в регуляторных районах генов. Однонуклеотидные замены в кодирующих областях поддаются интерпретации на основе генетического кода, поскольку замена в зависимости от позиции в кодоне может вызвать изменение аминокислотной последовательности белка, и дальнейшие изменения в его структуре, а зачастую и функции [2426]. Однако, интерпретация эффектов некодирующих замен затрудняется многоуровневой регуляцией экспрессии, от транскрипции до стабильности РНК, и сложной структурой "регуляторного кода" последовательностей ДНК и РНК, задействованных в регуляции на каждом из уровней [27, 28]. В частности, на уровне транскрипции, замены в участках связывания факторов транскрипции могут изменять аффинность участков ДНК к соответствующим факторам и, таким образом, влиять на активность транскрипции конкретных генов, в свою очередь, изменяя вероятность возникновения или осложняя течение различных заболеваний [29, 30].

Настоящее исследование посвящено разработке статистических методов для идентификации, интерпретации и приоритизации регуляторных однонуклеотидных вариантов, изменяющих специфичность взаимодействия белков - факторов транскрипции с участками ДНК, содержащими вариант [30], в контексте естественно присутствующих в человеческой популяции однонуклеотидных полиморфизмов. В работе, на основе данных современных высокопроизводительных экспериментов in vitro для множества факторов транскрипции была проведена оценка влияния однонуклеотидных полиморфизмов на связывание факторов транскрипции. Также, был разработан подход к выбору моделей мотивов связывания, оптимально подходящих для анализа этого влияния. В рамках работы был использован широкий набор ChIP-Seq экспериментов из базы данных GTRD [31] и составлена наиболее

полная на данный момент коллекция однонуклеотидных полиморфизмов для которых наблюдается аллель-специфичное связывание факторов транскрипции. Продемонстрированы примеры использования этой коллекции для интерпретации замен, например, определяющих важные фенотипические признаки, связанные с патологиями человека.

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Анализ аллель-специфичного связывания факторов транскрипции в геноме человека для интерпретации влияния однонуклеотидных замен на активность транскрипции»

Актуальность темы исследования

Варианты, ассоциированные с фенотипическими признаками, сегодня, как правило, выявляются в популяционных геномных ассоциативных исследованиях (GWAS) [32-34] или с помощью картирования локусов количественных признаков ^ТЬ) [35-38]. Однако, даже после идентификации потенциальных причинных замен, вопрос механистического понимания того, как именно эти полиморфизмы вызывают изменения фенотипа, остаётся открытым и, как правило, требует последующих специальных исследований методами молекулярной биологии [39-41].

На сегодняшний день научным сообществом накоплены результаты значительного числа экспериментов по полногеномному картированию участков связывания факторов транскрипции с помощью метода иммунопреципитации хроматина с последующим глубоким секвенированием (ChIP-Seq) [42, 43]. Эти данные могут быть использованы в специальном контексте: для определения влияния однонуклеотидных замен на связывание факторов транскрипции и механистической интерпретации влияния вариантов, ассоциированных с фенотипами. В частности, возможно сравнить количество фрагментов ДНК -носителей конкретных геномных вариантов с количеством всех фрагментов, содержащих тот же гетерозиготный локус, что непосредственно отражает аффинность связывания. Этот метод может быть применим к выборкам экспериментов любого размера [30], с использованием различных методов обогащения библиотек, таких как связывание различных ДНК-связывающих

белков [44], доступность хроматина [45] и т.п., при этом знание молекулярного механизма позволяет приоритизировать причинные замены, ответственные за изменение фенотипического признака.

Опубликованные ранее исследования аллель-специфичного связывания транскрипционных факторов (ТФ) [30, 44, 46-52] были ограничены количеством использованных экспериментальных данных, поскольку отсутствовала методология определения событий аллель-специфичного связывания (САСС) на основе гетерогенных экспериментов и оставалось невозможным использовать все многообразие доступных данных секвенирования по геномной локализации участков связывания факторов транскрипции. Таким образом, чрезвычайно актуально создание широкой коллекции САСС на основе всего многообразия доступных экспериментов секвенирования для множества ТФ и типов клеток.

В контексте аллель-специфичного связывания различают разные типы взаимодействий ТФ с ДНК: прямое связывание, когда транскрипционный фактор непосредственно связывается с ДНК, и косвенное, при котором взаимодействие опосредованно осуществляется через другие белки [53, 54]. Для вычислительного предсказания прямого связывания используются различные модели последовательностей ДНК специфически распознаваемые взаимодействующими с ДНК белками узнавания. Одним из самых распространенных способов моделирования потенциальных сайтов связывания факторов транскрипции с ДНК [55, 56] являются позиционно-весовые матрицы (ПВМ). С развитием методов моделирования мотивов связывания ТФ все еще остается открытым вопрос об эффективности ПВМ в анализе эффектов вариантов, то есть, как никогда актуальна методика выбора ПВМ способных точно предсказывать влияние ОНП на связывание ТФ.

В совокупности все это обуславливает актуальность применения статистических методов для анализа влияния геномных замен в некодирующих областях генома на регуляцию активности транскрипции и экспрессию

генов, которые играют ключевую роль в фенотипическом разнообразии. Важной технической проблемой остается разработка методологии для выбора оптимальных моделей ДНК-мотивов связывания ТФ в задаче оценки функциональной значимости однонуклеотидных вариантов.

Научная новизна исследования

Построение глобального атласа аллель-специфичного связывания ТФ сталкивается с двумя основными сложностями. Первая проблема заключается в вариациях копийности участков хромосом [16, 17], явлению, частным случаем которого является анеуплоидия, приводящему к систематическому аллельному дисбалансу, отражающему предпочтение белка к одному из двух аллелей [50]. Вторая проблема обусловлена систематическими ошибками картирования прочтений на аллель, совпадающий с референсным геномом, что приводит к систематическому преобладанию прочтений, поддерживающих такие аллели [57].

В нашей работе впервые эффективно решены обе эти проблемы. Во-первых, фоновый аллельный дисбаланс, вызванный вариацией числа геномных копий, корректируется с использованием разработанного нового алгоритма геномной сегментации. В отличие от классических методов, основанных на данных полногеномного секвенирования [58-60], разработанный метод позволяет установить относительное соотношение геномных копий исходя из данных секвенирования библиотек, обогащенных в локальных участках генома, таких как результаты ChIP-Seq. Для таких библиотек не работают стандартные алгоритмы для поиска геномных копий [61, 62]. Во-вторых, в работе представлена статистическая модель для учета систематических ошибок картирования прочтений, построенная путем моделирования ожидаемого количества прочтений на каждом из аллелей с помощью смеси двух отрицательных биномиальных распределений. Разработанная модель открывает возможность для анализа

широкого спектра данных секвенирования, и эффективна даже при отсутствии персонализированной сборки генома или фазированных гаплотипов, что выгодно отличает его от методик, описанных ранее [30, 44, 48].

В работе нам удалось впервые провести анализ аллельного дисбаланса на обширной унифицировано обработанной коллекции из более чем 7000 ChIP-Seq экспериментов, в том числе для экспериментов с ограниченным покрытием, без контрольных образцов или выполненных на клеточных линиях с множественными хромосомными аберрациями.

Степень научной разработанности темы

Анализ влияния вариантов в регуляторных районах на фенотипические признаки и клеточные процессы приобрел особенную актуальность в современных исследованиях благодаря появлению данных высокопроизводительных омиксных экспериментов [39, 63, 64] В частности особое внимание исследователей, в силу распространенности, привлекают однонуклеотидные полиморфизмы (ОНП), которые вносят точечные изменения в последовательность ДНК и способны влиять на различные фенотипы.

Классическим способом определения влияния однонуклеотидных замен, естественно присутствующих в популяции, на фенотипические различия можно считать полногеномные исследования ассоциаций, GWAS. Несмотря на успехи GWAS в идентификации локусов, связанных с предрасположенностью к заболеваниям, результаты статистических исследований редко приводят к созданию новых терапевтических подходов [65]. Это обусловлено тем, что данные GWAS носят ассоциативный, а не причинно-следственный характер, что затрудняет их прямое применение в разработке индивидуализированных методов лечения [66]. Анализ усложняется тем, что варианты, ассоциированные с заболеваниями, зачастую расположены в некодирующих регионах генома, например в энхансерах [67]. Это затрудняет их функциональную интерпретацию,

поскольку отсутствует детальная информация о важности и возможной функциональной роли регуляторных элементов с разрешением на уровне отдельных нуклеотидов. Более того, найденные замены могут влиять на фенотипы только в определенных тканях или типах клеток, например, напрямую связанных с развитием заболеваний [68], то есть влияние одного и того же варианта может существенно зависеть от биологического контекста.

Одной из разновидностей GWAS является исследование ассоциаций генетических вариантов (QTL) с молекулярными фенотипами, часто количественными, такими как экспрессия генов в исследованиях RNA-Seq (expression QTL, eQTL) [38]. Интерес к изучению eQTL обусловлен тем, что найденные замены могут вызывать изменения в уровне экспрессии генов в конкретных типах клеток, а различия в экспрессии генов между индивидуумами могут, в свою очередь, приводить к фенотипическим различиям [69].

Комплементарным методом к eQTL анализу являются исследования аллель-специфичной экспрессии [70-72]. В отличие от eQTL, основанных на сравнении экспрессии генов между разными индивидуумами [73], аллель-специфичные исследования сфокусированы на анализе различий в активности аллелей гомологичных хромосом в клетках одного организма [74]. Поскольку аллель-специфичный анализ проводится в рамках одного индивидуума, он минимизирует влияние внешних факторов, таких как окружающая среда или особенности эксперимента, которые могут исказить результаты в eQTL-исследованиях.

Со временем, акцент в исследованиях сместился от простого поиска замен, связанных с экспрессией генов [75], к более глубокому пониманию молекулярных механизмов, лежащих в основе этих феноменов. Исследователи стали применять описанные выше методологии для поиска вариантов, влияющих на различные молекулярные фенотипы [76-78], такие как доступность хроматина [45] или данные о связывании ТФ [79].

Для выделения замен влияющих на фенотип среди потенциальных причинных

замен часто рассматривается их локализация внутри сайтов связывания факторов транскрипции (ТФ), а также влияние замен на аффинность ТФ и ДНК [80, 81]. Для описания эффектов генетических замен на связывание ТФ используются различные модели их сайтов связывания, например, основанные на позиционно-весовых матрицах (ПВМ) [45], методе опорных векторов [82] или искусственных нейронных сетях [83-85]. Среди различных методов моделирования мотивов, наиболее популярным остаётся использование позиционно-весовых матриц (ПВМ). Этот подход получил широкое распространение благодаря своей эффективности и универсальности [86-88]. Несмотря на широкий спектр позиционно весовых матриц (ПВМ), построенных с использованием различных программ на основе данных различных экспериментальных методов [86, 89], выбор оптимальной матрицы для анализа регуляторных ОНП является сложной задачей [90, 91]. Использование ПВМ, плохо отражающих связывание ТФ для анализа эффектов вариантов, может привести к неверной оценке и интерпретации влияния вариантов. В отсутствии золотого стандарта ПВМ для анализа эффектов замен, исследователи могут применять неоптимальные ПВМ [92], что указывает на необходимость разработки специализированных инструментов для оценки влияния вариантов на аффинность ТФ и ДНК.

В ходе проведения крупномасштабных проектов по исследованию генома, таких как ENCODE [3, 93] и GTEX [68], был создан обширный массив данных секвенирования, охватывающий множество типов клеток. Большая часть экспериментов находятся в открытом доступе и предоставляют возможность использования накопленного массива данных о связывании факторов транскрипции для унифицированного поиска событий аллель-специфичного связывания.

Цель и задачи исследования

Целью исследования является построение атласа гетерозиготных однонуклеотидных полиморфизмов генома человека, для которых характерно аллель-специфичное связывание факторов транскрипции.

Для достижения цели были поставлены и решены следующие задачи:

• Разработать методологию для систематической идентификации сайтов аллель-специфичного связывания факторов транскрипции, с учетом систематических ошибок, возникающих при картировании прочтений на референсный геном и наличия хромосомных аберраций в клеточных линиях;

• Создать открыто доступную исследовательскому сообществу базу данных аллель-специфичного связывания факторов транскрипции человека и веб-сервис для анализа обогащения произвольной выборки гетерозиготных вариантов событиями аллель-специфичного связывания;

• Разработать методику для тестирования позиционно-весовых матриц, которые характеризуют паттерны узнавания транскрипционных факторов в нуклеотидных последовательностях, с помощью сравнения дисбаланса в количестве прочтений, картированных на аллели гетерозиготных сайтов и сравнить ее эффективность в предсказании эффектов замен на аффинность ТФ к ДНК.

Теоретическая и практическая значимость работы

Теоретическая значимость исследования заключается в создании нового статистического метода определения однонуклеотидных вариантов, для которых характерно аллель-специфичное связывания ТФ. Суть метода заключается в учёте систематических ошибок, возникающих как из-за вариации числа геномных копий, так и в результате неправильного картирования прочтений

на референсный геном. Для этого используется приближенная функция распределения вероятности количества прочтений для каждого из аллелей гетерозиготного варианта, вычисленная как смесь отрицательных биномиальных распределений. Разработанный метод позволяет учитывать ошибки картирования даже в участках генома с вариацией числа геномных копий: первая мода смеси отражает случаи, когда референсный аллель имеет больше копий, чем альтернативный, а вторая мода соответствует ситуациям, когда у референсного аллеля меньше аллельных копий.

Практическая значимость работы заключается в том, что впервые создан вычислительный инструмент для определения соотношения доз гена (копийности) между аллелями, основанный на анализе количества аллельных прочтений на нефазированных гетерозиготных вариантах в данных обогащенного секвенирования - BABACHI github.com/autosome-ru/BABACHI. Алгоритм имплементирован на языке Python и позволяет выделять участки с сопоставимым аллельным дисбалансом с помощью байесовской сегментации генома, используя метод максимального правдоподобия. Разработанные в работе методы были использованы для создания и размещения в открытом доступе ресурсов, содержащих важную информацию для регуляторной геномики человека. Это база данных ADASTRA adastra.autosome.org, содержащая индивидуальные варианты, влияющие на связывание транскрипционных факторов и веб-сервис ANANASTRA ananastra.autosome.org позволяющий определять общий транскрипционный фактор для нескольких гетерозиготных вариантов, проявляющих аллель-специфичное неравновесие прочтений. Найденные аллель-специфичные варианты могут использоваться не только как источник исходных данных для моделей машинного обучения по предсказанию эффектов геномных замен [30, 94, 95], но также и для выявления причинных замен из регионов с неравновесным сцеплением и последующей интерпретацией молекулярных механизмов влияния этих замен на регуляцию генов. Наконец, результаты работы также нашли свое применение при создании обновленной версии базы данных HOCOMOCO, содержащей позиционные весовые матрицы для факторов

транскрипции человека и мыши hocomoco12.autosome.org.

Положения, выносимые на защиту

• Показано, что учет копийности протяженных участков генома человека значительно улучшает точность определения вариантов, для которых характерна аллель-специфичная активность, включая аллель-специфичное связывание регуляторных белков.

• Показано, что моделирование количества прочтений, картированных на аллели гетерозиготных вариантов, с помощью отрицательных биномиальных распределений позволяет учесть систематическую ошибку картирования прочтений.

• Создана обширная база данных событий аллель-специфичного связывания факторов транскрипции на основе находящихся в открытом доступе гетерогенных результатов экспериментов ChIP-Seq для различных факторов транскрипции человека.

• Показано, что целенаправленный подбор позиционно-весовых матриц позволяет количественно предсказать аллель-специфичное связывание транскрипционных факторов.

Личный вклад автора

В работах [96, 97] автором диссертации реализован алгоритм для поиска фонового аллельного дисбаланса, а также статистическая модель для определения аллель-специфичного связывания ТФ и вычислительный конвейер, работающий с исходными файлами выравниваний. Автором также были реализованы база данных геномных вариантов, программный и пользовательский интерфейсы для доступа к этой базе данных. В работе [98] автором произведен отбор наилучших позиционно-весовых матриц для предсказания альтернативного связывания ТФ на олигонуклеотидах, содержащих полиморфные аллели, по данным SNP-SELEX [92], подсчет метрик качества и сравнение с моделью deltaSVM. В работе [99]

автором выполнен вычислительный анализ кандидатных мотивов, полученных из пиков ChIP-Seq, и подготовлены отчеты для последующего экспертного курирования полученных позиционно-весовых матриц.

Автор диссертации участвовал в подготовке рукописей публикаций и интерпретации результатов.

Структура и объем диссертации

Диссертация состоит из введения, 3 глав, заключения и списка литературы. Общий объем диссертации составляет 104 страниц, включая 1 таблицу и 17 рисунков. Список литературы содержит 177 наименований на 21 странице.

Апробация результатов исследования

По результатам исследования опубликовано 8 печатных работ, в том числе 4 статьи в рецензируемых Q1 журналах индексируемых в WOS. Результаты работы были представлены на международных конференциях: SSML'20 (Москва, 2020), SSML'21 (Москва, 2021), MCCMB'21 (Москва, 2021), MACSPRO'21 (Москва,

2021), Encoding and Decoding Function in the Genome (Бриджтаун, Барбадос,

2022), Probabilistic Modeling in Genomics (Колд-спринг-харбор, США, 2023). По результатам исследования были опубликованы 4 статьи в рецензируемых Q1 журналах индексируемых в WOS.

Публикации по теме исследования

По результатам исследования опубликовано 7 печатных работ, в том числе 4 статьи в рецензируемых научных журналах из списка ВАК.

Глава 1. Обзор литературы

1.1 Регуляция экспрессии генов

Регуляция экспрессии генов является фундаментальным процессом в живых организмах, который позволяет клеткам адаптироваться к изменяющимся условиям окружающей среды или текущим специфическим потребностям, играя критическую роль в поддержании гомеостаза клетки и обеспечении ее функционирования в различных тканях и органах [20, 100, 101]. Этот процесс обеспечивает контроль над тем, какие белки должны быть синтезированы и в каком количестве, в зависимости от времени и условий [102-104]. Основными процессами, обеспечивающими регуляции экспрессии генов на молекулярном уровне являются изменение активности транскрипции генов [105], регуляция сплайсинга, экспорта из ядра, и стабильности мРНК в цитоплазме [106], контроль пост-транскрипционных модификаций [107], а также процессы регуляции трансляции и пост-трансляционные модификации белков.

Понимание механизмов, лежащих в основе регуляции экспрессии генов, имеет ключевое значение для развития медицины и фармакологии, поскольку нарушения этих процессов часто являются причиной многих заболеваний [108]. В частности, изучение механизмов регуляции активности транскрипции может способствовать созданию новых методов лечения и разработке фармацевтических препаратов, нацеленных на конкретные регуляторные регионы генома [109].

Регуляция активности транскрипции - это комплексный процесс, охватывающий различные аспекты, включая взаимодействия между белками и ДНК, между различными белками [110], а также эпигенетические изменения, например, метилирование ДНК и модификации гистонов [111]. Эти разнообразные факторы в совокупности определяют активность транскрипции различных промоторов гена, обеспечивая адекватную реакцию клеток на

изменения внешней среды и их эффективное функционирование [112, 113]. В следующем разделе мы сфокусируемся на изучении роли транскрипционных факторов (ТФ) - ключевых белков, взаимодействующих с определенными регуляторными участками ДНК, влияя тем самым на активность генов.

1.2 Высокопроизводительные экспериментальные методы для изучения взаимодействий между транскрипционными факторами и ДНК

Хотя классические методы, такие как chip [114], вестерн-блот [115], футпринтинг с помощью ДНКазы I [116], долгое время были основой для изучения взаимодействий между транскрипционными факторами и ДНК, сегодня ключевую роль играют методы высокопроизводительного секвенирования. В этом разделе представлен обзор двух основных экспериментальных методов, применяемых для изучения взаимодействий между транскрипционными факторами (ТФ) и ДНК.

1.2.1 Изучение связывания ТФ in vivo с помощью технологии ChIP-Seq

Одним из ключевых методов для исследования взаимодействия белков с ДНК в масштабе всего генома является технология ChIP-Seq [117, 118] (иммунопреципитация хроматина с последующим секвенированием). Этот метод используется для выявления участков ДНК, которые находятся в прямом физическом контакте с определенными транскрипционными факторами или другими белками.

В рамках этой технологии ключевым является применение специальных антител, нацеленных на белки, связанные с ДНК с помощью индуцированных ковалентных сшивок [119]. Этот процесс позволяет изолировать участки ДНК, которые прямо взаимодействуют с целевыми белками и имеют важное значение для понимания процессов регуляции генов. Сначала ДНК и связанные с ней

белки стабилизируются путем образование обратимых сшивок с помощью формальдегида. Сформированные ДНК-белковые комплексы подвергаются ультразвуковой обработке и последующему иммунному осаждению с использованием антител, специфичных к целевому белку. После разрушения сшивок и очистки ДНК, получившиеся фрагменты секвенируют, а результаты секвенирования анализируются для определения участков ДНК, где происходило связывание определенного транскрипционного фактора.

В исследованиях с использованием метода ChIP-Seq часто применяются следующие типы контрольных экспериментов [119]:

• "Input" контроль - ДНК, выделенная из тех же клеток, в тех же условиях, но без иммунного осаждения.

• "IgG mock" контроль - используются антитела, связывающие незначимые внеядерные антигены и позволяющие изолировать случайные фрагменты ДНК в процессе иммунопреципитации.

Контроль "IgG mock" часто приводит к получению небольшого количества ДНК, поэтому "input" контроль чаще используется для нормализации сигнала в экспериментах ChIP-Seq. В этом контексте статистическая обработка данных становится критически важной для отличия реального сигнала от фонового шума.

Вычислительные методы, таким образом, играют ключевую роль в выявлении регионов с повышенной концентрацией прочтений, или "пиков", что указывает на места связывания транскрипционных факторов [120]. В ходе поиска пиков анализируется распределение прочтений по всей длине генома используя специализированные алгоритмы, такие как MACS [120], SISSRS [121], hotspot2 [122] и другие. Обнаруженные пики указывают на участки ДНК, с которыми взаимодействуют транскрипционные факторы или другие белки.

1.2.2 Изучение связывания ТФ in vitro с помощью технологии HT-SELEX

HT-SELEX представляет собой in vitro технологию, используемую для идентификации коротких последовательностей ДНК или РНК, которые обладают высокой аффинностью связывания к конкретным белкам, включая транскрипционные факторы [123]. Метод HT-SELEX основан на серии циклов связывания, отмывки и амплификации, направленных на отбор последовательностей с наибольшей аффинностью к целевому веществу.

В ходе эксперимента HT-SELEX библиотека случайных последовательностей ДНК или РНК смешивается с целевым белком [124]. Те последовательности, которые эффективно связываются с белком, изолируются и подвергаются амплификации для следующего раунда отбора. Повторение этого процесса через несколько циклов приводит к обогащению образца последовательностями с высокой аффинностью к целевому белку.

Особенностью HT-SELEX является его in vitro природа, что позволяет проводить эксперименты в контролируемых условиях. Это позволяет убедиться, что отобранные последовательности специфично связываются именно с целевым белком, а не являются результатом неспецифичного связывания.

1.3 Моделирование мотивов связывания факторов транскрипции

Многие транскрипционные факторы (ТФ) специфично связываются с ДНК, проявляя предпочтение к определенным последовательностям, которые содержат вхождения характерных коротких паттернов, известных как мотивы [125]. На данный момент, было разработано множество алгоритмов для поиска, методов представления и моделирования мотивов сайтов связывания ТФ [126, 127], каждый из которых подходит для конкретных типов данных и исследовательских задач. Наиболее известные и простые из этих алгоритмов включают использование консенсусных последовательностей [128] и позиционно-весовых

матриц (ПВМ) [129]. Консенсусные последовательности выявляют участки, чаще всего встречающиеся в местах связывания ТФ, в то время как ПВМ дают более подробное представление, описывающее предпочтение или отсутствие предпочтения конкретного нуклеотида на конкретной позиции. В этой модели высоко консервативные позиции выравнивания соответствуют позициям сайтов связывания, которые являются более важными для ДНК-белкового узнавания.

Современные методы, включая глубокие нейронные сети (например сверточные нейронные сети), предоставляют мощные инструменты для анализа больших объемов данных и выявления сложных паттернов взаимодействия ТФ с ДНК, например:

• Нейронные сети эффективны в работе с последовательностями ДНК, поскольку они могут автоматически выявлять важные мотивы в этих последовательностях [84]. Наиболее популярны сверточные нейронные сети, которые используют слои свертки для выделения важных для предсказаний признаков. Таким образом они позволяют обнаружить сложные паттерны взаимодействия ТФ и ДНК, которые могут быть упущены при использовании традиционных методов.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Абрамов Сергей Александрович, 2024 год

Список литературы

1. Finishing the euchromatic sequence of the human genome // Nature. — 2004. — Oct.— Vol. 431, no. 7011.—P. 931-945. — DOI: 10.1038/nature03001.

2. The Sequence of the Human Genome / J. C. Venter [et al.] // Science. — 2001. — Feb. — Vol. 291, no. 5507. — P. 1304-1351. — DOI: 10 . 1126/science . 1058040.

3. An integrated encyclopedia of DNA elements in the human genome // Nature. — 2012. — Sept. — Vol. 489, no. 7414. — P. 57-74. — DOI: 10 . 1038 / nature11247.

4. Latchman D. S. Transcription factors: An overview // The International Journal of Biochemistry & Cell Biology. — 1997. — Dec. — Vol. 29, no. 12. — P. 13051312. — DOI: 10.1016/s1357-2725(97)00085-x.

5. Bulger M., Groudine M. Functional and Mechanistic Diversity of Distal Transcription Enhancers // Cell. — 2011. — Feb. — Vol. 144, no. 3. — P. 327339. — DOI: 10.1016/j.cell.2011.01.024.

6. Ptashne M., Gann A. Transcriptional activation by recruitment // Nature. — 1997. — Apr. — Vol. 386, no. 6625. — P. 569-577. — DOI: 10 . 1038 / 386569a0.

7. The Human Transcription Factors / S. A. Lambert [et al.] // Cell. — 2018. — Feb. — Vol. 172, no. 4. — P. 650-665. — DOI: 10 . 1016/j . cell. 2018. 01. 029.

8. Kang Y., Massague J. Epithelial-Mesenchymal Transitions // Cell. — 2004. — Aug. — Vol. 118, no. 3. — P. 277-279. — DOI: 10 . 1016/j . cell. 2004. 07. 011.

9. The IkB-NF-kB Signaling Module: Temporal Control and Selective Gene Activation / A. Hoffmann [et al.] // Science. — 2002. — Nov. — Vol. 298, no. 5596.—P. 1241-1245. — DOI: 10.1126/science.1071914.

10. Initial sequencing and analysis of the human genome / E. S. Lander [et al.] // Nature. — 2001. — Feb. — Vol. 409, no. 6822. — P. 860-921. — DOI: 10 . 1038/35057062.

11. McCarroll S. A., Altshuler D. M. Copy-number variation and association studies of human disease // Nature Genetics. — 2007. — June. — Vol. 39, S7. — S37-S42. — DOI: 10.1038/ng2080.

12. Five Years of GWAS Discovery / P. M. Visscher [et al.] // The American Journal of Human Genetics. — 2012. — Jan. — Vol. 90, no. 1. — P. 7-24. — DOI: 10.1016/j.ajhg.2011.11.029.

13. A map of human genome sequence variation containing 1.42 million single nucleotide polymorphisms / R. Sachidanandam [et al.] // Nature. — 2001. — Feb. — Vol. 409, no. 6822. — P. 928-933. — DOI: 10.1038/35057149.

14. Brookes A. J. The essence of SNPs // Gene. — 1999. — July. — Vol. 234, no. 2.— P. 177-186.—DOI: 10.1016/s0378-1119(99)00219-x.

15. A sequence-based variation map of 8.27 million SNPs in inbred mouse strains / K. A. Frazer [etal.] //Nature. —2007. — July. — Vol. 448, no. 7157. —P. 1050-1053.—DOI: 10.1038/nature06067.

16. Global variation in copy number in the human genome / R. Redon [et al.] // Nature. — 2006. — Nov. — Vol. 444, no. 7118. — P. 444-454. — DOI: 10 . 1038/nature05329.

17. Origins and functional impact of copy number variation in the human genome / D. F. Conrad [et al.] // Nature. — 2009. — Oct. — Vol. 464, no. 7289. — P. 704-712.—DOI: 10.1038/nature08516.

18. A global reference for human genetic variation / A. Auton [et al.] // Nature. — 2015. — Sept. — Vol. 526, no. 7571. — P. 68-74. — DOI: 10 . 1038 / nature15393.

19. Partitioning Heritability of Regulatory and Cell-Type-Specific Variants across 11 Common Diseases / A. Gusev [et al.] // The American Journal of Human Genetics. —2014.—Nov. —Vol. 95, no. 5. —P. 535-552.—DOI: 10.1016/ j.ajhg.2014.10.004.

20. Deplancke B., Alpern D., Gardeux V. The Genetics of Transcription Factor DNA Binding Variation // Cell. — 2016. — July. — Vol. 166, no. 3. — P. 538-554. — DOI: 10.1016/j.cell.2016.07.012.

21. A haplotype map of the human genome // Nature. — 2005. — Oct. — Vol. 437, no. 7063. — P. 1299-1320. — DOI: 10.1038/nature04226.

22. Whole-Genome Patterns of Common DNA Variation in Three Human Populations / D. A. Hinds [et al.] // Science. — 2005. — Feb. — Vol. 307, no. 5712.—P. 1072-1079.—DOI: 10.1126/science.1105436.

23. Ward L. D., Kellis M. Interpreting noncoding genetic variation in complex traits and human disease // Nature Biotechnology. — 2012. — Nov. — Vol. 30, no. 11.—P. 1095-1106.—DOI: 10.1038/nbt.2422.

24. Ng P. C., Henikoff S. Accounting for Human Polymorphisms Predicted to Affect Protein Function // Genome Research. — 2002. — Mar. — Vol. 12, no. 3. — P. 436-446. — DOI: 10.1101/gr.212802.

25. Evolution and Functional Impact of Rare Coding Variation from Deep Sequencing of Human Exomes / J. A. Tennessen [et al.] // Science. — 2012. — July.—Vol. 337, no. 6090.—P. 64-69.—DOI: 10.1126/science.1219240.

26. Human Gene Mutation Database (HGMD®): 2003 update: HGMD 2003 UPDATE / P. D. Stenson [et al.] // Human Mutation. — 2003. — Apr. — Vol. 21, no. 6.—P. 577-581.—DOI: 10.1002/humu.10212.

27. Mattick J. S. RNA regulation: a new genetics? // Nature Reviews Genetics. — 2004. — Apr. — Vol. 5, no. 4.—P. 316-323. — DOI: 10.1038/nrg1321.

28. Wray G. A. The Evolution of Transcriptional Regulation in Eukaryotes // Molecular Biology and Evolution. — 2003. — May. — Vol. 20, no. 9. — P. 1377-1419.—DOI: 10.1093/molbev/msg140.

29. rSNP_Guide: An integrated database-tools system for studying SNPs and site-directed mutations in transcription factor binding sites / J. V. Ponomarenko [et al.] // Human Mutation. — 2002. — Sept. — Vol. 20, no. 4. — P. 239-248. — DOI: 10.1002/humu.10116.

30. Allele-specific transcription factor binding to common and rare variants associated with disease and gene expression / M. Cavalli [et al.] // Human Genetics. — 2016. — Mar. — Vol. 135, no. 5. — P. 485-497. — DOI: 10 . 1007/s00439-016-1654-x.

31. GTRD: an integrated view of transcription regulation / S. Kolmykov [et al.] // Nucleic Acids Research. — 2020. — Nov. — Vol. 49, no. D1. — P. D104-D111.—DOI: 10.1093/nar/gkaa1057.

32. Potential etiologic and functional implications of genome-wide association loci for human diseases and traits / L. A. Hindorff [et al.] // Proceedings of the National Academy of Sciences. — 2009. — June. — Vol. 106, no. 23. — P. 9362-9367. — DOI: 10.1073/pnas.0903103106.

33. A genome-wide association study of global gene expression / A. L. Dixon [et al.] // Nature Genetics. — 2007. — Sept. — Vol. 39, no. 10. — P. 1202-1207. — DOI: 10.1038/ng2109.

34. Complement Factor H Polymorphism in Age-Related Macular Degeneration / R. J. Klein [et al.] // Science. — 2005. — Apr. — Vol. 308, no. 5720. — P. 385389. — DOI: 10.1126/science.1109557.

35. Hill W. G., Mackay T. F. C. D. S. Falconer and Introduction to Quantitative Genetics // Genetics. — 2004. — Aug. — Vol. 167, no. 4. — P. 1529-1536. — DOI: 10.1093/genetics/167.4.1529.

36. Kearsey M. J. The principles of QTL analysis (a minimal mathematics approach) // Journal of Experimental Botany. — 1998. — Oct. — Vol. 49, no. 327.—P. 1619-1623.—DOI: 10.1093/jxb/49.327.1619.

37. DNaseI sensitivity QTLs are a major determinant of human expression variation / J. F. Degner [et al.] // Nature. — 2012. — Feb. — Vol. 482, no. 7385. — P. 390-394. — DOI: 10.1038/nature10808.

38. Sun W., Hu Y. eQTL Mapping Using RNA-seq Data // Statistics in Biosciences. — 2012. — June. — Vol. 5, no. 1. — P. 198-219. — DOI: 10 . 1007/s12561-012-9068-3.

39. Transcriptome and genome sequencing uncovers functional variation in humans / T. Lappalainen [et al.] // Nature. — 2013. — Sept. — Vol. 501, no. 7468. — P. 506-511.—DOI: 10.1038/nature12531.

40. Albert F. W., Kruglyak L. The role of regulatory variation in complex traits and disease//Nature Reviews Genetics. — 2015. — Feb. — Vol. 16, no. 4.—P. 197-212.—DOI: 10.1038/nrg3891.

41. 10 Years of GWAS Discovery: Biology, Function, and Translation / P. M. Visscher [et al.] // The American Journal of Human Genetics. — 2017. — July. — Vol. 101, no. 1. —P. 5-22.—DOI: 10.1016/j.ajhg.2017.06.005.

42. Schmid C. D., Bucher P. ChIP-Seq Data Reveal Nucleosome Architecture of Human Promoters//Cell. — 2007.— Nov.— Vol. 131, no. 5.—P. 831-832.— DOI: 10.1016/j.cell.2007.11.017.

43. High-Resolution Profiling of Histone Methylations in the Human Genome / A. Barski [et al.] // Cell. — 2007. — May. — Vol. 129, no. 4. — P. 823-837. — DOI: 10.1016/j.cell.2007.05.009.

44. AlleleSeq: analysis of allele-specific expression and binding in a network framework / J. Rozowsky [et al.] // Molecular Systems Biology. — 2011. — Jan.— Vol. 7, no. 1.—DOI: 10.1038/msb.2011.54.

45. Large-scale identification of sequence variants influencing human transcription factor occupancy in vivo / M. T. Maurano [et al.] // Nature Genetics. — 2015. — Oct.— Vol. 47, no. 12.— P. 1393-1401.—DOI: 10.1038/ng.3432.

46. iASeq: integrative analysis of allele-specificity of protein-DNA interactions in multiple ChIP-seq datasets / Y. Wei [et al.] // BMC Genomics. — 2012. — Nov.—Vol. 13, no. 1.—DOI: 10.1186/1471-2164-13-681.

47. ABC: a tool to identify SNVs causing allele-specific transcription factor binding from ChIP-Seq experiments / S. D. Bailey [et al.] // Bioinformatics. — 2015. — May.—Vol. 31,no. 18. —P. 3057-3059.—DOI: 10.1093/bioinformatics/ btv321.

48. A uniform survey of allele-specific binding and expression over 1000-Genomes-Project individuals / J. Chen [et al.] // Nature Communications. — 2016. — Apr. — Vol. 7, no. 1. — DOI: 10.1038/ncomms11101.

49. Evaluating the impact of single nucleotide variants on transcription factor binding / W. Shi [et al.] // Nucleic Acids Research. — 2016. — Aug. — gkw691. — DOI: 10.1093/nar/gkw691.

50. BaalChIP: Bayesian analysis of allele-specific transcription factor binding in cancer genomes /1. de Santiago [et al.] // Genome Biology. — 2017. — Feb. — Vol. 18, no. 1.—DOI: 10.1186/s13059-017-1165-7.

51. Novel approach to functional SNPs discovery from genome-wide data reveals promising variants for colon cancer risk / E. E. Korbolina [et al.] // Human Mutation. —2018.—Apr.—Vol. 39, no. 6.—P. 851-859.—DOI: 10.1002/ humu.23425.

52. Allele specific chromatin signals, 3D interactions, and motif predictions for immune and B cell related diseases / M. Cavalli [et al.] // Scientific Reports. — 2019. — Feb. — Vol. 9, no. 1. — DOI: 10.1038/s41598-019-39633-0.

53. Cofactor Binding Evokes Latent Differences in DNA Binding Specificity between Hox Proteins / M. Slattery [et al.] // Cell. — 2011. — Dec. — Vol. 147, no. 6. — P. 1270-1282. — DOI: 10.1016/j.cell.2011.10.053.

54. Reiter F., Wienerroither S., Stark A. Combinatorial function of transcription factors and cofactors // Current Opinion in Genetics & Development. — 2017. — Apr. — Vol. 43. — P. 73-81. — DOI: 10.1016/j.gde.2016.12.007.

55. Stormo G. D. DNA binding sites: representation and discovery // Bioinformatics. — 2000. — Jan. — Vol. 16, no. 1. — P. 16-23. — DOI: 10.1093/bioinformatics/16.1.16.

56. Functional Discovery via a Compendium of Expression Profiles / T. R. Hughes [et al.] // Cell. — 2000. — July. — Vol. 102, no. 1. — P. 109-126. — DOI: 10.1016/s0092-8674(00)00015-5.

57. Effect of read-mapping biases on detecting allele-specific expression from RNA-sequencing data / J. F. Degner [et al.] // Bioinformatics. — 2009. — Oct. — Vol. 25, no. 24. — P. 3207-3212. — DOI: 10.1093/bioinformatics/btp579.

58. Free-access copy-number variant detection tools for targeted next-generation sequencing data / I. Roca [et al.] // Mutation Research/Reviews in Mutation Research. — 2019. — Jan. — Vol. 779. — P. 114-125. — DOI: 10 . 1016/ j.mrrev.2019.02.005.

59. Structural variant calling: the long and the short of it / M. Mahmoud [et al.] // Genome Biology. — 2019.— Nov. — Vol. 20, no. 1.—DOI: 10.1186/s13059-019-1828-7.

60. Carter N. P. Methods and strategies for analyzing copy number variation using DNA microarrays // Nature Genetics. — 2007. — June. — Vol. 39, S7. — S16-S21. —DOI: 10.1038/ng2028.

61. CNVnator: An approach to discover, genotype, and characterize typical and atypical CNVs from family and population genome sequencing / A. Abyzov [et al.] // Genome Research. — 2011. — Feb. — Vol. 21, no. 6. — P. 974-984. — DOI: 10.1101/gr.114876.110.

62. High-resolution mapping of copy-number alterations with massively parallel sequencing / D. Y. Chiang [et al.] // Nature Methods. — 2008. — Nov. — Vol. 6, no. 1.—P. 99-103.—DOI: 10.1038/nmeth.1276.

63. Regulatory Variants and Disease: The E-Cadherin -160C/A SNP as an Example / G. Li [et al.] // Molecular Biology International. — 2014. — Sept. — Vol. 2014.—P. 1-9.—DOI: 10.1155/2014/967565.

64. Systematic Localization of Common Disease-Associated Variation in Regulatory DNA / M. T. Maurano [et al.] // Science. — 2012. — Sept. — Vol. 337, no. 6099.—P. 1190-1195.—DOI: 10.1126/science.1222794.

65. Benefits and limitations of genome-wide association studies / V. Tam [et al.] // Nature Reviews Genetics. — 2019. — May. — Vol. 20, no. 8. — P. 467-484. — DOI: 10.1038/s41576-019-0127-1.

66. Finding the missing heritability of complex diseases / T. A. Manolio [et al.] // Nature. — 2009. — Oct. — Vol. 461, no. 7265. — P. 747-753. — DOI: 10 . 1038/nature08494.

67. Visel A., Rubin E. M., Pennacchio L. A. Genomic views of distant-acting enhancers // Nature. — 2009. — Sept. — Vol. 461, no. 7261. — P. 199-205. — DOI: 10.1038/nature08451.

68. The Genotype-Tissue Expression (GTEx) pilot analysis: Multitissue gene regulation in humans / K. G. Ardlie [et al.] // Science. — 2015. — May. — Vol. 348, no. 6235. — P. 648-660. — DOI: 10.1126/science.1262110.

69. Genetics of gene expression surveyed in maize, mouse and man / E. E. Schadt [etal.] //Nature. — 2003. — Mar. — Vol. 422, no. 6929. — P. 297-302. — DOI: 10.1038/nature01434.

70. Tools and best practices for data processing in allelic expression analysis / S. E. Castel [et al.] // Genome Biology. — 2015. — Sept. — Vol. 16, no. 1. — DOI: 10.1186/s13059-015-0762-6.

71. MBASED: allele-specific expression detection in cancer tissues and cell lines / O. Mayba [et al.] // Genome Biology. — 2014. — Aug. — Vol. 15, no. 8. — DOI: 10.1186/s13059-014-0405-3.

72. Replicate sequencing libraries are important for quantification of allelic imbalance / A. Mendelevich [et al.] // Nature Communications. — 2021. — June.—Vol. 12, no. 1.—DOI: 10.1038/s41467-021-23544-8.

73. Transcriptome genetics using second generation sequencing in a Caucasian population / S. B. Montgomery [et al.] // Nature. — 2010. — Mar. — Vol. 464, no. 7289. — P. 773-777. — DOI: 10.1038/nature08903.

74. Pastinen T. Genome-wide allele-specific analysis: insights into regulatory variation // Nature Reviews Genetics. — 2010. — June. — Vol. 11, no. 8. — P. 533-538.—DOI: 10.1038/nrg2815.

75. Schliekelman P. Statistical Power of Expression Quantitative Trait Loci for Mapping of Complex Trait Loci in Natural Populations // Genetics. — 2008. — Apr. — Vol. 178, no. 4. — P. 2201-2216. — DOI: 10 . 1534/genetics . 107 . 076687.

76. Pooled ChIP-Seq Links Variation in Transcription Factor Binding to Complex Disease Risk / A. K. Tehranchi [et al.] // Cell. — 2016. — Apr. — Vol. 165, no. 3.—P. 730-741. —DOI: 10.1016/j.cell.2016.03.041.

77. A Genome-wide Framework for Mapping Gene Regulation via Cellular Genetic Screens / M. Gasperini [et al.] // Cell. — 2019. — Jan. — Vol. 176, no. 1/2. — 377-390.e19. — DOI: 10.1016/j.cell.2018.11.029.

78. Promoter-interacting expression quantitative trait loci are enriched for functional genetic variants / V. Chandra [et al.] // Nature Genetics. — 2020. — Dec. — Vol. 53, no. 1.—P. 110-119.—DOI: 10.1038/s41588-020-00745-3.

79. Heritable Individual-Specific and Allele-Specific Chromatin Signatures in Humans / R. McDaniell [et al.] // Science. — 2010. — Apr. — Vol. 328, no. 5975. — P. 235-239. — DOI: 10.1126/science.1184655.

80. Genome-wide analysis of ETS-family DNA-binding in vitro and in vivo / G.-H. Wei [et al.] // The EMBO Journal. — 2010. — June. — Vol. 29, no. 13. — P. 2147-2160. — DOI: 10.1038/emboj.2010.106.

81. Variation in Transcription Factor Binding Among Humans / M. Kasowski [et al.] // Science. — 2010. — Apr. — Vol. 328, no. 5975. — P. 232-235. — DOI: 10.1126/science.1183621.

82. gkmSVM: an R package for gapped-kmer SVM / M. Ghandi [et al.] // Bioinformatics. — 2016. — Apr. — Vol. 32, no. 14. — P. 2205-2207. — DOI: 10.1093/bioinformatics/btw203.

83. Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning / B. Alipanahi [et al.] // Nature Biotechnology. — 2015. — July. — Vol. 33, no. 8.—P. 831-838.—DOI: 10.1038/nbt.3300.

84. Zhou J., Troyanskaya O. G. Predicting effects of noncoding variants with deep learning-based sequence model // Nature Methods. — 2015. — Aug. — Vol. 12, no. 10.—P. 931-934.—DOI: 10.1038/nmeth.3547.

85. What Do Neighbors Tell About You: The Local Context of Cis-Regulatory Modules Complicates Prediction of Regulatory Variants / D. D. Penzar [et al.] // Frontiers in Genetics. — 2019. — Oct. — Vol. 10. — DOI: 10 . 3389/fgene . 2019.01078.

86. Wasserman W. W., Sandelin A. Applied bioinformatics for the identification of regulatory elements // Nature Reviews Genetics. — 2004. — Apr. — Vol. 5, no. 4. — P. 276-287. — DOI: 10.1038/nrg1315.

87. Diversity and Complexity in DNA Recognition by Transcription Factors / G. Badis [et al.] // Science. — 2009. — June. — Vol. 324, no. 5935. — P. 17201723. — DOI: 10.1126/science.1162327.

88. DNA-Binding Specificities of Human Transcription Factors / A. Jolma [et al.] // Cell. — 2013. — Jan. — Vol. 152, no. 1/2. — P. 327-339. — DOI: 10 . 1016/ j.cell.2012.12.009.

89. Matys V. TRANSFAC(R): transcriptional regulation, from patterns to profiles // Nucleic Acids Research. — 2003. — Jan. — Vol. 31, no. 1. — P. 374-378. — DOI: 10.1093/nar/gkg108.

90. DNA Shape Features Improve Transcription Factor Binding Site Predictions In Vivo / A. Mathelier [et al.] // Cell Systems. — 2016. — Sept. — Vol. 3, no. 3. — 278-286.e4. — DOI: 10.1016/j.cels.2016.07.001.

91. Evaluation of methods for modeling transcription factor sequence specificity / M. T. Weirauch [et al.] // Nature Biotechnology. — 2013. — Jan. — Vol. 31, no. 2. — P. 126-134. — DOI: 10.1038/nbt.2486.

92. Systematic analysis of binding of transcription factors to noncoding variants / J. Yan [et al.] // Nature. — 2021. — Jan. — Vol. 591, no. 7848. — P. 147-151. — DOI: 10.1038/s41586-021-03211-0.

93. Expanded encyclopaedias of DNA elements in the human and mouse genomes / F. Abascal [et al.] // Nature. — 2020. — July. — Vol. 583, no. 7818. — P. 699710. — DOI: 10.1038/s41586-020-2493-4.

94. Allele-specific transcription factor binding as a benchmark for assessing variant impact predictors / O. Wagih [et al.]. — 2018. — Feb. — DOI: 10 . 1101 / 253427.

95. Quang D., Chen Y., Xie X. DANN: a deep learning approach for annotating the pathogenicity of genetic variants // Bioinformatics. — 2014. — Oct. — Vol. 31, no. 5.—P. 761-763.—DOI: 10.1093/bioinformatics/btu703.

96. Landscape of allele-specific transcription factor binding in the human genome / S. Abramov [et al.] // Nature Communications. — 2021. — May. — Vol. 12, no. 1.—DOI: 10.1038/s41467-021-23007-0.

97. ANANASTRA: annotation and enrichment analysis of allele-specific transcription factor binding at SNPs / A. Boytsov [et al.] // Nucleic Acids Research. — 2022. — Apr. — Vol. 50, W1. — W51-W56. — DOI: 10.1093/nar/gkac262.

98. Positional weight matrices have sufficient prediction power for analysis of noncoding variants / A. Boytsov [et al.] // F1000Research. — 2022. — July. — Vol. 11.—P. 33.—DOI: 10.12688/f1000research.75471.3.

99. HOCOMOCO in 2024: a rebuild of the curated collection of binding models for human and mouse transcription factors /1. E. Vorontsov [et al.] // Nucleic Acids Research. — 2023. — Nov. — Vol. 52, no. D1. — P. D154-D163. — DOI: 10.1093/nar/gkad1077.

100. Hobert O. Regulatory logic of neuronal diversity: Terminal selector genes and selector motifs // Proceedings of the National Academy of Sciences. — 2008. — Dec. — Vol. 105, no. 51. — P. 20067-20071. — DOI: 10 . 1073 / pnas . 0806070105.

101. Levine M., Tjian R. Transcription regulation and animal diversity // Nature. — 2003. — July. — Vol. 424, no. 6945. — P. 147-151. — DOI: 10 . 1038/ nature01763.

102. Lee T. I., Young R. A. Transcriptional Regulation and Its Misregulation in Disease // Cell. — 2013. — Mar. — Vol. 152, no. 6. — P. 1237-1251. — DOI: 10.1016/j.cell.2013.02.014.

103. Ptashne M. Regulation of transcription: from lambda to eukaryotes // Trends in Biochemical Sciences. — 2005. — June. — Vol. 30, no. 6. — P. 275-279. — DOI: 10.1016/j.tibs.2005.04.003.

104. Vogel C., Marcotte E. M. Insights into the regulation of protein abundance from proteomic and transcriptomic analyses // Nature Reviews Genetics. — 2012. — Mar. — Vol. 13, no. 4. — P. 227-232. — DOI: 10.1038/nrg3185.

105. High-throughput identification of human SNPs affecting regulatory element activity / J. van Arensbergen [et al.] // Nature Genetics. — 2019. — June. — Vol. 51, no. 7.—P. 1160-1169.—DOI: 10.1038/s41588-019-0455-2.

106. Boo S. H., Kim Y. K. The emerging role of RNA modifications in the regulation of mRNA stability // Experimental & Molecular Medicine. — 2020. — Mar. — Vol. 52, no. 3. — P. 400-408. — DOI: 10.1038/s12276-020-0407-z.

107. Zhao B. S., Roundtree I. A., He C. Post-transcriptional gene regulation by mRNA modifications // Nature Reviews Molecular Cell Biology. — 2016. — Nov. — Vol. 18, no. 1.—P. 31-42.—DOI: 10.1038/nrm.2016.132.

108. IFNL3 mRNA structure is remodeled by a functional non-coding polymorphism associated with hepatitis C virus clearance / Y.-F. Lu [et al.] // Scientific Reports.—2015.—Nov.— Vol. 5, no. 1.—DOI: 10.1038/srep16037.

109. Analyses of non-coding somatic drivers in 2,658 cancer whole genomes / E. Rheinbay [et al.] // Nature. — 2020. — Feb. — Vol. 578, no. 7793. — P. 102111. — DOI: 10.1038/s41586-020-1965-x.

110. Spitz F., Furlong E. E. M. Transcription factors: from enhancer binding to developmental control // Nature Reviews Genetics. — 2012. — Aug. — Vol. 13, no. 9. — P. 613-626. — DOI: 10.1038/nrg3207.

111. Hinman V., Cary G. The evolution of gene regulation // eLife. — 2017. — May. — Vol. 6. — DOI: 10.7554/elife.27291.

112. Bird A. Perceptions of epigenetics // Nature. — 2007. — May. — Vol. 447, no. 7143. — P. 396-398. — DOI: 10.1038/nature05913.

113. Dynan W. S., Tjian R. The promoter-specific transcription factor Sp1 binds to upstream sequences in the SV40 early promoter // Cell. — 1983. — Nov. — Vol. 35, no. 1.—P. 79-87.—DOI: 10.1016/0092-8674(83)90210-6.

114. Orlando V. Mapping chromosomal proteins in vivo by formaldehyde-crosslinked-chromatin immunoprecipitation // Trends in Biochemical Sciences. — 2000. — Mar. — Vol. 25, no. 3. — P. 99-104. — DOI: 10.1016/s0968-0004(99)01535-2.

115. Towbin H., Staehelin T., Gordon J. Electrophoretic transfer of proteins from polyacrylamide gels to nitrocellulose sheets: procedure and some applications. // Proceedings of the National Academy of Sciences. — 1979. — Sept. — Vol. 76, no. 9. — P. 4350-4354. — DOI: 10.1073/pnas.76.9.4350.

116. Sequence-specific binding of glucocorticoid receptor to MTV DNA at sites within and upstream of the transcribed region / F. Payvar [et al.] // Cell. — 1983. — Dec. — Vol. 35, no. 2. — P. 381-392. — DOI: 10 . 1016/0092-8674(83)90171-x.

117. Genome-wide maps of chromatin state in pluripotent and lineage-committed cells / T. S. Mikkelsen [et al.] // Nature. — 2007. — July. — Vol. 448, no. 7153. — P. 553-560. — DOI: 10.1038/nature06008.

118. Genome-Wide Mapping of in Vivo Protein-DNA Interactions / D. S. Johnson [et al.] // Science. — 2007. — June. — Vol. 316, no. 5830. — P. 1497-1502. — DOI: 10.1126/science.1141319.

119. Kaboord B., Perr M. Isolation of Proteins and Protein Complexes by Immunoprecipitation. — 2008. — DOI: 10.1007/978-1-60327-064-9_27.

120. Model-based Analysis of ChIP-Seq (MACS) / Y. Zhang [et al.] // Genome Biology. — 2008. — Sept. — Vol. 9, no. 9. — DOI: 10 . 1186/gb-2008-9-9-r137.

121. Narlikar L., Jothi R. ChIP-Seq Data Analysis: Identification of Protein-DNA Binding Sites with SISSRs Peak-Finder. — 2011. — Nov. — DOI: 10 . 1007/ 978-1-61779-400-1_20.

122. Chromatin accessibility pre-determines glucocorticoid receptor binding patterns / S. John [et al.] // Nature Genetics. — 2011. — Jan. — Vol. 43, no. 3. — P. 264-268. — DOI: 10.1038/ng.759.

123. Ogawa N., Biggin M. D. High-Throughput SELEX Determination of DNA Sequences Bound by Transcription Factors In Vitro. — 2011. — Aug. — DOI: 10.1007/978-1-61779-292-2_3.

124. Multiplexed massively parallel SELEX for characterization of human transcription factor binding specificities / A. Jolma [et al.] // Genome Research. — 2010. — Apr. — Vol. 20, no. 6. — P. 861-873. — DOI: 10.1101/gr.100552.109.

125. D'haeseleer P. What are DNA sequence motifs? // Nature Biotechnology. — 2006. — Apr. — Vol. 24, no. 4. — P. 423-425. — DOI: 10 . 1038/nbt0406-423.

126. Deep and wide digging for binding motifs in ChIP-Seq data / I. V. Kulakovskiy [etal.] //Bioinformatics. — 2010. — Oct. — Vol. 26, no. 20. —P. 2622-2623. — DOI: 10.1093/bioinformatics/btq488.

127. Quantifying similarity between motifs / S. Gupta [et al.] // Genome Biology. — 2007. — Vol. 8, no. 2. — R24. — DOI: 10.1186/gb-2007-8-2-r24.

128. Hertz G. Z., Stormo G. D. Identifying DNA and protein patterns with statistically significant alignments of multiple sequences. // Bioinformatics. — 1999. — July. — Vol. 15, no. 7. — P. 563-577. — DOI: 10 . 1093/bioinformatics/ 15.7.563.

129. HOCOMOCO: expansion and enhancement of the collection of transcription factor binding sites models / I. V. Kulakovskiy [et al.] // Nucleic Acids Research. — 2015. — Nov. — Vol. 44, no. D1. — P. D116-D125. — DOI: 10.1093/nar/gkv1249.

130. Enhanced Regulatory Sequence Prediction Using Gapped k-mer Features / M. Ghandi [et al.] // PLoS Computational Biology / ed. by Q. Morris. — 2014. — July. — Vol. 10, no. 7. — e1003711. — DOI: 10 . 1371 / journal . pcbi . 1003711.

131. A method to predict the impact of regulatory variants from DNA sequence / D. Lee [et al.] // Nature Genetics. — 2015. — June. — Vol. 47, no. 8. — P. 955-961.—DOI: 10.1038/ng.3331.

132. A general approach for discriminative de novo motif discovery from high-throughput data / J. Grau [et al.] // Nucleic Acids Research. — 2013. — Sept. — Vol. 41, no. 21. —e197-e197. — DOI: 10.1093/nar/gkt831.

133. Schneider T. D., Stephens R. Sequence logos: a new way to display consensus sequences // Nucleic Acids Research. — 1990. — Vol. 18, no. 20. — P. 60976100. — DOI: 10.1093/nar/18.20.6097.

134. FROM BINDING MOTIFS IN CHIP-SEQ DATA TO IMPROVED MODELS OF TRANSCRIPTION FACTOR BINDING SITES /1. KULAKOVSKIY [et al.] // Journal of Bioinformatics and Computational Biology. — 2013. — Feb. — Vol. 11, no. 01.— P. 1340004.—DOI: 10.1142/s0219720013400040.

135. Vorontsov I. E., Kulakovskiy I. V., Makeev V. J. Jaccard index based similarity measure to compare transcription factor binding site models // Algorithms for Molecular Biology. — 2013. — Sept. —Vol. 8, no. 1.—DOI: 10.1186/17487188-8-23.

136. Wingender E. Recognition of regulatory regions in genomic sequences // Journal of Biotechnology. — 1994. — June. — Vol. 35, no. 2/3. — P. 273-280. — DOI: 10.1016/0168-1656(94)90041-8.

137. Matlnd and Matlnspector: new fast and versatile tools for detection of consensus matches in nucleotide sequence data / K. Quandt [et al.] // Nucleic Acids Research. — 1995. — Vol. 23, no. 23. — P. 4878-4884. — DOI: 10 . 1093/ nar/23.23.4878.

138. HOCOMOCO: towards a complete collection of transcription factor binding models for human and mouse via large-scale ChIP-Seq analysis / I. V. Kulakovskiy [et al.] // Nucleic Acids Research. — 2017. — Nov. — Vol. 46, no. D1. — P. D252-D259. — DOI: 10.1093/nar/gkx1106.

139. Sandelin A. JASPAR: an open-access database for eukaryotic transcription factor binding profiles // Nucleic Acids Research. — 2004. — Jan. — Vol. 32, no. 90001. — P. 91D-94. — DOI: 10.1093/nar/gkh012.

140. Determination and Inference of Eukaryotic Transcription Factor Sequence Specificity / M. T. Weirauch [et al.] // Cell. — 2014. — Sept. — Vol. 158, no. 6.— P. 1431-1443.—DOI: 10.1016/j.cell.2014.08.009.

141. Factorbook: an updated catalog of transcription factor motifs and candidate regulatory motif sites / H. E. Pratt [et al.] //Nucleic Acids Research. — 2021. — Nov. — Vol. 50, no. D1. — P. D141-D149. — DOI: 10.1093/nar/gkab1039.

142. ClinVar: improving access to variant interpretations and supporting evidence / M. J. Landrum [et al.] // Nucleic Acids Research. — 2017. — Nov. — Vol. 46, no. D1. — P. D1062-D1067. — DOI: 10.1093/nar/gkx1153.

143. The nature and identification of quantitative trait loci: a community's view // Nature Reviews Genetics. — 2003. — Nov. — Vol. 4, no. 11. — P. 911-916. — DOI: 10.1038/nrg1206.

144. Slatkin M. Linkage disequilibrium — understanding the evolutionary past and mapping the medical future // Nature Reviews Genetics. — 2008. — June. — Vol. 9, no. 6. — P. 477-485. — DOI: 10.1038/nrg2361.

145. Genome-Wide Quantitative Enhancer Activity Maps Identified by STARR-seq / C. D. Arnold [et al.] // Science. — 2013. — Mar. — Vol. 339, no. 6123. — P. 1074-1077.—DOI: 10.1126/science.1232542.

146. Hsu P. D., Lander E. S., Zhang F. Development and Applications of CRISPR-Cas9 for Genome Engineering // Cell. — 2014. — June. — Vol. 157, no. 6. — P. 1262-1278.—DOI: 10.1016/j.cell.2014.05.010.

147. Evaluating the necessity of PCR duplicate removal from next-generation sequencing data and a comparison of approaches / M. T. W. Ebbert [et al.] // BMC Bioinformatics. — 2016. — July. — Vol. 17, S7. — DOI: 10 . 1186/s12859-016-1097-3.

148. Somatic copy number mosaicism in human skin revealed by induced pluripotent stem cells / A. Abyzov [et al.] // Nature. — 2012. — Nov. — Vol. 492, no. 7429. — P. 438-442. — DOI: 10.1038/nature11629.

149. Extensive load of somatic CNVs in the human placenta / L. Kasak [et al.] // Scientific Reports. — 2015. — Feb. — Vol. 5, no. 1. — DOI: 10 . 1038/ srep08342.

150. Li W., Olivier M. Current analysis platforms and methods for detecting copy number variation // Physiological Genomics. — 2013. — Jan. — Vol. 45, no. 1.—P. 1-16.—DOI: 10.1152/physiolgenomics.00082.2012.

151. Analysis of variability in high throughput screening data: applications to melanoma cell lines and drug responses / K.-F. Ding [et al.] // Oncotarget. — 2017. — Feb. — Vol. 8, no. 17. — P. 27786-27799. — DOI: 10 . 18632/ oncotarget.15347.

152. The EN-TEx resource of multi-tissue personal epigenomes & variant-impact models / J. Rozowsky [et al.] // Cell. — 2023. — Mar. — Vol. 186, no. 7. — 1493-1511.e40. —DOI: 10.1016/j.cell.2023.02.018.

153. Large inherent variability in data derived from highly standardised cell culture experiments /1. G. Reddin [et al.] // Pharmacological Research. — 2023. — Feb.— Vol. 188.—P. 106671.—DOI: 10.1016/j.phrs.2023.106671.

154. GTRD: a database on gene transcription regulation—2019 update /1. Yevshin [et al.] // Nucleic Acids Research. — 2018. —Nov. — Vol. 47, no. D1. — P. D100-D105. — DOI: 10.1093/nar/gky1128.

155. LangmeadB., Salzberg S. L. Fast gapped-read alignment withBowtie 2//Nature Methods. — 2012. — Mar. — Vol. 9, no. 4. — P. 357-359. — DOI: 10. 1038/ nmeth.1923.

156. The Genome Analysis Toolkit: A MapReduce framework for analyzing next-generation DNA sequencing data / A. McKenna [et al.] // Genome Research. — 2010. — July. — Vol. 20, no. 9. — P. 1297-1303. — DOI: 10 . 1101/gr . 107524.110.

157. Sherry S. T. dbSNP: the NCBI database of genetic variation // Nucleic Acids Research.— 2001. —Jan.—Vol. 29, no. 1.—P. 308-311.— DOI: 10.1093/ nar/29.1.308.

158. COSMIC: the Catalogue Of Somatic Mutations In Cancer / J. G. Tate [et al.] // Nucleic Acids Research. — 2018. — Oct. — Vol. 47, no. D1. — P. D941-D947. — DOI: 10.1093/nar/gky1015.

159. George E. O.,MudholkarG. S. On the convolution oflogistic random variables// Metrika. — 1983. — Dec. — Vol. 30, no. 1. — P. 1-13. — DOI: 10 . 1007/ bf02056895.

160. Loughin T. M. A systematic comparison of methods for combining p-values from independent tests // Computational Statistics & Data Analysis. — 2004. — Oct. —Vol. 47,no. 3.—P. 467-485.—DOI: 10.1016/j.csda.2003.11.020.

161. Benjamini Y., Hochberg Y. Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing // Journal of the Royal Statistical Society Series B: Statistical Methodology. — 1995. — Jan. — Vol. 57, no. 1. — P. 289-300. — DOI: 10.1111/j.2517-6161.1995.tb02031.x.

162. Gateways to the FANTOM5 promoter level mammalian expression atlas / M. Lizio [et al.] // Genome Biology. — 2015. — Jan. — Vol. 16, no. 1. — DOI: 10.1186/s13059-014-0560-6.

163. Yu G., Wang L.-G., He Q.-Y. ChIPseeker: an R/Bioconductor package for ChIP peak annotation, comparison and visualization // Bioinformatics. — 2015. — Mar. —Vol. 31,no. 14.—P. 2382-2383.—DOI: 10.1093/bioinformatics/ btv145.

164. The NHGRI-EBIGWAS Catalog of published genome-wide association studies, targeted arrays and summary statistics 2019 / A. Buniello [et al.] //Nucleic Acids Research. — 2018. — Nov. — Vol. 47, no. D1. — P. D1005-D1012. — DOI: 10.1093/nar/gky1120.

165. Systematic comparison of phenome-wide association study of electronic medical record data and genome-wide association study data / J. C. Denny [et al.] // Nature Biotechnology. — 2013.— Dec. — Vol. 31, no. 12. —P. 1102-1111.— DOI: 10.1038/nbt.2749.

166. Genetic and epigenetic fine mapping of causal autoimmune disease variants / K. K.-H. Farh [etal.] //Nature. — 2014. — Oct. — Vol. 518, no. 7539. — P. 337343. — DOI: 10.1038/nature13835.

167. Berisa T., Pickrell J. K. Approximately independent linkage disequilibrium blocks in human populations // Bioinformatics. — 2015. — Sept. — Vol. 32, no. 2. — P. 283-285. — DOI: 10.1093/bioinformatics/btv546.

168. PERFECTOS-APE - Predicting Regulatory Functional Effect of SNPs by Approximate P-value Estimation / I. E. Vorontsov [et al.]. — 2015. — DOI: 10.5220/0005189301020108.

169. Insights gained from a comprehensive all-against-all transcription factor binding motif benchmarking study / G. Ambrosini [et al.] // Genome Biology. — 2020. — May. — Vol. 21, no. 1. — DOI: 10.1186/s13059-020-01996-3.

170. KENDALL M. G. A NEW MEASURE OF RANK CORRELATION // Biometrika. — 1938. — June. — Vol. 30, no. 1/2. — P. 81-93. — DOI: 10 . 1093/biomet/30.1-2.81.

171. High Resolution Copy Number Variation Data in the NCI-60 Cancer Cell Lines from Whole Genome Microarrays Accessible through CellMiner / S. Varma [et al.] // PLoS ONE / ed. by K.-W. Lo. — 2014. — Mar. — Vol. 9, no. 3. — e92047. — DOI: 10.1371/journal.pone.0092047.

172. The Genotype-Tissue Expression (GTEx) project / J. Lonsdale [et al.] // Nature Genetics. —2013.—May.—Vol. 45, no. 6.—P. 580-585.—DOI: 10.1038/ ng.2653.

173. Fine-mapping inflammatory bowel disease loci to single-variant resolution / H. Huang [et al.] // Nature. — 2017. — June. — Vol. 547, no. 7662. — P. 173178. — DOI: 10.1038/nature22969.

174. A Crohn's Disease-associated IL2RA Enhancer Variant Determines the Balance of T Cell Immunity by Regulating Responsiveness to IL-2 Signalling / R. Goldberg [et al.] // Journal of Crohn's and Colitis. — 2021. — June. — Vol. 15, no. 12. —P. 2054-2065. —DOI: 10.1093/ecco-jcc/jjab103.

175. Multiple single nucleotide polymorphisms in the first intron of the IL2RA gene affect transcription factor binding and enhancer activity / A. M. Schwartz [et al.] // Gene. — 2017. — Feb. — Vol. 602. — P. 50-56. — DOI: 10 . 1016/j . gene.2016.11.032.

176. The Positive Transcription Elongation Factor b Is an Essential Cofactor for the Activation of Transcription by Myocyte Enhancer Factor 2 / M. Nojima [et al.] // Journal of Molecular Biology. — 2008. — Oct. — Vol. 382, no. 2. — P. 275287. — DOI: 10.1016/j.jmb.2008.07.017.

177. Enhanced C/EBPs binding to C>;T mismatches facilitates fixation of CpG mutations / A. S. Ershova [et al.]. — 2020. — June. — DOI: 10 . 1101/2020 . 06.11.146175.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.