Разработка on-line системы хранения и анализа результатов полногеномных исследований ассоциаций тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат наук Горев Денис Дмитриевич
- Специальность ВАК РФ05.13.01
- Количество страниц 77
Оглавление диссертации кандидат наук Горев Денис Дмитриевич
Оглавление
Введение
Актуальность темы
Цели и задачи исследования
Глава 1. Обзор существующих методов и данных
1.1. Методы получения полногеномных данных
1.1.1. Полногеномное исследование ассоциаций (ПГИА)
1.1.2. Схема проведения ПГИА
1.1.3. Неравновесие по сцеплению
1.1.4. Методы анализа суммарных статистик ПГИА
1.2. Источники данных и форматы представления ПГИА
1.2.1. Универсальные форматы представления ПГИА
1.2.2. Источники данных ПГИА
1.3. Обзор on-line сервисов анализа полногеномных данных
1.3.1. Историческая справка
1.3.2. Актуальные базы полногеномных данных 20 Глава 2. Универсальный формат и процедура гармонизации
2.1. Универсальный формат представления данных
2.1.1. Постановка проблемы
2.1.2. Описание формата универсального представления данных
2.2. Процесс гармонизации суммарных статистик ПГИА
2.2.1. Контекстно-свободные грамматики и лексический анализ
2.2.2. Распознавание данных суммарных статистик
2.2.3. Гармонизация данных суммарных статистик
2.2.4. Гармонизация координат
2.2.5. Гармонизация аллелей
2.2.6. Гармонизация статистических данных ОНП 43 2.3. Контроль качества суммарных статистик ПГИА
2.3.1. Тесты контроля качества
2.3.2. Отчёт о контроле качества 51 Глава 3. Архитектура системы GWAS-MAP
3.1 Кодовая база
3.1.1. Модуль гармонизации
3.1.2. Модуль интерфейса базы данных
3.1.3. Аналитический модуль
3.1.4. Модуль генерации отчётов
3.2. Инфраструктура системы GWAS-MAP
3.3. Производительность системы GWAS-MAP
3.4. Веб-интерфейс 68 3.4.1. Пример использования веб-интерфейса
Заключение
Литература
Введение
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Платформа для комплексного анализа результатов полногеномных исследований ассоциаций2020 год, кандидат наук Шашкова Татьяна Игоревна
Изучение генетического контроля мясной продуктивности овец с использованием современных методов количественной генетики2023 год, кандидат наук Злобин Александр Сергеевич
Исследование вклада генетических факторов в вариабельность морфофункциональных характеристик мышечных волокон человека с помощью комбинации биоинформатических методов полногеномного ассоциативного анализа2020 год, кандидат наук Борисов Олег Витальевич
Разработка и применение новых моделей в полногеномном анализе ассоциаций2016 год, кандидат наук Цепилов Яков Александрович
Исследование геномных ассоциаций и фенотипическое прогнозирование методами биоинформатики и машинного обучения2024 год, кандидат наук Колобков Дмитрий Сергеевич
Введение диссертации (часть автореферата) на тему «Разработка on-line системы хранения и анализа результатов полногеномных исследований ассоциаций»
Актуальность темы
Одной из основных задач генетики человека является идентификация генетических факторов риска заболеваний. За исключением редких моногенно контролируемых заболеваний, большинство признаков человека формируется под влиянием большого числа слабых генетических и средовых эффектов [1]. При этом суммарно на один признак могут влиять аллели в тысячах локусов, распределённых по всему геному. Чтобы идентифицировать и оценить эффекты такого количества аллелей, используют полногеномные исследования ассоциаций (ПГИА). Важной особенностью ПГИА является использование больших выборок особей с измеренными геномами, что позволяет выявить даже слабые ассоциации между генетической и фенотипической изменчивостью с большой степенью статистической достоверности. Преимуществом ПГИА при идентификации таких статистических связей является то, что оно опирается исключительно на данные и статистические методы, и не требует априорного знания молекулярных и физиологических механизмов реализации конкретного признака. Это позволяет получать принципиально новые знания о природе исследуемого признака [2].
За последние 10 лет ПГИА приобрели большую популярность. Это связано с появлением больших (от тысяч до миллионов) эпидемиологических выборок особей [3], [4], разработкой широкодоступных новых высокопроизводительных полногеномных технологий измерения ДНК (ДНК-биочипы, секвенирование нового поколения), а также реализацией сопутствующих методов и программного обеспечения.
Результат ПГИА обычно представляется в виде файла суммарных статистик. Один файл может содержать десятки миллионов строк. В каждой
строке хранится информация о величине и статистической значимости эффекта конкретного аллеля на признак. Такие суммарные статистики в сжатом виде предоставляют информацию о совместном распределении генотипов и фенотипов в исследованной выборке.
Число строк в файле суммарных статистик соответствует числу проанализированных в исследовании полиморфных сайтов генома. Большинство ПГИА по техническим причинам ограничены анализом эффектов распространенных аллелей (частота редкого аллеля, ЧРА>5%) и аллелей низкой частоты (5%>ЧРА>1%). Число сайтов генома человека, в которых присутствуют такие аллели, не превышает нескольких десятков миллионов. В будущем, с ростом использования технологий точного (глубокого) полногеномного секвенирования и при кардинальном росте объемов выборок, можно ожидать дальнейший рост числа исследованных сайтов.
Количество статей, которые описывают результаты проведенных ПГИА, составляют тысячи, и порядка тысячи исследований публикуется каждый год. Однако зависимость числа и объем опубликованных суммарных статистик от числа опубликованных статей не однозначна. Исследования «классических» признаков, таких как распространенные заболевания, могут следовать правилу «одна статья, одно ПГИА, один набор полногеномных суммарных статистик». Однако, уже на этом этапе начинаются сложности: например, один и тот же признак может быть исследован с использованием разного набора дополнительных независимых переменных или разного клинического определения признака. Таким образом, одно исследование уже способно породить несколько наборов суммарных статистик. Далее, полногеномные исследования «омиксных» признаков, полученных в результате высокопроизводительных химико-биологических измерений широкого спектра молекул, таких как белки, метаболиты, гликаны и так далее, порождают число суммарных статистик, эквивалентное числу
исследованных признаков [5]. Такое число зачастую составляет сотни и даже тысячи [6]. В целом, можно оценить число уже существующих суммарных статистик ПГИА в десятки тысяч с линейным или слабо-экспоненциальным ростом в несколько тысяч в год.
Особенно следует отметить исследования генетической регуляции экспрессии генов (eQTL) [7] и некоторых других «омиксных» признаков, которые, по сути, являются не полногеномными, а региональными исследованиями ассоциаций. В частности, при исследовании генетических ассоциаций уровня транскрипции некоторого гена, как правило, исследуются ассоциации с полиморфизмами, расположенными в окрестности гена, кодирующего данный транскрипт. Хотя результаты таких исследований имеют такую же структуру, как и результаты ПГИА, они гораздо меньшего размера и могут включать для каждого транскрипта лишь десятки тысяч полиморфизмов. При этом количество исследуемых транскриптов может составлять десятки и даже сотни тысяч в зависимости от числа исследованных тканей и типов клеток.
Совместный анализ наборов суммарных статистик, полученных в исследованиях широкого ряда признаков, позволяет решать целый ряд фундаментальных и прикладных задач в области биологии и медицины. В фундаментальном плане исследования суммарных статистик позволяют ответить на вопросы генетической архитектуры признаков человека, выработать гипотезы относительно генов и биологических путей, вовлеченные в контроль исследуемых признаков. В прикладном плане, исследование суммарных статистик позволяет выдвигать гипотезы о возможных биомаркерах и потенциальных мишенях терапевтического воздействия.
Несколько факторов сдерживают потенциал использования накопленного научным сообществом огромного массива суммарных статистик для лучшего понимания биологии человека. Во-первых,
имеющиеся в открытом доступе суммарные статистики, как правило, публикуются на сайтах консорциумов, которые проводят исследования в определенной области. Отслеживание обновлений сайтов, получение доступа и последующее скачивание суммарных статистик является затратным по времени процессом. Во-вторых, не существует общепринятого формата представления суммарных статистик. Зачастую, каждый консорциум публикует результаты в своём собственном формате. В дополнение, почти каждый программный пакет, реализующий статистические методы обработки суммарных статистик, требует, чтобы входные данные были в особом формате. Трансформация оригинальных суммарных статистик для дальнейшей обработки с помощью различных пакетов программ — трудозатратный и зачастую нетривиальный процесс. В-третьих, совокупность суммарных статистик для проведения исследования представляет большой массив данных, что требует особой инфраструктуры для его хранения и обработки. С учётом количества проводимых анализов и используемых суммарных статистик даже подготовка к проведению анализа превращается в проблему управления большими массивами данных.
Таким образом, решение вышеперечисленных проблем обработки и хранения суммарных статистик является актуальной проблемой современной биоинформатики.
Цели и задачи исследования
Целью данной работы является разработка компьютерной платформы совместного анализа суммарных статистик полногеномных и региональных исследований ассоциаций.
Для достижения поставленной цели были сформулированы и решены следующие задачи:
1. Создание универсального формата представления суммарных статистик, дающего возможность реализации оптимизированного интерфейса доступа к данным;
2. Создание модуля интеграции данных в составе декларативного конфигурируемого вычислительного конвейера (гармонизатора) для преобразования суммарных статистик в универсальный формат без потери информации и с последующим контролем качества;
3. Создание базы данных и архитектуры приложения, которые позволят проводить быстрое горизонтальное масштабирование с целью хранения информации о десятках миллиардов ассоциаций без существенной потери в скорости получения данных;
4. Разработка модуля, реализующего программный интерфейс доступа к суммарным статистикам и оптимизированного для быстрого выполнения запросов аналитических методов;
5. Апробация системы на коллекции UK Biobank.
Теоретическая значимость исследования заключается в новом
предложенном алгоритме гармонизации суммарных статистик, который,
совместно с разработанным автором универсальным форматом их
представления, может быть использован другими исследователями для
создания своих баз данных суммарных статистик.
Практическая значимость работы подтверждается тем, что на базе
реализованных алгоритмов гармонизации и формата хранения создана
8
система, хранящая информацию о десятках миллиардов ассоциаций [8][9-16][17]. Разработанная система получила название GWAS-MAP. Она интегрирована в вычислительный кластер Новосибирского Государственного Университета. С помощью системы проведен ряд исследований [9-16], получены новые научные знания.
Глава 1. Обзор существующих методов и данных
1.1. Методы получения полногеномных данных
1.1.1. Полногеномное исследование ассоциаций (ПГИА)
К настоящему времени разработано много технологий, экспериментальных методов и аналитических инструментов для идентификации факторов генетического риска заболеваний. Одним из наиболее мощных инструментов исследования генетики мультифакторных признаков, который позволяет статистически связать генотип с фенотипом, является полногеномное исследование ассоциаций (ПГИА). Целью такого исследования обычно является лучшее понимание биологии исследуемого признака, что впоследствии приводит к более качественной профилактике и лечению заболеваний. ПГИА представляет собой масштабное исследование, использующее генетические данные тысяч индивидуумов для получения статистически значимых связей между аллельными вариантами и исследуемым признаком. Чаще всего аллельными вариантами являются однонуклеотидные полиморфизмы (ОНП). ОНП [18] — это изменение одной нуклеотидной пары в конкретной позиции на геноме. ОНП могут быть связаны с исследуемым признаком через изменение гена, кодирующего белок или через изменение свойств регуляторного элемента [19]. Определение биологического механизма влияния ОНП на признак — отдельная непростая задача, которая не является целью ПГИА.
ОНП обычно имеет два аллеля, то есть два распространённых в популяции варианта последовательности генома в этом сайте. Важной характеристикой ОНП является частота минорного, то есть менее распространённого в популяции, аллеля этого ОНП. За счет технических ограничений в рамках классических ПГИА, как правило, исследуются ОНП с
минорными аллелями, которые относительно часто (как правило, >1%) встречаются в популяции.
1.1.2. Схема проведения ПГИА
Большинство исследуемых с помощью ПГИА признаков являются бинарными или количественными. Бинарным признаком, например, является наличие/отсутствие болезни, в то время как количественным — уровень представленности белка, рост или индекс массы тела.
В значительно упрощенном виде, ПГИА предполагает следующую последовательность действий [20]. Для начального этапа исследования набирают участников, у которых измеряют исследуемый признак, берут у них биологический материал, из которого выделяют ДНК и проводят генотипирование. Чаще всего для генотипирования используют ДНК-биочипы. Результатом применения этой технологии является информация о генотипах испытуемых по широкому (сотни тысяч) набору ОНП. Далее данные внешней референтной выборки [21] особей с известными секвенированными геномными последовательностями используются для обогащения геномной информации участников исследования с помощью вычислительной технологии импутирования геномов. В результате число полиморфных сайтов, для которых генотип участников известен или предсказан с большой точностью, достигает как минимум несколько миллионов. Вторым этапом является построение линейной регрессии, где исследуемый фенотип является зависимой переменной, а генотип по конкретному ОНП — независимой переменной. В случае количественного признака зачастую используются методы регрессионного анализа, предполагающие гауссово распределение остатков [22]. В случае бинарного признака зачастую используются различные варианты логистической регрессии [23]. В результате этого этапа получается оценка эффекта ОНП на
признак (оценка коэффициента регрессии) и стандартная ошибка этой оценки. Значимость эффекта для признака часто вычисляют с использованием теста Вальда. Такой анализ проводится для каждого ОНП.
В файл суммарных статистик ПГИА попадает информация о хромосоме и позиции конкретного аллеля (указывается для выбранной исследователями геномной сборки), о референтном и эффекторном аллеле и их частотах [24], оценке эффекта эффекторного аллеля на признак, о стандартной ошибке и статистической значимости (р^а1ие) эффекта. Дополнительно указывается универсальный идентификатор ОНП.
1.1.3. Неравновесие по сцеплению
Из схемы проведения исследования следует, что в идеальном случае линейная регрессия строится против каждой полиморфной позиции в геноме. На практике измерение всех позиций генома может быть слишком дорогостоящим, так как потребует глубокого секвенирования тысяч участников исследования. Значительно более дешевая технология генотипирования, основанная на применении ДНК-биочипов, позволяет измерить и качественно предсказать с использованием импутаций порядка 10 высокополиморфных (ЧРА>1%) позиций.
Вычислительная технология импутаций [25] опирается на такой феномен, как неравновесие по сцеплению. Он представляет собой корреляцию между близко расположенными ОНП и обусловлен организацией генома, особенностями процесса гаметогенеза и структурой популяций человека.
При проведении ПГИА эффект неравновесия по сцеплению выражается в том, что в регионе, содержащем распространенный причинный ОНП с высоко значимым эффектом на признак, наблюдается, как правило,
сильная ассоциация для большого числа ОНП, - а именно для тех ОНП, которые находятся в неравновесии по сцеплению с причинным ОНП.
1.1.4. Методы анализа суммарных статистик ПГИА
Как было описано выше, результатом ПГИА является файл суммарных статистик, содержащий информацию об оценке силы статистической связи между изученными ОНП и исследованным признаком, например, заболеванием. Эта информация сама по себе не даёт знания об этиологии заболевания. Чтобы сделать её ценной, нужно определить ген и биологический механизм, который лежит в основе этой статистической связи. Экспериментальные подходы к пониманию биологических основ связи между генотипом и фенотипом всё чаще используют молекулярные технологии, позволяющие оценить больше количество «омиксных» признаков, таких как транскриптомы, протеомы и так далее. Использование широкого спектра молекулярно-генетических технологий совместно с новыми вычислительными методами зачастую предоставляет возможность построить гипотезу о возможном пути влияния конкретного ОНП на исследуемый признак. Для этого используется несколько групп методов. Одна группа позволяет более точно идентифицировать потенциально -функциональные ОНП среди большого количества значимых ОНП в локусе. Методы этой группы могут, например, переоценить эффекты аллелей с использованием матрицы неравновесия по сцеплению и суммарных статистик ПГИА [26]. Такая переоценка позволяет сократить количество и приоритизировать кандидатные ОНП для непосредственной проверки экспериментальными методами. Примером метода из этой группы является CoJo (Conditional and joint analysis) [26]. Результатом применения этого метода является список ОНП, которые независимо влияют на исследуемый признак. Другая группа методов использует информацию об известных
биологических путях, положении генов относительно исследуемых ОНП, экспрессии генов в разных тканях и функциях генов, чтобы предположить возможные гены-кандидаты [27]. Другим популярным методом приоритезации генов-кандидатов являются методы колокализации, которые сравнивают региональные профили ассоциаций и позволяют делать предположения о регуляции обоих анализируемых признаков одним набором функциональных ОНП [28].
1.2. Источники данных и форматы представления ПГИА
1.2.1. Универсальные форматы представления ПГИА
В этом разделе приводится обзор существующих на данный момент универсальных форматов представления ПГИА. Под форматом имеется в виду описание внутренней схемы файла — обязательные и опциональные поля, типы полей, их именование и так далее.
Открытое распространение результатов ПГИА в виде суммарных статистик привело к росту количества различных инструментов, работающих с суммарными статистиками как входными данными. Это программные пакеты, реализующие методы приоритезации причинных генетических вариантов, менделевской рандомизации и оценки ОНП-наследственности и ОНП-генетических корреляций. Однако существует фактор, который сдерживает потенциал использования суммарных статистик. Одним из этих факторов является отсутствие универсальной схемы [29] и требований к представлению как суммарных статистик, так и входных данных для различных методов и аналитических пакетов.
Различные широко используемые пакеты для проведения ПГИА (Plink [30], GCTA [31], GEMMA [32]) используют различные форматы. Как следствие, большая часть ошибок происходит именно во время гармонизации
файлов для вторичного анализа суммарных статистик, особенно если они получены из разных консорциумов. Самой частой проблемой является определение, какой аллель является эффекторным, то есть для какого аллеля в строке суммарных статистик указан размер эффекта [33]. Проблемы подобного рода приводят к ошибкам на этапе интерпретации результатов анализов суммарных статистик. Для примера, метод менделевской рандомизации может показать эффект с противоположным знаком по отношению к истинному [34]. Методы оценки полигенных рисков могут дать смещенную оценку эффекта, а также потерять в мощности, если для части аллелей ошибочно указано направление эффектов. Кроме этого, представление суммарных статистик — количество колонок, их названия и формат — могут сильно различаться от одного консорциума к другому. Для части данных, например, при кодировании идентификатора ОНП, форматы представления могут различаться даже внутри одного файла. Отсутствие некоторых важных переменных также затрудняет последующий анализ, в особенности автоматический. Часть информации может быть восстановлена по представленным в файле суммарных статистик данным или из внешних источников, но это уменьшает возможности контроля качества. Большинство этих проблем решается ручной корректировкой данных. Зачастую это нетривиальный процесс, который может привести к возникновению дополнительных ошибок.
На данный момент уже разработано несколько схем представления суммарных статистик. GWAS Catalog [35] разработали набор рекомендаций по наименованию и набору обязательных и опциональных полей для публикации результатов ПГИА [33]. В пакете программ SMR [28] представили бинарный формат хранения суммарных статистик, оптимизированный для быстрой фильтрации по параметрам ОНП внутри файла суммарных статистик. Из наиболее распространенных форматов следует упомянуть VCF [36] от проекта OpenGWAS [37], представленный в
2020 году. Особенностями этого формата является использование референтной таблицы для валидации данных по ОНП, хранение метаданных исследования вместе с данными по ОНП и возможное использование индексации популярными пакетами tabix [38] и rsidx [39], для быстрого доступа к наборам ОНП внутри VCF. Однако, у формата VCF и, разработанного в ходе проект OpenGWAS, инструмента для конвертации gwas2vcf [40] есть несколько недостатков. Например, у VCF есть пользовательская колонка качества ОНП, но критерии, по которым оценивалось качество ОНП, не ясны. Также, требуемые форматом обязательные поля на наш взгляд недостаточны, так как среди них отсутствуют такие существенные для дальнейших анализов поля, как размер эффекта и его ошибка. Из недостатков инструмента для конвертации можно отметить невозможность распознавания различных форматов представления ОНП внутри одного файла, что приводит к возвращению пользователя к ручной обработке оригинального файла суммарных статистик.
1.2.2. Источники данных ПГИА
В настоящее время источники оригинальных данных ПГИА можно условно разделить на два типа. К первой группе относятся исследовательские консорциумы, которые проводят исследования конкретного набора признаков, характеризующих биологический домен их интереса. Таким является, например, Психиатрический геномный консорциум [41] [42], на данный момент исследующий 11 признаков, включая такие заболевания, как аутизм, болезнь Альцгеймера и синдром Туретта. Консорциумы обычно публикуют данные на своём сайте и сами контролируют доступ к ним. Во второй группе находятся крупномасштабные проекты, которые, как правило, проводят широкий спектр генетических исследований в рамках одной выборки. Одним из таких проектов является GTEx [43], проводящий
определение eQTL в широком наборе различных тканей. Для оценки масштаба этого исследования стоит упомянуть, что в полной коллекции седьмой версии GTEx содержится порядка миллиона различных региональных исследований ассоциаций. Другим большим проектом является UK Biobank [44], в котором приняло участие около 500 тысяч человек. Результатом этого исследования стали тысячи высококачественных ПГИА широкого спектра признаков.
Кроме страниц консорциумов и проектов, суммарные статистики, которые находятся в открытом доступе, часто можно получить из систем-агрегаторов, например PheWAS [45] [37] или GWAS-Catalog [46]. Их преимуществом является использование единого формата для всех ПГИА в системе. Также они реализуют гибкий программный доступ к суммарным статистикам, что позволяет скачивать результаты исследования не целиком, а только интересующую пользователя часть. Дополнительный плюс систем-агрегаторов — это наличие мета-информации об исследования в едином для всех исследований формате. Такой мета-информацией является, например, дата публикации результатов исследования, идентификатор статьи с информацией о ПГИА и количество людей в исследовании.
1.3. Обзор on-line сервисов анализа полногеномных данных 1.3.1. Историческая справка
Первые централизованные системы хранения суммарных статистик (GWAS Central [47], OADGAR [48], HGVBaseG2p [49]) начали появляться в 2008 году. До этого суммарные статистики, полученные в ходе исследования, обычно хранились на серверах консорциумов, занимающихся исследованиями конкретных признаков. Это затрудняло поиск и каталогизацию таких данных.
Конец 2000х и начало 2010х годов ознаменовался несколькими важными для развития генетики мультифакторных признаков человека событиями. В частности, произошло удешевление ДНК-биочипов, что привело к росту числа исследований с применением этой технологии. Далее, была разработана и поставлена на поток вычислительная технология импутаций, которая позволила гармонизировать набор исследуемых однонуклеотидных полиморфизмов (ОНП) вне зависимости от того, на каком конкретно полногеномном ДНК-биочипе было произведено генотипирование образцов. Наконец, было показано, что ПГИА позволяет, при достаточном объеме выборки, практически гарантировано картировать локусы, связанные с мультифакторными признаками и распространенными заболеваниями. Перечисленные причины в совокупности привели к экспоненциальному росту числа проводимых ПГИА и, как следствие, росту объема производимых суммарных статистик.
В связи с этим после 2012 г. появилось несколько систем хранения суммарных статистик следующего поколения (таких, например, как GWAS Catalog) и произошла эволюция уже существующих (таких, например, как GWAS Central). На этом этапе системы стали хранить не только оригинальные суммарные статистики, но и привязывать к ним различные онтологии признаков. Помимо онтологий, системы начали проводить независимый контроль качества загружаемых суммарных статистик, добавлять удобный интерфейс поиска как по конкретному ОНП, так и по гену.
Важно отметить, что до 2015 года суммарные статистики использовались, как правило, как справочная информация. Более глубокий анализ был возможен только с использованием оригинальных, индивидуальных, генетических данных; методов глубокого анализа на основании суммарных статистик не существовало. В 2015-2016 годах были разработаны новые статистико-генетические методы и реализованы программные пакеты,
которые позволили проводить такие анализы, как менделевская рандомизация, анализ генетических корреляций, анализ колокализации на основе только суммарных статистик., Это, совместно с появлением большого количества высококачественных суммарных статистик из статистически высокомощных исследований, таких как, например, UK Biobank (2017) катализировало создание систем следующего поколения (таких, как LDHub [50] и MRBase [51]). Эти события также мотивировали создание нашей системы GWAS-MAP. В таблице 1 представлено сравнение различных аспектов наиболее популярных баз ПГИА.
GWAS-MAP PheWAS GWAS Catalog GWAS Central
данные
количество ПГИА 7347 14552 5687 4324
количество ассоциаций (ПГИА+РГИА) 88 миллиардов 126 миллиардов 48 тысяч 71 миллион
доступность данных
полные исходные + + + +
полные гармонизирован ные + + - -
контроль качества
отчёт по ОНП + - - -
отчёт по ПГИА + + - -
эффекты согласованы между + + - -
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Разработка и применение методов полногеномного анализа генетических ассоциаций сложных признаков2010 год, доктор биологических наук Аульченко, Юрий Сергеевич
Ассоциация полиморфизмов в белок-кодирующих генах и уровня экспрессии микроРНК с развитием инфаркта миокарда и долгосрочный прогноз после инфаркта миокарда по данным проведенного генетического анализа2018 год, кандидат наук Кукава Нино Гуриеловна
Полногеномное исследование овец отечественных пород с целью выявления генетических вариаций, ассоциированных с воспроизводительными признаками и мясной продуктивностью2023 год, кандидат наук Шевцова Варвара Сергеевна
Геномные исследования первично-прогрессирующей формы рассеянного склероза2019 год, кандидат наук Киселев Иван Сергеевич
Вариабельность генетических маркеров шизофрении и болезни Альцгеймера в популяциях Северной Евразии2021 год, кандидат наук Бочарова Анна Владимировна
Список литературы диссертационного исследования кандидат наук Горев Денис Дмитриевич, 2021 год
Литература
1. Visscher P.M. u gp. 10 Years of GWAS Discovery: Biology, Function, and Translation // Am. J. Hum. Genet. 2017. T. 101, № 1. C. 5-22.
2. Hirschhorn J.N., Gajdos Z.K.Z. Genome-wide association studies: results from the first few years and potential implications for clinical medicine // Annu. Rev. Med. 2011. T. 62. C. 11-24.
3. Timmers P.R. u gp. Genomics of 1 million parent lifespans implicates novel pathways and common diseases and distinguishes survival chances // Elife. eLife Sciences Publications, Ltd, 2019. T. 8. C. e39856.
4. Shen X. u gp. Multivariate discovery and replication of five novel loci associated with immunoglobulin GN-glycosylation // Nat. Commun. Nature Publishing Group, 2017. T. 8, № 1. C. 1-10.
5. Sun B.B. u gp. Genomic atlas of the human plasma proteome // Nature. 2018. T. 558, № 7708. C. 73-79.
6. Demirkan A. u gp. Genome-wide association study identifies novel loci associated with circulating phospho- and sphingolipid concentrations // PLoS Genet. 2012. T. 8, № 2. C. e1002490.
7. Aguet F. u gp. The GTEx Consortium atlas of genetic regulatory effects across human tissues // Science. American Association for the Advancement of Science, 2020.
8. Shashkova T.I. u gp. PheLiGe: an interactive database of billions of human genotype-phenotype associations // Nucleic Acids Res. Oxford Academic, 2020. T. 49, № D1. C. D1347-D1350.
9. Suri P. u gp. Genome-wide meta-analysis of 158,000 individuals of European ancestry identifies three loci associated with chronic back pain // PLoS Genet. 2018. T. 14, № 9. C. e1007601.
10. Freidin M.B. u gp. Insight into the genetic architecture of back pain and its risk factors from a study of 509,000 individuals // Pain. 2019. T. 160, № 6. C. 1361-1373.
11. Elgaeva E.E. u gp. ISSLS Prize in Clinical Science 2020. Examining causal effects of body mass index on back pain: a Mendelian randomization study // Eur. Spine J. 2020. T. 29, № 4. C. 686-691.
12. Shadrina A.S. u gp. Varicose veins of lower extremities: Insights from the first large-scale genetic study // PLoS Genet. 2019. T. 15, № 4. C. e1008110.
13. Zenin A. u gp. Identification of 12 genetic loci associated with human healthspan // Commun Biol. 2019. T. 2. C. 41.
14. Sharapov S.Z. u gp. Defining the genetic control of human blood plasma N-glycome using genome-wide association study // Hum. Mol. Genet. Oxford Academic, 2019. T. 28, № 12. C. 2062-2077.
15. Shadrina A.S. u gp. Prioritization of causal genes for coronary artery disease based on cumulative evidence from experimental and in silico studies // Sci. Rep. 2020. T. 10, № 1. C. 10486.
16. Tsepilov Y.A. u gp. Analysis of genetically independent phenotypes identifies shared genetic factors associated with chronic musculoskeletal pain conditions // Commun Biol. 2020. T. 3, № 1. C. 329.
17. Shashkova T.I. u gp. The GWAS-MAP platform for aggregation of results of genome-wide association studies and the GWAS-MAP|homo database of 70 billion genetic associations of human traits // Vavilovskii Zhurnal Genet. Selektsii. Institute of Cytology and Genetics, SB RAS, 2020. T. 24, № 8. C. 876-884.
18. 1000 Genomes Project Consortium u gp. A map of human genome variation from
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
population-scale sequencing // Nature. 2010. Т. 467, № 7319. С. 1061-1073. Griffith O.L. и др. ORegAnno: an open-access community-driven resource for regulatory annotation // Nucleic Acids Res. 2008. Т. 36, № Database issue. С. D107-D113. Kraft P., Cox D.G. Study Designs for Genome- Wide Association Studies // Advances in Genetics. Academic Press, 2008. Т. 60. С. 465-504.
1000 Genomes Project Consortium и др. A global reference for human genetic variation // Nature. 2015. Т. 526, № 7571. С. 68-74.
Postmus I. и др. Pharmacogenetic meta-analysis of genome-wide association studies of LDL cholesterol response to statins // Nat. Commun. 2014. Т. 5. С. 5068. Landi M.T. и др. A genome-wide association study of lung cancer identifies a region of chromosome 5p15 associated with risk for adenocarcinoma // Am. J. Hum. Genet. 2009. Т. 85, № 5. С. 679-691.
Tsepilov Y.A. и др. Nonadditive Effects of Genes in Human Metabolomics // Genetics. 2015. Т. 200, № 3. С. 707-718.
Howie B. и др. Fast and accurate genotype imputation in genome-wide association studies through pre-phasing // Nat. Genet. Nature Publishing Group, 2012. Т. 44, № 8. С. 955-959. Yang J. и др. Conditional and joint multiple-SNP analysis of GWAS summary statistics identifies additional variants influencing complex traits // Nat. Genet. Nature Publishing Group, 2012. Т. 44, № 4. С. 369-375.
Pers T.H. и др. Biological interpretation of genome-wide association studies using predicted gene functions // Nat. Commun. 2015. Т. 6. С. 5890.
Zhu Z. и др. Integration of summary data from GWAS and eQTL studies predicts complex trait gene targets // Nat. Genet. 2016. Т. 48, № 5. С. 481-487.
MacArthur J.A.L. и др. Workshop proceedings: GWAS summary statistics standards and sharing // Cell Genomics. 2021. Т. 1, № 1. С. 100004.
Purcell S. и др. PLINK: a tool set for whole-genome association and population-based linkage analyses // Am. J. Hum. Genet. 2007. Т. 81, № 3. С. 559-575. Yang J. и др. GCTA: a tool for genome-wide complex trait analysis // Am. J. Hum. Genet. 2011. Т. 88, № 1. С. 76-82.
Zhou X., Stephens M. Genome-wide efficient mixed-model analysis for association studies // Nat. Genet. 2012. Т. 44, № 7. С. 821-824.
Buniello A. и др. The NHGRI-EBI GWAS Catalog of published genome-wide association studies, targeted arrays and summary statistics 2019 // Nucleic Acids Res. 2019. Т. 47, № D1. С. D1005-D1012.
Hartwig F.P. и др. Two-sample Mendelian randomization: avoiding the downsides of a powerful, widely applicable but potentially fallible technique // Int. J. Epidemiol. 2016. Т. 45, № 6. С. 1717-1726.
Burdett T. и др. GWAS Catalog [Электронный ресурс]. URL: https://www.ebi.ac.uk/gwas (дата обращения: 18.10.2021).
Lyon M.S. и др. The variant call format provides efficient and robust storage of GWAS summary statistics // Genome Biol. 2021. Т. 22, № 1. С. 32.
Elsworth B. и др. The MRC IEU OpenGWAS data infrastructure // bioRxiv. 2020. С. 2020.08.10.244293.
Li H. Tabix: fast retrieval of sequence features from generic TAB-delimited files // Bioinformatics. 2011. Т. 27, № 5. С. 718-719.
rsidx: Library for indexing VCF files for random access searches by rsID. Github.
gwas2vcf: Convert GWAS summary statistics to VCF. Github.
Psychiatric Genomics Consortium [Электронный ресурс]. 2014. URL:
https://www.med.unc.edu/pgc (дата обращения: 18.10.2021).
Sullivan P.F. The psychiatric GWAS consortium: big science comes to psychiatry //
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
Neuron. 2010. Т. 68, № 2. С. 182-186.
GTEx Portal [Электронный ресурс]. URL: https://www.gtexportal.org/ (дата обращения: 18.10.2021).
UK Biobank - UK Biobank [Электронный ресурс]. URL: https://www.ukbiobank.ac.uk/ (дата обращения: 18.10.2021).
PheWAS - Phenome Wide Association Studies [Электронный ресурс]. URL: https://phewascatalog.org/ (дата обращения: 18.10.2021).
MacArthur J. и др. The new NHGRI-EBI Catalog of published genome-wide association studies (GWAS Catalog) // Nucleic Acids Res. 2017. Т. 45, № D1. С. D896-D901. Beck T. и др. GWAS Central: a comprehensive resource for the comparison and interrogation of genome-wide association studies // Eur. J. Hum. Genet. 2014. Т. 22, № 7. С.949-952.
Johnson A.D., O'Donnell C.J. An open access database of genome-wide association results // BMC Med. Genet. 2009. Т. 10. С. 6.
Thorisson G.A. и др. HGVbaseG2P: a central genetic association database // Nucleic Acids Res. 2009. Т. 37, № Database issue. С. D797-D802.
Zheng J. и др. LD Hub: a centralized database and web interface to perform LD score regression that maximizes the potential of summary level GWAS data for SNP heritability and genetic correlation analysis // Bioinformatics. 2017. Т. 33, № 2. С. 272-279. Hemani G. и др. The MR-Base platform supports systematic causal inference across the human phenome // Elife. 2018. Т. 7.
Gormley C., Tong Z. Elasticsearch: The Definitive Guide: A Distributed Real-Time Search and Analytics Engine. «O'Reilly Media, Inc.», 2015. 724 с.
Sherry S.T. и др. dbSNP: the NCBI database of genetic variation // Nucleic Acids Res. 2001. Т. 29, № 1. С. 308-311.
Cardona P.A.N. Compilers: Principles, Techniques, and Tools.
Hopcroft J.E., Motwani R., Ullman J.D. Introduction to automata theory, languages, and computation, 2nd edition // ACM SIGACT News. Association for Computing Machinery (ACM), 2001. Т. 32, № 1. С. 60-65.
Kernighan B.W., Ritchie D.M., Others. The C programming language. Prentice hall, 1988. LiftOver [Электронный ресурс]. URL: https://genome.sph.umich.edu/wiki/LiftOver (дата обращения: 29.10.2021).
Bisong E. NumPy // Building Machine Learning and Deep Learning Models on Google Cloud Platform. Berkeley, CA: Apress, 2019. С. 91-113.
Winkler T.W. и др. Quality control and conduct of genome-wide association meta-analyses // Nat. Protoc. 2014. Т. 9, № 5. С. 1192-1212.
Devlin B., Roeder K. Genomic control for association studies // Biometrics. 1999. Т. 55, № 4. С. 997-1004.
Howson J.M.M. и др. Fifteen new risk loci for coronary artery disease highlight arterial-wall-specific mechanisms // Nat. Genet. 2017. Т. 49, № 7. С. 1113-1119. Git [Электронный ресурс]. URL: https://git-scm.com/ (дата обращения: 18.10.2021). Iterate faster, innovate together [Электронный ресурс]. URL: https://about.gitlab.com (дата обращения: 18.10.2021).
Burns B. Designing Distributed Systems: Patterns and Paradigms for Scalable, Reliable Services. «O'Reilly Media, Inc.», 2018. 166 с.
pandas [Электронный ресурс]. URL: https://pandas.pydata.org/ (дата обращения: 18.10.2021).
ClickHouse DBMS [Электронный ресурс]. URL: https://clickhouse.com/ (дата обращения: 18.10.2021).
PostgreSQL Global Development Group. PostgreSQL [Электронный ресурс]. 2021. URL:
https://www.postgresql.org/ (дата обращения: 18.10.2021).
68. Jinja — Jinja Documentation (3.0.x) [Электронный ресурс]. URL: https://jinja.palletsprojects.eom/en/3.0.x/ (дата обращения: 27.10.2021).
69. Linux Containers [Электронный ресурс]. URL: https://linuxcontainers.org/ (дата обращения: 29.10.2021).
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.