Платформа для комплексного анализа результатов полногеномных исследований ассоциаций тема диссертации и автореферата по ВАК РФ 03.01.09, кандидат наук Шашкова Татьяна Игоревна

  • Шашкова Татьяна Игоревна
  • кандидат науккандидат наук
  • 2020, ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)»
  • Специальность ВАК РФ03.01.09
  • Количество страниц 143
Шашкова Татьяна Игоревна. Платформа для комплексного анализа результатов полногеномных исследований ассоциаций: дис. кандидат наук: 03.01.09 - Математическая биология, биоинформатика. ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)». 2020. 143 с.

Оглавление диссертации кандидат наук Шашкова Татьяна Игоревна

Введение

Глава 1. Обзор литературы

1.1. Полногеномное исследование ассоциаций (ПГИА)

1.1.1. Гипотеза о том, что распространенные заболевания генетически детерминированы распространенными аллелями

1.1.2. Распространенные ОНП и неравновесие по сцеплению

1.1.3. Текущее состояние и будущее ПГИА

1.2. Методы проведения ПГИА

1.2.1. Дизайн эксперимента

1.2.2. Статистический анализ

1.2.3. Мета-анализ

1.3. Методы анализа суммарных статистик ПГИА

1.3.1. Методы идентификации функциональных ОНП

1.3.2. Методы приоритезации генов-кандидатов

1.3.3. Методы колоколизации

1.3.4. Методы оценки наследственности, объясненной распространенными ОНП, и генетических корреляций

1.3.5. Методы менделевской рандомизации

1.3.6. Методы построения предсказательных моделей

1.4. Базы данных суммарных статистик ПГИА

Глава 2. Платформа GWAS-MAP

2.1. Архитектура платформы

2.2. Модуль интеграции данных

2.2.1. Конвертация файлов суммарных статистик в единый формат

2.2.2. Контроль качества данных

2.3. Модуль баз данных

2.3.1. Таблицы в базе данных под управлением СУБД СНскНоиэе

2.3.2. Таблицы в базе данных под управлением СУБД PostgгeSQL

2.4. Модуль анализов суммарных статистик

2.4.1. Методы оценки наследуемости, объясненной распространенными ОНП, и генетических корреляций

2.4.2. Методы менделевской рандомизации

2.4.3. Методы колокализации

2.4.4. Метод построения предсказательных моделей

2.4.5. Мета-анализ

2.5. Веб-интерфейс PheLiGe

2.6. Содержание БД

2.7. Выводы главы

Глава 3. Анализ варикозной болезни нижних конечностей

3.1. Локусы и гены, ассоциированные с риском развития ВБНК

3.1.1. Определение локусов

3.1.2. Литературная аннотация

3.1.3. Приоритезация генов, ассоциированных с найденными ло-кусами

3.1.4. Итоговая аннотация локусов

3.2. Плейотропные эффекты идентифицированных локусов

3.3. Генетические корреляции

3.4. Причинно-следственные связи

3.5. Выводы главы

Глава 4. Приоритизация генов, ассоциированных с ишемической

болезнью сердца

4.1. Отбор локусов, ассоциированных с ИБС

4.2. Аннотация локусов на основе литературных источников

4.3. Анализ колокализации

4.3.1. 8МК-ЫЕГО1 анализ

4.3.2. Другие анализы колокализации

4.4. Итоговая аннотация локусов, связанных с ИБС

4.4.1. Хорошо изученные гены

4.4.2. Остальные приоритизированные гены

4.4.3. Не охарактеризованные локусы

4.5. Выводы главы

Заключение

Список литературы

Приложение А. Информация о генах-кандидатах, возможно участвующий в риске развития ИБС

Введение

Рекомендованный список диссертаций по специальности «Математическая биология, биоинформатика», 03.01.09 шифр ВАК

Введение диссертации (часть автореферата) на тему «Платформа для комплексного анализа результатов полногеномных исследований ассоциаций»

Актуальность.

Полногеномные исследования ассоциаций (ПГИА или genome-wide association studies, GWAS) на сегодняшний день являются одним из основных подходов, используемых для идентификации связей между однонуклеотидными полиморфизмами (ОНП) и признаками человека [1]. В рамках ПГИА для установления статистически значимых ассоциаций между ОНП и исследуемыми признаками используются большие выборки генотипированных и фенотипированных индивидов. При этом ОНП покрывают весь геном так плотно, что детекция часто встречающихся в популяции аллелей, функционально связанных с исследуемым признаком, происходит с высокой вероятностью - либо за счет того, что этот аллель тестируется напрямую, либо за счет неравновесия по сцеплению между этим аллелем и аллелями генотипированных маркеров. Частным случаем ПГИА являются региональные генетические исследования ассоциаций (РГИА), когда анализ проводят только по ОНП, расположенным в некотором регионе, а не по всему геному. Такой подход используется, например, при анализе цис-ОНП, связанных с экспрессией генов [2].

Одним из наиболее важных преимуществ ПГИА по сравнению с другими подходами к идентификации генов и аллелей, связанных с признаками человека, является то, что этот подход не зависит от полноты наших знаний о молекулярных механизмах или биохимической природе изучаемых признаков или заболеваний. Поэтому с его помощью могут быть получены принципиально новые биологические знания; например, выявлены неизвестные ранее гены и молекулярные механизмы, влияющие на исследуемые признаки и патологии.

Методология ПГИА приобрела большую популярность за последнее десятилетие [1]. Начиная с 2007 года число ПГИА растет экспоненциально; в настоящий момент, каждый год публикуются сотни оригинальных полногеномных исследований. Объемы исследуемых выборок могут превышать миллион

человек [3], а число изучаемых «омиксных» признаков составлять сотни [4, 5], тысячи [6] и даже десятки тысяч [2].

Исследователи предоставляют результаты ПГИА, в частности, в виде файлов суммарных статистик. Файлы содержат до десятков миллионов строк, где каждая строка содержит информацию об ассоциации конкретного ОНП с признаком. С учетом количества проводимых исследований и размеров таких файлов, результаты ПГИА образуют большие массивы данных. В результате лавинообразного роста числа полногеномных исследований ассоциаций, растет не просто объем данных, но и скорость их получения.

Результаты ПГИА могут быть использованы для решения множества задач - от исследований фундаментальной биологии и генетики до поиска потенциальных биомаркеров болезней и мишеней терапевтических воздействий. На сегодняшний день разработан целый ряд методов, реализующих решение этих задач на основе информации из суммарных статистик ПГИА.

В то время как количество результатов ПГИА, полученных научным сообществом, и число методов их анализа растёт, использование этих методов на полученных данных ограничено. В частности, исследователи сталкиваются со следующими проблемами. Во-первых, суммарные статистики ПГИА в совокупности имеют гигантский объем (исчисляемый в десятках терабайт), который требует развития инфраструктуры для их хранения и обработки. Во-вторых, данные генерируются в разных лабораториях по разным протоколам, что требует проведения контроля качества и интеграции данных для обеспечения хранения в универсальном формате. В-третьих, существующие инструменты анализа суммарных статистик ПГИА разнесены по разным ресурсам. Наконец, большинство доступных реализаций статистических анализов не имеют удобных интерфейсов, которые позволили бы работать с суммарными статистиками исследователям, далеким от биоинформатики.

С учетом вышеперечисленных проблем и замечаний к существующим реализациям, разработка платформы, предназначенной для агрегации, хранения,

доступа, анализа и визуализации больших массивов данных ПГИА является актуальной задачей современной биоинформатики. Платформа предоставит широкие возможности для комплексного анализа суммарных статистик. Применение такой платформы для анализа признаков человека будет способствовать установлению причинно-следственных связей между признаками и лучшему пониманию этиологии заболеваний, что внесет вклад в поиск новых биомаркеров и терапий.

Для апробации работы платформы нами были выбраны такие социально и экономически значимые заболевания, как ишемическая болезнь сердца и варикозная болезнь нижних конечностей. Оба заболевания являются широко распространенными. Ишемическая болезнь сердца является одной из основных причиной смертности и потери трудоспособности в России. Немалый вклад в риск этих заболеваний вносит наследственная предрасположенность. Таком образом, исследования этих признаков являются актуальной задачей современной генетики.

Степень разработанности темы исследования.

Существующие в настоящее время решения проблем использования данных суммарных статистик ПГИА частичны и фрагментированы. C одной стороны, такие ресурсы как GWAS Central (https://www.gwascentral.org) и GWAS Catalog (https://www.ebi.ac.uk/gwas/) нацелены на решение проблем агрегации, хранения и доступа к результатам ПГИА. С другой стороны, существует большое количество программного обеспечения (такие пакеты как SMR [7], GCTA [8], LDsr [9]), которое обеспечивает анализ данных, но не является нацеле-ным на решение проблем их агрегации, хранения, и доступа. Наконец, порталы MR-Base (http://www.mrbase.org/) и LD Hub (http://ldsc.broadinstitute. org/) агрегируют и хранят большие данные и позволяют осуществлять определенный тип анализа (в данном случае анализ методом менделевской рандомизации и анализ генетических корреляций). При этом, такие порталы не предоставляют возможности других анализов, а программные решения агрегации и

хранения данных не доступны. Таким образом, на данный момент не существует доступной реализации, которая решала бы все проблемы, перечисленные в предыдущем разделе, что приводит к ограниченному использованию результатов ПГИА, которые имеют огромный исследовательский потенциал и несут новое биологическое знание.

Цели и задачи диссертационной работы.

Целью данной работы является разработка платформы совместного анализа результатов (суммарных статистик) ПГИА и демонстрация того, что анализ больших баз данных результатов ПГИА позволяет сформулировать новые биологические гипотезы о регуляции сложных признаков человека. Для достижения поставленной цели были сформулированы следующие задачи:

1. Разработать платформу для хранения, сбора, анализа и визуализации суммарных статистик ПГИА.

2. Собрать базу данных суммарных статистик ПГИА и провести контроль качества данных по каждому исследованию.

3. Провести апробацию работы платформы на примере анализа сложных признаков человека: варикозной болезни нижних конечностей и ишемичес-кой болезни сердца.

Научная новизна.

1. Разработана платформа СШАБ-МАР, предназначенная для агрегации, хранения, доступа, анализа и визуализации суммарных статистик, полученных из ПГИА. При помощи платформы можно получать новые биологические знания и формулировать этиологические гипотезы.

2. Создана одна из крупнейших в мире баз данных результатов ассоциативных геномных исследований. На октябрь 2020 г. она содержала более 75 миллиардов ассоциаций между генотипами и признаками человека.

3. Проведено самое крупномасштабное в мире исследование генетической

архитектуры варикозной болезни нижних конечностей (ВБНК). Анализ с помощью методов менделевской рандомизации позволил установить, что на риск ВБНК оказывают влияние следующие признаки: рост (независимо от веса); масса тела, окружность талии и бедра; уровень двух белков в крови - М1СВ и СЭ209. Наша работа является первым исследованием, предположившим участие этих белков в патогенезе ВБНК.

4. Приоритизованы гены, влияющие на риск развития ишемической болезни сердца (ИБС), для 51 локуса, ассоциированного с этим заболеванием. Обобщение результатов, накопленных в данной области, было дополнено анализом колокализации. Этот анализ выявил 83 гена (относящихся к 73 кодирующим белки генам, 2 псевдогенам, 7 некодирующим РНК и одному неохарактеризо-ванному гену ИБ.443185), которые, возможно, влияют на риск развития ИБС. Насколько нам известно, 29 из этих генов никогда ранее не предлагались в качестве генов-кандидатов для ИБС.

Теоретическая и практическая значимость работы. Платформа СШАБ-МАР совместно с базой данных (БД) являются мощным инструментом для анализов суммарных статистик ПГИА. Платформа активно применяется в исследованиях, и может быть востребована широким кругом ученых. Платформа позволяет решать целый ряд фундаментальных и прикладных задач в области биологии и медицины. Мы предполагаем, что платформа СШАБ-МАР будет полезна как для биоинформатических исследований, так и как справочный материал для врачей-исследователей. С помощью веб-интерфейса можно быстро изучить интересующие локусы и связанные с ними признаки и наоборот, для изучаемого признака найти ассоциированные с ним локусы.

Положения, выносимые на защиту:

1. Платформа СШАБ-МАР позволяет использовать суммарные статистики полногеномных исследований ассоциаций для формулировки новых биологических гипотез.

2. Собранная в рамках платформы база данных, содержащая более 75 мил-

лиардов ассоциаций между генотипами и признаками человека, позволяет искать пути воздействия на целевой признак на уровне экспрессии генов, белков и метаболитов, а также искать связь с другими заболеваниями и количественными признаками.

3. Повышение уровней белков MICB и CD209 увеличивает риск развития варикозной болезни нижних конечностей.

4. Анализ локусов, ассоциированных с риском ишемической болезни сердца, дает более глубокое понимание генетической этиологии этой болезни и демонстрирует пробелы в знаниях, для заполнения которых необходимы дальнейшие исследования.

Методология и методы исследования. В качестве основных данных в работе используются суммарные статистики, полученные в ходе ПГИА и РГИА и опубликованные в открытых источниках. Для анализа суммарных статистик использовались современные методы статистической генетики и вычислительной функциональной геномики. Платформа GWAS-MAP реализована на языке Python 3. Веб-интерфейс платформы реализован на языке Clojure. БД находятся под контролем систем управления базами данных ClickHouse и PostgreSQL. Работа платформы и хранение БД осуществляется на вычислительных кластерах Новосибирского государственного университета.

Степень достоверности результатов подтверждается согласованностью результатов, полученных в ходе апробации работы платформы, а именно анализа варикозной болезни нижних конечностей и ишемической болезни сердца, с результатами, опубликованными ранее. Это позволяет говорить о состоятельности представленной платформы и дает право на обсуждение и представление новых результатов.

Публикации. Материалы диссертации представлены в 10 работах, из которых две являются публикациями в журнале, индексируемом в ISI Web of Science и Scopus, одна является пятистраничными тезисами конференции, индексируемыми в РИНЦ, и пять являются тезисами конференции. База данных

и модуль баз данных зарегистрированы в Роспатенте, как объекты интеллектуальной собственности.

Статьи, опбуликованные в журналах, индексируемых в базах данных ISI Web of Science и Scopus:

1. A.S. Shadrina, S.Z. Sharapov, T.I. Shashkova, Y.A. Tsepilov Varicose veins of lower extremities: insights from the first large-scale genetic study // PLoS genetics 2019. Vol. 15, no 4. P. e1008110.

2. A.S. Shadrina, T.I. Shashkova, A.A. Torgasheva, S.Z. Sharapov, L. Klaric, E.D. Pakhomov, D.G. Alexeev, J.F. Wilson, Y.A. Tsepilov, P.K. Joshi, Y.S Aulchennko. Prioritization of causal genes for coronary artery disease based on cumulative evidence from experimental and in silico studies // Scientific reports 2020. Vol. 10, no. 1, P. 1-15.

Тезисы конференций:

1. Т.И. Шашкова, Д.Д. Горев, Я.А. Цепилов, Е.Д. Пахомов, A.A. Торгаше-ва, П. Джоши, Ю.С. Аульченко. Получение нового биологичкского знания из результатов полногеномных исследований ассоциаций с помощью платформы GWAS-MAP // Биотехнология: состояние и перспективы развития 2019. P. 366-373. (индексируется в РИНЦ)

2. T. Shashkova, S. Sharapov, D. Gorev, Y. Tsepilov, Y. Aulchenko, Eugene Pakhomov. GWAS-MAP: the platform for analysis of results of genomewide association studies // BIOINFORMATICS OF GENOME REGULATION AND STRUCTURE/SYSTEMS BIOLOGY (BGRS/SB-2020) 2020. P. 107-108)

3. A. Nostaeva, T. Shashkova, S. Sharapov, Y. Tsepilov, Y. Aulchenko, L.C. Karssen. High performance pipeline for the calculation of polygenic risk scores // BIOINFORMATICS OF GENOME REGULATION AND STRUCTURE/ SYSTEMS BIOLOGY (BGRS/SB-2020) 2020. P. 107-108).

4. D.D. Gorev, T.I. Shashkova, E. Pakhomov, A. Torgasheva, L. Klaric, A. Severinov, S. Sharapov, D.G. Alexeev, Y.S. Aulchenko. GWAS-MAP: a platform for storage and analysis of the results of thousands of genome-wide association scans // Systems Biology and Bioinformatics (SBB-2018) 2018. P. 38.

5. T.I. Shashkova, A. Torgasheva, D.D. Gorev, E. Pakhomov, L. Klaric, A.V. Severinov, S. Sharapov, Y.A. Tsepilov, D.G. Alexeev, J.F. Wilson, P. Joshi, Y.S. Aulchenko. Identification of biomarkers and intervention targets for coronary artery disease based on results of genome-wide association scans // Systems Biology and Bioinformatics (SBB-2018) 2018. P. 38.

6. T.I. Shashkova, A. Torgasheva, D.D. Gorev, E. Pakhomov, L. Klaric, A.V. Severinov, S. Sharapov, Y.A. Tsepilov, D.G. Alexeev, J.F. Wilson, P. Joshi, Y.S. Aulchenko. Mining large database of genome-wide associations to identify biomarkers and intervention targets // Bioinformatics of Genome Regulation and Structure/Systems Biology (BGRS/SB-2018) 2018. P. 74.

Объекты интеллекутальной собственности:

1. Т.И. Шашкова, Ю.С. Аульченко. База данных для хранения и быстрого доступа к результатам полногеномных и региональных исследований ассоциаций // Роспатент 2020. Свидельство №2020620869.

2. Ю.С. Аульченко, Т.И. Шашкова, Д.Д. Горев, Е.Д. Пахомов, С.А. Галичен-ко, Л.К. Карссен. Модуль баз данных суммарных статистик генетических исследований ассоциаций // Роспатент 2020. Свидельство №2020661239.

Следующие работы приняты в печать:

1. T. Shashkova, E. Pakhomov, D. Gorev, L. Karssen, P. Joshi, Y. Aulchenko. PheLiGe: an interactive database of billions of human genotype-phenotype associations // Nucleic Acids Research 2021.

2. T.I. Shashkova, D.D. Gorev, E.D. Pakhomov ,A.S. Shadrina, S.Z. Sharapov, Y.A. Tsepilov, L.C. Karssen, Y.S Aulchennko. The GWAS-MAP platform and database with billions of genetic associations of human traits. // Vavilov journal of genetics and breeding 2020.

Личный вклад автора. Содержание диссертации и основные положения, выносимые на защиту, отражают персональный вклад автора в опубликованные работы. Автор разработал первую версию архитектуры платформы (совместно с коллегой Денисом Горевым). Автор лично разработал модуль анализа данных. Модуль баз данных был разработан совместно с коллегой Денисом Горевым; веб-интерфейс был разработан совместно с коллегой Евгением Пахо-мовым. Автор лично собрал и загрузил в БД более 40% содержимого; остальные данные были загружены под руководством автора. Автор проводил анализы суммарных статистик ПГИА ишемической болезни сердца и варикозной болезни нижних конечностей. Автор принимал участие в обсуждении результатов, изложенных в настоящей работе, в написании статей и в подготовке публикаций в печать.

Апробация работы. Результаты данной работы были представлены и обсуждены на конференциях: «Bioinformatics of Genome Regulation and Structure/System Biology - BGRS/SB18», «European Society of Human Genetics - ESHG 2019», международном форуме «Биотехнология: Состояние и перспективы развития - BioTech World 2019», «Moscow Conference of Computational Biology - MCCMB'19» и «Bioinformatics of Genome Regulation and Structure/System Biology - BGRS/SB20».

Структура диссертации состоит из обзора литературы, трех глав, заключения, списка сокращений и библиографии. Объем диссертации 132 страницы, включая 16 рисунков и 4 таблицы. Библиография включает 227 наименований.

Глава 1

Обзор литературы 1.1. Полногеномное исследование ассоциаций (ПГИА)

Одна из основных целей генетики человека - выявить генетические факторы риска заболеваний. Для выявления таких факторов применяется множество различных технологий, дизайнов исследований и аналитических инструментов.

В этом литературном обзоре мы сосредоточимся на полногеномных исследованиях ассоциаций (ПГИА), а также на аннотации полученных результатов ПГИА с целью установления функциональных вариантов и генов, ответственных за эти ассоциации. ПГИА используется для идентификации статистической связей между аллельными вариантами и признаками человека. Один из распространенных типов аллельных вариантов - это однонуклеотидный полиморфизм или ОНП [10]. Подавляющее большинство распространенных ОНП являются нейтральными и не имеют функциональных последствий. Однако, некоторые ОНП могут вызывать изменения аминокислотной последовательности белков, измененения аффинности связывания фактора транскрипции, изменять стабильность транскриптов мРНК и так далее [11]. ОНП, оказывающие непосредственное влияние на проявление признака, называются функциональными для данного признака. Анализ результатов ПГИА может помочь выявить какие ОНП, ассоциированные с признаком, являются функциональными для данного признака и на какие биологические процессы эти ОНП влияют.

1.1.1. Гипотеза о том, что распространенные заболевания

генетически детерминированы распространенными аллелями

Ранние успехи в генетики человека привели к открытию генов, мутации в которых приводят к различным наследственным заболеваниям, таких как му-

ковисцидоз [12] и болезнь Гентингтона [13]. Эти менделевские заболевания изучались с помощью анализа сцепления. Картирование генов с использованием анализа сцепления основано на исследовании ко-сегрегации генетических маркеров, расположенных по всему геному, с болезнью. Анализ проводится путем генотипирования родословных, в которых присутствуют индивиды с изучаемым заболеванием. Такой подход позволяет идентифицировать участки генома размером 5-50 сМ, в которых находится функциональный аллельный вариант, но не сам аллельный вариант, влияющий на проявление признака. Более того, этот метод не подходит для изучения локусов, лежащих в основе распространенных многофакторных заболеваний и сложных признаков.

В свое время, открытие нескольких ОНП с высокой частотой аллелей, связанных с распространенными заболеваниями, таких как аллель epsilon 4 в гене APOE для болезни Альцгеймера [14] и аллель Pro12Ala в гене PPARG для диабета типа II [15] позволило сформулировать гипотезу о генетическом контроле распространенных заболеваний. Гипотеза гласит, что заболевания, которые распространены в популяции, вероятно, находятся под влиянием ОНП, которые также распространены в этой популяции [16].

В своей статье Риш и Мерикангас (Risch и Merikangas) [17] показали, что для изучения распространенных заболеваний подойдет дизайн эксперимента, в котором проводится поиск ассоциаций с заболеванием с использование миллионов высокополиморфных генетических маркеров и выборки из независимых (неродственных) участников. Прошло 10 лет, прежде чем этот дизайн исследования стал реальностью. Что было необходимо? Во-первых, определить расположение и частоту встречаемости ОНП в разных популяциях.Во-вторых, определить корреляции между аллелями, чтобы генетические исследования не собирали избыточную информацию.

1.1.2. Распространенные ОНП и неравновесие по сцеплению

Благодаря крупномасштабному международному проекту НарМар, была выявлена большая часть распространенных ОНП [18].Проект НарМар был сосредоточен в первую очередь на составлении каталога ОНП, распространенных в разных популяциях. В первой итерации проекта использовались популяции европейского происхождения, популяции йоруба африканского происхождения, популяции китайцев хань из Пекина и японцев из Токио [18, 19]. С тех пор проект был расширен и теперь включает 11 популяций человека с генотипами для 1,6 миллиона ОНП [20]. На смену проекту НарМар пришел проект «1000 Геномов», в которым были собраны генотипы 2,504 человек из 26 популяций [21].

Помимо информации об ОНП, по данными проектов можно получить информацию о неравновесии по сцеплению (ЬЭ). Неравновесие по сцеплению между двумя аллелями разных локусов выражается в том, что частота их совместной встречаемости в популяции отличается от ожидаемой, если бы эти аллели встречались независимо. Одной из основных, хотя и не единственной, причиной существования неравновесия по сцеплению в популяции является совместная передача участков генома в ряду поколений (тесное сцепление).

Разные человеческие субпопуляции имеют разный уровень и структуру неравновесия по сцеплению. Популяции африканского происхождения являются предковыми по отношению ко всем остальным и имеют меньшие области неравновесия по сцеплению из-за большего количества рекомбинационных событий.

Было предложено множество метрик неравновесия по сцеплению [18, 22]. Все они связаны с частотами встречаемости аллелей. В статистической генетики обычно используется коэффициент корреляции между аллелями - г:

г2 _ (^АВЪдЪ - ЪАЪЪдВ )2 (1 1)

ПАПаЩПВ

где ^12, где вместо 12 может стоять комбинация из АВ, аЬ, ЛЬ, аВ - частота

гаплотипа, /к1, где вместо 1 может стоять a,A,b,B - частота аллеля.

Карты неравновесия по сцеплению сыграли важную роль в первоначальном дизайне многих ОНП-чипов. Для ОНП-чипов отбирались ОНП, аллели которых находились в сильном неравновесии по сцеплению с аллелями соседних ОНП. Другими словами, по выбранным ОНП можно предсказать аллели и их эффект на признак для других близлежащих сайтов. Доля ОНП, генотипы которых можно получить или предсказать из данных генотипирования с использованием ОНП-чипа, характеризует геномное покрытие данного ОНП-чипа. Основываясь на анализе данных проекта HapMap, более 80% распространенных ОНП в популяциях европейского происхождения могут быть проанализированы с помощью ОНП-чипа, включающего от 500,000 до одного миллиона ОНП, расположенных по всему геному [23]. Такие ОНП-чипы будут иметь высокое геномное покрытие.

Использование ОНП-чипов позволило генотипировать большее число людей за меньшее время и средства, что значительно упростило анализы. Однако, в таком анализе сложно сделать выводы о функциональных ОНП, которые могут быть обнаружены на основе ПГИА. Ассоциация ОНП с признаком, выявленная в ходе ПГИА, может быть либо прямой ассоциацией, либо косвенной. Так как генотипированный ОНП может являтся истинным функциональным вариантом или же находится в сильном неравновесии по сцеплению с таковым. Таким образом, для определения функциональных ОНП могут потребоваться дополнительные исследования точного картирования.

1.1.3. Текущее состояние и будущее ПГИА

Хотя первые результаты успешных ПГИА были опубликованы в 2005 [24] и 2006 [25] годах, в качестве отправной точки современных ПГИА можно считать статью Wellcome Trust Case Control Consortium (WTCCC) 2007 года в журнале «Nature» [26]. Причина этого состоит в том, что исследование WTCCC было первым крупным исследованием с хорошо продуманным дизайном, в котором

использовался ОНП-чип с хорошим геномным покрытием. С тех пор, популярность ПГИА только растет (Рисунок 1.1).

=г га i* Е

с.

ю с

S р

О) Р"

Е ^

rprprprprprprprprprprpr^rprprp

Год

Рис. 1.1. Упоминание «Genome wide association» в публикациях начиная с 2005 до 2019 года (по материалам базы данных PubMed).

По данным GWAS Catalog на данный момент известно более 48,207 ассоциаций между ОНП и признаками человека [27]. Эти ассоциации картируются в более чем 2000 локусов. Подавляющее большинство идентифицированных локу-сов являются новыми, т.е. до 2007 года их ассоциации с болезнью или другими сложными признаками не были известны. По сути, это 2000 новых начальных точек для исследования биологии того или иного признака. Количество локусов, идентифицируемых для каждого сложного признака, существенно варьируется: от нескольких [28] до сотни и более [29]. Важно отметить, что количество значимых локусов сильно коррелирует с количеством участников в исследовании. В настоящий момент доля генетической изменчивости, объясненной значимо ассоциированными ОНП, обычно низкая (менее 10%) для многих сложных признаков. Однако, для таких заболеваний, как болезнь Крона и рассеянный склероз, а также для количественных признаков, таких как рост и липидные

8000

признаки, от 10% до 20% генетической изменчивости уже могут быть объяснены распространенными ОНП.

ПГИА оказали огромное влияние на генетику человека. Они позволили определить новые генетические факторы риска распространенных заболеваний человека [30, 1]. В течение следующих нескольких лет мы увидим появление дешевой технологии секвенирования, которая позволит полностью перейти на полногеномное секвенирование. Вследствие чего объем данных, полученных в ходе ПГИА и последующих анализов, сильно возрастет. Проблемы, связанные с хранением и обработкой данных, контролем качества и анализом данных, будут во много раз более сложными, что поставит под сомнение инфраструктуру и качество анализов в области информатики и биоинформатики. Объединение данных секвенирования с данными других высокопроизводительных технологий для измерения транскриптома, протеома, окружающей среды и феноти-повпредоставит огромные возможности для понимания взаимосвязи генотипа и фенотипа. Объединение разных уровней биомедицинских данных - это будущее генетики человека.

1.2. Методы проведения ПГИА

1.2.1. Дизайн эксперимента

Продуманный дизайн исследования может помочь избежать ложнополо-жительных результатов и обеспечит достаточную статистическую мощность для обнаружения статистически значимых ассоциаций [31].

Эпидемиологические исследования разделяются на две категории по временному интервалу: одномоментный и многомоментные. Для одномоментных исследований характеристики собираются один раз, в то время как для много-моментных - в течение определенного времени. Выборка может быть сформирована как случайным образом, так и по определенным критериям относительно признака или целенаправленно на его основе. Выборки, которые формируются

случайно, называются популяционными. Один из наиболее распространенных дизайнов, где выборка сформирована целенаправленно - дизайн типа «случай-контроль».

Похожие диссертационные работы по специальности «Математическая биология, биоинформатика», 03.01.09 шифр ВАК

Список литературы диссертационного исследования кандидат наук Шашкова Татьяна Игоревна, 2020 год

источников

Процесс отбора генов, потенциально связанных с ИБС, на основе анализа результатов предыдущих исследований представлен на рисунке 4.2.

Рис. 4.2. Схема отбора генов из предыдущих исследований. Исследования были разделены на экспериментальные и биоинформатические.

Мы провели поиск литературы в Pubmed, Google Scholar и онлайн-базе данных Mendelian Inheritance in Man (OMIM, https://www.omim.org/), чтобы

найти гены, для которых экспериментальные исследования (in vivo, in vitro) представляют доказательства о роли этих генов в развитии ИБС. В поиске участвовали только те гены, которые, согласно базе данных NCBI Gene (https: //www.ncbi.nlm.nih.gov/gene), расположены в 51 изучаемом локусе (в регионе ± 250 т.п.н. от ведущих ОНП, перечисленных в таблице 4.1). Для каждого такого гена мы сделали краткий обзор литературы и отобрали 59 генов, которые по литературным данным могут быть функционально связанными с ИБС. Отобранные гены расположены в 45 локусах. Для генов, расположенных в оставшихся 6 локусах (№5, №7, №16, №17, №19, №30), в экспериментальных работах не было обнаружено информации об их роли в развитии ИБС (Таблица А.1).

Мы также извлекли данные о генах-кандидатах из четырех ранее опубликованных in silico исследований [119, 120, 121, 122]. В трех из четырех исследованиях [119, 120, 121] отправной точкой были предположительно функциональные ОНП, ассоциированные с ИБС. В дальнейшем эти ОНП были связаны с генами-кандидатами. В двух из этих исследований [119, 120] генам были проставлены баллы, чем выше балл, тем выше приоритет гена. Другими словами, гены с высокими баллами имеют сильные доказательства своего участия в развитии ИБС . Мы учитывали эти баллы при принятии решения о приоритизации причинных для ИБС генов. Из описанных трех исследований [119, 120, 121] были отобраны гены, предложенные на основании ОНП, лежащих в 51 изучаемом локусе (Таблица А.1). Информация о позиции ОНП была получена из базы данных NCBI SNP (https://www.ncbi.nlm.nih.gov/snp/).

В четвертом in silico исследовании, проведенном Свищевой Г. (Svishcheva G.) и коллегами [122], применялся метод анализ ассоциаций на генном уровне [122] с использованием двух больших наборов данных (данные UK Biobank и CARDIoGRAM). В ходе данного анализа был идентифицирован набор генов предположительно причинных для ИБС. Мы проверили, расположены ли найденные гены, связанные с ИБС, в 51 локусе, выбранном для нашего анализа. Если да, мы учитывали эту информацию в дальнейшей приоритизации (Табли-

ца А.1).

В сумме в перечисленных биоинформатических работах [119, 120, 121, 122] было предложено 134 гена-кандидата для 49 из 51 локусов (Таблица А.1).

Мы сравнили списки генов-кандидатов, предложенных в экспериментальных и биониформатических работах, и обнаружили, что для 48 генов были найдены доказательства их роли в развитии ИБС как в экспериментальных, так и в биоинформатических исследованиях.

4.3. Анализ колокализации

Анализ колокализации был использован для приоритизации генов в ИБС-ассоциированных локусах на основе данных eQTL. В качестве основных суммарных статистик использовались результаты ПГИА ИБС 2017 года [83], полученные при анализе европейской популяции (N = 253,568), поскольку размер выборки в этом исследовании был в 2.5 раза больше, чем в исследовании 2011 года [81]. Суммарные статистики для eQTL были получены из трех наборв данных: GTEx версии 7 [2], CEDAR [55] и исследование Вестры и коллег [80]. В анализе использовались данные по eQTL из следующих тканей и типов клеток: коронарная и большеберцовая артерия, аорта, печень, скелетные мышцы, кровь и циркулирующие CD4+ T-лимфоциты, CD8+ T-лимфоциты, CD19+ Б-лимфо-циты, CD14+ моноциты, CD15+ гранулоциты и тромбоциты. Выбор тканей и типов клеток был осуществлен на основе результатов работы Онгена Х. (Ongen H.) и коллег [123], а также общих представлений о патогенезе ИБС [124, 125].

4.3.1. SMR-HEIDI aнализ

SMR-HEIDI выявляет гены, на уровень экспрессии которых влияют те же функциональные ОНП, что и на риск развития ИБС. Тесты SMR-HEIDI были выполнены для 51 ИБС-ассоциированного локуса. Анализ включал ОНП, которые соответствуют критериям: (1) находятся в одном из исследуемых ло-

кусов; (2) присутствуют как в ПГИА для ИБС, так и в суммарных статистиках для cis-eQTL; (3) имеют частоту минорного аллеля > 0.03 в обоих наборах данных; (4) имеют квадрат значения Z-статистики > 10 в ПГИА ИБС. ОНП, которые соответствуют критериям (1), (2), (3), (4) и имеют наименьшее значение р ассоциации с ИБС в локусе мы определили как топовые ОНП локуса. Стоит помнить, что SMR-HEIDI анализ не может идентифицировать конкретный функциональный ОНП, так как им может быть либо топовый ОНП, либо любой другой ОНП в сильном неравновесии по сцеплению с топовым. Из-за неполного перекрытия между ОНП, изученными в разных работах, топовый ОНП не обязательно представляет собой ведущий ОНП в локусе, который связан с ИБС или уровнем экспрессии гена на самом высоком уровне статистической значимости.

Всего был проведен 11,371 тест, из которых 167 прошли SMR-HEIDI. Мы считали, что ОНП влияет на риск развития ИБС через экспрессию определенного гена, если FDR (false discovery rate) SMR теста был меньше 5%, а значение р в тесте HEIDI было больше или равно 0.001. При этом, тест HEIDI проводился только в том случае, если количество ОНП, участвующих в анализе было не менее 3. Максимальное количество ОНП в анализе могло быть двадцать.

В результате, мы обнаружили 83 транскрипта, связанных с 73 генами, кодирующими белок, 2 псевдогенами, 7 некодирующими РНК и одним не охарактеризованным геном HS.443185. Уровень экспрессии данных генов связан с теми же функциональными вариантами, что и риск развития ИБС, и эти варианты располагаются в 32 из 51 ИБС-ассоциированного локуса. Насколько нам известно, 29 из этих генов - PSMA5 (локус №2), DDX59-AS1 (локус №5), USP39 и GNLY (локус №10), FAM117B (локус №12), NME9 и ESYT3 (локус №13), RP1-257A7.4 и RP1-257A7.5 (локус № 18), RP1-283K11.3 и RP3-323P13.2 (локус №20), IFIT1 и IFIT5 (локус №32), TMEM180 и ARL3 (локус №33), MAP3K11, CTSW и FIBP (локус №34), RP11-563P16.1 (локус №35), RP3-462E2.3 (локус №36), ERP29 (локус № 37), OASL и COQ5 (локус № 38), MORF4L1 (локус №43), PKD1L3, DHX38 и DHODH (локус № 45), C19ORF52

(локус №49) и EDEM2 (локус №50) - никогда ранее не предлагались в качестве генов-кандидатов, участвующих в развитии ИБС.

Для 8 локусов (№3, №4, №34, №36, №37, №43, №49 и №50) гены были выявлены с использованием двух или трех топовых ОНП, которые находились в слабом неравновесии по сцеплению друг с другом. Другими словами, в этих ло-кусах, возможно, существует несколько ОНП, независимо ассоциированных с ИБС, каждый из которых связан со своим геном.Один из топовых ОНП в каждой группе, как правило, был такой же, как и ведущий ОНП соответствующего локуса, или же был тесно связаны с ним (г2 > 0.9 в популяциях европейского происхождения). Другие топовые ОНП в группе были в низком неравновесии по сцеплению с ведущим ОНП, и ассоциации 5 из таких ОНП не достигали уровня полногеномной значимости с ИБС в ПГИА 2017 года по европейской популяции [83] (локус №4, Г810800418: р = 2.42е-07; локус №34, Г8644740: р = 7.44е-06; локус №37, Г8653178: р = 1,21е-07; локус №49, Г817616661: р = 1.51е-05; локус №50, Г81415771: р = 4.70е-06). Поэтому мы дополнительно проверили ассоциацию этих ОНП с ИБС на более мощном ПГИА 2018 года [121], полученном в результате мета-анализа данных CARDIoGRAMplusC4D и ИК БюЬапк (122,733 участника с ИБС и 424,528 участников контрольной группы). Все перечисленные ОНП были либо полногеномно значимы в этом наборе данных, либо были очень близки к уровню полногеномной значимости (Г810800418: р = 8.82е-11, Г8644740: р = 1.12е-08, Г8653178: р = 1.13е-23, Г817616661: р = 5.96е-08, Г81415771: р = 9.91е-11). Таким образом, мы предполагаем, что гены NME7, ПБГ и СТБШ, БИ2Б3, KANK2 и EDEM2, идентифицированные с использованием указанных ОНП, скорее всего действительно связаны с ИБС.

Ген 1Ь6Я (локус №3) был найден при анализе с использованием двух топовых ОНП, Г84845625 и Г84129267 (г2 = 0.46 в популяциях европейского происхождения). Один из этих полиморфизмов представляет собой ведущий ОНП в суммарных статистиках 2017 года [83] в мета-анализе популяций разного происхождения, в то время как второй - ведущий ОНП в мета-анализе европейских

популяций [83]. Эти результаты позволяют предположить, что в локусе №3 есть по крайней мере два независимых сигнала ассоциаций, оба из которых модулируют экспрессию гена IL6R.

В локусе №25, топовый ОНП rs1569209, использованный для идентификации гена LPL, находился в слабом неравновесии по сцеплению с ведущим ОНП rs11204085 (г2 = 0.10 в популяциях европейского происхождения). ОНП rs1569209 был ассоциирован с ИБС с р = 2.29e-06 в мета-анализе европейской популяции, проведенном в 2017 году [83]. Однако, в мета-анализе данных 2018 года [121] данный ОНП достиг уровня полногеномной значимости (p-value = 1.81e-09). Поэтому мы считаем, что ген LPL, обнаруженный с использованием этого полиморфизма, скорее всего участвует в ИБС. Более того, роль LPL в ИБС была подтверждена экспериментальными и in silico исследованиями (Таблица А.1).

4.3.2. Другие анализы колокализации

Учитывая опасения, что тест HEIDI может быть слишком консервативным [7], мы применили дополнительные методы колокализации в [55] и LocusCompare [126]. При проведении в анализа были использованы те же источники суммарных статистик, что и в тесте SMR-HEIDI. В случаях где количество ОНП в анализе было не менее 3 и |0| > 0.7, мы считали, что ОНП влияет на риск развития ИБС через изменение экспрессии.

Анализ в предложил 39 генов, связанных с 19 локусами, из которых 30 генов также были идентифицированы в анализе SMR-HEIDI. Девять из 39 генов (A4GNT, AS3MT, IREB2, MAT2A, SH3PXD2A, SLC3A1, SORT1, SRR, WDR12) не были обнаружены в результате SMR-HEIDI анализа. При этом, 5 из 9 перечисленных выше генов AS3MT (локус №33), MAT2A (локус №10), SORT1 (ло-кус № 2), SRR (локус № 46) и WDR12 (локус №12) были предложены некоторыми предыдущими исследованиями. Роль генов A4GNT (локус №13), IREB2 (локус №43), SH3PXD2A (локус №33) и SLC3A1 (локус №9), насколько нам

известно, никогда ранее не предполагалась в ИБС.

Затем мы использовали программное обеспечение LocusCompare (http: //locuscompare.com/) для анализа колоколизации локусов ИБС и данными eQTL GTEx версии 7. Используя рекомендованный авторами данного программного обеспечения порог вероятности больше 0.01, было идентифицировано 24 гена, относящихся к 16 локусам, включая 23 гена, перекрывающихся с нашими результатами SMR-HEIDI, и ген HHIPL1, описанный в предыдущих работах. При этом в анализе SMR-HEIDI экспрессионных данных гена HHIPL1 FDR в тесте SMR для двух тканей был ниже 5%, но тест HEIDI не был проведен из-за недостаточного количества ОНП, которые могли быть включены в анализ.

Сравнив новые результаты, полученные в ходе анализов колокализации О методом и c помощью LocusCompare, с результатами SMR-HEIDI и опубликованными исследованиями, мы пришли к выводу, что новые результаты не внесут существенный вклад в принятии решений по приоритизации причинных для ИБС генов. В итоговой аннотации мы не использовали данные результаты.

4.4. Итоговая аннотация локусов, связанных с ИБС

Основываясь на совокупности доказательств, собранных из различных литературных источников и полученных в результате анализа колокализации, мы приоритизировали в локусах гены, которые вероятно участвуют в развитии риска ИБС. Для некоторых локусов мы предположили роль дополнительных генов, и в некоторых локусах мы не смогли приоритизировать гены, так как результаты противоречивы или доказательства отсутствуют (Рисунок 4.3).

Следует отметить, что при выборе ОНП и генов из бионифоратических исследований [119, 120, 121] мы не накладывали никаких ограничений на неравновесии по сцеплению между ОНП, имеющих приоритет в этих исследованиях, и ведущими ОНП в изучаемых локусах. Точно так же мы не ограничивали выбор топовых ОНП в анализах колокализации по критерию неравно-

весия по сцеплению с ведущими ОНП. Однако, мы проанализировали неравновесие по сцеплению между всеми ОНП, чтобы разграничить приоритиза-цию генов в случаях, когда было подозрение на существование нескольких функциональных для ИБС ОНП в локусе. Значения неравновесия по сцеплению были посчитаны по референтной выборке проекта «1000 Геномов» версии 3 фазы 5 европейской популяции с использованием программы рНпк 1.9 (http://pngu.mgh.harvard.edu/purcell/plink/) [127].

Информация по приоритизации генов систематизирована в таблице А.1 и подробно представлена в нашей статье [128].

Хорошо изученные гены

№1 (PLPP3), №2 (SORT1), №3 (IL6R), №8 (APOB), №9 (ABCG8/ABCG5), №15 (GUCY1A3), №18 (PHACTR1), №20 (TCF21), №21/22 (LPA), №25 (LPL), №26 (TRIB1), №27 (CDKN2B-AS1), №31 (CXCL12), №32 (LIPA), №35 (PDGFD), №43 (ADAMTS7), №49 (LDLR)

Приоритезированные гены (вероятно участвуют в равзитии ИБС)

№13 (MRAS), №14 (EDNRA), *>29 (JCAD),

№39 (SCARB1), №40 (FLT1), №41 (COL4A2/COL4A1), №44 (FURIN),

№48 (PECAM1)

V_У

Приоритезированные гены (возможно участвуют в равзитии ИБС)

№4 (ATP1B1), №23 (ZC3HC1), №24 (TBXAS1), №33 (CYP17A1), №36 (SH2B3), №38 (NHF1A), №42 (HHIPL1), №45 (HP), №50 (PROCR), №51 (KCNE2)

Противоречивые результаты

№5, 6, 10-12, 28, 34, 37, 46, 47

Недостаточно доказательств

№16, 17, 19

Нет доказательств

№7, 30

Рис. 4.3. Гены, приоритезированные в ИБС-ассоциированных локусах. Зеленым, отмечены гены и локусы, найденные как в других работах, так и в нашем анализе колокализации. Гены и локусы, приоритезированные как единственный кандидат во всех рассматриваемых работах, отмечены жирным шрифтом. Локусы указаны под номером в соответствии с таблицей 4.1, в скобках указан приоритезированный ген в данном локусе, если для него было достаточно доказательств.

4.4.1. Хорошо изученные гены

В результате анализа опубликованных данных мы нашли 18 генов, роль которых в развитии ИБС была подтверждена экспериментальными исследованиями и уже была известна до публикации ПГИА ИБС. К таким генам относятся: PLPP3 (также известные как PAP2B или PPAP2B, локус №1), SORTI (локус №2), IL6R (локус №3), APOB (локус №8), ABCG8/ABCG5 (локус №9), GUCY1A3 (локус №15), PHACTR1 (локус №18), TCF21 (локус №20), LPA (также известный как APOA, перекрывающиеся локусы №21 и №22), LPL (локус №25), TRIB1 (локус №26), CDKN2B-AS1 (антисмысловая РНК CDKN2B, также известная как ANRIL, локус №27), CXCL12 (локус №31), LIPA (локус №32), PDGFD (локус №35), ADAMTS7 (локус №43) и LDLR (локус №49). Продукты этих генов участвуют в метаболизме липидов, воспалении, передаче сигналов оксида азота, пролиферации и апоптозе клеток, ремоделировании сосудов и регуляции экспрессии других генов, связанных с ИБС.

Девять из 18 генов (IL6R, GUCY1A3, PHACTR1, TCF21, LPA, LPL, LIPA, PDGFD, ADAMTS7) были также приоретизированы в ходе SMR-HEIDI анализа. Это указывает на то, что эффекты функциональных ОНП, связанных с данными генами, могут быть опосредованы экспрессией этих генов. Для одного гена ABCG8 данные об экспрессии гена были доступны только для ткани печени.Для остальных 8 генов (PLPP3, SORT1, APOB, ABCG5, TRIB1, CDKN2B-AS1, CXCL12 и LDLR) наш анализ не подтвердил, что на уровень экспрессии данных генов влияют те же функциональные ОНП, что и на ИБС. Для объяснения этих результатов можно выдвинуть несколько гипотез. Во-первых, в основе ассоциации между этими генами и ИБС могут лежать другие механизмы, отличные от влияния на изменение уровня экспрессии. Например, присутствие миссенс-полиморфизмов, изменяющих свойства кодируемых белков. Во-вторых, связанные с ИБС изменения экспрессии этих генов могут наблюдаться в тканях или типах клеток, которые не были доступны для нашего

анализ. В-третьих, отсутствие приоритизации в рамках SMR-HEIDI тест не позволяет исключить тот факт, что эти гены могут влиять на ИБС через изменение свой экспрессии (см. раздел 1.3.2).

Пятнадцать из 18 хорошо изученных генов (все, кроме ABCG5, TRIB1 и CXCL12), участвующих в развитии ИБС, получили высокий приоритет по крайней мере в одном из четырех ранее опубликованных in silico исследований [119, 120, 121, 122]. Таким образом, только для трех генов доказательства их роли в заболевании ИБС были получены только на основании экспериментальных работ. При этом, только 4 гена PLPP3, APOB, GUCY1A3 и LPL были предложены в качестве единственных кандидатов в локусах. Что касается генов ABCG8/ABCG5, биоинформатические исследования отдавали приоритет ABCG8, в то время как литературные данные подтверждают связь обоих генов с ИБС (продукты этих генов имеют тесно связанные функции: они образуют гетеродимер, который ограничивает кишечную абсорбцию холестерина и способствует секреции холестерина желчью) [129, 130]. Для других локусов биоинформатические исследования находили от 2 до 7 генов-кандидатов (медиана = 5).

Мы предполагаем, что гены, которые одновременно с хорошо изученными генами были предложены в качестве генов-кандидатов в тех же локусах, могут быть результатом плейотропии и не играть роли в развитии ИБС. Например, гены IFIT1 и IFIT5, кодирующие индуцированные интерфероном антивирусные РНК-связывающие белки, которые были обнаружены в SMR-HEIDI вместе с LIPA (локус № 32), могут не участвовать в развитии ИБС. Возможно, что локус № 32 содержит регуляторный ОНП, который изменяет экспрессию как LIPA, так и IFIT1/IFIT5. Эффект данного ОНП на ИБС можно объяснить воздействием на уровень экспрессии LIPA, в то время как эффекты на экспрессию IFIT1/IFIT5, по-видимому, являются результатами плейотропного эффекта ло-куса.

Однако, необязательно, чтобы один ген объяснял связь между локусом

и ИБС. Фактически, каждый локус может содержать более одного функционального ОНП, и каждый такой ОНП может реализовывать свой эффект через более чем один ген (а также каждый ген может быть затронут более чем одним функциональным ОНП, связанным с ИБС). На наш взгляд, особого внимания заслуживают локусы, для которых в нескольких исследованиях в качестве генов-кандидатов были предложены одни и те же дополнительные гены. Примерами являются локус №2, локус №49 и перекрывающиеся локусы №21 и №22. Мы полагаем, что, помимо приоритезированных генов LDLR и ЬРА, на риск развития ИБС, вероятно, также влияют гены SLC22A3, SLC22A2, SLC22A1 (кодирующие переносчики органических катионов), PLG (кодирующие плаз-миноген, участвующий в гемостазе), SMARCA4 (кодирующий белок, участвующий в кальцификации сосудов) и CARM1 (кодирующий метилтрансферазу, участвующую в контроле индуцированного стрессом метаболизма липидов). В локусе № 2 почти все исследования т вШео и экспрессии генов отдавали приоритет CELSR2 и PSRC1 наряду с геном SORT1. Более того, было показано, что повышенная экспрессия PSRC1 связана с протективным эффектом на атеросклероз и повышением стабильность атеросклеротических бляшек у мышей ApoЕ~/~ путем модуляции транспорта холестерина и воспаления [131]. Таким образом, мы считаем, что CELSR2 и PSRC1 могут также участвовать в развитии ИБС.

Другими интересными примерами множественных генов-кандидатов в локусе являются гены длинной некодирующей РНК (днкРНК), приоритизирован-ные в экспериментальных или т вШео исследованиях (локусы № 18, № 20, № 27 и № 35). ДнкРНК CDKN2Б-AS1 ^ЯЩ локус № 27) регулирует экспрессию CDKN2A/Б и других генов и оказывает хорошо известное влияние на атеросклероз [132]. Мы предполагаем, что днкРНК RP3-323P13.2 (также известна как TARID; локус № 20), найденая в нашем SMR-HEIDI анализе, может уча-стовать в развитии ИБС через регуляцию экспрессии гена TCF21, связанного с ИБС. В исследовании Араб Х. (АГаЬ КЬ.) и коллег [133] было показано,

что TARID активирует экспрессию TCF2î посредством взаимодействия с промотором TCF2î, а также с регулятором деметилирования ДНК GADD45A. В локусах №18 и №35 анализ SMR-HEIDI предложил днкРНК RPî-257A7.4 и RPî-257A7.5 (первая антисмысловая по отношению к PHACTRî, а ген, кодирующий вторую, расположен рядом с PHACTRî) и RPîî-563Pî6.î (ее ген расположен в 12 т.п.н. от PDGFD). Однако, мы не нашли никаких доказательств в опубликованных исследованиях, что эти днкРНК могут регулировать транскрипцию PHACTRî и PDGFD, и поэтому не рассматриваем их как вероятные причинные для ИБС гены.

4.4.2. Остальные приоритизированные гены

Объединив результаты экспериментальных и in silico исследований, нам удалось приоритизировать еще 19 генов в 18 локусах. Мы разделили эти гены на две группы в зависимости от нашей уверенности в их выборе. По нашему мнению вероятно участвуют в развитии ИБС гены MRAS (локус № 13), EDNRA (также известный как ETA, локус № 14), JCAD (также известный как KIAAî462, локус № 29), SCARBî (локус № 39), FLTî (также известный как VEGFRî, локус № 4G), COL4A2/COL4Aî (локус № 41), FURIN (локус № 44) и PECAMî (локус № 48). Гены, которые мы определили как возможно участвующие в развитии ИБС, - это ATPîBî (локус №4), ZC3HCî (также известный как NIPA, локус №23), TBXASî (локус №24), CYPî7Aî (локус №33), SH2B3 (также известный как как LNK, локус № 36), HNFîA (локус № 38), HHIPLî (локус № 42), HP (локус № 45), PROCR (локус № 5G) и KCNE2 (также известный как MIRPî, локус № 51). Из них MRAS, JCAD, FURIN, PECAMî, ATPîBî, SH2B3, HP и KCNE2 были обнаружены в нашем анализе SMR-HEIDI, позволяя предположить, что изменение уровня экспрессии этих генов может влиять на риск развития ИБС.

Из перечисленных 19 генов только три были предложены как единственный ген-кандидат в локусе (№14, №29 и №4G). Для других локусов было предло-

жено от 2 до 14 генов-кандидатов (медиана = 4), и выбор причинного для ИБС гена осуществлялся с учетом всех результатов анализов и литературной аннотации. Наибольшее количество генов (п = 14) было предложено для локуса № 50. Почти все эти гены были обнаружены в ходе биоинформатических исследований. При этом, во всех рассмотренных исследованиях в этом локусе предполагалось существование только одного функционального ОНП Г8867186. Вероятно, данный ОНП располагается в регуляторным участке и поэтому оказывает плейотропное влияния на множество генов. Основываясь на литературной аннотации предложенных генов-кандидатов, мы приоритезировали ген PROCR, так как только для него были предталвены доказательсва в экспериментальных исследованиях [134].

Среди оставшихся локусов с множеством предложенных генов-кандидатов, на наш взгляд, следует обратить особое внимание на локусы №23, №36 и №44. В локусе № 23 мы обнаружили убедительные доказательства связи ИБС с геном ZC3ИC1 как в биоинформатических, так и в экспериментальных исследованиях (Таблица А.1). Ген ZC3ИC1 содержит функциональный миссенс-полимор-физм Г811556924 [135], который является ведущим ОНП локуса. Однако, наш анализ SMR-HEIDI показал, что либо Г811556924, либо другой ОНП в нерано-весии по сцеплению с ним одновременно связаны и с ИБС, и с экспрессией гена KLИDC10 в крови человека. Продукт KLИDC10 участвует в вызванной окислительным стрессом гибели клеток и воспалении [136, 137]. Поскольку эти процессы играют роль в атеросклерозе [138, 139], мы предполагаем, что изменения в экспрессии KLИDC10 могут быть дополнительным фактором, объясняющим ассоциацию между локусом № 23 и ИБС. В локусе № 36 ведущий ОНП Г83184504 представляет собой миссенс-полиморфизм в гене SИ2Б3. Интересно, что Г83184504 также был топовым ОНП для SИ2Б3 в нашем анализе SMR-НЕГО!, который также указал на этот ген. Это может означать, что влияние Г83184504 на ИБС реализуется не через или не только через изменение свойств белка SИ2Б3. Например, ОНП Г83184504 может влиять на транскрипцию SИ2Б3

или опосредовать распад РНК. В то же время, возможно, что локус № 36 содержит два функциональных ОНП связанных с ИБС в сильном неравновесии по сцеплению друг с другом - миссенс-ОНП rs3184504 и еще один ОНП, влияющий на экспрессию SH2B3. Помимо SH2B3, предложенного многими исследованиями, другим сильным геном-кандидатом в этом локусе является ATXN2. Его роль подтверждается SMR-HEIDI анализом и другими биоинформатическими и эксперименатльными исследованиями, включая результаты исследования на мышах с нокаутом ATXN2 [140]. Наконец, в локусе № 44 все исследования in silico приоритезировали гены FURIN и FES. Наш анализ SMR-HEIDI обнаружил связь между риском ИБС и изменением экспрессии FURIN в крови, а также между ИБС и изменением экспрессии FES в крови и клетках CD14+ и CD19+. Примечательно, что Лью Б. (Liu B.) и коллеги [141] недавно применили методы колокализации к набору данных транскриптов клеточных линий гладких мышц коронарных артерий человека.Они наблюдали колокализацию между сигналами генетических ассоциаций ИБС и экспрессией FES. Тем не менее, в настоящем исследовании мы отдали приоритет гену FURIN, поскольку только для этого гена экспериментальные данные подтверждают роль его белкового продукта в развитии ИБС (Таблица А.1).

4.4.3. Не охарактеризованные локусы

Для локусов № 7 и № 30 ни в одном рассмотренном исследовании, включая наше, не было предложено генов-кандидатов. Для локусов № 16, № 17 и № 19 доказательств для приоритизации было недостаточно. В каждом из этих трех локусов было предложено по одному гену-кандидату, но на основании только какого-то одного биоинформатического исследования. В локусах №5, №6, №10-12, №28, №34, №37, №46 и №47 различные исследования, включая наше, предлагали несколько генов-кандидатов (от 2 до 10, медиана = 4).В локусе №5 гены-кандидаты были предложены только в биоинформатических работах, при этом с невысокими баллами. В остальных локусах (№6, №10-12, №28, №34, №37, №46 и

№47) списки генов-кандидатов пересекались между различными исследованиями, но приоритет в работах отдавался разным генам.Например, в локусе № 47 мы не могли выбрать между тремя сильными кандидатами PEMT, SREBF1 и MIR33B. Исходя из результатов экспериментальных исследований, все три гена считаются релевантными для ИБС.

4.5. Выводы главы

Нами были получены и систематизированы данные в общей сложности для 51 локуса, ассоциированного с риском ИБС. Для каждого локуса был проведен поиск информации о генах, потенциальных вовлеченных в патогенез ИБС, из предыдущих экспериментальных и in silico исследований. Нами было проанализировано более 180 литературных источников, а также проведен колокализа-ционный анализ.

Колокализационный анализ был выполнен с использованием результатов ПГИА для ИБС 2017 года [83] и данных по экспрессии генов (eQTL) из наборов GTEx [2] версии 7, CEDAR [55] и Вестры и коллег [80].

SMR-HEIDI анализ обнаружил 83 транскрипта, относящихся к 73 кодирующим белки генам, 2 псевдогенам, 7 некодирующим РНК и одному неохарак-теризованному гену HS.443185, которые возможно вовлечены в риск развития ИБС. Насколько нам известно из анализа литературы, 29 из этих генов никогда ранее не предлагались в качестве генов-кандидатов для ИБС. Результаты SMR-HEIDI были устойчивы, что подтверждается дополнительными анализами колокализации методом в и LocusCompare. Результаты дополнительных анализов в большинстве своем совпадали с результатами SMR-HEIDI или же были указаны в других ранее опубликованных работах. При этом стоит отметить, что роль 4 генов, предложенных только методом в, никогда ранее не предполагалась в развитии ИБС.

На основе всей доступной информации нами было приоритизировано 37

генов в 36 локусах. Мы обнаружили, что для 18 приоритизированных генов в 18 локусах есть убедительные экспериментальные данные, подтверждающие их роль в развитии ИБС и определили их как «хорошо изученные гены». Кроме того, мы приоритизировали 19 генов в 18 других локусах на основе совокупных данных т вШео и экспериментальных работ. Таким образом, для 71% проанализированных локусов удалось установить гены, продукты которых наиболее вероятно участвуют в патогенезе ИБС. При помощи анализа колокализации мы продемонстрировали, что для 18 из 36 локусов ассоциация с ИБС наиболее вероятно объясняется изменением экспрессии генов в одной или нескольких тканях, релевантных для исследуемого заболевания. Более того мы показали, что в 8 локусах помимо наиболее вероятного гена-кандидата, присутствуют другие гены, для которых также были найдены доказательства их участия в развитии ИБС. Для оставшихся 15 локусов мы не смогли приоритизировать гены на основе накопленных на настоящий момент сведений: для 10 локусов информация была противоречива, для 5 - данных было недостаточно, либо они отсутствовали. Таким образом, для 15 локусов необходимы дальнейшие исследования по приоритизации причинных для ИБС генов.

Вся собранная информация представлена в таблице А.1 и предоставляет читателю возможность самостоятельно изучить список генов-кандитов и сделать собственные выводы. Мы считаем, что именно систематизация накопленной информации, а не выбор единственного гена-кандидата в локусе, является наиболее ценным результатам проделанной работы.

106

Заключение

Полногеномные исследования ассоциаций сыграли ключевую роль в картировании локусов сложных признаков человека. Дальнейшее исследование накопленных результатов ПГИА позволит идентифицировать функциональные варинаты генома и гены, изменение функции которых влияет на риск развития заболевания. Это позволит лучше понять этиологию заболеваний и внесет вклад в разработку терапий.

На данный момент, существуют несколько БД ПГИА и разработаны многочисленные инструменты анализа суммарных статистик. Однако, для того, чтобы исследователи могли полноценно использовать накопленные результаты ПГИА, необходимо создать инфраструктуру, которая сможет обеспечить как хранение больших массивов данных ПГИА и быстрый доступ к ним, так и возможность проведения разнообразных анализов.

Данная работа посвящена разработке платформы, предназначенной для агрегации, хранения, доступа, обработки и визуализации суммарных статистик ассоциативных исследований. На данный момент, платформа GWAS-MAP позволяет конвертировать оригинальные файлы суммарных статистик из различных форматов в унифицированный формат БД и проводить ряд анализов суммарных статистик. Помимо этого, через веб-интерфейс платформы пользователь может провести поиск ассоциаций по суммарным статистикам, накопленным в БД, а также может провести анализ колокализации.

Демонстрация работы платформы была проведена на примере исследования сложных признаков человека, а именно варикозной болезни нижних конечностей и ишемической болезни сердца. Анализ сложных признаков человека продемонстрировал потенциал платформы для формулирования новых биологических гипотез и систематического анализа.

В соответствии с поставленными задачами, были достигнуты следующие результаты:

1. Разработана платформа GWAS-MAP для хранения, доступа, сбора, анализа и визуализации суммарных статистик ПГИА.

2. Собрана база данных суммарных статистик ПГИА, которая содержит более 75 миллиардов ассоциаций между генотипами и фенотипами.

3. В результате исследования варикозной болезни вен нижних конечностей найдена не описанная ранее причинная связь между уровнями белков MICB и CD209 в плазме крови человека и данным заболеванием.

4. Проведена систематическая приоритизация генов для локусов, ассоциированных с ишемической болезнью сердца.

По полученным в ходе диссертационной работы результатам можно сделать следующие выводы:

1. Интерфейс системы GWAS-MAP предоставляет универсальный способ работы с данными, что позволяет быстро встраивать новые методы анализа в систему. Пользователи могут работать с системой через утилиты командной строки, с помощью которой имеют возможность загружать данные в систему, запускать анализы и получать их результаты. Веб-интерфейс платформы дает возможности исследовать данные и удобен в обращении как для опытных биоинформатики, так и для исследователей, далеких от программирования.

2. Анализ нескольких сложных признаков человека с использованием собранной базы данных продемонстрировал важность совместного анализа суммарных статистик из различных доменов, таких как белки, метаболиты, экспрессия генов, а также заболевания и другие количественные признаки.

3. Анализ варикозной болезни вен нижних конечностей и ишемической болезни сердца, продемонстрировал потенциал платформы для формулирования новых биологических гипотез и систематического анализа.

В дальнейшем мы планируем расширять функционал платформы, добавляя новые методы анализа и предоставляя новые возможности работы пользователям. В частности, будет доступно больше анализов через веб-интерфейс, а не только через утилиты командной строки. Мы также реализуем поиск признаков

с учетом заданной онтологии, такой как EFO (Experimental Factor Ontology), и стандартной терминалогии, как например ICD10. Это позволить осуществлять поиск не только напрямую по названию признака, но и через задание более обширного класса признаков, например, при поиске по слову «антропометрия» будут находиться такие признаки как рост, рост в положении сидя, вес, индекс массы тела, и так далее.

Мы также следим за выходом новых коллекций суммарных статистик, и постоянно загружаем новые данные в БД. К сожалению, на сегодняшний день платформу можно использовать только для проведения анализов по суммарным статистикам исследований европейской популяции. В будущем мы планируем расширять БД также на другие популяции.

Список сокращений и условных обозначений

ПГИА — Полногеномное исследование ассоциаций РГИА — Региональное исследование ассоциаций ОНП — Однонуклеотидные полиморфизмы т.п.н. — тысяч пар нуклеотидов сМ — Сантиморган

ВБНК — Варикозная болезнь нижних конечностей ИБС — Ишемическая болезнь сердца БД — База данных

СУБД — Система управления базами данных КК — Контроль качества FDR — False discovery rate

MR/MP — Mendelian randomization/Менделевская рандомизация SMR-HEIDI — Summary-level mendelian randomization и heterogeneity in dependent instruments

LD — Linkage desiquilibrium / неравновесие по сцеплению eQTL — expression Quantitative Trait Loci VEP — Variant Effect Predictor

DEPICT — Data-driven Expression Prioritized Integration for Complex Traits

Список литературы

1. Visscher P. M., Wray N. R., Zhang Q. et al. 10 years of GWAS discovery: biology, function, and translation // The American Journal of Human Genetics. 2017. Vol. 101, no. 1. P. 5-22.

2. Consortium G. et al. Genetic effects on gene expression across human tissues // Nature. 2017. Vol. 550, no. 7675. P. 204-213.

3. Timmers P. R., Mounier N., Lall K. et al. Genomics of 1 million parent lifespans implicates novel pathways and common diseases and distinguishes survival chances // Elife. 2019. Vol. 8. P. e39856.

4. Shen X., Klaric L., Sharapov S. et al. Multivariate discovery and replication of five novel loci associated with immunoglobulin GN-glycosylation // Nature communications. 2017. Vol. 8, no. 1. P. 1-10.

5. Demirkan A., van Duijn C. M., Ugocsai P. et al. Genome-wide association study identifies novel loci associated with circulating phospho-and sphingolipid concentrations // PLoS genetics. 2012. Vol. 8, no. 2.

6. Sun B. B., Maranville J. C., Peters J. E. et al. Genomic atlas of the human plasma proteome // Nature. 2018. Vol. 558, no. 7708. P. 73-79.

7. Zhu Z., Zhang F., Hu H. et al. Integration of summary data from GWAS and eQTL studies predicts complex trait gene targets // Nature genetics. 2016. Vol. 48, no. 5. P. 481.

8. Yang J., Lee S. H., Goddard M. E., Visscher P. M. GCTA: a tool for genome-wide complex trait analysis // The American Journal of Human Genetics. 2011. Vol. 88, no. 1. P. 76-82.

9. Bulik-Sullivan B. K., Loh P.-R., Finucane H. K. et al. LD Score regression distinguishes confounding from polygenicity in genome-wide association studies // Nature genetics. 2015. Vol. 47, no. 3. P. 291.

10. Consortium . G. P. et al. A map of human genome variation from population-scale sequencing // Nature. 2010. Vol. 467, no. 7319. P. 1061.

11. Griffith O. L., Montgomery S. B., Bernier B. et al. ORegAnno: an open-access community-driven resource for regulatory annotation // Nucleic acids research. 2007. Vol. 36, no. suppl_1. P. D107-D113.

12. Rommens J. M., Iannuzzi M. C., Kerem B.-s. et al. Identification of the cystic fibrosis gene: chromosome walking and jumping // Science. 1989. Vol. 245, no. 4922. P. 1059-1065.

13. MacDonald M. E., Novelletto A., Lin C. et al. The Huntington's disease candidate region exhibits many different haplotypes // Nature genetics. 1992. Vol. 1, no. 2. P. 99-103.

14. Corder E. H., Saunders A. M., Strittmatter W. J. et al. Gene dose of apolipopro-tein E type 4 allele and the risk of Alzheimer's disease in late onset families // Science. 1993. Vol. 261, no. 5123. P. 921-923.

15. Altshuler D., Hirschhorn J. N., Klannemark M. et al. The common PPAR7 Pro12Ala polymorphism is associated with decreased risk of type 2 diabetes // Nature genetics. 2000. Vol. 26, no. 1. P. 76-80.

16. Reich D. E., Lander E. S. On the allelic spectrum of human disease // TRENDS in Genetics. 2001. Vol. 17, no. 9. P. 502-510.

17. Risch N., Merikangas K. The future of genetic studies of complex human diseases // Science. 1996. Vol. 273, no. 5281. P. 1516-1517.

18. Consortium I. H. et al. A haplotype map of the human genome // Nature. 2005. Vol. 437, no. 7063. P. 1299.

19. Ritchie M. D., Denny J. C., Crawford D. C. et al. Robust replication of geno-type-phenotype associations across multiple diseases in an electronic medical record // The American Journal of Human Genetics. 2010. Vol. 86, no. 4. P. 560-572.

20. Consortium I. H. . et al. Integrating common and rare genetic variation in diverse human populations // Nature. 2010. Vol. 467, no. 7311. P. 52.

21. Consortium . G. P. et al. A global reference for human genetic variation // Nature. 2015. Vol. 526, no. 7571. P. 68-74.

22. Devlin B., Risch N. A comparison of linkage disequilibrium measures for fine-scale mapping // Genomics. 1995. Vol. 29, no. 2. P. 311-322.

23. Li M., Li C., Guan W. Evaluation of coverage variation of SNP chips for genome-wide association studies // European Journal of Human Genetics. 2008. Vol. 16, no. 5. P. 635-643.

24. DeWan A., Liu M., Hartman S. et al. HTRA1 promoter polymorphism in wet age-related macular degeneration // Science. 2006. Vol. 314, no. 5801. P. 989-992.

25. Klein R. J., Zeiss C., Chew E. Y. et al. Complement factor H polymorphism in age-related macular degeneration // Science. 2005. Vol. 308, no. 5720. P. 385-389.

26. Consortium W. T. C. C. et al. Genome-wide association study of 14,000 cases of seven common diseases and 3,000 shared controls // Nature. 2007. Vol. 447, no. 7145. P. 661.

27. Buniello A., MacArthur J. A. L., Cerezo M. et al. The NHGRI-EBI GWAS Catalog of published genome-wide association studies, targeted arrays and summary statistics 2019 // Nucleic acids research. 2019. Vol. 47, no. D1. P. D1005-D1012.

28. Franke A., McGovern D. P., Barrett J. C. et al. Genome-wide meta-analysis increases to 71 the number of confirmed Crohn's disease susceptibility loci // Nature genetics. 2010. Vol. 42, no. 12. P. 1118-1125.

29. Allen H. L., Estrada K., Lettre G. et al. Hundreds of variants clustered in genomic loci and biological pathways affect human height // Nature. 2010. Vol. 467, no. 7317. P. 832-838.

30. Visscher P. M., Brown M. A., McCarthy M. I., Yang J. Five years of GWAS discovery // The American Journal of Human Genetics. 2012. Vol. 90, no. 1. P. 7-24.

31. Kraft P., Cox D. G. Study designs for genome-wide association studies // Advances in genetics. 2008. Vol. 60. P. 465-504.

32. Wilson P. W. Established risk factors and coronary artery disease: the Fram-ingham Study // American journal of hypertension. 1994. Vol. 7, no. 7_Pt_2. P. 7S-12S.

33. Postmus I., Trompet S., Deshmukh H. A. et al. Pharmacogenetic meta-analysis of genome-wide association studies of LDL cholesterol response to statins // Nature communications. 2014. Vol. 5. P. 5068.

34. Landi M. T., Chatterjee N., Yu K. et al. A genome-wide association study of lung cancer identifies a region of chromosome 5p15 associated with risk for adenocarcinoma // The american journal of human genetics. 2009. Vol. 85, no. 5. P. 679-691.

35. Tsepilov Y. A., Shin S.-Y., Soranzo N. et al. Nonadditive effects of genes in human metabolomics // Genetics. 2015. Vol. 200, no. 3. P. 707-718.

36. Winkler T. W., Day F. R., Croteau-Chonka D. C. et al. Quality control and conduct of genome-wide association meta-analyses // Nature protocols. 2014. Vol. 9, no. 5. P. 1192-1212.

37. Teslovich T. M., Musunuru K., Smith A. V. et al. Biological, clinical and population relevance of 95 loci for blood lipids // Nature. 2010. Vol. 466, no. 7307. P. 707-713.

38. Fisher R. Statistical methods for research workers. Edinburgh, Scotland: Oliver and Boyd. 1925.

39. Begum F., Ghosh D., Tseng G. C., Feingold E. Comprehensive literature review and statistical considerations for GWAS meta-analysis // Nucleic acids research. 2012. Vol. 40, no. 9. P. 3777-3784.

40. Mantel N. Chi-square tests with one degree of freedom; extensions of the Man-tel-Haenszel procedure // Journal of the American Statistical Association. 1963. Vol. 58, no. 303. P. 690-700.

41. Huedo-Medina T. B., Sanchez-Meca J., Marin-Martinez F., Botella J. Assessing heterogeneity in meta-analysis: Q statistic or I2 index? // Psychological methods. 2006. Vol. 11, no. 2. P. 193.

42. Willer C. J., Li Y., Abecasis G. R. METAL: fast and efficient meta-analysis of genomewide association scans // Bioinformatics. 2010. Vol. 26, no. 17. P. 2190-2191.

43. et al. J. Y. Conditional and joint multiple-SNP analysis of GWAS summary statistics identifies additional variants influencing complex traits // Nature Genetics. 2012.

44. Kichaev G., Yang W.-Y., Lindstrom S. et al. Integrating functional data to prioritize causal variants in statistical fine-mapping studies // PLoS Genet. 2014. Vol. 10, no. 10. P. e1004722.

45. Iotchkova V., Ritchie G. R., Geihs M. et al. GARFIELD-GWAS analysis of regulatory or functional information enrichment with LD correction // BioRxiv. 2016. P. 085738.

46. Benner C., Spencer C. C., Havulinna A. S. et al. FINEMAP: efficient variable selection using summary data from genome-wide association studies // Bioinformatics. 2016. Vol. 32, no. 10. P. 1493-1501.

47. McLaren W., Gil L., Hunt S. E. et al. The ensembl variant effect predictor // Genome biology. 2016. Vol. 17, no. 1. P. 122.

48. Pers T. H., Karjalainen J. M., Chan Y. et al. Biological interpretation of genome-wide association studies using predicted gene functions // Nature communications. 2015. Vol. 6, no. 1. P. 1-9.

49. Kersey P. J., Allen J. E., Christensen M. et al. Ensembl Genomes 2013: scaling up access to genome-wide data // Nucleic acids research. 2014. Vol. 42, no. D1. P. D546-D552.

50. Nicholls H. L., John C. R., Watson D. S. et al. Reaching the End-Game for GWAS: Machine Learning Approaches for the Prioritization of Complex Disease Loci // Frontiers in Genetics. 2020. Vol. 11. P. 350.

51. Nitsch D., Goncalves J. P., Ojeda F. et al. Candidate gene prioritization by network analysis of differential expression using machine learning approaches // BMC bioinformatics. 2010. Vol. 11, no. 1. P. 460.

52. Costa P. R., Acencio M. L., Lemke N. A machine learning approach for genome-wide prediction of morbid and druggable human genes based on systems-level data // BMC genomics / Springer. Vol. 11. 2010. P. S9.

53. Wu M., Zeng W., Liu W. et al. Leveraging multiple gene networks to prioritize GWAS candidate genes via network representation learning // Methods. 2018. Vol. 145. P. 41-50.

54. Walsh B., Lynch M. Evolution and selection of quantitative traits. Oxford University Press, 2018.

55. Momozawa Y., Dmitrieva J., Theatre E. et al. IBD risk loci are enriched in multigenic regulatory modules encompassing putative causative genes // Nature communications. 2018. Vol. 9, no. 1. P. 2427.

56. Hemani G., Zheng J., Wade K. H. et al. MR-Base: a platform for systematic causal inference across the phenome using billions of genetic associations // BioRxiv. 2016. P. 078972.

57. Speed D., Balding D. J. SumHer better estimates the SNP heritability of complex traits from summary statistics // Nature genetics. 2019. Vol. 51, no. 2. P. 277-284.

58. Elgaeva E. E., Tsepilov Y., Freidin M. B. et al. ISSLS Prize in Clinical Science 2020. Examining causal effects of body mass index on back pain: a Mendelian randomization study // European Spine Journal. 2019. P. 1-6.

59. O'Connor L. J., Price A. L. Distinguishing genetic correlation from causation across 52 diseases and complex traits // Nature genetics. 2018. Vol. 50, no. 12. P. 1728-1734.

60. Verbanck M., Chen C.-y., Neale B., Do R. Detection of widespread horizontal pleiotropy in causal relationships inferred from Mendelian randomization between complex traits and diseases // Nature genetics. 2018. Vol. 50, no. 5. P. 693-698.

61. Egger M., Smith G. D., Schneider M., Minder C. Bias in meta-analysis detected by a simple, graphical test // Bmj. 1997. Vol. 315, no. 7109. P. 629-634.

62. Bowden J., Davey Smith G., Burgess S. Mendelian randomization with invalid instruments: effect estimation and bias detection through Egger regression // International journal of epidemiology. 2015. Vol. 44, no. 2. P. 512-525.

63. Bowden J., Del Greco M F., Minelli C. et al. A framework for the investigation of pleiotropy in two-sample summary data Mendelian randomization // Statistics in medicine. 2017. Vol. 36, no. 11. P. 1783-1802.

64. Choi S. W., O'Reilly P. F. PRSice-2: Polygenic Risk Score software for biobank-scale data // Gigascience. 2019. Vol. 8, no. 7. P. giz082.

65. Lloyd-Jones L. R., Zeng J., Sidorenko J. et al. Improved polygenic prediction by Bayesian multiple regression on summary statistics // Nature communications. 2019. Vol. 10, no. 1. P. 1-11.

66. Evans D. M., Visscher P. M., Wray N. R. Harnessing the information contained within genome-wide association studies to improve individual prediction of complex disease risk // Human molecular genetics. 2009. Vol. 18, no. 18. P. 3525-3531.

67. Mavaddat N., Michailidou K., Dennis J. et al. Polygenic risk scores for prediction of breast cancer and breast cancer subtypes // The American Journal of Human Genetics. 2019. Vol. 104, no. 1. P. 21-34.

68. Mak T. S. H., Porsch R. M., Choi S. W. et al. Polygenic scores via penalized regression on summary statistics // Genetic epidemiology. 2017. Vol. 41, no. 6. P. 469-480.

69. Vilhjalmsson B. J., Yang J., Finucane H. K. et al. Modeling linkage disequilibrium increases accuracy of polygenic risk scores // The american journal of human genetics. 2015. Vol. 97, no. 4. P. 576-592.

70. Khera A. V., Chaffin M., Aragam K. G. et al. Genome-wide polygenic scores for common diseases identify individuals with risk equivalent to monogenic mutations // Nature genetics. 2018. Vol. 50, no. 9. P. 1219-1224.

71. Khera A. V., Chaffin M., Wade K. H. et al. Polygenic prediction of weight and obesity trajectories from birth to adulthood // Cell. 2019. Vol. 177, no. 3.

P. 587-596.

72. Beck T., Hastings R. K., Gollapudi S. et al. GWAS Central: a comprehensive resource for the comparison and interrogation of genome-wide association studies // European journal of human genetics. 2014. Vol. 22, no. 7. P. 949-952.

73. Welter D., MacArthur J., Morales J. et al. The NHGRI GWAS Catalog, a curated resource of SNP-trait associations // Nucleic acids research. 2014. Vol. 42, no. D1. P. D1001-D1006.

74. Staley J. R., Blackshaw J., Kamat M. A. et al. PhenoScanner: a database of human genotype-phenotype associations // Bioinformatics. 2016. Vol. 32, no. 20. P. 3207-3209.

75. Canela-Xandri O., Rawlik K., Tenesa A. An atlas of genetic associations in UK Biobank // Nature genetics. 2018. Vol. 50, no. 11. P. 1593-1599.

76. Elsworth B. L., Lyon M. S., Alexander T. et al. The MRC IEU OpenGWAS data infrastructure // bioRxiv. 2020.

77. Evangelou E., Ioannidis J. P. Meta-analysis methods for genome-wide association studies and beyond // Nature Reviews Genetics. 2013. Vol. 14, no. 6. P. 379-389.

78. Suhre K., Arnold M., Bhagwat A. M. et al. Connecting genetic risk to disease end points through the human blood plasma proteome // Nature communications. 2017. Vol. 8, no. 1. P. 1-14.

79. Folkersen L., Fauman E., Sabater-Lleal M. et al. Mapping of 79 loci for 83 plasma protein biomarkers in cardiovascular disease // PLoS genetics. 2017. Vol. 13, no. 4. P. e1006706.

80. Westra H.-J., Peters M. J., Esko T. et al. Systematic identification of trans eQTLs as putative drivers of known disease associations // Nature genetics. 2013. Vol. 45, no. 10. P. 1238-1243.

81. Schunkert H., König I. R., Kathiresan S. et al. Large-scale association analysis identifies 13 new susceptibility loci for coronary artery disease // Nature genetics. 2011. Vol. 43, no. 4. P. 333-338.

82. Nikpay M., Goel A., Won H.-H. et al. A comprehensive 1000 Genomes-based genome-wide association meta-analysis of coronary artery disease // Nature genetics. 2015. Vol. 47, no. 10. P. 1121.

83. Howson J. M., Zhao W., Barnes D. R. et al. Fifteen new risk loci for coronary artery disease highlight arterial-wall-specific mechanisms // Nature genetics. 2017. Vol. 49, no. 7. P. 1113.

84. Kettunen J., Demirkan A., Würtz P. et al. Genome-wide study for circulating metabolites identifies 62 loci and reveals novel systemic effects of LPA. Nat Commun. 2016; 7: 11122.

85. Willer C. J., Schmidt E. M., Sengupta S. et al. Discovery and refinement of loci associated with lipid levels // Nature genetics. 2013. Vol. 45, no. 11. P. 1274.

86. Ahola-Olli A. V., Würtz P., Havulinna A. S. et al. Genome-wide association study identifies 27 loci influencing concentrations of circulating cytokines and growth factors // The American Journal of Human Genetics. 2017. Vol. 100, no. 1. P. 40-50.

87. Sharapov S. Z., Tsepilov Y. A., Klaric L. et al. Defining the genetic control of human blood plasma N-glycome using genome-wide association study // Human molecular genetics. 2019. Vol. 28, no. 12. P. 2062-2077.

88. Klaric L., Tsepilov Y. A., Stanton C. M. et al. Glycosylation of immunoglob-ulin G is regulated by a large network of genes pleiotropic with inflammatory diseases // Science advances. 2020. Vol. 6, no. 8. P. eaax0301.

89. Lloyd-Jones L. R., Holloway A., McRae A. et al. The genetic architecture of gene expression in peripheral blood // The American Journal of Human Genetics. 2017. Vol. 100, no. 2. P. 228-237.

90. Parisien M., Khoury S., Chabot-Dore A.-J. et al. Effect of human genetic variability on gene expression in dorsal root ganglia and association with pain phenotypes // Cell reports. 2017. Vol. 19, no. 9. P. 1940-1952.

91. Beebe-Dimmer J. L., Pfeifer J. R., Engle J. S., Schottenfeld D. The epidemiology of chronic venous insufficiency and varicose veins // Annals of epidemiology.

2005. Vol. 15, no. 3. P. 175-184.

92. Segiet O. A., Brzozowa-Zasada M., Piecuch A. et al. Biomolecular mechanisms in varicose veins development // Annals of vascular surgery. 2015. Vol. 29, no. 2. P. 377-384.

93. Raffetto J. D. Pathophysiology of chronic venous disease and venous ulcers // Surgical Clinics. 2018. Vol. 98, no. 2. P. 337-347.

94. Pfisterer L., Konig G., Hecker M., Korff T. Pathogenesis of varicose veins—lessons from biomechanics // Vasa. 2014. Vol. 43, no. 2. P. 88-99.

95. Lim C. S., Kiriakidis S., Sandison A. et al. Hypoxia-inducible factor pathway and diseases of the vascular wall // Journal of vascular surgery. 2013. Vol. 58, no. 1. P. 219-230.

96. Ng M., Andrew T., Spector T., Jeffery S. Linkage to the FOXC2 region of chromosome 16 for varicose veins in otherwise healthy, unselected sibling pairs // Journal of medical genetics. 2005. Vol. 42, no. 3. P. 235-239.

97. Shadrina A. S., Sharapov S. Z., Shashkova T. I., Tsepilov Y. A. Varicose veins of lower extremities: Insights from the first large-scale genetic study // PLoS genetics. 2019. Vol. 15, no. 4. P. e1008110.

98. Jo A., Denduluri S., Zhang B. et al. The versatile functions of Sox9 in development, stem cells, and human diseases // Genes & diseases. 2014. Vol. 1, no. 2. P. 149-161.

99. Hanley K. P., Oakley F., Sugden S. et al. Ectopic SOX9 mediates extracellular matrix deposition characteristic of organ fibrosis // Journal of Biological Chemistry. 2008. Vol. 283, no. 20. P. 14063-14071.

100. Sokolova E. A., Shadrina A. S., Sevost'ianova K. S. et al. HFE p. C282Y gene variant is associated with varicose veins in Russian population // Clinical and experimental medicine. 2016. Vol. 16, no. 3. P. 463-470.

101. Hodonsky C. J., Jain D., Schick U. M. et al. Genome-wide association study of red blood cell traits in Hispanics/Latinos: The Hispanic Community Health Study/Study of Latinos // PLoS genetics. 2017. Vol. 13, no. 4. P. e1006760.

102. del Rio Solá L., Aceves M., Dueñas A. et al. Varicose veins show enhanced chemokine expression // European Journal of Vascular and Endovascular Surgery. 2009. Vol. 38, no. 5. P. 635-641.

103. Lattimer C. R., Kalodiki E., Geroulakos G. et al. Are inflammatory biomark-ers increased in varicose vein blood? // Clinical and Applied Thrombo-sis/Hemostasis. 2016. Vol. 22, no. 7. P. 656-664.

104. Hemani G., Tilling K., Davey Smith G. Orienting the causal relationship between imprecisely measured traits using GWAS summary data // PLoS genetics. 2017. Vol. 13, no. 11. P. e1007081.

105. Smetanina M. A., Kel A. E., Sevost'Ianova K. S. et al. DNA methylation and gene expression profiling reveal MFAP5 as a regulatory driver of extracellular matrix remodeling in varicose vein disease // Epigenomics. 2018. Vol. 10, no. 08. P. 1103-1119.

106. Burgess S., Davies N. M., Thompson S. G. Bias due to participant overlap in two-sample Mendelian randomization // Genetic epidemiology. 2016. Vol. 40, no. 7. P. 597-608.

107. Satonaka H., Suzuki E., Nishimatsu H. et al. Calcineurin promotes the expression of monocyte chemoattractant protein-1 in vascular myocytes and mediates vascular inflammation // Circulation research. 2004. Vol. 94, no. 5. P. 693-700.

108. Lim C., Davies A. Pathogenesis of primary varicose veins // British Journal of Surgery: Incorporating European Journal of Surgery and Swiss Surgery. 2009. Vol. 96, no. 11. P. 1231-1242.

109. Malakar A. K., Choudhury D., Halder B. et al. A review on coronary artery disease, its risk factors, and therapeutics // Journal of cellular physiology. 2019. Vol. 234, no. 10. P. 16812-16823.

110. Kessler T., Vilne B., Schunkert H. The impact of genome-wide association studies on the pathophysiology and therapy of cardiovascular disease // EMBO molecular medicine. 2016. Vol. 8, no. 7. P. 688-701.

111. McPherson R., Tybjaerg-Hansen A. Genetics of coronary artery disease //

Circulation research. 2016. Vol. 118, no. 4. P. 564-578.

112. Erdmann J., Kessler T., Munoz Venegas L., Schunkert H. A decade of genome-wide association studies for coronary artery disease: the challenges ahead // Cardiovascular research. 2018. Vol. 114, no. 9. P. 1241-1257.

113. Zdravkovic S., Wienke A., Pedersen N. et al. Heritability of death from coronary heart disease: a 36-year follow-up of 20 966 Swedish twins // Journal of internal medicine. 2002. Vol. 252, no. 3. P. 247-254.

114. Wienke A., Holm N. V., Skytthe A., Yashin A. I. The heritability of mortality due to heart diseases: a correlated frailty model applied to Danish twins // Twin Research and Human Genetics. 2001. Vol. 4, no. 4. P. 266-274.

115. Won H.-H., Natarajan P., Dobbyn A. et al. Disproportionate contributions of select genomic compartments and cell types to genetic risk for coronary artery disease // PLoS Genet. 2015. Vol. 11, no. 10. P. e1005622.

116. Lehrman M. A., Schneider W. J., SudhofT. C. et al. Mutation in LDL receptor: Alu-Alu recombination deletes exons encoding transmembrane and cytoplasmic domains // Science. 1985. Vol. 227, no. 4683. P. 140-146.

117. Hirschhorn J. N., Lohmueller K., Byrne E., Hirschhorn K. A comprehensive review of genetic association studies // Genetics in medicine. 2002. Vol. 4, no. 2. P. 45-61.

118. Clarke S. L., Assimes T. L. Genome-wide association studies of coronary artery disease: recent progress and challenges ahead // Current atherosclerosis reports. 2018. Vol. 20, no. 9. P. 47.

119. Brenne I., Civelek M., Vilne B. et al. Prediction of causal candidate genes in coronary artery disease loci // Arteriosclerosis, thrombosis, and vascular biology. 2015. Vol. 35, no. 10. P. 2207-2217.

120. Lempiainen H., Brenne I., Michoel T. et al. Network analysis of coronary artery disease risk genes elucidates disease mechanisms and druggable targets // Scientific reports. 2018. Vol. 8, no. 1. P. 1-14.

121. van der Harst P., Verweij N. Identification of 64 novel genetic loci provides

an expanded view on the genetic architecture of coronary artery disease // Circulation research. 2018. Vol. 122, no. 3. P. 433-443.

122. Svishcheva G. R., Belonogova N. M., Zorkoltseva I. V. et al. Gene-based association tests using GWAS summary statistics // Bioinformatics. 2019. Vol. 35, no. 19. P. 3701-3708.

123. Ongen H., Brown A. A., Delaneau O. et al. Estimating the causal tissues for complex traits and diseases // Nature genetics. 2017. Vol. 49, no. 12. P. 1676.

124. Libby P. Inflammation in atherosclerosis // Arteriosclerosis, thrombosis, and vascular biology. 2012. Vol. 32, no. 9. P. 2045-2051.

125. Lievens D., von Hundelshausen P. Platelets in atherosclerosis // Thrombosis and haemostasis. 2011. Vol. 106, no. 11. P. 827-838.

126. Liu B., Gloudemans M. J., Rao A. S. et al. Abundant associations with gene expression complicate GWAS follow-up // Nature genetics. 2019. Vol. 51, no. 5. P. 768-769.

127. Purcell S., Neale B., Todd-Brown K. et al. PLINK: a tool set for whole-genome association and population-based linkage analyses // The American journal of human genetics. 2007. Vol. 81, no. 3. P. 559-575.

128. Shadrina A. S., Shashkova T. I., Torgasheva A. A. et al. Prioritization of causal genes for coronary artery disease based on cumulative evidence from experimental and in silico studies // Scientific reports. 2020. Vol. 10, no. 1. P. 1-15.

129. Yu X.-H., Qian K., Jiang N. et al. ABCG5/ABCG8 in cholesterol excretion and atherosclerosis // Clinica Chimica Acta. 2014. Vol. 428. P. 82-88.

130. Helgadottir A., Alexandersson K. F., Thorgeirsson G. et al. Rare Missense Mutations of ABCG5/ABCG8 Raise Cholesterol and Phytosterol Levels and Increase the Risk of Coronary Artery Disease // Circulation. 2016. Vol. 134, no. suppl_1. P. A19235-A19235.

131. Guo K., Hu L., Xi D. et al. PSRC1 overexpression attenuates atherosclerosis progression in apoE-/- mice by modulating cholesterol transportation and inflammation // Journal of molecular and cellular cardiology. 2018. Vol. 116.

P. 69-80.

132. Congrains A., Kamide K., Katsuya T. et al. CVD-associated non-coding RNA, ANRIL, modulates expression of atherogenic pathways in VSMC // Biochemical and biophysical research communications. 2012. Vol. 419, no. 4. P. 612-616.

133. Arab K., Park Y. J., Lindroth A. M. et al. Long noncoding RNA TARID directs demethylation and activation of the tumor suppressor TCF21 via GADD45A // Molecular cell. 2014. Vol. 55, no. 4. P. 604-614.

134. Danese S., Vetrano S., Zhang L. et al. The protein C pathway in tissue inflammation and injury: pathogenic role and therapeutic implications // Blood, The Journal of the American Society of Hematology. 2010. Vol. 115, no. 6. P. 1121-1130.

135. Jones P. D., Kaiser M. A., Najafabadi M. G. et al. The coronary artery disease-associated coding variant in zinc finger C3HC-type containing 1 (ZC3HC1) affects cell cycle regulation // Journal of Biological Chemistry. 2016. Vol. 291, no. 31. P. 16318-16327.

136. Sekine Y., Hatanaka R., Watanabe T. et al. The Kelch repeat protein KL-HDC10 regulates oxidative stress-induced ASK1 activation by suppressing PP5 // Molecular cell. 2012. Vol. 48, no. 5. P. 692-704.

137. Yamaguchi N., Sekine S., Naguro I. et al. KLHDC10 Deficiency Protects Mice against TNFa-Induced Systemic Inflammation // PloS one. 2016. Vol. 11, no. 9. P. e0163118.

138. Harrison D., Griendling K. K., Landmesser U. et al. Role of oxidative stress in atherosclerosis // The American journal of cardiology. 2003. Vol. 91, no. 3. P. 7-11.

139. Geovanini G. R., Libby P. Atherosclerosis and inflammation: overview and updates // Clinical Science. 2018. Vol. 132, no. 12. P. 1243-1252.

140. Lastres-Becker I., Brodesser S., Lütjohann D. et al. Insulin receptor and lipid metabolism pathology in ataxin-2 knock-out mice // Human molecular genetics. 2008. Vol. 17, no. 10. P. 1465-1481.

141. Liu B., Pjanic M., Wang T. et al. Genetic regulatory mechanisms of smooth muscle cells map to coronary artery disease risk loci // The American Journal of Human Genetics. 2018. Vol. 103, no. 3. P. 377-388.

142. Wu C., Huang R.-T., Kuo C.-H. et al. Mechanosensitive PPAP2B regulates endothelial responses to atherorelevant hemodynamic forces // Circulation research. 2015. Vol. 117, no. 4. P. e41-e53.

143. Schober A., Siess W. Lysophosphatidic acid in atherosclerotic diseases // British journal of pharmacology. 2012. Vol. 167, no. 3. P. 465-482.

144. Zhou Z., Subramanian P., Sevilmis G. et al. Lipoprotein-derived lysophosphatidic acid promotes atherosclerosis by releasing CXCL1 from the endothelium // Cell metabolism. 2011. Vol. 13, no. 5. P. 592-600.

145. Mehta N. N., Consortium C. A. D. C. G., Musunuru K. et al. From noncoding variant to phenotype via SORT1 at the 1p13 cholesterol locus // Circulation: Cardiovascular Genetics. 2011. Vol. 4, no. 4. P. 465-466.

146. Strong A., Ding Q., Edmondson A. C. et al. Hepatic sortilin regulates both apolipoprotein B secretion and LDL catabolism // The Journal of clinical investigation. 2012. Vol. 122, no. 8. P. 2807-2816.

147. Gustafsen C., Kjolby M., Nyegaard M. et al. The hypercholesterolemia-risk gene SORT1 facilitates PCSK9 secretion // Cell metabolism. 2014. Vol. 19, no. 2. P. 310-318.

148. Kjolby M., Nielsen M. S., Petersen C. M. Sortilin, encoded by the cardiovascular risk gene SORT1, and its suggested functions in cardiovascular disease // Current atherosclerosis reports. 2015. Vol. 17, no. 4. P. 18.

149. Erbilgin A., Civelek M., Romanoski C. E. et al. Identification of CAD candidate genes in GWAS loci and their expression in vascular cells // Journal of lipid research. 2013. Vol. 54, no. 7. P. 1894-1905.

150. Abeywardena M. Y., Leifert W. R., Warnes K. E. et al. Cardiovascular biology of interleukin-6 // Current pharmaceutical design. 2009. Vol. 15, no. 15. P. 1809-1821.

151. Collaboration I. G. C. E. R. F. et al. Interleukin-6 receptor pathways in coronary heart disease: a collaborative meta-analysis of 82 studies // The Lancet. 2012. Vol. 379, no. 9822. P. 1205-1213.

152. Jiang Z., Wu X., Liu Y. et al. Changes of gene expression profiles across different phases of vascular calcification in rats // Genet Mol Res. 2013. Vol. 12. P. 5945-57.

153. Dharampal A., de Feyter P. Coronary artery calcification: does it predict obstructive coronary artery disease? // Netherlands Heart Journal. 2013. Vol. 21, no. 7-8. P. 344-346.

154. Van Assche T., Hendrickx J., Crauwels H. M. et al. Transcription profiles of aortic smooth muscle cells from atherosclerosis-prone and-resistant regions in young apolipoprotein E-deficient mice before plaque development // Journal of vascular research. 2011. Vol. 48, no. 1. P. 31-42.

155. Carmosino M., Torretta S., Procino G. et al. Na+/K+-ATPase /31-subunit is recruited in Na-K-2Cl co-transporter isoform 2 multiprotein complexes in rat kidneys: possible role in blood pressure regulation // Journal of hypertension. 2014. Vol. 32, no. 9. P. 1842-1853.

156. Perisic Matic L., Rykaczewska U., Razuvaev A. et al. Phenotypic modulation of smooth muscle cells in atherosclerosis is associated with downregulation of LMOD1, SYNPO2, PDLIM7, PLN, and SYNM //Arteriosclerosis, thrombosis, and vascular biology. 2016. Vol. 36, no. 9. P. 1947-1961.

157. Benn M. Apolipoprotein B levels, APOB alleles, and risk of ischemic cardiovascular disease in the general population, a review // Atherosclerosis. 2009. Vol. 206, no. 1. P. 17-30.

158. Chen Z., Fitzgerald R. L., Averna M. R., Schonfeld G. A targeted apolipoprotein B-38.9-producing mutation causes fatty livers in mice due to the reduced ability of apolipoprotein B-38.9 to transport triglycerides // Journal of Biological Chemistry. 2000. Vol. 275, no. 42. P. 32807-32815.

159. Danziger J. Vitamin K-dependent proteins, warfarin, and vascular calcifica-

tion // Clinical journal of the American society of nephrology. 2008. Vol. 3, no. 5. P. 1504-1510.

160. Ren Q., Barber H. K., Crawford G. L. et al. Endobrevin/VAMP-8 is the primary v-SNARE for the platelet release reaction // Molecular biology of the cell. 2007. Vol. 18, no. 1. P. 24-33.

161. Baumgartner H., Hosang M. Platelets, platelet-derived growth factor and arteriosclerosis // Experientia. 1988. Vol. 44, no. 2. P. 109-112.

162. Cunnington R. H., Northcott J. M., Ghavami S. et al. The Ski-Zeb2-Meox2 pathway provides a novel mechanism for regulation of the cardiac myofibroblast phenotype // Journal of cell science. 2014. Vol. 127, no. 1. P. 40-49.

163. Moilanen A.-M., Rysa J., Kaikkonen L. et al. WDR12, a member of nucleolar PeBoW-complex, is up-regulated in failing hearts and causes deterioration of cardiac function // PLoS One. 2015. Vol. 10, no. 4. P. e0124907.

164. Erdmann J., Großhennig A., Braund P. S. et al. New susceptibility locus for coronary artery disease on chromosome 3q22. 3 // Nature genetics. 2009. Vol. 41, no. 3. P. 280-282.

165. Yoshikawa Y., Satoh T., Tamura T. et al. The M-Ras-RA-GEF-2-Rap1 Pathway Mediates Tumor Necrosis Factor-a-dependent Regulation of Integrin Activation in Splenocytes // Molecular biology of the cell. 2007. Vol. 18, no. 8. P. 2949-2959.

166. Zygalaki E., Kaklamanis L., Lolaka M. et al. Systemic hypertension augments, whereas insulin-dependent diabetes down-regulates, endothelin A receptor expression in the mammary artery in coronary artery disease patients // Cardiology journal. 2009. Vol. 16, no. 4. P. 348-354.

167. Avedanian L., Riopel J., Bkaily G. et al. ETA receptors are present in human aortic vascular endothelial cells and modulate intracellular calcium // Canadian journal of physiology and pharmacology. 2010. Vol. 88, no. 8. P. 817-829.

168. Ballinger M. L., Ivey M. E., Osman N. et al. Endothelin-1 activates ETA receptors on human vascular smooth muscle cells to yield proteoglycans with

increased binding to LDL // Atherosclerosis. 2009. Vol. 205, no. 2. P. 451-457.

169. Erdmann J., Stark K., Esslinger U. B. et al. Dysfunctional nitric oxide signalling increases risk of myocardial infarction // Nature. 2013. Vol. 504, no. 7480. P. 432-436.

170. Kessler T., Wobst J., Wolf B. et al. Functional characterization of the GUCY1A3 coronary artery disease risk locus // Circulation. 2017. Vol. 136, no. 5. P. 476-489.

171. Chen L., Qian H., Luo Z. et al. PHACTR1 gene polymorphism with the risk of coronary artery disease in Chinese Han population // Postgraduate medical journal. 2019. Vol. 95, no. 1120. P. 67-71.

172. Paquette M., Dufour R., Baass A. PHACTR1 genotype predicts coronary artery disease in patients with familial hypercholesterolemia // Journal of Clinical Lipidology. 2018. Vol. 12, no. 4. P. 966-971.

173. Sazonova O., Zhao Y., Nürnberg S. et al. Characterization of TCF21 downstream target regions identifies a transcriptional network linking multiple independent coronary artery disease loci // PLoS genetics. 2015. Vol. 11, no. 5. P. e1005202.

174. Collaboration E. R. F. et al. Lipoprotein (a) concentration and the risk of coronary heart disease, stroke, and nonvascular mortality. 2009.

175. Nordestgaard B. G., Chapman M. J., Ray K. et al. Lipoprotein (a) as a cardiovascular risk factor: current status // European heart journal. 2010. Vol. 31, no. 23. P. 2844-2853.

176. Boehm M., Nabel E. G. The cell cycle and cardiovascular diseases. // Progress in cell cycle research. 2003. Vol. 5. P. 19.

177. Sellers M. M., Stallone J. N. Sympathy for the devil: the role of thromboxane in the regulation of vascular tone and blood pressure // American Journal of Physiology-Heart and Circulatory Physiology. 2008. Vol. 294, no. 5. P. H1978-H1986.

178. Ramazi S., Heydari-Zarnagh H., Goudarzian M. et al. Thromboxane A syn-

thase 1 gene expression and promotor haplotypes are associated with risk of large artery-atherosclerosis stroke in Iranian population // Journal of cellular biochemistry. 2019. Vol. 120, no. 9. P. 15222-15232.

179. Khera A. V., Kathiresan S. Genetics of coronary artery disease: discovery, biology and clinical translation // Nature Reviews Genetics. 2017. Vol. 18, no. 6. P. 331.

180. Iwamoto S., Boonvisut S., Makishima S. et al. The role of TRIB1 in lipid metabolism; from genetics to pathways // Biochemical Society Transactions. 2015. Vol. 43, no. 5. P. 1063-1068.

181. Broadbent H. M., Peden J. F., Lorkowski S. et al. Susceptibility to coronary artery disease and diabetes is encoded by distinct, tightly linked SNPs in the ANRIL locus on chromosome 9p // Human molecular genetics. 2008. Vol. 17, no. 6. P. 806-814.

182. Jarinova O., Stewart A. F., Roberts R. et al. Functional analysis of the chromosome 9p21. 3 coronary artery disease risk locus // Arteriosclerosis, thrombosis, and vascular biology. 2009. Vol. 29, no. 10. P. 1671-1677.

183. Zhang H., Mooney C. J., Reilly M. P. ABO blood groups and cardiovascular diseases // International journal of vascular medicine. 2012. Vol. 2012.

184. Kawecki C., Lenting P., Denis C. von Willebrand factor and inflammation // Journal of Thrombosis and Haemostasis. 2017. Vol. 15, no. 7. P. 1285-1294.

185. Chen Z., Yang S.-H., Xu H., Li J.-J. ABO blood group system and the coronary artery disease: an updated systematic review and meta-analysis // Scientific reports. 2016. Vol. 6, no. 1. P. 1-11.

186. Chauhan A. K., Motto D. G., Lamb C. B. et al. Systemic antithrombotic effects of ADAMTS13 // The Journal of experimental medicine. 2006. Vol. 203, no. 3. P. 767-776.

187. Xu H., Cao Y., Yang X. et al. ADAMTS13 controls vascular remodeling by modifying VWF reactivity during stroke recovery // Blood, The Journal of the American Society of Hematology. 2017. Vol. 130, no. 1. P. 11-22.

188. Hara T., Monguchi T., Iwamoto N. et al. Targeted Disruption of JCAD (Junctional Protein Associated With Coronary Artery Disease)/KIAA1462, a Coronary Artery Disease-Associated Gene Product, Inhibits Angiogenic Processes In Vitro and In Vivo // Arteriosclerosis, thrombosis, and vascular biology. 2017. Vol. 37, no. 9. P. 1667-1673.

189. Jones P. D., Kaiser M. A., Ghaderi Najafabadi M. et al. JCAD, a gene at the 10p11 coronary artery disease locus, regulates hippo signaling in endothelial cells // Arteriosclerosis, thrombosis, and vascular biology. 2018. Vol. 38, no. 8. P. 1711-1722.

190. Reape T. J., Groot P. H. Chemokines and atherosclerosis // Atherosclerosis. 1999. Vol. 147, no. 2. P. 213-225.

191. Zhao Y., Chen J., Freudenberg J. M. et al. Network-based identification and prioritization of key regulators of coronary artery disease loci // Arteriosclerosis, thrombosis, and vascular biology. 2016. Vol. 36, no. 5. P. 928-941.

192. Morris G. E., Braund P. S., Moore J. S. et al. Coronary artery disease-associated LIPA coding variant rs1051338 reduces lysosomal acid lipase levels and activity in lysosomes // Arteriosclerosis, thrombosis, and vascular biology. 2017. Vol. 37, no. 6. P. 1050-1057.

193. Diver L. A., MacKenzie S. M., Fraser R. et al. Common polymorphisms at the CYP17A1 locus associate with steroid phenotype: support for blood pressure genome-wide association study signals at this locus // Hypertension. 2016. Vol. 67, no. 4. P. 724-732.

194. Xanthakis V., Vasan R. S. Aldosterone and the risk of hypertension // Current hypertension reports. 2013. Vol. 15, no. 2. P. 102-107.

195. Lawrence T. The nuclear factor NF-kappaB pathway in inflammation. Cold Spring Harb Perspect Biol. 2009; 1 (6): a001651.

196. Lee C., Li X. Platelet-derived growth factor-C and-D in the cardiovascular system and diseases // Molecular Aspects of Medicine. 2018. Vol. 62. P. 12-21.

197. Devalliere J., Charreau B. The adaptor Lnk (SH2B3): an emerging regulator

in vascular cells and a link between immune and inflammatory signaling // Biochemical pharmacology. 2011. Vol. 82, no. 10. P. 1391-1402.

198. Wang W., Tang Y., Wang Y. et al. LNK/SH2B3 loss of function promotes atherosclerosis and thrombosis // Circulation research. 2016. Vol. 119, no. 6. P. e91-e103.

199. Vichova T., Motovska Z. Oxidative stress: Predictive marker for coronary artery disease // Experimental & Clinical Cardiology. 2013. Vol. 18, no. 2. P. e88.

200. Armendariz A. D., Krauss R. M. Hepatic nuclear factor 1-a: inflammation, genetics, and atherosclerosis // Current opinion in lipidology. 2009. Vol. 20, no. 2. P. 106-111.

201. Voight B. F., Peloso G. M., Orho-Melander M. et al. Plasma HDL cholesterol and risk of myocardial infarction: a mendelian randomisation study // The Lancet. 2012. Vol. 380, no. 9841. P. 572-580.

202. Ng Y.-S., Krilleke D., Shima D. T. VEGF function in vascular pathogenesis // Experimental cell research. 2006. Vol. 312, no. 5. P. 527-537.

203. Celletti F. L., Waugh J. M., Amabile P. G. et al. Vascular endothelial growth factor enhances atherosclerotic plaque progression // Nature medicine. 2001. Vol. 7, no. 4. P. 425-429.

204. Pilarczyk K., Sattler K. J., Galili O. et al. Placenta growth factor expression in human atherosclerotic carotid plaques is related to plaque destabilization // Atherosclerosis. 2008. Vol. 196, no. 1. P. 333-340.

205. Yang W., Ng F. L., Chan K. et al. Coronary-heart-disease-associated genetic variant at the COL4A1/COL4A2 locus affects COL4A1/COL4A2 expression, vascular cell survival, atherosclerotic plaque stability and risk of myocardial infarction // PLoS genetics. 2016. Vol. 12, no. 7. P. e1006127.

206. Turner A. W., Nikpay M., Silva A. et al. Functional interaction between COL4A1/COL4A2 and SMAD3 risk loci for coronary artery disease // Atherosclerosis. 2015. Vol. 242, no. 2. P. 543-552.

207. Aravani D., Karamanavi E., Andrews S. L. et al. A The Coronary Artery

Disease Associated Gene HHIPL1 Promotes Atherosclerosis. 2016.

208. Kessler T., Zhang L., Liu Z. et al. ADAMTS-7 inhibits re-endothelialization of injured arteries and promotes vascular remodeling through cleavage of throm-bospondin-1 // Circulation. 2015. Vol. 131, no. 13. P. 1191-1201.

209. Bauer R. C., Tohyama J., Cui J. et al. Knockout of Adamts7, a novel coronary artery disease locus in humans, reduces atherosclerosis in mice // Circulation. 2015. Vol. 131, no. 13. P. 1202-1213.

210. Nguyen G., Danser A. J. Prorenin and (pro) renin receptor: a review of available data from in vitro studies and experimental models in rodents // Experimental physiology. 2008. Vol. 93, no. 5. P. 557-563.

211. Cariou B., Le May C., Costet P. Clinical aspects of PCSK9 // Atherosclerosis. 2011. Vol. 216, no. 2. P. 258-265.

212. Lipari M. T., Li W., Moran P. et al. Furin-cleaved proprotein convertase sub-tilisin/kexin type 9 (PCSK9) is active and modulates low density lipoprotein receptor and serum cholesterol levels // Journal of Biological Chemistry. 2012. Vol. 287, no. 52. P. 43482-43491.

213. Morimatsu M., Syuto B., Shimada N. et al. Isolation and characterization of bovine haptoglobin from acute phase sera. // Journal of Biological Chemistry. 1991. Vol. 266, no. 18. P. 11833-11837.

214. Lee C.-W., Cheng T.-M., Lin C.-P., Pan J.-P. Plasma haptoglobin concentrations are elevated in patients with coronary artery disease // PLoS one. 2013. Vol. 8, no. 10. P. e76817.

215. Wang F., Yang Y., Li P. A case-control study on the risk factors of neural tube defects in Shanxi province // Zhonghua liu xing bing xue za zhi= Zhonghua liuxingbingxue zazhi. 2008. Vol. 29, no. 8. P. 771-774.

216. Motoyama K., Fukumoto S., Koyama H. et al. SREBP inhibits VEGF expression in human smooth muscle cells // Biochemical and biophysical research communications. 2006. Vol. 342, no. 1. P. 354-360.

217. Tang J.-J., Li J.-G., Qi W. et al. Inhibition of SREBP by a small molecule,

betulin, improves hyperlipidemia and insulin resistance and reduces atherosclerotic plaques // Cell metabolism. 2011. Vol. 13, no. 1. P. 44-56.

218. Nishino T., Horie T., Baba O. et al. SREBF1/microRNA-33b axis exhibits potent effect on unstable atherosclerotic plaque formation in vivo // Arteriosclerosis, thrombosis, and vascular biology. 2018. Vol. 38, no. 10. P. 2460-2473.

219. Chen W.-J., Zhang M., Zhao G.-J. et al. MicroRNA-33 in atherosclerosis etiology and pathophysiology // Atherosclerosis. 2013. Vol. 227, no. 2. P. 201-208.

220. Bagi Z., Frangos J. A., Yeh J.-C. et al. PECAM-1 mediates NO-dependent dilation of arterioles to high temporal gradients of shear stress // Arteriosclerosis, thrombosis, and vascular biology. 2005. Vol. 25, no. 8. P. 1590-1595.

221. Privratsky J. R., Paddock C. M., Florey O. et al. Relative contribution of PECAM-1 adhesion and signaling to the maintenance of vascular integrity // Journal of cell science. 2011. Vol. 124, no. 9. P. 1477-1485.

222. Do R., Stitziel N. O., Won H.-H. et al. Exome sequencing identifies rare LDLR and APOA5 alleles conferring risk for myocardial infarction // Nature. 2015. Vol. 518, no. 7537. P. 102-106.

223. Brœnne I., Kleinecke M., Reiz B. et al. Systematic analysis of variants related to familial hypercholesterolemia in families with premature myocardial infarction // European Journal of Human Genetics. 2016. Vol. 24, no. 2. P. 191-197.

224. Go G.-w., Mani A. Low-density lipoprotein receptor (LDLR) family orchestrates cholesterol homeostasis // The Yale journal of biology and medicine. 2012. Vol. 85, no. 1. P. 19.

225. Wang C., Tang Y., Wang Y. et al. Label-free quantitative proteomics identifies Smarca4 is involved in vascular calcification // Renal failure. 2019. Vol. 41, no. 1. P. 220-228.

226. Liu Y., Wang T., Ji Y. J. et al. A C9orf72-CARM1 axis regulates lipid metabolism under glucose starvation-induced nutrient stress // Genes & development. 2018. Vol. 32, no. 21-22. P. 1380-1397.

227. Lee S. M., Nguyen D., Hu Z., Abbott G. W. Kcne2 deletion promotes atheroscle-

rosis and diet-dependent sudden death cardiology. 2015. Vol. 87. P. 148-151.

// Journal of molecular and cellular

Приложение А

Информация о генах-кандидатах, возможно участвующий в риске развития ИБС

Таблица А.1. Гены-кандидаты, предположительно участвующие в риске развития ИБС, и приоритизированные вероятно причинные для ИБС гены. Информация представлена о генах, расположенных в 51 ИБС-ассоциированном локусе (± 250 т.п.н. вокруг ведущего ОНП). № - номер исследуемого локуса. Ведущий ОНП в таблице указан через ге-идентификатор и геномные координаты в соответствии со сборкой GR.Ch37.p13. П - ближайший ген в соответствии с базой данных КСБ1 ёЬБЫР; Э - экспериментальные работы, где были найдены доказательства влияния данного гена на развитие ИБС; БН - гены, предложенные в ходе 8МБ,-НЕГО1 анализа. Биоинформатические работы, в которых было предложено участие данных генов в развитие ИБС [119, 120, 121, 122], указны отдельно. В работах[119, 120] генам были проставлены баллы, которые указаны в скобках рядом с соответствующей ссылкой на работу. В исследовании [119] баллы колеблются от 1 до 11, в исследовании [120] от 2 до 54. Чем выше балл, тем выше приоритет гена. В колонке «Вывод» жирным шрифтом выделены вероятно причинные для ИБС гены и обычным шрифтом написаны дополнительные гены, которые, возможно, также участвуют в развитии ИБС.

№ Ведущий Гены- Обоснование Вывод

ОНП кандидаты

1 rs17114036 PLPP3 П, Л [142, 143, 144], PLPP3

1:56962821 (PLAP2B, [120](10), [122]

PPAP2B )

2 rs602633 SORTI Л [145, 146, 147, 148], SORTI,

1:109821511 [119](4), [121] PSRC1,

PSRC1 П, Л [149, 131], [119](4), CELSR2

[121], SH

CELSR2 Л [149], [119](5), [121],

[122], [120](10), SH

PSMA5 SH

MYBPHL [119](2)

SARS [121]

ATXN7L2 [121]

3 rs4129267 1:154426264 IL6R UBAP2L ATP8B2 CHTOP П, Л [150, 151], [119](5), [120](10) [119](2) [119](2) [119](1) IL6R

4 rs10919065 1:169093557 ATP1B1 NME7 CCDC181 П, Л [152, 153, 154, 155], [119](4), SH [119](2), SH [119](1) ATP1B1

5 rs6700559 DDX59-AS1 П, SH сложно сде-

1:200646073 (RP11-92G12.3) DDX59 CAMSAP2 KIF14 [119](2), [121], SH [119](2), [121], SH [119](4) лать вывод

6 rs2820315 IPO9 [119](4), [120](10), SH IPO9,

1:201872264 LMOD1 SHISA4 П, Э [156], [119](2), SH [119](1) LMOD1

7 rs16986953 2:19942473 LINC00954 П недостаточно доказательств

8 rs515135 2:21286057 APOB П, Э [157, 158], [120](32), [122] APOB

9 rs6544713 ABCG8 П, Э [129, 130], [120](34), ABCG8,

2:44073881 ABCG5 [122] Э [129, 130] ABCG5

10 rs1561198 GGCX Э [153, 159], [119](5), GGCX,

2:85809989 [122], SH VAMP5

VAMP5 [119](5),[122], SH VAMP8

VAMP8 П, Э [160, 161], [119](5),

[120](42), SH

USP39 SH

GNLY SH

MAT2A [122]

11 rs2252641 TEX41 П, [120](2) сложно сде-

2:145801461 ZEB2 Э [162] лать вывод

12 rs2351524 NBEAL1 П, [119](4), [122], SH сложно сде-

2:203880992 WDR12 Э [163], [119](4), [122] лать вывод

ICA1L [119](1), [120](10), SH

CARF [119](3), SH

ALS2CR8 [119](2)

FAM117B SH

13 rs2306374 MRAS П, Э [164, 165], [119](5), MRAS

3:138119952 [120](34), [122], SH

NME9 SH

ESYT3 SH

CEP70 [119](2)

14 rs1429141 GEDNRA Э [166, 167, 168], GEDNRA

4:148288067 (ETA) [120](34) [122],

MIR548G П

15 rs7692387 GUCY1A1 П, Э [169, 170], [120](42), GUCY1A1

4:156635309 SH

16 rs273909 SLC22A4 П недостаточно

5:131667353 MIR3936HG П доказательств

ЗЬС22Л5 [120](10)

17 гб246600 ЛЯНОЛР26 П недостаточно

5:142516897 НМНВ1 [121] доказательств

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.