Исследование геномных ассоциаций и фенотипическое прогнозирование методами биоинформатики и машинного обучения тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Колобков Дмитрий Сергеевич

  • Колобков Дмитрий Сергеевич
  • кандидат науккандидат наук
  • 2024, ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 179
Колобков Дмитрий Сергеевич. Исследование геномных ассоциаций и фенотипическое прогнозирование методами биоинформатики и машинного обучения: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)». 2024. 179 с.

Оглавление диссертации кандидат наук Колобков Дмитрий Сергеевич

Оглавление

Введение

Глава 1. Обзор литературы

1.1. Биологические соображения и гипотезы

1.1.1. Распространенные заболевания

1.1.2. Редкие заболевания

1.1.3. Реализация генетической информации на фенотипическом 19 уровне

1.1.3.1. Распространенные болезни и распространенные генетические 20 варианты

1.1.3.2. Распространенные болезни и редкие генетические варианты

1.1.4. Моногенная, полигенная и омнигенная модели наследования

1.1.5. Генетика комплексных признаков человека

1.2. Данные и методы

1.2.1. Доступность геномных данных

1.2.2. Прогнозирование фенотипа

1.2.3. Прогнозирование происхождения

1.2.4. Менделевская рандомизация

1.2.4.1. Предположения и ограничения менделевской рандомизации

1.2.4.2. Проведение двухвыборочной менделевской рандомизации

1.2.4.3. Цис-менделевская рандомизация

1.2.5. Полигенный риск

1.2.6. Анализ главных компонент 34 1.2.6.1. Применение PCA в геномных исследованиях

1.2.7. Федеративное обучение 36 1.2.7.1. Проблемы конфиденциальности в федеративном обучении

1.2.8. Федеративное обучение для геномики и здравоохранения

1.3. Открытые проблемы генетики комплексных признаков человека 38 Глава 2. Прогнозирование от генотипа к фенотипу в ассоциативных 41 исследованиях

2.1. Введение

2.2. Материалы и методы

2.2.1. Каталог PheWAS (университет Вандербильта): оценка 43 генетических ассоциаций заболеваний, связанных с дисплазией соединительной ткани

2.2.2. Менделевская рандомизация для установления причинной 43 зависимости

2.2.3. Анализ клинически значимых патогенных и потенциально 45 патогенных вариантов в генах первичных иммунодефицитов

2.2.4. Создание серий генов болезней различных органов и 47 анатомических систем организма

2.2.5. Создание базы данных и аннотация генетических вариантов, 48 полученных в результате полноэкзомного секвенирования когорты пациентов с тяжелой и легкой/умеренной формой COVID-19

2.2.5.1. Составление когорты больных с тяжелой или 48 легкой/умеренной формой COVID-19

2.2.5.2. Секвенирование экзома, поиск и аннотация вариантов

2.2.5.3. Определение пулов генов для анализа кумулятивных эффектов 49 редких вариантов

2.2.5.4. Статистический анализ результатов 49 2. 3. Исследование болезней соединительных тканей на основании 50 данных из открытых источников

2.3.1. Возможности и ограничения использования открытых данных из 50 ресурсов PheWAS на примере заболеваний, связанных с дисплазией соединительной ткани

2.3.2. Менделевская рандомизация для установления причинно- 55 следственных связей

2.4. Исследование генетического ландшафта COVID-19 с 59 использованием малой экспериментальной когорты и дополнительных биологических соображений

2.4.1. Редкие варианты и редкие фенотипы: вклад в генетику 59 комплексных признаков на примере первичных иммунодефицитов и COVID-19

2.4.2. Потенциально патогенные варианты и генетический ландшафт 60 первичных иммунодефицитов

2.4.3. Серии генов заболеваний различных органов и систем 63 организма

2.4.4. Редкие варианты и генетический ландшафт СОУГО-19

2.5. Заключение по главе 71 Глава 3. 10& генотипированная и глубоко фенотипированная 73 израильская когорта

3.1. Материалы и методы

3.1.1. 10K (HPP): цель проекта, критерии отбора участников и 74 собираемые данные

3.1.2. Фенотипы

3.1.3. Генотипы

3.1.4. Анализ широкогеномных исследований ассоциаций (GWAS)

3.1.5. Расчет полигенных рисков (PRS)

3.1.6. Анализ полигенных широкофеномных исследований (PRS-

PheWAS)

3.2. Программный код для инфраструктуры проекта 10К

3.3. Отчеты для обратной связи с участниками

3.4. 10К: предсказание происхождения

3.5. Результаты GWAS

3.6. Результаты PRS-PheWAS 89 Глава 4. Генетические различия популяций и предсказание 90 происхождения из геномных данных

4.1. Введение

4.2. Материалы и методы

4.2.1. Картирование ассоциаций генов цитокинов в разных 91 популяциях

4.2.2. Анализ популяционных (этнических) различий в частоте 92 аллелей связанных с генитальным пролапсом

4.2.3. Обработка данных 1000 Геномов

4.2.4. Модель прогнозирования происхождения

4.3. Примеры разной зависимости фенотипа от генотипа в разных 95 популяциях

4.3.1. Популяционные различия для аллелей, ассоциированных с 95 фенотипическими признаками в NHGRI-EBI GWAS каталоге, на примере генов цитокинов

4.3.2. Популяционные различия для аллелей, ассоциированных с 99 генитальным пролапсом: возможный вклад в различия частот встречаемости заболевания в разных популяциях

4.3.3. ЦКВ: тестирование портабельности фенотипического 101 прогнозирования между популяциями

4.4. Модель для предсказания происхождения на данных проекта

Геномов

4.4.1. Построение модели и кросс-валидация

4.4.2. Внешняя валидация и анализ модели 109 4.5. Выводы по главе 113 Глава 5. Использование федеративного обучения для построения 115 предсказательных моделей из геномных данных

5.1. Введение

5.2. Материалы и методы

5.2.1. Федеративное обучение. Стратегия

5.2.2. Предсказания фенотипа из индивидуальных геномных данных 120 5.2.2.1 Федеративный PCA для сокращения размерности

5.2.3. ик БюЬапк

5.3. Прогнозирование фенотипа на основе данных ЦК БюЬапк

5.4. Предсказание происхождения на данных проекта 1000 Геномов

5.5. Практические аспекты коммуникации сервера и клиента

5.6. Обсуждение

5.7. Выводы по главе 135 ЗАКЛЮЧЕНИЕ 136 ВЫВОДЫ 137 Список литературы 140 ПРИЛОЖЕНИЯ 155 Приложение А. Прогнозирование от генотипа к фенотипу в 155 ассоциативных исследованиях

А. 1 Когорта больных с тяжелой или легкой/умеренной формой 155 COVID-19

А.2 Секвенирование экзома и поиск вариантов

А.3 Исследуемые фенотипы каталога PheWAS (BioVU) с

количеством значимых ассоциаций (без поправки на множественность сравнений)

А.4 Манхэттенский график, показывающий все SNPs каталога

PheWAS (BioVU), связанные с изученными фенотипами с P-значением <0,05, построенный в соответствии с хромосомным расположением (ось x) и со значениями -log10 P (ось у). А.5 Характеристика вариантов, ассоциированных с заболеваниями 158 соединительной ткани в каталоге PheWAS с P-value <0.001: SNP идентификационный номер (позиция по версии сборки генома GRCh38; тип варианта; название гена; ассоциации в GWAS Catalog; eQTLS в GTEx (V8)

А.6 Кросс-фенотипические ассоциации генов. Гены - узловые хабы 160 показаны кружками. Пары болезней обозначены прямоугольниками. Цветами обозначены гены, ассоциированные с конкретной парой заболеваний. БГ - брюшная грыжа; ГП - генитальный пролапс; СНМ -стрессовое недержание мочи; ВВ - варикозное расширение вен нижних конечностей; Г - геморрой.

А.7 Исследуемые фенотипы UK Biobank с количеством значимых 161 ассоциаций

А.8 Результаты статистического анализа различий для групп

вариантов c разной клинической значимостью в ClinVar и HGMD и разными частотами аллелей в базе данных GnomAD/ExAC Приложение Б. 10K: генотипированная и глубоко фенотипированная 164 израильская когорта

Б.1 Генетический модуль

Б.1.1 Загрузка данных

Б.1.2 Создание бинарного набора данных

Б.1.3 Контроль качества (QC)

Б.2 Фенотипические модули и модуль загрузки полигенного риска

Б.2.1 Родительский загрузочных модуль Loader

Б.2.2 Загрузочный модуль антропометрических данных 167 BodyMeasuresLoader

Б.2.3 Загрузочный модуль полигенных рисков PRSLoader

Б.3 Загрузка данных из UK биобанка и совместный анализ

Б.3.1 Подготовка базовых данных UK Biobank

Б.3.2 10K: модуль для анализа генетических данных

Б.3.3 Двухвыборочная менделевская рандомизация

Приложение В. Примеры разной зависимости фенотипа от генотипа в 171 разных популяциях

В. 1 Гены, регулирующие белки с цитокиновой активностью 171 (GO:0005125), хемокиновой активностью (GO:0008009), активностью цитокинового рецептора (GO:0004896) и активностью хемокинового рецептора (GO:0004950)

В.2 SNPs, генотипированные в ассоциативном исследовании 172 генитального пролапса

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Исследование геномных ассоциаций и фенотипическое прогнозирование методами биоинформатики и машинного обучения»

ВВЕДЕНИЕ Актуальность работы

Появление новых технологий по сбору биологических данных, которые обеспечивают высокое разрешение при низкой себестоимости, привело к резкому росту количества биологических данных, в первую очередь омиксных. Статистической мощности теперь хватает для проверки большого количества гипотез одновременно, что сделало полногеномные исследования новым стандартом в генетике. Полногеномные исследования позволили изучать генетическую основу сложных фенотипов путем поиска генетических ассоциаций по всему геному, а не только по одному маленькому участку. По мере роста количества данных роль биологических соображений перешла от сокращения размерности (рассмотрения лишь некоторых участков генома) к интерпретации и валидации ассоциаций, найденных по всему геному.

Развитие полногеномных исследований привело к тому, что появилась возможность предсказывать фенотип (его генетически обусловленную составляющую) из генотипа, то есть перейти от уровня ассоциаций фенотипа с единичным генетическим вариантом, которые для сложных и распространенных фенотипов, как правило, имеют низкий размер эффекта, к предсказанию фенотипа по всему генотипу, используя машинное обучение, либо такие методы как полигенный риск. Поскольку геномные данные прямо не отражают клиническое состояние индивида в данный момент, их роль в лечении уже сформировавшейся болезни может быть меньше, чем у других омиксных данных. Поэтому основная непосредственная ценность предсказания фенотипа по генотипу - это профилирование населения и выделение групп риска, которые имеют более высокую вероятность заболеть.

Поскольку ДНК лежит в основе всех веществ в нашем организме, от транскриптов, белков и далее по метаболическим путям до фенотипов, генетические

данные также имеют большой потенциал для установления связей между негенетическими факторами. Например, метод менделевской рандомизации может использоваться для установления причинных связей между двумя фенотипами, используя генетические данные. Большие и глубоко фенотипированные когорты дают достаточное разрешение для распутывания клубка ассоциативных и причинных связей на различных уровнях метаболических путей за счет сбора и совместного анализа большого количества данных, от омик до эндотипов и фенотипов.

В настоящее время большая часть собранного массива биологических данных приходится на людей европейского происхождения. В то же время известно, и дополнительно подтверждается в данной работе, что зависимости фенотипа от генотипа могут быть разными в различных популяциях. На практике это приводит к тому, что сильно падает точность предсказания моделей на популяциях, отличных от тех, на которых они были натренированы. Чтобы избежать этого, нужно уметь точно определять популяцию индивида, чтобы выбирать предсказательную модель, натренированную на максимально близкой популя ции. В идеале же тренировочная выборка должна включать в себя индивидов из различных популяций.

Коллаборация на уровне данных, где различные массивы данных используются для тренировки единой модели - это будущее машинного обучения для здравоохранения. Такие коллаборации позволят одновременно увеличивать вы борку и снижать популяционную и экспериментальную смещенность (bias). При этом, коллаборации на уровне данных нужно организовывать, соблюдая безопасность чувствительных клинических данных, что в последнее время стало одним из основных приоритетов организаций, хранящих такие данные, например, биобанков. В данной работе рассматривается федеративное обучение - новая стремительно набирающая популярность парадигма машинного обучения - в применении к геномным данным, как механизм, позволяющий организо вать подобные коллаборации, значительно снижая уязвимость чувствительных данных.

Целью данной работы является установление различных связей между генотипом и фенотипом, а также исследование применимости различных статистических методов и методов машинного обучения на генетических данных разного типа: данных из открытых источников, маленьких когорт, больших глубоко фенотипированных когорт и, наконец, сочетания нескольких когорт.

Для достижения поставленной цели необходимо было решить следующие задачи:

1. Рассмотреть возможности и ограничения использования открытых статистических данных широкофеномных ресурсов на примере спектра коморбидных заболеваний, связанных с дисплазией соединительной ткани.

2. Выполнить анализ данных полноэкзомного секвенирования когорты пациентов с СОУГО-19 и оценить кумулятивный вклад редких потенциально патогенных вариантов в фенотип тяжелого СОУГО-19.

3. Собрать и проанализировать генотипированную и глубоко фенотипированную когорту на основе израильской популяции.

4. Исследовать поведение моделей, обученных на одной популяции и тестируемых на других популяциях, и изучить вопрос подбора персонализованной модели для пациентов из разных популяций.

5. Изучить точность и поведение федеративных моделей, позволяющих одновременно обучаться на различных когортах, исследовав тем самым потенциал для международных коллабораций на уровне данных.

Научная новизна

1. При использовании сводных статистических данных широкофеномных ресурсов рассмотрены биологические соображения, показывающие возможности и ограничения данного типа исследований. Найдено несколько новых ассоциаций для заболеваний соединительной ткани, как для отдельных генов, так и для их

комбинаций, отражающих, в частности, роль генов, ответственных за функции периферических нервов и иммунный ответ.

2. Показан суммарный вклад редких потенциально патогенных вариантов в фенотип тяжелого COVID-19 в различных группах генов, включая гены первичных иммунодефицитов, а также генов, связанных с заболеваниями различных органов и систем. Данное исследование является первой экспериментальной работой в рамках омнигенной модели полигенной наследуемости при тяжелом течении COVID-19.

3. Собрана и проанализирована уникальная генотипированная и глубоко фенотипированная когорта в Израиле.

4. На основании нескольких оригинальных исследований показаны различия влияния генотипа на фенотип в разных популяциях, на уровне механизмов и на уровне предсказательных моделей.

5. Впервые подробно исследована и показана применимость федеративных моделей машинного обучения на геномных данных. На двух экспериментах была доказана эффективность федеративного обучения и были даны рекомендации по его применению в зависимости от вводных условий.

Теоретическая и практическая значимость

В полноэкзомном исследовании COVID-19 показано, что фенотип тяжелого заболевания определяется не только и не столько отдельными вариантами и генами, сколько кумулятивным эффектом редких вариантов, в первую очередь, в коровых (причинных), но также и в периферийных генах. Продемонстрированный подход может быть полезным при поиске "недостающей наследственности" и при других заболеваниях. Сделаны уникальные открытия на собранной в Израиле когорте. Собранные данные позволяют делать дополнительной анализ, как только на этих данных, так и в сочетании с другими когортами для увеличения статистической мощности и уменьшения смещенности (bias). Впервые продемонстрированная эффективность федеративного обучения на геномных данных дает импульс развитию

коллабораций на уровне данных и инструмент для машинного обучения на нескольких когортах одновременно.

Методология и методы исследования

Для поиска ассоциаций генетических локусов с фенотипом использовались полногеномные ассоциативные исследования (GWAS). Для предсказания фенотипов по открытым сводным статистикам, использовался полигенный риск (polygenic risk score). Для предсказания фенотипов по индивидуальным геномным данным, использовалась линейная регрессия с ü-регуляризацией (LASSO), реализованная в виде нейронной сети. Для предсказания происхождения по индивидуальным геномным данным, использовались случайный лес (random forest) и нелинейная нейронная сеть. Для сокращения размерности данных использовались такие методы как прунинг (pruning), клампинг (clumping), анализ главных компонент (PCA), в том числе в федеративном виде, и отбор наиболее значимых генетических вариантов по значениям ассоциаций. Для установления зависимостей между фенотипами с помощью генетических данных использовались полнофеномные ассоциативные исследования (PheWAS), их полигенный аналог PRS-PheWAS, а для проверки причинно-следственных зависимостей - двухвыборочная менделевская рандомизация.

Основные положения, выносимые на защиту

1. Продемонстрированы возможности и ограничения использования сводных данных генотипирования и небольших когорт в контексте «открытых» проблем генетики комплексных признаков человека. На примере результатов экзомного секвенирования когорты пациентов с COVID-19 установлена значимость кумулятивного эффекта редких вариантов при тяжелом течении заболевания.

2. Собрана большая генотипированная и глубоко фенотипированная когорта в

Израиле, ее анализ обнаруживает множество новых ассоциаций на уровне генотип-

фенотип и фенотип-фенотип и валидирует ранее найденные ассоциации.

13

3. Продемонстрирована слабая портативность предсказательных моделей с одной популяции на другую и построена модель предсказания происхождения, помогающая подобрать наиболее подходящую модель предсказания фенотипа для конкретного индивида.

4. Федеративное обучение демонстрирует эффективность и гибкость в применении к геномным данным и является эффективной альтернативой традиционным модедям машинного обучения в условиях ограниченного доступа к чувствительным данным.

Личный вклад автора

Личный вклад автора заключается в концептуализации исследований, планировании и проведении экспериментов, выборе методов статистического и биоинформатического анализов, написании программного кода, осуществлении многоступенчатого анализа и подготовке результатов к публикации.

Апробация работы

Результаты работы были представлены и обсуждались на следующих конференциях: Европейской конференции по генетике человека 21 - 24 мая 2016 г., Барселона, Испания; 20-й Международной Пущинской школы конференции молодых ученых «Биология - Наука XXI века», 18-22 апреля 2016 г.; Европейской конференции по генетике человека, виртуальная конференция 28-31 августа 2021 г., XXII, XXIII и XXV Всероссийских конференциях с международным участием «Жизнеобеспечение при критических состояниях», г. Москва, Россия, 13 ноября 2020 г., 13 ноября 2021 г. и 11 ноября 2023 г.; международной научно-практической конференции «Медицинская наука в век цифровой трансформации», Курск, 10 декабря 2021 г.; научной конференции с международным участием, посвященной 50-летнему юбилею лаборатории популяционной генетики им. Ю.П. Алтухова ИОГен РАН и 85 -летию со дня рождения академика Юрия Петровича Алтухова «Генетические проблемы в популяциях», Москва, Россия, 11 октября 2022 г.; 20-ой двухгодичной

14

встрече Европейского общества по иммунодефицитам, Гетеборг и Онлайн, 12-15 октября 2022 г.; конференции "Информационные технологии для персонализированной медицины" с блоком летней школы для молодых ученых, 2-4 августа 2022 г., онлайн-формат.

Публикации по теме диссертации

Результаты исследования представлены в 20 научных публикациях, в том числе в 9 статьях в ведущих научных журналах, индексируемых в базах данных Scopus и Wed of Science и рекомендованных ВАК для защиты диссертаций.

Статьи в журналах WoS, Scopus, ВАК

1. Khadzhieva M.B., Kolobkov D.S., Kamoeva S.V., Ivanova A.V., Abilev S.K., Salnikova L.E. Verification of the Chromosome Region 9q21 Association with Pelvic Organ Prolapse Using RegulomeDB Annotations // BioMedResearch International. - 2015. - Vol. 2015. - P. 837904. - doi: 10.1155/2015/837904.

2. Salnikova L.E., Khadzhieva M.B., Kolobkov D.S. Biological findings from the PheWAS catalog: focus on connective tissue-related disorders (pelvic floor dysfunction, abdominal hernia, varicose veins and hemorrhoids) // Hum Genet. - 2016. - Vol. 135, no. 7. - P. 779-795. - doi: 10.1007/s00439-021-02316-w.

3. Salnikova L.E., Khadzhieva M.B., Kolobkov D.S., Gracheva A.S., Kuzovlev A.N., Abilev S.K. Cytokines mapping for tissue-specific expression, eQTLs and GWAS traits // Sci Rep. - 2020. - Vol. 10. - P. 14740. -doi: 10.1038/s41598-020-71018-6.

4. Shilo S., Bar N., Keshet A., Talmor-Barkan Y., Rossman H., Godneva A., Aviv Y., Edlitz Y., Reicher L., Kolobkov D., et al. 10 K: a large-scale prospective longitudinal study in Israel // Eur J Epidemiol. - 2021. - Vol. 36, no. 11. - P. 1187-1194. - doi: 10.1007/s10654-021-00753-5.

5. Salnikova L.E., Kolobkov D.S., Sviridova D.A., Abilev S.K. An overview of germline variations in genes of primary immunodeficiences through integrative analysis of ClinVar,

HGMD® and dbSNP databases // Hum Genet. - 2021. - V. 140. no. 9. - P. 1379-1393. -doi: 10.1007/s00439-021 -02316-w.

6. Kolobkov D.S., Sviridova D.A., Abilev S.K., Kuzovlev A.N., Salnikova L.E. Genes and Diseases: Insights from Transcriptomics Studies // Genes (Basel). - 2022. - Vol. 13, no.

7. - P. 1168. - doi: 10.3390/genes13071168.

7. Khadzhieva M.B., Gracheva A.S., Belopolskaya O.B., Kolobkov D.S., Kashatnikova D.A., Redkin I.V., Kuzovlev A.N., Grechko A.V., Salnikova L.E. COVID-19 severity: does the genetic landscape of rare variants matter? // Front Genet. - 2023. - Vol. 14. - P. 1152768. - doi: 10.3389/fgene.2023.1152768.

8. Khadzhieva M.B., Kolobkov D.S., Kashatnikova D.A., Gracheva A.S., Redkin I.V., Kuzovlev A.N., Salnikova L.E. Rare Variants in Primary Immunodeficiency Genes and Their Functional Partners in Severe COVID-19 // Biomolecules. - 2023. - Vol. 13, no. 9. -P. 1380 - doi: 10.3390/biom13091380.

9. Kolobkov D., Mishra Sharma S., Medvedev A., Lebedev M., Kosaretskiy E., Vakhitov R. Efficacy of federated learning on genomic data: a study on the UK Biobank and the 1000 Genomes Project // Front Big Data. - 2024. - Vol. 7. - P. 1266031. - doi: 10.3389/fdata.2024.1266031.

Другие публикации по теме диссертации (тезисы, статьи в сборниках)

1. Khadzhieva M.B., Kolobkov D.S., Kamoeva S.V., Salnikova L.E. A PheWAS approach in studying genital prolapse // Eur J Hum Genet. - 2016. - Vol. 24. - P. 143.

2. Колобков Д.С., Хаджиева М.Б. Применение PheWAS каталога в изучении пролапса тазовых органов // 20-ая Международная Пущинская школа конференция молодых ученых «Биология - Наука XXI века»: Тезисы докладов. Пущино, Россия. 2016. С. 315.

3. Грачева А.С., Хаджиева М.Б., Колобков Д.С., Кузовлев А.Н., Сальникова Л.Е. Изучение тканеспецифичности цитокинов // XXII Международная конференция

«Жизнеобеспечение при критических состояниях»: Тезисы докладов. Москва, Россия. 2020. С. 123-124.

4. Хаджиева М.Б., Грачева А.С., Колобков Д.С., Кузовлев А.Н., Сальникова Л.Е. Вклад патогенетической вариабельности генов цитокинов в развитие заболеваний (анализ данных полногеномных исследований) // XXII Международная конференция «Жизнеобеспечение при критических состояниях»: Тезисы докладов. Москва, Россия.

2020. С. 108-110.

5. Грачева А.С., Хаджиева М.Б., Колобков Д.С., Кузовлев А.Н., Сальникова Л.Е. Результаты поиска генетических вариантов, ассоциированных с тяжестью течения COVID-19 // XXIII Всероссийская конференция с международным участием «Жизнеобеспечение при критических состояниях»: Тезисы докладов. Москва, Россия.

2021. С. 119.

6. Сальникова Л.Е., Колобков Д.С., Свиридова Д.А., Абилев С.К. Моно- и полигенные заболевания, связанные с одним и тем же геном, в онтологии фенотипа человека и каталоге широкогеномных исследований // Международная научно-практическая конференция «Медицинская наука в век цифровой трансформации»: Сборник научных трудов по материалам. Курск, Россия. 2021. С. 173-175.

7. Khadzhieva M., Kolobkov D., Gracheva A., Kuzovlev A., Abilev S., Salnikova L. Natural selection analysis for GWAS SNPs in cytokine genes. // Eur J Hum Genet. - 2022. - Vol. 30. - P. 19.012.D.

8. Sviridova D., Kolobkov D., Abilev S., Salnikova L. Pathogenic landscape in genes of primary immunodeficiencies. // ESID 2022 Abstracts Book: The 20th Biennial Meeting of the European Society for Immunodeficiencies. Gothenburg & Online. 2022. PD304.

9. Свиридова Д.А., Колобков Д.С., Абилев С.К., Сальникова Л.Е. Сравнительный анализ вариантов в генах первичных иммунодефицитов с использованием баз данных генотип-фенотип и dbSNP // «Генетические проблемы в популяциях»: Материалы научной конференции с международным участием, посвященной 50-летнему юбилею

лаборатории популяционной генетики им. Ю.П. Алтухова ИОГен РАН и 85-летию со дня рождения академика Юрия Петровича Алтухова. Москва. 2022. С. 123.

10. Колобков Д.С., Медведев А.Ю., Мишра Ш.С., Косарецкий Е.М. Предсказание происхождения на данных проекта 1000 геномов как пример применения федеративного обучения на геномных данных // «Вычислительная биология и искусственный интеллект для персонализированной медицины»: Материалы конференции "Информационные технологии для персонализированной медицины" с блоком летней школы для молодых ученых. Онлайн-формат. 2022. С. 35.

11. Грачева А.С., Хаджиева М.Б., Белопольская О.Б., Колобков Д.С., Кашатникова Д.А., Кузовлев А.Н., Сальникова Л.Е. Генетический ландшафт редких вариантов и тяжесть течения COVID-19 // XXV Международная конференция «Жизнеобеспечение при критических состояниях»: Тезисы докладов. Москва. 2023. С. 130-131.

Структура и объем работы

Диссертация изложена на 154 страницах машинописного текста и состоит из следующих разделов: введение, пять глав (обзор литературы, четыре главы результатов), заключение и выводы, список литературы. Диссертация включает 31 рисунок и 3 таблицы, а также 3 блока приложений. Список литературы включает 203 ссылки.

ГЛАВА 1. ОБЗОР ЛИТЕРАТУРЫ

Обзор литературы представлен тремя разделами. В первом разделе изложены биологические соображения и гипотезы, используемые для определения задач диссертации и подходов к их решению. Во втором разделе описаны методы биоинформатики и машинного обучения, используемые в диссертации, и соображения, касающиеся решаемых задач и данных, лежащие в основе этих методов. Наконец, последний раздел содержит в себе описание открытых проблем современной вычислительной генетики, значительная часть которых рассмотрена в этой работе.

1.1. Биологические соображения и гипотезы 1.1.1. Распространенные заболевания

Официального определения распространенных заболеваний не существует. Распространенные заболевания — это те, которые чаще всего поражают нас, и часто те, с которыми мы наиболее хорошо знакомы (https://bioresource.nihr.ac.uk/using-our-bioresource/our-cohorts/common-diseases/). В Глобальном исследовании бремени болезней и травм GBD 2013 [1] было проанализировано 35620 источников информации о распространенных заболеваниях и травмах из 188 стран за период с 1990 по 2013 год для выявления значительного числа расстройств, приводящих к инвалидности, и общего бремени для систем здравоохранения: всего 301 острое и хроническое заболевание и травмы, а также 2337 последствий для здоровья, которые являются результатом одного или нескольких из этих расстройств. Было показано, что более 95% населения мира имеют проблемы со здоровьем, причем более трети из них страдают более чем пятью заболеваниями. Доля

потерянных лет здоровой жизни (годы жизни с поправкой на инвалидность) выросла с примерно одной пятой (21%) в 1990 году до почти одной трети (31%) в 2013 году. Важно отметить, что показатели инвалидности снижаются гораздо медленнее, чем показатели

смертности. Например, в то время как показатели заболеваемости диабетом значительно выросли, увеличившись примерно на 43% за последние 23 года, смертность от диабета увеличилась всего на 9%. По мере роста населения мира и увеличения доли пожилых людей, число людей, живущих в условиях не оптимального здоровья, будет быстро расти в ближайшие десятилетия.

1.1.2. Редкие заболевания

Редкие заболевания обычно определяются как заболевания, распространенность которых составляет менее 5 случаев на 10 000 человек. По состоянию на 2021 год было выявлено более 7000 известных редких заболеваний. С момента внедрения технологий секвенирования следующего поколения (NGS) ежегодно выявляется более 100 новых ассоциаций между болезнью и геномом. Для четверти пациентов с редкими заболеваниями время от появления первых симптомов до постановки диагноза составляет от 5 до 30 лет, и в течение этого промежутка времени частота ошибочных диагнозов может достигать 40%. В мире от редких болезней страдают 300 млн человек (https:

//www.raregenomics.org/rare-disease-facts). Хотя многие редкие заболевания

изначально считались заболеваниями с моногенным (менделевским) наследованием,

их диагностика часто осложнялась неполным соответствием менделевской модели

наследования из-за не моногенного наследования, неполной пенетрантности,

генетических и эпигенетических модификаций, влияния окружающей среды,

мозаицизма, аутосомно-рецессивного и аутосомно-доми нантного типов

наследования для одного и того же гена, специфических для гена механизмов

20

усиления (gain of function, GOF) или ослабления (loss of function, LOF) функции [2, 3]. Пенетрантность и экспрессивность мутации может варьироваться даже между носителями мутации из одних и тех же семей [2, 4]. Пенетрантность используется для описания наличия или отсутствия клинического проявления генотипа у человека. Экспрессивность — это термин, описывающий различия, наблюдаемые в клиническом фенотипе между двумя людьми с одинаковым генотипом [5]. Несмотря на быстрый прогресс в понимании основ неполной пенетрантности и различий в экспрессивности, они все еще остаются неизвестными для большинства генетических заболеваний. Некоторые из известных механизмов включают влияние аллелей генов-модификаторов, причем не только в цис-, но и в транс-положении, пол и факторы окружающей среды. В последние годы стало очевидно, что есть много общего между классическими менделевскими признаками, наследование которых считалось "простым", и большинством распространенных заболеваний, наследование которых является "сложным". В обоих случаях генетические факторы и факторы окружающей среды могут действовать комплексно [6, 7].

1.1.3. Реализация генетической информации на фенотипическом уровне

Генетика в большей или меньшей степени влияет на предрасположенность и

особенности течения всех заболеваний, включая распространенные, которые также

классифицируют как многофакторные или комплексные. Окружающая среда (в том

числе, образ жизни) играет важную роль во многих заболеваниях (например, диета и

физические упражнения в отношении диабета), но взаимодействие с факторами среды

могут отличаться в зависимости от генетических особенностей организма. Генетика

иммунной системы, имеющая огромные различия среди населения, определяет

реакцию на заражение патогенами. Кроме того, большинство раковых заболеваний

возникает в результате накопления генетических изменений, происходящих в течение

жизни человека, на которые могут влиять факторы окружающей среды. Очевидно, что

21

понимание генетики и генома в целом, а также его вариаций в человеческой популяции, является неотъемлемой частью понимания процессов заболевания, и это понимание закладывает основу для лечебной терапии, персонифицированных методов лечения и профилактических мер [8].

1.1.3.1. Распространенные болезни и распространенные генетические варианты

Гипотеза, рассматривающая зависимость между распространенными болезнями и распространенными генетическими вариантами (Common Disease Common Variant Hypothesis, CDCVH) — это гипотеза, которая предполагает, что если болезнь, которая передается по наследству, распространена в популяции (распространенность более 15%), то специфические генетические вариации также будут распространены в популяции [9]. Такое предсказание делается для заболеваний, генетический вклад которых, как считается, исходит от нескольких/многих генов одновременно -полигенных расстройств. Гипотеза распространенных заболеваний и распространенных вариантов основана на выводах эволюционной теории, в частности, на том, что все современные люди произошли от небольшой популяции из примерно 10000 человек в Африке относительно недавно, примерно 100000 лет назад. Основываясь на данных о том, как часто новые мутации попадают в популяцию, эта гипотеза утверждает, что чрезвычайно быстрое расширение популяции, произошедшее за короткий период, распространило аллели болезней, которые были распространены в первоначальной популяции, с гораздо большей скоростью, чем новые мутации привнесли такие аллели. Поэтому генетически обусловленные болезни, распространенные сегодня, должны быть результатом аллелей болезней, которые были распространены в первоначальной популяции и должны быть распространены в современной популяции, поскольку они широко распространились в результате массового демографического взрыва быстрее, чем новые аллели болезней

могли быть введены [10]. Для выявления распространенных генетических вариантов,

22

способствующих возникновению распространенных заболеваний, можно провести несколько типов исследований. Наиболее надежное из них называется широкогеномным ассоциативным исследованием (GWAS). В них оцениваются общие генетические вариации, часто в виде однонуклеотидных полиморфизмов (SNPs) и малых инсерций (вставок) и делеций (удалений) (INDELs), одновременно во всем геноме. Такие исследования воспроизводимо выявили общие генетические риски для широкого спектра распространенных заболеваний, которые были связаны с большим количеством общих вариантов с малым эффектом по всему спектру частот аллелей [11]. Распространенные варианты восновном расположены вне областей кодирования генов, но могут влиять на фенотипы опосредованно, например, изменяя экспрессию генов. Тем не менее, все еще мало примеров четких механистических моделей, связывающих распространенные варианты и биологические функции, и функциональная роль большинства из них остается практически неизвестной [12].

1.1.3.2. Распространенные болезни и редкие генетические варианты

Так как общие генетические вариации часто объясняют лишь небольшую часть

общего прогнозируемого генетического риска развития заболевания, была выдвинута

вторая гипотеза - гипотеза распространенных заболеваний и редких вариантов

(Common Disease-Rare Variant Hypothesis, CDRVH), которая гласит, что

распространенные заболевания могут объясняться множеством индивидуально

редких аллелей заболевания в популяции. Гипотеза распространенных заболеваний и

редких вариантов предполагает, что если заболевание с генетическими причинами

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Колобков Дмитрий Сергеевич, 2024 год

открытых источников

2.3.1. Возможности и ограничения использования открытых данных из ресурсов PheWAS на примере заболеваний, связанных с дисплазией соединительной ткани

Снижение стоимости генотипирования и секвенирования привело к увеличению числа биобанков с геномным профилем по всему миру. В отличие от когортных исследований, сфокусированных на определенном фенотипе или нескольких релевантных фенотипах, широкофеномные исследования на основе биобанков позволяют также проводить анализ менее изученных и коморбидных фенотипов. Коморбидными и относительно менее изученными, чем многие другие, являются фенотипы, обусловленные дисплазией соединительной ткани [92], в

50

частности, дисфункция тазового дна (пролапс гениталий и стрессовое недержание мочи), а также брюшные грыжи, варикозное расширение вен нижних конечностей и геморрой. Термином "дисфункция тазового дна"описываются опущение тазовых органов и патофизиологически связанное с ним стрессовое недержание мочи [93]. Анализ коморбидности данных фенотипов был выполнен нами ранее [78]. В данном разделе анализируются генетические ассоциации заболеваний, связанных с дисплазией соединительной ткани по результатам каталога PheWAS, а также рассматриваются возможности и ограничения использования открытых данных из ресурсов PheWAS на примере вышеуказанных заболеваний.

Учитывая, что значимость ни для одного из SNPs не соответствовала уровню коррекции на множественность сравнений, результаты данного этапа исследования приведены в приложениях. В Приложении А.3 указаны размеры выборок и данные о количестве значимых ассоциаций для каждого фенотипа. В Приложении А.4 представлен манхэттенский график с подписанными SNPs со значениями Р <0,001 для всех фенотипов. Приложение А.5 содержит характеристику вариантов, ассоциированных с заболеваниями соединительной ткани в каталоге PheWAS с Р-уа1ие <0,001. Среди этих SNP только интронный SNP ^735854 в гене тяжелой цепи немышечного миозина 11-А MYH9 был

ассоциирован с двумя фенотипами: он имел наименьшее значение Р в группе с варикозным расширением вен нижних конечностей (Р = 0,0001) и был ассоциирован с геморроем (Р = 0,0007) с одинаковой направленностью эффекта. Полученные результаты могут иметь следующее объяснение. Мутации в MYH9 вызывают тромбоцитопению и макроцитоз тромбоцитов и связаны с предрасположенностью к кровотечениям [94]. MYH9 имеет ангиогенную функцию [95] и функцию поддержания целостности стенок капилляров [96]. Было показано, что гены, регулирующие ангиогенез и контролирующие целостность стенки сосудов [97, 98], ассоциированы с варикозным расширением вен и геморроем [98], которые являются тесно связанными заболеваниями с сосудистыми аномалиями [99]. Общая этиология указанных

51

патологий может включать MYH9 как один из факторов генетической предрасположенности к обоим заболеваниям.

Далее был выполнен анализ кросс-фенотипических ассоциаций. Графическая презентация взаимодействия между генами с перекрывающимися SNPs приведена в Приложении А.6. Наибольший интерес среди узловых генов кросс фенотипических ассоциаций представляют гены, отвечающие за иннервацию тканей и иммунные функции. Узловые гены контролируют развитие и функции центральной и/или периферической нервной системы: GATA3 [100, 101], SPTBN1 [102], LIN28B [103], RIMS1 [104] и HSPA1A [105]. Роль периферических нервных волокон и их нейротрансмиттеров была показана в отношении роста, ремоделирования и восстановления соединительной ткани в хряще и кости [106]. Нарушения иннервации были обнаружены при всех изученных заболеваниях: пролапсе тазовых органов и стрессовом недержании мочи [107, 108], грыже [109], геморрое [110] и варикозном расширении вен [111]. Еще один кластер узловых генов объединяет гены, участвующие в иммунной регуляции: GATA3 [112], LIN28B [113], ABO [114] и HSPA1A [115]. В соединительной ткани слабые места могут образовываться из-за плохого питания, травм, медицинских операций и нарушений гомеостаза. После возникновения повреждения любой фактор, увеличивающий давление или нагрузку на это место (кашель, рвота, поднятие тяжестей), может вызвать расширение места повреждения с последующим развитием клинических симптомов. Нарушение соединительной ткани вызывает активацию метаболических процессов с участием нескольких типов клеток, факторов роста, цитокинов, хемокинов и оборота внеклеточного матрикса [116]. Наш анализ, основанный на открытых ресурсах, с учетом биологического контекста найденных эффектов позволяет предположить, что гены, отвечающие за иммунные функции и иннервацию тканей, могут быть ассоциированы с предрасположенностью к развитию и прогрессированию патологий соединительной ткани.

Далее мы проанализировали возможности и недостатки исследования с использованием широкофеномных ресурсов с учетом размеров когорт и недоступности "сырых данных". Мы сопоставили данные для 5 фенотипов из каталога PheWAS (БюУЦ) и из биобанка Великобритании с использованием ресурса ExPheWas [117] (Приложение А.7). Большие выборки и большое число ассоциаций ExPheWas по сравнению с каталогом PheWAS (ВюУЦ) позволило выделить подтипы заболеваний и проанализировать результаты для более глубоко фенотипированных когорт. Это было выполнено на примере трех подтипов генитального пролапса, а также четырех подтипов брюшной грыжи (Рисунок 2.2). При разделении выборок по подтипам различия были большими для некоторых, но не всех подтипов генитального пролапса или брюшной грыжи. Большие различия отражают различные биологические механизмы реализации фенотипов. Например, отличия для когорты с пролапсом свода влагалища после гистерэктомии (618.5) от когорт с другими видами пролапса (618.1 и 618.2), скорее всего, связаны с последствиями удаления матки (верхний свод влагалища опускается вследствие ослабления поддерживающих структур); данный вид пролапса встречается у 40% женщин после гистерэктомии. Паховые грыжи (550.1) значительно чаще встречаются у мужчин в связи с особенностями строения, а у женщин чаще бывают бедренные грыжи (550.3), факторами риска развития которых являются, в частности, резкое похудение и беременность. При обеих патологиях (генитальный пролапс и брюшная грыжа) число пациентов в подвыборках было больше, чем в общей группе (14614 пациенток с генитальным пролапсом и 16584 пациенток суммарно для трех подтипов генитального пролапса; 67732 пациентов с брюшной грыжей и 70064 пациентов суммарно для 4-х подтипов брюшной грыжи). Это означает, что были подвыборки пациентов с несколькими подтипами генитального пролапса или брюшной грыжи. Пациенты, имеющие несколько подтипов одного и того же заболевания, в рассматриваемых нами случаях, это несколько сайтов дисплазии соединительной ткани, представляют группу с более

тяжелой формой заболевания и, вероятно, более генетически обоснованными

53

ассоциациями, однако подобный анализ невозможен при использовании сводных статистических данных.

618.2(1891) 618.2(101)

Рисунок 2.2 — Диаграмма Венна, показывающая пересечение генов, ассоциированных с тремя подтипами генитального пролапса по данным ExPheWas:

(А) для всех генов с Р < 0,05 и (Б) для 100 генов с наиболее значимыми ассоциациями, а также с 4-мя подтипами брюшной грыжи (В) для всех генов с Р < 0,05 и (Г) для 100 генов с наиболее значимыми ассоциациями. В скобках указано общее число генов в рассматриваемой серии. Коды фенотипов: 618.5 - пролапс свода

влагалища после гистерэктомии, 618.1 - пролапс стенок влагалища, 618.2 - пролапс матки/утеровагинальный пролапс, 550.1 - паховая грыжа, 550.2 - диафрагмальная грыжа, 550.3 - бедренная грыжа, 550.4 - пупочная грыжа.

Еще более важным компонентом анализа генетической предрасположенности является учет наиболее важных негенетических ковариат. В открытых данных со сводной статистикой, как правило, представляются результаты, скорректированные на некоторые общие для всех фенотипов факторы риска, такие как возраст, пол и от 2-х до 10 принципиальных компонент. Например, в PheWAS каталоге (ВюУи), выполнялась коррекция на возраст, пол, сайт медицинской сети и 3 главные принципиальные компоненты [75]; в ExPheWas ресурсе (ПК ВюЬапк) выполнена коррекция на пол, возраст и 10 главных компонент родословной [117]. Однако в исследованиях комплексных признаков, сосредоточенных на выявлении ассоциативных связей между генотипом и фенотипом, необходимо учитывать специфические ковариаты для контроля конфаундинг-факторов. Например, важным фактором риска всех рассмотренных в данном исследовании патологий является избыточный вес, а риск развития дисфункции тазового дна (пролапса гениталий и стрессового недержания мочи) увеличивается при родах через естественные родовые пути [118], особенно при их разрывах [92]. Беременность может влиять на риск развития брюшной грыжи [119] и варикозного расширения вен нижних конечностей [120], а геморрой связан с хроническими запорами [121]. В больших когортах индивидуальные особенности пациентов могут не так существенно влиять на эффекты, как в маленьких когортах, но невозможность коррекции на физиологические факторы риска существенно уменьшает предиктивные возможности исследований, основанных на сводной статистике.

2.3.2. Менделевская рандомизация для установления причинно-следственных

связей

Мы рассмотрели двухвыборочную менделевскую рандомизацию методом взвешенной медианы (см. "Материалы и методы") для комбинаций фенотипов соединительных тканей, найденных среди доступных сводных статистик ПК ВюЬапк и финского биобанка БтпОеп, см. Таблицу 2. В качестве контроля мы также проверили, что произойдет, если взять один и тот же фактор и болезнь (но из разных когорт) - пролапс. Получился очень большой размер эффекта (58), что логично. Среди остальных пар наиболее значимый результат (самое низкое значение р-уа1ие) получилось для пары "Брюшная грыжа (Б1ппОеп) ^ Варикозное расширение вен нижних конечностей (ПК ВюЬапк)", однако размер эффекта оказался крайне низким. Также, если посмотреть на график с ассоциациями инструментальных переменных (Рисунок 2.3), видно, что не все генетические варианты демонстрируют эффект в одном направлении.

Рисунок 2.3 — Ассоциации инструментальных переменных с фактором (грыжа) и

заболеванием (варикоз).

Таблица 2 — Двухвыборочная менделевская рандомизация для поиска взаимосвязи между болезнями соединительной ткани, используя сводные статистики ЦК ВюЬапк и FinnGen

Фактор Болезнь Число Ь se Р

SNP

Варикозное расширение вен Брюшная грыжа (FinnGen) 15 -4.15 2.11 0.049

нижних конечностей

(ЦК биобанк)

Варикозное расширение вен Генитальный пролапс 15 -1.09 2.8 0.699

нижних конечностей (FinnGen)

(ЦК биобанк)

Генитальный пролапс (ЦК Брюшная грыжа (FinnGen) 3 2.475 7.364 0.737

биобанк)

Генитальный пролапс (ЦК Генитальный пролапс 3 57.61 10.29 0

биобанк) (БтпОеп)

Генитальный пролапс Варикозное расширение 8 0.002 0.001 0.204

(БтпОеп) вен нижних конечностей (ПК биобанк)

Генитальный пролапс Геморрой (ЦК биобанк) 4 -0.001 0.001 0.061

(БтпОеп)

Брюшная грыжа (FinnGen) Варикозное расширение вен нижних конечностей (ПК биобанк) 6 0.003 0.001 0.021

Брюшная грыжа (FinnGen) Геморрой (ЦК биобанк) 3 0.001 0.000 0.162

Приведенный анализ показывает, что двухвыборочная менделевская рандомизация не обнаруживает сильных причинно-следственных эффектов между коморбидными фенотипами соединительной ткани. Это связано в первую очередь с тем, что рассматриваемые фенотипы являются заболеваниями, в то время как причинно-следственную связь более вероятно обнаружить на эндотипах. Другая проблема заключается в том, что рассматриваемые генетические варианты отбираются не по функциональной роли, а по факту наличия ассоциации с фактором. В то же время для того, чтобы генетический вариант был инструментальной переменной, согласно требованиям менделевской рандомизации, должны выполняться несколько условий, одно из которых - требование, что генетический вариант влияет на болезнь только через фактор. В случае, когда фактор является тоже заболеванием и расположен в конце пути от гена к фенотипу, гарантировать выполнение этого условия невозможно. Это одна из основных проблем менделевской рандомизации, наиболее перспективным методом ее решения является цис-менделевская рандомизация, при которой в качестве фактора рассматриваются узлы метаболических путей, близкие к геному, например, белки, а генетические варианты рассматриваются только из окрестностей гена, прямо участвующего в синтезе этого фактора (например, для фактора-белка рассматривается ген, его кодирующий). Это

позволяет гарантировать, что влияние генетических вариантов на болезнь осуществляется только через фактор, что значительно повышает легитимность метода. В нашем исследовании использование цис-менделевской рандомизации невозможно, т.к. нет доступных протеомных данных в соответствующих тканях.

2.4. Исследование генетического ландшафта COVID-19 с использованием малой экспериментальной когорты и дополнительных биологических соображений

2.4.1. Редкие варианты и редкие фенотипы: вклад в генетику комплексных признаков на примере первичных иммунодефицитов и COVID-19

Редкие (менделевские, моногенные) заболевания устанавливаются на основе семейных родословных и популяционных данных, а аллели считаются редкими или распространенными, нейтральными или вредными на основе их популяционной частоты [122]. Исторически моногенные заболевания составляли основу "классической"генетики, так как позволяли установить причинные гены для многих редких генетических заболеваний. Что касается редких вариантов, то частота встречаемости варианта - это только один из факторов, свидетельствующий о его

патогенном потенциале, и лишь некоторые из редких вариантов являются клинически значимыми [123]. Геномы здорового человека могут нести от 100 до 250-300 вариантов, связанных с потерей функции белка, и большинство из этих вариантов являются редкими [87, 124]. Сведения о взаимосвязях между вариациями человека и фенотипами с подтверждающими доказательствами содержатся в репозиториях, таких как СНпУаг и HGMD®. Использование ресурсов СНпУаг и HGMD® можно рассматривать как способ снижения размерности для уменьшения

доли не интерпретируемых вообще или не интерпретируемых как патогенные вариантов при разработке прогностических алгоритмов в современной генетике.

2.4.2. Потенциально патогенные варианты и генетический ландшафт

первичных иммунодефицитов

Первичные иммунодефициты (ПИД) - это разнообразная группа генетических нарушений, вызванных недостаточным развитием и функционированием иммунной системы. В данной части нашего исследования мы суммировали информацию о генетических вариантах в 403 генах, ассоциированных с ПИД, согласно классификации 2019 года от Экспертного комитета Международного союза иммунологических обществ [80]. Для уточнения представления о клинически значимых вариантах в связи с общим ландшафтом генетической изменчивости генов ПИД были проанализированы данные двух ресурсов, содержащих информацию об ассоциации генетических вариантов с заболеваниями ClinVar и HGMD® (Human Gene Mutation Database), а также информация из крупнейшей публичной базы данных SNP, dbSNP. Распределение вариантов ClinVar и HGMD® по клинической значимости приведено на Рисунок 2.4А. Сравнение частот аллелей (Рисунок 2.4Б) показало, что самые низкие и самые высокие популяционные частоты имеют, соответственно, патогенные и доброкачественные варианты. Доля вариантов с частотами в GnomAD/ExaC среди всех патогенных вариантов составила 10,0%, а среди доброкачественных вариантов - 57,5% (Рисунок 2.4В), и эти различия были высоко значимыми (Приложение А.8).

Рисунок 2.4 — Терминальные варианты в генах ПИД. (А) Клиническое значение вариантов в базах данных ClinVar и HGMD. (Б) Боксплоты с частотами GnomAD для вариантов с различной патогенностью. (В) Доля вариантов с частотами GnomAD /ExAC и без них для вариантов с различной патогенностью. AF - частота альтернативного аллеля; B/LB - нейтральный/вероятно нейтральный; CI/VUS -противоречивые доказательства/вариант с неопределенной значимостью; DM -мутация, вызывающая болезнь; DM? - мутация, вероятно вызывающая болезнь, но с сомнительной патогенностью; DP - полиморфизм, связанный с болезнью; DFP -

полиморфизм, связанный с болезнью, с дополнительными функциональными доказательствами; FP - функциональный полиморфизм in vitro или in vivo; P/LP -

патогенный/вероятно патогенный.

Варианты из ОтУ^ и HGMD® были объединены в базу QmVar/HGMD, включившую 111940 вариантов (Рисунок 2.5А). Ш варианты составили примерно 40% от всех патогенных QmVar/HGMD вариантов в генах ПИД. Большинство Ш из dbSNP не имели установленных частот аллелей в GnomAD (29025/38291; 75.8%), или были редкими/ультра-редкими со средней частотой минорного аллеля < 5.1 х 10-4. Большая часть (66,6%) Ш вариантов из dbSNP не были зарегистрированы в QmVar/HGMD (Рисунок 2.4Б).

А

Б

25 500 HI dbSNP вариантов

ClinVar/HGMD DM P/LP B/LB

DM? Other ND

12 791 вариантов P 11 278 В 275 Other 1138

CI/VUS Other

ND

19 661 патогенных ClinVar/HGMD

вариантов

Рисунок 2.5 — Клиническая и предиктивная патогенность вариантов в ClinVar/HGMD и dbSNP. (А) Матрица решений для классификации вариантов в объединенной базе данных ClinVar/HGMD. (Б) Диаграмма Венна, показывающая пересечение между HI вариантами в dbSNP и патогенными вариантами в ClinVar/HGMD. Патогенные варианты объединяют патогенные и вероятно патогенные; нейтральные варианты объединяют нейтральные и вероятно нейтральные. B/LB - нейтральный/вероятно нейтральный; CI/VUS - противоречивые доказательства/вариант с неопределенной значимостью; DM - мутация, вызывающая болезнь; DM? - мутация, вероятно вызывающая болезнь, но с сомнительной патогенностью; P/LP - патогенный/вероятно патогенный; Other - другие; ND - нет

данных.

Редкие Ш варианты, не ассоциированные с клиническим фенотипом, могут

быть отнесены к одной из следующих категорий: аллели редких рецессивных

заболеваний в гетерозиготном состоянии, аллели с умеренной патогенностью и/или

не оказывающие серьезного влияния на функцию гена, и аллели, встречающиеся в

биологически менее значимых генах, устойчивых к генетической инактивации. В

фенотипическом плане, реализация генетической информации является сложным

процессом, включающим транскриптомный, протеомный и метаболомный, тканевой

и клеточный, а также физиологический и патофизиологический уровни, и на каждом

из этих уровней могут иметь место компенсаторные процессы, при которых

патогенный вариант может не иметь фенотипического проявления (или не проявиться

в полной мере). Эти рассуждения справедливы как для моногенных, так и для

62

полигенных заболеваний, которые в настоящее время рассматриваются как непрерывный фенотипический континуум [122]. Люди с потенциально патогенными вариантами могут фенотипически напоминать контрольные группы из-за других защитных факторов, напр., молодого возраста, но, при старении, острых или хронических заболеваниях, потенциально патогенные варианты могут нарушить устойчивость и компенсаторные возможности индивидуума [36]. В связи с тем, что варианты с высоким (разрушающим) воздействием на белок могут иметь разную пенетрантность и экспрессивность, использование генетических данных без четко определенных фенотипов имеет серьезные ограничения, а для расширения баз клинически важных вариантов требуются дополнительные исследования на больших глубоко фенотипированных когортах пациентов.

2.4.3. Серии генов заболеваний различных органов и систем организма

Базы данных генетических (редких/менделевских/моногенных) и генетически опосредованных (комплексных/полигенных/многофакторных) заболеваний: OMIM, ORPHANET, DDG2P, DisGeNet и MalaCards, а также доклад Международного союза иммунологических обществ (ШК) [80] были использованы для составления списка генов заболеваний (Рисунок 2.6А). Базы данных DDG2P и ШБ включают только редкие фенотипы, OMIM и ORPHANET включают, в основном (но не исключительно) редкие фенотипы, DisGeNet и MalaCards включают и редкие, и распространенные заболевания. При использовании двух последних баз данных мы руководствовались строгими критериями отбора и доказательности ассоциации ген-фенотип (см. "Материалы и Методы"). Классификации позволяющие идентифицировать гены, связанные с редкими и/или распространенными заболеваниями, были доступны в ORPHANET, DisGeNet и/или MalaCards (Рисунок 2.6Б). Наибольшее количество генов, ассоциированных с распространенными заболеваниями, было представлено в DisGeNet. Ген считался связанным с заболеванием определенной системы, например,

63

иммунной, дыхательной или нервной, в соответствии с классификацией в любом из использованных ресурсов. На примере генов вышеупомянутых систем видно, что часть из них ассоциирована с заболеваниями нескольких анатомических систем (Рисунок 2.6В).

Рисунок 2.6 — Представление генов заболеваний в базах данных. Диаграмма Венна, показывающая пересечение генов в OMIM, ORPHANET, DDG2P, DisGeNet и MalaCards. (Б) Количество генов, ассоциированных с редкими и распространенными заболеваниями в ORPHANET, DisGeNet и MalaCards. (В) Диаграмма Венна, показывающая пересечение генов заболеваний иммунной, дыхательной и нервной

систем.

2.4.4. Редкие варианты и генетический ландшафт СОУГО-19

Многофакторная и полигенная природа COVID-19 была тщательно изучена [125]. В дополнение к возрасту, полу и сопутствующей патологии факторы, связанные с этим заболеванием, включают социально-экономический статус и расу/этническую принадлежность [126]. Исследования GWAS и секвенирования экзома показали

сложную полигенную архитектуру COVID-19. Мета-анализ GWAS в рамках всемирной инициативы COVID-19 Host Genetics (HG) выявил 23 локуса с минорными частотами аллелей от 0,003 до 0,66, из которых семь локусов влияли на восприимчивость к инфекции SARS-CoV-2, а 16 локусов, включая локусы, ассоциированные с воспалением или врожденным иммунитетом (например, кластер генов OAS1/OAS2/OAS3, IFNAR2, DPP9, TYK2, SFTPD и MUC5B) были связаны с тяжестью течения заболевания [127]. Редкие варианты, влияющие на защиту организма от патогенов, также могут быть вовлечены в тяжесть течения COVID-19. Измерение ассоциации редких генетических вариантов с COVID-19 является более сложной задачей [128]. Большинство исследований генетических ассоциаций редких вариантов имеют недостаточную тестовую мощность, а полученные ассоциации не воспроизводятся в независимых когортах [129, 130]. Крупнейший мета-анализ редких вариантов, проведенный командой проекта COVID-19 HG, показал одну экзомную значимую ассоциацию с тяжелой формой COVID-19 для редких вариантов в гене TLR7 [128]. Предположив, что накопление слабых эффектов многих редких функциональных вариантов способствует повышению общего риска развития тяжелой формы заболевания, мы сравнили кумулятивный эффект редких вариантов у 57 пациентов с тяжелой и 29 пациентов с легкой/умеренной формой COVID-19. Данное предположение согласуется с омнигенной моделью взаимосвязи между генетическими и фенотипическими вариациями при слож ных признаках.

По результатам полноэкзомного секвенирования в нашей выборке было

выявлено 2504482 генетических варианта. После фильтрации осталось 1983390

вариантов; количество вариантов на человека составило 28134 ± 915. Количество

уникальных вариантов составило 116932. Эти варианты были расположены в 16816

различных генах, среди которых 95,02% были генами, экспрессирую щимися в

среднем в 18 тканях. Распределение вариантов по АЧ и различным функциональным

последствиям показано на Рисунке 2.7А. Распространенные варианты с АЧ >0,01

были наиболее многочисленными; среди вариантов с различными функциональными

65

последствиями преобладали миссенс-варианты. Среди Ш вариантов большинство вариантов (81%) находились в гетерозиготном состоянии, и более половины были представлены вариантами со сдвигом рамки считывания. Ш варианты без данных об АЧ включали наибольшее количество синглетонов (Рисунок 2.7Б). Число Ш вариантов на человека составило 217 ± 101, что соответствует литературным данным [87, 124, 131, 132]. АЧ в нашей выборке в целом соответствовали популяционным данным (Рисунок 2.7В). Частоты вариантов в бинах с АЧ < 0,001 и без данных об АЧ были сходными, но в последнем случае разброс данных был меньше. С учетом множественности сравнений не было выявлено ассоциаций отдельных вариантов с тяжестью COVID-19. График квантиль-квантиль показал дефляцию

наблюдаемых значений P, что означает, что размер нашей выборки недостаточен для анализа и интерпретации результатов на уровне отдельных генетических вариантов (Рисунок 2.7Г). Геномный коэффициент инфляции ламбда составил 0.59 даже для распространенных вариантов с АЧ>0.01, а во всех бинах редких вариантов ламбда была равна нулю. При этом на графике видно, что дефляция увеличивалась в подмножествах вариантов в различных бинах АЧ по мере снижения АЧ. Эти результаты отражают малое индивидуальное количество минорных аллелей и избыток синглетонов (Рисунок 2.7Б) и согласуются с данными литературы. В частности, в работе [133] указывается что геномный коэффициент инфляции ламбда для редких вариантов в отдельных исследованиях часто был <1, что было связано с большим числом индивидуальных вариантов, присутствующих только в одной из сравниваемых групп. При анализе редких экзомных вариантов для фенотипа "тяжелого" COVID-19 против комбинированного "отрицательного/неизвестного" COVID-19 во всех пяти доступных исследованиях число "тяжелых пациентов" составило менее 0,4% от суммарного размера выборки, что нашло свое отражение в значениях лямбды в диапазоне 0,013 - 0,132. Поскольку в нашем исследовании общий размер выборки был во много раз меньше, чем в рассмотренных в работе [133]

исследованиях, нулевые значения лямбды вполне объяснимы.

66

Сравнение числа редких вариантов у лиц с тяжелой и нетяжелой формой COVID-19 (Рисунок 2.8) показало, что у лиц с тяжелым COVID-19 значительно больше число вариантов, относящихся к бинам с АЧ <0,001 и отсутствием данных об АЧ. Размер эффекта был выше для Н1 вариантов, затем для миссенс-вариантов, а наименьший размер эффекта наблюдался для синонимичных вариантов. Таким образом, анализ всего набора экзомных вариантов показал значительное увеличение количества вариантов без данных об АФ, с максимальным размером эффекта для Н1 вариантов.

Мы также оценили число редких Н1 вариантов, объединив варианты с АЧ <0,001 и отсутствием данных об АЧ, в нескольких наборах генов, которые могут быть биологически важными и интерпретируемыми в контексте развития и течения острой инфекции (Рисунок 2.9). Наибольший размер эффекта среди всех изученных серий генов наблюдался для ПИД генов. Интересно отметить, что всего 4 варианта из рассмотренных 94, присутствовали среди патогенных вариантов в ПИД генах в рассмотренной нами в предыдущем разделе базе QmVar/HGMD и еще 9 вариантов были зарегистрированы в dbSNP (раздел 3.3.3.1). Среди генов, ассоциированных с заболеваниями органов и анатомических систем человека (см. раздел 3.3.3.2), наибольшая ассоциативная связь наблюдалась для генов иммунных заболеваний, и вторыми по размеру эффекта были гены респираторных заболеваний. Примечательно, что самый слабый эффект был обнаружен для генов неопластических заболеваний.

Рисунок 2.7 — Экзомные данные. (А) Распределение вариантов по АЧ (AF) в соответствии с популяционными базами данных и различными функциональными последствиями. (Б) Распределение вариантов по количеству синглетонов. (В) График Raincloud для сравнения АЧ в нашей выборке с данными из популя ционных баз данных. Среднее значение (Mean) и стандартное отклонение (SD) АЧ показаны в таблице. (Г) Квантиль-квантиль (Q-Q) график для вариантов из разных бинов АФ. Значения X указаны в легенде в верхней части графика.

Число вариантов на человека

239.84

249.86

14.77

10.93

181.74

165.40

50.91

14.38

55.23

23.90

HI, 0.001S AF S0.01 (417/370) Missense, 0.001S AF <0.01 (10975/6661) Synonymous, 0.001S AF <0.01 (7564/5254) »[ HI, AF <0.001 (775/658) Missense, AF <0.001 (12540/7292) Synonymous, AF <0.001 (7304/5146)

HI, no AF data (3159/2413) Missense, no AF data (10793/6629) Synonymous, no AF data (3751/3011)

0% 25% 50% ■ Тяжелый COVID-19

75% 100% : Нетяжелый COVID-19

0.5

1.5 2 2.5 Odds Ratio

3.5

р OR (95% CI)

0.81 1.02 (0.88-1.18)

4.32 х 10~3 0.96 (0.93-0.99)

0.05 0.96 (0.93-1.00)

2.24 х 10"6 1.38 (1.21-1.58)

5.79 х 10"8 1.10 (1.06-1.14)

2.52 х 10"s 1.10 (1.05-1.15)

7.3 х 10"150 3.69 (3.32-4.10)

8.2x10-"' 2.39 (2.27-2.51)

3.22 х 10"и 2.32 (2.14-2.52)

4.5

Рисунок 2.8 — Кумулятивные эффекты редких HI, миссенс и синонимичных вариантов у пациентов с тяжелой и легкой/умеренной формой COVID-19. Показаны отношения шансов (Odds Ratio, OR) и 95% доверительные интервалы (CI). В скобках указано количество вариантов/количество генов для каждого набора вариантов. На

левой панели показано распределение вариантов на процентной гистограмме с накоплением. Указаны абсолютные числа вариантов на человека для каждого набора вариантов. AF - аллельная частота, missense - миссенс вариант, synonymous -

синонимичный вариант.

В связи с тем, что в литературе основные исследования генетики человека у пациентов с COVID-19 были сосредоточены на отдельных SNPs, генах и ассоциациях на уровне путей, которые ограничены относительно небольшим количеством генов, наше исследование можно рассматривать как первую экспериментальную работу в рамках омнигенной модели полигенной наследственности [29] при тяжелом COVID-19. Исследования GWAS и экзомного секвенирования показали сложную полигенную архитектуру COVID-19. Гены иммунной системы, в первую очередь гены, участвующие в сигнальном пути интерферона I типа (Ш^Ы), и гены, связанные с функцией легких/респираторными заболеваниями, были определены как ключевые в определении тяжести заболевания [129, 134-136]. Однако COVID-19 - это сложное мультисистемное заболевание, а сложные признаки являются продуктами множества генов, которые взаимодействуют друг с другом сложным образом [29]. Ожидается, что при COVID-19 будет задействовано гораздо больше генов, чем те десятки, о которых сообщалось до сих пор. Эти гены, вероятно, включают относительно

небольшое число основных генов и гораздо большее число периферийных генов, несущих как распространенные, так и редкие варианты [21, 137].

Рисунок 2.9 — Кумулятивные эффекты редких HI вариантов у пациентов с тяжелой и легкой/умеренной формой COVID-19. Показаны отношения шансов (Odds Ratio,

OR) и 95% доверительные интервалы (CI). В скобках указано количество вариантов/количество генов для каждого набора генов. На левой панели показано распределение вариантов на процентной гистограмме с накоплением. Указаны абсолютные числа вариантов на человека для каждого набора вариантов.

Гены ПИД можно рассматривать как ключевые гены, ассоциированные с тяжелым течением СОУГО-19. В недавнем систематическом обзоре, включающем данные о 459 пациентах с ПИД с СОУГО-19, уровень смертности составил 9%, уровень госпитализации — 49%, а уровень использования кислорода — 29% [138], что в десятки раз выше, чем в общей популяции (https://www.statista.com/statistics/1087466/ covid19-cases-recoveries-deaths-

worldwide/). Тем не менее, тяжесть заболевания невозможно предсказать для всех

людей с ПИД, в первую очередь из-за сложного взаимодействия между различными иммунными ветвями [139] и неполной пенетрантности и переменной экспрессивности, характерной для ПИД [3]. В контексте омнигенной гипотезы наши результаты свидетельствуют о том, что эссенциальные гены, гены ПИД и иммунной системы в целом, а также гены респираторной системы обогащены коровыми генами, а гены неопластических заболеваний являются, в основном, периферийными генами. Результаты представляются биологически значимыми, так как иммунная система и органы дыхания в наибольшей степени вовлечены в воспаление при инфекции SARS CoV-2 [136, 140]. Таким образом, данная работа подтвердила предположение о роли изменчивости генов ПИД при COVID-19, а также показала, что рассмотрение редких HI вариантов в контексте омнигенной гипотезы дает новые инсайты по COVID-19 даже на маленькой выборке, в отличие от мейнстримовых исследований, которые рассматривают распространенные или редкие варианты и полигенную гипотезу.

2.5. Заключение по главе

В данном разделе было продемонстрировано использование "открытых" данных и относительно небольшого экспериментального исследования для получения представления о биологическом механизме на молекулярном и клеточном уровне, лежащем в основе изучаемого заболевания или признака. Хотя данная глава была посвящена исследованиям, направленным на получение биологически значимой информации в контексте открытых проблем генетики комплексных признаков, были также показаны некоторые проблемы и ограничения, свойственные исследованиям подобного типа.

1. Использование сводных статистических данных широкофеномного ресурса (каталога PheWAS, BioVU) продемонстрировало основные возможности данного типа исследований: формирование гипотез на основе выявления биологически правдоподобных ассоциаций и кросс-фенотипического анализа. Мы

71

продемонстрировали несколько новых ассоциаций для заболеваний соединительной ткани, как для отдельных генов, так и для их комбинаций, отражающих, в частности, роль генов, ответственных за функции периферических нервов и иммунный ответ. Мы также показали некоторые ограничения ресурса, связанные с относительно небольшими размерами когорты. Использование больших когорт (на примере сводных данных UK Biobank) позволяет выполнить анализ с учетом биологических подтипов заболеваний и получить больше статистически значимых результатов, скорректированных на множественность сравнений. Однако, независимо от размеров когорт, использование сводной статистики не позволяет выделить пациентов, которых можно условно отнести к группе с экстремальными фенотипами, а также не позволяет выделить основные патофизиологические факторы риска, которые следовало бы включить как ковариаты, специфичные для каждого рассматриваемого заболевания.

2. На примере генов ПИД продемонстрировано, что зарегистрированные клинически значимые патогенные варианты вносят относительно небольшой вклад в предиктивный патогенный ландшафт генов ПИД. В полноэкзомном исследовании ассоциации между редкими вариантами и тяжестью течения COVID-19 установлена связь между числом редких потенциально патогенных вариантов в экзоме и развитием тяжелого заболевания. Размеры выборки (86 человек) были радикально недостаточны для определения эффектов индивидуальных генетических вариантов, однако в рамках омнигенной модели наследования показано, что фенотип определяется не только и не столько отдельными вариантами и генами, сколько кумулятивным эффектом редких вариантов, как в коровых, так и в периферийных генах. Наибольший размер эффекта зарегистрирован для пула ПИД генов, которые, исходя из результатов исследования, обогащены коровыми генами. Изучение редких заболеваний позволяет установить причинные, т.е., коровые гены, эффект которых консервативен [29]. Большим потенциалом, в качестве предикторов, обладают редкие варианты, ассоциированные

с потерей функции белка, и клинически значимые варианты далеко не исчерпывают патогенный потенциал коровых генов.

Исследования, направленные на установление причинности и выявление механизмов генетических ассоциаций, как правило, используют предшествующие знания. Генерация новых знаний, как и эффективное прогнозирование на их основе, требуют других подходов, основанных на доступе к большим данным. Это рождает новые проблемы и новые задачи, которые будут рассмотрены в главах 3-5.

Глава 3. 10K: генотипированная и глубоко фенотипированная израильская

когорта

В предыдущей главе мы увидели, что использование лишь открытых источников информации, таких как сводные статистики, сильно ограничивает возможности для исследования за счет отсутствия индивидуальных данных, а маленькая когорта из пациентов с COVID-19 не имеет достаточной статистической мощности, чтобы делать полногеномное исследование. Также наличие лишь "конечных" фенотипов, таких как диагнозы комплексных заболеваний, и отсутствие эндотипов не позволяет полноценно исследовать причинно-следственные связи, как мы видели на примере менделевской рандомизации. Мы оттолкнемся от этих проблем и выводов и в этой главе опишем создание генотипированной и глубоко фенотипированной израильской когорты.

Машинное обучение и статистический анализ позволяет создавать модели, с помощью которых исследователи делают новые научные открытия и получают ценные предсказания для людей, тем самым меняя их жизнь к лучшему. Однако обучение моделей являются далеко не начальным этапом исследовательской деятельности. Известно, что качество предсказательных моделей зависит, в первую очередь, от качества и количества данных, на которых они обучены. Сбор данных и их обработка представляет собой гораздо более сложную и кропотливую работу, чем обучение модели и интерпретация предсказаний. В этой главе мы фокусируемся на построении инфраструктуры для сбора и анализа индивидуальных генетических и фенотипических данных. Мы также приведем имеющиеся результаты анализа данных, но поскольку проект еще не завершен, основной акцент будет сделан на инфраструктуре.

10K (позднее переименована в HPP - Human Phenotype Project) - это масштабное продолжительное исследование, нацеленное на сбор и анализ физиологических и молекулярных характеристик когорты участников в возрасте от

40 до 70 лет в Израиле. Когорта в основном состоит из европейских (ашкеназских) евреев. Цель проекта - на основе когорты, сформированной на добровольной основе и с использованием опросника для отбора, выявить новые диагностические биомаркеры и мишени для заболеваний.

3.1. Материалы и методы

3.1.1. 10K (HPP): цель проекта, критерии отбора участников и собираемые

данные

Цель проекта 10K (более позднее название - Human Phenotype Project) -построение генотипированной и глубоко фенотипированной когорты израильской популяции, разработка моделей прогнозирования начала и прогрессирования заболеваний, а также идентификация новых молекулярных маркеров с диагностической, прогностической и терапевтической ценностью. Проект направлен на изучение сложного взаимодействия и относительного вклада генетических, эпигенетических, микробиомных и экологических факторов в патогенез и прогрессирование заболеваний.

Участниками исследования 10K являются люди в возрасте от 40 до 70 лет, у которых еще не были выявлены клинические исходы, представляющие интерес. Они привлекаются в основном путем самостоятельной регистрации на сайте проекта. Исследование направлено на создание относительно однородной популяции путем применения заранее определенных критериев исключения, таких как недавнее использование антибиотиков и определенные медицинские состояния.

Участникам проекта 10K требуется пройти всестороннюю оценку здоровья на исследовательском сайте, расположенном в Институте Вейцмана в Израиле. Они предоставляют различные измерения и образцы, указанные в методике исследования, такие как образцы крови, мочи и кала, а также информацию о своей демографии,

75

состоянии здоровья, образе жизни и психосоциальных аспектах. Также от них требуется участие в долгосрочном наблюдении, включая ежегодные анкеты для отслеживания состояния и всеобъемлющие встречи каждые два года, на которых проводятся повторные измерения и сбор дополнительных данных.

В свою очередь, участники проекта 10K бесплатно получают всестороннюю оценку здоровья, включающую подробную информацию о состоянии их здоровья и различных молекулярных профилях. Эта информация может помочь им лучше понять свое здоровье, принимать обоснованные решения о своем образе жизни и, возможно, предотвратить или отсрочить начало некоторых заболеваний.

В проекте 10K собирается широкий спектр данных от участников, такие как (Рисунок 3.1):

• Демографическая информация: возраст, пол, этническая принадлежность и образование.

• Состояние здоровья: анамнез, прием лекарств и семейный анамнез заболеваний.

• Факторы образа жизни: физическая активность, пищевые привычки, курение, употребление алкоголя и сон.

• Психосоциальные аспекты: уровень стресса, социальная поддержка и психическое здоровье.

• Физические измерения: рост, вес, индекс массы тела (ИМТ), артериальное давление, пульс и окружность талии.

Образцы крови:

о Генотипирование: анализ ДНК для выявления генетических вариаций. о Транскриптом: секвенирование РНК для изучения экспрессии генов. о Протеом: анализ белков для идентификации и количественной оценки белков.

о Метаболом: анализ малых молекул для изучения метаболических процессов.

о Профилирование иммунной системы: оценка популяций и функции иммунных клеток.

• Образцы стула: анализ кишечного микробиома с использованием метагеномики и метаболомики.

• Образцы слюны: анализ микробиома полости рта с использованием метагеномики.

• Непрерывное мониторирование уровня глюкозы: две недели регистрации уровня глюкозы в крови в режиме реального времени.

• Регистрация ежедневных активностей и приемов пищи: мобильное приложение для записи ежедневных режимов, содержания приемов пищи и времени их потребления в течение двух недель.

• Мониторинг сна: трехдневная непрерывная оценка сна с использованием актографии.

• Фундус-имиджинг: фотографирование сетчатки с целью оценки состояния глазного дна.

Рисунок 3.1 — Данные, собираемые в проекте 10^

3.1.2. Фенотипы

Мы установили период сбора данных с начала исследования, с января 2019 года по февраль 2023 года. Участники нашего исследования носят датчик непрерывного

мониторирования уровня глюкозы (СОМ), который каждые 5 минут измеряет уровень глюкозы в межклеточной жидкости в течение двух недель с использованием подкожных датчиков. С помощью пакета 1§1и [141] языка Я было вычислено 47 фенотипов из данных СОМ. Данные о качестве сна собирались с использованием клинически проверенного монитора сна в течение трех ночей, при этом количественные характеристики сна вычислялись из непрерывных временных данных

[142].

Для измерения относительного обилия различных видов в микробиоме кишечника мы проанализировали образец стула, собранный участниками 10К. Процесс оценки относительного обилия бактерий описан в предыдущих работах

[143]. Обозначенные как сывороточные метаболиты, тысячи малых молекул, циркулирующих в крови, могут предоставить новые знания для понимания биологических процессов [144]. Поэтому мы проверили ассоциации сывороточных метаболитов с генетикой. В этом наборе данных одни признаки могут представлять уровни отдельных метаболитов или кластеры связанных метаболитов в крови, собранной у участников в рамках 10К.

Для каждого признака, включенного в исследование 10К, мы оставили только последние из нескольких записей, исключая выбросы из данных, обрезая их до пяти стандартных отклонений от среднего. Кроме того, мы исключили виды микробиома с частотой (долей встречаемости) ниже 10е-4, так как это был наш предел обнаружения. Наконец, мы исключили признаки с менее чем 2000 записями и те, которые были сильно несбалансированы (частота >95% для любого индивидуального значения).

3.1.3. Генотипы

Геномы участников были секвенированы с средней глубиной покрытия 0.6х, перед тем как были импутированы на основе НарМар 366. Для фильтрации

вариантов использовалась версия PLINK-1.9 [145]. SNP с частотой минорного аллеля ниже 0.03 были исключены из анализа. Кроме того, мы также удалили SNP, которые не соответствовали порогу равновесия Харди-Вайнберга 1e-6. Для учета мелкомасштабной семейной структуры мы использовали встроенный в PLINK метод KING для оценки пар близких родственников, и исключили их на основе порога 0.22, который учитывает более высокий базовый уровень родства в нашей популяции, в основном состоящей из ашкеназских евреев. На этом этапе также были удалены SNP с минимальным числом аллелей менее 20. Затем мы проводили процедуру объединения на основе LD в PLINK для каждого результата GWAS для признаков, у которых был хотя бы один значимый (многомерный) хит, с порогом значимости 0.0001, вторичным порогом значимости для объединенных SNP 0.01, порогом LD 0.5 и физическим расстоянием 250 kb для объединения.

3.1.4. Анализ широкогеномных исследований ассоциаций (GWAS)

Мы использовали версию PLINK-2 для выполнения анализов GWAS. Для коррекции по демографии и стратификации популяции для каждого GWAS мы включали 12 ковариат, помимо вариантного термина по аддитивной модели. Эти двенадцать ковариат состояли из 10 главных компонент, заявленного возраста и пола каждого участника. Мы использовали PLINK для нормализации каждого ковариата и фенотипа до нулевого среднего и единичной дисперсии.

3.1.5. Расчет полигенных рисков (PRS)

Мы проецировали PRS с использованием PRSice-2 [146], используя последние

результаты GWAS от Neale Lab в качестве основных данных и данные о генотипах

80

10K в качестве целевых данных. Сводная статистика от Neale Lab основана на UK Biobank. Мы использовали пороги LD clumping 0.5 (г2) и 250 (kb) и порог значимости P 0.0001. Для каждого PRS мы исключали точки выше 95% процентиля или ниже 5% процентиля, затем нормализовали значения.

3.1.6. Анализ полигенных широкофеномных исследований (PRS-PheWAS)

Для PRS, связанных с приемом лекарств, наличием в семейной истории или диагностированных медицинских диагнозов, мы исключали из ассоциативного теста участников 10K, соответствующих этим критериям, на основе кодов Международной классификации болезней 10-го пересмотра (ICD10). Для каждого признака мы тестировали его ассоциацию с каждым PRS, проектированным из UK Biobank, по множественной линейной модели, включая в качестве ковариат 10 главных компонент, а также возраст и пол. Затем мы проверяли значимость различий между оценкой параметра для PRS и нулем, используя тест Вальда, и получали P-value. Мы использовали коррекцию Бонферрони для корректировки значений P для каждого теста.

3.2. Программный код для инфраструктуры проекта 10К

В проекте 10К с каждого участника собиралось большое количество данных (см.

"Материалы и методы"), каждый тип данных требовал написания программного кода

для его загрузки и включения в анализ. Ниже приведем обзор модулей, которые были

написаны лично автором, они работают с генетическими и частью фенотипических

данных. Структура этих модулей приведена на Рисунке 3.2. Из фенотипических

модулей автором были написаны модули по загрузке антропометрических данных,

опросника, глюкозы в крови и заполняемого участниками дневником с данными по

питанию, сну и физической активности. Был также написан модуль для загрузки и

81

интеграции данных UK биобанка для совместной обработки с генетическими данными 10К. Затем были написаны модули для совместного анализа загруженных генотипических и фенотипических данных. Наконец, был написан модуль для создания отчетов для участников проекта с использованием входных данных и результатов анализа. Эти отчеты играли важную роль в поддержке интереса и энтузиазма участников, что было крайне важно для получения качественных данных, поскольку эти данные собирались на протяжении продолжительного времени.

Рисунок 3.2 — Структура кода, написанного автором для проекта 10К. Загруженные данные используются для анализа, создания отчетов для участников, которые, в свою очередь, повышают количество и качество входных данных.

Описание программного кода для упомянутых выше модулей изложено в Приложении Б: генетический модуль описан в секции Б.1, фенотипические модули и

модуль загрузки полигенного риска - в секции Б.2, анализ данных 10К при участии данных из иК биобанка - в секции Б.3.

3.3. Отчеты для обратной связи с участниками

Для того, чтобы давать участникам обратную связь и, тем самым, мотивировать их для (дальнейшего) участия в исследовании, были разработаны отчеты, в которых собраны и обобщены данные, которые они предоставили. Отчеты предоставлялись в виде Ы:т1-страниц, с интерактивными графиками, построенными в р1оИу. Данные были взяты из загрузочных модулей, описанных выше. Примеры информации, предоставляемой участникам пред ставлены на Рисунках 3.3, 3.4 и 3.5.

Цель отчета — предоставить вам ваши данные. Если вы хотите глубже понять смысл отчета, мы рекомендуем вам проконсультироваться с клиническим диетологом о характере данных.В дополнение к сахарометру мы оценили записанные вами приемы пищи в соответствии с их влиянием на уровень сахара в крови. Обратите внимание, что эти отчеты представляют пять приемов пищи и закусок с самой высокой и самой низкой реакцией на сахар. Этот отчет не является

.какой-либо диетической рекомендацией

Рисунок 3.3 — Данные с сенсора глюкозы и из журнала (приложения на телефоне).

Рисунок 3.4 — Данные по питанию из журнала (приложения на телефоне) - лучшие

и худшие перекусы.

Рисунок 3.5 — Данные по питанию из журнала (приложения на телефоне)

статистика.

3.4. 10К: предсказание происхождения

Отдельно расскажем о предсказании происхождения, которое использовалось и в отчетах участникам и в анализе.

Население Израиля крайне разнородно: две основные этнические группы представлены евреями (74%) и арабами (21%), меньшие - друзами, черкесами, караимами и другими. Большая часть израильских евреев приехала в Израиль не более четырех поколений назад, основные регионы исхода - Восточная Европа (ашкеназы), Северная Африка и Ближний Восток. В результате многие израильтяне имеют родителей из разных общин, популяция имеет высокую степень смешения (admixture).

Важно отметить, что генетически еврейские общины сходны между собой, но в то же время имеют разную степень смешения с коренными популяциями регионов, в которых они жили. Таким образом, в пространстве принципиальных компонент

еврейские общины образуют отдельные кластеры, которые находятся между общим "еврейским" центром и коренными популяциями регионов [147, 148).

Компания Gencove, которая осуществляла генотипирование образцов, также выдавала генетические отчеты, в которых были предсказания происхождения участников (ancestry). После того, как были получены жалобы некоторых участников о несоответствии предсказания семейной истории, было решено провести исследование, сопоставив предсказания происхождения с ответами участников на вопросы о месте рождения их самих, их родителей, бабушек и дедушек. Было обнаружено, что для большинства участников не ашкеназского (европейского) происхождения предсказания редко соответствуют действительности. Мы предположили, что это происходит из-за того, что референсная панель (тренировочная выборка для предсказания происхождения) компании Gencove не содержит достаточно популяций из Северной Африки и Ближнего Востока.

Для решения проблемы было решено обучить собственный классификатор происхождения на основе имеющихся данных. Предиктор брал на вход генетические варианты участника и предсказывал его происхождение в виде вероятностей принадлежности следующим классам: Ашкеназы (Европа), Сефарды (Европа), Северная Африка, Ближний Восток и Йемен. Йеменских евреев, несмотря на малое количество, было решено выделить в отдельный класс из-за сильной изолированности общины.

Обучающая выборка была составлена следующим образом. Каждый участник при заполнении опросника заполнял информацию о странах, в которых родились ее/его бабушки и дедушки. Каждая страна была нами отнесена к одному из вышеупомянутых классов, если большая часть еврейской общины относится к соответствующему классу, либо к классу "Неизвестно/другое" (например, Канада -ашкеназы, Португалия - сефарды, Ливия - Северная Африка). Израиль был отнесен к классу "Неизвестно/другое", так как не дает достаточно информации о происхождении человека. Участники, у которых все бабушки и дедушки родились в

87

странах, принадлежащих одному классу (например, двое из Украины, по одному из Польши и Германии - ашкеназы), были включены в обучающую выборку как представители соответствующего класса.

Был проведен стандартный для генетических данных quality control с параметрами maf=0.01, geno=0.1, hwe=1e-6 с помощью программы PLINK [149]. Сокращение размерности было осуществлено с помощью проекции входных генетических вариантов в пространство принципиальных компонент, были взяты первые 10 компонент. В качестве классификатора был выбран случайный лес (random forest) с числом деревьев равным 100. Leave-one-out кросс-валидация на несмешанных сэмплах показала среднюю точность 98.64%. Матрица ошибок (confusion matrix) представлена на Рисунке 3.6.

Поскольку классификатор предполагает, что сэмпл принадлежит ровно одному классу, было интересно проверить, насколько хороши предсказания

ancestry Ashkenaz Middle Eastern North African Sephardi Yemen

Ashkenaz 1770 8 1 2 G

Middle Eastern 5 218 5 G G

North African G 2 28G 3 G

Sephardl 6 G 1 59 G

Yemen G G G G 72

Рисунок 3.6 — Confusion matrix

классификатора в случае смешанных сэмплов. Поскольку каждый классификатор выдает вероятность принадлежности сэмпла к каждому классу, из которых затем берется максимальная, эти вероятности могут выдаваться в качестве предсказаний каждому сэмплу. Для проверки соответствия выходных вероятностей происхождению в случае смешанных сэмплов был взят следующий метод. Для тех смешанных сэмплов, бабушки и дедушки которых на более чем 50% принадлежат одному классу, было проверено, соответствует ли максимальная вероятность из предсказанных этому

классу. Выходная точность получилось 88%, что показывает высокую эффективность такого классификатора и для смешанных сэмплов.

Стоит отметить, что происхождение, которое мы использовали для обучения классификатора, может не быть очень точным. Во-первых, участники не всегда могут точно знать или помнить, где родились их бабушки/дедушки. Во-вторых, при определении происхождения мы исключали бабушек и дедушек, родившихся в Израиле или чье место рождения неизвестно, тем самым добавляя шум. В-третьих, соответствие страны рождения и класса далеко не однозначно, так, например, во Франции есть и ашкеназская, и сефардская еврейские общины, а мы считали Францию "ашкеназской" страной.

Ужесточение критериев "зачисления" сэмплов в тренировочную выборку, с одной стороны, уменьшает шум, а с другой стороны - уменьшает размер выборки, что также вредит предиктору. Мы разрешили этот дилемму вышеуказанным образом.

3.5. Результаты GWAS

Для исследования связи между отдельными SNPs и всеми 727 клиническими фенотипами, которые измерялись в когорте, мы провели GWAS. Используя стандартный порог значимости на уровне генома (P < 5e-8), мы определили 107 признаков, имеющих хотя бы одно значимое попадание, и 12 из этих признаков оставались значимыми после коррекции Бонферрони (P < 5e-8/727). Все попадания, сохранившие значимость после коррекции на множественность сравнений, были связаны с контролем глюкозы (например, e1Ac, COGI, и квартили распределения глюкозы). Таким образом, хотя полные результаты для всех доменов данных выложены на интерактивной панели https://zacharylevine.

shinyapps.io/GWASDashboard/, мы далее рассматриваем только признаки контроля глюкозы.

В нашем исследовании GWAS по инсулину после клампинга (изначально 7183585 тестов), мы обнаружили, что первый квартиль каждого индивидуального распределения глюкозы (признак, вычисленный с помощью пакета 1§1и) имел наибольшее количество (4) значимых (с учетом коррекции) SNPs. Гены, содержащие эти SNPs или расположенные рядом с ними, также были указаны в других исследованиях GWAS для детского ожирения [150] (PCDH15, Р<2Е-19), курения [151] (PCDH15, Р<4Е-21), и психических расстройств, преимущественно шизофрении [152] (GPM6A, Р<3Е-11; PCDH15, Р<2Е-19). Наши результаты согласуются с ранее показанной пересекающейся наследственностью между контролем глюкозы и психическими расстройствами [153].

3.6. Результаты PRS-PheWAS

Ввиду полигенной природы большинства наиболее изучаемых и клинически важных человеческих признаков, и ограничений GWAS в виде малых эффектов для большинства SNPs, мы сгенерировали 4116 РЯ^ на основе результатов GWAS из ик биобанка для нашей когорты (иными словами, модель обучена на ЦК биобанке и применена к нашей когорте). Спектр фенотипов, для которых были подсчитаны РЯБ, включает диагнозы болезней, количественные измерения в анализе крови, модели поведения и семейную медицинскую историю. Далее, мы ассоциировали каждый посчитанный РЯ^ со всеми нашими фенотипами в анализе PRS-PheWAS (см. "Материалы и методы"). Наиболее сильные ассоциации были найдены для гликемических признаков с PRS для глюкозы. Согласованные результаты также наблюдались во всех доменах данных. В целом, наши результаты предполагают, что новые эндотипы сильно ассоциированы с генетическими сигналами родственных "конечных" фенотипов. На основании этой валидации любые другие найденные ассоциации могут иметь клиническое значение. Всего было найдено 16047 значимых

ассоциаций.

Глава 4. Генетические различия популяций и предсказание происхождения из

геномных данных

4.1. Введение

В предыдущей главе мы строили и анализировали большую глубоко фенотипированную когорту. Мы увидели сложности, связанные с предсказанием происхождения для израильской популяции, связанные с тем, что в обучающей выборке не было достаточно евреев не европейского происхождения. Также при анализе полигенных рисков было замечено, что полигенный риск роста (standing height), полученный в результате обучения на когорте UK биобанка, показывает более низкую корреляцию с фенотипом при тестировании на новой популяции (израильской) по сравнению с тестированием на нативной популяции (британской). В этой главе мы исследуем эти феномены более систематически (Рисунок 4.1): сначала на примере двух работ покажем важность популяционного фактора, который модифицирует связь генотип-фенотип даже на уровне небольших серий генов или вариантов и небольших когорт пациентов. Затем мы исследуем, что происходит при переносе предсказательной модели с одной популяции на другую на примере различных популяций внутри UK биобанка. Наконец, мы перейдем к построению модели предсказания происхождения, которую можно использовать для выбора персонализированной модели (или полигенного риска) для каждого пациента, которая бы наилучшим образом предсказывала фенотип за счет обучения на той же или близкой популяции.

Рисунок 4.1 — Структура главы. Мы показываем и объясняем различия в зависимостях между генотипом и фенотипом в разных популяциях, демонстрируем плохую переносимость предсказательных моделей и наконец, в качестве потенциального решения, строим модель предсказания происхождения, которая позволит подобрать подходящую персонализированную модель предсказания

фенотипа для каждого индивида.

4.2. Материалы и методы

4.2.1. Картирование ассоциаций генов цитокинов в разных популяциях

Список из 314 генов, кодирующих белки с цитокиновой / хемокиновой активностью и активностью цитокиновых / хемокиновых рецепторов (объединенных под названием "цитокины"), был составлен с использованием инструмента QuickGo [154] (Приложение В.1). В каталоге NHGRI-EBI GWAS [155] было картировано 3077 ассоциаций для 1760 уникальных SNPs в 244 генах цитокинов или вблизи них (доступ 01.08.2019). Большинство SNPs были идентифицированы в европейских популяциях.

Затем мы провели анализ неравновесия по сцеплению (LD-анализ), используя в качестве критериев порог r2 > 0,8 и четкую идентификацию популяции. Неравновесие по сцеплению (LD) означает, что аллели встречаются вместе чаще, чем можно было бы объяснить случайностью из-за их физической близости на хромосоме. r2 - это коэффициент корреляции частот. Значение r2=1 называется идеальным LD. Идеальный LD имеет место, когда два SNPs не разделяются рекомбинацией и имеют одинаковые частоты аллелей. Для построения наборов данных LD SNPs использовались HaploReg v4.2 и пакет haploR [156]. Для анализа сигналов естественного отбора в генах цитокинов мы использовали глобальный Fst (индекс фиксации) и iHS (интегральный показатель гаплотипов). Абсолютные значения и ранговые оценки (-log 10 центильный ранг P-значения SNP по сравнению с другими в геноме) были извлечены из 1000 Genome Browser [157]. Принято считать, что SNPs с оценками Fst 0,516 или iHS 2,017 подвергаются положительному отбору. Все сигналы Fst и iHS с значимыми ранговыми оценками соответствовали этим пороговым значениям.

4.2.2. Анализ популяционных (этнических) различий в частоте аллелей SNP, связанных с генитальным пролапсом

Двенадцать SNPs, включая те, которые были указаны в исследованиях Allen-Brady и соавторов [158], а также выбранные с помощью ресурса RegulomeDB [159] для области 9q21 (см. Приложение В.2), были генотипированы у 210 пациенток с клинически выраженным генитальным пролапсом (стадии III-IV) и 292 пациенток без пролапса. Пациентки были отобраны из клинической базы кафедры акушерства и гинекологии Российского национального исследовательского медицинского университета имени Н.И. Пирогова (РНИМУ) в период с декабря 2011 года по сентябрь 2013 года. Исследование было одобрено Комитетом по этике РНИМУ (номер одобрения референтного совета университета 117, 16 апреля 2012 г.) и

93

проводилось в соответствии с принципами Хельсинкской декларации; все пациенты дали письменное информированное согласие.

Генотипирование проводилось с использованием аллель-специфической тетрапраймерной реакции. Логистический регрессионный анализ, реализованный в пакете SNPStats [160], использовался для оценки ассоциаций между изучаемыми SNPs и генитальным пролапсом. В многомерном анализе мы корректировали основные ковариаты: возраст, ИМТ, вагинальный паритет и вагинальную травму в родах. Значения парного неравновесия сцепления (LD) измерялись как значения Левонтина и оценивались на основе данных генотипов с помощью алгоритма максимизации ожиданий, реализованного в программе SNPStats. Программа SNPStats также использовалась для оценки ассоциации гаплотипов с генитальным пролапсом. Данные генотипирования популяций HapMap были доступны по адресу (https://www.genome.gov/10001688/ intemational-hapmap-project); в анализ были включены только женские образцы из HapMap. Оценку структуры популяции методом дискриминантного анализа главных компонент (DAPC) [161] проводили с помощью пакета adegenet в статистическом программном обеспечении R [162]. Межпопуляционные различия в частотах аллелей оценивались с помощью индекса фиксации Вейра и Кокерхема, используя пакет diversity [163].

4.2.3. Обработка данных 1000 Геномов

Массив 1000 геномов содержит около 750 тысяч генетических вариантов (SNPs) 2624 образцов 26 генетических популяций, принадлежащих пяти суперпопуляциям: восточноазиатам (EAS), южноазиатам (SAS), европейцам (EUR), африканцам (AFR) и коренным американцам (AMR).

Наш пайплайн обработки данных выполнялся в следующем порядке. Сначала мы провели контроль качества вариантов в PLINK, сохраняя генетические варианты с частотой минорного аллеля >5% и отсутствием сигнала <2%. За тем мы провели

94

контроль качества образцов в PLINK, сохраняя не родственные (KING relatedness cutoff 0.0884, соответствующие второстепенным родственникам) образцы с отсутствием сигнала <6%.

Затем мы разделили данные на 10 фолдов для кросс-валидации, при этом в каждый момент восемь фолдов использовались в качестве обучающих данных, один -в качестве валидационных данных (для ранней остановки во время обучения модели) и один - в качестве тестовых данных. Наконец, мы провели PCA на обучающем наборе и выделили 20 главных компонент. Для сокращения размерности валидационной и тестовой выборок мы проецировали их на пространство главных компонент тренировочной выборки. PCA и проецирование осуществлялись также в PLINK.

4.2.4. Модель прогнозирования происхождения

После выполнения PCA на наборе данных 1000 геномов мы использовали 20 главных компонент в качестве признаков для многослойной персептронной нейронной сети. Она имеет два скрытых слоя и выдает ненормированные оценки (после нормирования на сумму по категориям получаются вероятности) принадлежности образца каждой из 26 популяций. В ней примерно 182K параметров.

Мы использовали полносвязную нейронную сеть с двумя скрытыми слоями размером 800 и 200 соответственно, 20 входными и 26 выходными нейронами. Функция активации - selu, а функция потерь - кросс-энтропия. Мы обучали ее в течение 16384 локальных эпох с размером пакета 64, скоростью обучения 0.1 и экспоненциальным убыванием скорости обучения с у 0.9999. Мы обучали ее на машинах только с CPU с 4 CPU и 8-16 GB RAM.

4.3. Примеры разной зависимости фенотипа от генотипа в разных популяциях

С использованием доступных ресурсов и результатов собственного экспериментального исследования мы иллюстрируем популяционные различия для аллелей, ассоциированных с фенотипическими признаками, на примере генов иммунной системы и генов, ассоциированных с недостаточностью соединительной ткани.

4.3.1. Популяционные различия для аллелей, ассоциированных с фенотипическими признаками в NHGRI-EBI GWAS каталоге, на

примере генов цитокинов

Иммунная система человека обеспечивает первичную защиту от патогенных микроорганизмов, находящихся как снаружи, так и внутри организма. После выхода из Африки предки человека столкнулись с совершенно разными патогенными средами, и их выживание и репродуктивные способности зависели от того, насколько успешно их иммунная система боролась с инфекциями. Геномные области, в которых расположены гены, связанные с иммунитетом, находились под более сильным давлением отбора, чем остальная часть генома человека [164]. Многие варианты, связанные с инфекционными, аутоиммунными и воспалительными заболеваниями, обнаруженные в ходе широкогеномных ассоциативных исследований, демонстрируют экстремальные различия в частоте аллелей в разных популяциях [165]. Эти генетические вариации предков, сформировавшиеся в ходе эволюционной истории человека, вероятно, и сегодня оказывают влияние на конститутивную иммунную среду в популяциях [166]. Цитокины, высвобождаемые клетками врожденного иммунитета, играют ключевую роль в регуляции иммунного ответа. Цитокины — это регуляторные белки и гликопротеины, которые синтезируются и секретируются клетками иммунной системы и другими типами клеток. Они регулируют врожденный и приобретенный иммунитет, эмбриогенез, кроветворение, воспаление и процессы регенерации, а также пролиферацию. Эти функции

96

реализуются посредством клеточной сигнализации и межклеточной коммуникации. Мы выполнили исследование, в котором обобщили данные NHGRI-EBI GWAS каталога для ассоциаций цитокинов для разных популяций. Поскольку сигнал GWAS может быть обусловлен синтетической ассоциацией, созданной редким высокоэффективным вариантом, находящимся в неравновесном сцеплении (linkage disequilibrium, LD) с общим вариантом, мы сравнили, в частности, распределение индексных (GWAS) и LD вариантов в разных популяциях.

Количество и доли индексных вариантов и LD вариантов в исследованных популяциях показаны на Рисунках 4.2a и 4.2б. Значительные различия в пропорциях сравнения не дали значимых результатов из-за меньших различий и/или меньших размеров выборки. Большую долю LD SNPs у азиатов по сравнению с европейцами можно объяснить тем, что GWAS варианты чаще находились во внутригенных участках в азиатских (52,21%), чем в европейских популяциях (46,27%), а избыток вариантов в сильном LD является неотъемлемым свойством внутригенных вариантов [167].

Рисунок 4.2 — Распределение по популяциям индексных и LD SNPs. (а) GWAS-идентифицированные SNPs (левая панель) и LD SNPs (правая панель) по популяциям показаны на диаграмме Венна. Для популяций, где были зарегистрированы индексные SNPs, мы отобрали SNPs, находящиеся в LD (linkage disequilibrium) с индексными SNPs, используя порог г2 > 0,8. Только индексные SNPs

анализировались в смешанных популяциях с различной этнической принадлежностью или в популяциях, которые не могли быть отнесены ни к одной из четырех суперпопуляций: EUR (европейская), ASN (восточноазиатская: китайцы, японцы, вьетнамцы), AFR (африканцы, включая афроамериканцев) и AMR (смешанная американская). (б) Пропорции индексных (красный) и LD (синий) SNPs в четырех популяциях. Звездочки указывают на значимые различия между EUR и ASN (P = 0,004) в доле индексных и LD SNPs.

Рисунок 4.3 — Показатели естественного отбора для вариантов в генах GDF5 и

IL1RL1/IL18R1. (а) Глобальные значения Fst для SNPs rs143384 (Fst=0,649) и rs224333 (Fst=0,714) в гене GDF5. Сигналы GWAS для SNPs rs 143384 и rs224333 были получены для европейской популяции и популяций смешанного происхождения. (б) сигналы iHS для SNPs rs2001461 (iHS=4.54), rs1420103 (iHS=3.46) и rs6419573 (iHS=3.34) в локусе IL18R1/IL1RL1 в популяции CEU. Сигналы GWAS для этих SNP были зарегистрированы только для лиц европейского

происхождения.

Анализ сигналов естественного отбора показал, что в общей сложности 75 SNPs имели глобальные ранговые оценки Fst > 2. Большинство ассоциаций GWAS, в основном с антропометрическими измерениями, было обнаружено для двух из них: rs 143384 и rs224333 в высоком LD (r2 = 0,93 во всех популяциях) в гене GDF5 (Рисунок 4.3а). Подобные эффекты также наблюдались для GDF5 rs143384 и rs224333 при сравнении Fst для CEU (европейская) против YRI (западноафриканская) популяций. Тест iHS показал сигнал положительной селекции только в европейской популяции: десять вариантов имели ранговые баллы > 2; среди них три сцепленных варианта (r2 = 0,86) были расположены в гене IL18R1 или рядом с ним (Рисунок 4.3б). Топовый SNP rs2001461 гена IL18R1 с баллом iHS CEU 4,544 был ассоциирован с измерением белка

крови (IL18R1), а два других SNP были связаны с измерением ST2 (продукт гена IL1RL1) в сыворотке крови (rs1420103) и атопической экземой (rs6419573).

SNPs GDF5, rs143384 и rs224333, в каталоге NHGRI-EBI GWAS были связаны с фенотипами роста и индекса массы тела (ИМТ) в различных популяциях. Рост является одним из наиболее известных признаков, ассоциированных с полигенным отбором, особенно у европейцев, в то время как данные по ИМТ противоречивы [168, 169]. Тест iHS, направленный на определение доказательств недавнего положительного отбора, выявил наличие у европейцев селективной сигнатуры для трех тесно сцепленных вариантов в гене IL18R1, который кодирует цитокиновый рецептор из семейства рецепторов интерлейкина 1. Консервативный механизм регуляции сигнального каскада IL18 может представлять собой мишень для селективного давления [170]. Это предположение согласуется с тем, что топовый SNP rs2001461 (iHS CEU score 4.54) связан с экспрессией белка IL18R1 у европейцев (GWAS P value 3.00E-129).

Таким образом, при использовании ресурса 1000 Genome Browser и двух тестов Fst и iHS среди вариантов в генах цитокинов, картированных в каталоге NHGRI-EBI GWAS, были установлены SNPs, находящиеся под давлением естественного отбора. Основные (наиболее значимые) результаты получены для SNPs в гене GDF5 (тест Fst, подтверждающая информация, европеоиды, африканцы, азиаты) и гене IL18R1 (тест iHS, новые данные, только для европеоидов).

4.3.2. Популяционные различия для аллелей, ассоциированных с генитальным пролапсом: возможный вклад в различия частот встречаемости заболевания в разных популяциях

Генитальный пролапс — это опущение тазовых органов, вызванное слабостью

или повреждением нормальной поддержки тазового дна, которое в той или иной

степени может встречаться у 50% женщин [171]. Широкогеномные исследования

100

сцепления в родословных (genome-wide linkage study, GWLS) показали наличие ассоциаций генитального пролапса с участком хромосомы 9q21 в европейских семьях [158]. Вышеуказанные ассоциации были проверены в исследовании на примере российской популяции, и частоты аллелей были сопоставлены с частотами для 8 популяций из ресурса HapMap [172].

Ассоциативный анализ отдельных SNPs и гаплотипов 9q21 (Приложение В.2)

показал, что SNP rs 12237222 с самым высоким рейтингом RegulomeDB балл 1a для

некодирующих вариантов оказался ключевым SNP, ассоциированным с

генитальным пролапсом. Среди относительно небольшого числа высоко

функциональных SNPs с оценкой 1a во всем геноме человека, только один SNP с

оценкой 1a был найден в области 9q21. Это SNP rs 12237222. Используя 12 SNPs,

ассоциированных индивидуально или в составе гаплотипов с генитальным пролапсом

в европейских популяциях, мы исследовали структуру популяции из России и

популяций HapMap [172]. DAPC показал, что российская популяция не имеет

внутренней стратификации (Рисунок 4.4). Русская популяция была расположена

близко к другим европейским популяциям, CEU и TSI. Африканские популяции YRI

и LWK и азиатские CHD и JPT находились далеко от европейских популяций, а

популяции GIH и MEX занимали промежуточное положение (Рисунок 4.4а). Парные

значения Fst между исследованными популяциями соответствовали данным DAPC.

Самые низкие парные значения индекса дифференциации Fst (Fst = 0),

свидетельствующие о полном отсутствии изоляции между этими популяциями, были

выявлены для популяций CEU-RUS, TSI-RUS и CEU-TSI (Рисунок 4.4б). Популяции

RUS, CEI и TSI и относительно близкие к ним популяции GIH и MEX

характеризуются высокой распространенностью генитального пролапса [173-175].

Напротив, африканские и азиатские женщины, представленные в нашем

исследовании популяциями YRI, LWK, JPT и CHD, менее склонны к развитию

генитального пролапса [173, 174, 176]. Это частично может объясняться

анатомическими особенностями [177], но и этнические частоты генотипов изученных

101

SNPs могут вносить вклад в более высокую распространенность генитального пролапса у европеоидных женщин, женщин GIH и женщин MEX по сравнению с азиатскими и африканскими женщинами.

(а) (.: / ' /^V [ ' - As'-írt/cv Лл • • <• // • . k V ALL' j 'i * • • V \\ • i-

V • • -v \ Ш - \ • • \ • * * * . • \ ' * * ¿^v t.• i f r* •• / / Wf'jr: • Ы j. ».А:. • • "л/ * c \У/ ~ 1 y • • • ** • / * • /

(б)

Pops

CEU

CHD

GIH

JPT

TSI

YRI

RUS

МЕХ

CHD GIH JPT 0.11 0.03 0.08 0.05 0.01 0.03

TSI YRI RUS MEX LWK

0.00 0.16 0.00 0.02 0.17

0.13 0.20 0.11 0.07 0.18

0.04 0.15 0.03 0.02 0.13

0.08 0.17 0.07 0.05 0.16

0.17 0.00 0.03 0.16

0.15 0.11 0.01

0.03 0.16 0.10

CEU

CHD

GIH

IPT

TSI

YRI RUS МЕХ LWK

Рисунок 4.4 — Анализ популяционной структуры по 12 SNPs в популяции из России (RUS) и в других популяциях: европейских (CEU, жители штата Юта из Северной и Западной Европы и TSI, тосканцы из Италии), азиатских (CHD, китайцы из Денвера, Колорадо, и JPT, японцы из Токио), африканских (YRI, йоруба из Ибадана, Нигерия, и LWK, лухья из Вебуе, Кения) и коренных американских (GIH, индейцы гуджарати из Хьюстона, Техас, и MEX, мексиканские предки из Лос-Анджелеса, Калифорния). (а) Дискриминантный анализ главных компонент. (б) Парные значения Fst между

исследованными популяциями.

4.3.3. иКВ: тестирование портабельности фенотипического прогнозирования

между популяциями

Фенотипическое прогнозирование из генетических данных позволяет определить врожденную предрасположенность к фенотипу людей, наиболее подверженных заболеванию, тем самым идентифицировав группу риска, увеличивая

шансы ранной диагностики и начала терапии и снижая нагрузку на здравоохранение. Как было отмечено ранее, в литературе имеется много свидетельств того, что точность полигенных рисков падает при переносе на другую популяцию. В то же время про модели с индивидуальными данными известно меньше (в частности из-за того, что к индивидуальным данным сложнее получить доступ). С одной стороны, причины, по которым полигенные риски плохо работают на не "нативных" популяциях (например, различающиеся аллельные частоты, размеры эффектов, паттерны сцепления), влияют и на модели машинного обучения, использующие индивидуальные данные. С другой стороны, полигенные риски используют дополнительные соображения и приближения, которые не выполняются при переносе на другую популяцию, в то время как модели машинного обучения более агностичны. В этом разделе мы исследуем, как модель для предсказания роста, натренированная на индивидах из коренной британской популяции UK биобанка, работает на сэмплах из других популяций внутри этой же когорты.

Мы натренировали модель с L1-регуляризацией на 200 тысячах генетических вариантов 344 тысяч участников UK биобанка (более подробное описание модели и подготовки данных в "Материалах и методах" последней главы), определивших свое происхождение как "белые британцы". Затем эта модель была протестирована на примерно 7,5 тысячах участников ОКВ, определивших свое происхождение как "южноазиатское", и примерно таком же количестве участников, определивших свое происхождение как "афро-карибское" Для сравнения были также натренированы нативные модели на южноазиатских и афро-карибских участниках в Ю-ЮШб кросс-валидации, где на каждой из 10 итераций 8 фолдов использовались для тренировки модели, и один для валидации/выбора модели (выбор гиперпараметра регуляризации) и один для тестирования. Во избежание серьезного переобучения, вызванного маленькой тренировочной выборкой, до тренировки нативных моделей было предварительно проведено сокращение размерности: с помощью GWAS на тренировочной выборке были выбраны 10 тысяч самых значимых SNPs, которые

103

затем использовались в процессе тренировки. Важно отметить, что такой метод далеко не идеальный, т.к. GWAS для такого полигенного фенотипа, как рост, на маленькой выборке дает множество ложноположительных SNPs, как более подробно исследовано ниже. В то же время, было решено, что такая модель хорошо подойдет для сравнения с портируемой, т.к. не использует никакую внешнюю информацию. Также для сравнения использовалась линейная регрессия, также с кросс-валидацией, где в качестве независимых переменных использовались только ковариаты (биологический пол и возраст) и не использовалась генетическая информация.

Как видно из Рисунка 4.5, для обеих минорных ancestry groups портируемая модель показала результат лишь немного лучший (для лучшего значения регуляризационного гиперпараметра), чем модель, использующая только ковариаты, и значительно хуже, чем нативная модель. Можно отметить, что портируемая модель немного лучше работает на южноазиатской выборке, чем на афро-карибской (смотрим на разницу высшего значения кривой портируемой модели и только-ковариатной модели), что потенциально согласуется с фактом, что генетическое расстояние между белыми британцами и южноазиатской выборкой немного меньше, чем между белыми британцами и афро-карибской выборкой, но в обоих случаях портируемость очень низкая.

Интересно также сравнить, как выбранные с помощью GWAS SNPs зависят от количества сэмплов и популяции. Для этого с наиболее значимыми SNPs, отобранными на бело-британской выборке (344 тысячи сэмплов), было сравнено то же количество наиболее значимых SNPs, отобранных на подвыборках белой британской выборки разного размера, а также на южноазиатской и афро-карибской выборках, и посчитан процент совпадающих. Зависимость доли совпадающих SNPs от количества рассматриваемых наиболее значимых SNPs отображена на Рисунке 4.6.

Тренировка на белых британцах (200к 344к сэмплов), тест на афро-карибцах Тренировка на белых британцах (200к БЫРэ, 344к сэмплов), тест на южноазиатах Тренировка и тест на южноазиатах (10к б.Зк сэмплов)

— Только ковариаты на южноазиатах Тренировка и тест на афро-карибцах (10к БЫРэ, б.Зк сэмплов) Только ковариаты на афро-карибцах

0.5

1.0

1.5

Параметр регуляризации

2.0

2.5

3.0

Рисунок 4.5 — Точность портируемых 'Б -> поп-'Б моделей в сравнении с нативными поп-'Б моделями и поп-'Б моделями, обученных без генетических

данных. Портируемые модели обучены с разными значениями параметра, отвечающего за Ы-регуляризацию. Значения для нативных и только-ковариатных моделей - медианы на 10 фолдах кросс-валидации.

Важно отметить, что несовпадающие Б^Рб могут быть сцеплены, поэтому ложно-положительные попадания являются лишь часть несовпадений, а не всеми, при этом доля ложноположительных попаданий растет по мере уменьшения размера выборки. То, что на высоких значениях оси абсцисс кривые растут, является простым следствием увеличением вероятности случайного совпадения. Если сравнить долю совпадений южноазиатской, афро карибской выборок и бело-британской подвыборки того же размера, можно отметить значительное уменьшение количества совпадающих Б^Рб при смене популяции. Как и с точностью портируемой модели, южноазиатская выборка показывает немного более высокий результат, чем афро-карибская выборка, что также может быть вызвано немного большей генетической близостью к белой британской популяции.

Рисунок 4.6 — Доля общих БМРб с наиболее значимыми БМРб, выбранными с помощью GWAS на 344 тысячах белых британцев. По оси абсцисс показано количество выбранных наиболее значимых БМРб в логарифмическом масштабе.

Крайне маленькое пересечение наиболее значимых БМРб в бело-британской и южноазиатской/афрокарибской популяциях может свидетельствовать, что за генетическое влияние на рост в разных популяциях могут отвечать разные БМРб, что в свою очередь крайне негативно влияет на точность портируемой модели. Это же в разной степени верно и для других фенотипов и в целом показывает низкую эффективность портируемых моделей.

4.4. Модель для предсказания происхождения на данных проекта 1000 Геномов

Из предыдущего раздела можно сделать важный вывод: модель, хорошо

предсказывающая фенотип из генотипа на сэмплах из популяции, на которой она

обучалась, может плохо работать на сэмплах из другой популяции. Это известное

106

явление, также рассмотренное в Обзоре литературы. Причиной для него является эволюционный процесс, который происходил независимо в изолированных друг от друга популяциях. Под влиянием естественного отбора, отличных сред обитания и случайных событий разные популяции выработали разные аллельные частоты, величины эффектов генетических вариантов на фенотип и паттерны сцепления. В связи этим полигенные модели, такие как полигенные риски, плохо переносятся на другие популяции, поскольку вышеупомянутые факторы используются для тренировки моделей.

Как же решить эту проблему? Один из вариантов - это натренировать одну модель на различных датасетах, представляющих разные популяции, чтобы получить единую "глобальную" модель. Однако это сложно реализуемо, прогрессу в этом направлении посвящена последняя глава. Другой, более простой вариант - это натренировать несколько моделей на разных популяциях, затем для каждого входящего сэмпла сначала выбрать подходящую модель и затем использовать ее для предсказания фенотипа. Для выбора подходящей модели нужно уметь предсказывать популяцию сэмпла, эта же задача называется предсказанием происхождения (ancestry prediction).

Предсказание происхождения также используется генетическими компаниями как продукт, который позволяет их клиентам проливать свет на свою генеалогию. Несмотря на незначительную непосредственно научную ценность такой информации, это важная сфера применения таких моделей, поскольку она побуждает больше людей сдавать генетические тесты и увеличивает количество отсеквенированных человеческих геномов.

Человеческое происхождение как правило определяется на уровне популяций и суперпопуляций. Золотым стандартом и важным референсом в предсказании происхождения является датасет проекта "1000 Геномов" (1000 Genomes Project http://www.internationalgenome.org/). Этот датасет представляет собой полногеномные данные 2626 индивидов, принадлежащие 26 популяциям и пяти суперпопуляциям:

107

восточноазиатская (EAS), южноазиатская (SAS), европейская (EUR), африканская (AFR) и (нативно-)американская (AMR).

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.