Математические модели и анализ данных в популяционной геномике тема диссертации и автореферата по ВАК РФ 00.00.00, доктор наук Щур Владимир Львович

  • Щур Владимир Львович
  • доктор наукдоктор наук
  • 2023, ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 415
Щур Владимир Львович. Математические модели и анализ данных в популяционной геномике: дис. доктор наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики». 2023. 415 с.

Оглавление диссертации доктор наук Щур Владимир Львович

2.1.3 Обсуждение

2.2 Моделирование адаптивной интрогрессии

2.2.1 Адаптивная интрогрессия

2.2.2 Описание модели

2.2.3 Построение детерминированной приближенной модели

2.2.4 Частоты переходов между предковыми состояниями вдоль хромосомы

2.2.5 Численные результаты

2.2.6 Выводы

2.3 Метод предсказания адаптивной интрогрессии

2.4 Симулятор вирусных генеалогий VGsim

2.4.1 Модель и реализация

2.4.2 Результаты

2.5 Точность приближения структурированной коалесценции

с рекомбинацией моделью SMC'

2.6 Эффективный размер популяции и миграция

2.6.1 Действие миграции

2.6.2 Отделение эффекта миграции из эффективного размера популяции

2.6.3 Оценка параметров

2.7 Множественное примешивание и неравновесное сцепление

трех локусов

2.7.1 Неравновесное сцепление и локальное происхождение

2.8 Глубинное обучение для демографического анализа

2.9 Естественный отбор в чилийской популяции после постколумбова примешивания

2.10 Филодинамика коронавируса 8АИ8-СоУ-2 в России

2.10.1 Вспышка Соу1ё-19 в НИИ травматологии имени Вре-дена

2.10.2 Выводы

2.10.3 Филодинамика варианта дельта коронавируса БАИЙ-СоУ-2 в Москве

2.11 Гиперболическая геометрия и анализ генетических данных

3 Заключение

4 Список литературы

5 Приложения

Диссертационная работа выполнена в международной лаборатории статистической и вычислительной геномики в Национальном исследовательском университете «Высшая школа экономики».

Моим маме, папе, жене Елене и детям Василисе и Илюше

1 Введение

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Математические модели и анализ данных в популяционной геномике»

1.1 Актуальность

Геномика - новая междисциплинарная наука, возникшая на стыке генетики, математики и компьютерных наук. Популяционная и эволюционная генетика является одним из важных разделов в этой области. В связи с быстрым удешевлением технологий секвенирования и генотипи-рования появляется всё больше генетических данных, доступных для анализа, содержащих информацию о процессах развития популяций. Геномы содержат в себе информацию об истории и структуре популяции, об эволюционных факторах и механизмах естественного отбора. Например, за последние 15 лет из геномных данных получено множество новых данных об истории расселения человечества по Земле, примешивании древних людей (неандертальцев и денисовцев) к предкам современного человека, его адаптации к различным климатическим условиям и географическим территориям. С другой стороны, пандемия коронавируса 8АИ,8-СоУ-2 показала важность геномного эпидемиологического надзора в реальном времени. К ноябрю 2022 года в базе данных ОКАГО уже доступно около 13.5 миллионов образцов коронавируса. Эти данные позволяют отслеживать пути распространения, обнаруживать новые варианты вируса, изучать его эволюцию. Таким образом, разработка новых математических моделей и методов анализа генетических данных является актуальной и востребованной проблемой.

В диссертационной работе представлены теоретические результаты в области популяционной и эволюционной генетики, новые математические модели, разработаны методы анализа генетических данных, а также получены результаты анализа экспериментальных данных. Результаты работы расширяют арсенал методов для исследований в области популя-ционной и эволюционной генетики, позволяя выяснять более детальную и точную картину истории развития популяций, получать новые знания об эволюционных процессах и адаптации различных видов животных и вирусов. Разработанные модели и методы дают возможность оценивать из генетических данных такие основополагающие параметры как скорость миграции, пропорции примешивания (при однократных, пульсовых, миграциях), время разделения и примешивания популяций, силу естественного отбора. Новые алгоритмы и программное обеспечение отвечает требованиям современных и перспективных задач геномики,

требующих обработки большого объема данных. Например, разработанный нами метод М18Т1 [18*]1 позволяет одновременно оценивать время разделения популяций и скорости миграции, основываясь на оценках исторического эффективного размера популяций, полученных, например, методом РБИС [1]. Используя наш метод, мы оспорили результат [2] о глубоком разделении (260-350 тысяч лет назад) между африканскими популяциями бушменов и динка, получив нову^о оценку в ^^ 107 тысяч лет назад и односторонней миграцией из динка в бушменов, то есть примерно в 2.5 — 3.5 раза меньше, чем сообщалось ранее. Наши результаты также подтверждены проведенным нами компьютерным моделированием.

1.2 Степень разработанности

Представленные в работе теоретические и методологические результаты позволяют получать новые знания в области популяционной и эволюционной генетики и геномной эпидемиологии, которые невозможно было получить ранее существовавшими методами, а также закладывают основу для разработки новых, ещё более точных и эффективных методов.

Получены следующие теоретические результаты изучено число p-сестер в большой выборке из диплоидной популяции Райта-Фишера, изучено распределение длин участков хромосом при адаптивной интрогрес-сии, исследована точность приближения моделью SMC' структурированной коалесценции с рекомбинацией, формализовано и изучено понятие локального эффективного размера популяции, построена модель неравновесного сцепления трех локусов при примешивании двух популяций, исследована количественная задача квазиизометричности гиперболических пространств.

Благодаря этим теоретическим результатам разработаны методы, открывающие новые возможности для анализа экспериментальных генетических данных. Так, метод для предсказания адаптивной интрогрессии позволяет обнаружить один из важнейших механизмов адаптации популяций. Метод вычисления локального эффективного размера популяции и оценки скоростей миграции и времени разделения популяций и ме-

1 Здесь и далее звездочка означает публикации из списка, представленного соискателем к защите в разделе 1.9.

тод оценки времен множественного примешивания позволяют уточнить данные об истории развития популяций, в частности изучить процессы миграции в разных масштабах времени. Метод предсказания исторического размера популяции при помощи глубинного обучения имеет важное методологическое значение, открывая возможность в перспективе использовать глубинное обучение для полногеномного анализа ДНК. Это особенно актуально для задачах, в которых вероятностные методы вычислительно неэффективны. Новый метод компьютерного моделирования вирусных генеалогий позволяет генерировать датасеты размерами равными и превосходящими текущие экспериментальные данные геномов коронавируса 8АИ,8-СоУ-2. Разработанное ПО необходимо для вали-дации существующих и разрабатываемых методов обработки и анализа в области геномной эпидемиологии. Предложено примененять вариационные автокодировщики с евклидовым и гиперболическим латентными пространствами в качестве метода кластеризации и визуализации данных для популяционного анализа.

Проведен анализ экспериментальных данных: изучен естественный отбор у чилийцев после примешивания коренной, европейской и африканской популяции; оценено время разделения человеческих популяций, оспорен результат о глубоком времени разделения популяций бушменов и динка; изучена филодинамика коронавируса в НИИ им. Вре-дена (март-апрель 2020), клады АУ.122+ОИ,Е7а:Р45Ь дельта в Москве (апрель-сентябрь 2021).

1.3 Цели и задачи исследования

Целью исследования является разработка новых математических моделей, методов, алгоритмов и программного обеспечения для изучения популяционной и эволюционной истории из геномных последовательностей, а именно для изучения процессов разделения и примешивания популяций, определение адаптивных участков генома и силы естественного отбора, оценки изменений исторического размера популяции. Задачами исследования являются:

• Изучить число особей с р-сестрами в большой выборке из популяции.

• Построить математическую модель адаптивной интрогрессии для точного и эффективного вычисления распределения длин участков хромосом.

• Разработать метод для предсказания адаптивной интрогрессии на основе построенной математической модели.

• Разработать симулятор вирусных генеалогий, масштабируемый на реалистичные размеры выборок, полученных в течение пандемии.

• Исследовать точность приближения структурированной коалесцен-ции с рекомбинацией моделью SMC'.

• Разделить эффекты генетического дрейфа (локального эффективного размера популяции) и миграции, разработать метод для вычисления локального эффективного размера популяции из исторического эффективного размера популяции для представителей двух популяций, а также для оценки скоростей миграции и времени разделения популяций.

• Построить математическую теорию неравновесного сцепления трех локусов, разработать метод на основе этой теории для оценки времен множественного примешивания.

• Изучить естественный отбор в чилийской популяции после постколумбова примешивания.

• Разработать метод для предсказания изменений эффективного размера популяции при помощи глубинного обучения.

• Изучить филодинамику коронавируса SARS-CoV-2 в России.

• Разработать теорию и применить гиперболическую геометрию для анализа генетических данных в популяционной генетике.

1.4 Методы исследования

Методы исследования включают в себя использование и развитие попу-ляционных моделей (модель Райта-Фишера и её обобщения, коалесцент-ная модель, секвенциальная марковская коалесценция, компартментные эпидемиологические модели), вероятностные подходы, скрытая марковская модель, алгоритм Гиллеспи (включая приближенный алгоритм т-leaping), глубинное обучение и геометрические методы анализа данных. Программное обеспечение реализовано на языках Python и C/C+—+ (включая технологию cython). Также использовались существующие методы популяционной и эволюционной геномики: PSMC, Admixture, BEAST2. Для компьютерных вычислений использовался высокопроизводительный кластер НИУ ВШЭ.

1.5 Теоретическая и практическая значимость

Теоретическая значимость состоит в разработке математической теории в области популяционной и эволюционной генетики, в частности получены новые результаты для моделей Райта-Фишера и коалесцентной модели. Также было разработано несколько методов анализа данных и алгоритмов, использующих эти новые теоретические результаты. Были проанализированы экспериментальные данные при помощи новых и существующих методов, в частности получены новые знания об истории человеческой популяции, распространения коронавируса 8АИ,8-СоУ-2 в России. Практическая значимость состоит в разработке программного обеспечения, реализующего новые методы и алгоритмы анализа генетических данных и компьютерного моделирования популяций. Все разработанное программное обеспечение доступно в открытом доступе в ре-позиториях 01ШиЬ.

1.6 Результаты, выносимые на защиту

• О числе р-сестер в большой выборке из популяции [13*]. Выведена асимптотическая формула для математического ожидания доли особей в выборке размера K из популяции размера N, не имеющих р-сестер в этой выборке, при N ^ то and K/N = const. Формулы

получены для моногамной и для немоногамной диплоидных моделей Райта-Фишера. Показано, что для больших выборок, размер которых сопоставим с некоторыми масштабными исследованиями в области генетики, нельзя пренебрегать близкородственными связями. Результат важен при планировании, например, ОШАБ (полногеномный поиск ассоциаций) проектов с большими когортами.

• Математическая модель адаптивной интрогрессии [10*]. Разработана математическая модель адаптивной интрогрессии, где траектория частоты аллеля, находящегося под естественным отбором, моделируется при помощи детерминированной логистической кривой. Модель является вычислительно эффективной, при этом точна в широком диапазоне параметров адаптивной интрогрессии. Также показано, что этот диапазон можно расширить на случаи, где логистическое приближение неточно из-за генетического дрейфа, численно оценивая среднюю траекторию адаптивного аллеля. Модель позволила разработать два метода (метод вычисления распределения длин участков хромосом при адаптивной интрогрессии и метод предсказания адаптивной интрогрессии), что в свою очередь открывает новые возможности для изучения адаптации у различных видов животных, включая человека.

• Метод предсказания адаптивной интрогрессии [6*]. Теоретическая модель адаптивной интрогрессии легла в основу метода на основе скрытой марковской модели для поиска и оценки параметров адаптивной интрогрессии. При помощи компьютерного моделирования показано, что метод точен для многих реалистичных сценариев на датасетах среднего размера. Метод аппробирован на БгозорЫ1а melanogaster из Южной Африки, найдено 17 локусов со значимым уровнем отбора, из которых 4 локуса ранее были ассоциированы с устойчивостью к пестицидам. Ожидается, что разработанный метод будет широко востребован научным сообществом для обнаружения адаптационных процессов в популяциях различных видов животных.

• Симулятор вирусных генеалогий [2*]. Разработан программный пакет УОэт для моделирования эпидемий и возникающих при этом вирусных генеалогий. Функционал программного пакета включает

в себя моделирование эпидемиологических, эволюционных и попу-ляционных аспектов. Симуляция развития эпидемии основано на алгоритме Гиллеспи, симуляция генеалогий - на структурированной коалесценции, обусловленной эпидемиологической динамикой. Программный пакет является самым быстрым известным нам решением в области геномной эпидемиологии. Он позволяет симулировать генеалогии десятков миллионов образцов в сложных эпидемиологических сценариях, что превосходит текущие размеры базы GISAID. Это делает VGsim перспективным решением для валида-ции результатов анализа данных и новых методов анализа данных в геномной эпидемиологии.

• Точность приближения структурированной коалесценции с рекомбинацией моделью SMC' [1*] Исследована точность приближения коалесценции с рекомбинацией моделью SMC' в случае двух популяций с миграцией. Проанализирована полная вариация разности между совместными распределениями времен до общего предка двух локусов в моделях коалесценции с рекомбинацией и SMC' как функция от генетического расстояния между этими локусами. Показано, что для двух популяций с миграцией полная вариация убывает существенно медленнее, чем в случае однородной популяции. Это показывает, что при наличии структуры популяции, методы анализа данных, основанные на модели SMC', могут приводить к неверным результатам.

• Эффективный размер популяции и миграция [18*]. Формализовано понятие локального эффективного размера популяции для сценария с двумя популяциями и миграцией между ними. Изучено влияние миграции на оценку размера популяции методом PSMC. На основе разработанной математической теории разработан метод для вычисления локального эффективного размера популяции и для оценки времени разделения популяций и скоростей миграции между ними. Работа имеет важное методологическое значение для теории структурированной коалесценции, а также позволяет точно реконструировать историю потока генов между популяциями.

• Множественное примешивание и неравновесное сцепление трех локусов [8*]. Построена математическая теория неравновесного сцепления трех генетических локусов при примешивании популяций. На

его основе были разработаны метод и программное обеспечение для оценки времен примешивания между двумя популяциями при двух пульсах миграции. Разработанный метод позволяет точно исследовать недавнюю (в пределах нескольких десятков поколений) историю примешивания популяций в сложных сценариях, для которых существовавшие ранее методы были неприменимы или неточны.

• Естественный отбор в чилийской популяции после пост-колумбова примешивания [11*]. При помощи компьютерного моделирования проверены результаты поиска естественного отбора после перемешивания коренного населения, европейцев и африканцев в Чили на основе предсказания локального происхождения. Показана состоятельность выбранного статистического критерия для поиска участков генома, находящихся под естественным отбором. Это позволило успешно и достоверно исследовать адаптационные процессы в современной чилийской популяции.

• Глубинное обучение для демографического анализа [4*, 3*]. Разработан метод на основе глубинного обучения для предсказания локальных времен до общего предка вдоль диплоидного генома. Метод может быть использован также для предсказания траектории эффективного размера популяций аналогично методу РБМС [1]. Работа имеет важное методологическое значение для дальнейшего развития методов глубинного обучения для анализа полногеномных последовательностей.

• Филодинамика коронавируса БАКБ-СоУ-2 в России [9*, 7*]. Проведен байесовский филодинамический анализ вспышки Соу1^19 в НИИ травматологии им. Вредена (Санкт Петербург) в марте-апреле 2020 года, а также клады (АУ.122+ОИ,Е7а:Р45Ь) варианта дельта в апреле-сентябре 2021 года в Москве с использованием программного пакета БЕАБТ2. В первом исследовании показано, что внутрибольничная вспышка явилась результатом не менее двух, вероятно, трех заносов коронавируса в больницу. Во втором исследовании независимо от эпидемиологических данных подтверждено, что основная клада (АУ.122+ОИ,Е7а:Р45Ь) ответственна за летнюю эпидемическую волну в 2021 году, и, вероятно, за последовавшую осеннюю волну. Результаты дают объективную картину распространения коронавируса 8АИ,8-СоУ-2 в России, что важно

при анализе принимаемых эпидемиологических мер при борьбе с пандемий.

• Гиперболическая геометрия и анализ генетических данных [14*17*]. Поставлена и исследована численная задача квазиизометрич-ности гиперболических пространств. Рассмотрено применение вариационных автокодировщиков с гиперболическим латентным пространством для задачи визуализации генетического разнообразия популяций (аналогично методу главных компонент). Эти результаты имеют как фундаментальную математическую значимость, так и открывают возможность для разработки и применения принципиально новых подходов в популяционной генетике.

1.7 Новизна и достоверность

Все научные результаты, выносимые на защиту, являются новыми. Предложена новая математическая модель для распределения длин участков хромосом при адаптивной интрогрессии. Предложены новые методы для предсказания адаптивной интрогрессии, компьютерного моделирования вирусных генеалогий, оценке времени разделения и скоростей миграции между популяциями, оценке времен множественного примешивания из неравновесного сцепления трех локусов, оценке исторического эффективного размера популяции при помощи глубинного обучения. При помощи этих и существующих методов решены следующие задачи: оценены времена разделения между человеческими популяциями и оспорен результатат о глубоком времени разделения между африканскими популяциями бушменов и динка, оценены времена примешивания при формировании современных популяций мексиканцев и колумбийцев, изучена адаптация у чилийцев после пост-колумбова примешивания, изучена филодинамика коронавируса SARS-CoV-2 в России.

Достоверность результатов обосновывается тем, что все результаты, выносимые на защиту, опубликованы в ведущих рецензируемых научных журналах, индексируемых в научных базах Web of Sciences и Scopus с квартилями Q1 - 13 статей, Q3 - 2 статьи, из них 3 статьи опубликованы в журналах из списка Nature Index. Программные коды опубликованы в репозиториях GitHub, как 7 программных комплексов.

1.8 Апробация полученных результатов

Основные результаты диссертации докладывались на следующих международных конференциях и семинарах:

• Estimating the timing of multiple admixture events using 3-locus Linkage Disequilibrium, конференция Moscow Conference on Computational Molecular Biology (MCCMB'21), июль 2021, Москва, Россия.

• Deep learning for demographic inference from whole-genome sequences, конференция Moscow Conference on Computational Molecular Biology (MCCMB'21), июль 2021, Москва, Россия.

• ngsPSMC: genotype likelihood-based PSMC for analysis of low coverage NGS data, конференция Probabilistic Modeling in Genomics, октябрь 2019, Оссуа, Франция.

• ngsPSMC: genotype likelihood-based PSMC for analysis of low coverage NGS data, конференция Moscow Conference on Computational Molecular Biology (MCCMB'19), июль 2019, Москва, Россия.

• Estimation of population split times and migration rates with variable population sizes, конференция Probabilistic Modeling In Genomics, октябрь 2018, Колд Спринг, США.

• ngsPSMC: modifying PSMC to work with NGS data", UCCGC workshop, 15-18 августа 2017, Blue Oak Ranch Reserve, США.

• Tree consistent PBWTs and their application to reconstructing ancestral recombination graphs and demographic inference, конференция Probabilistic Modeling in Genomics, октябрь 12-17 2015, Колд Спринг, США.

• Tree consistent PBWT and their application to reconstructing Ancestral Recombination Graphs and demographic inference, Recomb 2015, Варшава, Польша. Best poster award.

• On modern problems and methods for data analysis in human genomics, Computer Simulation in Physics and beyond 2015, Москва, Россия, пленарный доклад

• Tree consistent PBWT and their application to reconstructing ancestral recombination graphs and population structure inference, Biology of Genomes, 10-14 мая 2015, Колд Спринг, США

• Extension of PBWT and its connection with ARG, конференция International meeting on genomics, апрель 2014, Доха, Катар.

1.9 Список статей, представленных к защите по теме диссертации (с указанием личного вклада соискателя)

Работы, опубликованные автором в рецензируемых научных изданиях, входящих в международную систему цитирования Scopus

1.* Shchur V. Accuracy of the SMC' approximation of structured coalescent // Lobachevskii journal of mathematics 43(12) (2022), pp. 3626-3630

Исследована модель SMC', аппроксимирующая коалесценцию с рекомбинацией для случая двух популяций с миграцией. Показано, что полная вариация между совместным распределением времени до ближайшего общего предка в двух локусах с ростом генетического расстояния между локусами убывает существенно медленнее, чем в случае однородной популяции.

2.* Shchur V., Spirin V., Burovski E., De Maio N., Corbett-Detig R. VGsim: scalable viral genealogy simulator for global pandemic // PLoS Computational Biology. 18(8) (2022), e1010409.

https://journals.plos.org/ploscompbiol/article?id=10.1371/ journal.pcbi.1010409

Разработан симулятор вирусных генеалогий VGsim, являющийся самым быстрым решением в своей области. Разработаны математическая модель, программно реализован алгоритм, а также руководство всеми стадиями исследования и разработки остальных частей

ПО.

3.* Arzymatov K., Khomutov E., Shchur V. Deep learning for inferring distribution of time to the last common ancestor from a diploid genome // Lobachevskii Journal of Mathematics 43(8) (2022) pp. 2092-2098.

https://doi.org/10.1134/S1995080222110075

Предложен и исследован метод предсказания локальных времен до общего предка вдоль генома, а также их частного вероятностного распределения, при помощи глубинного обучения.

4.* Khomutov E., Arzymatov K., Shchur V. Deep learning based methods for estimating distribution of coalescence rates from genome-wide data // Journal of Physics: Conference Series 1740 (2021). 012031.

https://iopscience.iop.org/article/10.1088/1742-6596/1740 /1/012031

Предложен прототип метода предсказания локальных времен до общего предка вдоль генома.

5.* Jin Y., Brandt D. Y., Li J., Wo Y., Tong H., Shchur V. Elevation as a selective force on mitochondrial respiratory chain complexes of the Phrynocephalus lizards in the Tibetan plateau // Current Zoology 67(2) (2021), pp. 191-199.

https://academic.oup.com/cz/article/67Z2/191/5909995

Выполнен пермутационный анализ для изучения параллельной высотной адаптации у ящериц Phrynocephalus Тибетского плато.

6.* Svedberg J., Shchur V., Reinman S., Nielsen R., Corbett-Detig R. Inferring Adaptive Introgression Using Hidden Markov Models // Molecular Biology and Evolution 38(5) (2021), pp. 2152-2165.

https://academic.oup.com/mbe/article/38/5/2152/6120794

Разработана скрытая марковская модель для адаптивной интро-грессии. Предложен подход для приближенного быстрого вычисления переходных вероятностей вблизи адаптивного локуса.

7.* Klink G. V., Safina K. R., Nabieva E., Shvyrev N., Garushyants S., Alekseeva E., Komissarov A. B., Danilenko D. M., Pochtovyi A. A., Divisenko E. V., Vasilchenko L. A., Shidlovskaya E. V., Kuznetsova N. A., Speranskaya A. S., Samoilov A. E., Neverov A. D., Popova A. V., Fedonin G. G., Akimkin V. G., Lioznov D., Gushchin V. A., Shchur V., Bazykin G. A. The rise and spread of the SARS-CoV-2 AY.122 lineage in Russia // Virus Evolution 8 (2022), pp. 1-11.

https://academic.oup.com/ve/article/8/1/veac017/6542789

Проведен филодинамический анализ клады Y.122ORF7a:P45L варианта коронавируса в Москве в апреле-сентябре 2021 года.

8.* Liang M., Shishkin M., Mikhailova A., Shchur V., Nielsen R. Estimating the timing of multiple admixture events using 3-locus Linkage Disequilibrium // PLOS Genetics 18(7) (2022), e1010281.

https://journals.plos.org/plosgenetics/article?id=10.1371/ journal.pgen.1010281

Разработана математическая модель неравновесного сцепления примешивания трех локусов для двух популяций.

9.* Komissarov A. B., Safina K. R., Garushyants S. K., Fadeev A. V., Sergeeva M. V., Ivanova A. A., Danilenko D. M., Lioznov D., Shneider O. V., Shvyrev N., Spirin V., Glyzin D., Shchur V., Bazykin G. A. Genomic epidemiology of the early stages of the SARS-CoV-2 outbreak in Russia // Nature Communications 12 (2021), pp. 1-13.

https://www.nature.com/articles/s41467-020-20880-z

Проведен филодинамический анализ внутрибольничной вспышки коронавируса SARS-CoV-2 в НИИ травматологии им. Вредена в марте-апреля 2020 года.

10.* Shchur V., Svedberg J., Medina P., Corbett-Detig R., Nielsen R. On the Distribution of Tract Lengths During Adaptive Introgression // G3: Genes, Genomes, Genetics 10(10) (2020), pp. 3663-3673.

https://academic.oup.com/g3journal/article/10/10/3663/6053 540

Построена математическая модель для примешанных участков генома при адаптивной интрогрессии на основе коалесцентной теории и приближения траектории частоты аллеля под отбором детерминированной логистической кривой.

11.* Vicuna L., Klimenkova O., Norambuena T., Martinez F. I., Fernandez M. I., Shchur V., Eyheramendy S. Post-Admixture Selection on Chileans Targets Haplotype Involved in Pigmentation, Thermogenesis and Immune Defense Against Pathogens // Genome Biology and Evolution 12(8) (2020), pp. 1459-1470.

https://academic.oup.cOm/gbe/article/12/8/1459/5866553

При помощи компьютерного моделирования проведена верификация статистического метода для поиска генов под отбором в чилийской популяции после примешивания.

12.* Skov L., Hui R., Shchur V., Hobolth A., Scally A., Schierup M. H., Durbin R. Detecting archaic introgression using an unadmixed outgroup // PLoS Genetics 14 (2018), pp. 1-15.

https://journals.plos.org/plosgenetics/article?id=10.1371/ journal.pgen.1007641

Предложена архитектура скрытой марковской модели для определения сегментов древнего происхождения при помощи внешней популяции без примешивания. Эта архитектура позволила обнаружить сегменты неандертальской и денисовской ДНК в представителях Папуа Новая Гвинея с высокой точностью.

13.* Shchur V., Nielsen R. On the number of siblings and p-th cousins in a large population sample // Journal of Mathematical Biology 77(5) (2018), pp. 1279-1298.

https://link.springer.com/article/10.1007/s00285-018-125 2-8

Выведены формулы для математического ожидания числа особей без р-сестер в выборке из популяций в моногамной и немоногамной моделях Райта-Фишера, а также найдено асимптотическое поведение в зависимости от доли выборки от размера N популяции при N ^ то.

14.* Gouezel S., Shchur V. A corrected quantitative version of the Morse lemma // Journal of Functional Analysis. 277(4) (2019), pp. 12581268. https://www.sciencedirect.com/science/article/pii/S0 022123619300801

Исправлено доказательство количественной версии леммы Морса о расстоянии от квазигеодезического до геодезическго сегмента в гиперболическом пространстве.

15.* Shchur V. On the quantitative quasi-isometry problem,: Transport of Poincare inequalities and different types of quasi-isometric distortion

growth // Journal of Functional Analysis. 269(10) (2015), pp. 31473194.

https://www.sciencedirect.com/science/article/pii/S0022123 615003699

Исследованы количественные свойства квазиизометрий: рассмотрен перенос неравенств Пуанкаре, получены точные оценки роста квазиизометрического искажения для некоторого класса гипербои-ческих метрических пространств. Также доказана линейность роста квазиизометрического искажения между гиперболическим пространством Hn и бинарным деревом.

16.* Shchur V. A quantitative version of the Morse lemma and quasi-isome-tries fixing the ideal boundary // Journal of Functional Analysis. 264(3) (2013), pp. 815-836.

https://www.sciencedirect.com/science/article/pii/S0022123 61200434X

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования доктор наук Щур Владимир Львович, 2023 год

4 Список литературы

[1] Li H, Durbin R. Inference of human population history from individual whole-genome sequences. Nature. 2011 7;475(7357):493-6. Available from: http://www.nature.com/articles/nature10231.

[2] Schlebusch CM, Malmstrom H, Gunter T, Sjodin P, Coutinho A, Edlund H, et al. Southern African ancient genomes estimate modern human divergence to 350,000 to 260,000 years ago. Science. 2017;358:652-5.

[3] Moltke I, Fumagalli M, Korneliussen T, Crawford J, Bjerregaard P, J0rgensen M, et al. Uncovering the Genetic History of the Present-Day Greenlandic Population. The American Journal of Human Genetics. 2015;96(1):54-69. Available from: https://www.sciencedirect.com/ science/article/pii/S0002929714004789.

[4] Henn BM, Hon L, Macpherson JM, Eriksson N, Saxonov S, Pe'er I, et al. Cryptic Distant Relatives Are Common in Both Isolated and Cosmopolitan Genetic Samples. PLOS ONE. 2012 04;7(4):1-13. Available from: https://doi.org/10.1371/journal.pone.0034267.

[5] Visscher PM, Andrew T, Nyholt DR. Genome-wide association studies of quantitative traits with related individuals: little (power) lost but much to be gained. European Journal of Human Genetics. 2008;16(3):387-90. Available from: https : //doi . org/10.1038/sj .e jhg.5201990.

[6] Comtet L. Advanced Combinatorics. Springer Netherlands; 1974. Available from: https://doi.org/10.1007%2F978-94-010-2196-8.

[7] Hedrick PW. Adaptive introgression in animals: examples and comparison to new mutation and standing variation as sources of adaptive variation. Molecular Ecology. 2013;22(18):4606-18. Available from: https://onlinelibrary.wiley.com/doi/abs/10.1111/mec. 12415.

[8] Racimo F, Sankararaman S, Nielsen R, Huerta-Sanchez E. Evidence for archaic adaptive introgression in humans. Nature Reviews Genetics. 2015;16(6):359-71. Available from: https://doi.org/10.1038/nrg3 936.

[9] Suarez-Gonzalez A, Lexer C, Cronk QCB. Adaptive introgression: a plant perspective. Biology Letters. 2018;14(3):20170688. Available from: https://royalsocietypublishing.org/doi/abs/10.1098 /rsbl.2017.0688.

[10] Song Y, Endepols S, Klemann N, Richter D, Matuschka FR, Shih CH, et al. Adaptive Introgression of Anticoagulant Rodent Poison Resistance by Hybridization between Old World Mice. Current Biology. 2011;21(15):1296-301. Available from: https://www.sciencedirect. com/science/article/pii/S0960982211007160.

[11] Norris LC, Main BJ, Lee Y, Collier TC, Fofana A, Cornel AJ, et al. Adaptive introgression in an African malaria mosquito coincident with the increased usage of insecticide-treated bed nets. Proceedings of the National Academy of Sciences. 2015;112(3):815-20. Available from: https://www.pnas.org/doi/abs/10.1073/pnas.1418892112.

[12] Huerta-Sánchez E, Jin X, Asan, Bianba Z, Peter BM, Vinckenbosch N, et al. Altitude adaptation in Tibetans caused by introgression of Denisovan-like DNA. Nature. 2014;512(7513):194-7. Available from: https://doi.org/10.1038/nature13408.

[13] Jeong C, Alkorta-Aranburu G, Basnyat B, Neupane M, Witonsky DB, Pritchard JK, et al. Admixture facilitates genetic adaptations to high altitude in Tibet. Nature Communications. 2014;5(1):3281. Available from: https://doi .org/10.1038/ncomms4281.

[14] Gower G, Picazo PI, Fumagalli M, Racimo F. Detecting adaptive introgression in human evolution using convolutional neural networks.

eLife. 2021 may;10:e64669. Available from: https://doi.org/10.755 4/eLife.64669.

[15] Setter D, Mousset S, Cheng X, Nielsen R, DeGiorgio M, Hermisson J. VolcanoFinder: Genomic scans for adaptive introgression. PLOS Genetics. 2020 06;16(6):1-44. Available from: https://doi.org/10.1 371/journal.pgen.1008867.

[16] Thomson G. The effect of a selected locus on linked neutral loci. Genetics. 1977 Apr;85(4):753-88. 863244[pmid]. Available from: https: //www.ncbi.nlm.nih.gov/pubmed/863244.

[17] Gravel S. Population Genetics Models of Local Ancestry. Genetics. 2012;191(2):607-19. Available from: https://www.genetics.org/con tent/191/2/607.

[18] Corbett-Detig R, Nielsen R. A Hidden Markov Model Approach for Simultaneously Estimating Local Ancestry and Admixture Time Using Next Generation Sequence Data in Samples of Arbitrary Ploidy. PLOS Genetics. 2017 01;13(1):1-40. Available from: https://doi.org/10.1 371/journal.pgen.1006529.

[19] Kaplan NL, Hudson RR, Langley CH. The "hitchhiking effect"revisited. Genetics. 1989;123(4):887-99. Available from: https: //www.genetics.org/content/123/4/887.

[20] Smith JM. What use is sex? Journal of Theoretical Biology. 1971;30(2):319 335. Available from: http ://www. sciencedirect. com/science/article/pii/0022519371900580.

[21] Messer PW, Neher RA. Estimating the Strength of Selective Sweeps from Deep Population Diversity Data. Genetics. 2012;191(2):593-605. Available from: https://www.genetics.org/content/191Z2/593.

[22] Weiss P. L'hypothese du champ moleculaire et la propriete ferromagnetique. J de Phys. 1907;6:661-90.

[23] Kermack William Ogilvy MAG, Thomas WG. Thomas A contribution to the mathematical theory of epidemics. Proceedings of Royal Society A. 1927;115:700 721.

[24] Durrett R, Schweinsberg J. Approximating selective sweeps. Theoretical Population Biology. 2004;66(2):129 138. Available from: http ://www.sciencedirect.com/science/article/pii/S0040580 904000607.

[25] McVean GAT, Cardin NJ. Approximating the coalescent with recombination. Philosophical Transactions of the Royal Society B: Biological Sciences. 2005;360(1459):1387-93. Available from: https:// royalsocietypublishing.org/doi/abs/10.1098/rstb.2005.1673.

[26] Marjoram P, Wall JD. Fast "coalescent"simulation. BMC Genetics. 2006;7(1):16. Available from: https://doi.org/10.1186/1471-215 6-7-16.

[27] Jones E, Oliphant T, Peterson P. SciPy: Open Source Scientific Tools for Python. 2001 01.

[28] Hindmarsh AC. ODEPACK, A Systematized Collection of ODE Solvers. Scientific Computing. 1983:55 64.

[29] Liang M, Nielsen R. The Lengths of Admixture Tracts. Genetics. 2014;197(3):953-67. Available from: https://www.genetics.org/con tent/197/3/953.

[30] Corbett-Detig R, Jones M. SELAM: simulation of epistasis and local adaptation during admixture with mate choice. Bioinformatics. 2016 06;32(19):3035-7. Available from: https://doi.org/10.1093/bioinf ormatics/btw365.

[31] Muhlfeld C, Kovach R, Jones L, Al-Chokhachy R, Boyer M, Leary R, et al. Invasive hybridization in a threatened species is accelerated by climate change. Nature Climate Change. 2014 07;4:620-4.

[32] Hodcroft EB, De Maio N, Lanfear R, MacCannell DR, Minh BQ, Schmidt HA, et al.. Want to track pandemic variants faster? Fix the bioinformatics bottleneck. Nature Publishing Group; 2021.

[33] Gonzalez-Reiche AS, Hernandez MM, Sullivan MJ, Ciferri B, Alshammary H, Obla A, et al. Introductions and early spread of SARS-CoV-2 in the New York City area. Science. 2020;369(6501):297-301.

Available from: https://science.sciencemag.Org/content/369/6 501/297.

[34] Nadeau SA, Vaughan TG, Scire J, Huisman JS, Stadler T. The origin and early spread of SARS-CoV-2 in Europe. Proceedings of the National Academy of Sciences. 2021;118(9). Available from: https://www.pnas.Org/content/118/9/e2012008118.

[35] Ladner JT, Larsen BB, Bowers JR, Hepp CM, Bolyen E, Folkerts M, et al. An Early Pandemic Analysis of SARS-CoV-2 Population Structure and Dynamics in Arizona. mBio. 2020;11(5). Available from: https://mbio.asm.org/content/11/5/e02107-20.

[36] Komissarov AB, Safina KR, Garushyants SK, Fadeev AV, Sergeeva MV, Ivanova AA, et al. Genomic epidemiology of the early stages of the SARS-CoV-2 outbreak in Russia. Nature Communications. 2021 Jan;12(1):649. Available from: https://doi.org/10.1038/s41467-0 20-20880-z.

[37] Lycett SJ, Hughes J, McHugh MP, da Silva Filipe A, Dewar R, Lu L, et al. Epidemic waves of COVID-19 in Scotland: a genomic perspective on the impact of the introduction and relaxation of lockdown on SARS-CoV-2. medRxiv. 2021. Available from: https://www.medrxiv.org/ content/early/2021/01/20/2021.01.08.20248677.

[38] Tegally H, Wilkinson E, Lessells RJ, Giandhari J, Pillay S, Msomi N, et al. Sixteen novel lineages of SARS-CoV-2 in South Africa. Nature Medicine. 2021 Mar;27(3):440-6. Available from: https://doi.org/ 10.1038/s41591-021-01255-3.

[39] Garcia-Beltran WF, Lam EC, St Denis K, Nitido AD, Garcia ZH, Hauser BM, et al. Multiple SARS-CoV-2 variants escape neutralization by vaccine-induced humoral immunity. Cell. 2021. Available from: https://www.sciencedirect.com/science/article/pii/S0092867 421002981.

[40] Burioni R, Topol EJ. Assessing the human immune response to SARS-CoV-2 variants. Nature Medicine. 2021 Apr;27(4):571-2. Available from: https://doi.org/10.1038/s41591-021-01290-0.

[41] Zeng HL, Dichio V, Rodriguez Horta E, Thorell K, Aurell E. Global analysis of more than 50,000 SARS-CoV-2 genomes reveals epistasis between eight viral genes. Proceedings of the National Academy of Sciences. 2020;117(49):31519-26. Available from: https://www.pnas .org/content/117/49/31519.

[42] Rochman ND, Wolf YI, Faure G, Mutz P, Zhang F, Koonin EV. Ongoing global and regional adaptive evolution of SARS-CoV-2. Proceedings of the National Academy of Sciences. 2021;118(29). Available from: https://www.pnas.org/content/118/29/e21042 41118.

[43] Kelleher J, Etheridge AM, McVean G. Efficient Coalescent Simulation and Genealogical Analysis for Large Sample Sizes. PLOS Computational Biology. 2016 05;12(5):1-22. Available from: https: //doi.org/10.1371/journal.pcbi.1004842.

[44] Durbin R. Efficient haplotype matching and storage using the positional Burrows-Wheeler transform (PBWT). Bioinformatics. 2014 01;30(9):1266-72. Available from: https://doi.org/10.1093/bioinf ormatics/btu014.

[45] Shchur V, Ziganurova L, Durbin R. Fast and scalable genome-wide inference of local tree topologies from large number of haplotypes based on tree consistent PBWT data structure. bioRxiv. 2019. Available from: https://www.biorxiv.org/content/early/2019/02/06/542035.

[46] Kelleher J, Wong Y, Wohns AW, Fadil C, Albers PK, McVean G. Inferring whole-genome histories in large population datasets. Nature Genetics. 2019 Sep;51(9):1330-8. Available from: https://doi.org/ 10.1038/s41588-019-0483-y.

[47] Kingman JFC. On the genealogy of large populations. Journal of Applied Probability. 1982;19(A):27-43.

[48] Fisher RA, Russell EJ. On the mathematical foundations of theoretical statistics. Philosophical Transactions of the Royal Society of London Series A, Containing Papers of a Mathematical or Physical Character. 1922;222(594-604):309-68. Available from: https://royalsocietypu blishing.org/doi/abs/10.1098/rsta.1922.0009.

[49] Wright S. EVOLUTION IN MENDELIAN POPULATIONS. Genetics. 1931;16(2):97-159. Available from: https://www.genetics.org/con tent/16/2/97.

[50] Li N, Stephens M. Modeling Linkage Disequilibrium and Identifying Recombination Hotspots Using Single-Nucleotide Polymorphism Data. Genetics. 2003;165(4):2213-33. Available from: https://www.geneti cs.org/content/165/4/2213.

[51] Turakhia Y, Thornlow B, Hinrichs AS, De Maio N, Gozashti L, Lanfear R, et al. Ultrafast Sample placement on Existing tRees (UShER) enables real-time phylogenetics for the SARS-CoV-2 pandemic. Nature Genetics. 2021 Jun;53(6):809-16. Available from: https://doi.org/ 10.1038/s41588-021-00862-7.

[52] McBroome J, Thornlow B, Hinrichs AS, De Maio N, Goldman N, Haussler D, et al. matUtils: Tools to Interpret and Manipulate Mutation Annotated Trees. bioRxiv. 2021. Available from: https://ww w.biorxiv.org/content/early/2021/04/04/2021.04.03.438321.

[53] De Maio N, Weilguny L, Walker CR, Turakhia Y, Corbett-Detig R, Goldman N. phastSim: efficient simulation of sequence evolution for pandemic-scale datasets. bioRxiv. 2021. Available from: https://ww w.biorxiv.org/content/early/2021/03/16/2021.03.15.435416.

[54] Gillespie DT. Stochastic Simulation of Chemical Kinetics. Annual Review of Physical Chemistry. 2007;58(1):35-55. PMID: 17037977. Available from: https ://doi .org/10 . 1146/annurev. physchem .5 8.032806.104637.

[55] Cao Y, Gillespie DT, Petzold LR. Efficient step size selection for the tau-leaping simulation method. The Journal of Chemical Physics. 2006;124(4):044109. Available from: https://doi.org/10.1063/1.21 59468.

[56] Behnel S, Bradshaw R, Citro C, Dalcin L, Seljebotn DS, Smith K. Cython: The best of both worlds. Computing in Science & Engineering. 2011;13(2):31-9.

[57] Vaughan TG, Drummond AJ. A Stochastic Simulator of Birth-Death Master Equations with Application to Phylodynamics. Molecular

Biology and Evolution. 2013 03;30(6):1480-93. Available from: https: //doi.org/10.1093/molbev/mst057.

[58] Bouckaert R, Vaughan TG, Barido-Sottani J, Duchene S, Fourment M, Gavryushkina A, et al. BEAST 2.5: An advanced software platform for Bayesian evolutionary analysis. PLOS Computational Biology. 2019 04;15(4):1-28. Available from: https://doi.org/10.1371/journal. pcbi.1006650.

[59] Kuhnert D, Stadler T, Vaughan TG, Drummond AJ. Phylodynamics with Migration: A Computational Framework to Quantify Population Structure from Genomic Data. Molecular Biology and Evolution. 2016 04;33(8):2102-16. Available from: https://doi.org/10.1093/molbev /msw064.

[60] Poon AFY. Impacts and shortcomings of genetic clustering methods for infectious disease outbreaks. Virus Evolution. 2016 12;2(2). Vew031. Available from: https://doi.org/10.1093/ve/vew031.

[61] Volz EM, Didelot X. Modeling the Growth and Decline of Pathogen Effective Population Size Provides Insight into Epidemic Dynamics and Drivers of Antimicrobial Resistance. Systematic Biology. 2018 02;67(4):719-28. Available from: https://doi.org/10.1093/sysb io/syy007.

[62] Poon AFY. Phylodynamic Inference with Kernel ABC and Its Application to HIV Epidemiology. Molecular Biology and Evolution. 2015 05;32(9):2483-95. Available from: https://doi.org/10.1093/mo lbev/msv123.

[63] Danesh G, Saulnier E, Gascuel O, Choisy M, Alizon S. Simulating trajectories and phylogenies from population dynamics models with TiPS. bioRxiv. 2020. Available from: https://www.biorxiv.org/co ntent/early/2020/11/09/2020.11.09.373795.

[64] Kostenetskiy PS, Chulkevich RA, Kozyrev VI. HPC Resources of the Higher School of Economics. Journal of Physics: Conference Series. 2021 jan;1740:012050. Available from: https://doi.org/10.1088/17 42-6596/1740/1/012050.

[65] Wilton PR, Carmi S, Hobolth A. The SMC' Is a Highly Accurate Approximation to the Ancestral Recombination Graph. Genetics. 2015 03;200(1):343-55. Available from: https://doi.org/10.1534/geneti cs.114.173898.

[66] Li H, Durbin R. Inference of human population history from individual whole-genome sequences. Nature. 2011 Jul;475(7357):493-6. Available from: https://doi .org/10.1038/nature10231.

[67] Schiffels S, Durbin R. Inferring human population size and separation history from multiple genome sequences. Nature genetics. 2014;46(8):919-25. Available from: http://dx.doi.org/10.1038/ng. 3015.

[68] Wakeley J, Sargsyan O. Extensions of the coalescent effective population size. Genetics. 2009 1;181(1):341-5. Available from: http: //www.ncbi.nlm.nih.gov/pubmed/19001293http://www.pubmedce ntral.nih.gov/articlerender.fcgi?artid=PMC2621185.

[69] Spence JP, Steinracken M, Terhorst J, Song YS. Inference of population history using coalescent HMMs: review and outlook. Current Opinion in Genetics and Development. 2018;53:70-6.

[70] Griffiths RC. The number of heterozygous loci between two randomly chosen completely linked sequences of loci in two subdivided population models. Journal of Mathematical Biology. 1981;12(2):251-61. Available from: https://doi .org/10.1007/BF00276133.

[71] Slatkin M. Gene Flow and the Geographic Structure of Natural Populations. Science. 1987;236(4803):787-92. Available from: https: //www.science.org/doi/abs/10.1126/science.3576198.

[72] Notohara M. The coalescent and the genealogical process in geographically structured population. Journal of Mathematical Biology. 1990;29(1):59-75. Available from: https://doi.org/10-1 007/BF00173909.

[73] Wilkinson-Herbots HM. Genealogy and subpopulation differentiation under various models of population structure. Journal of Mathematical Biology. 1998;37(6):535-85. Available from: https://doi.org/10.100 7/s002850050140.

[74] Hudson RR. Generating samples under a Wright-Fisher neutral model of genetic variation. Bioinformatics. 2002;18(2):337-8. Available from: https://academic.oup.com/bioinformatics/article-lookup/do i/10.1093/bioinformatics/18.2.337.

[75] Reich D, Thangaraj K, Patterson N, Price AL, Singh L. Reconstructing Indian population history. Nature. 2009;461(7263):489-94.

[76] Patterson N, Moorjani P, Luo Y, Mallick S, Rohland N, Zhan Y, et al. Ancient admixture in human history. Genetics. 2012 Nov;192(3):1065-93.

[77] Durand EY, Patterson N, Reich D, Slatkin M. Testing for ancient admixture between closely related populations. Mol Biol Evol. 2011 Aug;28(8):2239-52.

[78] Pritchard JK, Stephens M, Donnelly P. Inference of population structure using multilocus genotype data. Genetics. 2000;155(2):945-59.

[79] Alexander DH, Novembre J, Lange K. Fast model-based estimation of ancestry in unrelated individuals. Genome Research. 2009;19(9):1655-64.

[80] Maples BK, Gravel S, Kenny EE, Bustamante CD. RFMix: A Discriminative Modeling Approach for Rapid and Robust Local-Ancestry Inference. The American Journal of Human Genetics. 2013;93(2):278-88.

[81] Pool JE, Nielsen R. Inference of historical changes in migration rate from the lengths of migrant tracts. Genetics. 2009;181(2):711-9.

[82] Gravel S. Population genetics models of local ancestry. Genetics. 2012;191(2):607-19.

[83] Liang M, Nielsen R. The Lengths of Admixture Tracts. Genetics. 2014:genetics-114.

[84] Ni X, Yuan K, Yang X, Feng Q, Guo W, Ma Z, et al. Inference of multiple-wave admixtures by length distribution of ancestral tracks. Heredity. 2018;121(1):52-63.

[85] Moorjani P, Patterson N, Hirschhorn JN, Keinan A, Hao L, Atzmon G, et al. The history of African gene flow into Southern Europeans, Levantines, and Jews. PLoS genetics. 2011;7(4):e1001373.

[86] Loh PR, Lipson M, Patterson N, Moorjani P, Pickrell JK, Reich D, et al. Inferring admixture histories of human populations using linkage disequilibrium. Genetics. 2013;193(4):1233-54.

[87] Moreno-Mayar JV, Rasmussen S, Seguin-Orlando A, Rasmussen M, Liang M, Flam ST, et al. Genome-wide Ancestry Patterns in Rapanui Suggest Pre-European Admixture with Native Americans. Current Biology. 2014.

[88] Gravel S, Zakharia F, Moreno-Estrada A, Byrnes JK, Muzzio M, Rodriguez-Flores JL, et al. Reconstructing native American migrations from whole-genome and whole-exome data. PLoS genetics. 2013;9(12):e1004023.

[89] Bennett J. On the theory of random mating. Annals of Eugenics. 1952;17(1):311-7.

[90] Slatkin M. On treating the chromosome as the unit of selection. Genetics. 1972;72(1):157-68.

[91] Sheehan S, Harris K, Song YS. Estimating variable effective population sizes from multiple genomes: a sequentially markov conditional sampling distribution approach. Genetics. 2013 7;194(3):647-62. Available from: http://www.ncbi.nlm.nih.gov/pubmed/6628982htt p://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=P MC1202167http://www.ncbi.nlm.nih.gov/pubmed/23608192http: //www.pubmedcentral.nih.gov/articlerender.fcgi?artid=PMC36 97970.

[92] Terhorst J, Kamm JA, Song YS. Robust and scalable inference of population history from hundreds of unphased whole genomes. Nature Genetics. 2017;49(2):303-9. Available from: http://www.nature.com /doifinder/10.1038/ng.3748.

[93] Palamara PF, Terhorst J, Song YS, Price AL. High-throughput inference of pairwise coalescence times identifies signals of selection and

enriched disease heritability. Nature Genetics. 2018 Sep;50(9):1311-7. Available from: https://doi.org/10.1038/s41588-018-0177-x.

[94] Wang K, Mathieson I, O'Connell J, Schiffels S. Tracking human population structure through time from whole genome sequences. PLoS Genetics. 2020;16(3):1-24. Available from: http://dx.doi.org/10.13 71/journal.pgen.1008552.

[95] Eraslan G, Avsec Z, Gagneur J, Theis FJ. Deep learning: new computational modelling techniques for genomics. Nat Rev Genet. 2019 Jul;20(7):389-403.

[96] Mondal M, Bertranpetit J, Lao O. Approximate Bayesian computation with deep learning supports a third archaic introgression in Asia and Oceania. Nature Communications. 2019 Jan;10(1):246. Available from: https://doi.org/10.1038/s41467-018-08089-7.

[97] Tavare S, Balding DJ, Griffiths RC, Donnelly P. Inferring Coalescence Times From DNA Sequence Data. Genetics. 1997 02;145(2):505-18. Available from: https://doi. org/10.1093/genetics/145.2.505.

[98] Sheehan S, Song YS. Deep Learning for Population Genetic Inference. PLOS Computational Biology. 2016 03;12(3):1-28. Available from: ht tps://doi.org/10.1371/journal.pcbi.1004845.

[99] Chan J, Perrone V, Spence JP, Jenkins PA, Mathieson S, Song YS. A Likelihood-Free Inference Framework for Population Genetic Data using Exchangeable Neural Networks. Advances in neural information processing systems. 2018 Dec;31:8594-605. 33244210[pmid]. Available from: https://pubmed.ncbi.nlm.nih.gov/33244210.

[100] Sanchez T, Cury J, Charpiat G, Jay F. Deep learning for population size history inference: Design, comparison and combination with approximate Bayesian computation. Molecular Ecology Resources. 2021;21(8):2645-60. Available from: https://onlinelibrary.wile y.com/doi/abs/10.1111/1755-0998.13224.

[101] Kelleher J, Etheridge AM, McVean G. Efficient Coalescent Simulation and Genealogical Analysis for Large Sample Sizes. PLOS Computational Biology. 2016 05;12(5):1-22. Available from: https: //doi.org/10.1371/journal.pcbi.1004842.

[102] Bhatia G, Tandon A, Patterson N, Aldrich MC, Ambrosone CB, Amos C, et al. Genome-wide Scan of 29,141 African Americans Finds No Evidence of Directional Selection since Admixture. The American Journal of Human Genetics. 2014;95(4):437-44. Available from: https: //www.sciencedirect.com/science/article/pii/S0002929714003 553.

[103] Tataru P, Simonsen M, Bataillon T, Hobolth A. Statistical Inference in the Wright-Fisher Model Using Allele Frequency Data. Systematic Biology. 2016 08;66(1):e30-46. Available from: https://doi.org/10 .1093/sysbio/syw056.

[104] Stadler T, Kuhnert D, Bonhoeffer S, Drummond AJ. Birth-death skyline plot reveals temporal changes of epidemic spread in HIV and hepatitis C virus (HCV). Proceedings of the National Academy of Sciences. 2013;110(1):228-33. Available from: https://www.pnas.org /content/110/1/228.

[105] Vaughan TG, Nadeau SA, Scire J, Stadler T. Phylodynamic Analyses of outbreaks in China, Italy, Washington State (USA), and the Diamond Princess. Virological. 2020 03. Available from: https://viro logical.org/t/phylodynamic-analyses-of-outbreaks-in-china -italy-washington-state-usa-and-the-diamond-princess/439.

[106] Mizumoto K, Kagaya K, Zarebski A, Chowell G. Estimating the asymptomatic proportion of coronavirus disease 2019 (COVID-19) cases on board the Diamond Princess cruise ship, Yokohama, Japan, 2020. Eurosurveillance. 2020;25(10). Available from: https://www.eu rosurveillance.org/content/10.2807/1560-7917.ES.2020.25.1 0.2000180.

[107] Zhang S, Diao M, Yu W, Pei L, Lin Z, Chen D. Estimation of the reproductive number of novel coronavirus (COVID-19) and the probable outbreak size on the Diamond Princess cruise ship: A data-driven analysis. International Journal of Infectious Diseases. 2020;93:201-4. Available from: https://www.sciencedirect.com/ science/article/pii/S1201971220300916.

[108] Sekizuka T, Itokawa K, Kageyama T, Saito S, Takayama I, Asanuma H, et al. Haplotype networks of SARS-CoV-2 infections in the

<i>Diamond Princess</i> cruise ship outbreak. Proceedings of the National Academy of Sciences. 2020;117(33):20198-201. Available from: https://www.pnas.org/doi/abs/10.1073/pnas.2006824117.

[109] Deng X, Gu W, Federman S, du Plessis L, Pybus OG, Faria NR, et al. Genomic surveillance reveals multiple introductions of SARS-CoV-2 into Northern California. Science. 2020;369(6503):582-7. Available from: https://www.science.org/doi/abs/10.1126/science.ab b9263.

[110] Lemieux JE, Siddle KJ, Shaw BM, Loreth C, Schaffner SF, Gladden-Young A, et al. Phylogenetic analysis of SARS-CoV-2 in the Boston area highlights the role of recurrent importation and superspreading events. medRxiv. 2020. Available from: https://www.medrxiv.org/ content/early/2020/08/25/2020.08.23.20178236.

[111] Consortium GP, et al. A global reference for human genetic variation. Nature. 2015;526(7571):68.

[112] Barton NH. The effect of hitch-hiking on neutral genealogies. Genetical Research. 1998;72(2):123-133.

[113] Durrett R. 6. In: Probability Models for DNA Sequence Evolution. Second Edition. Springer New York: Springer; 2008. p. 197.

[114] Ewens WJ. A genetic model having complex linkage behaviour. Theoretical and Applied Genetics. 1968 Apr;38(4):140-3. Available from: https://doi.org/10.1007/BF00933808.

[115] Falush D, Stephens M, Pritchard JK. Inference of Population Structure Using Multilocus Genotype Data: Linked Loci and Correlated Allele Frequencies. Genetics. 2003;164(4):1567-87. Available from: https: //www.genetics.org/content/164/4/1567.

[116] Feldman MW, Franklin I, Thomson GJ. SELECTION IN COMPLEX GENETIC SYSTEMS I. THE SYMMETRIC EQUILIBRIA OF THE THREE-LOCUS SYMMETRIC VIABILITY MODEL. Genetics. 1974;76(1):135-62. Available from: https ://www. genetics . org/c ontent/76/1/135.

[117] Franklin I, Lewontin RC. IS THE GENE THE UNIT OF SELECTION? Genetics. 1970;65(4):707-34. Available from: https: //www.genetics.org/content/65/4/707.

[118] Harris K, Nielsen R. The Genetic Cost of Neanderthal Introgression. Genetics. 2016;203(2):881-91. Available from: https://www.genetics .org/content/203/2/881.

[119] Hill WG. Disequilibrium among several linked neutral genes in finite population: II. Variances and covariances of disequilibria. Theoretical Population Biology. 1974;6(2):184 198. Available from: http://www. sciencedirect.com/science/article/pii/0040580974900239.

[120] Hu H, Petousi N, Glusman G, Yu Y, Bohlender R, Tashi T, et al. Evolutionary history of Tibetans inferred from whole-genome sequencing. PLOS Genetics. 2017 04;13(4):1-22. Available from: https://doi.org/10.1371/journal.pgen.1006675.

[121] Hufford MB, Lubinksy P, PyhA€jA€rvi T, Devengenzo MT, Ellstrand NC, Ross-Ibarra J. The Genomic Signature of Crop-Wild Introgression in Maize. PLOS Genetics. 2013 05;9(5):1-13. Available from: https: //doi.org/10.1371/journal.pgen.1003477.

[122] Karlin S, Feldman MW. Linkage and selection: Two locus symmetric viability model. Theoretical Population Biology. 1970;1(1):39 71. Available from: http://www.sciencedirect.com/science/arti cle/pii/0040580970900419.

[123] Karlin S, Carmelli D. Numerical studies on two-loci selection models with general viabilities. Theoretical Population Biology. 1975;7(3):399 421. Available from: http://www.sciencedirect.com/science/arti cle/pii/004058097590026X.

[124] Karlin S. General two-locus selection models: Some objectives, results and interpretations. Theoretical Population Biology. 1975;7(3):364 398. Available from: http://www.sciencedirect.com/science/article/ pii/0040580975900258.

[125] Kimura M. A Model of a Genetic System which Leads to Closer Linkage by Natural Selection. Evolution. 1956;10(3):278-87. Available from: http://www.jstor.org/stable/2406012.

[126] Lewontin RC, ichi Kojima K. The Evolutionary Dynamics of Complex Polymorphisms. Evolution. 1960;14(4):458-72. Available from: http: //www.jstor.org/stable/2405995.

[127] Lewontin RC. The Interaction of Selection and Linkage. I. General Considerations; Heterotic Models. Genetics. 1964;49(1):49-67. Available from: https://www.genetics.Org/content/49/1/49.

[128] Lewontin RC. THE INTERACTION OF SELECTION AND LINKAGE. II. OPTIMUM MODELS. Genetics. 1964;50(4):757-82. Available from: https://www.genetics.Org/content/50/4/757.

[129] Liang M, Nielsen R. Understanding Admixture Fractions. bioRxiv. 2014. Available from: https://www.biorxiv.org/content/early/20 14/08/16/008078.

[130] Liang M, Nielsen R. Estimating the timing of multiple admixture events using 3-locus Linkage Disequilibrium. bioRxiv. 2016. Available from: https://www.biorxiv.org/content/early/2016/09/30/078 378.

[131] Loh PR, Lipson M, Patterson N, Moorjani P, Pickrell JK, Reich D, et al. Inferring Admixture Histories of Human Populations Using Linkage Disequilibrium. Genetics. 2013;193(4):1233-54. Available from: https://www.genetics.org/content/193Z4/1233.

[132] Martin SH, Dasmahapatra KK, Nadeau NJ, Salazar C, Walters JR, Simpson F, et al. Genome-wide evidence for speciation with gene flow in Heliconius butterflies. Genome Research. 2013. Available from: http: //genome.cshlp.org/content/early/2013/09/17/gr.159426.113. abstract.

[133] Sachdeva H, Barton NH. Introgression of a Block of Genome Under Infinitesimal Selection. Genetics. 2018;209(4):1279-303. Available from: https://www.genetics.org/content/209/4/1279.

[134] Sankararaman S, Mallick S, Dannemann M, Priifer K, Kelso J, Paabo S, et al. The genomic landscape of Neanderthal ancestry in present-day humans. Nature. 2014;507(7492):354-7. Available from: https: //doi.org/10.1038/nature12961.

[135] Sankararaman S, Mallick S, Patterson N, Reich D. The Combined Landscape of Denisovan and Neanderthal Ancestry in Present-Day Humans. Current Biology. 2016;26(9):1241 1247. Available from: http://www.sciencedirect.com/science/article/pii/S09609 82216302470.

[136] Skov L, Hui R, Shchur V, Hobolth A, Scally A, Schierup MH, et al. Detecting archaic introgression using an unadmixed outgroup. PLOS Genetics. 2018 09;14(9):1-15. Available from: https://doi.org/10.1 371/journal.pgen.1007641.

[137] Slatkin M. On treating the chromosome as the unit of selection. Genetics. 1972 Sep;72(1):157-68. 4672513[pmid]. Available from: https://www.ncbi.nlm.nih.gov/pubmed/4672513.

[138] Maynard J, Haigh J. The hitch-hiking effect of a favourable gene. Genetics Research. 2007;89(5-6):391-403.

[139] Stephens JC, Briscoe D, O'Brien SJ. Mapping by admixture linkage disequilibrium in human populations: limits and guidelines. American journal of human genetics. 1994 Oct;55(4):809-24. 7942858[pmid]. Available from: https://pubmed.ncbi.nlm.nih.gov/7942858.

[140] Vernot B, Akey JM. Complex history of admixture between modern humans and Neandertals. American journal of human genetics. 2015 Mar;96(3):448-53. 25683119[pmid]. Available from: https://www.nc bi.nlm.nih.gov/pubmed/25683119.

[141] Yi X, Liang Y, Huerta-Sanchez E, Jin X, Cuo ZXP, Pool JE, et al. Sequencing of 50 Human Exomes Reveals Adaptation to High Altitude. Science. 2010;329(5987):75-8. Available from: https://science.scie ncemag.org/content/329/5987/75.

[142] Billah MA, Miah MM, Khan MN. Reproductive number of coronavirus: A systematic review and meta-analysis based on global level evidence. PLOS ONE. 2020 11;15(11):1-17. Available from: https://doi.org/ 10.1371/journal.pone.0242128.

[143] Brauer F. Compartmental models in epidemiology. In: Mathematical epidemiology. Springer; 2008. p. 19-79.

[144] Cao Y, Li H, Petzold L. Efficient formulation of the stochastic simulation algorithm for chemically reacting systems. The Journal of Chemical Physics. 2004;121(9):4059-67. Available from: https : //doi.org/10.1063/1.1778376.

[145] Campbell F, Didelot X, Fitzjohn R, Ferguson N, Cori A, Jombart T. outbreaker2: a modular platform for outbreak reconstruction. BMC Bioinformatics. 2018;19(11):363. Available from: https://doi.org/ 10.1186/s12859-018-2330-z.

[146] De Maio N, Wilson DJ. The Bacterial Sequential Markov Coalescent. Genetics. 2017 05;206(1):333-43. Available from: https://doi.org/ 10.1534/genetics.116.198796.

[147] Drummond AJ, Rambaut A, Shapiro B, Pybus OG. Bayesian Coalescent Inference of Past Population Dynamics from Molecular Sequences. Molecular Biology and Evolution. 2005 02;22(5):1185-92. Available from: https://doi.org/10.1093/molbev/msi103.

[148] Ewing G, Hermisson J. MSMS: a coalescent simulation program including recombination, demographic structure and selection at a single locus. Bioinformatics. 2010 06;26(16):2064-5. Available from: https://doi.org/10.1093/bioinformatics/btq322.

[149] Gillespie DT. Approximate accelerated stochastic simulation of chemically reacting systems. The Journal of Chemical Physics. 2001;115(4):1716-33. Available from: https://doi.org/10.1063/ 1.1378322.

[150] Groendyke C, Welch D. epinet : An R Package to Analyze Epidemics Spread across Contact Networks. Journal of Statistical Software. 2018 02;83.

[151] Jariani A, Warth C, Deforche K, Libin P, Drummond AJ, Rambaut A, et al. SANTA-SIM: simulating viral sequence evolution dynamics under selection and recombination. Virus Evolution. 2019 03;5(1). Vez003. Available from: https://doi.org/10.1093/ve/vez003.

[152] Kern AD, Schrider DR. Discoal: flexible coalescent simulations with selection. Bioinformatics. 2016 08;32(24):3839-41. Available from: ht tps://doi.org/10.1093/bioinformatics/btw556.

[153] Kingman JFC. The coalescent. Stochastic Processes and their Applications. 1982;13(3):235-48. Available from: https://www.scienc edirect.com/science/article/pii/0304414982900114.

[154] Kryazhimskiy S, Dushoff J, Bazykin GA, Plotkin JB. Prevalence of Epistasis in the Evolution of Influenza A Surface Proteins. PLOS Genetics. 2011 02;7(2):1-11. Available from: https://doi.org/10 .1371/journal.pgen.1001301.

[155] Lambert A, Stadler T. Birth-death models and coalescent point processes: The shape and probability of reconstructed phylogenies. Theoretical Population Biology. 2013;90:113-28. Available from: https: //www.sciencedirect.com/science/article/pii/S0040580913001 056.

[156] Lequime S, Bastide P, Dellicour S, Lemey P, Baele G. nosoi: A stochastic agent-based transmission chain simulation framework in R. Methods in Ecology and Evolution. 2020;11(8):1002-7. Available from: https://besjournals.onlinelibrary.wiley.com/doi/full/10.11 11/2041-210X.13422.

[157] Minh BQ, Schmidt HA, Chernomor O, Schrempf D, Woodhams MD, von Haeseler A, et al. IQ-TREE 2: New Models and Efficient Methods for Phylogenetic Inference in the Genomic Era. Molecular Biology and Evolution. 2020 02;37(5):1530-4. Available from: https://doi.org/ 10.1093/molbev/msaa015.

[158] Moshiri N, Ragonnet-Cronin M, Wertheim JO, Mirarab S. FAVITES: simultaneous simulation of transmission networks, phylogenetic trees and sequences. Bioinformatics. 2018 11;35(11):1852-61. Available from: https://doi.org/10.1093/bioinformatics/bty921.

[159] Prufer H. Neuer Beweis eines Satzes über Permutationen. Arch Math Phys. 1918.

[160] Rosenberg NA, Nordborg M. Genealogical trees, coalescent theory and the analysis of genetic polymorphisms. Nature Reviews Genetics. 2002 May;3(5):380-90. Available from: https://doi.org/10.1038/nrg795.

[161] Sanjuan R, Moya A, Elena SF. The contribution of epistasis to the architecture of fitness in an RNA virus. Proceedings of the National

Academy of Sciences. 2004;101(43):15376-9. Available from: https: //www.pnas.org/content/101/43/15376.

[162] Stadler T. On incomplete sampling under birth-death models and connections to the sampling-based coalescent. Journal of Theoretical Biology. 2009;261(1):58-66. Available from: https://www.sciencedir ect.com/science/article/pii/S0022519309003300.

[163] Stadler T. Simulating Trees with a Fixed Number of Extant Species. Systematic Biology. 2011 04;60(5):676-84. Available from: https://do i.org/10.1093/sysbio/syr029.

[164] Thanh VH, Priami C, Zunino R. Efficient rejection-based simulation of biochemical reactions with stochastic noise and delays. The Journal of Chemical Physics. 2014;141(13):134116. Available from: https:// doi.org/10.1063/1.4896985.

[165] Turkahia Y, Thornlow B, Hinrichs A, McBroome J, Ayala N, Ye C, et al. Pandemic-Scale Phylogenomics Reveals Elevated Recombination Rates in the SARS-CoV-2 Spike Region. bioRxiv. 2021. Available from: https://www.biorxiv.org/content/early/2021/08/05/2021.08.0 4.455157.

[166] Volz EM, Kosakovsky Pond SL, Ward MJ, Leigh Brown AJ, Frost SDW. Phylodynamics of Infectious Disease Epidemics. Genetics. 2009 12;183(4):1421-30. Available from: https://doi.org/10.1534/gene tics.109.106021.

[167] Volz EM, Koelle K, Bedford T. Viral Phylodynamics. PLOS Computational Biology. 2013 03;9(3):1-12. Available from: https: //doi.org/10.1371/journal.pcbi.1002947.

[168] Volz EM, Siveroni I. Bayesian phylodynamic inference with complex models. PLOS Computational Biology. 2018 11;14(11). Available from: https://doi.org/10.1371/journal.pcbi.1006546.

[169] Worby CJ, Read TD. 'SEEDY' (Simulation of Evolutionary and Epidemiological Dynamics): An R Package to Follow Accumulation of Within-Host Mutation in Pathogens. PLOS ONE. 2015 06;10(6):1-14. Available from: https://doi.org/10.1371/journal.pone.0129745.

[170] Wright S. Breeding Structure of Populations in Relation to Speciation. The American Naturalist. 1940;74(752):232-48. Available from: http: //www.jstor.org/stable/2457575.

[171] Harris CR, Millman KJ, van der Walt SJ, Gommers R, Virtanen P, Cournapeau D, et al. Array programming with NumPy. Nature. 2020 Sep;585(7825):357-62. Available from: https://doi.org/10.1038/s4 1586-020-2649-2.

[172] Burovski E, Godyaev D, Gorbunova V. mc_lib: Assorted small utilities for MC simulations with Cython;. Available from: https://doi.org/ 10.5281/zenodo.5169027.

[173] Kamm J, Terhorst J, Durbin R, Song YS. Efficiently inferring the demographic history of many populations with allele count data. Journal of the American Statistical Association. 2020;115(531):1472-87.

[174] Pagani L, Lawson DJ, Jagoda E, Mörseburg A, Eriksson A, Mitt M, et al. Genomic analyses inform on migration events during the peopling of Eurasia. Nature. 2016;538(7624):238-42. Available from: https: //doi.org/10.1038/nature19792.

[175] Fan S, Kelly DE, Beltrame MH, Hansen MEB, Mallick S, Ranciaro A, et al. African evolutionary history inferred from whole genome sequence data of 44 indigenous African populations. Genome Biology. 2019;20(1):82. Available from: https://doi.org/10.1186/s13059-0 19-1679-2.

[176] Bergstrom A, Stringer C, Hajdinjak M, Scerri EML, Skoglund P. Origins of modern human ancestry. Nature. 2021;590(7845):229-37. Available from: http://dx.doi.org/10.1038/s41586-021-03244-5.

[177] Moorjani P, Patterson NJ, Hirschhorn JN, Keinan A, Hao L, Atzmon G, et al. The history of african gene flow into Southern Europeans, Levantines, and Jews. PLoS Genetics. 2011;7(4).

[178] Slatkin M. Testine neutrality in subdivided populations. Genetics. 1982;100(3):533-45. Available from: https://doi.org/10.1093/gene tics/100.3.533.

[179] Arredondo A, Mourato B, Nguyen K, Boitard S, Rodriguez W, Mazet O, et al. Inferring number of populations and changes in connectivity under the n-island model. Heredity. 2021;126(6):896-912. Available from: https://doi.org/10.1038/s41437-021-00426-9.

[180] Green RE, Krause J, Briggs AW, Maricic T, Stenzel U, Kircher M, et al. A Draft Sequence of the Neandertal Genome. Science. 2010;328(5979):710-22.

[181] Dutheil JY, Ganapathy G, Hobolth A, Mailund T, Uyenoyama MK, Schierup MH. Ancestral population genomics: The coalescent hidden Markov model approach. Genetics. 2009;183(1):259-74.

[182] Korneliussen TS, Albrechtsen A, Nielsen R. ANGSD: analysis of next generation sequencing data. BMC bioinformatics. 2014;15(1):356.

[183] Wakeley J. Coalescent Theory: An Introduction. Roberts and Company Publishers; 2009. Available from: https://books.google.com/books ?id=x30RAgAACAAJ.

[184] Schuster SC, Miller W, Ratan A, Tomsho LP, Giardine B, Kasson LR, et al. Complete Khoisan and Bantu genomes from southern Africa. Nature. 2010;463(7283):943-7. Available from: https://doi.org/10 .1038/nature08795.

[185] Mazet O, Rodriguez W, Chikhi L. Demographic inference using genetic data from a single individual: Separating population size variation from population structure. Theoretical Population Biology. 2015;104:46-58. Available from: http://dx.doi.org/10.1016Zj.tpb.2015.06.003.

[186] Sjödin P, McKenna J, Jakobsson M. Estimating divergence times from DNA sequences. Genetics. 2021;217(4).

[187] Wang J, Whitlock MC. Estimating effective population size and migration rates from genetic samples over space and time. Genetics. 2003;163(1):429-46.

[188] Hudson RR. Gene genealogies and the coalescent process. Oxford surveys in evolutionary biology. 1990;7(1):44.

[189] O'Brien SJ, Roelke ME, Yuhki N, Richards KW, Johnson WE, Franklin WL, et al. Genetic introgression within the Florida Panther Felis concolor coryi. National Geographic Research. 1990;6(4):485-94.

[190] Johnson WE, Onorato DP, Roelke ME, Land ED, Cunningham M, Belden RC, et al. Genetic restoration of the Florida panther. Science. 2010;329(5999):1641-5.

[191] Hobolth A, Christensen OF, Mailund T, Schierup MH. Genomic Relationships and Speciation Times of Human, Chimpanzee, and Gorilla Inferred from a Coalescent Hidden Markov Model. PLOS Genetics. 2007;3(2):1-11. Available from: https://doi.org/10-1 371/journal.pgen.0030007.

[192] Tange O. GNU Parallel - The Command-Line Power Tool. ;login: The USENIX Magazine. 2011 2;36(1):42-7. Available from: http://www.gn u.org/s/parallel.

[193] Garrigan D, Kingan SB, Pilkington MM, Wilder JA, Cox MP, Soodyall H, et al. Inferring human population sizes, divergence times and rates of gene flow from mitochondrial, X and Y chromosome resequencing data. Genetics. 2007 12;177(4):2195-207.

[194] Gattepaille L, Günther T, Jakobsson M. Inferring Past Effective Population Size from Distributions of Coalescent Times. Genetics. 2016 11;204(3):1191-206. Available from: https://www.genetics.org/con tent/204/3/1191.abstract.

[195] Cahill JA, Soares AER, Green RE, Shapiro B. Inferring species divergence times using pairwise sequential markovian coalescent modelling and low-coverage genomic data. Philosophical Transactions of the Royal Society B: Biological Sciences. 2016;371(1699).

[196] Steinrücken M, Spence JP, Kamm JA, Wieczorek E, Song YS. Modelbased detection and analysis of introgressed Neanderthal ancestry in modern humans. Molecular Ecology. 2018 10;27(19):3873-88. Available from: http://doi.wiley.com/10.1111/mec.14565.

[197] Song S, Sliwerska E, Emery S, Kidd JM. Modeling human population separation history using physically phased genomes. Genetics. 2017;205(1):385-95.

[198] Villanea FA, Schraiber JG. Multiple episodes of interbreeding between Neanderthal and modern humans. Nature Ecology & Evolution. 2019 1;3(1):39-44. Available from: http://www.nature.com/articles/s4 1559-018-0735-8.

[199] Mazet O, Rodriguez W, Grusea S, Boitard S, Chikhi L. On the importance of being structured: instantaneous coalescence rates and human evolution—lessons for ancestral population size inference? Heredity. 2016 4;116(4):362-71. Available from: http://www.natu re.com/articles/hdy2015104.

[200] Sjoödin P, Kaj I, Krone S, Lascoux M, Nordborg M. On the meaning and existence of an effective population size. Genetics. 2005 2;169(2):1061-70. Available from: http: //www. ncbi . nlm. nih. gov/pubmed/154895 38http://www.pubmedcentral.nih.gov/articlerender.fcgi?art id=PMC1449138.

[201] Hartl DL, Clark AG. Principles of Population Genetics. 4th ed. Sunderland: Sinauer Associates; 2007.

[202] Saremi NF, Supple MA, Byrne A, Cahill JA, Coutinho LL, Dalen L, et al. Puma genomes from North and South America provide insights into the genomic consequences of inbreeding. Nature Communications. 2019;10(1):4769. Available from: https://doi.org/10.1038/s41467 -019-12741-1.

[203] Moran PAP. Random processes in genetics. Mathematical Proceedings of the Cambridge Philosophical Society. 1958;54(1):60-71.

[204] Prufer K, Racimo F, Patterson NJ, Jay F, Sankararaman S, Sawyer S, et al. The complete genome sequence of a Neanderthal from the Altai Mountains. Nature. 2014;505(7481):43-9. Available from: http: //www.pubmedcentral.nih.gov/articlerender.fcgi?artid=40314 59&tool=pmcentrez&rendertype=abstract.

[205] Heller R, Chikhi L, Siegismund HR. The Confounding Effect of Population Structure on Bayesian Skyline Plot Inferences of Demographic History. PLoS ONE. 2013 5;8(5):e62992. Available from: https://dx.plos.org/10.1371/journal.pone.0062992.

[206] Paz-Vinas I, Quemere E, Chikhi L, Loot G, Blanchet S. The demographic history of populations experiencing asymmetric gene flow: combining simulated and empirical data. Molecular Ecology. 2013 6;22(12):3279-91. Available from: http://doi.wiley.com/10.111 1/mec.12321.

[207] Tishkoff SA, Reed FA, Friedlaender FR, Ehret C, Ranciaro A, Froment

A, et al. The genetic structure and history of Africans and African Americans. Science (New York, NY). 2009 5;324(5930):1035-44.

[208] Fisher RA. The Genetical Theory of Natural Selection. Clarendon Press; 1930.

[209] Henn BM, Cavalli-Sforza LL, Feldman MW. The great human expansion. Proceedings of the National Academy of Sciences of the United States of America. 2012 10;109(44):17758-64. Available from: http://www.pubmedcentral.nih.gov/articlerender.f cgi?artid =3497766&tool=pmcentrez&rendertype=abstract.

[210] Chikhi L, Rodriguez W, Grusea S, Santos P, Boitard S, Mazet O. The IICR (inverse instantaneous coalescence rate) as a summary of genomic diversity: insights into demographic inference and model choice. Heredity. 2018 1;120:13-24. Available from: http://www.natu re.com/articles/s41437-017-0005-6.

[211] Haak W, Lazaridis I, Patterson NJ, Rohland N, Mallick S, Llamas

B, et al. Massive migration from the steppe was a source for Indo-European languages in Europe. Nature. 2015;522(7555):207-11. Available from: http://www.nature.com/doifinder/10.1038/natur e14317.

[212] Baran Y, Pasaniuc B, Sankararaman S, Torgerson DG, Gignoux C, Eng C, et al. Fast and accurate inference of local ancestry in Latino populations. Bioinformatics. 2012;28(10):1359-67.

[213] Brisbin A, Bryc K, Byrnes J, Zakharia F, Omberg L, Degenhardt J, et al. PCAdmix: principal components-based assignment of ancestry along each chromosome in individuals with admixed ancestry from two or more populations. Human Biology. 2012;84(4):343-64.

[214] Bryc K, Auton A, Nelson MR, Oksenberg JR, Hauser SL, Williams S, et al. Genome-wide patterns of population structure and admixture in West Africans and African Americans. Proceedings of the National Academy of Sciences. 2010;107(2):786-91.

[215] Hey J, Nielsen R. Multilocus methods for estimating population sizes, migration rates and divergence time, with applications to the divergence of Drosophila pseudoobscura and D. persimilis. Genetics. 2004;167(2):747-60.

[216] Hey J. Isolation with migration models for more than two populations. Molecular biology and evolution. 2010;27(4):905-20.

[217] Griffiths RC, Marjoram P. Ancestral inference from samples of DNA sequences with recombination. Journal of Computational Biology. 1996;3(4):479-502.

[218] Gutenkunst RN, Hernandez RD, Williamson SH, Bustamante CD. Inferring the joint demographic history of multiple populations from multidimensional SNP frequency data. PLoS Genetics. 2009;5(10):e1000695.

[219] Henn BM, Botigue LR, Gravel S, Wang W, Brisbin A, Byrnes JK, et al. Genomic ancestry of North Africans supports back-to-Africa migrations. PLoS Genetics. 2012;8(1):e1002397.

[220] Hoggart CJ, Parra EJ, Shriver MD, Bonilla C, Kittles RA, Clayton DG, et al. Control of confounding of genetic associations in stratified populations. The American Journal of Human Genetics. 2003;72(6):1492.

[221] Hudson RR. Properties of a neutral allele model with intragenic recombination. Theoretical Population Biology. 1983;23(2):183-201.

[222] Hudson RR. Generating samples under a Wright-Fisher neutral model of genetic variation. Bioinformatics. 2002;18(2):337-8.

[223] Li N, Stephens M. Modeling linkage disequilibrium and identifying recombination hotspots using single-nucleotide polymorphism data. Genetics. 2003;165(4):2213-33.

[224] Pa§aniuc B, Sankararaman S, Kimmel G, Halperin E. Inference of locus-specific ancestry in closely related populations. Bioinformatics. 2009;25(12):i213-21.

[225] Price AL, Tandon A, Patterson N, Barnes KC, Rafaels N, Ruczinski I, et al. Sensitive detection of chromosomal segments of distinct ancestry in admixed populations. PLoS Genetics. 2009;5(6):e1000519.

[226] Reich D, Patterson N, De Jager PL, McDonald GJ, Waliszewska A, Tandon A, et al. A whole-genome admixture scan finds a candidate locus for multiple sclerosis susceptibility. Nature Genetics. 2005;37(10):1113-8.

[227] Sankararaman S, Kimmel G, Halperin E, Jordan MI. On the inference of ancestries in admixed populations. Genome Research. 2008;18(4):668-75.

[228] Smith MW, Patterson N, Lautenberger JA, Truelove AL, McDonald GJ, Waliszewska A, et al. A high-density admixture map for disease gene discovery in African Americans. The American Journal of Human Genetics. 2004;74(5):1001-13.

[229] Sundquist A, Fratkin E, Do CB, Batzoglou S. Effect of genetic divergence in identifying ancestral origin using HAPAA. Genome Research. 2008;18(4):676-82.

[230] Tang H, Choudhry S, Mei R, Morgan M, Rodriguez-Cintron W, Burchard EG, et al. Recent genetic selection in the ancestral admixture of Puerto Ricans. The American Journal of Human Genetics. 2007;81(3):626-33.

[231] Wakeley J, King L, Low BS, Ramachandran S. Gene genealogies within a fixed pedigree, and the robustness of Kingman's coalescent. Genetics. 2012;190(4):1433-45.

[232] Wiuf C, Hein J. Recombination as a point process along sequences. Theoretical Population Biology. 1999;55(3):248-59.

[233] Guo SW. Computation of identity-by-descent proportions shared by two siblings. American Journal of Human Genetics. 1994;54(6):1104.

[234] Bickeboller H, Thompson EA. Distribution of genome shared IBD by half-sibs: approximation by the Poisson clumping heuristic. Theoretical Population Biology. 1996;50(1):66-90.

[235] Bickeboller H, Thompson EA. The probability distribution of the amount of an individual's genome surviving to the following generation. Genetics. 1996;143(2):1043-9.

[236] Stefanov VT. Distribution of genome shared identical by descent by two individuals in grandparent-type relationship. Genetics. 2000;156(3):1403-10.

[237] Ball F, Stefanov VT. Evaluation of identity-by-descent probabilities for half-sibs on continuous genome. Mathematical Biosciences. 2005;196(2):215-25.

[238] Cannings C. The identity by descent process along the chromosome. Human heredity. 2003;56(1-3):126-30.

[239] Dimitropoulou P, Cannings C. RECSIM and INDSTATS: probabilities of identity in general genealogies. Bioinformatics. 2003;19(6):790-1.

[240] Walters K, Cannings C. The probability density of the total IBD length over a single autosome in unilineal relationships. Theoretical Population Biology. 2005;68(1):55-63.

[241] Rodolphe F, Martin J, Della-Chiesa E. Theoretical description of chromosome architecture after multiple back-crossing. Theoretical Population Biology. 2008;73(2):289-99.

[242] Donnelly KP. The probability that related individuals share some section of genome identical by descent. Theoretical Population Biology. 1983;23(1):34-63.

[243] Fisher RA. The Theory of Inbreeding. Edinburgh, Scotland: Oliver and Boyd; 1949.

[244] Barton NH, Etheridge AM. The relation between reproductive value and genetic contribution. Genetics. 2011;188(4):953-73.

[245] Chapman NH, Thompson EA. The effect of population history on the lengths of ancestral chromosome segments. Genetics. 2002;162(1):449-58.

[246] Martin OC, Hospital F. Distribution of parental genome blocks in recombinant inbred lines. Genetics. 2011;189(2):645-54.

[247] Chang JT. Recent common ancestors of all present-day individuals. Advances in Applied Probability. 1999:1002-26.

[248] Barton NH, Bengtsson BO. The barrier to genetic exchange between hybridising populations. Heredity. 1986;57:357.

[249] Falush D, Stephens M, Pritchard JK. Inference of population structure using multilocus genotype data: linked loci and correlated allele frequencies. Genetics. 2003;164(4):1567-87.

[250] Parra EJ, Marcini A, Akey J, Martinson J, Batzer MA, Cooper R, et al. Estimating African American admixture proportions by use of population-specific alleles. The American Journal of Human Genetics. 1998;63(6):1839-51.

[251] Tang H, Coram M, Wang P, Zhu X, Risch N. Reconstructing genetic ancestry blocks in admixed individuals. The American Journal of Human Genetics. 2006;79(1):1-12.

[252] Verdu P, Rosenberg NA. A general mechanistic model for admixture histories of hybrid populations. Genetics. 2011;189(4):1413-26.

[253] Price AL, Patterson NJ, Plenge RM, Weinblatt ME, Shadick NA, Reich D. Principal components analysis corrects for stratification in genome-wide association studies. Nature Genetics. 2006;38(8):904-9.

[254] Tang H, Peng J, Wang P, Risch NJ. Estimation of individual admixture: analytical and study design considerations. Genetic epidemiology. 2005;28(4):289-301.

[255] Menotti-Raymond M, David VA, Pflueger SM, Lindblad-Toh K, Wade CM, O'Brien SJ, et al. Patterns of molecular genetic variation among cat breeds. Genomics. 2008;91(1):1-11.

[256] Rosenberg NA, Pritchard JK, Weber JL, Cann HM, Kidd KK, Zhivotovsky LA, et al. Genetic structure of human populations. Science. 2002;298(5602):2381-5.

[257] Zhang B, Li M, Zhang Z, Goossens B, Zhu L, Zhang S, et al. Genetic viability and population history of the giant panda, putting an end to the "evolutionary dead end"? Molecular biology and evolution. 2007;24(8):1801-10.

[258] 3 Consortium IH, et al. Integrating common and rare genetic variation in diverse human populations. Nature. 2010;467(7311):52-8.

[259] Chen GK, Marjoram P, Wall JD. Fast and flexible simulation of DNA sequence data. Genome research. 2009;19(1):136-42.

[260] Hill WG. Disequilibrium among several linked neutral genes in finite population I. Mean changes in disequilibrium. Theoretical Population Biology. 1974;5(3):366-92.

[261] Liang M, Nielsen R. Understanding admixture fractions. bioRxiv. 2014:008078.

[262] Moorjani P, Thangaraj K, Patterson N, Lipson M, Loh PR, Govindaraj P, et al. Genetic evidence for recent population mixture in India. The American Journal of Human Genetics. 2013;93(3):422-38.

[263] Pickrell JK, Pritchard JK. Inference of population splits and mixtures from genome-wide allele frequency data. PLoS genetics. 2012;8(11):e1002967.

[264] Marjoram P, Wall J. Fast "coalescent"simulation. BMC Genetics. 2006;7(1):16.

[265] McVean GA, Cardin NJ. Approximating the coalescent with recombination. Philosophical Transactions of the Royal Society B: Biological Sciences. 2005;360(1459):1387-93.

[266] Stam P. The distribution of the fraction of the genome identical by descent in finite random mating populations. Genetics Research. 1980;35:131-55.

[267] Baird SJ, Barton NH, Etheridge AM. The distribution of surviving blocks of an ancestral genome. Theoretical Population Biology. 2003;64(4):451-71.

[268] Svedberg J, Shchur V, Reinman S, Corbett-Detig R. Inferring Adaptive Introgression Using Hidden Markov Models. Molecular Biology and Evolution. 2021 01;38.

[269] Kelleher J, Etheridge AM, McVean G. Efficient coalescent simulation and genealogical analysis for large sample sizes. PLoS computational biology. 2016;12(5):e1004842.

[270] Pedersen BS, Quinlan AR. cyvcf2: fast, flexible variant analysis with Python. Bioinformatics. 2017.

[271] Hellenthal G, Busby GBJ, Band G, Wilson JF, Capelli C, Falush D, et al. A Genetic Atlas of Human Admixture History. Science. 2014;343(6172):747-51. Available from: https://www.science.org/ doi/abs/10.1126/science.1243518.

[272] Kostenetskiy PS, Chulkevich RA, Kozyrev VI. HPC Resources of the Higher School of Economics. Journal of Physics: Conference Series. 2021 jan;1740(1):012050. Available from: https://doi.org/10.1088/ 1742-6596/1740/1/012050.

[273] Cho K, van Merrienboer B, Bahdanau D, Bengio Y. On the Properties of Neural Machine Translation: Encoder-Decoder Approaches. arXiv; 2014. Available from: https://arxiv.org/abs/1409.1259.

[274] Battaglia PW, Hamrick JB, Bapst V, Sanchez-Gonzalez A, Zambaldi V, Malinowski M, et al.. Relational inductive biases, deep learning, and graph networks. arXiv; 2018. Available from: https://arxiv.org/ab s/1806.01261.

5 Приложения

В Приложениях 1-18, в соответствии с политикой «права и разрешения» (rights & permissions) соответствующего журнала, представлена либо журнальная версия статьи, либо версия рукописи этой статьи, принятая к печати.

Приложение 1

Статья 1. Shchur V.

Accuracy of the SMC' approximation of structured coalescent Lobachevskii journal of mathematics 43(12) (2022), pp. 3626-3630

Разрешение на копирование: автор статьи может использовать полную журнальную версию статьи в своей диссертации при условии, что указан источник https://www.springer.com/gp/rights-permissions/obtaining-permissions/882.

ISSN 1995-0802, Lobachevskii Journal of Mathematics, 2022, Vol. 43, No. 12, pp. 3626-3630. © Pleiades Publishing, Ltd., 2022.

Accuracy of the SMC' Approximation of Structured Coalescent

V. Shchur*

(Submitted by A. M. Elizarov)

National Research University Higher School of Economics, Moscow, 101000 Russia Received October 13, 2022; revised October 21, 2022; accepted November 11, 2022

Abstract—Coalescent with recombination is one of the most important population models in population genetics. This model is very efficient for simulating realistic genealogies and genetic data. But due the complexity of its state space, in particular due to the combinatorial reasons, the inference under this model is computationally intensive and often infeasible. The Sequential Markovian Coalescent (SMC), and its modification SMC', are approximations to the full coalescent with recombination. Many methods use SMC for inference purposes, often by applying Hidden Markov Model framework. It was shown that SMC' is a very accurate approximation of the coalescent with recombination in the case of a panmictic population. But in reality population histories are much more complex, in particular due to migrations. Here we investigate the accuracy of the SMC' approximation in case of structured coalescent with recombination, more precisely in case of two populations with continuous symmetric migration between them.

DOI: 10.1134/S1995080222150264

Keywords and phrases: coalescent with recombination, structured coalescent, sequential Markovian coalescent, SMC, SMC'.

1. INTRODUCTION

Sequential Markovian Coalescent (shortly SMC) [1] and its modification SMC' [2] are two of the most important models in population genetics which underlie many algorithms and methods for genetic data analysis, e.g. diCal [3], PSMC [4] and MSMC [5]. These models approximate the full coalescent with recombination [6] by considering a Markovian process along a chromosome. In our recent work [7] we showed that under panmictic SMC model applied to a sample with structured population history, leads to biased and inaccurate estimates of the distribution of times to the most recent common ancestor.

Coalescent with recombination model is a generalization of Kingman's coalescent [8] which describes the probabilistic distribution of genealogies of samples from a given population as a backward time Markovian process. In this model coalescences correspond to the most recent common ancestors (MRCA) of ancestral lineages of these samples. So, in case of coalescence two ancestral lineages merge. Recombination splits ancestral lineage into two, which corresponds to that the chromosome regions to the left and to the right from the breakpoint are inherited from different chromosomes (e.g. maternal and paternal).

The formal analysis of the SMC and SMC' approximation accuracy was done in [9] by calculating the total variation (L1 metric) between joint probability distribution of times of the most recent common ancestors at two loci under SMC or SMC' models and full coalescent with recombination. In this paper we present a similar analysis of the accuracy of the SMC' approximation for the case of structured coalescent (two populations with continous migration).

E-mail: vshchur@hse.ru

3626

ACCURACY OF THE SMC' APPROXIMATION

3627

2. STRUCTURED COALESCENT WITH RECOMBINATION

We compare the difference between joint distributions of times to the MRCA of two chromosomes at two loci at recombination distance p under full coalescent with recombination and SMC' models in two population scenarios. As the first reference scenario we consider a single population (panmictic) model. The second scenario is a two population model (with the equal coalescent rates of A1 = A2 = 1) and continuous symmetric migration rates m12 = m21 = 1.

The states of backward in time Markov process (structured coalescent with recombination) correspond to different configurations of ancestral chromosomes. Each chromosome consists of two loci and is found in one of the two ancestral populations:

• chromosomes (a, b)p have ancestral material in both loci,

• chromosomes (a, *)p and (*, b)p containing ancestral in a single locus (* stands for non-ancestral genetic material),

where indexp = 1,2 indicates the population.

Chromosomes might coalesce when they are in the same population. In total there are 40 states of the following form

{(ab)pi, (ab)p2} (3 states), {(a*)pi, (*b)p2, (ab)p3} (8 states), {(a*)pi, (ab)p2} (4 states), {(*b)pi, (ab)p2} (4 states), {(a*)pi, (*b)p2, (*b)p3} (6 states), {(a*)pi, (a*)p2, (b*)p3} (6 states),

{(a*)pi, (a*)p2 , (*b)pa > (*b)p4 } (9 states)

and two additional absorbing states {ab,p1}. We are interested in the time of the most recent common ancestor, so recombinations which can potentially break these chromosomes in absorbing states are not of interest to us.

There are three types of transitions in this model:

• recombinations (with rate p) which break the chromosome. E.g. (ab)p ^ (a*)p, (*b)p,

• coalescence (with rates A1 and A2 per pair depending on a population) which merges ancestral lineages, in other words when two chromosomes descend from the same ancestor. In this case chromosomes should be in the same ancestral population. E.g. (ab)p, (a*)p ^ (ab)p,

• migration (with rates m12 and m21) when a chromosome is moved from one ancestral population to the other. E.g. (ab)1 ^ (ab)2.

We denote the transition matrix of this Markov process by M(t). In general case, migration and coalescent rates might be a function of time.

Solving the system of linear differential equations for P(t)

Ap(i) = M(i)P(i) (1)

allows to calculate the joint probability density pp(T, S) of the MRCA times T, S at loci a and b at recombination distance p. We assume that both samples (time t = 0) are in population 1. So, we set the initial condition to P0({(ab)1, (ab)1}) = 1, while the probabilities of all the other states being equal to zero.

For T < S, we integrate equation (1) from 0 to T, obtaining the solution P(T). We are interested in the states which satisfy the following properties: 1) there are two copies of both ancestral a and b; 2) chromosomes with a are in the same population; 3) there are more than two lineages (which guarantee

3628

SHCHUR

that coalescence at locus a does not also drag the coalescence at b). So, the following states contribute to p(t, s) through corresponding coalescences with rate Api (T)

{(a*)pi , (*b)P2 > (ab)pi } ^ {(ab)pi > (*b)P2 }

and

{(a*)pi, (a*)pi, (*b)P2 > (*b)P3} ^ {(a*)pi> (*b)P2 > (*b)P3}-

Encode it in a matrix Mfa(T) with entries Api(T) corresponding to these transitions and zeros for all other entries. Next, we integrate equation (1) from T to S with the initial condition Mfa (T)P(T) and get the solution Pfa,T(S). Now we are interested in states where there are two ancestral lineages at locus b being in the same population:

{(*b)P, (ab)p} ^ {(ab)p}

and

{(a*)pi > (*b)P2 > (*b)P2 } ^ {(a*)Pi > (*b)P2 }-

Similarly, to the first coalescence step, we construct a matrix Msb(S) for the second coalescence at locus b. Then pp(T, S) is the sum of all the components of the vector Msb(S)Pfa,T(S). In case of T > S the derivation is the same up to the loci symmetry.

The last case is T = S. The important difference here is that the probability mass P(S|T) is non-zero: there are two states which contribute to it

{(ab)p, (ab)p} ^ {(ab)p}.

Denote the corresponding matrix Md.

Given the discrete nature of our numerical computations, we split time axis with some time step AT and AS (due to the symmetry of loci a and b, we chose AT and AS to be equal). In this discrete case there is a second-order term corresponding to two coalescences within the same time interval. It corresponds to the following state transitions

{(a*)pi , (a*)pi , (*b)p2 , (*b)P2 } ^ {0)pi > (*b)P2 }

with rate Api AP2 and

{(a*)p,(*b)p,(ab)p} ^ {(ab)p} with rate Ap. Denote the corresponding matrix by Md2.

If the coalescent and migration rates are constant, the resulting discretized density pd(T, S) (with finite increment) can be efficiently calculated in the following linear algebra form

[ (Msb e(S-T )M Mfa eTM Po,v) AT AS, T < S, pd(T, S) = i (Msa e(T-S)M Mfb eSM P0,v> AT AS, T > S,

( (Md eTM P0,v> AT + (Md2 eTM P0,v> AT AS, T = S,

eM is the matrix exponent, v is a vector of ones, and {-, ■> is a scalar product (which corresponds to summing over all possible states).

3. SEQUENTIAL APPROXIMATION Sequential Markovian Coalescent approximates the coalescent with recombination by considering a new Markovian process along the chromosome. In general case, the states of this process are trees (genealogies). In case of two chromosomes, the shape of genealogies is trivial, so the states can be considered as the MRCA times. For those who are interested in the details of the difference in SMC and SMC' modifications, we recommend to address to the paper [9].

For our numerical analysis the transition of this process can be calculated by calculating p^p(T, S) for some small value of Ap. Then we normalize each row to obtain the transition matrix K&p between T and S. Then the joint distribution of the MRCA times at loci at distance p under SMC' model is

PmdK^,

ACCURACY OF THE SMC' APPROXIMATION 3629

MRCA time at the first locus MRCA time at the first locus

Fig. 1. Differences between joint probability distributions of the MRCA times at two loci for recombination distance p = 2 under full coalescent with recombination and SMC' models. Left panel shows the difference for a single population scenario. Right panel shows the difference for two populations with migration scenario.

0.035 -0.030 -G 0.025

| 0.020

£

13 0.015 £ 0.010 0.005 0

4 6 8 10 12 p (recombination rate)

14

Fig. 2. Total variation distance between joint probability distribution of the MRCA times at two loci under full coalescent with recombination and SMC' models as a function of recombination distance p. Blue (lower) line corresponds to a single population scenario, orange (upper) line corresponds to the two population with migration

0

2

where Pmd is a diagonal matrix with the marginal probability of the MRCA time at locus a.

Firstly, we show the difference between joint distribution of the TMRCA times of two chromosome with two loci at recombination distance p. As shown at Fig. 1, there is a clear difference in the qualitative behavior between a single population model and two population model. In particular, SMC' model considerably underestimates (dark blue areas) the joint probability along the diagonal and in the upper left corner, in other words when both times are relatively recent. At the same time there is a clear overestimation (yellow areas) when the time at one locus is around 1 and at the other locus MRCA time is larger than 2.

Secondly we calculate the total variation between these joint probabilities in function of the recombination distance p. From Fig. 2, one can notice that for the structured model total variation is larger than for the panmictic case. Importantly, the decay of variation distance is much slower for two populations with migrations. We conjecture that it can be due to the admixture linkage disequilibrium which is known to be stronger than the regular linkage disequilibrium [10].

Total variation is defined in [9] as L norm between two joint distributions divided by two. We want to calculate the total variation between the joint MRCA times distributions pPccn(t, s) (under coalescent

3630 SHCHUR

with recombination) and pp,SMc(t, s) (under SMC')

1

TV(p) = \ J J \pp,cn(t,s)-pP!sMC'(t,s)\dtds.

2

00

4. CONCLUSION

We showed that SMC' model might provide a substantially less accurate approximation to the full coalescent with recombination if the population is structured. In particular, the total variation between the joint distribution of the MRCA times in two loci decreases much slower with the growth of the distance between the loci compared to the panmictic case. We think that the main reason for it can be a stronger admixture linkage disequilibrium compared to the regular linkage disequilibrium.

In future, a more detailed comparison between the structured coalescent with recombination and SMC' should be performed. In particular, the accuracy of approximation in function migration rates, demographic events (e.g. bottlenecks) should be investigated. Also, it would be desirable to better understand the connection between total variation and admixture linkage disequilibrium.

FUNDING

The article was prepared within the framework of the HSE University Basic Research Program.

REFERENCES

1. G. A. T. McVean and N. J. Cardin, "Approximating the coalescent with recombination," Phil. Trans. R. Soc. London, Ser. B 360 (1459), 1387-1393 (2005). https://doi.org/10.1098/rstb.2005.1673

2. P. Marjoram and J. D. Wall, "Fast 'coalescent' simulation," BMC Genet. 7, 16 (2006). https://doi.org/10.1186/1471-2156-7-16

3. S. Sheehan, K. Harris, and Y. S. Song, "Estimating variable effective population sizes from multiple genomes: A sequentially Markov conditional sampling distribution approach," Genetics 194, 647-662 (2013). https://doi.org/10.1534/genetics.112.149096

4. H. Li and R. Durbin, "Inference of human population history from individual whole-genome sequences," Nature (London, U.K.) 475 (7357), 493-496 (2011). https://doi.org/10.1038/nature10231

5. S. Schiffels and R. Durbin, "Inferring human population size and separation history from multiple genome sequences," Nat. Genet. 46, 919-25(2014). https://doi.org/10.1038/ng.3015

6. R. R. Hudson, "Properties of a neutral allele model with intragenic recombination," Theor. Populat. Biol. 23, 183-201 (1983). https://doi.org/10.1016/0040-5809(83)90013-8

7. V. Shchur, D. Y. C. Brandt, A. Ilina, and R. Nielsen, "Estimating population split times and migration rates from historical effective population sizes," bioRxiv(2022). https://doi.org/10.1101/2022.06.17.496540

8. J. F. C. Kingman, "On the genealogy of large populations," J. Appl. Prob. 19, 27-43 (1982).

9. P. R. Wilton, Sh. Carmi, and A. Hobolth, "The SMC' is a highly accurate approximation to the ancestral recombination graph," Genetics 200, 343-355(2015). https://doi.org/10.1534/genetics.114.173898

10. M. Liang, M. Shishkin, A. Mikhailova, V. Shchur, and R. Nielsen, "Estimating the timing of multiple admixture events using 3-locus linkage disequilibrium," PLoS Genet. 18 (7), 1-17 (2022). https://doi.org/10.1371/journal.pgen. 1010281

Приложение 2

Статья 2.

Shchur V., Spirin V., Burovski E., De Maio N., Corbett-Detig R. VGsim: scalable viral genealogy simulator for global pandemic PLoS Computational Biology. 18(8) (2022), e1010409. https://journals.plos.org/ploscompbiol/article?id=10.1371/jour

nal.pcbi.1010409

Разрешение на копирование: автор статьи может использовать полную журнальную версию статьи в своей диссертации при условии, что указан источник https://journals.plos.org/ploscompbiol/s7licenses-and-copyright.

PLOS COMPUTATIONAL BIOLOGY

h>

Check for updates

OPEN ACCESS

Citation: Shchur V, Spirin V, Sirotkin D, Burovski E, De Maio N, Corbett-Detig R (2022) VGsim: Scalable viral genealogy simulator for global pandemic. PLoSComput Biol 18(8): e1010409. https://doi.org/10.1371/journal.pcbi.1010409

Editor: Manja Marz, bioinformatics, GERMANY

Received: December 2,2021

Accepted: July 18,2022

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.