Разработка программных алгоритмов для анализа данных высокоэффективного секвенирования (NGS) и характеристики иммунных репертуаров тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Булушева Ирина Алексеевна

  • Булушева Ирина Алексеевна
  • кандидат науккандидат наук
  • 2024, ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 140
Булушева Ирина Алексеевна. Разработка программных алгоритмов для анализа данных высокоэффективного секвенирования (NGS) и характеристики иммунных репертуаров: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)». 2024. 140 с.

Оглавление диссертации кандидат наук Булушева Ирина Алексеевна

Введение

Глава 1. Обзор литературы

1.1 Особенности секвенирования на MGISEQ-2000

1.1.1 Система баркодирования на MGISEQ-2000 и отличие от Illumina

1.1.2 Особенности строения баркода и алгоритм сопоставления баркод-образец от MGI Tech

1.1.3 Программы для первичного анализа данных секвенирования MGI Tech и Illumina

1.1.4 Параметры SNR и FIT

Параметры SNR и FIT в секвенаторе MGI Tech

1.2 Адаптивный иммунитет

1.2.1 Типы иммунной системы

1.2.2 Адаптивный иммунитет и его особенности

1.3 Т-клетки и Т-клеточный репертуар

1.3.1 Роль Т-клеток в адаптивном иммунитете

1.3.2 Строение Т-клеточного рецептора

1.3.3 VDJ-рекомбинация

1.3.4 Что такое клонотип и как разнообразие клонов зависит от наличия заболевания

1.3.5 Программы и пакеты для изучения клонотипов TCR

1.4 Моделирование иммунологического эксперимента

1.4.1 Сингенная и аллогенная модели

1.4.2 Линии мышей для лабораторной работы и экспериментов

1.5 Главный комплекс гистосовместимости

1.5.1 Что такое MHC и какие типы бывают у человека

1.5.2 Связывание CD4 и CD8 T-клеток с MHC

1.5.3 Детекция MHC человека (HLA)

1.5.4 Номенклатура HLA

1.5.5 Корреляция HLA с иммунитетом и ответом на различные заболевания

1.5.6 Существующие программы и пакеты для изучения HLA и разнообразия HLA в популяции

Заключение

Глава 2. Разработка и валидация новых комбинаций баркодов для секвенаторов MGI Tech

2.1 Материалы и методы

2.1.1 Анализ баркодов секвенатора MGI

2.1.2 Анализ имеющихся параметров в репорте секвенатора MGISEQ-2000

2.2 Результаты

2.2.1 Критерии совместимости баркодов в наборе от MGI Tech

2.2.2 Программа "BC-store", структура и применение

2.2.3 Апробация основных критериев подбора набора баркодов

2.3 Обсуждение

Заключение

Глава 3. Разработка и валидация новых последовательностей баркодов

3.1 Материалы и методы

3.1.1 Полный набор баркодов производителя MGI Tech

3.2 Результаты

3.2.1 Метод четверок для создания новых баркодов, совместимых с MGI Tech

3.2.2 Математическое доказательство совместимости наборов

3.2.3 Валидация одной из четверок в лабораторной практике

3.3 Обсуждение

Заключение

Глава 4. Отличия Т-клеточных клонотипов в сингенной и аллогенной модели

4.1 Материалы и методы

4.1.1 Сбор образцов для анализа Т-клеточного репертуара

4.1.2 Секвенирование

4.1.2 Программный сценарий для анализа данных секвенирования репертуара T-клеточных рецепторов большого массива образцов

4.2 Результаты

4.2.1 Разнообразие Т-клеточного ответа на опухоль EL-4

4.2.2 Сравнительный анализ сингенного и аллогенного Т-клеточного ответа на наличие опухоль-специфичных клонов

4.2.2 Анализ противоопухолевых клонов в сингенной и аллогенной модели

4.3 Обсуждение

Заключение

Глава 5. Корреляция HLA-генов I и II класса и особенностей протекания COVID-19

5.1 Материалы и методы

5.1.1 Данные и метаданные

5.1.2 Пробоподготовка образцов

5.1.3 Программные алгоритмы для анализа HLA

5.1.2 Способы отбора данных аллелей для одного пациента

5.1.3 Алгоритм для поиска ассоциаций вариантов аллелей генов HLA класса I (локусы A, B, C) и класса II (локусы DRB1, DQB1, DPB1) с исходом инфекции COVID-19 в российской популяции

5.2 Результаты

5.2.1 Аллели локусов Л, B, С, DRB1, DQB1 и DPB1 влияют на исход COVГО-19

5.3 Обсуждение

Заключение

Список литературы

Приложения

Введение

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка программных алгоритмов для анализа данных высокоэффективного секвенирования (NGS) и характеристики иммунных репертуаров»

Актуальность темы исследования

Важной областью современной биоинформатики является разработка эффективных алгоритмов для анализа данных, полученных с помощью современных технологий секвенирования ДНК. Такие технологии как высокоэффективное параллельное секвенирование нового поколения (NGS), открывают новые перспективы для фундаментальных и прикладных биомедицинских исследований. Способность NGS технологий анализировать множество образцов параллельно при минимальных затратах делает их неотъемлемым инструментом в современной генетике и иммунологии. Основной проблемой, возникающей при использовании этих технологий, является необходимость точного разделения данных между образцами, что достигается за счет использования уникальных молекулярных маркеров -баркодов [1]. Однако процесс баркодирования сопряжен с рядом сложностей, таких как ошибки секвенирования, перекрестные загрязнения и технические ограничения оборудования, что требует постоянного совершенствования методов молекулярного кодирования и обработки данных [2]. В отличие от платформ Illumina, секвенаторы компании MGI Tech обладают существенно меньшими возможностями в выборе и комбинации уникальных баркодов для конструирования библиотек для секвенирования. Однако популярность китайских секвенаторов неуклонно растет. В связи с этим важной задачей настоящего исследования является разработка метода подбора оптимальных комплектов баркодов для секвенаторов MGI, а также расширение существующих возможностей путем создания новых уникальных баркодов. Производитель MGI Tech предусматривает использование баркодов в эквимолярных пропорциях, что

ограничивает гибкость при работе с различными наборами образцов. Важность качественного анализа данных NGS подчеркивается также быстрым развитием и интеграцией NGS в клиническую практику, особенно в свете глобальной проблемы, такой как пандемия СОУГО-19, требующей оперативного анализа большого потока образцов, а также возможностями, которые NGS предоставляет для исследования специфических заболеваний, ассоциированных с работой иммунной системы. Понимание устройства секвенирования баркодов может быть очень важно для разработки новых адаптеров, что позволит увеличить число образцов в одном запуске секвенирования.

Изучение взаимодействия патогенов и иммунной системы на молекулярном уровне с использованием NGS может значительно улучшить понимание механизмов болезни и способствовать разработке новых подходов в лечении. Например полиаллели главного комплекса гистосовместимости НЬА сильно ассоциированы с восприимчивостью к вирусу SARS-CoV-2 и секвенирование этих антигенпрезентирующих молекул может помочь предсказать исход заболевания. Также, возможность секвенирования и анализа Т-клеточного репертуара открывает возможность для анализа состояния иммунной системы и предсказания патогенных вариантов [4, 5]. Оптимизация существующих алгоритмов анализа данных NGS может позволить работать с большим количеством данных и получать более статистически достоверные результаты, играющие роль в медицине. Секвенирование также является наиболее эффективным методом генетического скрининга разных типов первичных иммунодефицитов.

Настоящее исследование посвящено разработке и апробации новых алгоритмических подходов к баркодированию и анализу генетических данных с целью улучшения качества и точности результатов NGS. Оптимизация существующих алгоритмов анализа данных NGS может позволить работать с

большим количеством данных и получать более статистически достоверные результаты, играющие роль в медицине. Разработка таких методов имеет критическое значение для расширения возможностей современной молекулярной диагностики и создания новых стратегий в борьбе с инфекционными заболеваниями, включая COVID-19, основанных на учете генетической предрасположенности, а также для обработки и определения специфичности и динамики для рекомбинирующих (ТКР) и полиаллельные (HLA) геномных данных.

Цели и задачи

Цель исследования - разработать и оптимизировать программные алгоритмы для анализа и классификации генетических иммунологических данных, полученных с помощью таргетного секвенирования, с целью улучшения результатов секвенирования и уменьшения ошибок. Для достижения этой цели поставлены задачи:

1. Разработать методику, компенсирующую потерю глубины секвенирования, вызванную неразличимостью баркодов на секвенаторе производителя MGI Tech. Такая методика позволяет увеличить статистическую мощность данных секвенирования, в частности, при определении конкретных геномных вариантов, обеспечивая тем самым повышение точности и надежности результатов, а также оптимизировать расход реагентов. Разработать программное обеспечение для реализации запроса лаборанта на подбор комбинации баркодов из имеющегося набора в лаборатории.

2. Разработать новые последовательности баркодов для секвенаторов от MGI Tech. Расширение набора уникальных баркодов позволит реализовать секвенирование для большего числа образцов, чем предусматривает производитель MGI Tech.

3. Разработать программные алгоритмы для обработки данных секвенирования Т-клеточных рецепторов и полиаллельных генов HLA, включая создание и оптимизацию новых баркодов для улучшения точности и сокращения времени анализа.

4. Идентифицировать и проанализировать новые генетические маркеры, ассоциированные с различиями в иммунном ответе, особенно при онкологических и инфекционных заболеваниях, для определения их потенциального применения в диагностике и терапии.

5. Проверить применимость и эффективность разработанных методов в модельных экспериментах и клинических условиях, демонстрируя их возможности в реальных медицинских сценариях.

Новизна и практическая значимость

Новаторская методика работы с баркодами секвенатора MGI позволила значительно повысить число единовременно секвенируемых образцов в одной дорожке секвенатора и увеличить долю отфильтрованных первичных данных секвенирования. Алгоритм позволил оптимизировать расход дорогостоящих реагентов в лаборатории и подобрать уникальные комбинации баркодов, выходящие за рамки предложенных производителем MGI.

Разработана и внедрена программа BC-store, которая представляет собой оригинальное решение для автоматизации процесса подбора баркодов на этапе пробоподготовки образцов для секвенирования на базе MGI. Программа обеспечивает оптимизацию комбинаций баркодов и построение баркодов-индексов, что значительно упрощает и ускоряет работу с большим потоком образцов. Помимо прочего, алгоритм позволяет менять пропорции

образов от эквимолярного, предложенного производителем, до любого соотношения, запрашиваемого пользователем.

Программа используется в работе геномного центра при РНИМУ им. Пирогова для работы с секвенатором DNBSEQ-G400 (MGISEQ-2000).

Разработан подход, объединяющий алгоритмы для эффективной обработки и анализа рекомбинирующих Т-клеточных рецепторов, иммуноглобулинов, а также полиаллельных генов НЬА. Это позволило оптимизировать анализ Т-клеточных репертуаров и выявление клонов-онкосупрессоров. Это обеспечило возможность установления новых генетических маркеров, ассоциированных с индивидуальными особенностями иммунного ответа, что представляет большую ценность для разработки новых методов лечения онкологических и инфекционных заболеваний.

Наконец, исследование паттерна мутационной изменчивости штамма SARS-CoV-2 и ассоциации специфических аллелей НЬА с тяжестью заболеваний COVID-19 открывает новые перспективы для понимания взаимодействия между вирусной инфекцией и её носителями, обладающими конкретными генетическими особенностями, что может способствовать разработке персонализированных подходов к лечению и профилактике COVID-19 и других вирусных заболеваний.

Результаты исследования важны для практической молекулярной диагностики и иммунотерапии поскольку предоставляют новые инструменты и методы для точного и быстрого анализа генетической информации. Это обеспечивает улучшение качества диагностических услуг, повышает эффективность лечения и открывает новые направления в исследовании механизмов заболеваний на молекулярном уровне.

Основные результаты и положения, выносимые на защиту

1. Разработанный метод учета засветки секвенатора от MGI Tech на этапе чтения баркодов секвенаторов от производителя позволяет создавать новые наборы баркодов, оптимизировать расход реагентов, уменьшить потерю данных секвенирования и использовать неэквимолярные пропорции образцов.

2. Разработанный набор уникальных баркодов для секвенаторов MGI Tech совместим с набором от производителя и позволяет значительно увеличить число образов, секвенируемых в одной дорожке секвенатора.

3. Разработанные программные сценарии для работы с хранилищем basespace Illumina и программными пакетами MIGEC, tcR и VDJtools позволяют оптимизировать обработку и определение специфичности и динамики геномных данных, включая секвенирование рекомбинирующих Т-клеточных рецепторов, а также позволяет работать с большим объемом данных и установить конкретные клоны, ассоциированные с противоопухолевым ответом в сингенной и аллогенной модели мышей.

4. Разработанный алгоритм анализа корреляций HLA-типов и метаданных пациентов, больных COVID-19 позволил установить конкретные аллели и группы аллелей HLA I и II класса, ассоциированные с тяжестью заболеваний COVID-19 в российской популяции.

5. Разработанные методы апробированы в лабораторных условиях и показали свою эффективность.

Объекты и методы

В рамках исследования были изучены следующие объекты: последовательности сегментов ДНК, кодирующие рекомбинирующие Т-клеточные рецепторы, полиаллельные гены HLA, баркоды секвенаторов производителя MGI Tech. Эти объекты были выбраны для анализа из-за их

ключевой роли в адаптивном иммунном ответе и их значимости в контексте онкологических и инфекционных заболеваний.

Методы исследования включали технологии анализа высококачественных геномных данных, полученных с помощью современных технологий секвенирования нового поколения (NGS). Были разработаны алгоритмы для оптимизации данных секвенирования, включая программу BC-store для автоматизации обработки данных с использованием уникальных баркодов. Анализ генетических маркеров и их ассоциации с клиническими характеристиками осуществлялся с помощью статистического моделирования и машинного обучения. Для идентификации и анализа опухоль-специфических клонов и аллелей HLA, ассоциированных с тяжестью COVID-19, использовались методы глубокого секвенирования иммунного репертуара.

Апробация работы и публикации по теме диссертации

Результаты и основные положения работы доложены на международных и российских конференциях, включая I Всероссийский конгресс с международным участием по фундаментальным проблемам лабораторной диагностики, Академия лабораторной медицины: новейшие достижения (25-27 мая 2021 года), и NGS2021 (РНИМУ им. Пирогова, 2021) и в постерном докладе на 16-й Международном междисциплинарном конгрессе по аллергологии и иммунологии.

По теме диссертации опубликованы 3 работы в рецензируемых международных научных журналах, индексируемых в базах данных Scopus и Web of Science и получены два свидетельства о государственной регистрации программ ЭВМ.

Работа по теме диссертации была поддержана грантом 20-34-90030 Аспиранты (руководитель И.А. Кофиади).

Публикации в изданиях из перечня ВАК

1) 1. Bulusheva, I., Belova, V., Nikashin, B. and Korostin, D. BC-store: A program for MGISEQ barcode sets analysis// Plos one, 2021, 16(3), p.e0247532.

2) 2. Cheranev, V., Bulusheva, I., Vechorko, V., Korostin, D. and Rebrikov, D.,. The search of association of HLA class I and class II alleles with COVID-19 mortality in the Russian cohort. International Journal of Molecular Sciences, 2023, 24(4), p.3068.

3) 3. Bulusheva, I., Kozlov, I., Mitin, A., Korostin, D., Kofiadi, I.: NGS data analysis algorithm for evaluating repertoire of T-cell receptors involved in the antitumor immune response. Immunology, 2020;41(5):400-10.

Препринты

4) Bulusheva, I., Shmitko, A., Vasiliadis, J., Suchalko, O., Syrko, D., Belova, V. and Korostin, D. Designing of custom barcodes for sequencing on the MGI platform. bioRxiv, 2022, pp.2022-09. doi: https://doi.org/10.1101/2022.09.07.506907

Научные конференции и семинары

1) И.А. Булушева, В.В. Черанев, Д.О. Коростин, Д.В. Ребриков. Установление HLA-маркеров, ассоциированных с особенностями течения инфекции и повышенным риском смерти при COVID-19 // I Всероссийский конгресс с международным участием по фундаментальным проблемам лабораторной диагностики, Академия лабораторной медицины: новейшие достижения, 25-27 мая 2021 года.

2) Булушева И.А.,Коростин Д.О., Митин А.Н., Кофиади И.А. Алгоритм анализа данных NGS при оценке репертуаров Т-клеточных рецепторов, вовлеченных в противоопухолевый иммунный ответ. // 16-й Международный

междисциплинарный конгресс по аллергологии и иммунологии, 27 июня 2020 года.

Патенты

1) Свидетельство о государственной регистрации программы для ЭВМ №2020616319 15.06.2020 «Программа подбора сетов адаптеров с баркодами для платформ MGISEQ «BC-store» / Булушева И.А., Черанев В.В., Коростин Д.О. // ФГАОУ ВО РНИМУ им. Н.И. Пирогова Минздрава России

2) Свидетельство о государственной регистрации программы для ЭВМ №2021613303 05.03.2021 «Программа подбора сетов адаптеров с баркодами для платформ MGISEQ «BC-store» для ПК на ОС Windows» / Булушева И.А., Белова В.А., Коростин Д.О. // ФГАОУ ВО РНИМУ им. Н.И. Пирогова Минздрава России

Структура и объем работы

Диссертация состоит из введения, 5 глав, выводов и списка литературы, состоящего из 110 источников. Содержательная часть работы изложена на 145 страницах текста, включает 32 рисунка, 9 таблиц и 6 приложений.

Глава 1. Обзор литературы

1.1 Особенности секвенирования на MGISEQ-2000

1.1.1 Система баркодирования на MGISEQ-2000 и отличие от Illumina

Производительность современного оборудования для проведения высокоэффективного параллельного секвенирования (Next Generation Sequencing, NGS) позволяет получать значительный объем данных, часто избыточных для данного образца. Для объединения нескольких образцов на одной дорожке проточной кюветы используется молекулярное кодирование, которое осуществляется лигированием адаптеров, несущих уникальную нуклеотидную последовательность [1]. Последовательности адаптеров используются для демультиплексирования результатов секвенирования для отдельных файлов fastq такими программами, как zebracall и BasecallLite для MGI Tech или bcl2fastq для Illumina [6]. Для сопоставления прочтения и образца в секвенаторах NGS используется процесс пробоподготовки "баркодирование" (англ. barcode - адаптер, индекс), когда каждому образцу сопоставляется один или несколько уникальных баркодов. Задача подбора адаптеров важна при секвенировании нескольких образцов в одном запуске секвенатора, чтобы в каждом цикле были представлены все 4 основания ДНК, чтобы программное обеспечение могло правильно идентифицировать кластеры ДНК и выполнять точный распознавание оснований [11]. Поэтому производители секвенаторов NGS (секвенаторы нового поколения, Next Generation Sequencing) рекомендуют использовать комбинации адаптеров от производителя.

Для классификации прочтений с установлением конкретных образцов используется технология лигирования адаптеров, содержащих специальные последовательности, уникальные для каждого образца. Такие вставки имеют название «баркод», а процесс их лигирования - баркодированием.

Основные проблемы, связанные с баркодами:

1) ошибки в прочтении нуклеотидов - неверно определенный нуклеотид или отсутствие детекции ("N")

2) отсутствие баркода в прочтении

3) невозможность однозначно определить баркод

4) засветка из-за использования несовместимых баркодов в одном запуске секвенатора

Баркоды MGI Tech

Компания MGI Tech Co. Ltd. (a subsidiary of the BGI Group) производит широкую линейку секвенаторов на основе технологий "DNA нанобол" (eng. nanoball, DNB) и cPAS секвенирования, включающую в себя как benchtop приборы, так и машины для потокового анализа WGS (whole genome sequencing) человека. Секвенирование возможно в одноконцевом и парнокоцевом режиме, с использованием единичных или двойных баркодов условий [8]. После составления набора баркодов происходит баркодирование образцов, пулирование и амплификация, формирование кольцевых одноцепочечных ДНК и формирование наношаров (Рисунок 1). Далее наношары размещаются в лунках проточной ячейки и происходит процесс секвенирования (Рисунок 2) по методу cPAS (комбинаторный зондовый якорный синтез), который является улучшенной версией технологии cPAL, разработанной Complete Genomics [8].

Баркодирование библиотек ДНК необходимо для пулирования нескольких разных биообразцов в одном и том же запуске и дальнейшей идентификации

прочтений в процессе преобразования промежуточных файлов секвенирования в общеупотребимый формат fastq. Длина последовательности баркода у MGI составляет 10 пар оснований.

Рисунок 1. Особенности пробоподготовки в секвенаторе MGI Tech. После составления набора баркодов происходит баркодирование образцов, пулирование и амплификация, формирование кольцевых одноцепочечных ДНК и формирование наношаров.

Предварительная обработка

Pre-trea tment

Подготовка к сканированию

Incorporation

■м-

Обработка изображений, определение порядка нуклеотидов

IPC Base-Calling

Imaging

Очистка

Clea n-up

Очистка после сканирования

Cleavage

Рисунок 2. Особенности секвенирования в секвенаторе MGI Tech. После предварительной обработки происходит циклическое нуклеотидное сканирование с последующей обработкой полученных изображений и очистка секвенатора после завершения всех процедур.

По умолчанию в стандартных китах реагентов для подготовки библиотек и секвенирования для среднепроизводительного секвенатора DNBSEQ G-400 (DNB = DNA nanoballs, seq - sequencing) доступно single barcode секвенирование, а режим dual barcode является опциональным и требует покупки дополнительных наборов реагентов.

Баркоды Illumina

В отличие от MGI Tech технологии, производитель Illumina использует систему как одинарных, так и парных индексов [7].

Illumina предлагает широкий выбор наборов адаптеров, обеспечивающих гибкость системы подбора адаптеров и и несколько стратегий индексации. Наборы адаптеров Illumina отличаются друг от друга общим количеством образцов, которые они могут одновременно поддерживать, длиной и последовательностью индексов, а также химическим составом, с помощью которого они прикрепляются к фрагменту вставки, что делает секвенаторы Illumina более простыми в формировании пула образцов и выборе набора баркодов, чем MGI Tech.

1.1.2 Особенности строения баркода и алгоритм сопоставления баркод-образец от MGI Tech

MGI на сегодня предлагает последовательности адаптеров со 128 баркодами [9], а приобрести у производителя можно набор только из 96 баркодированных адаптеров [10]. Одному образцу могут соответствовать несколько баркодов. Производители MGISEQ предлагают 96 вариантов баркодов и схему их комбинирования по 4, 8 и 24 баркодов в эквивалентных пропорциях (Рисунок 3). Это приводит к неравномерному расходу реагентов и сложностям с подбором образцов нужных объемов.

А

Barcode 1 TAGGTCCGAT

Barcode 2 GGACGGAATC

Barcode 3 CTTACTGCCG

Barcode 4 ACCTAATTGA

Barcode 13 CGGCAATCCG

Barcode 14 ATCAGGATTC

Barcode 15 TCATTCCAGA

Barcode 16 GATGCTGGAT

Barcode 25 TAGAGGACAA

Barcode 26 CCTAGCGAAT

Barcode 28 GCTGAGCTGT

Barcode 29 AACCTAGATA

Barcode 30 TTGCCATCTC

Barcode 32 CGCTATCGGC

]0

!

; н

73 Т*

7*

77 :

10 U

«

1*1

m

IV 1114

■ ZI 121 IU 114 Ii* 1J4 ЦТ

nu

I« M 4»

I* M »

117 3S M

IK 34 M

» 37 M

3» 31 114

iu w »

3J 115 V.

Рисунок 3. А. Пример последовательностей баркодов секвенатора MGI Tech. Б. таблица совместимых баркодов от производителя MGI Tech. Из технического описания производителя MGI Tech [50].

Производители MGI Tech предлагают использовать набор из 96 в виде 11 сетов адаптеров. Таким образом, производитель ограничивает пользователей платформы довольно небольшим набором адаптеров и сетов, что в некоторых случаях может оказать влияние на выбор платформы для секвенирования. Также система G-400 чувствительна к балансу нуклеотидов на каждом цикле секвенирования баркода, поэтому по задумке производителя набор баркодов на каждом лейне должен быть замешан в эквимолярных пропорциях, что в лабораторной практике приводит к неудобствам.

Также важно отметить, что особенностью секвенаторов производителя MGI Tech является считывание баркодов в конце прочтения [8], а не начале, как в Illumina, что негативно влияет на качество данных (падения качества секвенирования к концу прочтения) и делает задачу понимания процесса баркодирования и детекции баркодов еще важнее.

На одной проточной кювете (англ. Flow cell) секвенатора MGI-2000 расположены 4 дорожки. Каждому образцу соответствует один или несколько уникальных баркодов. Для каждой дорожки набор образцов и баркодов (англ. barcodes ' set or set of barcodes), формируется индивидуально.

Баркод секвенатора MGI представляет собой последовательность из 10 нуклеотидов. Каждый баркод имеет уникальный порядковый номер в базе данных MGISEQ. Считывание баркодов происходит обновременно со всех наношаров секвенатора в течение 10 циклов [8]. Определение нуклеотида происходит путем детекции по интенсивности излучения по 4 каналам и имеет одно из 5 значений - A, G, T, C, N ("N" в случае если нуклеотид не определен). По совокупности 10 букв с одного наношара алгоритм секвенатора сопоставляет прочтение с одним из существующих в его базе данных баркодом. Подробнее этот алгоритм будет рассмотрен в результатах 2.2.

1.1.3 Программы для первичного анализа данных секвенирования

MGI Tech и Illumina

ZebraCall, BasecallLite и bcl2fastq [6] — это программы для анализа данных секвенирования, используемые на платформах от различных производителей, в частности, MGI Tech и Illumina соответственно.

ZebraCall и BasecallLite — это программы, разработанные специально для платформ секвенирования MGI Tech. Они используется для преобразования сырых данных секвенирования в файлы формата FASTQ и включают в себя:

- Обработка данных: Программа извлекает и обрабатывает сигналы, полученные от секвенатора, чтобы идентифицировать нуклеотиды в каждой позиции прочтения.

- Учет особенностей платформы MGI: софт учитывает специфику технологии DNA наношаров (DNB) и комбинационного анкерного синтеза (cPAS), используемой в секвенаторах MGI, что позволяет более точно определять последовательности нуклеотидов.

- Идентификация баркодов: программы учитывают наличие ошибок в прочтении баркодов и сопоставляют чтения с образцами с учетом имеющейся базы данных баркодов

bcl2fastq — это программа, разработанная для платформ секвенирования Illumina. Ее основная задача — преобразование файлов BCL (Base Call) в формат FASTQ. Основные функции bcl2fastq включают:

- Обработка данных: Программа извлекает данные из файлов BCL, которые содержат информацию о базовых вызовах и качестве для каждой позиции прочтения.

- Параллельная обработка: bcl2fastq поддерживает многопоточные вычисления, что ускоряет процесс преобразования больших наборов данных.

- Фильтрация и контроль качества: Программа также предоставляет функции для фильтрации и контроля качества данных, что помогает исключить низкокачественные чтения и улучшить общую надежность данных.

Отличия и применение ZebraCall, BasecallLite и bcl2fastq

Технология секвенирования: ZebraCall и BasecallLite оптимизированы для работы с технологией DNA наношаров и cPAS, используемой в секвенаторах MGI. В то время как bcl2fastq предназначена для обработки данных, полученных с помощью технологии секвенирования по синтезу (SBS), применяемой в Illumina.

Совместимость и интеграция: ZebraCall и BasecallLite интегрированы с программным обеспечением, которое используется на платформах MGI Tech,

тогда как bcl2fastq тесно связана с экосистемой инструментов и приложений Illumina.

- Качество данных и ошибки: Все три инструмента предлагают высокую точность обработки данных, однако ZebraCall и BasecallLite имеют специфические алгоритмы для корректировки данных, полученных с MGI секвенаторов, которые учитывают уникальные характеристики DNB и cPAS технологий. bcl2fastq также предоставляет мощные инструменты для контроля качества, но ориентированы на технологию Illumina.

Стоит отметить также особенности ZebraCall и BasecallLite - алгоритмы позволяют пользователю задать количество допустимых ошибок секвенирования в адаптере на этапе идентификации баркода. По умолчанию оба инструмента используют значение в 2 ошибки. Снижение значения до 1 нуклеотида приводит к более строгому сопоставлению баркодов и базы данных баркодов что может приводить к б0льшим потерям данных секвенирования, но понижению доли неправильно определенных баркодов. Подробнее алгоритм идентификации баркодов будет рассмотрен в результатах 2.2.

Ниже приведен пример команд для работы с ZebraCall [13]: client.exe D:\Result\workspace\run_name\L01 139 6 72 -B C:\ZebraCallV2\empty_barcode.txt-N run_name-U 1 -F Команды выше включают следующие опции: доступ к папке с файлами .cal run_name — название прогона

139 — количество завершенных циклов секвенирования 6 72 — количество полей зрения, подсчитанных по горизонтали и вертикали для соответствующего лейна -B — путь к файлу с баркодами

-U — номер лейна

-F — генерация файлов fastq без создания изображений проточной ячейки

В результате для каждого лейна мы генерировали файлы run_name_L0N_read.fq.gz, где N — номер лейна. В данном примере файл содержит имя считывания и последовательность длиной 138 нуклеотидов.

1.1.4 Параметры SNR и FIT

Уровень сигнала к шуму (SNR) является важным показателем качества данных секвенирования. SNR определяется как отношение мощности сигнала к мощности шума и часто выражается в децибелах (dB). Высокий SNR указывает на то, что сигнал значительно превышает уровень шума, что приводит к более точным и надежным данным секвенирования.

В контексте секвенирования секвенирования, SNR используется для оценки качества сигнала для каждого из четырех типов нуклеотидов (A, T, C, G). Это важно, поскольку различные нуклеотиды могут иметь разные уровни шума в зависимости от условий секвенирования и используемой технологии.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Булушева Ирина Алексеевна, 2024 год

Список литературы

Доступность всех интернет-ресурсов проверена на момент 5 июня 2024

года.

1. Head S. R., Komori H. K., LaMere S. A., Whisenant T., Van Nieuwerburgh F., Salomon D. R., et al. (2014). Library construction for next-generation sequencing: overviews and challenges. Biotechniques, 56(2), 61-77. Pmid:24502796

2. Huang J., Liang X., Xuan Y., Geng C., Li Y., Lu H., et al. (2017). A reference human genome dataset of the BGISEQ-500 sequencer. Gigascience, 6(5), gix024. Pmid:28379488

3. Bulusheva I, Belova V, Nikashin B, Korostin D. BC-store: A program for MGISEQ barcode sets analysis. Plos one. 2021 Mar 1;16(3):e0247532.

4. Ye B, Smerin D, Gao Q, Kang C, Xiong X. High-throughput sequencing of the immune repertoire in oncology: applications for clinical diagnosis, monitoring, and immunotherapies. Cancer letters. 2018 Mar 1;416:42-56.

5. Bethune MT, Joglekar AV. Personalized T cell-mediated cancer immunotherapy: progress and challenges. Current opinion in biotechnology. 2017 Dec 1;48:142-52.

6. Illumina official site. Avaliable online: https://support.illumina.com/sequencing/sequencing_software/bcl2fastq-conversion-so ftware.html (доступно на 5 июня 2024 года).

7. Illumina official site. Avaliable online: https: / / support.illumina.com/content/dam/ illumina- support/documents/ documentation/ system_documentation/miseq/indexed-sequencing-overview-guide-15057455-08.pdf (доступно на 5 июня 2024 года).

8. MGI DNBSEQ™ Sequencing Technology -https://www.labtube.tv/video/MTA3MzA3.

9. Oligos and primers for BGISEQ/DNBSEQ/MGISEQ library preparation: https://en.mgi-tech.eom/Download/download_file/id/71.

10. MGIEasy DNA Adapters-96 (Plate) kit https: / / en.mgi-tech .com/products/reagents_info/5/.

11. Best practices for low diversity sequencing on the NextSeq 500/550 and MiniSeq systems https://knowledge.illumina. com/instrumentation/general/instrumentation-general-refer ence_material-list/000002882.

12. Jeon SA, Park JL, Park SJ, Kim JH, Goh SH, Han JY, Kim SY. Comparison between MGI and Illumina sequencing platforms for whole genome sequencing. Genes & Genomics. 2021 Jul;43:713-24.

13. Pavlova A, Belova V, Afasizhev R, Bulusheva I, Rebrikov D, Korostin D. Runcer-Necromancer: a method to rescue data from an interrupted run on MGISEQ-2000. bioRxiv. 2020 Nov 3:2020-11.

14.Simonsen AT, Hansen MC, Kjeldsen E, M0ller PL, Hindkj^r JJ, Hokland P, Aggerholm A. Systematic evaluation of signal-to-noise ratio in variant detection from single cell genome multiple displacement amplification and exome sequencing. BMC genomics. 2018 Dec;19:1-9.

15.Nova IC, Derrington IM, Craig JM, Noakes MT, Tickman BI, Doering K, Higinbotham H, Laszlo AH, Gundlach JH. Investigating asymmetric salt profiles for nanopore DNA sequencing with biological porin MspA. PLoS One. 2017 Jul 27;12(7):e0181599.

16.Liang S, Xiang F, Tang Z, Nouri R, He X, Dong M, Guan W. Noise in nanopore sensors: Sources, models, reduction, and benchmarking. Nanotechnology and Precision Engineering (NPE). 2020 Mar 1;3(1):9-17.

17. Murphy K, Weaver C. Janeway's immunobiology. Garland science; 2016

Mar 1.

18. Abbas AK, Lichtman AH, Pillai S. Cellular and molecular immunology. Elsevier Brasil; 2007.

19. Felippe MJ. The immune system. Equine clinical immunology. 2016 Jan 11:1-0.

20. Chaplin DD. Overview of the immune response. Journal of allergy and clinical immunology. 2010 Feb 1;125(2):S3-23.

21. Marshall JS, Warrington R, Watson W, Kim HL. An introduction to immunology and immunopathology. Allergy, Asthma & Clinical Immunology. 2018 Sep;14:1-0.

22. Greene TT, Labarta-Bajo L, Zuniga EI. Dangerously fit: extracellular ATP aids memory T cell metabolism. Immunity. 2018 Aug 21;49(2):208-10.

23. Pearce EJ, MacDonald AS. The immunobiology of schistosomiasis. Nature Reviews Immunology. 2002 Jul 1;2(7):499-511.

24. Swain SL, McKinstry KK, Strutt TM. Expanding roles for CD4+ T cells in immunity to viruses. Nature Reviews Immunology. 2012 Feb;12(2):136-48.

25. Davis MM, Bjorkman PJ. T-cell antigen receptor genes and T-cell recognition. Nature. 1988 Aug 4;334(6181):395-402.

26. Lefranc MP, Lefranc G. The T cell receptor FactsBook. Elsevier; 2001 Jul

13.

27. Dong D, Zheng L, Lin J, Zhang B, Zhu Y, Li N, Xie S, Wang Y, Gao N, Huang Z. Structural basis of assembly of the human T cell receptor-CD3 complex. Nature. 2019 Sep 26;573(7775):546-52.

28. Susac L, Vuong MT, Thomas C, von Bülow S, O'Brien-Ball C, Santos AM, Fernandes RA, Hummer G, Tampe R, Davis SJ. Structure of a fully assembled tumor-specific T cell receptor ligated by pMHC. Cell. 2022 Aug 18;185(17):3201-13.

29. Kappler J, Kubo R, Haskins K, Hannum C, Marrack P, Pigeon M, McIntyre B, Allison J, Trowbridge I. The major histocompatibility complex-restricted antigen receptor on T cells in mouse and man: identification of constant and variable peptides. Cell. 1983 Nov 1;35(1):295-302.

30. Alt FW, Oltz EM, Young F, Gorman J, Taccioli G, Chen J. VDJ recombination. Immunology today. 1992 Jan 1;13(8):306-14.

31. Schatz DG, Oettinger MA, Schlissel MS. V (D) J recombination: molecular biology and regulation. Annual review of immunology. 1992 Apr;10(1):359-83.

32. Gunasinghe SD, Peres NG, Goyette J, Gaus K. Biomechanics of T cell dysfunctions in chronic diseases. Frontiers in Immunology. 2021 Feb 25;12:600829.

33. Foth S, Völkel S, Bauersachs D, Zemlin M, Skevaki C. T Cell repertoire during ontogeny and characteristics in inflammatory disorders in adults and childhood. Frontiers in Immunology. 2021 Feb 9;11:611573.

34. Tedeschi V, Paldino G, Kunkl M, Paroli M, Sorrentino R, Tuosto L, Fiorillo MT. CD8+ T cell senescence: lights and shadows in viral infections, autoimmune disorders and cancer. International Journal of Molecular Sciences. 2022 Mar 21;23(6):3374.

35. Altogen Labs, Syngeneic Models https://altogenlabs.com/xenograft-models/syngeneic-models/

36. Bolotin DA, Poslavsky S, Mitrophanov I, Shugay M, Mamedov IZ, Putintseva EV, Chudakov DM. MiXCR: software for comprehensive adaptive immunity profiling. Nature methods. 2015 May;12(5):380-1.

37. MiLaboratories MIXCR https://mixcr.com/

38. Brochet X, Lefranc MP, Giudicelli V. IMGT/V-QUEST: the highly customized and integrated system for IG and TR standardized VJ and VDJ sequence analysis. Nucleic acids research. 2008 May 23;36(suppl_2):W503-8.

39. Alamyar E, Giudicelli V, Duroux P, Lefranc MP. IMGT/HighV-QUEST: A high-throughput system and Web portal for the analysis of rearranged nucleotide sequences of antigen receptors-High-throughput version of IMGT/V-QUEST. InJournées Ouvertes de Biologie, Informatique et Mathématiques 2010 Sep 7 (p. 60).

40. Song L, Cohen D, Ouyang Z, Cao Y, Hu X, Liu XS. TRUST4: immune repertoire reconstruction from bulk and single-cell RNA-seq data. Nature methods. 2021 Jun;18(6):627-30.

41. Dash P, Fiore-Gartland AJ, Hertz T, Wang GC, Sharma S, Souquette A, Crawford JC, Clemens EB, Nguyen TH, Kedzierska K, La Gruta NL. Quantifiable predictive features define epitope-specific T cell receptor repertoires. Nature. 2017 Jul 6;547(7661):89-93.

42. Mayer-Blackwell K, Schattgen S, Cohen-Lavi L, Crawford JC, Souquette A, Gaevert JA, Hertz T, Thomas PG, Bradley P, Fiore-Gartland A. TCR meta-clonotypes for biomarker discovery with tcrdist3 enabled identification of public, HLA-restricted clusters of SARS-CoV-2 TCRs. Elife. 2021 Nov 30;10:e68605.

43.Tcrdist3 https://tcrdist3.readthedocs.io/en/latest/

44. Shugay M, Bagaev DV, Turchaninova MA, Bolotin DA, Britanova OV, Putintseva EV, Pogorelyy MV, Nazarov VI, Zvyagin IV, Kirgizova VI, Kirgizov KI. VDJtools: unifying post-analysis of T cell receptor repertoires. PLoS computational biology. 2015 Nov 25;11(11):e1004503.

45. VDJtools: a framework for post-analysis of repertoire sequencing data https://vdjtools-doc.readthedocs.io/en/master/

46. Nazarov VI, Pogorelyy MV, Komech EA, Zvyagin IV, Bolotin DA, Shugay M, Chudakov DM, Lebedev YB, Mamedov IZ. tcR: an R package for T cell receptor repertoire advanced data analysis. BMC bioinformatics. 2015 Dec;16:1-5.

47. tcR: an R package for T cell receptor repertoire advanced data analysis. https: / / github .com/ imminfo/tcr

48. immunarch — Fast and Seamless Exploration of Single-cell and Bulk T-cell/Antibody Immune Repertoires in R https://immunarch.com/

49. Neefjes J, Jongsma ML, Paul P, Bakke O. Towards a systems understanding of MHC class I and MHC class II antigen presentation. Nature reviews immunology. 2011 Dec;11(12):823-36.

50. MGI Tech manuals https://en.mgi-tech.com/download/files/type_id/!

51. Kishore A, Petrek M. Next-generation sequencing based HLA typing: deciphering immunogenetic aspects of sarcoidosis. Frontiers in genetics. 2018 Oct 25;9:407758.

52. Geo JA, Ameen R, Al Shemmari S, Thomas J. Advancements in HLA Typing Techniques and their Impact on Transplantation Medicine. Medical Principles and Practice: International Journal of the Kuwait University, Health Science Centre. 2024 Mar 5.

53. Erlich H. HLA DNA typing: past, present, and future. Tissue antigens. 2012 Jul;80(1):1-1.

54. Tsurui H, Takahashi T, Matsuda Y, Lin Q, Sato-Hayashizaki A, Hirose S. Exhaustive Characterization of TCR-pMHC Binding Energy Estimated by the String Model and Miyazawa-Jernigan Matrix. General Med. 2013;1(126):2.

55. Giannopoulos A, Kriebardis AG. Future perspectives in HLA typing technologies. Umbilical Cord Blood Banking for Clinical Application and Regenerative Medicine. 2017 Jan 11:854-618.

56. HLA Nomenclature https://hla.alleles.org/nomenclature/index.html

57. Yu D, Rumore PM, Liu Q, Steinman CR. Soluble oligonucleosomal complexes in synovial fluid from inflamed joints. Arthritis & Rheumatism: Official Journal of the American College of Rheumatology. 1997 Apr;40(4):648-54.

58. Deighton CM, Walker DJ, Griffiths ID, Roberts DF. The contribution of H LA to rheumatoid arthritis. Clinical genetics. 1989 Sep;36(3):178-82.

59. Carrington M, Nelson GW, Martin MP, Kissner T, Vlahov D, Goedert JJ, Kaslow R, Buchbinder S, Hoots K, O'Brien SJ. HLA and HIV-1: heterozygote advantage and B* 35-Cw* 04 disadvantage. Science. 1999 Mar 12;283(5408):1748-52.

60. Sollid LM, Lie BA. Celiac disease genetics: current concepts and practical applications. Clinical Gastroenterology and Hepatology. 2005 Sep 1;3(9):843-51.

61. Gregersen PK, Silver J, Winchester RJ. The shared epitope hypothesis. An approach to understanding the molecular genetics of susceptibility to rheumatoid arthritis. Arthritis & Rheumatism. 1987 Nov 1;30(11):1205-13.

62. Kalina JL, Neilson DS, Lin YY, Hamilton PT, Comber AP, Loy EM, Sahinalp SC, Collins CC, Hach F, Lum JJ. Mutational Analysis of Gene Fusions Predicts Novel MHC Class I-Restricted T-Cell Epitopes and Immune Signatures in a Subset of Prostate Cancer. Clinical Cancer Research. 2017 Dec 15;23(24):7596-607.

63. Sette A, Rappuoli R. Reverse vaccinology: developing vaccines in the era of genomics. Immunity. 2010 Oct 29;33(4):530-41.

64.Meyerowitz-Katz G, Merone L. A systematic review and meta-analysis of published research data on COVID-19 infection fatality rates. Int J Infect Dis. 2020 Sep 29; 101:138-148.

65.WHO. Coronavirus disease (COVID-19) Weekly Epidemiological Update and Weekly Operational Update: Weekly Epidemiological Update 13 November 2020 https://www.who.int/emergencies/diseases/novel-coronavirus-2019/situation-reports (2020).

66.Mao, Ren, et al. "Manifestations and prognosis of gastrointestinal and liver involvement in patients with COVID-19: a systematic review and meta-analysis." The lancet Gastroenterology & hepatology (2020).

67.Spinato, Giacomo, et al. "Alterations in smell or taste in mildly symptomatic outpatients with SARS-CoV-2 infection." Jama (2020).

68.Vetter, P. et al. Clinical features of COVID-19. Br. Med. J. 369, m1470 (2020).

69.Zhou, F. et al. Clinical course and risk factors for mortality of adult inpatients with COVID-19 in Wuhan, China: a retrospective cohort study. Lancet 395, 1054-1062 (2020).

70.Ellinghaus, D. et al. Genomewide association study of severe COVID-19 with respiratory failure. N. Engl. J.Med. https://doi.org/10.1056/NEJMoa2020283 (2020).

71.Cascella M, Rajnik M, Cuomo A, et al. Features, Evaluation, and Treatment of Coronavirus. [Updated 2020 Oct 4]. In: StatPearls [Internet]. Treasure Island (FL): StatPearls Publishing; 2020 Jan-. Available from: https://www.ncbi.nlm.nih.gov/books/NBK554776/

72. Szolek A, Schubert B, Mohr C, Sturm M, Feldhahn M, Kohlbacher O. OptiType: precision HLA typing from next-generation sequencing data. Bioinformatics. 2014 Dec 1;30(23):3310-6.

73. Liu C, Yang X, Duffy B, Mohanakumar T, Mitra RD, Zody MC, Pfeifer JD. ATHLATES: accurate typing of human leukocyte antigen through exome sequencing. Nucleic acids research. 2013 Aug 1;41(14):e142-.

74.Dilthey AT, Moutsianas L, Leslie S, McVean G. HLA* IMP—an integrated framework for imputing classical HLA alleles from SNP genotypes. Bioinformatics. 2011 Apr 1;27(7):968-72.

75. SNP2HLA: Imputation of Amino Acid Polymorphisms in Human Leukocyte Antigens https://software.broadinstitute.org/mpg/snp2hla/

76. seq2HLA: Boegel S, Löwer M, Schäfer M, Bukur T, De Graaf J, Boisguerin V, Türeci Ö, Diken M, Castle JC, Sahin U. HLA typing from RNA-Seq sequence reads. Genome medicine. 2013 Dec;4:1-2.

77. Polysolver: Shukla SA, Rooney MS, Rajasagi M, Tiao G, Dixon PM, Lawrence MS, Stevens J, Lane WJ, Dellagatta JL, Steelman S, Sougnez C. Comprehensive analysis of cancer-associated somatic mutations in class I HLA genes. Nature biotechnology. 2015 Nov;33(11):1152-8.

78. Excoffier L, Laval G, Schneider S. Arlequin (version 3.0): an integrated software package for population genetics data analysis. Evolutionary bioinformatics. 2005 Jan;1:117693430500100003.

79. MGI Tech user manual: https: / / en.mgitech. cn/Download/ download_file/id/ 71

80. QT-designer: https://doc.qt.io/qt-5/qtdesigner-manual.html

81. Korostin D, Kulemin N, Naumov V, Belova V, Kwon D, Gorbachev A. Comparative analysis of novel MGISEQ-2000 sequencing platform vs Illumina HiSeq 2500 for whole-genome sequencing. Plos one. 2020 Mar 16;15(3):e0230301.

82.Pavlova A, Belova V, Afasizhev R, Bulusheva I, Rebrikov D, Korostin D. Runcer-Necromancer: a method to rescue data from an interrupted run on MGISEQ-2000. F1000. 2021 Jan.

83. BC-store: https://store.genomecenter.ru/bc-store/

84. Bulusheva I, Shmitko A, Vasiliadis J, Suchalko O, Syrko D, Belova V, Korostin D. DESIGNING OF CUSTOM BARCODES FOR SEQUENCING ON THE MGI PLATFORM. bioRxiv. 2022 Sep 8:2022-09.

85. Mamedov I.Z., Britanova O.V., Zvyagin I.V., Turchaninova M.A., Bolotin D.A., Putintseva E.V. et al. Preparing unbiased T-cell receptor and antibody cDNA libraries for the deep next generation sequencing profiling. Front. Immunol. 2013; 4: 456

86. MIGEC: Molecular Identifier Guided Error Correction pipeline https://migec.readthedocs.io/en/latest/

87. https://github.com/genomecenter/TCR_article_2020

88. Булушева ИА, Козлов ИБ, Митин АН, Коростин ДО, Кофиади ИА. Алгоритм анализа данных NGS при оценке репертуаров Т-клеточных рецепторов, вовлеченных в противоопухолевый иммунный ответ. Иммунология. 2020;41(5):400-10.

89. Dash P., Fiore-Gartland A.J., Hertz T., Wang G.C., Sharma S., Souquette A. et al Quantifiable predictive features define epitope-specific T cell receptor repertoires. Nature. 2017; 547 (7661): 89-93.

90. Han Y., Li H., Guan Y., Huang J. Immune repertoire: A potential biomarker and therapeutic for hepatocellular carcinoma. Cancer Lett. 2016; 379 (2): 206-12.

91.Ho W.Y., Blattman J.N., Dossett M.L., Yee C., Greenberg P.D. Adoptive immunotherapy: engineering T cell responses as biologic weapons for tumor mass destruction. Cancer Cell. 2003; 3 (5): 431-7.

92.Rosenberg S.A., Restifo N.P., Yang J.C., Morgan R.A., Dudley M.E. Adoptive cell transfer: a clinical path to effective cancer immunotherapy. Nat. Rev. Cancer. 2008; 8 (4): 299-308.

93.Kobayashi A., Hara H., Ohashi M., Nishimoto T., Yoshida K., Ohkohchi N. et al. Allogeneic MHC gene transfer enhances an effective antitumor immunity in the early period of autologous hematopoietic stem cell transplantation. Clin. Cancer Res. 2007; 13 (24): 7469-79.

94.Marcus A., Eshhar Z. Allogeneic adoptive cell transfer therapy as a potent universal treatment for cancer. Oncotarget. 2011; 2 (7): 525-6.

9 5. http s://github .com/genom ecenter/HLA_arti cle

96. Holsinger, K. E., & Weir, B. S. (2009). Genetics in geographically structured populations: defining, estimating and interpreting F ST. Nature Reviews Genetics, 10(9), 639-650.

97. Beerli, P. (2005). Pairwise distance methods. Computational Evolucionary Biology, No BSC5936-Fall, 1-7.

98. Cheranev V, Bulusheva I, Vechorko V, Korostin D, RebrikovD. The search of association of HLA class I and class II alleles with COVID-19 mortality in the Russian cohort. International Journal of Molecular Sciences. 2023 Feb 4;24(4):3068.

99. Liu, D., Qiu, Y., Zha, Y., Li, W., Li, D., & Wu, T. (2018). Association of HLA class I and class H genes with severe acute respiratory syndrome in the northern Chinese population. Blood and Genomics, 2(2), 91-96.

100. Lin, M., Tseng, H. K., Trejaut, J. A., Lee, H. L., Loo, J. H., Chu, C. C., et al. (2003). Association of HLA class I with severe acute respiratory syndrome coronavirus infection. BMC medical genetics, 4, 9.

101. Ng, M. H., Lau, K. M., Li, L., Cheng, S. H., Chan, W. Y., Hui, P. K., et al. (2004). Association of human-leukocyte-antigen class I (B*0703) and class II (DRB1*0301) genotypes with susceptibility and resistance to the development of severe acute respiratory syndrome. The Journal of infectious diseases, 190(3), 515-518.

102. Wang, F., Huang, S., Gao, R., Zhou, Y., Lai, C., Li, Z., et al. (2020). Initial whole-genome sequencing and analysis of the host genetic contribution to COVID-19 severity and susceptibility. Cell discovery, 6(1), 83.

103. Nguyen, A., David, J. K., Maden, S. K., Wood, M. A., Weeder, B. R., Nellore, A., et al. (2020). Human leukocyte antigen susceptibility map for SARS-CoV-2. Journal of virology.

104. Barquera, R., Collen, E., Di, D., Buhler, S., Teixeira, J., Llamas, B., et al. (2020). Binding affinities of 438 HLA proteins to complete proteomes of seven pandemic viruses and distributions of strongest and weakest HLA peptide binders in populations worldwide. HLA, 96(3), 277-298.

105. Wang, W., Zhang, W., Zhang, J., He, J., & Zhu, F. (2020). Distribution of HLA allele frequencies in 82 Chinese individuals with coronavirus disease-2019 (COVID-19). HLA, 96(2), 194-196.

106. Langton, D. J., Bourke, S. C., Lie, B. A., Reiff, G., Natu, S., Darlay, R. et al. (2021). The influence of HLA genotype on the severity of COVID-19 infection. HLA. ; 98: 14- 22.

107. Romero-López, J. P., Carnalla-Cortés, M., Pacheco-Olvera, D. L., Ocampo-Godínez, J. M., Oliva-Ramírez, J., Moreno-Manjón, J., et al. (2021). A bioinformatic prediction of antigen presentation from SARS-CoV-2 spike protein revealed a theoretical correlation of HLA-DRB1*01 with COVID-19 fatality in Mexican population: An ecological approach. Journal of medical virology, 93(4), 2029-2038.

108. Sanchez-Mazas, A. (2020). HLA studies in the context of coronavirus outbreaks. Swiss Medical Weekly, 150(1516).

109. Tomita, Y., Ikeda, T., Sato, R., & Sakagami, T. (2020). Association between HLA gene polymorphisms and mortality of COVID-19: An in silico analysis. Immunity, inflammation and disease, 8(4), 684-694

110. Fricke-Galindo, I., & Falfán-Valencia, R. (2021). Genetics Insight for COVID-19 Susceptibility and Severity: A Review. Frontiers in Immunology, 12, 1057.

Приложения

Приложение 1. Попарное сравнение баркодов по их нуклеотидной последовательности между каждой парой баркодов производителя MGI Tech из набора 96. Число показывает сколько из 10 нуклеотидов различны для последовательностей каждой пары баркодов.

Приложение 2. Попарное сравнение баркодов по их нуклеотидной последовательности между каждой парой баркодов производителя MGI Tech из набора 128+'999' баркод. Число показывает сколько из 10 нуклеотидов различны для последовательностей каждой пары баркодов.

Уникальный номер баркода

Приложение 3. Последовательности 63 "четверок", 63 из которых -оригинальные баркоды MGI, а 189 баркодов - полученные "методом четверок ". Всего 252 баркода.

Номер баркода Последователь ность баркода Номер баркода Последователь ность баркода Номер баркода Последователь ность баркода Номер баркода Последователь ность баркода Номер баркода Последователь ность баркода Номер баркода Последователь ность баркода Номер баркода Последователь ность баркода

1а taggtccgat 29а aacctagata 44a ccactagtoc 62а cgtgcgatcc 76а ctatcgccta öba catggtaatt 124 а gacgcgagtc

1в gtccgaactg 29в ttaagtctgt 44в aatagtogaa 62в acgcactgaa 76в agtgacaagt 88в atgccgttgg 124в ctacactcga

1с cgaacttagc 29с gg ttc gag cg 44c ttgtogactt 62с tacatagctt 7вс tcgctattcg 8вс tgcaacggcc 124с agtatagact

1d acttaggtca 29d ccggactcac 44d ggcgactagg 62d gtatgtcagg 760 gacagtggac 8bd gcattaccaa 124d tcgtgtctag

2а ggacggaatc 32а cgctatcggc 47a aagacotcta 63а tcggaaggca 77а atcgtggtct 89а caccatgtct 125а ctataacact

2в cctaccttga 32в acagtgacca 47в ttctaagagt 63в gaccttccat 77в tgacgccgag 89в ataatgcgag 125в agtgttatag

2с aagtaaggct 32с tatcgctaat 47с ggagttctcg 63с ctaaggaatg 770 gctacaactc bsc tgttgcactc 125с tcgcggtgtc

2d ttcgttccag 32d gtgacagttg 47d cctcggagac 63d agttccttgc 77d cagtattaga 89d gcggcataga 1250 gacaccgcga

за cttactgccg зза gcaacgatgg 4fla agttgccata 64а ccgatgtcgc 79в cagtgcagag 92а tcaagacgtc 127а tcggcctatg

зв aggtagcaac 33в cattactgcc 4вв tcggoaatgt 64в aactgcgaca 79с atcgcatctc 92в gattctacga 127в gaccaagtgc

эс tccgtcatta ззс atggtagcaa 4flc gaccattgcg 64с ttagcactat 790 tgacatgaga 92с ctggagtact 127с ctaattcgca

3d gaacgatggt 33d tgccgtcatt 48d ctaatggcac 64d ggtcatagtg 790 gctatgctct 92d agcctcgtag 127d agttggacat

4а acctaattga 35а gttcgctcta 51а tgcgccaott 65а acttagaatg 8 oa tcaggctggt 93а ccgctcagta

4в taagttggct 35в cggacagagt 51в gcacaatagg 65в taggtcttgc 80в gatccagccg 93в aacagatcgt

4с gttcggccag 35с acctatctcg 51с catattgtcc 65с gtûcgaggca 8 ос ctgaatcaac 93с ttatctgacg Постфикс Значение

4d cggaccaatc 35d taagtgagac 51d atgtggcgaa 65d cgaactccat 800 agg tt gatt а 93d ggtgagctac А MGI Tech

13а cggcaatccg 36а tctcacacat 53а ccgcctcaga 66а tccaagcctg 81а atactcacgc 95а ttcacgtaag В новый баркод

13в accattgaac 36в gagatatatg 53в aacaagatct 66в gaattcaag с 81в tgtagataca 95в ggatacgttc с новый баркод

1эс taatggctta 36с ctctgtgtgc 53с ttattctgag 66с cttggattca 810 gcgtctgtat 95с cctgtacgga D новый баркод

13d gttgccaggt 36d agagcgcgca 53d ggtggagctc 66d aggcctggat 81D cacgagcgtg 95d aagcgtacct

14а atcaggattc 37а ctgttaggat 55а gccggttatc 68а ctcacaagac 82а atgctccgcg 100 а ctcggcggaa

14в tgatcctgga 37в agcggtcctg 55в caaccggtga 68в agatattcta 82в tgcagaacac 100в agaccacctt

14с gctgaagcct 37с tcaccgaagc 550 attaaccgct 6sc tctgtggagt 82с gcatcttata 100с tctaataagg

14d cagcttcaag 37d gataacttca 55d tggttaacag 6bd gagcgcctcg 8 2d catgaggtgt 100d gagttgttûc

15а tcattccaga зва cgcagacgcg 56а ggaatattga 69а cgttcctact 83а tgtgaacttg 104 а gattctcttc

15в gatggaatct 38в acatctacac 56в ccttgtggct 69в acggaagtag 83в gcgcttaggc 104в ctggagagga

15с ctgccttgag 38с tatgagtata 560 aaggcgccag 69с taccttcgtc 83с cacaggtcca 104с agcctctcct

15d agcaaggctc 38d gtgctcgtgt 56d ttccacaatc 69d gtaaggacga 8 3d atatccgaat 104d tcaagagaag

16а gatgctggat 41а ttagatgcat 57а attcaacgga 71а gaaggcctgc 84а gagaggtgct 117а atgtctatcc

16в ctgcagcctg 41в ggtctgcatg 57в tggattacct 71в cttccaagca 84в ctctccgcag 117в tgcgagtgaa

16с agcatcaagc 41с ccgagcatgc 570 gcctggtaag 71с aggaattcat 84с agagaacatc 1i7c gcactcgctt

16d tcatgattca 41d aactcatgca 57d caagccgttc 71d tccttggatg 84d tctcttatga 117d catagacagg

25а tagaggacaa 42а gtccagagct 59а gtacctcaat 72а tagcttgcca 85а tgcactgtaa 121а ccttgatcaa

25в gtctcctatt 42в cgaatctcag 59в cgtaagattg 72в gtcaggcaat 85в gcatagcgtt 121в aaggctgatt

25с cgagaagtgg 42с acttgagatc 590 acgttctggc 720 cgatccattg 85с catgtcacgg 121с ttccagctgg

25d actcttcgcc 42d taggctctga 59d tacggagcca 72d actgaatggc 85d atgcgatacc 121d ggaatcagcc

26а cctagcgaat 43а cacgtgatag в1а tgaagcgttg 75а agtccatagg 86а gcctaggcaa 122 а ggaagtggca

26в aagtcacttg 43в atacgctgtc 51в gcttcacggc 75в tcgaatgtcc 868 caagtccatt 122в ccttcgccat

26с ttcgataggc 43с tgtacagcga 510 caggatacca 75с gacttgcgaa 86с attcgaatgg 122с aaggacaatg

26d ggactgtcca 43d gcgtatcact 51d atcctgtaat 75d ctaggcactt 8 go tggacttgcc 122d ttcctattgc

Приложение 4. Попарное сравнение баркодов по их нуклеотидной последовательности между каждой парой баркодов из 63 "четверок", 63 из которых - оригинальные баркоды MGI, а 189 баркодов - полученные "методом четверок ". Всего 252 баркода.

Приложение 5. Попарное сравнение нового набора баркодов (285 баркодов) по нуклеотидной последовательности между каждой парой баркодов, включая новые баркоды, полученные "методом четверок" (252 баркода), остальные оригинальные баркоды MGI из наборов 96 и 128 (32 баркода) и баркод 999 от MGI Tech. Число показывает сколько из 10 нуклеотидов различны для последовательностей каждой пары баркодов.

Приложение 6. Данные по дополнительно проанализированным запускам на дорожках секвенатора MGISEQ-2000.

í • § OI M (Д £ 1 ы 1 1 1 5 о i i i fe I s go fe % S 15 îj s s ! о 1Í III 11 ф ■а

А СО t N" Ы fr vi s ® a i 5 g b) js o 4 a u si g g is ? » а! E3S СО s * Vi s si о » H р То L.? to Ъ i го ы fr JO u fr . ы CR — 's 8 Йй "Sft О È S ig V "ÍSS Ё о 5Ê2 "i "s äli со -j S3 CO fr "i "s tafi al* 1С -J S w'ro P.S u 2SÏ ® fr 1л W » ç) S u ro Bt" i» P £ ta -5 » O? fr . F 0 o К"* S ы "ro s't j¡ P > u -5 г e? fr P » o £ "s ¡¡S S? s ï s ® fr 4 s api S 3 2 — M Й s fr "ft fe "E S s fr Si! "-J fe . с? ЧР ig ¡32 -J ¡S ы p ro w fr S fr 05 2 i St CD fr Çfl Ев g S S S Ю JS 5 "SS É в SS Sc ID s -ч 1 E* 'S S "S 2 ■D ß X i Ф || Ш g

1 i g í 1 i i i i s i 1 i g i 1 i i 1 i J i w i; 1 i i J i i 1 i u i 1 i i 1 i i J i g i 1 i u i i i i 1 i ï i 1 i i 1 i i 1 i I 1 i i 1 i us CP £ S ¡15 p iS S О S s о ID CP IS "s ID О г a о s s о ID CP g 8 es S В s "s s о Л 1 X s СП TJ I D X Vi О TJ

• ■u OD ID о 1С CD 4* id -J -J w o u OD "J CD Vi • = о о X ' Ol s ? ï Г! j я о

о o o О о H M O о О o o o o o о о О о - CP о T' в 1 if« ri ■H

о p СЛ p ÍO vi О в р о О fo W p СЛ о Р ГО СП p CD p CD o ro o K> o Kí p (il p О О s p til о о р о о ä í S hï II ИI S E ■s g

р V» o S p V" 0 1 о Jb. о я О S o S р о СП O a O № Ы 0 1 0 1 0 1 о y о g р сл о fr о y о t! 0 1 0 1 s О ? É I я г Ïiï i 1 f i Sj|

о o o о о го о o о О o O o o o о о го u о - о о ■о = i ■О i. w s £ § r |!ff

s E s s Е E 5 E Е 1 E E E E E E E Е 5 E E Е Е I1 E i, T 3 H imf LH a s

Й Ш Ja ш ш ta ш Ш ш ш ш ta i , Ï i ш ш 5 i ш ta Ja ь s 11 CL Э o5 ^il a В 1(5 a s

i i w Ï £ о Ig U s О S O s i 1 ft i Ел w Ï 5J s w i S д1 III? fäil Iii" ш

а i» i fe fe S « г s Vi is !ь ы - p Ы fr p S W 9 со e CJ is g s J [И Î" Ь тз

s a -J Ы o» tri b-СЛ h-J cd ГО •vj Ol СО CJ - ы ÍD № S CD w S3 го ■VI S ш fan ^ в to 5 - 5= 15 3--R- 11 S i] * s

i Ш Ü ш ш ta ш ш ш ш ш ta i Ï Í ш Í ta i ш ь Ja . 1 1 Inf ГШ Mil

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.