Молекулярный профиль опухолевой клеточной линии HepG2 тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Арзуманян Виктория Арменовна

  • Арзуманян Виктория Арменовна
  • кандидат науккандидат наук
  • 2025, ФГБНУ «Научно-исследовательский институт биомедицинской химии имени В.Н. Ореховича»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 184
Арзуманян Виктория Арменовна. Молекулярный профиль опухолевой клеточной линии HepG2: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГБНУ «Научно-исследовательский институт биомедицинской химии имени В.Н. Ореховича». 2025. 184 с.

Оглавление диссертации кандидат наук Арзуманян Виктория Арменовна

СОДЕРЖАНИЕ

ВВЕДЕНИЕ

ГЛАВА 1. ОБЗОР ЛИТЕРАТУРЫ

1.1. Инструментарий омикс-профилирования

1.1.1. Секвенирование нового поколения

1.1.2. Микрочипы

1.1.3. Масс-спектрометрия

1.2. Способы обработки данных омикс-профилирования

1.3. Алгоритмы интегрированного анализа

1.4. Базы данных

1.5. Источники гетерогенности генетической информации

1.6. Клеточные линии

1.7. Клеточная линия HepG2

1.8. Печеночные клеточные линии

1.9. Сравнение различных типов рака печени

1.10. Сравнение клеток HepG2, нормальных гепатоцитов, гепатобластомы и гепатоцеллюлярной карциномы

1.10.1 Геном

1.10.2. Транскриптом

1.10.3. Протеом

ГЛАВА 2. МАТЕРИАЛЫ И МЕТОДЫ

2.1. Характеристика исходных данных

2.1.1. Собственные данные молекулярного профилирования клеточной линии HepG2

2.1.2. Опубликованные данные молекулярного профилирования

2.1.2.1. Клеточная линия HepG2

2.1.2.2. Печеночные клеточные линии и исходные клетки гепатоцитов

2.2. Данные цитогенетического анализа

2.3. Анализ данных секвенирования нового поколения

2.3.1. Полногеном

2.3.2. Эпигеном

2.3.3. Транскриптом

2.3.4. Эпитранскриптом

2.3.5. Транслятом

2.4. Обработка результатов протеомного профилирования

2.5. Реконструкция регуляторной сети

2.6. Статистический анализ и визуализация данных

ГЛАВА 3. РЕЗУЛЬТАТЫ И ИХ ОБСУЖДЕНИЕ

3.1. Гетерогенность клеточной линии HepG2

3.1.1. Анализ кариотипа по цитогенетическим данным

3.1.2. Оценка плоидности генома

3.1.3. Кариотипирование на основании полногеномных данных

3.1.5.Разнообразие генетических вариантов на уровне генома

3.1.6. Метилом

3.1.7. Транскриптом

3.1.7.1. Анализ дифференциальной экспрессии генов

3.1.7.2. Филогенетическое дерево

3.1.8. Эпитранскриптом

3.1.9. Транслятом

3.1.10. Протеом

3.1.10.1. Генетические варианты на уровне протеома

3.2. Взаимосвязь между дозой и экспрессией генов

3.2.1. Сравнение генов с разной дозой между собственными повторами

3.2.2. Экспрессия генов при различной копийности в опубликованных и собственных данных

3.2.3. Зависимость копийности генов от уровня метилирования

3.2.4. Зависимость копийности генов от уровня экспрессии

3.3. Взаимосвязи между уровнями реализации генетической информации

3.3.1. Реконструкция регуляторной сети

3.3.2. Зависимость экспрессии генов от уровня метилирования

3.3.3. Поведение экспрессии генов с возможными сайтами модификации м6А

107

3.4. Общее и частное в молекулярных профилях печеночных клеточных линий (HepG2, Huh7 и Нер3В)

3.4.1. Кариотипы клеточных линий Huh7 и Нер3В

3.4.2. Анализ вариации числа копий

3.4.3. Сравнение однонуклеотидных полиморфизмов и инделов

3.2.4. Сравнение печеночных линий на транскриптомном уровне

3.4.5. Протеом печеночных клеточных линий

3.5. Различия между печеночными клеточными линиями и первичными гепатоцитами

3.5.1. Анализ дифференциальной экспрессии генов между печеночными

линиями и первичными гепатоцитами

3.5.2. Сравнение потенциальных генов-маркеров рака печени

ГЛАВА 4. ЗАКЛЮЧЕНИЕ

ГЛАВА 5. ВЫВОДЫ

СПИСОК ЛИТЕРАТУРЫ

СПИСОК СОКРАЩЕНИЙ

СЛОВАРЬ ТЕРМИНОВ

БЛАГОДАРНОСТИ

Приложение

Приложение

Приложение

Приложение

Приложение

Приложение

Приложение

Приложение

Приложение

ВВЕДЕНИЕ

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Молекулярный профиль опухолевой клеточной линии HepG2»

Актуальность выбранной темы

Задача системной биологии заключается в изучении множества взаимодействий внутри биологических систем, выходя за рамки традиционного редукционизма и предлагая целостный взгляд на понимание биологических процессов [1]. Интеграция данных необходима для глубокого осмысления функционирования как клеток, тканей и органов, так и организма в целом. Расшифровка межмолекулярных взаимосвязей и путей их регуляции важна и для задач современной медицины, где дальнейший прогресс невозможен без всестороннего анализа этих сложных процессов. Системный анализ позволяет изучать преобразование генетической информации в фенотип через стадии транскрипции и трансляции, учитывая при этом возможное влияние внешних факторов [2].

Современные биомедицинские исследования охватывают анализ различных омикс-уровней, таких как геном, эпигеном, транскриптом, протеом и метаболом. Эти методы, в отличие от традиционных узконаправленных подходов, позволяют в совокупности получить целостное представление об объекте. Несмотря на растущий объем данных, полученные результаты не позволяют полностью заполнить пробелы в понимании молекулярных путей. Существует высокая потребность в унифицированных подходах для обработки данных, поскольку универсального метода для комбинированного анализа различных омикс-уровней или предсказания данных одного уровня на основе другого пока не разработано.

Удобным объектом для отработки методов системного анализа и расшифровки биологических процессов являются клеточные линии (культуры), выведенные из клеток животных или человека. На настоящий момент существует 1 970 клеточных линий человека (в соответствии с биобанком ATCC), полученных как из опухолевых, так и нормальных клеток. Клеточные культуры используются в широком спектре исследований, включая моделирование клеточных процессов, поиск лекарственных мишеней и доклинических испытаний. Популярность клеточных культур обусловлена их единообразием, схожестью с исходными клетками и сохранностью молекулярных профилей в процессе культивирования. Клетки могут поддаваться многократному, а иногда и бесконечному культивированию. Тем не менее, для каждой клеточной линии существует рекомендованный срок культивирования, в рамках которого клетки считаются неизменными. Отсутствие строго регламентированных правил и

распространение клеточных линий по разным лабораториям, где используются различные протоколы культивирования, вызывают определенную беспокойство о возникновении гетерогенности. В связи с этим многие исследователи проводят омикс-исследования своих образцов, чтобы убедиться в сохранении генетической стабильности и фенотипических характеристик.

Для эффективного применения клеточных линий и корректного использования ранее полученных для этих объектов омикс-данных необходимо детальное понимание их молекулярной специфики. Предпочтительно начать анализ с наиболее популярных клеточных линий.

Степень разработанности темы

За последние десятилетия молекулярные биологи провели множество исследований, в результате которых получили данные об «-омах»: геноме, метиломе, транскриптоме, протеоме, метаболоме и пр. для разнообразных биологических объектов. Несмотря на накопленный объем геномных и постгеномных данных, понимание о взаимосвязи между уровнями реализации генетической информации весьма ограничено. По данным репозитория PubMed [3], опубликовано порядка 16 тысяч статей, посвященных мультиомному анализу. Для сравнения, суммарно для отдельных омикс-уровней накоплено более двух миллионов опубликованных работ. Такая разница объясняется трудоемкостью и высокой стоимостью мультиомных экспериментов.

Клеточные линии активно используются не только в изучении функциональности ДНК, но и на начальных этапах исследований в области разработки лекарств или поиска биомаркеров. Считается, что клеточные линии имеют относительно воспроизводимый молекулярный профиль, что обеспечивает высокую воспроизводимость результатов.

Недавние работы по анализу массива образцов одной клеточной линии опровергли постулат об их единообразии. Выполненное в 2018 году масштабное тестирование противоопухолевых препаратов на 27 образцах клеточной линии MCF-7 показало наличие как минимум двух подтипов клеток, по-разному реагирующих на воздействие лекарств [4]. Годом позже было проведено исследование 14 образцов клеточной линии HeLa из 13 лабораторий, в котором показано, что образцы одной клеточной линии могут существенно отличаться между собой, формируя три подтипа клеток [5].

Востребованность печеночной клеточной линии HepG2 в фармакологических и токсикологических исследованиях делает ее приоритетной для оценки молекулярной гетерогенности образцов внутри культуры.

Целью данной работы является построение и сравнительный анализ молекулярного портрета опухолевой клеточной линии HepG2 на основе данных, охватывающих разные уровни передачи молекулярно-генетической информации.

Для достижения указанной цели были поставлены следующие задачи:

1. Оценить гетерогенность клеточной линии HepG2 на основе геномных, эпигеномных, транскриптомных и протеомных данных.

2. Изучить взаимосвязь между копийностью генов и соответствующими продуктами реализации молекулярно-генетической информации.

3. Определить элементы регуляции, обеспечивающие взаимодействие между различными уровнями омикс-данных.

4. Оценить общие и частные характеристики опухолевой клеточной линии HepG2 и других печеночных культур.

Научная новизна работы

В работе впервые сформирован целостный молекулярный портрет опухолевой клеточной линии HepG2 на основе результатов широкомасштабных анализов генома, метилома, транскриптома и протеома. Результаты работы позволят корректно использовать данную линию в экспериментах и минимизировать ошибки при интерпретации результатов.

Теоретическая и практическая значимость

На январь 2024 года по запросу «HepG2» в базе данных PubMed находится 40 059 статей, что является четвертым результатом среди всех клеточных культур и первым среди печеночных клеточных линий. Клеточная линия HepG2 имеет опухолевую природу и является моделью гепатобластомы, однако ее часто используют и как модель нормальных гепатоцитов, несмотря на доказанные различия в ряде молекулярных механизмов [6]. Детальное описание и сопоставление молекулярных профилей, полученных для различных образцов HepG2, позволит использовать ее более корректно при дизайне экспериментов, способствуя улучшению качества и точности научных выводов.

Полученные сведения об общих и частных отличиях печеночных клеточных

культур дают основу к более осмысленному выявлению регуляторных механизмов, отвечающих за тканеспецифичные свойства. Выполненный анализ взаимосвязей молекулярных уровней в рамках исследования одного образца открывает возможности для направленного изучения скрытых процессов регуляции экспрессии и трансляции при масштабировании такого мультиомного профилирования.

Методология и методы диссертационного исследования

В работе использованы результаты геномного, бисульфитного, транскриптомного, транслятомного и протеомного профилирований, выполненных современными экспериментальными методами [7]. Опубликованные необработанные данные для клеточных линий были собраны из баз данных NCBI SRA (для нуклеиновых кислот) и PRIDE (для белков). Обработка данных проводилась с применением актуальных биоинформатических подходов, были учтены рекомендации ведущих научных школ в области омикс-анализа [8].

Основные положения, выносимые на защиту

1. Для клеток HepG2 характерными стабильными аберрациями генома являются t(1;21)(p36;p11), +2, +6(p11.1-p13.3, q21-q24.3), +17(q12qter), +16(p12.2-p13.2), +16(p12.2-p13.2), del(9)(q12), +20, +20, del(Y)(p11.32, q11.23qter), del(SATp).

2. Образцы клеточной линии HepG2 характеризуются высокой степенью сходства транскриптомных профилей. Локальные аберрации касаются генов, ответственных за метаболизм ксенобиотиков, и ассоциируются с практиками ведения клеточных линий в отдельных лабораториях.

3. Печеночные клеточные линии (HepG2, Huh7, Hep3B) имеют схожие профили экспрессии генов, которые значительно отличаются от профилей клеточных линий другой природы.

Степень достоверности и апробация результатов

Полученные в ходе выполнения работы результаты верифицированы должным образом согласно современным научным представлениям. В работе были использованы передовые вычислительные алгоритмы, рекомендованные научным сообществом, в частности GATK и C-HPP [9, 10], а также актуальная информация из курируемых баз данных, включая Ensembl, NCBI, UniProt и др. Обсуждение результатов проводилось с учетом новейших достижений в области биологических и медицинских наук. Научные положения и выводы, изложенные в диссертации, обоснованы и подтверждены

фактическим материалом.

Основные положения диссертационной работы были представлены в виде докладов на конференциях: «Высокопроизводительное секвенирование в геномике» (Новосибирск, 2022), «Вычислительная биология и искусственный интеллект для персонализированной медицины» (Москва, 2022), симпозиуме «Белки и пептиды» (Сочи, 2022), «Вычислительная молекулярная биология» (Москва, 2023), Конгрессе международной организации «Протеом человека» (HUPO 2023, Пусан, Южная Корея). Устные сообщения представлялись на симпозиуме «XXVIII Биоинформатика и компьютерное конструирование лекарств» (Москва, 2021) и на конференции «Мультиомные технологии для прецизионной медицины» (Москва, 2023).

По теме диссертации опубликовано 15 работ, которые включают 8 статей в рецензируемых научных журналах и 7 публикаций в трудах конференций.

ГЛАВА 1. ОБЗОР ЛИТЕРАТУРЫ

1.1. Инструментарий омикс-профилирования

Прогресс в высокопроизводительных технологиях секвенирования привел к созданию огромного объема данных, которые используются для количественной оценки и описания определенных наборов биомолекул, таких как ДНК, РНК, белки и метаболиты [11]. Эти данные создают основу для детального понимания механизмов функционирования живых систем.

На момент написания обзора известно около 25 видов омикс-данных, охватывающих разнообразные уровни передачи и регуляции генетической информации. Наибольшее количество накопленных данных относится к результатам классического высокопроизводительного профилирования генома (вся ДНК в клетке), транскриптома (РНК, полученная в результате транскрипции всего генома), протеома (информация о белках, транслируемых из транскриптома) [12]. Несколько реже встречаются данные по эпигеному (набор химических изменений в генетическом материале клетки) и метаболома (малые молекулы, образующиеся в процессе клеточного метаболизма). Относительно недавно стали появляться данные по типу эпитранскриптома (набор химических модификаций молекул РНК) и транслятома (совокупность мРНК, транслируемых на рибосомах в данный момент). Для каждого из этих омикс-слоев требуются специфические методы исследования и соответствующие стратегии анализа, а также алгоритмы для обработки данных, адаптированные под конкретные цели исследований.

1.1.1. Секвенирование нового поколения

Существует множество методов секвенирования нуклеиновых кислот, среди которых одним из наиболее распространенных и надежных является метод Сэнгера. Этот подход дает возможность определять последовательности длиной до 1000 пар нуклеотидов и применяется для анализа небольших геномных или генных фрагментов. Кроме того, метод Сэнгера часто используют для подтверждения данных, полученных при помощи технологий секвенирования нового поколения (Next Generation Sequencing, NGS). NGS применяется для многократного и глубокого секвенирования последовательностей ДНК и РНК различных размеров. Данную технологию используют для секвенирования всего генома (Whole Genome Sequencing, WGS), экзома (Whole Exome Sequencing, WES), метилома (Whole Genome Bisulfite Sequencing,

WGBS) и транскриптома (RNA sequencing, RNA-seq). Секвенаторы нового поколения значительно увеличили производительность благодаря распараллеливанию множества реакций, однако они ограничены по длине прочтения (примерно 50-500 п.н.).

На сегодняшний день используются две основные платформы NGS: секвенирование путем синтеза (Illumina) и секвенирование полупроводников (Ion Torrent). Технология секвенирования Illumina использует метод синтеза для чтения последовательности ДНК с помощью флуоресцентных меток. Секвенирование полупроводников (Ion Torrent) применяет полупроводниковые сенсоры для детекции изменения pH, происходящего при добавлении нуклеотидов к растущей ДНК-цепи.

Поскольку секвенирование коротких чтений ограничено длиной прочтений и не подходит для сборки длинных непрерывных фрагментов ДНК, оно не всегда эффективно для полного геномного секвенирования [13]. Для решения данной проблемы используются секвенаторы третьего поколения, которые обладают возможностью считывания фрагментов ДНК и РНК длиной более 1000 п.н., что обеспечивает более полное покрытие геномов [14]. Длинные чтения позволяют исследователям идентифицировать структурные варианты, такие как крупные вставки/делеции, инверсии, дупликации и транслокации. Существует две ключевые технологии для секвенирования длинных прочтений: Pacific Biosciences (PacBio) и Oxford Nanopore Technologies (ONT). Платформа PacBio основана на технологии секвенирования одной молекулы в реальном времени (Single Molecule, Real-Time, SMRT) и позволяет считывать длинные фрагменты ДНК (до 20 000 п.н.) с высокой точностью благодаря круговому консенсусному секвенированию. Платформа ONT может читать фрагменты ДНК до одного миллиона п.н., регистрируя изменения в ионном токе при прохождении молекулы ДНК через нанопору для определения последовательности. Точность платформы ниже, чем у других методов, из-за систематических ошибок. Также компания Illumina представила систему для длинных ридов Complete Long-Reads, что свидетельствует о развитии технологий в этой области.

Все три поколения методов секвенирования применяются для различных задач и могут использоваться совместно, чтобы преодолеть ограничения отдельных методов. Например, для de novo сборки генома часто используют комбинацию коротких и длинных ридов. Этот гибридный подход значительно повышает точность и полноту сборки [15].

Гибридный алгоритм сборки последовательностей de novo использовали для создания новой версии генома человека, представленной консорциумом

Telomere-to-Telomere (T2T) [13]. Для сборки T2T-CHM13 были применены три платформы: 30Х секвенирование кругового консенсуса PacBio (HiFi), 120Х секвенирование сверхдлинных ридов ONT и 100Х секвенирование без ПЦР Illumina. Также использовались 70Х секвенирование Hi-C от Illumina Arima Genomics, оптические карты BioNano и секвенирование одноцепочечной ДНК шаблона (Strand-seq). В результате сборка включает в себя полные последовательности всех хромосом, кроме Y, исправляет ошибки предыдущих версий и добавляет почти 200 миллионов п.н. [13].

Метод гибридной сборки применяется не только для de novo сборки генома, но и для de novo сборки транскриптома [16]. Для этой цели применяются различные технологии секвенирования: RNA-seq (Illumina) - метод секвенирования РНК, который генерирует короткие чтения длиной от 50 до 300 нуклеотидов; direct RNA-seq (ONT) -технология позволяет секвенировать молекулы РНК напрямую, без необходимости их обратного транскрибирования в комплементарную ДНК (кДНК); cDNA (ONT) - в этом методе сначала синтезируется кДНК из РНК, а затем производится секвенирование; и ISO-seq (PacBio) - метод изотопного секвенирования позволяет захватывать полные длины транскриптов, что обеспечивает детальное представление о сплайсированных формах и альтернативных экзонах.

Гибридная сборка транскриптома позволяет объединить преимущества каждой технологии. Например, короткие чтения RNA-seq обеспечивают высокое покрытие и точность, тогда как длинные чтения, полученные технологиями ONT и PacBio, помогают определить полные транскрипты и сложные сплайсированные формы [17]. Гибридный подход позволяет повысить полноту и точность сборки транскриптома, выявляя больше полноразмерных генов и альтернативных изоформ.

Другой важной задачей применения технологий NGS является анализ метилома, который дает возможность изучить метилирование ДНК - ключевой эпигенетический модификатор. Модификации нуклеотидов играют роль в регуляции генной активности и могут влиять на процессы, связанные с развитием заболеваний. Для этого используются методы бисульфитного секвенирования, которые включают: бисульфитное секвенирование (Whole genome bisulfite sequencing, WGBS) - метод охватывает весь геном и предоставляет полное и детализированное представление о метилировании ДНК на уровне всего генома, позволяя исследовать эпигенетические изменения в широком контексте и на различных участках генома; бисульфитное секвенирование уменьшенного представительства (Reduced representation bisulfite

sequencing, RRBS) - метод фокусируется на определенных участках генома, таких как CpG-обогащенные регионы, что позволяет сократить затраты и время анализа по сравнению с WGBS.

Секвенирование нового поколения также используется для детекции динамичных изменений молекул РНК на уровне эпитранскриптома. Варианты анализа эпитранскриптомного уровня также можно разделить на традиционные и новые. Идентификация РНК модификаций с помощью традиционных подходов предполагает использование модифицированных методов секвенирования совмещенных с иммунопреципитацией (MeRIP-Seq, m6A-Seq, PA-m6A-Seq и т. д.), фермент-зависимые методы секвенирования (Mazter-Seq, m6A-REF-Seq и DART-Seq) или методы химического обнаружения РНК модификаций (Pseudo-Seq и AlkAniline-Seq). Хотя эти методы позволяют создавать подробные транскриптомные карты РНК модификаций, их применение ограничено доступностью специфичных антител или химических агентов. Все методы требуют обратной транскрипции и секвенирования кДНК, но часть модификаций может потеряться в процессе [18].

Как упоминалось ранее, платформа ONT предлагает новый подход к прямому секвенированию молекул РНК без необходимости их преобразования в кДНК или использования амплификации методом ПЦР. Метод секвенирования direct RNA-seq позволяет определять последовательность РНК по изменениям интенсивности тока, когда молекулы РНК проходят через нанопоры. Модифицированные нуклеотиды создают различную интенсивность сигнала по сравнению с немодифицированными, что позволяет вычислительно определить участки модификаций на молекуле РНК [19].

Исследование транслирующей мРНК - основная задача транслятомики. Поскольку рибосомы связываются с мРНК нековалентно, рибосомный комплекс с растущей цепью (Ribosome Nascent-chain Complex, RNC) является очень хрупким и подвержен диссоциации или деградации после разрушения клеток. Для изучения различных аспектов транслирующей мРНК разработаны несколько ключевых методик: Polysome-seq (профилирование полисом) - используется для анализа мРНК, связанных с множеством рибосом, с целью оценки уровня и эффективности трансляции; RNC-seq (профилирование транслирующей мРНК полной длины) - применяется для идентификации мРНК, активно участвующих в трансляции, путем анализа их связи с рибосомами; TRAP-seq (очистка аффинности транслирующей рибосомы) - извлекает рибосомы, связанные с конкретными мРНК, чтобы исследовать специфические процессы трансляции; Ribo-seq (профилирование рибосомы) - определяет точное

положение рибосом на мРНК, что позволяет понять, какие участки подвергаются трансляции [20].

Секвенирование нового поколения сделало значительный рывок в методах детекции различных молекул и их модификаций, что существенно расширило возможности исследователей.

1.1.2. Микрочипы

Технология микрочипов - это метод, при котором на небольшой поверхности в определенном порядке нанесены фрагменты одноцепочечной синтетической ДНК с известной последовательностью или ДНК-зонды. Далее с этими зондами гибридизуются (образуют двуцепочечные молекулы) комплементарные им цепи ДНК из исследуемого образца, обычно меченные флуоресцентным красителем [21]. Существуют несколько основных типов микрочипов: ДНК-микрочипы (DNA-microarray), использующие в качестве материала для анализа различные виды ДНК (кДНК, олигонуклеотиды), микроРНК-микрочипы (MMChips) для анализа малых некодирующих РНК, пептидные и белковые микрочипы (protein and peptide microarrays), тканевые микрочипы (tissue microarray, ТМА). Микрочипы находят широкое применение в научных и клинических исследованиях, таких как оценка уровня экспрессии генов, выявление специфических ДНК-последовательностей, сайтов метилирования и генетических вариантов.

Несмотря на низкую стоимость и высокую скорость анализа, микрочипы имеют ряд ограничений [22]. Одним из главных недостатков является необходимость априорного знания генома для их проектирования, что снижает применимость микрочипов в условиях неполных или устаревших аннотаций. Кроме того, перекрестная гибридизация между похожими последовательностями ограничивает точность анализа, особенно в случае сложных геномных структур, таких как альтернативно сплайсированные транскрипты и аллельные варианты генов. Помимо этого следует учитывать отношение сигнал/шум, высокие значения которого не всегда являются преимуществом. Сильный сигнал от часто встречающихся последовательностей может скрывать низкопредставленные участки ДНК, затрудняя их точное определение. Относительный характер гибридизации также ограничивает динамический диапазон данных, затрудняя обнаружение редких последовательностей и количественную оценку высокоэкспрессируемых генов [23]. Разнообразие видов чипов - это преимущество, но отсутствие единых стандартов и методик проведения анализа

затрудняет воспроизведение многих исследований, что является недостатком технологии [23]. В то время как технологии NGS решают многие из этих проблем, микрочипы по-прежнему остаются важным инструментом, но с определенными ограничениями.

1.1.3. Масс-спектрометрия

Масс-спектрометрические протеомные подходы традиционно

классифицируются по целям исследования на две основные стратегии: панорамную (англ. shotgun), подходящую для широких поисковых экспериментов, и направленную (англ. targeted), предназначенную для анализа конкретных белков или белковых групп. Панорамная масс-спектрометрия является основным методом получения данных в протеомике, сочетающим жидкостную хроматографию с тандемной масс-спектрометрией [24]. Главная задача панорамного подхода заключается в том, чтобы идентифицировать как можно больше белков в исследуемом образце. В ходе экспериментов каждый пептид или белок, попадающий в масс-спектрометр, ионизируется и фрагментируется, после чего анализируется по МС/МС-спектрам, отражающим два этапа фильтрации по соотношению массы к заряду.

В отличие от методов, используемых в геномике и транскриптомике, где последовательности нуклеотидов прочитываются по буквам, в протеомике идентификация пептидов основывается на совпадении экспериментально полученных масс-спектров с теоретическими спектрами кандидатных пептидов из базы данных. Панорамная масс-спектрометрия обычно проводится с использованием одной из двух комплементарных стратегий: «bottom-up» или «top-down».

В «bottom-up» подходе белки сначала подвергаются протеолизу, разделяются на хроматографической колонке, а затем анализируются в масс-спектрометре. Этот метод позволяет эффективно анализировать сложные белковые смеси [25]. Однако «bottom-up» имеет ограничения при анализе посттрансляционных модификаций (ПТМ) и сплайс-вариантов, так как иногда он не может точно определить наличие модификаций в нескольких участках одного белка или корректно идентифицировать короткие нестандартные последовательности.

Масс-спектрометрия в режиме «top-down» предоставляет возможность исследовать конкретные формы белка напрямую, без предварительного протеолиза [26]. Этот метод анализирует целые, но довольно короткие белки, что позволяет сохранить их структурную целостность и исследовать различные модификации и

вариации, которые могут быть утрачены при расщеплении белков на пептиды. Благодаря этому подходу, «top-down» масс-спектрометрия обеспечивает более точное представление о сложных белковых структурах и их функциональных формах.

В общем случае масс-спектрометрический анализ целых белков имеет ограниченное применение и больше подходит для детального изучения отдельных коротких белков или простых смесей, что связано с относительно низкой пропускной способностью метода. Хотя в анализе целых белковых молекул достигнуты значительные успехи, его чувствительность по-прежнему уступает чувствительности пептидного анализа в режиме «bottom-up».

1.2. Способы обработки данных омикс-профилирования

Данные о молекулах, полученные с помощью современных инструментов, можно использовать для детекции различных модификаций и уровней экспрессии множества молекул. Результаты секвенирования всего генома (WGS) используются для анализа структурных вариантов (СВ) - крупных изменений в структуре генома, которые включают перестановки, вставки, удаления, дупликации и инверсии сегментов ДНК размером приблизительно 1 к.б. и более [27]. Существует ряд программ, позволяющих обнаружить СВ, такие как Delly [28], LUMPY [29], BreakDancer [30] и другие. Используя данные WGS, также возможно детектировать генетических вариантов с помощью алгоритмов HaplotypeCaller или Mutec2, разработанные в рамках пакета Genome Analysis Toolkit (GATK) от Broad Institute [31]. Эти алгоритмы позволяют обнаруживать как однонуклеотидные полиморфизмы (ОНП), то есть замены одного нуклеотида на другой, так и инделы - точечные вставки и делеции нуклеотидов. Алгоритм HaplotypeCaller предназначен для выявления герминативных, то есть наследуемых, вариантов в геноме, тогда как Mutect2 фокусируется на соматических мутациях, которые возникают в течение жизни организма и обычно не передаются по наследству. Mutect2 часто применяется для анализа данных секвенирования опухолевых образцов, сравнивая их с контрольными нормальными тканями.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Арзуманян Виктория Арменовна, 2025 год

Список литературы:

1. Jia L., Li J., Li P., Liu D., Li J., Shen J., Zhu B., Ma C., Zhao T., Lan R., Dang L., Li W., Sun S. Site-specific glycoproteomic analysis revealing increased core-fucosylation on FOLR1 enhances folate uptake capacity of HCC cells to promote EMT // Theranostics. 2021. Т. 11, № 14. С. 6905-6921.

2. Vavilov N.E., Zgoda V.G., Tikhonova O.V., Farafonova T.E., Shushkova N.A., Novikova S.E., Yarygin K.N., Radko S.P., Ilgisonis E.V., Ponomarenko E.A., Lisitsa A.V., Archakov A.I. Proteomic Analysis of Chr 18 Proteins Using 2D Fractionation // J Proteome Res. 2020. Т. 19, № 12. С. 4901-4906.

3. Wang Z., Karkossa I., Großkopf H., Rolle-Kampczyk U., Hackermüller J., von Bergen M., Schubert K. Comparison of quantitation methods in proteomics to define relevant toxicological information on AhR activation of HepG2 cells by BaP // Toxicology. 2021. Т. 448. С. 152652.

4. Burns A.P., Zhang Y.Q., Xu T., Wei Z., Yao Q., Fang Y., Cebotaru V., Xia M., Hall M.D., Huang R., Simeonov A., LeClair C.A., Tao D. A Universal and High-Throughput Proteomics Sample Preparation Platform //Anal Chem. 2021. Т. 93, № 24. С. 8423-8431.

5. Ben-Haim M.S., Pinto Y., Moshitch-Moshkovitz S., Hershkovitz V., Kol N., Diamant-Levi T., Beeri M.S., Amariglio N., Cohen H.Y., Rechavi G. Dynamic regulation of

N6,2'-O-dimethyladenosine (m6Am) in obesity //Nat Commun. 2021. T. 12, № 1. C. 7185.

6. Wong T.Y., Yan N., Kwan K.K.L., Pan Y., Liu J., Xiao Y., Wu L., Lam H. Comparative proteomic analysis reveals the different hepatotoxic mechanisms of human hepatocytes exposed to silver nanoparticles // J Hazard Mater. 2023. T. 445. C. 130599.

7. Peñas-Fuentes J.L., Siles E., Rufino-Palomares E.E., Pérez-Jiménez A., Reyes-Zurita F.J., Lupiáñez J.A., Fuentes-Almagro C., Peragón-Sánchez J. Effects of Erythrodiol on the Antioxidant Response and Proteome of HepG2 Cells // Antioxidants (Basel). 2021. T. 11, № 1. C. 73.

8. Lizano-Fallas V., Carrasco Del Amor A., Cristobal S. Prediction of Molecular Initiating Events for Adverse Outcome Pathways Using High-Throughput Identification of Chemical Targets // Toxics. 2023. T. 11, № 2. C. 189.

9. Geiger T., Wehner A., Schaab C., Cox J., Mann M. Comparative proteomic analysis of eleven common cell lines reveals ubiquitous but varying expression of most proteins // Mol Cell Proteomics. 2012. T. 11, № 3. C. M111.014050.

10. Wang M., Weng S., Li C., Jiang Y., Qian X., Xu P., Ying W. Proteomic overview of hepatocellular carcinoma cell lines and generation of the spectral library // Sci Data. 2022. T. 9,№1. C. 732.

11. Inácio P., Zuzarte-Luís V., Ruivo M.T., et al. Parasite-induced ER stress response in hepatocytes facilitates Plasmodium liver stage infection // EMBO Reports. 2015. T. 16, № 8. C. 955-964.

12. Zhang J., Lu S., Zhou Y., et al. Motile hepatocellular carcinoma cells preferentially secrete sugar metabolism regulatory proteins via exosomes // Proteomics. 2017. T. 17, № 13-14.

Приложение 2

Анеуплоидная карта образцов клеточной линии HepG2, согласно анализу GC состава

по данным полногеноменого секвенирования.

SRA ГО образца (страна секвенирования)

Анеуплоидная карта

SRR5296491 (США)

SRR5296494 (США)

SRR14832808 (США)

SRR14841338 (США)

[2]

SRR18056313 (Китай)

SRR18056642 (Китай)

[3]

Ссылки:

1. Miller J.R., Dilley K.A., Harkins D.M., Stockwell T.B., Shabman R.S., Sutton G.G. A host subtraction database for virus discovery in human cell line sequencing data // F1000Res. 2018. Т. 7. С. 98.

2. Zhou B., Ho S.S., Greer S.U., Spies N., Bell J.M., Zhang X., Zhu X., Arthur J.G., Byeon S., Pattni R., Saha I., Huang Y., Song G., Perrin D., Wong W.H., Ji H.P., Abyzov A., Urban A.E. Haplotype-resolved and integrated genome analysis of the cancer cell line HepG2 // Nucleic Acids Res. 2019. Т. 47, № 8. С. 3846-3861.

3. Li Y., Wu Y., Xu R., Guo J., Quan F., Zhang Y., Huang D., Pei Y., Gao H., Liu W., Liu J., Zhang Z., Deng R., Shi J., Zhang K. In vivo imaging of mitochondrial DNA mutations using an integrated nano Cas12a sensor // Nat Commun. 2023. Т. 14, № 1. С. 7722.

Распределение покрытия ридами хромосом при полногеномном секвенировании клеток HepG2 согласно собственным и опубликованным данным. Копийность участков обозначена цветом: черный означает копийность 0, розовый - копийность 1, зеленый -копийность 2, салатовый - копийность 2,5, синий - копийность 3, желтый - копийность 4 и красный - копийность 5.

СИг

1ВМС.1

1ВМС.2

SRR5296491

SRR5296494

SRR14832808

SRR14841338

1

2

3

4

5

6

7

8

9

10

( - . ,l|ll ЦП«»..II 1^1 !<»»■«"■

■ ■ i ■■ U li

11

12

13

14

" -■ i i liMïil w áfitf

61

I'lIB ■

■ ■

I ■ ■

m

I ■ ■

rnMm

ШТ

81

il

Ii

Ii

Ii

Vi i i.ái'ai i^m^áiiÉ'rfiVSiteViMttt' í

faílMM fMWJB» ЩПИИН. i

¿I

: WW14 Itff»

i*

nfciitt Ii îlibiiïa áni'íiíii

ШМ t: ■ ^

¿WW toáubAÁM:

Щх !ffP»

91

»■im ■ ■

■mi

»■III ■ ■

»■III ■ ■

■mi

: ! .f

SI

9ST

20

21

22

X

Y

« о

H с s

Он «

о X я Он H

s s о о

<D Он

с

о «

СП <D К ю о

Он

>>

я Я

CL £

о i- од

СО 4t 4t

о.

о (О i- i

О

(О Q.

TJ-Ö

c\j ó

ГО О.

к

ш

I О

ё * *

5 ra к

^ is о. го

2 ra i- < X

о. н о 3 ¥

m s со =1 *

^ < о S

к s

о: « к g к

s S s ? s

^ >> =Г ï <j

ra CL 2 <J

h о >; с о syftci

s H

I

SRP172043

SRP230308

SRP285332

SRP347323

SRP395812

SRP303940

SRP178073

SRP307473

SRP128998

SRP251113

SRP354137

SRP219036

SRP321580

SRP212197

SRP294342

SRP313264

SRP345949

SRP346010

SRP338737

SRP354982

SRP378083

SRP355619

SRP213298

SRP396489

T-IBMC.1

T-IBMC.2

SRP320779

SRP109827

SRP251234

SRP424353

SRP105050

SRP026084

SRP334990

SRP384386

SRP309762

SRP411741

SRP269681

SRP186980

SRP344503

SRP402014

SRP218545

SRP152744

Дифференциально экспрессируемые гены при различной копийности в собственных

данных

Ген log2FC FDR Ген log2FC FDR

ЯЛВ1А 1,17 3.7516Е-06 CHURC1 -1,2 0,011

SLC38A2 1,18 1.3963Е-05 RPS9 1,71 0,01

МЧШРШ 1,33 7.0504Е-05 BLVRB -1,21 0,01

ТОР2А 1,41 7.6384Е-05 SAT2 -1,24 0,01

S100A1 -1,25 <0,001 RAB10 1,28 0,02

RPS21 -1,04 <0,001 FN3K -1,13 0,02

PRAP1 -1,34 <0,001 SINHCAF 1,19 0,02

RPS29 -1,04 <0,001 RPL27A -1,01 0,02

С12ог£57 -1,23 <0,001 SERINC2 -1,53 0,02

CYB5A -1,01 <0,001 CYP2W1 -1,09 0,03

SMIM24 -1,75 <0,001 MRPL41 -1,15 0,03

TFRC 1,29 <0,001 ISG15 -1,25 0,04

CCNB1 1,33 <0,001 GOLM2 1,26 0,04

RDX 1,45 0,007 ХР01 1,25 0,04

TMSB10 -1,16 0,007 PGLS -1,14 0,04

MLXIPL -1,19 0,009 FUOM -1,11 0,04

CADM1 1,13 0,01

SMIM1 -1,31 0,01

Дифференциально экспрессируемые гены при различной копийности в опубликованных и собственных данных для хромосом 1 или 10

Кластер #1, с^ 1 Кластер #2, chr 1 Кластер #1, chr 10 Кластер #2, с^ 10

Ж0В2 NR0B2 ВЕШ7 AKR1C1

VWA1 RPL11 1Т1Н2 ITGB1

SLC5A9 САР1 PFKP

GIPC2 FAAP20 VIM

SYTL1 HES4

DIO1 HMGN2

MYOM3 PLA2G2A

GPX7 STK40

CSF3R UROD

SMIM1 SFN

ANKRD65 М6

С8А

MASP2

ADGRL2

ЕСШС2

ТМЕМ52

DDOST

CDA

HPDL

WLS

Опубликованные результаты кариотипирования клеточных линий Huh7 и Hep3B.

frOW С h и

*(« ) ll? 71 M cir HI

U It III II 1«

til* III •(• 1

я я It * 1 '

A) Zhou etal.2020 [1]

К

т

ii Н d

w т ц* т

»1С 8Ьз

>1 1 III 2 3 lk.ll 4 9

e III! И II 7 В 9 III 10 11 12

I 13 III. Ill 14 15 II III 16 IT 19

III it 20 21 lit 22 X

Б) Kasaiet al. 2018 [2]

hittt II м 1.1 k^rtlMi IS «» Ш «ыммции iMiuaeefmMi

«В •С f м lit II* II is * «ft •). «.I

M CM S* ll || •» »»» •> I tie

•I I to*.*

B) Carloni et al. 2017 [3]

aft ) if? ?I м <?r HI

(I It -ll 111 II It til. Ill ««I I I

Опубликованные данные цитогенетического анализа опухолевой клеточной линии Huh-7. А) Zhou et al., 2020 [1] Б) Kasai et al., 2018 [2] В) Carloni et al, 2017 [3].

- * \ >(J;S) ж Л -

' i Si *($</

"J 4— V/

)• III 11«.

12 3 4

..ilium I

/

*/tl!T \

«■•■it I

t(3;6) у «(6:4:13)

9 10 14 12

1Э 14 1S

III

19 M

«II II

IS 16

♦ I • «II

Опубликованные данные цитогенетического анализа опухолевой клеточной линии Hep3B. А) Wong et al. 2000 [4] Б) Simon et al.1982 [5] В) Gray et al. 2000 [6].

1. Zhou X.T., Ding J., Li H.Y., Zuo J.L., Ge S.Y., Jia H.L., Wu J. Hedgehog signalling mediates drug resistance through targeting TAP1 in hepatocellular carcinoma // J Cell Mol Med. 2020. Т. 24, № 7. С. 4298-4311.

2. Kasai F., Hirayama N., Ozawa M., Satoh M., Kohara A. HuH-7 reference genome profile: complex karyotype composed of massive loss of heterozygosity // Hum Cell. 2018. Т. 31, № 3. С. 261-267.

3. Carloni V., Lulli M., Madiai S., Mello T., Hall A., Luong T.V., Pinzani M., Rombouts K., Galli A. CHK2 overexpression and mislocalisation within mitotic structures enhances chromosomal instability and hepatocellular carcinoma progression // Gut. 2018. Т. 67, № 2. С. 348-361.

4. Wong N., Lai P., Pang E., Leung T.W., Lau J.W., Johnson P.J. A comprehensive karyotypic study on human hepatocellular carcinoma by spectral karyotyping // Hepatology. 2000. Т. 32, № 5. С. 1060-1068.

5. Simon D., Aden D.P., Knowles B.B. Chromosomes of human hepatoma cell lines // Int J Cancer. 1982. Т. 30, № 1. С. 27-33.

6. Gray S.G., Kytola S., Lui W.O., Larsson C., Ekstrom T.J. Modulating IGFBP-3 expression by trichostatin A: potential therapeutic role in the treatment of hepatocellular carcinoma // Int J Mol Med. 2000. Т. 5, № 1. С. 33-41.

Распределение покрытия ридами хромосом при полногеномном секвенировании клеток Huh7 согласно опубликованным данным. Копийность участков обозначена цветом: черный означает копийность 0, розовый - копийность 1, зеленый - копийность 1,5, салатовый - копийность 2, голубой- копийность 3, желтый - копийность 4, и красный - копийность 5.

Хромосома

SRR5297924

SRR5297975

1

2

3

4

5

6

7

Ii i : ; s t; ;

Г"Г"~V"í: W i ' ' "

II 1 q<2 i

1 20 40 60 ео 100 120 140

10

11

8

9

12

13

14

15

16

17

18

19

20

21

22

X

Молекулярная карта для клеточной линии HepG2 для каждой хромосомы.

Снизу вверх: координаты хромосомы, СМ - копийность генов (черный цвет соответствует копийности 0, розовый - копийность 1, зеленый -копийность 2, салатовый - копийность 2,5, голубой - копийность 3, желтый - копийность 4 и красный - копийность 5); нсОНП - генетические варианты, включая инделы в БКГ; метилирование генов (красным цветом обозначены гены с высоким уровнем метилирования, желтым - средним уровнем, и зеленым - низким уровнем); КЫА^ед - экспрессия генов (количество, выраженное в ^2(ТРМ)); м6А сайты (наличие); Ро^оше^ед -экспрессия транлсятов (количество, выраженное в ^2(ТРМ)) и белки - встречаемость белков (наличие). Хр. - хромосомы.

Хр

Молекулярная карта

Описание

Всего БКГ на хромосоме: 2 048. Число экспрессирующихся БКГ: 1 302.

Число экспрессирующихся БКГ на уровне транслятома: 1 090. Число генетических вариантов в БКГ: 1 559. Уровни метилирования:

от 1 до 5 кб: 301 БКГ с низким уровнем, 1 309 БКГ со средним уровнем, 271 БКГ с высоким уровнем;

интроны: 261 БКГ с низким уровнем, 1 171 БКГ со средним уровнем, 454 БКГ с высоким уровнем;

экзоны: 293 БКГ с низким уровнем, 1 445 БКГ со средним уровнем, 171 БКГ с высоким уровнем;

промоторы: 1 046 БКГ с низким уровнем, 851 БКГ со средним уровнем, 58 БКГ с высоким уровнем;

3'иТЯ: 289 БКГ с низким уровнем, 591 БКГ со средним уровнем, 933 БКГ с высоким уровнем;

5'иТЯ: 1 264 БКГ с низким уровнем, 416 БКГ со средним уровнем, 87 БКГ с высоким уровнем.

Количество м6А модификаций: 151

Количество обнаруженных БКГ на уровне протеома: 594

1

Всего БКГ на хромосоме: 1 243. Число экспрессирующихся БКГ: 825.

Число экспрессирующихся БКГ на уровне транслятома: 705. Число генетических вариантов в БКГ: 919. Уровни метилирования:

от 1 до 5 кб: 130 БКГ с низким уровнем, 871 БКГ со средним уровнем, 207 БКГ с высоким уровнем;

интроны: 116 БКГ с низким уровнем, 751 БКГ на со средним уровнем, 308 БКГ с высоким уровнем;

экзоны: 130 БКГ с низким уровнем, 968 БКГ со средним уровнем, 108 БКГ с высоким уровнем;

промоторы: 657 БКГ с низким уровнем, 514 БКГ с средним уровнем, 35 БКГ с высоким уровнем;

3'UTR: 142 БКГ с низким уровнем, 388 БКГ с средним уровнем, 613 БКГ с высоким уровнем;

5'ЦШ: 842 БКГ с низким уровнем, 249 БКГ с средним уровнем, 58 БКГ с высоким уровнем.

Количество м6А модификаций: 100

Количество обнаруженных БКГ на уровне протеома: 423

Всего БКГ на хромосоме: 1 075. Число экспрессирующихся БКГ: 704.

Число экспрессирующихся БКГ на уровне транслятома: 587. Число генетических вариантов в БКГ: 910. Уровни метилирования:

от 1 до 5 кб: 117 БКГ с низким уровнем, 743 БКГ со средним уровнем, 177 БКГ генов с высоким уровнем;

интроны: 100 БКГ с низким уровнем, 623 БКГ со средним уровнем, 278 БКГ с высоким уровнем;

экзоны: 120 БКГ с низким уровнем, 810 БКГ со средним уровнем, 107 БКГ с высоким уровнем;

промоторы: 537 БКГ с низким уровнем, 466 БКГ с средним уровнем, 31 БКГ с высоким уровнем;

3'UTR: 129 БКГ с низким уровнем, 292 БКГ с средним уровнем, 564 БКГ с высоким уровнем;

5'ЦШ: 696 БКГ с низким уровнем, 223 БКГ с средним уровнем, 57 БКГ с высоким уровнем.

Количество м6А модификаций: 75

2

3

•л 1 : .... ■К-уУА

Количество обнаруженных БКГ на уровне протеома: 348

4

III

14.97 ,. Ро^эоте-эея „ ■ .,

-3.32 ■

- III

-3.32 " ■-- 100 Интроны, %

о : • '

100 «-я,,.

3'11Т1?, %

О I'.. '■■ г 100 . . 5'иТР, %

0 .и

100

1-5 кб, %

ш •; Экзоны, % 5 ... |

100 I. < Промотор,0/. ^ ^

нсОНП0 ЩИ || | \\\

III I II III III III I II ИНН I III II III I I I

V;; « Л ' ¡\ а«-:-- /£■ ч •'• ;; .":': '¡¡и-

I И III I I

¿У-. ■ е" -'¡А -.¡У*.- Ъ- £ ' <■> р .;•'!/. »1 -У/ ^

Ж.;.* ^ ... Ч'- ■ , .V ••

Г> -Г г».*"»*'- »г .*■ ■ <54 Л •«."■. >"!•* '■■• * Г.'. 'ЯГ

тм^тк

¿ч'^л» Г."

•».•К./ - г

III II I III 11111» II III 11111111 I II I II ПИ I 1111 I III

¡и,. , • •

ттт

сИг4

20 40 60 80 100 120 140 160 180

Всего БКГ на хромосоме: 751. Число экспрессирующихся БКГ: 425.

Число экспрессирующихся БКГ на уровне транслятома: 344. Число генетических вариантов в БКГ: 520. Уровни метилирования:

от 1 до 5 кб: 117 БКГ с низким уровнем, 507 БКГ со средним уровнем, 100 БКГ генов с высоким уровнем;

интроны: 97 БКГ с низким уровнем, 444 БКГ со средним уровнем, 149 БКГ с высоким уровнем;

экзоны: 126 БКГ с низким уровнем, 524 БКГ со средним уровнем, 67 БКГ с высоким уровнем;

промоторы: 394 БКГ с низким уровнем, 305 БКГ с средним уровнем, 20 БКГ с высоким уровнем;

3'Ш^: 127 БКГ с низким уровнем, 193 БКГ с средним уровнем, 333 БКГ с высоким уровнем;

5'Ш^: 465 БКГ с низким уровнем, 160 БКГ с средним уровнем, 29 БКГ с высоким уровнем.

Количество м6А модификаций: 48

Количество обнаруженных БКГ на уровне протеома: 197

Белки

14.97

Polysome-seq

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.