Метод графового анализа транскриптомных данных для обнаружения метаболической регуляции иммунных клеток тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Гайнуллина Анастасия Наильевна

  • Гайнуллина Анастасия Наильевна
  • кандидат науккандидат наук
  • 2020, ФГАОУ ВО «Национальный исследовательский университет ИТМО»
  • Специальность ВАК РФ05.13.17
  • Количество страниц 226
Гайнуллина Анастасия Наильевна. Метод графового анализа транскриптомных данных для обнаружения метаболической регуляции иммунных клеток: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. ФГАОУ ВО «Национальный исследовательский университет ИТМО». 2020. 226 с.

Оглавление диссертации кандидат наук Гайнуллина Анастасия Наильевна

Реферат

Synopsis

Введение

1. ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ

1.1 Методы транскриптомного профилирования и сортировки иммунных клеток

1.2 Кластеризация как метод анализа многомерных данных

1.3 Характеристика системы мононуклеарных фагоцитов и роль метаболизма в реализации их специализированных иммунных функций

1.4 Базы данных информации, посвященной иммунным клеткам и метаболизму в целом

1.5 Методы интеграции транскриптомных данных с метаболическими моделями

1.6 Задачи, решаемые в диссертационной работе

2. АЛГОРИТМ СОВМЕСТНОЙ КЛАСТЕРИЗАЦИИ В ГРАФОВОМ

И КОРРЕЛЯЦИОННОМ ПРОСТРАНСТВАХ

2.1 Задача совместной кластеризации в графовом и корреляционном пространствах

2.2 Итеративный алгоритм совместной кластеризации в графовом и корреляционном пространствах

2.3 Экспериментальное исследование работы предложенного алгоритма

2.3.1 Описание симулированных данных

2.3.2 Базовые методы для сравнения

2.3.3 Сравнение методов получения начальных приближений

2.3.4 Старт с истинных значений

2.3.5 Исследование работы предложенного алгоритма с

разными способами получения начальных приближений

2.3.6 Сравнение предложенного алгоритма с базовыми методами

2.3.7 Исследование времени работы предложенного алгоритма

при запуске с разного числа начальных приближений . . . .109 2.4 Применение метода независимых компонент для определения

начальных приближений

3. МЕТОД ОЛМ-КЛАСТЕРИЗАЦИИ ДЛЯ АНАЛИЗА

ТРАНСКРИПТОМНЫХ ДАННЫХ

3.1 Общая схема метода вЛМ-кластеризации

3.2 Построение метаболического графа

3.3 Предобработка анализируемых транскриптомных данных

3.4 Адаптация алгоритма совместной кластеризации в графовом и корреляционном пространствах для работы с метаболическим графом

3.5 Автоматический подбор параметров вЛМ-кластеризации

3.6 Постобработка результатов вЛМ-кластеризации

3.7 Автоматическое получение графического представления метаболических модулей

3.8 Программная реализация метода вЛМ-кластеризации

3.9 Анализ устойчивости результатов вЛМ-кластеризации с помощью варьирования параметров входных данных при запуске

на реальных данных

4. МЕТОДИКА АНАЛИЗА РЕЗУЛЬТАТОВ

GAM-КЛАСТЕРИЗАЦИИ на примере данных КОНСОРЦИУМА IMMGEN

4.1 Описание методики анализа результатов GAM-кластеризации

4.2 Описание данных консорциума ImmGen

4.3 Автоматическая аннотация каноническими метаболическими путями и общее описание метаболических модулей

4.4 Интерпретация полученных модулей на основании аннотации

4.4.1 Модули, соответствующие одному или группе канонических метаболических путей

4.4.2 Комплексные модули, отражающие синтез жирных кислот

4.4.3 Комплексные модули, отражающие липидный метаболизм

4.5 Вычислительная валидация метаболических модулей на данных

с идентичным клеточным составом

4.6 Экспериментальная валидация метаболических модулей

Заключение

Список сокращений и условных обозначений

Список иллюстраций

Список таблиц

Список литературы

Приложение 1. Копии публикаций

Реферат

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Метод графового анализа транскриптомных данных для обнаружения метаболической регуляции иммунных клеток»

Общая характеристика работы

Актуальность темы исследования. Задача кластеризации является одной из фундаментальных задач обработки информации. Однако, несмотря на наличие хорошо известных базовых алгоритмов1, все еще существует необходимость уточнения и адаптации методов кластеризации для реальных данных в различных предметных областях.

Одной из таких актуальных предметных областей является биология, где в связи с развитием высокопроизводительных методов и, как следствие, увеличением количества экспериментальных данных становится важной задача обработки многомерных данных для их интерпретации, так как все больше экспериментов обладают сложным дизайном, подразумевающим наличие многих образцов в данных. Примерами таких экспериментов могут быть изучение некоторого биологического процесса в разных тканях или его исследование в нескольких временных точках.

Изучение обмена веществ, или метаболизма, иммунных клеток является одним из важных и перспективных направлений исследований в биологии в связи с тем, что реализация функций иммунных клеток находится в тесной взаимосвязи с их метаболизмом2'3'4. Одним из способов систематического анализа метаболизма является использование так называемого транскриптомного

1 Omran, M. G. H. An Overview of Clustering Methods / M. G. H. Omran, A. P. Engelbrecht, A. Salman // Intell. Data Anal. NLD, 2007. Dec. Vol. 11, no. 6. P. 583-605

2Bossche, J. V. den. Macrophage Immunometabolism: Where Are We (Going)? / J. V. den Bossche, L. O'Neill, D. Menon // Trends in Immunology. 2017. Vol. 38, no. 6. P. 395—406

3Al-Khami, A. Energy metabolic pathways control the fate and function of myeloid immune cells / A. Al-Khami, P. Rodriguez, A. Ochoa // Journal of Leukocyte Biology. 2017. Vol. 102, no. 2. P. 369—380

4Metabolic Control of Dendritic Cell Functions: Digesting Information / S. Wculek [et al.] // Frontiers in immunology. 2019. Vol. 10. P. 775

профилирования методами РНК-секвенирования образцов (bulk RNA sequencing) или одиночных клеток (single cell RNA sequencing), а также с помощью экспрес-сионных микрочипов (microarrays). Данные такого профилирования позволяют оценить активность ферментов — белков, являющихся катализаторами метаболических реакций.

Ранее было показано5, что анализ транскриптомных данных с использованием графов улучшает интерпретируемость результатов из-за наличия естественной графовой структуры метаболических реакций. Однако данные методы используются для парных сравнений и не подходят для экспериментов с более сложным дизайном. Подходом к расширению этих графовых методов на работу с данными, состоящими из многих образцов, может являться их интеграция с методами кластеризации.

Таким образом, разработка и исследование алгоритмов анализа транскрип-томных данных на основе интеграции методов кластеризации с графовыми методами является актуальным и перспективным направлением исследований. Применение этих методов при изучении метаболической регуляции иммунных клеток поможет лучше понять механизмы работы иммунной системы и способы ее регуляции.

Степень разработанности темы исследования. Ранее в диссертации6 был разработан метод GAM (от Genes and Metabolites)7, который позволял анализировать метаболизм клеток по транскриптомным данным для случая простого экспериментального дизайна, заключающегося в сравнении одного биологического состояния с другим (например, до и после активации иммунных клеток). Этот метод использует метаболические графы, состоящие из совокупности всех

5Network integration of parallel metabolic and transcriptional data reveals metabolic modules that regulate macrophage polarization / A. K. Jha [et al.] // Immunity. 2015. Vol. 42, no. 3. P. 419—430

6Сергушичев, А. А. Методы вычислительного анализа метаболических моделей для интерпретации транскриптомных и метаболомных данных [Текст] : дис. ... канд. тех. наук : 05.13.18 : защищена 22.12.2016 / Сергушичев Алексей Александрович. 2016. 126 с.

7GAM: a web-service for integrated transcriptional and metabolic network analysis / A. A. Sergushichev [et al.] // Nucleic acids research. 2016. Vol. 44, W1. W194-W200

характерных для того или иного организма метаболических реакций, в качестве модели для анализа транскриптомных профилей. Метод GAM обеспечивает систематическое описание метаболических различий между двумя состояниями в виде идентификации наиболее активного участка графа, называемого активным метаболическим модулем и содержащего наиболее регулируемый набор реакций. Однако вышеописанный метод не позволяет напрямую анализировать данные, полученные для образцов в нескольких биологических условиях.

Целью работы является разработка и исследование метода графового анализа транскриптомных данных для автоматизации обнаружения метаболической регуляции иммунных клеток по данным со сложным экспериментальным дизайном. Для достижения данной цели были поставлены и решены следующие задачи:

1. Разработка алгоритма совместной кластеризации в графовом и корреляционном пространствах.

2. Разработка метода на основе алгоритма совместной кластеризации в графовом и корреляционном пространствах для идентификации регулируемых метаболических модулей по транскриптомным данным, состоящим из множества образцов без их явного разделения на группы, и метаболическому графу.

3. Разработка и апробация методики анализа результатов предложенного метода на примере его применения к реальным транскриптомным данным международного консорциума The Immunological Genome Project (ImmGen).

Объект исследования — транскриптомные данные, содержащие информацию о метаболической регуляции.

Предмет исследования — алгоритмы и методы анализа транскриптомных данных для идентификации регулируемых метаболических модулей.

Научная новизна:

1. Задача поиска активных модулей была впервые сформулирована как задача совместной кластеризации в графовом и корреляционном пространствах и предложен алгоритм ее решения. Предложенный алгоритм позволил точнее определять активные модули по сравнению с методами кластеризации экспрессии генов, не учитывающими их графовую структуру.

2. Впервые предложен метод анализа метаболических графов для идентификации регулируемых метаболических модулей по транскриптомным данным со сложным экспериментальным дизайном. Этот метод позволил автоматизировать обнаружение закономерностей метаболической регуляции в клетках иммунной системы.

Положения, выносимые на защиту:

1. Для решения задачи поиска активных модулей разработан алгоритм совместной кластеризации в графовом и корреляционном пространствах. Алгоритм принимает на вход граф С = (У,Е) и матрицу X, в которой ¿-я строка соответствует ¿-вершине графа. На выходе алгоритм выдает набор подграфов графа С так, что каждый подграф 1) является связным и 2) высока попарная корреляция вершин графа.

2. На основе разработанного алгоритма кластеризации разработан метод вЛМ-кластеризации, который позволяет автоматически идентифицировать активные метаболические модули в метаболических графах по наборам транскриптомных данных со сложным экспериментальным дизайном. Метод принимает на вход матрицу экспрессии генов и метаболический граф, а на выходе выдает набор связных подграфов, состоящих из совместно регулируемых реакций.

3. Разработана и апробирована методика анализа результатов метода вЛМ-кластеризации в применении к реальным транскриптомным данным. Методика включает интерпретацию идентифицированных метаболических модулей и их вычислительную и экспериментальную валидацию.

Соответствие паспорту специальности. Работа находится в соответствии с паспортом специальности 05.13.17 — «Теоретические основы информатики» и относится к пункту 5: «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений».

Теоретическая значимость состоит в формулировке задачи поиска активных модулей как задачи совместной кластеризации в графовом и корреляционном пространствах, разработке алгоритма, решающего эту задачу, изучении влияния параметров на время работы алгоритма, а также полноту и точность получаемых результатов.

Практическая значимость работы состоит в том, что разработанный метод может быть использован для изучения регуляции метаболизма, играющего особенно важную роль в работе иммунной системы млекопитающих. Апробация метода на транскриптомных данных международного консорциума The Immunological Genome Project (ImmGen) показала валидность обнаруженных закономерностей метаболической регуляции: полученные методом GAM-класте-ризации модули были валидированы как вычислительно, так и экспериментально (в биологической лаборатории Университета Вашингтона в Сент-Луисе).

Методы исследования. В работе используются методы кластерного и графового анализа.

Достоверность научных положений, выводов и практических рекомендаций, полученных в рамках данной диссертационной работы, подтверждается корректностью постановок задач, результатами экспериментальных исследований, нашедших отражение в достаточном числе публикаций в научных журналах, в том числе из списка Scopus и Web of Science, а также представлением основных положений на ведущих международных и всероссийских конференциях.

Также один из результатов предложенного метода был подтвержден экспериментально в биологической лаборатории.

Внедрение результатов работы. Результаты работы использованы при выполнении государственного задания Министерства образования и науки Российской Федерации «Разработка алгоритмов анализа метаболических и сигнальных сетей для идентификации модулей, регулирующих клеточную адаптацию» (договор 2.3300.2017/ПЧ), а также в рамках государственной финансовой поддержки ведущих университетов Российской Федерации, субсидия 08-08 (НИР «Методы, модели и технологии искусственного интеллекта в биоинформатике, социальных медиа, киберфизических, биометрических и речевых системах», 2017-2019 гг.). Результаты настоящей диссертационной использовались также в образовательном процессе на факультете информационных технологий и программирования Университета ИТМО в курсе «Системная биология» магистерской программы «Биоинформатика и системная биология» при чтении лекций и проведении практических занятий.

Апробация результатов исследования. Результаты исследования представлялись для обсуждения на следующих научно-методических конференциях и семинарах:

1. Научная и учебно-методическая конференция Университета ИТМО (Санкт-Петербург, Россия, 2018, 2019);

2. Зимняя биологическая школа ПИЯФ им. Б. П. Константинова НИЦ «Курчатовский институт» (Санкт-Петербург, Россия, 2018);

3. Joint Immunology Retreat between Washington University in St.Louis and University of Chicago (Chicago, USA, 2018);

4. International EMBO Practical Course «The 2019 whole-cell modeling summer school» (Barcelona, Spain, 2019);

5. Moscow Conference on Computational Molecular Biology (MCCMB) (Москва, Россия, 2019);

6. Bioinformatics: from Algorithms to Applications (BiATA) (Санкт-Петербург, Россия, 2020).

Публикации. Основные результаты, изложенные в настоящей диссертации, опубликованы в восьми работах, одна [4] из которых опубликована в международном издании, индексируемом в базах Scopus и Web of Science, другие три [1-3] — в журналах из списка рекомендованных ВАК, другие две [7,8] — в сборниках тезисов конференций, а также еще две статьи [9,10] опубликованы в прочих изданиях. Также по тематике работы было опубликовано две статьи в международных журналах, входящих в базы Scopus и Web of Science [5,6].

Регистрация программ. Автором по теме диссертации было получено свидетельство о регистрации программы для ЭВМ: Сергушичев А.А., Гайнуллина А.Н., Артемов М. Программа для идентификации метаболических модулей по транскриптомным данным со сложным экспериментальным дизайном // Свидетельство №2020619734 от 21.08.2020.

Личный вклад автора заключается в исследовании работы метода, анализе влияния входных параметров на его результат, выборе стратегии построения профилей кластеров, уточнении топологии существующих сетей и создании сетей для новых организмов, выполнении анализа данных РНК-секвенирования, реализации программных средств. Разработка алгоритмов и методов выполнялась совместно с Сергушичевым А.А. Руководство по систематическому изучению и валидации метаболических модулей (формулировка экспериментов для биологической лаборатории) осуществлялось Артемовым М. Эксперимент по миграционной функции дендритных клеток был проведен коллабораторами из биологической лаборатории Университета Вашингтона в Сент-Луисе.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения и одного приложения. Объем диссертации — 225 страниц с 38 рисунками и двумя таблицами. Список литературы содержит 93 наименования.

Основное содержание работы

Во введении обосновывается актуальность исследований, проводимых в рамках настоящей диссертации, формулируются цель и задачи работы, а также излагается научная новизна работы и ее теоретическая и практическая значимость.

В первой главе приведен обзор литературы, посвященной ключевым для понимания данной диссертации темам. В главе кратко описаны основные экспериментальные методы получения транскриптомных данных, рассмотрена проблема кластеризации как метода анализа многомерных данных, дана характеристика основных клеточных типов иммунной системы, рассматриваемых в данной диссертации, показана роль метаболизма в реализации их специализированных иммунных функций, а также упомянуты основные методы интеграции транскриптомных данных с метаболическими моделями. В конце главы формулируется цель исследования и осуществляется постановка задач, решаемых в данной диссертации.

Метаболизм представляет собой набор биохимических реакций, протекающих в организме. Одним из способов систематического анализа метаболизма является изучение данных, получаемых в результате так называемого транскрип-томного профилирования (транскриптомных данных)8'9. С физической точки зрения этот анализ позволяет оценить то, насколько активны те или иные биохимические реакции через уровни накопления (экспрессии) соответствующих им генов. С технической точки зрения результатом данного анализа является матрица экспрессии генов, строки которой соответствуют собственно генам, а столбцы - изучаемым образцам (например, клеткам из разных тканей или в разных

8 Wang, Z. RNA-Seq: a revolutionary tool for transcriptomics / Z. Wang, M. Gerstein, M. Snyder // Nat Rev Genet. 2009. Vol. 10, no. 1. P. 57-63

9Chen, G. Single-Cell RNA-Seq Technologies and Related Computational Data Analysis / G. Chen, B. Ning, T. Shi // Front Genet. 2019. Vol. 10, no. 317

биологических состояниях). В ячейках данной матрицы находятся величины, характеризующие уровни экспрессии конкретных генов в конкретных образцах. В качестве визуализации матрицы экспрессии генов часто используют тепловую карту, где каждому значению присваивается цветовое представление из некоторой цветовой шкалы: например, самому низкому значению в строке соответствует синий цвет, самому высокому — красный, а всем остальным значениям — промежуточные цвета. Таким образом можно визуализировать относительную интенсивность значений в каждой строке матрицы. Пример тепловой карты для матрицы экспрессии генов метаболизма глюкозы представлены на рисунке .

фер

триозофосфатизомераза

триозофосфатизомеразы

Рис. P.1 — Тепловая карта (справа) экспрессии генов метаболизма глюкозы

(слева)

Изучение матрицы экспрессии генов позволяет судить о том, как различаются активности биохимических реакций в разных образцах. Также ранее было показано10, что анализ транскриптомных данных с использованием графов улучшает интерпретируемость результатов из-за наличия естественной графовой структуры метаболических реакций. В частности, все метаболические реакции группируются в метаболическую сеть, которую можно представить в ви-

10Network integration of parallel metabolic and transcriptional data reveals metabolic modules that regulate macrophage polarization / A. K. Jha [et al.] // Immunity. 2015. Vol. 42, no. 3. P. 419—430

де графа, ребра которого соответствуют генам, ответственным за превращение веществ, расположенных в вершинах графа (будем называть этот граф метаболическим графом). В настоящей диссертации будет показано, что на основании транскриптомных данных в таком графе можно найти связные участки, или подграфы, активность которых регулируется совместно от образца к образцу. Такие участки носят название активных метаболических модулей. Существующие на данный момент методы11, реализующий данный подход, используются лишь для парных сравнений образцов (то есть работают с матрицами экспрессии генов, состоящими лишь из двух групп колонок) и напрямую не подходят для анализа экспериментов, состоящих из многих образцов. Подходом к расширению графовых методов на работу с данными, состоящими из многих образцов, может являться интеграция этих методов с методами кластеризации.

В главе приведены теоретические основы методов кластеризации, использованных в предложенном в диссертации методе. К ним относятся кластеризации с помощью методов k-medoids, EM-алгоритма и иерархической кластеризации. Приводится также краткий обзор популярного метода WGCNA для работы с матрицами экспрессии генов и их кластеризации на основе взвешенных сетей коэкспрессии генов. Однако, в своей работе метод WGCNA не учитывает информацию о метаболическом графе, и, таким образом, не гарантирует, что идентифицированные им группы генов будут являться его связным подграфом.

Ввиду специфики изучаемого явления, а именно метаболической регуляции иммунных клеток, в первой главе диссертации также совершен обзор основных типов иммунных клеток, представленных в изучаемых предложенным методом наборах данных, а также рассмотрены способы регуляции иммунного ответа с помощью метаболизма. Также кратко описаны базы данных, собирающие и систематизирующие информацию об иммунных клетках (ImmGen) или метаболизме (KEGG).

11 GAM: a web-service for integrated transcriptional and metabolic network analysis / A. A. Sergushichev [et al.] // Nucleic acids research. 2016. Vol. 44, W1. W194-W200

Во второй главе сформулирована задача совместной кластеризации в графовом и корреляционном пространствах как задача поиска набора связных подграфов некоторого графа. В главе также представлена разработка соответствующего итеративного алгоритма и произведено его сравнение с базовыми методами кластеризации, применяющимися для анализа экспрессии генов. Так же в главе рассматривается вопрос зависимости числа итоговых модулей и времени работы алгоритма от значения параметра к. Главу завершает рассмотрение способа получения начальных приближений с помощью процедуры на основе метода независимых компонент.

Первым этапом предложенного алгоритма совместной кластеризации в графовом и корреляционном пространствах является предварительная кластеризация значений экспрессии метаболических генов (строк матрицы экспрессии генов) по корреляции с помощью метода k-medoids при заданном значении числа начальных кластеров к. Затем для каждого полученного кластера вычисляется так называемый профиль — усредненное значение экспрессии всех входящих в кластер генов. Эти профили являются начальными приближениями профилей искомых модулей. Далее для каждого гена матрицы вычисляется корреляционное расстояние Пирсона до каждого из к таких начальных профилей (величина d(gi,Cj), где д,, - ген, а Cj - профиль). Полученный массив значений формирует матрицу расстояний, где каждая строка соответствует какому-либо гену, а каждый столбец — конкретному профилю начальных кластеров.

Данные значения используются для вычисления наборов генных весов для каждого из кластеров. Для этого, во-первых, вводится фиктивный нулевой профиль, расстояние до которого по определению будет всегда равно некоторой константе base. Во-вторых, для всех пар генов и профилей находится расстояние до ближайшего профиля, без учета расстояния до профиля, для которого рассчитывается текущее расстояние (величина d'(gi,Cj), где gi - ген, а Cj - профиль). При этом поиске расстояния до ближайшего профиля будем также учи-

тывать расстояние до фиктивного нулевого профиля, равное значению base. В итоге, вычислив отрицательный логарифм отношения d(gi,Cj) к d'(gi,Cj), получим к наборов значений генных весов, на основании которых происходит поиск к подграфов максимального веса в метаболическом графе — собственно метаболических модулей.

Итак, для каждого идентифицированного модуля его гены, имеющие положительный вес, становятся новыми кластерами. Обновленный список генов кластера влечет за собой вычисление нового профиля, что, в свою очередь, приводит к обновлению генных весов. Эта процедура продолжается до тех пор, пока изменение генного состава кластеров не становится пренебрежимо мало.

Псевдокод алгоритма приведен на рисунке P.2.

Algorithm: Network clustering Input: Graph G = (V, E) of order n = |Vmatrix X of size n x m, initial module profiles approximation P(1) of size k« m, value of base.

Result: Final approximation of profiles P* of size k* x m and a set of connected subgraphs A* for i G 1,..., k* as a final approximation of active modules for i G {1, 2,...} do

k(i) ^ number of rows in P(i);

dx,y ^ 1 - corr(Xx,Py(i)) for x G {1,. .., n}, y G {1, .. ., k(i)};

dx,o i base for x G {1,. .., n};

d'x,y ^ minze{0,...,fc(i)},z=y dx,z for x G{1,...,n},y G {1,..., k(i)};

for j G {1,..., k(i)} do

wx i--log jr^ for x G {1,..., n};

Aji) i connected subgraph of G with maximum sum of vertex weights w;

P (i+D

i coordinate-wise average of Xx, for x G V(Aji)) if wx > 0; end

if P(i+i)

substantially differs from P(j) for j < i then I continue end

if there are very small modules in

A(i) then

remove one row from P(i+1) that corresponds to the smallest

module; continue end break

end

Рис. Р.2 — Предложенный алгоритм совместной кластеризации в графовом и

корреляционном пространствах

Для экспериментального исследования работы предложенного алгоритма были сгенерированы симулированные данные, имитирующие три разновидности паттерна поведения активных модулей в матрице экспрессии генов. Варьировалось также и значение среднеквадратичного отклонения для шума в данных экспрессии. Для простоты в качестве графа биологических связей использовался граф белок-белковых взаимодействий, в котором вершинами являются гены, и между генами существует ребро, если соответствующие генам белки могут взаимодействовать друг с другом в клетке.

Сперва были изучены следующие методы в их применении к получению начальных приближений профилей модулей: k-means и k-medoids при к из множества {16,24,32,64,96}, WGCNA, а также метод all, просто возвращающий все строки исходной матрицы. Результаты оценивались по специально сформулированным метрикам, отражающим усредненное и минимальное значение корреляции между векторами начальных приближений и истинными профилями модулей. Была показана прямая зависимость между значением к и качеством начальных приближений для методов k-means и k-medoids. При этом, ожидаемо, при увеличении среднеквадратичного шума все методы хуже справляются с восстановлением исходных профилей.

В связи с тем, что для решения поставленной задачи отсутствуют точные аналоги, в качестве базовых методов для сравнения работы всего алгоритма были выбраны следующие методы: k-medoids при к = 32, WGCNA и метод nearest, вычисляющий вес по той же формуле, что и в предложенном алгоритме, но которому передается истинная матрица профилей и фиксированный параметр base. Предложенный алгоритм совместной кластеризации в графовом и корреляционном пространствах будем называть net-clust. Важно, что все три перечисленных метода, за исключением предложенного алгоритма net-clust, не гарантируют, что гены в наборах найденных кластеров будут связаны между собой в метаболическом графе. В качестве метрик сравнения были использованы показатели точ-

ности и полноты найденных кластеров. Однако эти метрики не отражают, насколько хорошо вершины разделяются на отдельные модули. Чтобы это учесть, для каждого идентифицированного модуля вычислялась максимальная доля его вершин, полностью совпадающих с одним из истинных модулей. Усредненное значение этих долей обозначалась как метрика average module consistency — чем ближе ее значение к единице, тем лучше.

Анализ с помощью nearest и net-clust при стартах с истинных значений показал, что для меньших значений base результаты характеризуются большей точностью, но меньшей полнотой. При исследовании работы предложенного алгоритма с разными способами получения начальных приближений было показано, что качество работы предложенного алгоритма сравнимо с качеством базового метода nearest, запускаемого с теми же значениями параметра base. При этом методу nearest на вход передается истинная матрица профилей модулей, а предложенный алгоритм выводит ее автоматически.

Исследование времени работы предложенного алгоритма при запуске с разного числа начальных приближений показало, что удачные решения характерны в основном для запусков при значениях к, в несколько раз превышающих истинное число модулей. Однако чем выше значение к, тем дольше работает алгоритм.

В качестве одного из способов определения начальных приближений без необходимости указывать значение параметра к была предложена процедура, основанная на применении метода независимых компонент (Independent Component Analysis, или ICA). Для экспериментального исследования алгоритма с получением начального приближения на основе метода ICA были сгенерированы симулированные данные, согласно такому же вышеописанному протоколу. Показано, что за счет меньшего числа групп генов в получаемом приближении этот подход позволяет значительно уменьшить время работы предложенного алгоритма при сохранении качества получаемых результатов.

В третьей главе представлен метод вЛМ-кластеризации, основанный на предложенном алгоритме совместной кластеризации в графовом и корреляционном пространствах, адаптированном для использования с метаболическими графами. Рассмотрены особенности его применения на реальных данных, процессы предобработки данных и постобработки результатов, а также автоматический подбор некоторых параметров метода. Кроме того рассмотрена процедура построения метаболических графов в рамках использования предложенного метода. Главу завершает анализ устойчивости результатов вЛМ-кластеризации при тестировании метода на трех реальных наборах данных.

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Список литературы диссертационного исследования кандидат наук Гайнуллина Анастасия Наильевна, 2020 год

Литература

1. Van den Bossche J., O'Neill L.A., Menon D. Macrophage immunometabolism: where are we (going)? // Trends in Immunology. 2017. V. 38. N 6. P. 395-406. doi: 10.1016/j.it.2017.03.001

2. Al-Khami A.A., Rodriguez P.C., Ochoa A.C. Energy metabolic pathways control the fate and function of myeloid immune cells // Journal of Leukocyte Biology. 2017. V. 102. N 2. P. 369-380. doi: 10.1189/jlb.1VMR1216-535R

3. Wculek S.K., Khouili S.C., Priego E., Heras-Murillo I., Sancho D. Metabolic control of dendritic cell functions: digesting information // Frontiers in immunology. 2019. V. 10. P. 775. doi: 10.3389/fimmu.2019.00775

4. Wang Z., Gerstein M., Snyder M. RNA-Seq: a revolutionary tool for transcriptomics // Nature Reviews Genetics. 2009. V. 10. N 1. P. 5763. doi: 10.1038/nrg2484

5. Chen G., Ning B., Shi T. Single-cell RNA-Seq technologies and related computational data analysis // Frontiers in Genetics. 2019. V. 10. P. 317. doi: 10.3389/fgene.2019.00317

6. Beisser D., Grohme M. A., Kopka J., Frohme M., Schill R.O., Hengherr S., Dandekar T., Klau G.W., Dittrich M., Müller T. Integrated pathway modules using time-course metabolic profiles and EST data from Milnesium tardigradum // BMC Systems Biology. 2012. V. 6. P. 72. doi: 10.1186/1752-0509-6-72

7. Jha A.K., Huang S.C., Sergushichev A., Lampropoulou V., Ivanova Y., Loginicheva E., Chmielewski K., Stewart K., Ashall J., Everts B., Pearce E., Driggers E.M., Artyomov M.N. Network integration of parallel metabolic and transcriptional data reveals metabolic modules that regulate macrophage polarization // Immunity. 2015. V. 42. N 3. P. 419-430. doi: 10.1016/j.immuni.2015.02.005

8. Artyomov M.N., Sergushichev A., Schilling J.D. Integrating immunometabolism and macrophage diversity // Seminars in immunology. 2016. V. 28. N 5. P. 417-424. doi: 10.1016/j.smim.2016.10.004

9. Sergushichev A.A., Loboda A.A., Jha A.K., Vincent E.E., Driggers E.M., Jones R.G., Pearce E.J., Artyomov M.N. GAM: a web-service for integrated transcriptional and metabolic network analysis // Nucleic acids research. 2016. V. 44. N W1. P. W194-W200. doi: 10.1093/nar/gkw266

10. Гайнуллина А.Н., Шалыто А.А., Сергушичев А.А. Метод совместной кластеризации в графовом и корреляционном простран-

References

1. Van den Bossche J., O'Neill L.A., Menon D. Macrophage immunometabolism: where are we (going)? Trends in Immunology, 2017, vol. 38, no. 6, pp. 395-406. doi: 10.1016/j.it.2017.03.001

2. Al-Khami A.A., Rodriguez P.C., Ochoa A.C. Energy metabolic pathways control the fate and function of myeloid immune cells. Journal of Leukocyte Biology, 2017, vol. 102, no. 2, pp. 369-380. doi: 10.1189/jlb.1VMR1216-535R

3. Wculek S.K., Khouili S.C., Priego E., Heras-Murillo I., Sancho D. Metabolic control of dendritic cell functions: digesting information. Frontiers in immunology, 2019, vol. 10, pp. 775. doi: 10.3389/ fimmu.2019.00775

4. Wang Z., Gerstein M., Snyder M. RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews Genetics, 2009, vol. 10, no. 1, pp. 57-63. doi: 10.1038/nrg2484

5. Chen G., Ning B., Shi T. Single-cell RNA-Seq technologies and related computational data analysis. Frontiers in Genetics, 2019, vol. 10, pp. 317. doi: 10.3389/fgene.2019.00317

6. Beisser D., Grohme M. A., Kopka J., Frohme M., Schill R.O., Hengherr S., Dandekar T., Klau G.W., Dittrich M., Müller T. Integrated pathway modules using time-course metabolic profiles and EST data from Milnesium tardigradum. BMC Systems Biology, 2012, vol. 6, pp. 72. doi: 10.1186/1752-0509-6-72

7. Jha A.K., Huang S.C., Sergushichev A., Lampropoulou V., Ivanova Y., Loginicheva E., Chmielewski K., Stewart K., Ashall J., Everts B., Pearce E., Driggers E.M., Artyomov M.N. Network integration of parallel metabolic and transcriptional data reveals metabolic modules that regulate macrophage polarization. Immunity, 2015, vol. 42, no. 3, pp. 419-430. doi: 10.1016/j.immuni.2015.02.005

8. Artyomov M.N., Sergushichev A., Schilling J.D. Integrating immunometabolism and macrophage diversity. Seminars in immunology, 2016, vol. 28, no. 5, pp. 417-424. doi: 10.1016/j.smim.2016.10.004

9. Sergushichev A.A., Loboda A.A., Jha A.K., Vincent E.E., Driggers E.M., Jones R.G., Pearce E.J., Artyomov M.N. GAM: a web-service for integrated transcriptional and metabolic network analysis. Nucleic acids research, 2016, vol. 44, no. W1, pp. W194-W200. doi: 10.1093/nar/gkw266

10. Gainullina A.N., Shalyto A.A., Sergushichev A.A. Method of the joint clustering in network and correlation spaces. Modeling and Analysis

ствах // Моделирование и анализ информационных систем. 2020. Т. 27. № 2. С. 180-193. doi: 10.18255/1818-1015-2020-2-180-193

11. Loboda A.A., Artyomov M.N., Sergushichev A.A. Solving generalized maximum-weight connected subgraph problem for network enrichment analysis // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2016. V. 9838. P. 210-221. doi: 10.1007/978-3-319-43681-4_17

12. Benoist C. Open-source ImmGen: Mononuclear phagocytes // Nature Immunology. 2016. V. 17. N 7. P. 741. doi: 10.1038/ni.3478

13. Gautier E.L. Shay T., Miller J., Greter M., Jakubzick C., Ivanov S., Helft J., Chow A., Elpek K.G., Gordonov S., Mazloom A.R., Ma'Ayan A., Chua W.-J., Hansen T.H., Turley S.J., Merad M., Randolph G.J., Best A.J., Knell J., Goldrath A., Brown B., Jojic V., Koller D., Cohen N., Brenner M., Regev A., Fletcher A., Bellemare-Pelletier A., Malhotra D., Jianu R., Laidlaw D., Collins J., Narayan K., Sylvia K., Kang J., Gazit R., Garrison B.S., Rossi D.J., Kim F., Rao T.N., Wagers A., Shinton S.A., Hardy R.R., Monach P., Bezman N.A., Sun J.C., Kim C.C., Lanier L.L., Heng T., Kreslavsky T., Painter M., Ericson J., Davis S., Mathis D., Benoist C. Gene-expression profiles and transcriptional regulatory pathways that underlie the identity and diversity of mouse tissue macrophages // Nature Immunology. 2012. V. 13. N 11. P. 1118-1128. doi: 10.1038/ni.2419

14. Röhl S., Rykaczewska U., Seime T., Suur B.E., Diez M.G., Gädin J.R., Gainullina A. Sergushichev A.A., Wirka R., Lengquist M., Kronqvist M., Bergman O., Odeberg J., Lindeman J.H.N., Quertermous T., Hamsten A., Eriksson P., Hedin U., Matic L.P. Transcriptomic profiling of experimental arterial injury reveals new mechanisms and temporal dynamics in vascular healing response // JVS: Vascular Science. 2020. V. 1. P. 13-27. doi: 10.1016/j.jvssci.2020.01.001

15. Kaufman L. Rousseeuw P.J. Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons, 1990.

of Information Systems, 2020, vol. 27, no. 2, pp. 180-193. (in Russian). doi: 10.18255/1818-1015-2020-2-180-193

11. Loboda A.A., Artyomov M.N., Sergushichev A.A. Solving generalized maximum-weight connected subgraph problem for network enrichment analysis. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2016, vol. 9838, pp. 210-221. doi: 10.1007/978-3-319-43681-4_17

12. Benoist C. Open-source ImmGen: Mononuclear phagocytes. Nature Immunology, 2016, vol. 17, no. 7, pp. 741. doi: 10.1038/ni.3478

13. Gautier E.L. Shay T., Miller J., Greter M., Jakubzick C., Ivanov S., Helft J., Chow A., Elpek K.G., Gordonov S., Mazloom A.R., Ma'Ayan A., Chua W.-J., Hansen T.H., Turley S.J., Merad M., Randolph G.J., Best A.J., Knell J., Goldrath A., Brown B., Jojic V., Koller D., Cohen N., Brenner M., Regev A., Fletcher A., Bellemare-Pelletier A., Malhotra D., Jianu R., Laidlaw D., Collins J., Narayan K., Sylvia K., Kang J., Gazit R., Garrison B.S., Rossi D.J., Kim F., Rao T.N., Wagers A., Shinton S.A., Hardy R.R., Monach P., Bezman N.A., Sun J.C., Kim C.C., Lanier L.L., Heng T., Kreslavsky T., Painter M., Ericson J., Davis S., Mathis D., Benoist C. Gene-expression profiles and transcriptional regulatory pathways that underlie the identity and diversity of mouse tissue macrophages. Nature Immunology, 2012, vol. 13, no. 11, pp. 1118-1128. doi: 10.1038/ni.2419

14. Röhl S., Rykaczewska U., Seime T., Suur B.E., Diez M.G., Gâdin J.R., Gainullina A. Sergushichev A.A., Wirka R., Lengquist M., Kronqvist M., Bergman O., Odeberg J., Lindeman J.H.N., Quertermous T., Hamsten A., Eriksson P., Hedin U., Matic L.P. Transcriptomic profiling of experimental arterial injury reveals new mechanisms and temporal dynamics in vascular healing response. JVS: Vascular Science, 2020, vol. 1, pp. 13-27. doi: 10.1016/j.jvssci.2020.01.001

15. Kaufman L. Rousseeuw P.J. Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons, 1990.

Авторы

Гайнуллина Анастасия Наильевна — программист, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, Scopus ID: 57205601752, ORCID: 0000-0003-3796-2337, anastasiia.gainullina@gmail.com

Артемов Максим — PhD, химические науки, профессор (исследователь), профессор (исследователь), Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, Scopus ID: 9242717500, ORCID: 0000-0002-1133-4212, martyomov@pathology.wustl.edu Сергушичев Алексей Александрович — кандидат технических наук, доцент, доцент, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, Scopus ID: 55772694000, ORCID: 0000-0003-1159-7220, alserg@itmo.ru

Authors

Anastasiia N. Gainullina — Software Developer, ITMO University, Saint Petersburg, 197101, Russian Federation, Scopus ID: 57205601752, ORCID: 0000-0003-3796-2337, anastasiia.gainullina@gmail.com

Maxim Artyomov — PhD, Chemistry, Professor (Researcher), Professor (Researcher), ITMO University, Saint Petersburg, 197101, Russian Federation, Scopus ID: 9242717500, ORCID: 0000-0002-1133-4212, martyomov@pathology.wustl.edu

Alexey A. Sergushichev — PhD, Associate Professor, Associate Professor, ITMO University, Saint Petersburg, 197101, Russian Federation, Scopus ID: 55772694000, ORCID: 0000-0003-1159-7220, alserg@itmo.ru

УНИВЕРСИТЕТ итмо

НАУЧНО-ТЕХНИЧЕСКИИ ВЕСТНИК ИНФОРМАЦИОННЫХ ТЕХНОЛОГИИ, МЕХАНИКИ И ОПТИКИ ноябрь-декабрь 2020 Том 20 № 6 ISSN 2226-1494 http://ntv.ifmo.ru/

SCIENTIFIC AND TECHNICAL JOURNAL OF INFORMATION TECHNOLOGIES, MECHANICS AND OPTICS November-December 2020 Vol. 20 No 6 ISSN 2226-1494 http://ntv.ifmo.ru/en/

ширм ТЕХНОЛОГИЙ, штии и оптики

УДК 519.1 doi: 10.17586/2226-1494-2020-20-6-888-892

ПРИМЕНЕНИЕ МЕТОДА НЕЗАВИСИМЫХ КОМПОНЕНТ ДЛЯ ОПРЕДЕЛЕНИЯ НАЧАЛЬНОГО ПРИБЛИЖЕНИЯ ПРИ ПОИСКЕ АКТИВНЫХ МОДУЛЕЙ В БИОЛОГИЧЕСКИХ ГРАФАХ

А.Н. Гайнуллина, В.Д. Сухов, А.А. Шалыто, А.А. Сергушичев

Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация Адрес для переписки: anastasiia.gainullina@gmail.com Информация о статье

Поступила в редакцию 23.09.20, принята к печати 30.10.20 Язык статьи — русский

Ссылка для цитирования: Гайнуллина А.Н., Сухов В.Д., Шалыто А.А., Сергушичев А.А. Применение метода независимых компонент для определения начального приближения при поиске активных модулей в биологических графах // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20. № 6. С.888-892. doi: 10.17586/2226-1494-2020-20-6-888-892

Аннотация

Предмет исследования. Поиск активных модулей в биологических графах, в том числе в генных графах, является одним из важных подходов к интерпретации экспериментальных биологических данных. Один из методов ее решения основан на применении алгоритма совместной кластеризации в графовом и корреляционном пространствах. Алгоритм находит группы генов, одновременно близко расположенные в генном графе и обладающие высокой попарной корреляцией по матрице значений экспрессии генов. Алгоритм является итеративным, один из его ключевых параметров — выбранное начальное приближение, от которого зависит время работы и качество получаемых результатов. В настоящей работе рассмотрена задача определения начального приближения для этого алгоритма. Для решения задачи предложено использование процедуры на основе метода независимых компонент. Метод. На первом шаге предлагаемой процедуры определения начального приближения применяется метод независимых компонент к центрированной матрице значений экспрессии генов. Далее для каждой компоненты определяются гены, которые ей соответствуют с заданным уровнем статистической значимости. Полученные группы генов для всех независимых компонент выбираются в качестве начального приближения. Основные результаты. Применение процедуры на основе метода независимых компонент позволит уменьшить число групп генов в начальном приближении без потери точности, что, в свою очередь, уменьшит время работы алгоритма кластеризации в десятки раз при сохранении качества результатов. Практическая значимость. Ускорение работы алгоритма совместной кластеризации в графовом и корреляционном пространствах без потери качества результатов значительно повысит удобство его использования для интерпретации транскриптомных данных в биоинформатике и вычислительной биологии. Ключевые слова

кластеризация, корреляция, метод независимых компонент, графы, экспрессия генов Благодарности

Работа выполнена при поддержке Правительства Российской Федерации, субсидия 08-08.

doi: 10.17586/2226-1494-2020-20-6-888-892

INDEPENDENT COMPONENT ANALYSIS FOR INITIAL APPROXIMATION DETERMINATION IN IDENTIFICATION OF ACTIVE MODULES IN

BIOLOGICAL GRAPHS A.N. Gainullina, V.D. Sukhov, A.A. Shalyto, A.A. Sergushichev

ITMO University, Saint Petersburg, 197101, Russian Federation Corresponding author: anastasiia.gainullina@gmail.com Article info

Received 23.09.20, accepted 30.10.20 Article in Russian

For citation: Gainullina A.N., Sukhov V.D., Shalyto A.A., Sergushichev A.A. Independent component analysis for initial approximation determination in identification of active modules in biological graphs. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2020, vol. 20, no. 6, pp. 888-892. (in Russian). doi: 10.17586/2226-1494-2020-20-6-888-892

ПРИМЕНЕНИЕ МЕТОДА НЕЗАВИСИМЫХ КОМПОНЕНТ ДЛЯ ОПРЕДЕЛЕНИЯ НАЧАЛЬНОГО ПРИБЛИЖЕНИЯ.

Abstract

Subject of Research. The identification of active modules in biological graphs, for example, gene graphs, is one of the important approaches to the interpretation of experimental biological data. One of the approaches for its solution is the application of an algorithm of the joint clustering in network and correlation spaces. The algorithm finds groups of genes that are located simultaneously close in the gene graph and have a high pairwise correlation according to the matrix of gene expression values. The algorithm is iterative and one of its key parameters is the chosen initial approximation, which affects both the run time and the quality of the results. We consider the determination problem of an initial approximation for this algorithm. A procedure based on independent component analysis is proposed for the problem solution. Method. The method of independent component analysis is applied to a centered matrix of expression values at the first step of the proposed procedure for finding of an initial approximation. Then, the genes specific to the component with a given level of statistical significance are identified for each component. The gene groups obtained for all independent components are chosen as the initial approximation. Main Results. The procedure application based on the independent component analysis reduces the number of gene groups in the initial approximation without the loss of accuracy. This fact, in turn, speeds up the running time of the clustering algorithm by an order of magnitude with the quality maintenance of the results. Practical Relevance. Acceleration of the algorithm of the joint clustering in network and correlation spaces without quality loss of the results increases significantly its convenience and simplifies its application for the interpretation of transcriptome data in bioinformatics and computational biology. Keywords

clustering, correlation, independent component analysis, graphs, gene expression Acknowledgements

This work was supported by the Government of the Russian Federation, Investigation Research Grant 08-08.

Задача поиска активных модулей в биологических графах возникает при интерпретации экспериментальных данных, полученных при изучении некоторых биологических процессов [1-3]. В рамках этого подхода рассматривается граф взаимодействий некоторых биологических элементов, например, генов, и предполагается, что в этом графе существуют связные подграфы — активные модули, регуляция которых происходит совместно [4]. В случае генов такая совместная регуляция может выражаться в скоррелированных уровнях экспрессии (или активности) генов, что можно наблюдать экспериментально с помощью метода РНК-секвенирование. Задача поиска активных модулей в этом случае состоит в том, чтобы по данным об экспрессии генов определить потенциальные активные модули.

Для решения этой задачи был предложен алгоритм совместной кластеризации в графовом и корреляционном пространствах net-clust [5]. Входными данными алгоритма служат матрица со значениями экспрессии генов в некоторых биологических образцах и граф генных взаимодействий. На выходе алгоритм выдает набор связных подграфов, таких что, профили экспрессии генов сильно коррелируют внутри каждого подграфа. На начальном шаге определяются группы хорошо скор-реллированных генов без требования к их связности (начальное приближение), и по ним определяются потенциальные профили экспрессии активных модулей. Затем для каждого профиля находится связный подграф, гены которого хорошо коррелируют с рассматриваемым профилем. По найденным связным подграфам корректируются потенциальные профили экспрессии активных модулей, далее эти шаги повторяются до тех пор, пока и модули, и потенциальные профили не перестанут изменяться.

Важным элементом описанного алгоритма является процедура определения начального приближения. В статье [5] для этого рассматривались два метода кластеризации: k-means и k-medoids с разными значениями параметра к. При этом на симулированных данных

было показано, что для качественной работы алгоритма значения к должны быть в несколько раз больше истинного числа модулей. С другой стороны, увеличение значения к влечет нелинейное увеличение числа итераций и времени работы алгоритма.

В настоящей работе рассматривается проблема получения начального приближения для алгоритма совместной кластеризации в графовом и корреляционном пространствах, и для ее решения предлагается использовать процедуру, основанную на применении метода независимых компонент (Independent Component Analysis, ICA) [6-8].

Предлагаемая процедура основана на модели, в которой матрицу E значений экспрессии генов можно представить в виде

E = S х A + £,

где A — матрица смеси, соответствующая тому, какие активные модули представлены в каких образцах; S — матрица сигналов, соответствующая тому, какие гены и с каким весом входят в активные модули; £ — матрица шума, соответствующая как техническим, так и биологическим случайным эффектам.

В рамках этой модели и некоторых других предположений метод ICA позволяет по матрице E получить разложение на матрицы S и A.

Важным свойством этого разложения является то, что значения в каждом столбце матрицы S (соответствуют некоторой независимой компоненте) распределены согласно нормальному распределению, кроме «тяжелых хвостов». «Хвосты» соответствуют генам, для которых можно с уверенностью сказать, что они принадлежат этой компоненте. При этом уверенность можно контролировать с помощью задания порога на долю ложноположительных срабатываний (False Discovery Rate, FDR).

Таким образом для каждой независимой компоненты можно определить две группы генов, принадлежащих этой компоненте: гены с большими положительными значениями в соответствующей колонке матрицы S,

А.Н. Гайнуллина, В.Д. Сухов, А.А. Шалыто, А.А. Сергушичев

которые изменяются в том же направлении, что и компонента, и гены с большими отрицательными значениями, которые изменяются в противоположном направлении. Убрав гены, входящие в несколько компонент, и убрав группы с небольшим числом генов, получим набор групп генов с хорошей внутренней попарной корреляцией. Эти группы и будут использоваться в качестве начального приближения для алгоритма net-clust.

Параметром метода ICA является число получаемых компонент. Для выбора подходящего числа компонент существуют различные подходы [9, 10]. В настоящей работе для простоты используется следующий подход. Для исходной матрицы E запускается метод главных компонент (Principal Component Analysis, PCA). Для полученных компонент вычисляется доля вариации в исходных данных, объясняемая каждой из этих компонент. Наконец, в качестве числа компонент для запуска метода ICA выбирается число компонент, полученных методом PCA, для которых доля объясняемой вариации превышает 5 %.

Для экспериментального исследования алгоритма с получением начального приближения на основе метода ICA сгенерированы симулированные данные, согласно описанному в [5] протоколу. Было рассмотрено три

типа комбинаций истинных модулей в данных экспрессии, соответствующих различным дизайнам биологических экспериментов. Для всех типов рассматривалось шесть биологических состояний и каждое состояние было представлено в трех повторностях — типичном числе для биологических экспериментов, в которых анализируется экспрессия генов.

Сначала качество результатов работы алгоритма net-clust при построении начального приближения на основе метода ICA сравнивалось с качеством результатов, полученных при использовании методов k-medoids и k-means для k = 32, предлагавшихся к использованию в [5]. При сравнении варьировалось два параметра: параметр о — значение среднеквадратичного отклонения шума, использующегося при генерации симулированных данных, и параметр base — параметр алгоритма net-clust, контролирующий порог корреляции для включения генов в модуль (порог корреляции вычисляется как 1-base) и тем самым контролирующий соотношения метрик точности и полноты получаемых результатов. В этом эксперименте всегда генерировалось десять истинных модулей.

На рис. 1 приведены результаты этого сравнения. Можно наблюдать, что качество результатов при по-

ё

к &

о О

M

л §

§ х

k-medoids32 k-means22 ICA

k-medoids32 k-means32 ICA

k-medoids32 k-means32 ICA

a = 0,25

i И

С ь л

m

0,6

0,8

1,0 0,6

a

a = 0,5

a

Ч* •i

u— 0} ■Ш-

0,8

Точность

a=l

-Qb Q-

-Ш i

-аъ

-д -d-

Ш—

1,0 0,6

-D

0,8

1,0

ю

Si &

<L) О M

k-medoids32 k-means32 ICA

k-medoids32 k-means32 ICA

k-medoids32 k-means32 ICA

0,6

0,8

а = 0,25

a i D

Л 1 ч

и

л H

h

: 0,5

1,0 0,6

fl-fh

ПН

чь

чь

lb и

0,8

Точность

а = 1

ш ш-

411

► 1 и

41

§

-ш-

1,0 0,6

0,8

1,0

Рис. 1. Анализ результатов алгоритма net-clust при разных способах получения начального приближения: k-means, k-medoids и ICA; о - значение среднеквадратичного отклонения шума, использующегося при генерации симулированных данных; base-параметр алгоритма net-clust, контролирующий порог корреляции для включения генов в модуль

ПРИМЕНЕНИЕ МЕТОДА НЕЗАВИСИМЫХ КОМПОНЕНТ ДЛЯ ОПРЕДЕЛЕНИЯ НАЧАЛЬНОГО ПРИБЛИЖЕНИЯ...

Ф k-medoidi 2

5 15

Истинное число модулей

Рис. 2. Время работы алгоритма net-clust при использовании одного из методов получения начального приближения (k-medoids при k = 32 или ICA); истинное число активных модулей в симулированных данных равнялось 5, 10 или 15; значение среднеквадратичного отклонения для шума равнялось 0,5; значение параметра base равнялось 0,4

лучении начального приближения с помощью метода ICA достаточно похоже на качество результатов при использовании методов k-means и k-medoids. Исключение составляет результат при с = 1 и base = 0,5, для которых использование метода ICA дает большую точность, но меньшую полноту.

Выполнен анализ времени работы алгоритма net-clust в зависимости от метода построения начального приближения. В сравнении участвовали методы k-medoids при к = 32 и ICA. В этом эксперименте значение среднеквадратичного отклонения для шума с приравнивалось 0,5, как типичному значению для реальных экспериментальных данных [11]. При этом варьировалось число истинных модулей (5, 10 или 15).

На рис. 2 представлены результаты анализа времени работы. Применение процедуры на основе ICA уменьшает общее время работы алгоритма по сравнению с методом k-medoids в 25, 14 и 4 раза для случаев, когда число истинных модулей равно 5, 10 и 15 соответственно. Это объясняется тем, что процедура на основе ICA возвращает значительно меньшее число кластеров, примерно совпадающее с истинным значением числа модулей, тем самым уменьшая число итераций алгоритма net-clust.

Таким образом, в настоящей работе предложено использование метода независимых компонент для получения начального приближения в алгоритме совместной кластеризации в графовом и корреляционном пространствах net-clust. За счет меньшего числа групп генов в получаемом приближении этот подход позволяет значительно уменьшить время работы алгоритма net-clust при сохранении качества получаемых результатов.

Литература

1. Beisser D., Grohme M.A., Kopka J., Frohme M., Schill R.O., Hengherr S., Dandekar T., Klau G.W., Dittrich M., Müller T. Integrated pathway modules using time-course metabolic profiles and EST data from Milnesium tardigradum // BMC Systems Biology. 2012. V. 6. P. 72. doi: 10.1186/1752-0509-6-72

2. Jha A.K., Huang S.-C., Sergushichev A., Lampropoulou V., Ivanova Y., Loginicheva E., Chmielewski K., Stewart K., Ashall J., Everts B., Pearce E., Driggers E.M., Artyomov M.N. Network integration of parallel metabolic and transcriptional data reveals metabolic modules that regulate macrophage polarization // Immunity.

2015. V. 42. N 3. P. 419-430. doi: 10.1016/j.immuni.2015.02.005

3. Artyomov M.N., Sergushichev A., Schilling J.D. Integrating immunometabolism and macrophage diversity // Seminars in Immunology.

2016. V. 28. N 5. P. 417-424. doi: 10.1016/j.smim.2016.10.004

4. Loboda A.A., Artyomov M.N., Sergushichev A.A. Solving generalized maximum-weight connected subgraph problem for network enrichment analysis // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2016. V. 9838. P. 210-221. doi: 10.1007/978-3-319-43681-4_17

5. Гайнуллина А.Н., Шалыто А.А., Сергушичев А.А. Метод совместной кластеризации в графовом и корреляционном пространствах // Моделирование и анализ информационных систем. 2020. Т. 27. № 2. С. 180-193. doi: 10.18255/1818-1015-2020-2-180-193

6. Comon P. Independent component analysis, a new concept? // Signal Processing. 1994. V. 36. N 3. P. 287-314. doi: 10.1016/0165-1684(94)90029-9

7. Saelens W., Cannoodt R., Saeys Y. A comprehensive evaluation of module detection methods for gene expression data // Nature Communications. 2018. V. 9. N 1. P. 1090. doi: 10.1038/s41467-018-03424-4

8. Rotival M., Zeller T., Wild P., Maouche S., Szymczak S., Schillert A., Castagné R., Deiseroth A., Proust C., Brocheton J., Godefroy T., Perret C., Germain M., Eleftheriadis M., Sinning C.R., Schnabel R.B., Lubos E., Lackner K.J., Rossmann H., Münzel T., Rendon A., Consortium C., Erdmann J., Deloukas P., Hengstenberg C., Diemert P., Montalescot G., Ouwehand W.H., Samani N.J.,

References

1. Beisser D., Grohme M.A., Kopka J., Frohme M., Schill R.O., Hengherr S., Dandekar T., Klau G.W., Dittrich M., Müller T. Integrated pathway modules using time-course metabolic profiles and EST data from Milnesium tardigradum. BMC Systems Biology, 2012, vol. 6, pp. 72. doi: 10.1186/1752-0509-6-72

2. Jha A.K., Huang S.-C., Sergushichev A., Lampropoulou V., Ivanova Y., Loginicheva E., Chmielewski K., Stewart K., Ashall J., Everts B., Pearce E., Driggers E.M., Artyomov M.N. Network integration of parallel metabolic and transcriptional data reveals metabolic modules that regulate macrophage polarization. Immunity,

2015, vol. 42, no. 3, pp. 419-430. doi: 10.1016/j.immuni.2015.02.005

3. Artyomov M.N., Sergushichev A., Schilling J.D. Integrating immunometabolism and macrophage diversity. Seminars in Immunology,

2016, vol. 28, no. 5, pp. 417-424. doi: 10.1016/j.smim.2016.10.004

4. Loboda A.A., Artyomov M.N., Sergushichev A.A. Solving generalized maximum-weight connected subgraph problem for network enrichment analysis. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2016, vol. 9838, pp. 210-221. doi: 10.1007/978-3-319-43681-4_17

5. Gainullina A.N., Shalyto A.A., Sergushichev A.A. Method of the joint clustering in network and correlation spaces. Modeling and Analysis of Information Systems, 2020, vol. 27, no. 2, pp. 180-193. (in Russian). doi: 10.18255/1818-1015-2020-2-180-193

6. Comon P. Independent component analysis, a new concept? Signal Processing, 1994, vol. 36, no. 3, pp. 287-314. doi: 10.1016/0165-1684(94)90029-9

7. Saelens W., Cannoodt R., Saeys Y. A comprehensive evaluation of module detection methods for gene expression data. Nature Communications, 2018, vol. 9, no. 1, pp. 1090. doi: 10.1038/s41467-018-03424-4

8. Rotival M., Zeller T., Wild P., Maouche S., Szymczak S., Schillert A., Castagné R., Deiseroth A., Proust C., Brocheton J., Godefroy T., Perret C., Germain M., Eleftheriadis M., Sinning C.R., Schnabel R.B., Lubos E., Lackner K.J., Rossmann H., Münzel T., Rendon A., Consortium C., Erdmann J., Deloukas P., Hengstenberg C., Diemert P., Montalescot G., Ouwehand W.H., Samani N.J.,

А.Н. Гайнуллина, В.Д. Сухов, А.А. Шалыто, А.А. Сергушичев

Schunkert H., Tregouet D.-A., Ziegler A., Goodall A.H., Cambien F., Tiret L., Blankenberg S. Integrating genome-wide genetic variations and monocyte expression data reveals trans-regulated gene modules in humans // PLoS Genetics. 2011. V. 7. N 12. P. e1002367. doi: 10.1371/journal.pgen.1002367

9. Minka T. Automatic choice of dimensionality for PCA // Advances in Neural Information Processing Systems. 2001. V. 13. P. 598-604.

10. Ray K.L., McKay D.R., Fox P.M., Riedel M.C., Uecker A.M., Beckmann C.F., Smith S.M., Fox P.T., Laird A.R. ICA model order selection of task co-activation networks // Frontiers in Neuroscience. 2013. V. 7. P. 237. doi: 10.3389/fnins.2013.00237

11. Steinbaugh M.J., Pantano L., Kirchner R.D., Barrera V., Chapman B.A., Piper M.E., Mistry M., Khetani R.S., Rutherford K.D., Hofmann O., Hutchinson J.N., Sui S.H. BcbioRNASeq: R package for bcbio RNA-seq analysis // F1000Research. 2017. V. 6. P. 1976. doi: 10.12688/f1000research.12093.1

Schunkert H., Tregouet D.-A., Ziegler A., Goodall A.H., Cambien F., Tiret L., Blankenberg S. Integrating genome-wide genetic variations and monocyte expression data reveals trans-regulated gene modules in humans. PLoS Genetics, 2011, vol. 7, no. 12, pp. e1002367. doi: 10.1371/journal.pgen.1002367

9. Minka T. Automatic choice of dimensionality for PCA. Advances in Neural Information Processing Systems, 2001, vol. 13, pp. 598-604.

10. Ray K.L., McKay D.R., Fox P.M., Riedel M.C., Uecker A.M., Beckmann C.F., Smith S.M., Fox P.T., Laird A.R. ICA model order selection of task co-activation networks. Frontiers in Neuroscience, 2013, vol. 7, pp. 237. doi: 10.3389/fnins.2013.00237

11. Steinbaugh M.J., Pantano L., Kirchner R.D., Barrera V., Chapman B.A., Piper M.E., Mistry M., Khetani R.S., Rutherford K.D., Hofmann O., Hutchinson J.N., Sui S.H. BcbioRNASeq: R package for bcbio RNA-seq analysis. F1000Research, 2017, vol. 6, pp. 1976. doi: 10.12688/f1000research.12093.1

Авторы

Гайнуллина Анастасия Наильевна — программист, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, Scopus ID: 57205601752, ORCID: 0000-0003-3796-2337, anastasiia.gainullina@gmail.com

Сухов Владимир Дмитриевич — программист, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, ORCID: 0000-0002-5169-1433, vdsukhov@yandex.ru

Шалыто Анатолий Абрамович — доктор технических наук, профессор, главный научный сотрудник, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, Scopus ID: 56131789500, ORCID: 0000-0002-2723-2077, shalyto@mail.ifmo.ru Сергушичев Алексей Александрович — кандидат технических наук, доцент, доцент, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, Scopus ID: 55772694000, ORCID: 0000-0003-1159-7220, alserg@itmo.ru

Authors

Anastasiia N. Gainullina — Software Developer, ITMO University, Saint Petersburg, 197101, Russian Federation, Scopus ID: 57205601752, ORCID: 0000-0003-3796-2337, anastasiia.gainullina@gmail.com

Vladimir D. Sukhov — Software Developer, ITMO University, Saint Petersburg, 197101, Russian Federation, ORCID: 0000-0002-5169-1433, vdsukhov@yandex.ru

Anatoly A. Shalyto — D.Sc., Professor, Chief Researcher, ITMO University, Saint Petersburg, 197101, Russian Federation, Scopus ID: 56131789500, ORCID: 0000-0002-2723-2077, shalyto@mail.ifmo.ru

Alexey A. Sergushichev — PhD, Associate Professor, Associate Professor, ITMO University, Saint Petersburg, 197101, Russian Federation, Scopus ID: 55772694000, ORCID: 0000-0003-1159-7220, alserg@itmo.ru

Cell

Dietary Intake Regulates the Circulating Inflammatory Monocyte Pool

Article

Graphical Abstract

Authors

Stefan Jordan, Navpreet Tung,

Maria Casanova-Acebes.....

Marie-Luise Berres, Emily J. Gallagher, Miriam Merad

Correspondence

miriam.merad@mssm.edu (M.M.), stefan.jordan@mssm.edu (S.J.)

In Brief

Caloric restriction reduces the number of circulating inflammatory monocytes in a CCL2/PPARa-dependent manner, without compromising responses to acute inflammation.

Highlights

• Fasting reduces the numbers of circulating monocytes in healthy humans and mice

• Fasting also reduces monocyte metabolic and inflammatory activity

• Hepatic energy-sensing regulates homeostatic monocyte numbers via CCL2 production

• Fasting improves inflammatory diseases without compromising antimicrobial immunity

Jordan et al., 2019, Cell 178, 1102-1114 ■sa? August 22, 2019 © 2019 Published by Elsevier Inc.

https://d0i.0rg/10.1016/j.cell.2019.07.050

Cell

Article

Dietary Intake Regulates the Circulating Inflammatory Monocyte Pool

Stefan Jordan,1'2 3 * Navpreet Tung,12 3 Maria Casanova-Acebes,1,23 Christie Chang,12 3 Claudia Cantoni,13 Dachuan Zhang,8 Theresa H. Wirtz,9 Shruti Naik,10 Samuel A. Rose,4 Chad N. Brocker,11 Anastasiia Gainullina,1214 Daniel Hornburg,15 Sam Horng,6 Barbara B. Maier,12 3 Paolo Cravedi,2 Derek LeRoith,5 Frank J. Gonzalez,11 Felix Meissner,15 Jordi Ochando,1 Adeeb Rahman,3 4 7 Jerry E. Chipuk,13 Maxim N. Artyomov,12 Paul S. Frenette,8 Laura Piccio,1316 Marie-Luise Berres,9 Emily J. Gallagher,5 and Miriam Merad1,2,3,17 *

department of Oncological Sciences, Icahn School of Medicine at Mount Sinai, 1 Gustave L. Levy Place, New York, NY 10029, USA 2The Precision Immunology Institute, Icahn School of Medicine at Mount Sinai, 1 Gustave L. Levy Place, New York, NY 10029, USA 3The Tisch Cancer Institute, Icahn School of Medicine at Mount Sinai, 1 Gustave L. Levy Place, New York, NY 10029, USA 4Department of Genetics and Genomic Sciences, Icahn School of Medicine at Mount Sinai, 1 Gustave L. Levy Place, New York, NY 10029, USA

5Division of Endocrinology, Diabetes and Bone Diseases, Icahn School of Medicine at Mount Sinai, 1 Gustave L. Levy Place, New York, NY 10029, USA

6Department of Neurology and Neuroscience, Icahn School of Medicine at Mount Sinai, 1 Gustave L. Levy Place, New York, NY 10029, USA 7Human Immune Monitoring Center, Icahn School of Medicine at Mount Sinai, 1 Gustave L. Levy Place, New York, NY 10029, USA 8Ruth L. and David S. Gottesman Institute for Stem Cell and Regenerative Medicine Research, Department of Cell Biology, Albert Einstein College of Medicine, 1301 Morris Park Avenue, The Bronx, NY 10461, USA

9Department of Internal Medicine III, University Hospital, RWTH Aachen, Pauwelsstrasse 30, 52074 Aachen, Germany

10Department of Pathology, and Ronald O. Perelman Department of Dermatology, NYU School of Medicine, 240 East 38th Street, New York,

NY 10016, USA

"Laboratory of Metabolism, Center for Cancer Research, National Cancer Institute, National Institutes of Health, Building 37, Bethesda, MD 20892, USA

12Department of Pathology & Immunology, Washington University School of Medicine, 660 South Euclid Avenue, St. Louis, MO 63110, USA

13Department of Neurology, Washington University School of Medicine, 660 S Euclid Avenue, St. Louis, MO 63110, USA

14Computer Technologies Department, ITMO University, Kronverksky 49, Saint Petersburg, Russian Federation

15Max-Planck-Institute of Biochemistry, Am Klopferspitz 18, 82152 Martinsried, Germany

16Brain and Mind Centre, University of Sydney, 94 Mallett Street, Camperdown NSW 2050, Australia

17Lead contact

'Correspondence: miriam.merad@mssm.edu (M.M.), stefan.jordan@mssm.edu (S.J.) https://doi.org/10.10167j.cell.2019.07.050

SUMMARY

Caloric restriction is known to improve inflammatory and autoimmune diseases. However, the mechanisms by which reduced caloric intake modulates inflammation are poorly understood. Here we show that short-term fasting reduced monocyte metabolic and inflammatory activity and drastically reduced the number of circulating monocytes. Regulation of peripheral monocyte numbers was dependent on dietary glucose and protein levels. Specifically, we found that activation of the low-energy sensor 5'-AMP-activated protein kinase (AMPK) in hepato-cytes and suppression of systemic CCL2 production by peroxisome proliferator-activator receptor alpha (PPARa) reduced monocyte mobilization from the bone marrow. Importantly, we show that fasting improves chronic inflammatory diseases without compromising monocyte emergency mobilization during acute infectious inflammation and tissue repair. These results reveal that caloric intake and liver energy sensors dictate the blood and tissue im-

mune tone and link dietary habits to inflammatory disease outcome.

INTRODUCTION

Caloric excess, frequent in the Western world, has been linked to systemic low-grade chronic inflammation (Lumeng and Saltiel, 2011) and is thought to contribute to numerous diseases including metabolic syndrome (MetS), non-alcoholic fatty liver diseases (NAFLD), type 2 diabetes mellitus (T2DM), atherosclerosis, cardiovascular disease (CVD), and other related co-morbidities (Haslam and James, 2005). Accordingly, the recent diet westernization of developing countries has been associated with an increased prevalence of inflammatory or autoimmune disorders (Manzel et al., 2014). In contrast, hypocaloric diets or fasting regimens are associated with improved outcomes of metabolic, autoimmune, and inflammatory diseases in humans, including NAFLD (Kani et al., 2017), T2DM (Zubrzycki et al., 2018), CVD (Wei et al., 2017), multiple sclerosis (Choi et al., 2016), rheumatoid arthritis (Kjeldsen-Kragh et al., 1991; Skold-stam et al., 1979), asthma (Johnson et al., 2007) and psoriasis (Jensen et al., 2016), and have been shown to prolong lifespan (Fontana et al., 2010; Picca et al., 2017). However, the molecular

1102 Cell 178, 1102-1114, August 22, 2019 © 2019 Published by Elsevier Inc.

C

Human

Blood: decreased clusters

ff s 9 r? o CO J3 (O o> in

* O o o o o o o o CJ u O o o o o

ffi i ¡8 8 £ 3 1 o 5 a a

o o o o o o o o o o Ö ö X 0-

| | ¡normalized mean expression

Blood

1D.8

Blood

„0-6-I

| 0.4-

(D 5 0.2-

o +

5 0-0-

t- 0.08-f 0.06-io.

Blood

Blood

e

¡24

G Mouse

Blood: decreased clusters

° 0.4

iL-,

E

»0.3-

§0.2-o E

f 0.1-

o %

Blood

Blood

Blood

i 0.0

*** ' *** ' = 0.251 0.20- * p = 0.095 ' 1.5-1 o" p = 0.97

i f.0.15- + J E 1.0 •V. o<l°

| 0.10- | 0.5-

^ 4 o 0.05- 7 + o

% ¿0.00J 0 0.0-

n.a. 4h 20h

n.a. 4h 20h

PC

Blood

1

I 2-^

|JU"9 rne Spleen

BM

I

Sit

BM

*

M

BM

I u

to.c

(legend on next page) Cell 178, 1102-1114, August 22, 2019 1103

J

mechanisms by which reduced calorie intake or fasting modulate systemic inflammation remain poorly understood.

Clinical studies performed in overweight or obese individuals undergoing caloric restriction showed a reduction of pro-inflammatory cytokines in the blood (Ho et al., 2015; Imayama et al., 2012; Loria-Kohen et al., 2013; Oh et al., 2013; Ott et al., 2017; Ramel et al., 2010; Tajik et al., 2013), and diet-induced weight loss has a superior benefit on patient systemic inflammation compared to interventional weight loss due to gastric bypass surgery (Lips et al., 2016). Although little data is available on the effect of caloric restriction on inflammation in normal-weight individuals, prior studies have shown that individuals undergoing intermittent or religious fasting have reduced basal levels of circulating pro-inflammatory cytokines including TNFa, IL-6 and IL-1 b (Aksungar et al., 2007; Faris et al., 2012; Moro etal., 2016).

Prompted by these prior results, we sought to investigate the impact of fasting on immune cell homeostasis. We first used mass cytometry to profile blood circulating cells of healthy, normal-weight humans prior to and during fasting. Strikingly, we discovered that fasting significantly reduced the number of circulating monocytes and similar results were obtained in mice. Here we describe how dietary energy intake controls the quality and quantity of blood and tissue monocytes emphasizing the link between high calorie dietary patterns and inflammatory disease outcome in patients.

RESULTS

Fasting Reduces the Pool of Circulating Monocytes in Healthy Humans and in Mice

To explore whether fasting was associated with changes in peripheral blood leukocyte populations, we profiled the composition of blood circulating immune cells of 12 healthy normal weight volunteers (mean age = 30 ± 5 years, BMI = 22 ± 2 kg/m2) 3 h after food intake (fed state) and after 19 h of fasting (fasting state) using cytometry by time-of-flight spectrometry (CyTOF) (Figures 1A and 1B). To control for circadian variations, all blood samples were drawn at the same time of the day (3 pm). Strikingly, we found that fasting led to significant reduction of

circulating monocytes including both CD14+ and CD16+ monocyte subsets (Figures 1C and 1D and S1A). Interestingly, in individuals with low baseline monocyte numbers, fasting did not decrease monocyte numbers below the physiologic range (Figure 1D). In addition to monocytes, a small subset of circulating dendritic cells, called CD141+ DC, was also reduced, whereas neutrophils were not significantly affected during short term fasting (Figure 1 E).

We then asked whether similar changes in blood monocyte numbers also occurred in fasting mice. We chose a 4 h short-term fasting protocol during the light period (Zeitgeber [ZT]2-6) which is comparable to overnight fasting for humans and is the least stressful fasting strategy in animals (Figure S1B) (Jensen et al., 2013). Within 4 h, mice eat up to 0.5g of chow (0.2g on average) representing ~7% of their total 24 h food intake (Figure 1F). Intriguingly, while the frequencies of most immune cell clusters were unaffected by short-term fasting, Ly-6Chigh pro-inflammatory monocytes were strongly reduced (Figures 1G and 1H). Ly-6Clow patrolling monocytes were proportionally reduced at 4 h and reduction in absolute numbers reached significance after 20 h of fasting. Prolonged fasting periods (20 h [ZT10-6], 48 h [ZT6-6]) reduced additional peripheral leukocyte populations including eosinophils, NK cells and T cells (Figures S1C and S1D). Importantly, fasting also led to significant reduction of pro-inflammatory Ly-6Chigh monocytes in peripheral tissues including the peritoneal cavity, lung, liver, spleen and adipose tissues (Figures 1J, S1E and S1F).

Decreased numbers of circulating monocytes in fasting mice could be due to increased monocyte cell death, reduced bone marrow (BM) myelopoiesis, or reduced BM egress to the periphery. We did not detect an increased number of activated cas-pase-positive monocytes suggesting that the reduction of peripheral monocytes in fasting mice may not be due to increased cell death (Figure 1K). We also failed to detect decreased numbers of BM CXCR4+ monocyte precursors (Chong et al., 2016) (Figure 1L). Instead, Ly-6Chigh monocytes accumulated in the BM of fasting mice (Figure 1M) suggesting that fasting-induced reduction of blood monocytes is due to reduced monocyte egress from the BM to the blood circulation. An important mechanism controlling BM cell egress is neuronal

Figure 1. Fasting Reduces the Number of Circulating Pro-inflammatory Monocytes in Healthy Humans and in Mice

(A) Schematic representation of the fasting experimental design.

(B to E) Blood was drawn from healthy individuals in the fed and in the fasting state and analyzed by CyTOF. (B) Multidimensional CyTOF data were clustered using viSNE. (C) Heatmap shows mean markers expression on cell clusters significantly reduced during fasting. (D and E) Paired analysis of (D) total monocytes, CD14+CD16- monocytes, and CD14-CD16+ monocytes, and (E) neutrophils in human blood during the fed and the fasted state. Dotted lines indicate physiologic range.

(F) Food intake of individual mice during 4 h between ZT2 and ZT6, and percentage of food intake between ZT2 and ZT6 with regard to 24 h food intake.

(G) CyTOF analysis of blood cells from mice that were fed or fasted for 4 h. Heatmap shows mean marker expression of clusters significantly reduced by short-term fasting.

(H) Absolute numbers of Ly-6Chigh and Ly-6Clow monocytes in the blood of mice that were fed or fasted for the indicated time.

(I) Absolute numbers of neutrophils in the blood of mice that were fed or fasted for 20 h.

(J) Absolute numbers of Ly-6Chigh monocytes in the peritoneal cavity (PC), lung, spleen, liver and adipose tissue (AT) of mice that were fed or fasted for 20 h.

(K) Percentage of caspase-3/7+ cells among Ly-6Chigh monocytes in the blood and bone marrow (BM) of mice that were fed or fasted for 4 h.

(L) Numbers of bone marrow CXCR4+ pre-monocytes in mice that were fed or fasted for 20 h.

(M) Absolute numbers of bone marrow Ly-6Chigh monocytes in mice that were fed or fasted for the indicated time.

(F, H to M) Every dot represents one individual animal. Horizontal bar = mean. Vertical bar = SD. Student's t test (D, E, I to L) or one-way analysis of variance (ANOVA) with Dunnett's multiple comparison test (H, M) were performed. Statistical significance is indicated by *p < 0.05, **p < 0.01, ***p < 0.001, ****p < 0.0001. ns = not significant. See also Figure S1.

Blood

? 0.2E

CO

a o.H

+macro -macro

BM

i 0.5H

E

+macro -macro

Blood

^■0.15-E

Blood

*

p = 0.07 p = 0.16

±

E 0.2-

InS^AMorx

Blood

ns

• • + •

10% 20% 60% glucose

ere- cre+

0.4-p

>

-0.3-

Blood

PBS Insulin

Blood

arl DOG

BM

1.00.5-

"fr

art DOG

Blood

o 0.6E

Ctrl 50 125 250 Phenformin [mg / kg]

BM

I 0-5

E

0.0

Ctrl 50 125 250 Phenlbrmin [mg/kg]

Blood

I 0.4-

Ctrl A-769662

Figure 2. The Energy-sensor AMP-activated Protein Kinase (AMPK) Controls Blood Monocyte Homeostasis

(A to H) Absolute numbers of Ly-6Chigh monocytes (A) in the blood and bone marrow (BM) of mice fed with a diet with (+macro) or without (-macro) macronutrients, (B) in the blood of fasting mice gavaged with water, isocaloric amounts of carbohydrates, protein or fat for 4 h, (C) in the blood of mice fasted for 16 h and gavaged with glucose solutions at the indicated concentrations, (D) in the blood of fed mice in which the insulin receptor has been deleted from monocytes (InsrAM°"°), (E) in the blood of mice that were fasted for 4 h and injected with insulin 30 min prior to analysis, (F) in the blood and bone marrow of mice that were gavaged with water (Ctrl) or 2-deoxyglucose (DOG) once every hour for 4 h, (G) in the blood and bone marrow of mice that received water (Ctrl) or a single dose of phenformin 4 h before assessment, (H) in blood of mice that were gavaged with AMPK activator A-769662 4 h before analysis. (A to H) Every dot represents one individual animal. Horizontal bar = mean. Vertical bar = SD. One-way analysis of variance (ANOVA) with Tukey's multiple comparison test (C) or Dunnett's test (B, G), or Student's t test (A, D to F, H) were performed. Statistical significance is indicated by *p < 0.05, **p < 0.01, ***p < 0.001, ****p < 0.0001. ns = not significant. See also Figure S2.

stimulation of b3 adrenergic receptors (P3-AR) on BM stromal cells, which leads to reduced BM CXCL12 production and release of hematopoietic cells into the blood circulation (Men-dez-Ferrer et al., 2008). Injection of the P3-AR agonist CL 316,243 into fasting mice partially rescued monocyte egress, but never to the same extent as in fed mice, indicating the existence of additional mechanisms suppressing egress during fasting (Figure S1G). CXCL12 BM levels were not affected by fasting suggesting that CXCL12 does not mediate fasting-induced monocyte accumulation in the BM (Figure S1H). In addition, circadian fluctuations in monocyte release or forced shifts in circadian rhythm (jetlag) did not affect fasting ability to modulate BM monocyte egress (Figures S1I, S1J, and S1K). Re-feeding mice for 4 h after an overnight fast restored monocyte numbers in the periphery (Figure S1L), showing that fasting-induced inhibition of BM egress is revoked upon food intake.

AMPK-Mediated Sensing of Dietary Energy Levels Controls the Size of the Peripheral Monocyte Pool

Fasting withdraws both dietary macronutrients (digestible carbohydrates, protein, fat) as well as essential micronutrients (vitamins, minerals, non-digestible fiber). Removal of macronutrients from the diet was sufficient to reduce the pool of circulating monocytes (Figure 2A). Conversely, oral gavage of fasting mice with isocaloric amounts of carbohydrates and proteins, but not

fat, rescued circulating monocyte numbers in the blood (Figure 2B). Importantly, the size of the monocyte pool in the blood circulation depended on the amount of carbohydrate ingested (Figure 2C).

Carbohydrate and protein intake stimulate insulin secretion, prompting us to examine the contribution of insulin in the regulation of BM monocyte egress. Genetic deletion of the insulin receptor gene in monocytes (Figure 2D) or exogenous insulin administration in fasting mice (Figure 2E) did not affect peripheral blood monocyte numbers suggesting that insulin was not responsible for BM monocyte egress. We thus hypothesized that carbohydrates and proteins might modulate peripheral monocyte numbers by altering cellular energy levels. To address this hypothesis, we used two different inhibitors of hexokinase, 2-deoxyglucose, and D-mannoheptulose, in order to block the first step in glycolysis, i.e., cellular energy production (Figures 2F and S2). Interestingly, blocking glycolysis reduced monocyte numbers to levels similar to those observed during fasting, suggesting that cellular energy levels controlled the blood circulating monocyte pool.

Mammalian 5'-AMP-activated protein kinase (AMPK) is a key cellular energy sensor triggered by an increase in the cellular AMP/ATP ratio that reflects low energy levels. Phenformin is known to elevate the cellular AMP/ATP ratio which results in AMPK activation. Strikingly, we found that phenformin

administration significantly reduced monocyte egress in a dose-dependent manner (Figure 2G). To further examine the contribution of AMPK to the regulation of blood monocyte levels we gavaged mice with a small molecule activator of AMPK (A-769662) (Figure 2H). Consistent with the data obtained with phenformin administration, we found that oral gavage with A-769662 significantly reduced the pool of blood peripheral monocytes in fed mice. Altogether these results suggest that activation of the low-energy sensor AMPK is sufficient to inhibit BM monocyte egress to the blood circulation.

Hepatic PPARa Controls Peripheral Blood Monocyte Numbers

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.