Метод и алгоритмы ансамблевой кластеризации разнородных данных в информационных системах тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Бочкарёв Пётр Владимирович

  • Бочкарёв Пётр Владимирович
  • кандидат науккандидат наук
  • 2025, ФГАОУ ВО «Национальный исследовательский ядерный университет «МИФИ»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 150
Бочкарёв Пётр Владимирович. Метод и алгоритмы ансамблевой кластеризации разнородных данных в информационных системах: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Национальный исследовательский ядерный университет «МИФИ». 2025. 150 с.

Оглавление диссертации кандидат наук Бочкарёв Пётр Владимирович

ВВЕДЕНИЕ

ГЛАВА 1. МЕТОДЫ МАШИННОГО ОБУЧНИЯ ДЛЯ РЕШЕНИЯ ЗАДАЧ ОБРАБОТКИ РАЗНОРОДНЫХ ДАННЫХ

1.1. Методы машинного обучения для решения задач кластеризации

1.2. Методы оценки качества кластеризации: подходы

1.3. Модель разнородных данных

1.4. Математическая постановка задачи диссертационного исследования

1.5. Выводы по первой главе

ГЛАВА 2. МЕТОД И АЛГОРИТМЫ АНСАМБЛЕВОЙ КЛАСТЕРИЗАЦИИ С ИЗМЕНЯЮЩИМИСЯ МЕТРИКАМИ РАССТОЯНИЯ

2.1. Подходы к формированию ансамблей

2.2. Предлагаемый метод ансамблевой кластеризации с изменяющейся метрикой расстояния

2.3. Исследование алгоритма «один алгоритм -много метрик» и результаты его применения на числовых структурированных данных

2.4. Исследование алгоритма «много методов - много метрик» и результаты его применения на текстовых слабоструктурированных данных

2.5. Исследование алгоритма «много методов - много метрик» и результаты его применения на текстовых неструктурированных данных

2.6. Сравнительный анализ ансамблевых методов кластеризации

2.7. Выводы по второй главе

ГЛАВА 3. СЛОЖНЫЕ СИСТЕМЫ УПРАВЛЕНИЯ

3.1. Общая схема систем управления

3.2. Система формирования программы лояльности

3.2.1. Понятие мегапроектов. Жизненный цикл мегапроектов

3.2.2. Программа лояльности и формирование рисков

3.2.3. Роль программного приложения в общем контуре управления сложной социально-экономической системы

3.2.4. Разработка программного приложения для мониторинга индекса информационных рисков

3.3. Апробация программного приложения для мониторинга индекса информационных рисков

3.3.1. Определение индексов информационных рисков в странах Республика Беларусь, Венгрии, Турции и Финляндии

3.3.2. Оценка уровня общественной приемлемости

3.4. Выводы по третей главе

ГЛАВА 4. НАУЧНЫЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ

4.1. Классификация научных информационных систем

4.2. Информационно-аналитическая научная система

4.2.1. Модель научного направления

4.2.2. Жизненный цикл научного направления

4.2.3. Концепция информационно-аналитической научной системы

4.2.4. Разработка прототипа аналитической системы для оценки

конкурентоспособности конкурсных заявок

4.2.5. Апробация информационно-аналитической научной системы

4.3. Рекомендательная научная система

4.3.1. Научные рекомендательные системы

4.3.2. Формирование рекомендации и неявные профили пользователей

4.3.3. Концептуальная модель научной рекомендательной системы

4.3.4. Разработка рекомендательной системы

4.3.5. Апробация рекомендательной системы

4.4. Выводы по четвертой главе

ГЛАВА 5. ИНФОРМАЦИОННАЯ СИСТЕМА МОНИТОРИНГА ЖКХ

5.1. Понятия инженерной системы. Состояние инженерной системы

5.2. Концептуальная модель информационной инженерной системы

5.3. Разработка информационной инженерной системы

5.4. Апробация информационной системы мониторинга ЖКХ

5.5. Выводы по пятой главе

ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

ПРИЛОЖЕНИЕ

ПРИЛОЖЕНИЕ

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Метод и алгоритмы ансамблевой кластеризации разнородных данных в информационных системах»

ВВЕДЕНИЕ

Диссертационная работа направлена на решение важной научной задачи развития методов машинного обучения для кластеризации разнородных данных.

Актуальность исследования заключается в том, что в настоящее время в информационных системах идет активное накопление разнородных данных, средний годовой прирост составляет 50%. Анализ накопленных данных дает большие возможности в разных предметных областях, от фундаментального прогнозирования развитий научных направлений, до выявления успешности завершения мегапроектов строительства российских атомных станций за рубежом. Переход к четвертой промышленной революции обеспечит полностью автоматизированное цифровое производство, управляемое интеллектуальными системами в реальном времени. Роботизация, развитие искусственного интеллекта, сбор и обработка больших данных, а также когнитивные информационно-телекоммуникационные системы станут мощными стимулами для получения новых теоретических и практических научных результатов. Согласно указу Президента Российской Федерации от 10.10.2019 г. № 490 о стратегии развития искусственного интеллекта до 2030 года, разрабатываемые технологии позволят решить ключевые проблемы России в сфере здравоохранения, сельского хозяйства, транспорта, строительства, жилищно-коммунального хозяйства, образования и промышленности. Создаются специальные информационные системы, реализующие данные задачи. Проблематика таких систем заключается в повышенном требовании к качеству данных и их анализа, так как неверные решения, принятые в следствии ошибочной обработки данных, могут нести экономический или социальный ущерб.

Существующие в настоящее время методы анализа разнородных данных не охватывают все необходимые аспекты. Кроме того, для более точного анализа данных, необходимо не только уметь их обрабатывать, но и изучать источники создания таких данных. Одним из возможных вариантов обработки информации является кластеризация. Для более точного решения задачи кластеризации необходимо учитывать не только форму, но и плотность кластеров. Таким образом, качество получаемого решения зависит как от используемых методов, так и от выбора метрик расстояния исследуемых данных. В разрезе разнородных данных использование ансамблей алгоритмов и различных метрик может помочь решить эту задачу.

Таким образом формируется объективная потребность в решении задачи кластеризации, а именно в развитии методов ансамблей алгоритмов кластеризации разнородных данных.

Степень разработанности проблемы. Исследования в области анализа данных и кластеризации отображены в трудах отечественных и зарубежных ученых таких, как: Мозохин Д.Е., Калягин В.А., Лялька Б.О., Гагарина Л.Г., Суслов С.А., Пылькин А.Н., Новиков А.В., Пастухов А.А., Перевалова А.Ю., Киреев В.С., Серчиди М.А., Абдуллаева С.Ф., Гуляева Д.Р., Дудко Я. В., Oyewole G. J., Thopil G.A., Костенко, С.А., Ковалев С.С., Шишаев М.Г.. Так, Vega-Pons S., Ruiz-Shulcloper J., Бериков В.Б., Шаламов В.В., Полякова А.С. исследуют возможности ансамбля алгоритмов кластеризации. Сравнительные анализы различных методов кластерного анализа проводились в исследованиях Панферова Е. В., Матюшина Р. А.

Наиболее популярный метод k-means исследовался в трудах Яковлева А.В. и Ikotun

A.M.

Такие авторы, как Petridis V., Kaburlasos V.G., Серчиди М.А., Абдуллаева С.Ф., Погуда А.А., Saeed M.Y., Nafis M. T., Biswas R., Zhang D., Bungum L., Burger L., van Vuuren J., Yang J., Li W., Lal N., Yuan G., Томашевская В.С. и Яковлев Д.А. исследуют методы кластеризации при анализе больших объемов структурированных, слабоструктурированных и неструктурированных данных.

Методы построения ансамблей проводились в исследованиях Shinde A., Sahu A., Apley D., Runger G., Friedman J., Hastie T., Tibshirani R., Пастухова А.А. и Кашницкого Ю.С., Игнатова Д.И.

Анализ и обработка разнородных данных, в том числе большого объема, изучались в исследованиях таких авторов, как Sagiroglu Seref, Kitchin R., McArdle G., Onay C., Öztürk E., Петрова А.А., Киреев В.С.

Изучение научных данных и систем, порождающих такие данные, а также их анализ проводились в работах Резниченко В. А., Проскудиной Г. Ю., Овдий О. М., Наумец А.А., Соколова В.Н., Туманова В.Е., Пилюгина В., Маликовой Е., Пасько, А., Аджиева В. и Несветайлова Г. А.

Использование алгоритмов кластеризации на слабоструктурированных данных в рекомендательных системах проводилось в трудах Захарова В.Н.

Оценка метрик работы кластеризации проводились в трудах Сивоголовко Е.В.

Тем не менее, в этих работах не указывается возможность использования различных метрик для ансамбля алгоритмов кластеризации при работе с разнородными данными, что и обусловило цель и задачи диссертационной работы.

Объектом исследования диссертационной работы являются методы и алгоритмы машинного обучения, используемые для решения задачи кластеризации разнородных данных.

Целью диссертационного исследования является повышение качества и эффективности ансамблевых методов машинного обучения для решения задачи кластеризации разнородных данных в информационных системах.

Для достижения данной цели были поставлены следующие задачи диссертационного исследования, представленные ниже.

1. Системный анализ существующих подходов к обработке разнородных данных, обобщение методов решения задачи кластеризации и обоснование использования ансамблевого метода с целью повышения качества (точности) получаемого решения.

2. Разработка и исследование ансамблевого метода и алгоритмов для решения задачи кластеризации при обработке разнородных данных.

3. Апробация предложенного метода и алгоритмов для разнородных данных при разработке различных информационных систем.

4. Экспериментальная проверка эффективности использования предложенного метода и алгоритмов кластерного анализа разнородных данных в различных информационных системах.

Научная новизна заключается в следующем:

• предложена оригинальная модель описания разнородных данных, позволяющая установить соответствие между различными их характеристиками, а также методами анализа и обработки, наиболее предпочтительными с точки зрения критерия эффективности решения задач машинного обучения; обоснован ансамблевый подход для решения задачи кластеризации при разнородных данных;

• разработаны и исследованы новый метод и алгоритмы ансамблевой кластеризации разнородных данных, характеризующиеся повышением качества получаемого решения, которые в отличие от других статистических методов кластеризации, используют варьирующиеся метрики расстояния, а также показана их перспективность для обработки слабоструктурированных и неструктурированных текстовых данных и структурированных числовых данных;

• разработано и реализовано оригинальное алгоритмическое и программное обеспечение метода ансамблевой кластеризации на основе варьирующихся метрик расстояния для четырех информационных систем и систем поддержки принятия решений, предназначенное для анализа и обработки разнородной информации в различных сферах применения (научная рекомендательная система, аналитическая система поддержки принятия решений в области оценки конкурентоспособности конкурсных заявок, программное приложение мониторинга индекса

информационных рисков для мегапроектов строительства российских атомных станций за рубежом, система мониторинга объектов ЖКХ);

• получены новые экспериментальные результаты применения метода ансамблевой кластеризации на основе варьирующихся метрик расстояния на разнородных данных, в том числе больших объемов, на примере четырех различных информационных систем, доказывающие его эффективность.

Теоретическая и практическая значимость работы заключается в развитии методов машинного обучения, используемых в информационных системах для анализа разнородных данных.

1. На основе обобщения и систематизации методов анализа и обработки разнородных данных для решения задачи кластеризации обосновано, что качество решения зависит не только от степени структуризации данных, но и от выбранных метрик расстояний между объектами, поэтому с целью повышения точности получаемых решений предложено использовать ансамблевый метод с вариацией метрик расстояний.

2. Проведенное исследование предложенного метода и разработанных алгоритмов ансамблевой кластеризации на основе изменяющихся метрик показало увеличение качества работы ансамбля на неструктурированных и слабоструктурированных текстовых данных и структурированных числовых данных, а также уменьшение влияния выбросов работы ансамбля на научных слабоструктурированных текстовых данных.

3. Разработанные программные средства кластеризации данных и базы данных учебно-методических материалов и научных публикаций, защищенные свидетельствами о государственной регистрации, были успешно использованы в рамках выполнения проектов № 15-07-08742 РФФИ, № 20-010-00708\20 РФФИ и № 2014-14-576-0146 ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014—2020 годы», что подтверждается соответствующим актом об использовании.

4. Разработанные метод и алгоритмы кластеризации разнородных данных были успешно применены в следующих информационных системах и системах поддержки принятия решений (подтверждено актами об использовании):

■ для структурированных численных данных в информационной системе мониторинга объектов ЖКХ,

■ для слабоструктурированных научных текстовых данных - в научной рекомендательной системе для Конгресса конференций «Информационные

технологии в образовании» и аналитической системе поддержки принятия решений в области оценки конкурентоспособности конкурсных заявок на основе выявления фаз жизненного цикла научных направлений, ■ для неструктурированных текстовых данных - в программном приложении для мониторинга индекса информационных рисков в зависимости от этапов жизненного цикла мегапроектов строительства российских атомных станций за рубежом.

Методология и методы диссертационного исследования. В работе использовались методы системного анализа, теории управления и принятия решений, машинного обучения, теории вероятностей и математической статистики, методология объектно-ориентированного проектирования RUP (Rational Unified Process) и подходы, применяемые при разработке программного обеспечения.

Положения, выносимые на защиту и полученные лично автором.

1. Предложенная модель описания разнородных данных большого объема и обоснование использования ансамблевого подхода для решения задачи их кластеризации с целью повышения качества получаемого решения.

2. Разработанные метод и алгоритмы машинного обучения для ансамблевой кластеризации на основе изменяющихся метрик расстояния для структурированных численных, слабоструктурированных текстовых и неструктурированных текстурных данных, точность которых на 2%, 11%, 5% выше соответственно по сравнению применяемыми с часто используемыми методами ансамбля кластеризации с двумя алгоритмами K-means.

3. Разработанные программные средства для решения задачи кластеризации и набор баз данных для использования в научно-исследовательской и учебной деятельности.

4. Разработанные информационные системы: аналитическая система поддержки принятия решений в области оценки конкурентоспособности конкурсных заявок; научная рекомендательная система; программное приложение мониторинга индекса информационных рисков для мегапроектов строительства российских атомных станций за рубежом; система мониторинга объектов ЖКХ.

5. Экспериментальные результаты применения метода и алгоритмов ансамблевой кластеризации на основе вариации метрик расстояния для разнородных данных, показывающие свою эффективность в различных информационных системах.

Достоверность полученных результатов. Научные положения и выводы, полученные в диссертационной работе, основываются на применения известных математических теорий и положений и на основании проведенных вычислительных

экспериментов. Достоверность результатов подтверждается сравнением полученных решений с известными результатами других авторов, соответствующими актами об использовании, а также обсуждением основных положений диссертации на международных и российских научно-практических конференциях.

Апробация результатов исследования. Основные положения и результаты диссертационного исследования были успешно доложены и обсуждены на XIX Международной телекоммуникационной конференции молодых ученых и студентов «Молодежь и наука» (Москва, 2015); Международной научно-практической конференции «Информационные технологии в образовании XXI века» (Москва, 2015); Международном научно-техническом семинаре «Современные технологии в задачах управления, автоматики и обработки информации» (Алушта, Республика Крым, 2016 г.); XVIII международной конференции DAMDID/RSDL'2016 «Аналитика и управление данными в областях с интенсивным использованием данных» (Ершово, Московская область, 2016 г.); XXII Всероссийской научно-технической конференции студентов, молодых ученых и специалистов «Новые информационные технологии в научных исследованиях» НИТ-2017 (Рязань, 2017 г.), XIX Международной конференции DAMDID / RCDL'2017 «Аналитика и управление данными в областях с интенсивным использованием данных» (Москва, 2017 г.), Innovate-Data 2017 The 3rd International Conference on Big Data Innovations and Applications, IEEE-CS TCI (Prague, Czech Republic, 2017), 2018 Annual International Conference on Biologically Inspired Cognitive Architectures (BICA 2018), August 22-25 , 2018, Prague, Czech Republic, VI International Conference on Future Internet of Things and Cloud Workshops (FiCloudW 2018, August 6-8, 2018), Barcelona, Spain), XXIII Всероссийской научно-технической конференции студентов, молодых ученых и специалистов «Новые информационные технологии в научных исследованиях» НИТ-2018 (Рязань, 2018); 2019 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (Москва, 2019), The 7th International Conference on Future Internet of Things and Cloud (FiCloud 2019, Стамбул, Турция), Scientific and Practical Conference «CITIES AS DEVELOPMENT CENTERS» 2020 (Обнинск, 2020), 3rd International Conference on Control Systems, Mathematical Modeling, Automation and Energy Efficiency (SUMMA2021, Липецк, 2021), 4rd International Conference on Control Systems, Mathematical Modeling, Automation and Energy Efficiency (SUMMA2022, Липецк, 2022), Международной научно-практической конференции «Интеллектуальные технологии в науке и образовании» (Новочеркасск, Ростовская область, 2023).

Внедрение результатов исследования. Результаты диссертационного исследования использовались при выполнении проектов:

• № 2014-14-576-0146 «Разработка метода и программно-технических решений повышения пертинентности информации в научных и аналитических рекомендательных системах» (2014-2016, ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014-2020 годы»);

• № 15-07-08742 «Принципы создания алгоритмического обеспечения для многомерной классификации на примере анализа научных направлений» (20152017, РФФИ);

• № 2017-14-579-0003 «Разработка программно-технических и конструкторских решений поддержки технического обслуживания и предиктивного ремонта объектов частного домохозяйства в рамках концепции Интернета вещей» (2017-2018, ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014-2020 годы»);

• № 20-010-00708 «Разработка экономико-математических моделей, методов и инструментария для создания и реализации программ лояльности российских международных мегапроектов» (2020-2022, РФФИ).

Научные результаты в течение ряда лет успешно используются в информационной системе Конгресса конференций АНО «Информационные Технологии в Образовании», что подтверждается соответствующим актом об использовании. Научные и практические результаты диссертационного исследования были использованы в учебном процессе НИЯУ МИФИ в рамках научно-практического семинара для магистров «Информационные технологии в науке и образовании», что подтверждается соответствующим актом об использовании.

Публикации. Основные результаты диссертации опубликованы в 30 печатных работах, из них 10 научных статей в рецензируемых изданиях (6 статей в журналах, рекомендованных ВАК РФ для публикации основных результатов диссертационных исследований по техническим наукам; 4 в журналах, индексируемых в международных базах данных Scopus или Web of Science), 9 работ в материалах конференций, индексируемых в международных базах данных Scopus или Web of Science, главы в двух монографиях; 9 свидетельств о регистрации баз данных и программ для ЭВМ.

Авторский вклад. Все результаты диссертационной работы получены лично автором, либо при его непосредственном участии. Лично автором проведены обобщение и систематизация методов решения задачи кластеризации, разработана модель описания разнородных данных, позволяющая установить соответствие между различными их характеристиками и методами кластеризации, предпочтительными с точки зрения критерия

эффективности решения задач машинного обучения. На основе модели описания разнородных данных лично автором проведено исследование по выбору алгоритмов кластеризации, подбору метрики расстояний, построению решающего правила для формирования ансамбля кластеризации на основе изменяющихся метрик расстояний и получены результаты по качеству получаемых кластерных решений. Автор внес значительный вклад в разработку четырех различных информационных систем, проведение исследования и получение экспериментальных результатов по эффективности применения предложенного им метода ансамблевой кластеризации (научной рекомендательной системы, аналитической системы поддержки принятия решений в области оценки конкурентоспособности конкурсных заявок, программное приложение мониторинга индекса информационных рисков для мегапроектов строительства российских атомных станций зарубежом, системы мониторинга объектов ЖКХ).

Область диссертационного исследования соответствует по своему содержанию Паспорту научных специальностей ВАК Министерства образования РФ и науки РФ по специальности 2.3.1. Системный анализ, управление и обработка информации, статистика.

• п.3. «Разработка критериев и моделей описания и оценки эффективности решения задач системного анализа, оптимизации, управления, принятия решений, обработки информации и искусственного интеллекта».

• п. 4. «Разработка методов и алгоритмов решения задач системного анализа, оптимизации, управления, принятия решений, обработки информации и искусственного интеллекта».

• п.5. «Разработка специального математического и алгоритмического обеспечения систем анализа, оптимизации, управления, принятия решений, обработки информации и искусственного интеллекта».

Структура и объем работы.

Диссертация состоит из введения, пяти глав, заключения, списка литературы и двух приложений. Основной текст работы изложен на 139 страницах. Список литературы содержит 142 наименования.

ГЛАВА 1. МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ ДЛЯ РЕШЕНИЯ ЗАДАЧ ОБРАБОТКИ РАЗНОРОДНЫХ ДАННЫХ 1.1. Методы машинного обучения для решения задач кластеризации

Машинное обучение — это группа методов искусственного интеллекта, которые обучаются на основе решений множества похожих задач, а не решают задачи напрямую. Для разработки этих методов используются математическая статистика, численные методы, математический анализ, оптимизация, теория вероятностей, теория графов, нейронные сети и различные методы работы с данными. Методы машинного обучения обычно делятся на четыре категории: обучение с учителем, обучение без учителя, обучение с подкреплением и обучение с частичным участием учителя [1].

Обучение с учителем. Модель обучается на данных, которые имеют явные метки или правильные ответы, что позволяет ей находить закономерности и делать прогнозы на новых данных, основываясь на этой разметке [1].

Дано:

V = ((х(1),у(1)).....(х(Чу(п))},

х(0 EX, i = l/n, у® EY,i = 17n.

Критерий:

R* = 1Yi=1Loss(y(i),;y(i)) ^ min ,

у®это выходные данные модели для ввода,

w — вектор параметров модели х®, i = 1, n,

Loss — функция потерь.

Необходимо найти:

вектор w*, минимизирующий R*.

Обучение без учителя. Модель обучается на данных без явных меток или правильных ответов, и ее задача заключается в выявлении скрытых шаблонов, структур или группировок данных без участия учителя, что помогает выявлять внутренние закономерности и особенности в данных [1].

Дано:

Ъ = (х(1), ...,х(п)}, х® E X, i = 1/п.

Требуется найти лучшее представление V оценку распределения, обнаружение аномалий, обнаружение закономерностей и т.д.

Обучение с подкреплением. Модель взаимодействует со своей средой дискретно по времени. Цель модели — действовать в среде так, чтобы максимизировать некоторое

долгосрочное совокупное вознаграждение. Само обучение происходит в режиме онлайн, используются реакции среды [1].

Обучение с частичным привлечением учителя. Модель обучается на небольшом наборе данных с явными метками (учительское обучение) и на большем объеме данных без явных меток (обучение без учителя). Этот метод позволяет модели использовать доступные размеченные данные для улучшения обобщающей способности на неразмеченных данных [1].

Маркированный образец:

Ъь = {(х(1),у(1)).....(х(Чу(^)},

х© ех,у© е У,1 = йТь,

У = {1, ...,К] набор меток классов.

Немаркированный образец:

Ъи = {х(п^+1), ..,х(П1+Пи')}, ПЬ « пи,

х(пь+о е х, / = .

Цели:

• построить алгоритм кластеризации, классификации или иной решаемой задачи;

• прогнозирование меток для обращений из Ъц.

В данной работе рассматривается один из видов машинного обучения - обучение без учителя, и одна из задач - задача кластеризации. Кластеризация - объединение в группы схожих объектов - является одной из фундаментальных задач в области анализа данных. Задача кластеризации сходна с задачей классификации, является ее логическим продолжением, но ее отличие в том, что классы изучаемого набора данных заранее не предопределены [2 - 4].

На современном этапе кластеризация часто выступает первым шагом при анализе данных. После выделения схожих групп применяются другие методы, для каждой группы строится отдельная модель [5 - 7]. Синонимами термина "кластеризация" являются "автоматическая классификация", "обучение без учителя" и "таксономия".

Цели кластеризации. Ниже представлены основные цели кластеризации.

1. Сжатие данных. Если исходный набор данных слишком большой, его можно уменьшить, оставив по одному наиболее типичному представителю от каждого кластера.

2. Обнаружение новизны. Выделение нетипичных объектов, которые не могут быть отнесены ни к одному из кластеров.

3. Изучение данных. Разделение множества объектов на группы позволяет выявить внутренние закономерности, улучшить наглядность представления данных, сформулировать новые гипотезы, определить степень информативности свойств объектов.

4. Упрощение анализа. Благодаря кластеризации можно упростить дальнейшую обработку данных и создание моделей: каждый кластер обрабатывается отдельно, и модель создается для каждого кластера отдельно.

5. Прогнозирование. Кластеры используются не только для компактного представления объектов, но и для идентификации новых. Каждый новый объект относится к тому кластеру, наилучшее соответствие критерию качества кластеризации которого обеспечивает оптимальное прогнозирование поведения объекта, предполагая, что оно будет похоже на поведение других объектов кластера.

6. Обнаружение аномалий. Кластеризация используется для выявления нетипичных объектов. Эта задача также называется обнаружением аномалий. Здесь интересны те кластеры (группы), в которые попадает очень мало объектов, например, один или три.

Формальная постановка задачи кластеризации. Пусть X — множество объектов, Y — множество номеров (имен, меток) кластеров. Задана функция расстояния между объектами d(x, х'}. Имеется конечная обучающая выборка объектов Хт = [х1, х2,..., хт].

Требуется разбить выборку на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из объектов, близких по метрике d, а объекты разных кластеров существенно отличались. При этом каждому объекту Xj G Хт приписывается номер кластера Y1 [8].

Алгоритм кластеризации — это функция а: X ^ Y, которая любому объекту х G X ставит в соответствие номер кластера у G Y. Множество Y в некоторых случаях известно заранее, однако чаще ставится задача определить оптимальное число кластеров, с точки зрения того или иного критерия качества кластеризации [2 - 4].

Общий алгоритм кластеризации включает выполнение ряда условий:

1) приведение исходных данных к нужному виду (подготовка данных);

2) выбор меры близости;

3) выбор алгоритма (метаалгоритма) кластеризации;

4) выполнение алгоритма;

5) представление полученных результатов;

6) интерпретация полученных результатов.

Мера близости. Все атрибуты или характеристики объектов делятся на числовые (numerical) и категориальные (categorical) [9]. Числовые атрибуты могут быть упорядочены в пространстве, в то время как категориальные атрибуты не могут быть упорядочены. Например, атрибут «возраст» является числовым, а «цвет» — категориальным. Присвоение атрибутам значений происходит во время измерений с использованием выбранной шкалы, что является отдельной задачей.

Мера близости — это величина, которая имеет предел и увеличивается при увеличении близости объектов. Меры сходства создаются по определенным правилам, и выбор конкретной меры зависит от задачи и шкалы измерений. Евклидово расстояние часто используется в качестве меры близости для числовых атрибутов, в то время как мера сходства Чекановского-Серенсена и Жаккара распространена для категориальных атрибутов.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Бочкарёв Пётр Владимирович, 2025 год

СПИСОК ЛИТЕРАТУРЫ

1. Трофимов А. Г. Синтез нейросетевых структур для моделирования управляемых объектов с распределенными параметрами: диссертация ... кандидата технических наук: 05.13.01 / Трофимов Александр Геннадьевич; [Место защиты: Моск. инж.-физ. ин-т]. - Москва, 2008. - 173 с.

2. Дюран Б., Одел П. Кластерный анализ - М.: Финансы и статистика, 1977.

3. Мандель И.Д. Кластерный анализ. - М.: Финансы и статистика, 1988.

4. Олденфендер М.С., Блешфилд Р.К. Кластерный анализ /Факторный, дискриминантный и кластерный анализ/ Дж. О. Ким, У. Мюллер У.Р. Клерка и др. -М.: Финансы и статистика, 1989.

5. Суслов С. А. Кластерный анализ: сущность, преимущества и недостатки // Вестник НГИЭИ. - 2010. - Т. 1, № 1(1). - С. 51-57.

6. Батуркин С.А., Батуркина Е.Ю., Зименко В.А., Сигинов И.В. Статистические алгоритмы кластеризации данных в адаптивных обучающих системах // Вестник Рязанского государственного радиотехнического университета. - 2010. - № 31. - С. 82-85.

7. Подвальный С. Л., Плотников А. В., Белянин А. М. Сравнение алгоритмов кластерного анализа на случайном наборе данных // Вестник Воронежского государственного технического университета. - 2012. - Т. 8, № 5. - С. 4-6.

8. Черезов Д.С., Тюкачев Н. А. Обзор основных методов классификации и кластеризации данных // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. - 2009. - № 2. - С. 25-29.

9. Методы поддержки принятия решений: Учебное пособие (курс лекций) / сост. Т. В. Киселева. - Ставрополь : Северо-Кавказский федеральный университет, 2019. - 160 с.

10. Мозохин Д.Е., Калягин В.А. Сравнительный анализ алгоритмов кластеризации в сетях фондовых рынков // Алгоритмы, методы и системы обработки данных. - 2015. - № 4(33). - С. 73-90.

11. Ковалев, С. С., Шишаев М. Г. Современные методы кластеризации в контексте задачи идентификации рассылок почтового спама // Труды Кольского научного центра РАН. - 2012. - № 6(13). - С. 89-98.

12. Гафаров Ф.М. Параллельные вычисления: учеб. пособие / Ф.М. Гафаров, А.Ф. Галимянов. - Казань: Изд-во Казан. ун-та, 2018. - 149 с.

13. Костенко С. А. Технология применения многомерного шкалирования и кластерного анализа // Фундаментальные исследования. - 2012. - № 11-4. - С. 927-930.

14. Лялька Б.О., Антонова-Рафи Ю.В. Оценка эффективности кластеризационных алгоритмов. // Научные труды SWORLD. - 2015. - Т. 2, № 2(39). - С. 25-29

15. Киреев В. С. Методы двухэтапной и многокритериальной кластеризации данных выборок больших объемов: диссертация ... кандидата технических наук: 05.13.01 /

Киреев Василий Сергеевич; [Место защиты: Моск. гос. инженерно-физ. ин-т]. -Москва, 2008. - 153 с.

16. Алетдинова А.А. Интеллектуальный анализ больших данных : учеб. пособие / М.Ш. Муртазина; Новосиб. гос. техн. ун-т; А.А. Алетдинова .— Новосибирск : Изд-во НГТУ, 2023 .— 66 с. — ISBN 978-5-7782-4899-1 .— Режим доступа: https://lib.rucont.ru/efd/878275

17. Демидова Л.А. Принятие решений в условиях неопределенности: [монография] /

B.В. Кираковский, А.Н. Пылькин; Л.А. Демидова. — М. : Горячая линия - Телеком, 2012 .— 291 с.. — ISBN 978-5-9912-0224-4

18. Обзор алгоритмов кластеризации числовых пространств данных [Электронный ресурс]. - Режим доступа: https://savepearlharbor.com/?p=164417

19. Шаламов В. В. Дискретная оптимизация на основе управления ансамблем алгоритмов: диссертация ... кандидата технических наук: 1.2.1. / Шаламов Вячеслав Владимирович; [Место защиты: ФГАОУ ВО «Национальный исследовательский университет ИТМО» ; Диссовет 02.22.00]. - СПб, 2023. - 243 с.

20. Бочкарёв П.В., Шестакова К.С. Алгоритмы кластеризации данных // Молодежный научный вестник. - 2017. - № 4(16). - С. 83-92

21. Бериков В.Б. Классификация данных с применением коллектива алгоритмов кластерного анализа // Знания - Онтологии - Теории (ЗОНТ-2015) : Материалы Всероссийской конференции с международным участием, Новосибирск, 06-08 октября 2015 года / Российская Академия Наук Сибирское Отделение Институт Математики им. С.Л. Соболева. Том 1. - Новосибирск: ООО "Технотрейд", 2015. -

C. 29-38.

22. Бериков В. Б. Коллектив алгоритмов с весами в кластерном анализе разнородных данных // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. - 2013. - № 2(23). - С. 22-31.

23. Шкаберина Г.Ш. Модели и алгоритмы автоматической классификации продукции: диссертация ... кандидата технических наук: 05.13.01 / Шкаберина Гузель Шарипжановна; [Место защиты: ФГБОУ ВО «Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева»]. - Красноярск, 2020. - 222 с.

24. Полякова А. С. Коллективные методы интеллектуального анализа данных на основе нечеткой логики: диссертация ... кандидата технических наук: 05.13.01 / Полякова Анастасия Сергеевна; [Место защиты: Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева]. - Красноярск, 2019. - 150 с.

25. Сивоголовко Е. В. Методы оценки качества чёткой кластеризации // Компьютерные инструменты в образовании. - 2011. - № 4. - С. 14-31.

26. Оценка качества в задаче кластеризации [Электронный ресурс]. - Режим доступа: https://neerc.ifmo.ru/wiki/index.php?title=Оценка_качества_в_задаче_кластеризации

27. Шелест А.А. О применении методов обнаружения выбросов к задаче исследования проб нефти: магистерская диссертация: 01.04.02 / Шелест Арина Александровна; [Место защиты: Санкт-Петербургский государственный университет]. - Санкт-Петербург, 2020. - 50 с.

28. Яковлев А. В., Мазниченко А. А., Кожанчиков М. О. Оценка качества кластеризации данных с использованием алгоритмов «k-средних», «g-средних» и «EM» // Фундаментальные и прикладные научные исследования: актуальные вопросы, достижения и инновации : сборник статей LVIII Международной научно-практической конференции, Пенза, 27 июля 2022 года. - Пенза: Наука и Просвещение (ИП Гуляев Г.Ю.), 2022. - С. 111-115.

29. Михайлец В. Б., Радин И. В., Карапышев А. В., Соцкова И. С. Автоматизированный поиск устойчивых научных (исследовательских) групп в составе организаций -участников государственных программ // Инновации. - 2013. - № 11(181). - С. 110116.

30. Калашников А. О., Аникина Е. В. Модель управления информационной безопасностью критической информационной инфраструктуры на основе выявления аномальных состояний (часть 2) // Информация и безопасность. - 2018. - Т. 21, № 2. - С.155-164.

31. Elmasri R., Navathe S. B. Fundamentals of Database Systems. Pearson, - 2016. - C.1273

32. Петрова А.А. Киреев В.С. Роль больших данных в банковском маркетинге // Синергия Наук. - 2018. - № 29. - С. 62-74.

33. Агафонов А. А. Основы технологий баз данных: учеб. пособие / А. А. Агафонов, А. М. Белов ; М-во науки и высш. образования Рос. Федерации, Самар. нац. исслед. унт им. С. П. Королева (Самар. ун-т). - Самара : Изд-во Самар. ун-та, 2023. - 1 файл (5,6 Мб). - ISBN = 978-5-7883-1915-5. - Текст: электронный. Режим доступа: http://repo.ssau.ru/handle/Uchebnye-izdaniya/Osnovy-tehnologii-baz-dannyh-104396

34. Серчиди М. А., Абдуллаева С. Ф., Погуда А. А. Исследование алгоритмов поиска неструктурированных данных // Инноватика-2018 : Сборник материалов XIV Международной школы-конференции студентов, аспирантов и молодых ученых, Томск, 26-27 апреля 2018 года / Под редакцией А.Н. Солдатова, С.Л. Минькова. -Томск: Общество с ограниченной ответственностью "СТТ", 2018. - С. 342-344.

35. Бочкарёв П.В., Иванов А.А. Исследование баз данных NOSQL для хранения слабоструктурированных данных // Теория. Практика. Инновации. - 2016. - № 12(12). - С. 142-147.

36. Sagiroglu S., Sinanc D. Big data: A review // 2013 international conference on collaboration technologies and systems (CTS). - IEEE, 2013. - С. 42-47. doi:10.1109/CTS.2013.6567202. ISBN 978-1-4673-6404-1. S2CID 5724608.

37. Kitchin R., McArdle G. What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets //Big Data & Society. - 2016. - Т. 3. - №. 1. - С. 2053951716631130.

38. Onay C., Ozturk E. A review of credit scoring research in the age of Big Data //Journal of Financial Regulation and Compliance. - 2018. - Т. 26. - №. 3. - С. 382-405.

39. Kitchin R., McArdle G. What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets //Big Data & Society. - 2016. - Т. 3. - №. 1. - С. 2053951716631130.

40. Petridis V., Kaburlasos V. G. Clustering and classification in structured data domains using Fuzzy Lattice Neurocomputing (FLN) //IEEE Transactions on Knowledge and Data Engineering. - 2001. - Т. 13. - №. 2. - С. 245-260.

41. Гусева А. И., Киреев В. С., Бочкарёв П.В. и др. Обзор современных архитектур хранения и обработки больших данных. В кн. Цифровые платформы управления жизненным циклом комплексных систем / Под общ. ред. д.э.н., проф. В.А. Тупчиенко. - М.: Издательство «Научный консультант», 2018. - С. 125-158.

42. Панферова Е. В., Матюшин Р. А. Сравнительная оценка методов кластеризации в работе с большими данными // Вестник Пермского университета. Математика. Механика. Информатика. - 2024. - № 2(65). - С. 61-67. - DOI 10.17072/1993-05502024-2-61-67.

43. Saeed M. Y. et al. Unstructured text documents summarization with multi-stage clustering //IEEE Access. - 2020. - Т. 8. - С. 212838-212854.

44. Nafis M. T., Biswas R. A secure technique for unstructured big data using clustering method //International Journal of Information Technology. - 2022. - Т. 14. - №. 3. - С. 1187-1198.

45. Zhang D. et al. Combining structured and unstructured data for predictive models: a deep learning approach //BMC medical informatics and decision making. - 2020. - Т. 20. - С. 1-11.

46. Oyewole G. J., Thopil G. A. Data clustering: application and trends //Artificial Intelligence Review. - 2023. - Т. 56. - №. 7. - С. 6439-6475.

47. Bungum L. Unsupervised clustering of structured and unstructured text collections. - 2021.

48. Burger L., van Vuuren J. A Framework for the Classification and Exploration of Semi-Structured Data. - 2024.

49. Yang J., Li W. Dynamic Semi-structured Data Clustering Based on Frequently Changing Structure //2023 2nd International Conference on Cloud Computing, Big Data Application and Software Engineering (CBASE). - IEEE, 2023. - С. 13-17.

50. Lal N. et al. A Proposed Ranked Clustering Approach for Unstructured Data from Dataspace using VSM //2020 20th International Conference on Computational Science and Its Applications (ICCSA). - IEEE, 2020. - С. 80-86.

51. Yuan G. et al. A survey on mapping semi-structured data and graph data to relational data //ACM Computing Surveys. - 2023. - Т. 55. - №. 10. - С. 1-38.

52. Ikotun A. M. et al. K-means clustering algorithms: A comprehensive review, variants analysis, and advances in the era of big data //Information Sciences. - 2023. - Т. 622. - С. 178-210.

53. Томашевская В. С., Яковлев Д. А. Способы обработки неструктурированных данных //Russian Technological Journal. - 2021. - Т. 9. - №. 1. - С. 7-17.

54. Шевнина Ю. С., Гагарина Л. Г., Конюхов Е. В., Харитонова А. Д. Метод кластерного анализа гетерогенных данных с использованием положений нечеткой логики // Известия высших учебных заведений. Электроника. - 2023. - Т. 28, № 4. - С. 537546. - DOI 10.24151/1561-5405-2023-28-4-537-546.

55. Горбатов В.А. Фундаментальные основы дискретной математики. Информационная математика. - М.: Наука. Физматлит, 2000. - 544 с.

56. Vega-Pons S., Ruiz-Shulcloper J. A survey of clustering ensemble algorithms //International Journal of Pattern Recognition and Artificial Intelligence. - 2011. - Т. 25.

- №. 03. - С. 337-372.

57. Sahu A., Runger G., Apley D. Image denoising with a multi-phase kernel principal component approach and an ensemble version // 2011 IEEE applied imagery pattern recognition workshop (AIPR). - IEEE, 2011. - С. 1-7.

58. Shinde A., Sahu A., Apley D., Runger G. Preimages for variation patterns from kernel PCA and bagging // IIE Transactions. - 2014. - Т. 46. - №. 5. - С. 429-456.

59. Borchert M., Dusterhoft A. Emotions in speech-experiments with prosody and quality features in speech for use in categorical and dimensional emotion recognition environments // 2005 International Conference on Natural Language Processing and Knowledge Engineering. - IEEE, 2005. - С. 147-151.

60. Friedman J., Hastie T., Tibshirani R. Additive logistic regression: a statistical view of boosting (with discussion and a rejoinder by the authors) // The annals of statistics. - 2000.

- Т. 28. - №. 2. - С. 337-407.

61. Кашницкий Ю. С., Игнатов Д. И. Ансамблевый метод машинного обучения, основанный на рекомендации классификаторов // Интеллектуальные системы. Теория и приложения. - 2015. - Т. 19. - № 4. - С. 37-55.

62. Бочкарёв П.В., Киреев В.С. Разработка ансамбля алгоритмов кластеризации на основе изменяющихся метрик расстояний // Аналитика и управление данными в областях с интенсивным использованием данных: ТXVШ международная конференция DAMDID/RSDL'2016 (11-14 октября 2016 г., Ершово, Московская область, Россия): труды конференции. - М.: ФИЦ ИУ РАН, 2016. - С.69-73. Одновременная электронная публикация в CEUR Workshop Proceedings, - 2016. - Т. 1752. - С. 32-36.

63. UCI Machine Learning Repository [Электронный ресурс]. - Режим доступа: https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients

64. Новиков А.В., Бендерская Е. Н. Нейросетевые методы решения задач кластерного анализа. // Нейрокомпьютеры: разработка, применение. - 2014. - № 2. - С. 48-53.

65. Подвальный С.Л., Плотников А. В., Белянин А.М. Сравнение алгоритмов кластерного анализа на случайном наборе данных // Вестник Воронежского государственного технического университета. - 2012. - Т. 8, № 5. - С. 4-6.

66. Пастухов А. А. Алгоритм формирования представительской выборки с применением кластеризации для обучения искусственной нейронной сети: диссертация ... кандидата технических наук : 05.13.01 / Пастухов Алексей Андреевич; [Место защиты: Национальный исследовательский университет «Московский институт электронной техники»]. - Москва, 2019. - 115 с. : ил.

67. Щенева Ю. Б., Пылькин А. Н., Щенев Е. С., Бодров О. А. Модель освоения образовательных компетенций с использованием инструментария интеллектуального анализа данных // Вестник Рязанского государственного радиотехнического университета. - 2023. - № 84. - С. 119-132. - DOI 10.21667/19954565-2023-84-119-132.

68. Predictive Analytics Platform | RapidMiner [Электронный ресурс]. - Режим доступа: https://rapidminer.com/

69. Bochkaryov P.V., Guseva A.I. The Use of Clustering Algorithms Ensemble with Variable Distance Metrics in Solving Problems of Web Mining // Proceedings - 2017 5th International Conference on Future Internet of Things and Cloud Workshops, W-FiCloud 2017 : 5, Prague, 21-23 августа 2017 года. Vol. 2017-January. - Prague, 2017. - P. 4146. - DOI 10.1109/FiCloudW.2017.82.

70. Гусева, А. И., Кузнецов, И. А., Смирнов, Д. С., Куркин, И. В., Пинчук, Д. Ю., Шопхоев, Д. С. Цифровая тень российских международных мегапроектов строительства АЭС за рубежом: активность интернет-пользователей // Современные наукоемкие технологии. - 2021. - № 12-2. - С. 217-225. - DOI 10.17513/snt.38978.

71. Гусева А.И., Кузнецов И.А., Бочкарёв П.В., Смирнов Д.С. Цифровая тень российских международных мегапроектов строительства АЭС за рубежом: оценка тональности высказываний / // Современные наукоемкие технологии. - 2022. - № 1. - С. 32-39. - DOI 10.17513/snt.39006.

72. Bochkaryov P., Guseva A. I. Application of the Ensemble Clustering Algorithm in Solving the Problem of Segmentation of Users Taking into Account Their Loyalty // Proceedings -2021 3rd International Conference on Control Systems, Mathematical Modeling, Automation and Energy Efficiency, SUMMA 2021 : 3, Lipetsk, 10-12 ноября 2021 года. Vol. 3rd International Conference. - Lipetsk, 2021. - P. 490-493. - DOI 10.1109/SUMMA53307.2021.9632082

73. Основы теории систем и системного анализа: [Учеб. для вузов по направлению "Систем. анализ и упр."] / В. Н. Волкова, А. А. Денисов; С.-Петерб. гос. техн. ун-т. -СПб. : Изд-во СПбГТУ, 1997. - 510 с. 20 см.; ISBN 5-7422-0026-9 : Б. ц.

74. Волкова, В.Н. Теория систем и системный анализ в управлении организациями: учеб. пособие / под ред. В.Н. Волковой и А.А. Емельянова. - Москва: Финансы и статистика, 2006. - 848 с.

75. Бурков В.Н., Новиков Д.А. Теория активных систем. Состояние и перспективы. М.: ООО "НПО СИНТЕГ", 1999. - 128 с.

76. Гусева А. И., Ковтун, Д. А., Лебедева А. В., Киреев В. С. Комплексный подход для создания и реализации программ лояльности российских международных мегапроектов строительства АЭС за рубежом //Современные наукоемкие технологии. - 2020. - №. 12-1. - С. 20-30.

77. Евневич М.А. Клиентоориентированность в цифровой экономике // Современная конкуренция. - 2017. - Т. 11, № 5(65). - С. 65-79.

78. Кисляков А.А., Загребин В.В. Проблемы и перспективы реализации мегапроектов в современной России // Фотинские чтения. - 2016. - № 1(5). - С. 269-271.

79. Ковтун Д. А., Коптелов М. В., Гусева А. И. Управление информационными рисками с помощью информационно-семантического поля в международных проектах атомной энергетики // Современные наукоемкие технологии. - 2019. - №. 11-1. - С. 66-71.

80. Гусева А.И., Киреев В.С., Бочкарев П.В., Кузнецов И.А., Коптелов М.В., Филиппов С.А. Задачи управления информационно-семантическим полем организации на основе потоковой микросегментации интернет-аудитории // Аналитика и управление данными в областях с интенсивным использованием данных : Сборник научных трудов XIX Международной конференции DAMDID / RCDL'2017, Москва, 10-13 октября 2017 года / Под ред. Л.А. Калиниченко, Я. Манолопулос, Н.А. Скворцова, В.А. Сухомлина. - Москва: Федеральный исследовательский центр "Информатика и управление" Российской академии наук, 2017. - С. 490-492.

81. Розанова Н.М., Парфенов К.В. Современные программы лояльности: факторы конкурентного успеха, ключевые тенденции и перспективы в России Вестник Института экономики Российской академии наук. - 2017. - № 2. - С. 95-109.

82. Гусева А.И., Матросова Е.В., Тихомирова А.Н., Матросов Н.Н. Многокритериальная модель анализа лояльности клиентов // Фундаментальные исследования. - 2020. - № 6. - С. 31-37. - DOI 10.17513/fr.42773.

83. Гусева А.И., Бочкарёв П.В., Коптелов М.В., Кузнецов И.А. Методика оценки информационных рисков российских международных мегапроектов строительства АЭС за рубежом на основе анализа их цифровой тени // Современные наукоемкие технологии. - 2022. - № 12-1. - С. 26-34. - DOI 10.17513/snt.39432

84. Гусева А.И., Киреев В.С., Бочкарёв П.В. Исследование цифровой тени проектов строительства российских АЭС за рубежом с помощью методов интеллектуального анализа текстов // Приборы и системы. Управление, контроль, диагностика. - 2023. - № 6. - С. 50-58. - DOI 10.25791/pribor.6.2023.1417.

85. Гусева А.И., Бочкарёв П.В. и др. Исследование программ лояльности российских мегапроектов строительства АЭС за рубежом на основе их цифровой тени: монография / Под общ. ред. д.т.н, проф. А.И. Гусевой. - М.: «Научный консультант», 2022. - 198 с.

86. Бочкарев П. В., Кузнецов И. А. Программное приложение для мониторинга индекса информационных рисков в зависимости от этапов жизненного цикла мегапроектов

// Свидетельство о государственной регистрации программы для ЭВМ РФ № 2020667822. Патентообладатель НИЯУ МИФИ (Россия). 2020.

87. Bochkaryov P., Guseva A. I., Smirnov D. S. Identification of Influencers to Analyze User Loyalty in the Implementation of Megaprojects // 2022 4th International Conference on Control Systems, Mathematical Modeling, Automation and Energy Efficiency (SUMMA). - 2022, - С. 225-230. - DOI: 10.1109/SUMMA57301.2022.9973987.

88. Матросова Е. В., Тихомирова, А. Н., Киреев, В. С., Гусева, А. И. Оценка уровня знаний об атомной промышленности в Белоруссии, Венгрии, Турции и Финляндии //Фундаментальные исследования. - 2021. - №. 12. - С. 1.

89. Коптелов М. В. Совершенствование методов определения экономической эффективности инвестиционных проектов строительства объектов использования атомной энергии за рубежом с учетом оценки рисков: диссертация ... кандидата экономических наук: 08.00.13, 08.00.05 /; [Место защиты: Нац. исслед. ядерный унт]. - Москва, 2017. -191 с.

90. Субботин Д. В. Влияние сетевых взаимодействий членов совета директоров на нелегальное использование активов компаний акционерами // Научный журнал. -2022. - № 1(63). - С. 38-41.

91. Десять главных тенденций 2015 года по версии Gartner / Открытые системы [Электронный ресурс]. - Режим доступа: http://www.osp.ru/news/articles/2014/38/13043233/

92. Гребнев А. Н. Научные информационные системы //Вестник Удмуртского государственного университета. Серия: Математика. Механика. Компьютерные науки. Ижевск: Изд-во УдГУ. - 2003. - №. 1. - С. 99-106.

93. Научные социальные сети Путеводитель по Интернет-ресурсам (по состоянию на июнь 2017 г.)/ Научная библиотека ОмГТУ [Электронный ресурс]. - Режим доступа: http://lib2.omgtu.ru/resources/files/Nauk_soc_seti.pdf

94. Модернизация Российской экономики: прогнозы и реальность, Санкт-Петербургский университет технологий управления и экономики, Сборник научных трудов III Международной научно-практической конференции, 197-203,2017, Модернизация Российской экономики: прогнозы и реальность, Санкт-Петербург, 20.04.2017, Санкт-Петербургский университет технологий управления и экономики, Институт экономики, менеджмента и информационных технологий

95. Котельников А.В., Создание информационно-аналитической системы для анализа деятельности научно-исследовательских предприятий // Современные проблемы науки и образования. - 2013. - № 2. - С. 134.

96. PFP: Parallel FP-Growth for Query Recommendation [Электронный ресурс]. - Режим доступа: http://infolab.stanford.edu/~echang/recsys08-69.pdf

97. Шапошников В.Л., Романов ДА., Евсеева М.А. Система мониторинга исследовательской деятельности образовательных учреждений в информационном

обществе // Электронный сетевой политематический журнал "Научные труды КубГТУ". - 2016. - № 12. - С. 327-340.

98. Перевалова А.Ю. Классификация информационных ресурсов с использованием методов кластеризации // Решетневские чтения. - 2013. - Т. 2. - С. 311-313.

99. Резниченко В. А., Проскудина Г. Ю., Овдий О. М. Концептуальная модель научной публикации // Труды 14-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL-2012. - Переславль-Залесский, Россия, 15-18 октября 2012 г. - 2012. - С. 43-54.

100. Наумец А.А., Соколов В.Н., Туманов В.Е Предметно-ориентированная информационно-аналитическая система мониторинга научных исследований по публикациям конференций // Фундаментальные исследования. - 2016. - № 4 (часть 3) - С. 529-534

101. Бочкарёв П.В., Гусева А.И., Киреев В.С., Кузнецов И.А., Филиппов С.А. Модель научного направления на основе интеграции объектно-ориентированного, наукометрического и экспертного подходов // Фундаментальные исследования. -2015. - № 12-6. - С. 1095-1102.

102. Кузнецов И. А. Методы и алгоритмы машинного обучения для предобработки и классификации слабоструктурированных текстовых данных в научных рекомендательных системах: диссертация ... кандидата технических наук: 05.13.01 /; [Место защиты: Национальный исследовательский ядерный университет «МИФИ»]. - Москва, 2019. - 127 с.

103. Резниченко В. А., Проскудина Г. Ю., Овдий О. М. Концептуальная модель научной публикации // Институт программных систем НАН Украины, - 2012. - C. 26-27.

104. CERIF 2008 - 1.2 Semantics, euroCRIS. [Электронный ресурс]. - Режим доступа:

http://www.eurocris.Org/Uploads/Web%20pages/CERIF2008/Release_1.2/CERIF2008_1 .2_Semantics.pdf

105. Воробьев Д.С., Бочкарёв П.В. Визуализация научных данных с помощью средств NoSQL // Молодежный научный вестник. - 2016. - № 12(12). - С. 19-26.

106. Бочкарёв П.В. Разработка графовой базы данных для анализа деятельности научных организаций, направлений и школ// XIX Международная телекоммуникационная конференция молодых ученых и студентов "МОЛОДЕЖЬ И НАУКА" : Тезисы докладов, Москва, 01 октября - 10 2015 года / Ответственный редактор О.Н. Голотюк. Том Часть 3. - Москва: Национальный исследовательский ядерный университет "МИФИ", 2015. - С. 75-76.

107. Бойко В.В., Савинков В.М. Проектирование баз данных информационных систем. - М.:"Финансы и статистика", 1989.

108. Дейт К. Дж. Введение в системы баз данных, 8-е издание: Пер. с англ. - СПб: Издательский дом «Вильямс», 2005. - C. 1328.

109. Бодров И. Сильные и слабые стороны NoSQL // Jet Info. - 2012. - № 6 (227). -С.21-26.

110. NoSQL: новая методология разработки нереляционных баз данных. : Пер. с англ. - М.: ООО "И.Д. Вильяме", 2013. - 192 с.: ил. - Парал. тит. англ.

111. Пилюгин В., Маликова Е., Пасько А., Аджиев В. Научная визуализация как метод анализа научных данных //Научная визуализация. - 2012. - Т. 4. - №. 4. - С. 56-70.

112. Бочкарёв П.В., Кононова М.В. Графовые модели данных // Теория. Практика. Инновации. - 2016. - № 12(12). - С. 133-141.

113. Несветайлов Г. А. Жизненный цикл научного направления и интенсификация фундаментальных исследований // Вестн. АН СССР. - 1987. - № 4. - С. 68-74.

114. Bochkaryov P.V. Influences of research fronts on the life cycle of the scientific direction // Journal of Engineering and Applied Sciences. - 2018. - 13(9).

115. Bochkaryov P., Guseva A. I. Identification of the Stage of the Life Cycle of the Scientific Direction with the Help of the Research Front // Proceedings of the 2019 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering, ElConRus 2019, Saint Petersburg - Moscow, 28-30 января 2019 года. - Saint Petersburg

- Moscow: Institute of Electrical and Electronics Engineers Inc., 2019. - P. 1884-1887. -DOI 10.1109/EIConRus.2019.8656811.

116. Бочкарёв П.В. Использование математических методов обработки больших данных для анализа стадий жизненного цикла научных направлений // Новые информационные технологии в научных исследованиях : материалы XXII Всероссийской научно-технической конференции студентов, молодых ученых и специалистов, Рязань, 15-17 ноября 2017 года / Рязанский государственный радиотехнический университет. - Рязань: Рязанский государственный радиотехнический университет, 2017. - С. 32-34.

117. Бочкарёв П.В. Использование ансамбля алгоритмов кластеризации на основе изменяющихся метрик расстояний на научных данных //Международный научно-технический семинар «Современные технологии в задачах управления, автоматики и обработки информации» Алушта, Республика Крым, Российская Федерация, 14 -20 сентября 2016 г.: сб. докладов. - с.199-200.

118. Крюкова А.В., Бочкарёв П.В Разработка алгоритма прогнозирования развития научных направлений // Молодежный научный вестник. - 2017. - № 1(13).

- С.16-24.

119. Бочкарёв П. В., Гусева А. И., Киреев В. С., Гудков П. Г., Филиппов С. А. Автоматизированная система кластеризации слабоструктурированных данных с использованием ансамбля алгоритмов кластеризации с изменяющимися метриками расстояний между объектами // Свидетельство о государственной регистрации программы для ЭВМ РФ № 2017612041. Патентообладатель НИЯУ МИФИ (Россия). 2017. Бюл. № 2.

120. Крюкова А. В., Бочкарёв П. В., Киреев В. С., Гусева А. И., Гудков П. Г., Филиппов С. А. Интеллектуальная аналитическая система для автоматизированной оценки конкурентоспособности конкурсных заявок на основе выявления фаз жизненного цикла научных направлений // Свидетельство о государственной регистрации программы для ЭВМ РФ № 2018610561. Патентообладатель НИЯУ МИФИ (Россия). 2018. Бюл. № 1.

121. Бочкарев П. В., Иванов А. А. Программное приложение для миграции слабоструктурированных научных данных из NoSQL в реляционную базу данных // Свидетельство о государственной регистрации программы для ЭВМ РФ № 2017617362. Патентообладатель НИЯУ МИФИ (Россия). 2017. Бюл. №7.

122. Гусева А. И., Ищенко Н. И., Бочкарев П. В., Мунаева А. А., Маслий Н. П. База данных «База данных учебно-методических материалов по дисциплине «Информационно-аналитические модели проектов» // Свидетельство о государственной регистрации базы данных РФ № 201562204. Патентообладатель НИЯУ МИФИ (Россия). 2015. Бюл. № 3.

123. Гусева А.И., Киреев В.С., Бочкарёв П.В., Кузнецов И.А. Научные и образовательные рекомендательные системы // Международная научно-практическая конференция «Информационные технологии в образовании XXI века». Сборник научных трудов. - М.: НИЯУ МИФИ. 2015. - С. 33-40.

124. Гусева А. И., Киреев В. С., Филиппов С. А. Повышение точности классификации научных данных при использовании ансамблевого подхода // Современные наукоемкие технологии. - 2016. - № 12-2. - С. 243-252.

125. Захаров В. Н., Филиппов С. А. Анализ метода повышения эффективности рекомендательных систем на основе анализа неявных данных // Системы компьютерной математики и их приложения. - 2022. - № 23. - С. 116-123. - EDN NPOIRA.

126. Киреев В.С., Кузнецов И.А., Бочкарёв П.В., Гусева А.И., Филиппов С.А. Разработка модели пользователя научных сетей на основе концепции OPEN SCIENCE// Фундаментальные исследования. - 2015. - № 12-5. - С. 907-913.

127. Guseva A.I., Kireev V.S., Bochkarev P.V., Smirnov D.S., Filippov S.A. The Formation of User Model in Scientific Recommender Systems // International Review of Management and Marketing. - 2016. - Vol. 6, No. 6. - P. 214-220.

128. Гусева А.И., Киреев В.С., Кузнецов И.А., Бочкарёв П.В. Исследование алгоритмов многомерной классификации научных данных // Фундаментальные исследования. - 2015. - № 11-5. - С. 868-874.

129. Guseva A.I., Kuznetsov I.A., Bochkaryov P.V., Filippov S.A., Kireev V.S. Development of Text Data Processing Pipeline for Scientific Systems // Advances in Intelligent Systems and Computing. - 2020. - Vol. 948. - P. 124-136. - DOI 10.1007/9783-030-25719-4 17

130. Guseva A.I., Kireev V.S., Bochkarev P.V., Kuznetsov I.A., Philippov1 S.A. Scientific and Educational Recommender Systems // AIP Conference Proceedings, Moscow, 07-08 декабря 2015 года. Vol. 1797. - Moscow: American Institute of Physics Inc., 2017. - P. 020002. - DOI 10.1063/1.4972422.

131. Гусева А. И., Киреев В. С., Филиппов С. А., Бочкарёв П. В., Кузнецов И. А., Гаврось Л. В., Гудков П. Г. База данных публикаций по тематике «Методы обработки больших данных (BigData) в научных и социальных сетях, включая методы классификации с учителем и без» // Свидетельство о государственной регистрации базы данных РФ № 2015621524. Патентообладатель НИЯУ МИФИ (Россия). 2015. Бюл. № 11.

132. Гусева А. И., Киреев В. С., Филиппов С. А., Бочкарёв П. В., Кузнецов И. А., Сомова О. А. База данных публикаций по тематике «Исследование поведенческих профилей пользователей научных и социальных сетей // Свидетельство о государственной регистрации базы данных РФ № 2015621512. Патентообладатель НИЯУ МИФИ (Россия). 2015. Бюл. № 10.

133. Гусева А.И., Киреев В.С., Филиппов С.А., Бочкарёв П.В., Кузнецов И.А., Кузьмин Д.С. База данных публикаций по тематике «Дифференциация поведенческих профилей пользователей научных и социальных сетей с учетом фактора ботов» // Свидетельство о государственной регистрации базы данных РФ № 2015621457. Патентообладатель НИЯУ МИФИ (Россия). 2015. Бюл. № 10.

134. Гусева А.И., Киреев В.С., Кузнецов И.А., Бочкарёв П.В., Коптелов М.В. Программа классификации неявных профилей пользователей научных и аналитических рекомендательных систем на основе комбинированного правила голосования // Свидетельство о государственной регистрации базы данных РФ № 2015662714. Правообладатель Общество с ограниченной ответственностью «Социальные конференционные технологии» (Россия). 2015. Бюл. 12.

135. Newsroom: Gartner Says 6.4 Billion Connected "Things" Will Be in Use in 2016, Up 30 Percent From 2015. Gartner, Inc. [online]. Доступ через:http://www.gartner.com/newsroom/id/3165317.

136. Прогнозы развития. TAdviser. Аналитика. 2016. [Электронный ресурс]. URL: http://www.tadviser.ru/index.php/Статья:Интернет_вещей,_IoT,_M2M_(мировой_рын ок)

137. Guseva A. I., Kireev V. S., Bochkarev P. V., Kuznetsov I. A., Filippov S. A. End-to-end digital technologies in "smart cities" of Russia // IOP Conference Series: Earth and Environmental Science, Obninsk, Kaluga Region, 21-22 августа 2020 года. - Obninsk, Kaluga Region, 2021. - P. 012022. - DOI 10.1088/1755-1315/740/1/012022.

138. Kireev V. S., Filippov S.A., Guseva A.I., Bochkaryov P.V., Kuznetsov I. A., Migalin V., Filin S. S. Predictive repair and support of engineering systems based on distributed data processing model within an IoT concept // Proceedings - 2018 IEEE 6th International Conference on Future Internet of Things and Cloud Workshops, W-FiCloud

2018: 6, Barcelona, 06-08 августа 2018 года. - Barcelona, 2018. - P. 84-89. - DOI 10.1109/W-FiCloud.2018.00019.

139. Kireev V.S., Bochkaryov P.V., Guseva A.I., Kuznetsov I.A., Filippov S.A. Monitoring system for the housing and utility services based on the digital technologies IloT, Big Data, Data Mining, Edge and Cloud computing // Communications in Computer and Information Science. - 2019. - Vol. 1054. - P. 193-205. - DOI 10.1007/978-3-030-27355-2_15.

140. Kireev V.S., Guseva A.I., Bochkaryov P.V., Kuznetsov I.A., Filippov S.A. Association Rules Mining for Predictive Analytics in IoT Cloud System // Advances in Intelligent Systems and Computing. - 2019. - Vol. 848. - P. 107-112. - DOI 10.1007/978-3-319-99316-4_14.

141. Башмаков А. И., Гуляева Д. Р., Дудко Я. В. Метод объединения выявленных взаимосвязей между сигналами с помощью кластерного анализа // Инженерный вестник Дона. - 2016. - № 3(42). - С. 31.

142. Kireev V.S., Filippov S.A., Guseva A.I., Bochkaryov P.V., Kuznetsov I.A., Migalin V. Cloud computing in housing and utility services monitoring systems // Proceedings -2018 6th International Conference on Future Internet of Things and Cloud Workshops (FiCloudW). - IEEE, 2018. - C. 90-94.

ПРИЛОЖЕНИЕ 1

Свидетельства о государственной регистрации программ для ЭВМ и базы

данных

т®шШжш довдврмрш

И g Ш g g ф

«в ■

СВИДЕТЕЛЬСТВО

о государственной регистрации программы хтя ЭВМ

№ 2017617362

«ilpoi рамчнос приложение для мш рации слабоструктурированных научных данных из NoSQL в реляционную базу данных»

Правообладатель: федеральное государственное автономное ооразовительноеучреждение высшего обрашваним «Национальный исследовательский ядерный университет

«мифи» (Нияу мифи) (Ш )

Авторы: Кочкарёв Пётр Владимирович (RU), Иванов Андрей Александрович (RU)

Заявка № 2017614248

Дата поступления 10 Чан 2017 Г.

Дота государственной регистрации

в Реестре про« рамм для 'ЭВМ 04 июля 2017 Л

Руководитель Федеральной службы по интеллектуальной собственности

ГП Ил шеи

ПРИЛОЖЕНИЕ 2

Акты об использовании результатов диссертационного исследования

об использовании результатов диссертационного исследования ассистента кафедры экономики и менеджмента в промышленности

Бочкарёва Петра Владимировича в Национальном исследовательском ядерном университете «МИФИ»

Настоящий акт подтверждает, что следующие результаты диссертационного исследования на соискание ученой степени кандидата технических наук Бочкарёва Петра Владимировича были внедрены в НИЯУ МИФИ и в течении ряда лет успешно используются на факультете бизнес-информатики и управления комплексными системами (ФБИУКС).

1. Метод ансамблевой кластеризации слабоструктурированных данных в рамках проведенных исследований по проекту ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014—2020 годы» № 2014-14-5760146 «Разработка метода и программно-технических решений повышения пертинентности информации в научных и аналитических рекомендательных системах» (2014-2016 гг.). В ходе выполнения проекта были разработана научная рекомендательная система, в процессе функционирования которой алгоритмы ансамблевой кластеризации использовались для определения паттерных свойств пользователя научной системы (свидетельство о государственной регистрации программы для ЭВМ № 2015662714).

2. Метод ансамблевой кластеризации слабоструктурированных научных данных на основе изменяющейся метрики расстояния в рамках проведенных исследований по проекту РФФИ № 15-07-08742«Принципы создания алгоритмического обеспечения для многомерной классификации на примере анализа научных направлений» (2015-2017 гг.). В ходе выполнения проекта были разработаны и зарегистрированы в установленном порядке интеллектуальная автоматизированная система для автоматической оценки конкурентоспособности конкурсных заявок (№ 2018610561) и два вспомогательных программных приложения для проведения научных исследований (№№ 2017612041, 2017617362).

«УТВЕРЖДАЮ»

Проректор НИЯУ МИФИ,

3. Метод ансамблевой кластеризации неструктурированных данных на основе изменяющихся метрик расстояния в рамках проведенных исследований по проекту РФФИ № 20-010-00708«Разработка экономико-математических моделей, методов и инструментария для создания и реализации программ лояльности российских международных мегапроектов» (2020-2022 гг.). В ходе выполнения проекта была разработана и зарегистрирована в установленном порядке программа для ЭВМ (№ 2020667822).

4. Экспериментальные результаты применения разработанных методов при проведении практических занятий по курсам «Учебно-исследовательская работа и курсовой проект (Проектирование и разработка информационных систем)» и подготовке выпускных квалификационных работ (бакалавриат, группы У07-712, У08-712, Б14-903, Б15-903, 971, 972, Б16-902, Б17-901, 902, Б18-901); «Научно-практические семинары «Информационные технологии в науке и образовании», «Цифровые компетенции и цифровая экономика», «Цифровая экономика» (магистратура, группы У01-71И, 71БИ, 71М;У02-71 И, 71БИ, 71М; У03-71И, 71БИ, 71М; Ml6-901,904, 914, Ml7-904, Ml8-904, м 19-904, м20-904, М21-964). Для использования в учебном процессе были разработаны и зарегистрированы в установленном порядке четыре базы данных (№№ 201562204, 2015621512, 2015621524, 2015621457).

Учитывая вышесказанное, можно сделать вывод о том, что результаты диссертационного исследования Бочкарёва Петра Владимировича обладают научной новизной и практической значимостью и могут быть рекомендованы для дальнейшего использования как в НИЯУ МИФИ, так и в других образовательных организациях высшего образования для подготовки по таким направлениям подготовки как бизнес-информатика и системный анализ и управление.

Декан ФБИУКС,

д.т.н, профессор

ГПуТЮТОБгАтВ. /

Начальник Управления

научных исследований НИЯУ МИФ'

д.т.н., профессор

^е%нол0

Автономная некоммерческая организация «Информационные технологии в образовании»

Тел: (495) 514-33-57 ito@ito.edu.ru 1пЦр://ано-ито.рф

АКТ об использовании результатов диссертационного исследования аспиранта кафедры экономики и менеджмента в промышленности Бочкарёва Петра Владимировича

Настоящий акт подтверждает, что следующие результаты диссертационного исследования на соискание ученой степени кандидата технических наук Бочкарёва Петра Владимировича были внедрены в AHO «ИТО» и в течение последних лет успешно используются в профессиональной социальной сети KONGRESS:

1. Ансамблевый метод кластеризации с использованием изменяющихся метрик расстояний.

2. Алгоритм кластеризации слабоструктурированных научных данных.

3. Программа классификации неявных профилей пользователей научных и аналитических рекомендательных систем на основе комбинированного правила голосования.

Результаты научных и практических исследований, представленных в диссертационном исследовании Бочкарёва Петра Владимировича, обладают научной новизной и практической ценностью и могут быть рекомендованы для дальнейшего использования в деятельности как сотрудникам AHO «ИТО», так и в других организациях в сфере создания научных рекомендательных систем.

Исполнительный директор

С.В.Мацайло

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.