Разработка и исследование методов и алгоритмов бинарной и многоклассовой классификации многомерных данных тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Клюева Ирина Алексеевна
- Специальность ВАК РФ05.13.17
- Количество страниц 149
Оглавление диссертации кандидат наук Клюева Ирина Алексеевна
ВВЕДЕНИЕ
1 ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ КЛАССИФИКАЦИИ
1.1 Современные подходы в области анализа данных
1.2 Основные принципы классификации произвольных наборов данных
1.3 Обзор алгоритмов машинного обучения для решения задач классификации
1.4 Определение подходов к исследованию
Выводы по главе
2 РАЗРАБОТКА АЛГОРИТМОВ ПОИСКА ЗНАЧЕНИЙ ПАРАМЕТРОВ КЛАССИФИКАЦИИ
2.1 Алгоритмы поиска значений параметров классификатора на основе совместного применения алгоритма роя частиц и алгоритмов поиска по сетке
2.2. Разработка классификатора при использовании несбалансированных наборов данных
Выводы по главе
3 РАЗРАБОТКА МЕТОДОВ И АЛГОРИТМОВ КЛАССИФИКАЦИИ НА ОСНОВЕ АНСАМБЛЕЙ КЛАССИФИКАТОРОВ
3.1 Методы ансамблирования при решении задач классификации
3.2 Алгоритм двухэтапной классификации на основе поиска аномалий
3.3 Разработка методов многоклассовой классификации
3.4 Повышение качества многоклассовой классификации
Выводы по главе
4 ПРОГРАММНАЯ РЕАЛИЗАЦИЯ РАЗРАБОТАННЫХ МЕТОДОВ И АЛГОРИТМОВ
4.1 Структура программного обеспечения и краткое руководство по его использованию
4.2 Описание наборов данных для экспериментальных исследований
4.3 Результаты экспериментальных исследований на основе реализации разработанных методов и алгоритмов
Выводы по главе
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЕ А Области применения задач классификации
ПРИЛОЖЕНИЕ Б Перечень источников наборов данных
ПРИЛОЖЕНИЕ В Результаты классификации различных алгоритмов машинного обучения
ПРИЛОЖЕНИЕ Г Результаты многоклассовой классификации
ПРИЛОЖЕНИЕ Д Копии актов о внедрении результатов научной работы
ПРИЛОЖЕНИЕ Е Копии свидетельств о государственной регистрации программ для ЭВМ
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Параллельная система тематической текстовой классификации на основе метода опорных векторов2012 год, кандидат технических наук Пескишева, Татьяна Анатольевна
Проектирование нейросетевых систем глубинного обучения эволюционными алгоритмами для задачи человеко-машинного взаимодействия2017 год, кандидат наук Иванов Илья Андреевич
Алгоритмическое обеспечение нейро-нечеткой системы классификации состояний объектов сложной структуры2022 год, кандидат наук Чернобаев Игорь Дмитриевич
Алгоритмическое развитие Виола-Джонсовских детекторов для решения прикладных задач распознавания изображений2018 год, кандидат наук Усилин Сергей Александрович
Разработка моделей, алгоритмов и программ диагностики функционирования технических объектов с использованием агрегированных классификаторов2020 год, кандидат наук Жуков Дмитрий Анатольевич
Введение диссертации (часть автореферата) на тему «Разработка и исследование методов и алгоритмов бинарной и многоклассовой классификации многомерных данных»
ВВЕДЕНИЕ
Актуальность темы исследования. В настоящее время в различных прикладных областях наблюдается рост спроса на анализ данных в условиях непрерывного увеличения объемов обрабатываемой информации. С одной стороны, это связано с потребностью своевременного и эффективного принятия решений на основе результатов проводимой аналитики, с другой - со стремительно развивающимися возможностями информационных технологий в сфере сбора, хранения и обработки многомерных данных.
При этом достаточно широкое применение в решении различных прикладных задач находят методы и алгоритмы классификации. Они используются в медицине в задачах медицинской диагностики заболеваний, в банковском деле при определении кредитоспособности заемщиков, в сфере предоставления услуг для решения задач анализа оттока клиентов, в производственной отрасли при диагностике неисправностей оборудования, при обработке текстов на естественных языках и в задачах распознавания речи и др.
Задача классификации относится к области анализа данных на основе прецедентов и подразумевает использование многомерных данных с заранее предопределённым конечным множеством классов. Различают бинарную, многоклассовую, а также одноклассовую классификацию. В связи с востребованностью анализа больших объемов данных в практических задачах наиболее актуальной является задача многоклассовой классификации (наличие более двух классов объектов).
Поскольку не существует универсальных методов и алгоритмов, гарантирующих высокое качество классификации произвольных наборов данных, требуется разработка новых методов и алгоритмов, обеспечивающих повышение точности принимаемых классификационных решений в различных предметных областях.
По причине отсутствия общих стандартных рекомендаций при разработке классификаторов одной из приоритетных задач является выбор значений параметров классификаторов, при которых достигается высокое качество классификации данных. При этом целесообразно использовать оптимизационные алгоритмы, в
частности, основанные на эволюционном моделировании и обеспечивающие нахождение субоптимального решения за приемлемое время.
Существенное влияние на точность классификатора может оказывать различное соотношение количества объектов разных классов в наборе данных, используемом при его разработке. В случае дисбаланса классов применяются алгоритмы восстановления сбалансированности классов, основанные на принципах сэмплинга (sampling). Поиск значений параметров алгоритмов сэмплинга при простом переборе может сопровождаться значительными временными затратами. В связи с этим целесообразно выполнение разработок по созданию соответствующих оптимизационных алгоритмов поиска значений параметров алгоритмов сэмплинга, обеспечивающих разработку классификатора, характеризующегося высокой точностью классификации.
При решении многих практических задач классификации используется построение ансамблей (композиций) классификаторов. Процесс ансамблирования основывается на различных способах компенсации ошибок классификаторов, входящих в ансамбль. Востребованность ансамблей связана с их высокой способностью к обобщению. При этом в зависимости от специфики решаемой задачи классификации к недостаткам ансамблирования можно отнести сложность выбора моделей базовых классификаторов для построения ансамбля, переобучение, неэффективное использование объема обучающей выборки. Перспективным направлением является совершенствование подходов построения композиций классификаторов.
Таким образом, существуют различные актуальные области исследований, направленные на повышение точности классификации и предполагающие реализацию новых разработок, результаты применения которых в настоящее время востребованы в различных прикладных областях анализа данных.
При решении целого спектра задач классификации благодаря обобщающей способности широко востребован SVM-алгоритм (Support Vector Machine, SVM -алгоритм опорных векторов). Поскольку математическое описание SVM-алго-ритма было первоначально разработано для решения задач бинарной классификации, существенный интерес представляет исследование возможностей его
применения для решения задач многоклассовой классификации, а также разработка новых методов повышения точности бинарной SVM-классификации c помощью современных подходов эволюционного моделирования на основе PSO-алгоритма (Particle Swarm Optimization Algorithm, PSO - алгоритма роя частиц) и построения композиции классификаторов с использованием эффективного ансамблевого алгоритма, в частности, вспомогательного RF-алгоритма (Random Forest, RF - алгоритма случайного леса).
Степень разработанности темы исследования. Существенный вклад в развитие направления исследований проблем и задач классификации внесли ученые М. А. Айзерман, Э. М. Браверман, В. Н. Вапник, Л. И. Розоноэр, А. Я. Червонен-кис, B. Boser, I. Guyon и др.
Развитие эволюционного моделирования получило в работах Л. А. Гладкова, Л. А. Демидовой, В. В. Емельянова, А. П. Карпенко, В. В. Курейчика, В. М. Курей-чика, R. Eberhart, J. Kennedy, C. H. Lai, J. Sun, X. J. Wu и др.
Проблемы несбалансированности данных рассматриваются в публикациях N. Chawla, E. A. Garcia, H. Han, H. He, Y. Ma и др. Исследованиям применения од-ноклассовой классификации на основе поиска аномалий посвящены работы R. Duin, S. M. Erfani, H. K. Huang, S. Khan, C. Leckie, K. L. Li, M. Madden,
B. Schölkopf, A. Smola, D. Tax, R. Zhang и др.
Теоретические основы построения композиций алгоритмов приведены в работах Ю. И. Журавлёва. Использование ансамблей алгоритмов для решения задач многоклассовой классификации представлено в работах Y. Elovici, C. W. Hsu,
C. J. Lin, E. Menahem, J. Platt, L. Rokach, A. Seewald и др.
Применение эволюционного моделирования в решении задачи поиска значений параметров SVM-классификатора, а также подходы построения ансамблей классификаторов в случаях бинарной классификации исследуются в работах Ю. С. Соколовой.
Несмотря на наличие значительного количества научных трудов, посвященных проблемам повышения качества решения задач классификации, исследования существующих алгоритмов показывают отсутствие абсолютно универсальных
классификаторов, являющихся однозначно лучшими для классификации различных произвольных наборов данных, поскольку такие алгоритмы характеризуются определенными ограничениями, заложенными в их математический аппарат. Таким образом, целесообразна разработка новых методов и алгоритмов, обладающих высокой обобщающей способностью и позволяющих снизить недостатки существующих аналогов при решении задач классификации.
Цель диссертации - повышение эффективности решения задач бинарной и многоклассовой классификации многомерных данных посредством разработки и исследования методов и алгоритмов, реализующих поиск значений параметров классификаторов, построение ансамблей классификаторов, а также снижение влияния дисбаланса классов при использовании несбалансированных наборов данных.
Для достижения поставленной цели решаются следующие основные задачи:
1. Определить в рамках работы базовый алгоритм классификации и исследовать существующие методы поиска оптимальных значений параметров классификаторов, предложить на основе исследованных методов более эффективные алгоритмы, позволяющие сократить временные затраты на поиск оптимальных значений параметров базового классификатора для обеспечения высокой точности классификации данных.
2. Провести анализ существующих методов многоклассовой классификации и предложить новые методы, основанные на построении ансамблей алгоритмов, обеспечивающие высокую точность многоклассовой классификации.
3. Определить влияние дисбаланса классов на значения показателей качества базового классификатора и предложить алгоритм поиска значений параметров алгоритма сэмплинга в задаче бинарной классификации с использованием несбалансированных наборов данных.
4. Исследовать методы поиска аномалий при решении задачи одноклассовой классификации и возможность их применения в случаях наличия дисбаланса классов при бинарной классификации, разработать алгоритм двухэтапной классификации на основе поиска аномалий, обеспечивающий повышение точности
классификации несбалансированных наборов данных на основе композиции классификаторов, включающей основной и вспомогательный классификаторы.
Объектом исследования является бинарная и многоклассовая классификация произвольных многомерных наборов данных в различных предметных областях.
Предметом исследования являются методы и алгоритмы классификации данных с применением машинного обучения, включающие различные способы ан-самблирования и поиска значений параметров классификаторов, а также подходы к восстановлению сбалансированности классов.
Методы исследования. Для решения поставленных задач в настоящей работе использовались методы интеллектуального анализа данных, математической статистики, стохастической оптимизации, сэмплирования, поиска аномалий, математический аппарат алгоритмов машинного обучения.
Научная новизна.
1. Предложены новые алгоритмы поиска оптимальных значений параметров базового классификатора (SVM-PSO-GS, SVM-PSO-DOE-алгоритмы), отличающиеся от аналогов совместным применением алгоритма роя частиц и алгоритмов поиска по сетке, позволяющие по сравнению с алгоритмом роя частиц сократить временные затраты на поиск оптимальных значений параметров базового классификатора в среднем в 3 раза при обеспечении высокой точности классификации данных (05.13.17 п. 5).
2. Предложены новые ансамблевые методы многоклассовой классификации (DGM-1, DGM-2, IGM-1, IGM-2-методы), отличающиеся от аналогов новыми подходами к генерации метахарактеристик при нескольких разбиениях обучающей выборки, позволяющие повысить точность многоклассовой классификации, реализуемой с использованием композиции бинарных классификаторов, до 5-7% (05.13.17 п. 5).
3. Предложен новый алгоритм поиска значений параметров алгоритма сэм-плинга в задаче бинарной классификации с использованием несбалансированных наборов данных (SVM-bSMOTE-алгоритм), отличающийся от аналогов
реализацией оценки пригодности комбинаций значений параметров алгоритма сэмплинга, позволяющий обеспечить разработку классификатора, точность классификации которого в среднем на 3% превышает точность базового классификатора (05.13.17 п. 5).
4. Предложен новый алгоритм двухэтапной классификации на основе поиска аномалий (1-SVM-RF-алгоритм), отличающийся от аналогов последовательным применением одноклассового классификатора в качестве основного и вспомогательного ансамблевого классификатора, позволяющий повысить точность бинарной классификации несбалансированных наборов данных в среднем на 2,5 % по сравнению с базовым классификатором (05.13.17 п. 5).
Практическая ценность работы заключается в следующем:
1. Алгоритмы поиска оптимальных значений параметров базового классификатора (SVM-PSO-GS, SVM-PSO-DOE-алгоритмы) за счет совместного применения алгоритма роя частиц и алгоритмов поиска по сетке позволяют по сравнению с алгоритмом роя частиц сократить временные затраты на поиск оптимальных значений параметров базового классификатора в среднем в 3 раза при обеспечении высокой точности классификации данных.
2. Ансамблевые методы многоклассовой классификации (DGM-1, DGM-2, IGM-1, IGM-2-методы) за счет новых подходов к генерации метахарактеристик при нескольких разбиениях обучающей выборки позволяют повысить точность многоклассовой классификации, реализуемой с использованием композиции бинарных классификаторов, до 5-7%.
3. Алгоритм поиска значений параметров алгоритма сэмплинга в задаче бинарной классификации с использованием несбалансированных наборов данных (SVM-bSMOTE-алгоритм) за счет реализации оценки пригодности комбинаций значений параметров алгоритма сэмплинга позволяет обеспечить разработку классификатора, точность классификации которого в среднем на 3% превышает точность базового классификатора.
4. Алгоритм двухэтапной классификации на основе поиска аномалий (1-SVM-RF-алгоритм) за счет последовательного применения одноклассового
классификатора в качестве основного и вспомогательного ансамблевого классификатора позволяет повысить точность бинарной классификации несбалансированных наборов данных в среднем на 2,5 % по сравнению с базовым классификатором.
Соответствие паспорту научной специальности. Область исследования и содержание диссертации соответствуют паспорту специальности 05.13.17 -Теоретические основы информатики (технические науки) в части п. 5 «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений».
Достоверность результатов исследований подтверждается внутренней непротиворечивостью основных теоретических положений и соответствием экспериментальных результатов фактическим данным о классовой принадлежности объектов классификации; воспроизводимостью результатов исследования при использовании различных тестовых наборов данных из репози-тория машинного обучения иС1 и платформы соревнований по машинному обучению Kaggle; корректным использованием математического аппарата известных алгоритмов машинного обучения по прецедентам, эволюционного моделирования, стандартных метрик качества классификации, современных средств программирования и библиотек машинного обучения; сравнением результатов работы с результатами других научных исследований; апробацией на всероссийских и международных научно-технических конференциях; публикациями в рецензируемых российских и зарубежных изданиях; актами о внедрении; полученными свидетельствами о государственной регистрации программ для ЭВМ.
Основные положения, выносимые на защиту:
1. Алгоритмы поиска оптимальных значений параметров базового классификатора (SVM-PSO-GS, SVM-PSO-DOE-алгоритмы), позволяющие по сравнению с алгоритмом роя частиц сократить временные затраты на поиск оптимальных значений параметров базового классификатора при обеспечении высокой точности
классификационных решений за счет совместного применения алгоритма роя частиц и алгоритмов поиска по сетке.
2. Ансамблевые методы многоклассовой классификации (DGM-1, DGM-2, IGM-1, IGM-2-методы), позволяющие повысить точность многоклассовой классификации, реализуемой с использованием композиции бинарных классификаторов, за счет новых подходов к генерации метахарактеристик при нескольких разбиениях обучающей выборки.
3. Алгоритм поиска значений параметров алгоритма сэмплинга в задаче бинарной классификации с использованием несбалансированных наборов данных (SVM-bSMOTE-алгоритм), позволяющий за счет реализации оценки пригодности комбинаций значений параметров алгоритма сэмплинга обеспечить разработку классификатора, точность классификации которого превышает точность базового классификатора.
4. Алгоритм двухэтапной классификации на основе поиска аномалий (1-SVM-RF-алгоритм), позволяющий повысить точность бинарной классификации несбалансированных наборов данных по сравнению с базовым классификатором за счет последовательного применения одноклассового классификатора в качестве основного и вспомогательного ансамблевого классификатора.
Реализация и внедрение. Методы и алгоритмы, разработанные в настоящей работе, внедрены в следующих организациях:
- банк «Вятич» (ПАО) (г. Рязань) при оценке кредитоспособности заемщиков;
- ООО «НБЛ» (г. Рязань) для оценки спроса на аренду недвижимости;
- в учебном процессе на кафедре вычислительной и прикладной математики факультета вычислительной техники Федерального государственного бюджетного образовательного учреждения высшего образования «Рязанский государственный радиотехнический университет» (ФГБОУ ВО «РГРТУ») (г. Рязань).
Имеются соответствующие акты внедрения результатов работы.
Апробация результатов исследования. Основные результаты диссертационной работы докладывались на 15 научных конференциях (из них 3 - всероссийских, 12 - международных): XVIII Международной научно-технической конференции «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций» (г. Рязань, 2015), XXI, XXIII Всероссийских научно-технических конференциях студентов, молодых ученых и специалистов «Новые информационные технологии в научных исследованиях и в образовании» (НИТ-2016, НИТ-2018) (г. Рязань, 2016, 2018); I и II Международных научно-технических конференциях «Современные технологии в науке и образовании» (СТНО-2016, СТН0-2017) (г. Рязань, 2016, 2017); Всероссийской научно-технической конференции «Математические методы и информационные технологии управления в науке, образовании и правоохранительной сфере» (ММИТ-2017) (г. Рязань, 2017); XII Международный симпозиум «Интеллектуальные системы» (INTELS'2016) (г. Москва, 2016); V, VI, VII Международных Средиземноморских научно-технических конференциях «Встраиваемые вычислительные системы» (MECO 2016, MECO 2017, MECO 2018) (Черногория, г. Бар, 2016, 2017; г. Будва, 2018); III и IV Международных научных конференциях «Прикладные исследования и технологии» (ART-2016, ART-2017) (г. Москва, 2016, 2017); Семинаре по системному анализу (ITM Web of Conferences) (г. Москва, 2017); I Международной научной конференции «Системы Управления, Математическое моделирование и Автоматизация в промышленности и энергетике» (SUMMA) (г. Липецк, 2019), Международной научно-практической конференции «Big Data and Artificial Intelligence Conference» (2020).
Публикации. Основные результаты диссертации опубликованы в 27 работах, среди которых 5 статей в рецензируемых журналах из перечня ВАК РФ, 6 работ в изданиях, индексируемых в международной наукометрической базе данных Scopus. Получено 2 свидетельства о государственной регистрации программ для ЭВМ.
Личный вклад. Представленные на защиту результаты получены автором диссертации лично. Автором самостоятельно исследованы способы повышения качества классификации и разработаны новые методы и алгоритмы, обеспечивающие
повышение точности бинарной и многоклассовой классификации. В работах [29, 31, 48, 99, 104-107] диссертантом получены основные экспериментальные результаты, проведены их анализ и интерпретация. В работах [31, 33], подготовленных в соавторстве с научным руководителем, которому принадлежит общая постановка задач исследования, соискателем сформулированы и реализованы подходы к решению. Работы [42, 102] выполнены диссертантом самостоятельно. Все основные положения тезисов докладов конференций сформулированы лично автором.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка использованных источников, шести приложений. Основной текст работы содержит 119 страниц, 10 таблиц, 43 рисунка.
1 ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ КЛАССИФИКАЦИИ 1.1 Современные подходы в области анализа данных
В области анализа данных не существует полностью формализованных алгоритмов решения, поскольку в большинстве случаев на практике встречаются слабоструктурированные задачи. Современная тенденция практики принятия решений заключается в сочетании способности решать неформализованные задачи с применением формальных методов и компьютерного моделирования (экспертных систем, методов моделирования решений, систем поддержки принятия решений и т.д.).
В настоящее время наблюдается тенденция количественных изменений в существующей классической схеме принятия решений в виду нескольких причин: возрастания объемов и типов доступной для анализа информации (как вследствие увеличения числа контролируемых процессов общества, так и динамичного роста объема фиксируемой информации по каждому из управляемых процессов); возрастания производительности цифровых сетей, осуществляющих доставку информации к местам ее обработки; возрастания возможностей вычислительных устройств по анализу доступной информации.
Обозначенные количественные факторы в общей совокупности приводят к выводу о целесообразности качественных изменений в области анализа данных и принятия решений (цифровой революции).
В настоящее время сочетание известных математических инструментов с новейшими достижениями в области компьютерных технологий служат основой для разработки инструментов интеллектуального анализа данных (data mining), ориентированных на прогнозирование развития различных ситуаций с помощью автоматизированного анализа ретроспективной и оперативной информации сверхбольших объемов посредством определения взаимозависимостей, неявных закономерностей в данных.
Широкий подраздел искусственного интеллекта в области интеллектуального анализа данных составляют методы машинного обучения (machine learning) -класс методов построения алгоритмов, способных к обучению.
Под машинным обучением понимают реализацию алгоритма, способного выявлять закономерности в исходных данных и на основе анализа выстраивать прогноз для новых данных, а также совершенствоваться за счет обучения по мере поступления новой информации о данных.
Классическими задачами, решаемыми с помощью подходов машинного обучения, являются: классификация (определение класса объекта на основании его характеристик), регрессия (прогнозирование новой количественной характеристики объекта на основе исходных характеристик), кластеризация (разделение объектов на группы на основании схожести их характеристик). Различные виды и подходы машинного обучения представлены в таблице 1.1.
В настоящее время интеллектуальный анализ данных имеет многочисленные сферы применения, где накоплены ретроспективные данные, включающие распознавание речи, обработку естественных языков, компьютерное зрение, биоинформатику, скоринговые и экспертные системы в банковском деле, медицине, интернет-торговле, ритейле, телекоммуникационном секторе, страховании, производстве и др. При этом существует достаточно большое количество способов применения методов машинного обучения: оптимизация цепи поставок (в ритейле), распознавание мошенничества (банковская сфера), диагностика заболеваний пациентов (в медицине), прогнозирование неисправностей оборудования (на производстве), анализ оттока клиентов (в различных сферах оказания услуг) и другие. Ряд областей применения задачи классификации в конкретных направлениях анализа данных приведен в Приложении А.
В связи с тем, что настоящая работа посвящена разработке методов и алгоритмов к решению наиболее популярной и распространенной задачи анализа данных - задачи классификации, рассмотрим данное понятие подробнее в следующем разделе.
Таблица 1.1 - Методы машинного обучения
Виды обучения Методы и алгоритмы машинного обучения
Обучение с учителем Алгоритмы классификации: Logistic Regression, Naive Bayes, ANN, Decision Trees, SVM
Алгоритмы регрессии: Linear Regression, Polynomial Regression, Ridge/Lasso Regression
Обучение без учителя Алгоритмы кластеризации: DBSCAN, K-MEANS, Agglomerative, Mean-Shift, Fuzzy C-Means
Ассоциация (поиск правил): Euclat, Apriori, FP-Growth
Алгоритмы уменьшения размерности: t-SNE, PCA, LSA, SVD, LDA
Обучение с подкреплением Генетический алгоритм, Q-Learning, SARSA, DQN
Ансамблевые методы Стекинг; Беггинг: Random Forest; Бустинг: XGBoost, LightGBM, CatBoost, AdaBoost
Нейронные сети и глубокое обучение Рекуррентные нейронные сети (RNN): LSM, LSTM; GRU Нейронные машины Тьюринга: NTM, Глубинные остаточные сети: DRN; Генеративные состязательные сети: GAN; Свёрточные нейронные сети (CNN): DCNN
1.2 Основные принципы классификации произвольных наборов данных
В области машинного обучения классификация относится к типу задач обучения по прецедентам (supervised learning, обучение с учителем). На вход алгоритма классификации подается обучающая выборка, содержащая информацию об объектах (примерах) некоторой предметной области с уже известными метками их классов принадлежности, и в процессе его обучения формируется классификатор, позволяющий определить классовую принадлежность для новых объектов.
Пусть Z - множество объектов или примеров, входов (samples); а Y - множество меток или ответов, выходов (responses). Для данных двух множеств имеется целевая зависимость (функция) f *: Z ^ Y, при которой лишь для некоторого конечного подмножества Z* = {z,...,zs} (Z* с Z) известны значения целевой функции y* = f *(z). Множество кортежей < z, y* > (i = 1, s), содержащих информацию о принадлежности объекта zi е Z* классу с меткой y* е Y, составляет учебный набор
L = {< Zi, У* >}S=i.
В алгоритмах обучения в качестве входов используются признаковое описание объектов z = (z1,z2,...,znt), z е Z в n -мерном пространстве характеристик. Таким образом, объекты z (i = 1,s) образуют многомерный набор данных.
Задача обучения с учителем сводится к задаче восстановления зависимости на основе прецедентов (объектах подмножества Z* с Z) и предполагает построение функции f , обеспечивающей предсказание меток классов новым объектам. Функция f (аппроксимирующая функция) должна приближать целевую зависимость f *(z) на всем множестве объектов Z: y = f (z) ~ f *(z).
Таким образом, решение задачи обучения с учителем заключается в формировании модели восстанавливаемой зависимости, при этом существует понятие настройки (fitting) или подгонки модели.
Алгоритм построения функции f называется алгоритмом обучения, выходом которого является функция, аппроксимирующая неизвестную
(восстанавливаемую) зависимость. В задачах классификации аппроксимирующую функцию, реализующую решающее правило классификации, принято называть классификатором (classifier).
Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Построение ансамблей деревьев решений с использованием линейных и нелинейных разделителей2022 год, кандидат наук Девяткин Дмитрий Алексеевич
Математическое и алгоритмическое обеспечение интеллектуального статического анализа программных систем для специализированных гетерогенных вычислительных платформ2024 год, кандидат наук Горчаков Артем Владимирович
Решение задач восстановления пропущенных значений признаков и многоклассовой классификации2018 год, кандидат наук Рязанов, Василий Владимирович
Разработка алгоритмов семантической сегментации и классификации биомедицинских сигналов низкой размерности на основе машинного обучения2012 год, кандидат физико-математических наук Сенюкова, Ольга Викторовна
Методы и алгоритмы классификации данных на основе многомерной триангуляции Делоне2018 год, кандидат наук Дорошенко Александр Юрьевич
Список литературы диссертационного исследования кандидат наук Клюева Ирина Алексеевна, 2022 год
использованию
Разработанное программное обеспечение (далее - Программа) состоит из следующих основных модулей:
- ипй_шат.ру - основной модуль Программы;
- тат_Югт.ру - модуль, содержащий описание классов для отображения главного окна Программы;
- svm_pso.py, pso.py - модули, содержащие описание функций по реализации алгоритма поиска оптимальных значений параметров SVM-классифи-катора на основе PSO-алгоритма;
- svm_pso_doe.py, doe.py - модули, содержащие описание функций по реализации SVM-PSO-DOE-алгоритма;
- svm_pso_gs.py, gs.py - модули, содержащие описание функций по реализации SVM-PSO-GS-алгоритма;
- svm_bsmote.py - модуль, содержащий описание функций по реализации SVM-bSMOTE-алгоритма;
- 1svm_rf.py - модуль, содержащий описание функций по реализации 1-SVM-RF-алгоритма;
- multiclass_methods.py - модуль, содержащий описание функций по реализации DGM-1, DGM-2, ЮМ-1, ЮМ-2-методов.
Для работы с Программой после ее запуска требуется выполнить загрузку данных (вкладка «Исходный набор данных»). После загрузки отражается объем загруженных данных и их табличное представление (рисунок 4.1). На вкладке «Исходный набор данных» имеется опция графической визуализации набора данных (рисунок 4.2).
Следует отметить, что представление объектов исходных наборов данных в пространстве D-2 проводится c применением метода нелинейного снижения размерности и визуализации многомерных данных - t-SNE (t-distributed Stohastic Neighbor Embedding) [93].
Главное окно — □ X
Исходный набор данных Повышение качества 5УМ Поиск параметров 5УМ Балансировка данных Классификация н ^ ■ ► :
Выбрать набор данных
Heart
Загрузить
Объем данных:
Количество записей:
Количество характеристик:
270 13
Визуализация данных
(•) Представление в 20
О Круговая диаграмма Построить график
А1 А2 A3 А4 / Л
1 70.0 1.0 4.0 130.0 322.0
2 67.0 0.0 3.0 115.0 564.0
3 57.0 1.0 2.0 124.0 261.0
4 64.0 1.0 4.0 128.0 263.0
5 74.0 0.0 2.0 120.0 269.0
6 65.0 1.0 4.0 120.0 177.0
7 56.0 1.0 3.0 130.0 256.0
8 59.0 1.0 4.0 110.0 239.0
9 60.0 1.0 4.0 140.0 293.0
10 63.0 0.0 4.0 150.0 407.0
11 59.0 1.0 4.0 135.0 234.0
12 53.0 1.0 4.0 142.0 226.0
< >
Рисунок 4.1 — Главное окно Программы после загрузки данных
Ш pythc
V' м» . .
\ ■ • •
а)
X
10 15 20
б)
Рисунок 4.2 - Визуализация исходных данных: а) представление в пространстве D-2, б) круговая диаграмма
Метод ^БМЕ позволяет найти такое отображение объектов на плоскость из многомерного пространства характеристик, при котором точки, которые удалены друг от друга в исходном пространстве, на плоскости оказались удаленными, а точки, расположенные близко друг к другу, - отобразились как близкие.
Таким образом, метод ^КЕ обеспечивает поиск нового представления данных, при котором сохраняется соседство объектов.
Применение метода 1-БКЕ позволяет строить представление объектов в пространстве D-3, но чаще на практике используется отображение объектов в пространстве двухмерной размерности.
Для запуска поиска оптимальных значений параметров БУМ-классификатора на основе совместного применения алгоритма роя частиц и алгоритмов поиска по сетке (ЗУМ-Р8О-О8, 8УМ-Р8О-ООЕ-алгоритмов) требуется перейти на вкладку «Поиск параметров БУМ» главного окна Программы (рисунок 4.3).
Перед запуском требуется ввести необходимые значения параметров алгоритмов в левой части окна и нажать кнопку «Выполнить». При этом пользователю предоставляется выбор, с помощью какого алгоритма будет проводиться уточнение решений РБО-алгоритма: с использованием ОБ-алгоритма или ООЕ-алгоритма.
Результаты поиска оптимальных значений параметров БУМ-классификатора отразятся в соответствующих полях на вкладке «Поиск параметров ЗУМ».
При этом результаты прогонов ЗУМ-РБО-ОБ, БУМ-РБО-ООЕ-алгоритмов будут представлены пользователю на отдельных внутренних вкладках для возможности проведения сравнения результатов данных алгоритмов.
Кроме того, пользователю предоставляется возможность провести оценку качества классификации с применением ЯОС-анализа.
На рисунке 4.4 приведен пример построения ROC-кривой с помощью нажатия на кнопку «Построить ROC-кривую» на вкладке «Поиск параметров БУМ» главного окна Программы.
Рисунок 4.3 — Вкладка «Поиск параметров SVM»
Рисунок 4.4 - Построение ROC- кривой на вкладке «Поиск параметров SVM»
Для запуска поиска значений параметров bSMOTE-алгоритма в задаче SVM-классификации с использованием несбалансированных наборов данных (БУМ-ЬБМОТЕ-алгоритма) требуется перейти на вкладку «Балансировка данных» главного окна Программы (рисунок 4.5).
I* '1 Главное окно — □ X
Исходный набор данных Повышение качества БУМ Поиск параметров БУМ Балансировка данных Классификация н ^ ^
Параметры алгоритма
Е
Количество прогонов Количество пар [4 парметров bSMOTE-алгоритма
Начальное количество классификаторов
ш
Класс +1 Ошибки при обучении Класс-1 Всего
Ошибки при тестировании
Всего
Общая точность, Асс
Показатель специфичности, 5р
Доля тестовой выборки,% |20
[q Щ Диапазон поиска - параметров bSMOTE -
Выполнить
Объем исходных данных: Класс "-1" 150
Класс "+1" 120
Всего объектов 270 Показатель
несбалансированности q 20
Показатель чувствительности, Se Показатель сбалансированной F-меры
Оптимальные значения параметров ЬБМОТЕ
Число ближайших соседей, использованных для создания синтетических образцов
Число ближайших соседей, использующееся для определения находится ли объект миноритарного класса на границе классов
Время нахождения оптимального решения Полное время работы программы (с момента запуска)
Рисунок 4.5 - Вкладка «Балансировка данных»
Для информации пользователю в левой части окна отражается сведения о классовом распределении объектов в исходной выборке данных: количество объектов каждого класса, общее количество объектов, значение показателя несбалансированности классов, рассчитываемого по формуле (4.1). Для запуска алгоритма поиска значений параметров bSMOTE-алгоритма в задаче SVM-классификации и выполнения балансировки данных требуется ввести необходимые значения параметров алгоритма и нажать кнопку «Выполнить».
Для запуска двухэтапной классификации на основе поиска аномалий (ЬБУМ-КР-алгоритма), требуется перейти на вкладку «Классификация на основе поиска аномалий» главного окна Программы (рисунок 4.6).
Для получения результатов многоклассовой классификации на основе реализации стандартных ансамблевых методов и разработанных в настоящей работе методов (DGM-1, ООМ-2, 1ОМ-1, 1ОМ-2-методов) необходимо перейти на вкладку «Многоклассовая классификация» главного окна Программы (рисунок 4.7).
Рисунок 4.6 - Вкладка «Классификация на основе поиска аномалий»
МЗ Главное окно
иск параметров SVM Балансировка данных
Параметры базовых алгоритмов RF
Классификация на основе поиска аномалий Boost Ada Boost
- □ X Многоклассовая классификация ^ ►
Исходное количество базовых
классификаторов
Выбор О Ovo
декомпозиционного _ метода г
Количество разбиений L для K-fold
Доля тестовой выборки, %
Выполнить
Диапазон изменения глубины деревьев Диапазон изменения числа деревьев
50
1 Диапазон изменения I глубины деревьев — 1 Диапазон изменения I числа деревьев
200
Err_test ВА, % SVM (Ovo/Ovr) 0 F1, % AUC
RF
Ada Boost
XGBoost
blending
stacking
DGM-1
DGM-2
IGM-1
IGM-2
Рисунок 4.7 - Вкладка «Многоклассовая классификация»
4.2 Описание наборов данных для экспериментальных исследований
Программная реализация методов и алгоритмов интеллектуального анализа данных выполнялась с помощью высокоуровневого языка программирования Python (среда программирования Python 3.7).
При этом была использована библиотека машинного обучения scikit-learn версии 0.22.1 и библиотека алгоритмов для работы с несбалансированными данными imbalanced-learn версии 0.4.3.
Разработка пользовательского интерфейса Программы производилась c применением библиотеки PyQT совместно с кроссплатформенной средой для разработки графических интерфейсов (GUI) Qt Designer.
Экспериментальные вычисления проводились на ПЭВМ, работающей под управлением 64-разрядной версии Windows 10, с оперативной памятью 8 Гб и че-тырехядерным процессором Intel(R) Core(TM) i5-8350U CPU c базовой тактовой частотой 1,70 ГГц.
В диссертационной работе для получения результатов бинарной классификации использовались наборы данных, заимствованные из проекта Statlog и репози-тория задач машинного обучения UCI Machine Learning Repository, представляющие собой открытые базы данных для тестирования алгоритмов машинного обучения (таблица 4.1).
В таблице 4.1 приведены значения показателя несбалансированности классов Ratio.
s
Ratio = 1 , (4.1)
Smax
где Smin - число объектов миноритарного класса; Smax - число объектов мажоритарного класса.
Для исследования методов многоклассовой классификации использовалось три набора данных из репозитория UCI и один набор данных соревнования по машинном обучению с платформы Kaggle (таблица 4.2).
Название набора Количество записей, s Количество характеристик, n Соотношение количества объектов разных классов Показатель несбалансированности, Ratio Направление области анализа данных / Задача классификации
Hepatitis 155 19 123:32 0.7 Медицина/Диагностика заболеваний
Australian 690 14 307:383 0.2 Банковское дело/Кредитный скоринг
WDBC 699 10 458:241 0.5 Медицина/ Диагностика заболеваний
Heart 270 13 150:120 0.2 Медицина/ Диагностика заболеваний
LSVT 126 309 42:84 0.5 Медицина/ Диагностика заболеваний
Firms 60 12 30:30 0 (сбалансированный набор данных) Банковское дело/ Кредитный скоринг
МОТП12 400 2 205:195 0.05 Тестовый набор
Mammographic 961 5 516:445 0.14 Медицина/ Диагностика заболеваний
Biodeg 1055 41 699:356 0.49 Молекулярная химия
Spam 4601 57 2788:1813 0.35 Анализ спама
SportsArticles 1000 59 635:365 0.43 Анализ спортивных статей
Таблица 4.2 - Наборы данных для многоклассовой классификации
Название набора Количество записей, s Количество характеристик, n Количество классов Направление области анализа данных / Задача классификации
BreastTissue 106 10 6 Медицина/Диагностика заболеваний
Segmentation 2310 19 7 Анализ изображений/ Классификация изображений
Waveform 5000 21 3 Физика/Классификация волн
Otto 61878 93 9 Электронная коммерция (e-commerce)/Классификация категорий товаров
Перечень источников используемых в диссертации наборов данных приведен в Приложении Б.
Требования к данным. Полагается, что загрузка данных производится в табличном формате, при котором каждая строка относится к объекту классификации, а каждый столбец - к одной из характеристик объекта. Одна колонка таблицы должна содержать значения меток классов. После загрузки проводится предобработка данных: масштабирование данных на основе нормирования и стандартизации [75], заполнение пропусков, унификация значений меток классов.
4.3 Результаты экспериментальных исследований на основе реализации
разработанных методов и алгоритмов
Поиск оптимальных значений параметров SVM-классификатора. Получены экспериментальные результаты, подтверждающие эффективность разработанных алгоритмов поиска оптимальных значений параметров базового классификатора (SVM-PSO-GS, SVM-PSO-DOE-алгоритмов). Результаты апробированы при решении задач бинарной классификации и поиска значений параметров SVM-классификатора в случае линейной неразделимости объектов. В качестве параметров оптимизации были выбраны параметр регуляризации С и коэффициент функции RBF-ядра а (1.21).
В качестве оптимальных принимались значения параметров модели классификатора, которая обеспечивала лучшее значения показателей качества классификации, при условии достижения минимального количества ошибок при обучении и тестировании, а также отсутствия значительного различия в количестве ошибок на выборках Train и Test.
Для сравнения результатов работы алгоритмов изначально создавалась одинаковая начальная популяция роя частиц и проводилось идентичное случайное разбиение исходного набора данных на выборки Train и Test. Тестовая выборка при этом составляла 20% от размера исходного набора данных.
Эксперименты проводились при различном количестве вычислений значений целевой функции в узлах сетки (рисунок 4.8) [48, 49]:
д = (и +1)2, (4.2)
д = 13 • Н, (4.3)
где д - общее число узлов, построенных в процессе поиска по сетке; и - количество интервалов разбиений на каждом у -м диапазоне поиска по сетке , ] (у = 1, п) в GS-алгоритме; Н - количество итераций DOE-алгоритма.
В проведенных экспериментах минимальное время первого нахождения лучшего решения обеспечивалось при и = 5 и Н = 5 (рисунок 4.8) [49].
«00 МО
я
| 400
I
Ё 500 3
;оо ;оо
а)
5 10 30
Количество разбиений диапазонов поиска СБ алгорнтма (и)
б)
Рисунок 4.8 - Определение оптимального количества вычислений по сетке (пример для набора данных МОТП12): а) ОЗ--алгоритма, б) DOE-алгоритма
В процессе исследования проводилось сравнение алгоритма, реализующего поиск значений параметров базового классификатора с использованием PSO-алго-ритма (SVM-PSO-алгоритм), с разработанными в диссертационной работе алгоритмами, предполагающими совместное применение PSO-алгоритма и поиска по сетке (SVM-PSO-GS, SVM-PSO-DOE-алгоритмов).
Проведенный ROC-анализ (рисунок 4.9) позволяет судить, что по сравнению с индивидуальной реализацией PSO-алгоритма его совместное применение с алгоритмами поиска по сетке обеспечивает не существенное повышение качества базового классификатора.
а)
Рисунок 4.9 - ROC-кривые для SVM-классификаторов, построенных с использованием базового PSO-алгоритма и алгоритмов на основе совместного применения PSO-алгоритма и поиска по сетке: а) для выборки Heart, б) для выборки Australian, в) для выборки МОТП12
Однако результаты экспериментальных расчетов с оценкой различных метрик качества классификации из таблицы 4.3 свидетельствуют о том, что модели классификаторов, построенные на основе разработанных SVM-PSO-GS- и SVM-PSO-DOE-алгоритмов, позволяют получить лучшее качество классификационных решений по сравнению с SVM-PSO-алгоритмом [48, 49].
Кроме того, совместное применение PSO-алгоритма с алгоритмами поиска по сетке в среднем в 3 раза сокращает время поиска оптимальных значений параметров базового классификатора по сравнению с процессом оптимизации на основе PSO-алгоритма.
Экспериментальные исследования показывают, что в большинстве случаев SVM-PSO-DOE-алгоритм обеспечивает первое обнаружение субоптимального решения за меньшее количество итераций, а значит, при реализации данного алгоритма достигается лучшая скорость сходимости к оптимальному решению [48].
в)
Набор данных Алгоритм Найденные параметры Число ошибок 0х о4 О ^ Se, % 0х £ £ Номер итерации первого нахождения оптимума Время первого нахождения оптимума, сек.
С г .к ¿5 £
Heart SVM-PSO 9,08 0,04 10 8 93,33 90,83 95,33 0,92 18 61
SVM-PSO-GS 9,79 0,05 5 7 95,56 93,33 97,33 0,95 9 37
SVM-PSO-DOE 9.97 0,05 5 7 95,56 93,33 97,33 0,95 6 18
Australian SVM-PSO 9,51 0,11 18 18 94,85 94,26 95,44 0,95 18 335
SVM-PSO-GS 9,42 0,13 11 18 95,83 95,56 96,09 0,96 5 117
SVM-PSO-DOE 9,99 0,13 10 18 95,96 95,82 96,09 0,96 5 113
МОТП12 SVM-PSO 9,99 9,38 12 4 96,00 95,90 96,10 0,96 13 22
SVM-PSO-GS 9,92 9,49 12 4 96,00 95,90 96,10 0,96 4 8
SVM-PSO-DOE 10,00 9,47 12 4 96,00 95,90 96,10 0,96 3 7
В дополнение эффективность совместного применения PSO-алгоритма и алгоритмов поиска по сетке экспериментально подтверждена на основе решения задачи оптимизации ряда известных тестовых функций (рисунок 4.10) [48].
Количество запусков каждого оптимизационного алгоритма полагалось равным 100. При этом поиск глобального оптимума в течение одного запуска алгоритма продолжался до момента достижения максимального числа итераций (количества поколений Т = 1000) либо нахождения оптимального решения с заданной точностью £ = 0.001.
Рисунок 4.10 - Графики тестовых функций: а) функция Растригина, б) функция Розенброка, в) функция Сферы
Инициализация роя частиц выполнялась с применяем следующих значений параметров: п = 2, т = 600, фр = 2, ф = 5, К = 0.3. При этом для каждого алгоритма использовались идентичные начальные популяции роя частиц на основе формирования одинаковых случайно сгенерированных начальных приближений к оптимальному решению.
В качестве оптимальных были определены следующие значения параметров алгоритмов поиска по сетке: и = 10 и к = 50 [48].
Оценка эффективности оптимизационных алгоритмов осуществлялась по нескольким критериям, включая долю успешных запусков алгоритма Яшсс, среднее
время сходимости Тсоет и среднюю скорость сходимости Яасопу к оптимальному решению [48].
В таблице 4.4 приведены результаты экспериментальных расчетов, лучшие из которых выделены жирным шрифтом.
Таблица 4.4 - Результаты экспериментальных расчетов
Функция Диапазоны поиска Алгоритм Т , сопу ' сек. Касопу и 5исс 5 %
Растригина п / (х) = £ [10 + х2 -10 со8(2юс,. )] 1=1 [-5.12, 5.12] PSO 54.99 330 99
PSO-GS 39.41 316 94
Р80-00Е 0.66 1 100
Розенброка п—1 /2(х) = £[100(х+! -х2)2 + (1 -х)2] г=1 [-30, 30] PSO 53.64 366 79
PSO-GS 46.48 342 85
Р80-Б0Е 40.75 74 100
Сферы п /з( х) = £ х2 i=1 [-100, 100] PSO 63.61 341 94
PSO-GS 39.55 295 94
Р80-Б0Е 0.76 1 100
Поиск значений параметров алгоритма сэмплинга. В диссертационной работе повышение качества БУМ-классификации при использовании исходных несбалансированных наборов данных производилось при решении задач бинарной классификации.
Для разработки SVM-bSMOTE-алгоритма применялись следующие значения параметров: число итераций - 3; диапазоны поиска значений параметров - [1, 30] для параметра к и [1, 30] для параметра т; количество пар параметров (к, т.) - 4;
изначальное число классификаторов для каждой пары (к, т ■) - 5.
Размер тестовых выборок составлял 20% от размера каждого исходного набора данных.
Результаты экспериментальных исследований представлены в таблице 4.5. Для каждого набора данных в первой строке приведены результаты БУМ-классификации без применения сэмплинга, во второй строке - с применением сэм-плинга на основе БУМ-ЬБМОТЕ-алгоритма [29].
Таблица 4.5 - Результаты экспериментальных расчетов
з
л ч а о
IS х
е
й w о « 9 ^
о tí
К
а «
о
w
<D o
В a
o
Ю
^ «
ю «
o o
a (D « o
s H o
S3 <D
Рч
Err*
Err te
Acc, %
Se, %
Sp, %
Fi
& 2 2 И
t §
o es
n t¡ .,
ft « °
^ S rt
o
a «
S
<D
a m
U
a o
л
Heart
0.2
216/54
93,70
92,50
94,67
0,93
SVM-bSMOTE
240/60
95,62
96,58
94,67
0,96
102,49
Hepatitis
0.7
124/31
11
92,90
97,56
75,00
0,96
SVM-bSMOTE
196/50
99,10
100,00
98,00
0,99
93.42
WDBC
0.5
559/140
99,28
99,13
99,59
0,99
SVM-bSMOTE
732/184
99,55
100,00
99,13
265.60
9
8
6
7
0
0
2
0
5
1
3
1
Экспериментальные результаты позволяют сделать вывод, что разработанный SVM-bSMOTE-алгоритм обеспечивает высокое качество классификации при использовании несбалансированных наборов данных. Лучшая эффективность применения разработанного алгоритма достигается при наличии существенного дисбаланса классов в наборе данных, в частности, при значениях показателя несбалансированности Ratio > 0.5 (в таблице 4.5 результаты для наборов данных Hepatitis и WDBC) [29].
При этом поиск оптимальных (с точки зрения достижения высокого качества SVM-классификации) значений параметров алгоритма сэмплинга сопровождается несущественными временными затратами.
Результаты работы Программы при реализации SVM-bSMOTE-алгоритма приведены на рисунке 4.11 для набора данных «Heart».
■J Главное окно - □ X
Исходный набор данных Повышение качества SVM Поиск параметров SVM Балансировка данных Классификация н * ■ ► :
Параметры алгоритма
W
Количество прогонов
Количество пар 4
парметров ЬБМОТЕ-алгоритма
Начальное г^
количество
классификаторов
Класс +1 Ошибки при обучении 2 Класс-1 4 Всего 6
Ошибки при тестировании 6 1 7
Всего 8 5 13
Доля тестовой выборки,% 20
Общая точность, Асс Показатель чувствительности, Se
195.62 Показатель специфичности, Sp
194.67
0 * Диапазон поиска 3Q * параметров bSMOTE
196.58 Показатель сбалансированной F-меры 10.96 Оптимальные значения параметров bSMOTE
Выполнить
23 28
Объем исходных данных: Класс °-Г 150
Класс ° + 1" 120
Всего объектов 270 Показатель
несбалансированности 0,20
Число ближайших соседей, использованных для создания синтетических образцов
Число ближайших соседей, использующееся для определения находится ли объект миноритарного класса на границе классов
Время нахождения оптимального решения 102.48811364
Полное время работы программы (с момента запуска) 102.4881136''
Рисунок 4.11
- Результаты реализации SVM-bSMOTE-алгоритма для набора данных «Heart»
Реализация двухэтапной классификации. В настоящей работе проведены экспериментальные исследования реализации разработанного алгоритма двухэтапной классификации на основе поиска аномалий (1-8УМ-КР-алгоритма) при решении задач бинарной классификации наборов данных с несбалансированными классами.
В таблице 4.6 представлены результаты исследований классификации несбалансированных наборов данных с использованием простой реализации алгоритмов (базового SVM-, 1-БУМ-, КБ-алгоритмов), реализации двухэтапной классификации на основе 1-БУМ- и ЯР-алгоритмов (1-8УМ-КБ).
В таблице 4.6 результаты классификации представлены на основе полученных значений показателя сбалансированной точности ВА для тестовых выборок исходных наборов данных.
При этом приведены лучшие значения показателя сбалансированной точности ВА для Ытт = 100 прогонов алгоритмов. На каждом прогоне алгоритмов использовалось различное случайной разбиение исходного набора данных на обуча-
Таблица 4.6 - Результаты реализации 1-8УМ-ЯБ-алгоритма
Набор v SVM, 1-SVM, RF 1-SVM-RF
данных (BA, %) (BA, %) (BA, %) (BA, %)
0,1 84,67 69,25 85,84 85,99
SportsArticles 0,25 82,55 65,91 84,02 86,23
0,5 84,11 63,85 85,11 86,68
0,1 92,60 53,89 95,80 95,88
Spam 0,25 91,18 54,77 94,59 94,95
0,5 90,28 54,29 95,50 95,97
0,1 88,08 57,38 91,73 92,07
Biodeg 0,25 86,20 55,04 87,62 87,63
0,5 88,08 57,73 89,18 90,15
0,1 98,89 96,11 99,00 100,00
WDBC 0,25 98,90 89,01 98,90 99,45
0,5 98,90 74,73 98,90 99,45
ющую и тестовую выборки. Размер тестовой выборки составлял 20% от размера исходного набора данных.
При этом на каждом пг11ш -м прогоне (пшт = 1, Nшm) 1-8УМ-КБ-алгоритма
проводилась разработка одного нового ЯР--классификатора.
Эксперименты проводились для различных значений параметра V 1-БУМ-ал-горитма, характеризующего максимальную долю объектов в обучающей выборке, которая может быть признана аномалиями. Для SVM- и ЯГ-алгоритмов использовались параметры, заданные по умолчанию в библиотеке БшМЫеагп.
Экспериментальные исследования доказывают, что совместное применение 1-БУМ-классификатора со вспомогательным ЯР--классификатором обеспечивает повышение точности БУМ-классификации при использовании несбалансированных наборов данных. В некоторых случаях свойства задачи таковы, что на основе применения 1-8УМ-КБ-алгоритма не достигается значительного улучшения качества классификации наборов данных с несбалансированными классами. В этих случаях, точность классификации эквивалента (в пределах 1 - 2%) результатам классификации с применением простой реализации SVM-классификатора или Я^-клас-сификатора.
Обычный классификатор способен различать два (или более) класса объектов, не уделяя особого внимания какому-либо конкретному классу. При этом классификатор сводит к минимуму вероятность ошибки классификации. Обычный классификатор будет работать менее эффективно при недостаточном количестве представителей миноритарного класса, в данном случае аномалий. Когда имеется как репрезентативная выборка из целевого класса, так и большое количество аномалий, и предполагается, что распределения этих объектов совпадают, обычный классификатор будет работать лучше, чем одноклассовый. Таким образом, на выбор между одноклассовым и обычным классификатором влияет как количество объектов-аномалий (представителей класса меньшинства), так и распределение этих объектов.
Обобщение результатов проведенных исследований. В настоящей работе во всех проведенных экспериментах в качестве базового БУМ-алгоритма использовалась программная реализация алгоритма опорных векторов из широко используемой библиотеки машинного обучения БшМЫеагп (sMearn.svm.SVCO).
В таблице 4.7 приведен свод результатов исследований разработанных алгоритмов при использовании наборов данных бинарной классификации.
Таблица 4.7 - Результаты исследования наборов данных бинарной классификации
Набор данных Показатель SVM SVM-GS CV SVM-PSO SVM-PSO-GS SVM-PSO-DOE SVM-bSMOTE
Heart BA, % 93,75 86,08 94,25 95,33 95,33 94,93
BAtest, % 65,91 73,98 87,08 87,08 87,08 83,12
Australian BA, % 94,19 86,95 94,22 95,96 95,96 94,84
BAtest, % 75,51 84,69 87,12 87,12 87,12 82,31
МОТП12 BA, % 90,33 93,00 96,00 96,00 96,00 95,61
BAtest, % 86,15 82,49 95,24 95,24 95,24 86,57
LSVT BA, % 92,00 85,11 92,86 92,86 92,86 95,14
BA test, % 50,00 83,33 50,00 50,00 50,00 50,00
Firms BA, % 93,33 96,67 96,67 96,67 96,67 -
BA test, % 75,71 83,33 83,33 83,33 83,33
Hepatitis BA, % 92,18 81,59 96,06 96,06 96,06 97,82
BA test, % 50,00 60,65 83,15 83,15 83,15 78,79
WDBC BA, % 98,91 96,71 98,64 98,95 99,16 99,33
BA test, % 94,62 95,78 95,24 95,79 95,79 97,89
Mammographic BA, % 84,70 84,70 87,83 88,23 88,23 88,31
BA test, % 78,98 78,98 75,61 82,44 82,44 81,05
Biodeg BA, % 86,87 92,30 94,70 95,00 95,00 96,75
BA test, % 82,31 81,21 85,77 86,00 86,00 84,04
В таблице 4.7 в качестве результатов представлены значения (в процентах) показателя сбалансированной точности классификации (исходных наборов данных - BA; тестовых выборок исходных наборов данных - BAJest)^. 1) для базового SVM-алгоритма со значениями параметров, заданными по умолчанию - при значении параметра регуляризации С = 1 и значении параметра радиальной базисной функции ядра а = 1 (БУМ); 2) БУМ-алгоритма со значениями параметров, найденными с
помощью классического подхода поиска по сетке с применением перекрестной проверки (SVM-GS_CV); 3) SVM-алгоритма со значениями параметров, найденными в качестве оптимальных с помощью PSO-алгоритма (SVM-PSO); 4) SVM-алгоритма со значениями параметров, найденными c помощью совместного применения PSO-алгоритма и алгоритмов поиска по сетке (SVM-PSO-GS, SVM-PSO-DOE); 5) алгоритма классификации, включающего использование SVM-классификатора и поиск значений параметров алгоритма сэмплинга (SVM-bSMOTE).
Следует отметить, что при реализации SVM-bSMOTE-алгоритма для набора данных Firms результаты экспериментальных исследований не показали явных улучшений значения показателя сбалансированной точности, поскольку исходный набор данных является сбалансированным (таблица 4.1).
Результаты экспериментальных исследований, приведенные в таблице 4.7, демонстрируют, что разработанные алгоритмы (SVM-PSO-GS, SVM-PSO-DOE, SVM-bSMOTE) обеспечивают лучшие значения показателя сбалансированной точности классификации по сравнению с базовыми SVM- и SVM-GS_CV - алгоритмами. Разработанные SVM-PSO-GS, SVM-PSO-DOE-алгоритмы могут обеспечивать более высокие значения показателя сбалансированной точности по сравнению с SVM-PSO-алгоритмом, при этом сокращаются временные затраты на поиск оптимальных значений параметров SVM-классификатора (рисунок 4.12).
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.