Формализация процессов обработки и интеллектуального анализа информации от разнородных источников в системах распределенного мониторинга тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат наук Бекенева Яна Андреевна

  • Бекенева Яна Андреевна
  • кандидат науккандидат наук
  • 2019, ФГАОУ ВО «Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина)»
  • Специальность ВАК РФ05.13.01
  • Количество страниц 154
Бекенева Яна Андреевна. Формализация процессов обработки и интеллектуального анализа информации от разнородных источников в системах распределенного мониторинга: дис. кандидат наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). ФГАОУ ВО «Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина)». 2019. 154 с.

Оглавление диссертации кандидат наук Бекенева Яна Андреевна

Введение

ГЛАВА 1. ОБЗОР СРЕДСТВ ОБРАБОТКИ И АНАЛИЗА ДАННЫХ В СИСТЕМАХ МОНИТОРИНГА

1.1 Постановка задачи

1.2 Формальное описание событий и их последовательностей на основе информации от систем мониторинга

1.3 Преобразование данных от разнородных источников

1.3.1. Алгоритмы корреляции событий

1.3.2. Задача устранения неопределенностей в данных

1.4 Выявление аномалий в процессах

1.5 Подходы к прогнозированию аномалий в процессах

1.6 Обзор алгоритмов классификации

1.7 Методики для выявления и прогнозирования отклонений

1.8 Выводы

2 ГЛАВА 2 ФОРМАЛИЗАЦИЯ ОБРАБОТКИ РАЗНОРОДНЫХ ДАННЫХ В СИСТЕМАХ РАСПРЕДЕЛЕННОГО МОНИТОРИНГА

2.1 Формальная модель последовательностей событий в системах распределенного мониторинга

2.1.1. Представление процесса в системах распределенного мониторинга

2.1.2. Задача выявления отклонений в событиях

2.1.3. Выявление типовых шаблонов для предсказания аномалий

2.2 Метод формирования последовательностей событий на основе данных от разнородных источников

2.2.1. Общие преобразования данных

2.2.2. Объединение записей, описывающих одно и то же событие

2.2.1.1 Неопределенность, связанная с идентификацией объекта наблюдения при одном событии

2.2.1.2 Неопределенность, связанная с идентификацией объекта наблюдения при нескольких одновременных событиях

2.3 Выводы

3 ГЛАВА 3 МЕТОДИКА АНАЛИЗА ПОСЛЕДОВТЕЛЬНОСТИ СОБЫТИЙ

3.1 Методика решения задач интеллектуального анализа событий

3.2 Анализ отдельно взятых событий

3.2.1 Группировка записей по составу атрибутов

3.2.2 Выбор модели классификации для каждой группы

3.2.3 Обучение моделей классификации

3.2.4 Применение обученных моделей к новым данным

3.3 Анализ последовательностей событий

3.3.1 Задача поиска частых наборов элементов

3.3.1.1 Разделение последовательности событий на транзакции

3.3.1.2 Идентификация транзакции

3.3.1.3 Идентификация элемента в транзакции

3.3.1.4 Определение порядка элементов в транзакции

3.3.1.5 Применение алгоритмов частых наборов

3.3.1.6 Выявление отклонений в ходе исполняемого процесса

3.4 Выявление отклонений в последовательности событий методами интеллектуального анализа процессов

3.4.1 Подготовка данных для применения методов интеллектуального анализа процессов

3.4.2 Применение методов интеллектуального анализа процессов

3.5 Выводы

4 ГЛАВА 4 ЭКСПЕРИМЕНТАЛЬНАЯ ПРОВЕРКА ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ

4.1 Анализ перемещений грузовых транспортных средств на распределенной территории предприятия

4.1.1 Общие преобразования данных

4.1.2 Интеграция записей об одном событии

4.1.3 Выявление отклонений среди отдельно взятых событий

4.1.3.1 Группировка данных по составу атрибутов

4.1.3.2 Классификация событий

4.1.4 Построение ассоциативных правил для последовательностей событий121

4.1.5 Построение модели бизнес процесса

4.2 Анализ перемещений сотрудников на территории офисного здания

4.2.1 Общие преобразования данных

4.2.2 Интеграция данных об одном событии

4.2.3 Выявление отклонений с помощью кластеризации событий

4.2.4 Построение ассоциативных правил для последовательностей событий128

4.2.5 Построение модели бизнес процесса

4.3 Анализ движения трафика в компьютерной сети организации

4.3.1 Общие преобразования данных

4.3.2 Интеграция данных об одном событии

4.3.3 Классификация событий

4.3.4 Построение ассоциативных правил

4.3.5 Построение моделей бизнес процессов

4.4 Выводы по главе

Заключение

Список сокращений и условных обозначений

Список литературы и электронных ресурсов

Приложение А

Приложение Б

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Формализация процессов обработки и интеллектуального анализа информации от разнородных источников в системах распределенного мониторинга»

Введение

Актуальность темы. Современные системы мониторинга распределенных объектов имеют сложную иерархическую структуру и часто состоят из большого количества разнородных устройств. Разные типы устройств предназначены для определения разных параметров, связанных с выполнением различных процессов. Каждый процесс может быть представлен в виде последовательности событий. В рамках данной работы под событием понимается некоторое действие, совершенное объектом наблюдения в определенном месте в определенное время. Под объектом наблюдения понимается сущность, непосредственно участвующая в реализации процесса (человек, транспортное средство). В таких системах мониторинга регистрация некоторого события осуществляется несколькими устройствами: видеокамерами, датчиками движения, системами контроля доступа, межсетевыми экранами, измерительными системами и т.п. При этом возникают проблемы, связанные как с объединением информации из разных, слабосвязанных между собой систем, где одно событие может быть зарегистрировано разными устройствами в разные моменты времени. В некоторых случаях отсутствует единая идентификация контролируемых объектов. Также возникают сложности с прагматическим анализом данных, который должен проводиться на большом объеме информации, поступающей из разных источников, и выдавать результат за минимальное время. Таким образом, требуется разработка новых методов и моделей, обеспечивающих агрегирование разнородных данных с целью дальнейшего анализа.

Для анализа информации требуется не только её сбор в едином хранилище, но и её корреляция, а также представление в виде, приемлемом для ее анализа известными методами. Поступающие от разнородных источников данные имеют не только разный формат, но и зачастую требуют предварительной подготовки для проведения их анализа. В связи с этим можно выделить ряд задач, которые в настоящее время требуют решения:

1. Объединение разнородной информации, описывающей одно событие.

2. Устранение повторяющейся информации.

3. Устранение неопределенностей, связанных с идентификацией движущихся объектов и отсутствием временной синхронизации при генерации данных разнородными источниками.

В связи с этим, актуальными являются задач интеграции разнородных данных для описания исследуемых событий, процессов и их анализа средствами интеллектуального анализа с целью построения профилей типового поведения движущихся объектов, а также выявления отклонений в ходе текущих процессов.

Целью работы является разработка средств обработки информации, поступающей от разнородных источников распределенной системы мониторинга для формирования единой последовательности событий и ее интеллектуального анализа. Для достижения заявленной цели в работе решаются следующие задачи:

• анализ существующих средств обработки разнородной информации;

• разработка формальной модели последовательностей событий в системах распределенного мониторинга;

• разработка метода формирования последовательностей событий на основе информации от разнородных источников системы распределенного мониторинга;

• разработка методики решения зада интеллектуального анализа на основании информации от распределенных источников для поддержки принятия решений;

• программная реализация разработанного метода формирования последовательностей событий;

• экспериментальное исследование разработанных средств обработки информации.

Объектом исследования является система распределенного мониторинга.

Предметом исследования является обработка информации из разнородных источников систем распределенного мониторинга.

Методы исследований. Для достижения поставленных задач использовались методы системного анализа, сравнения и аналогий, классификации, кластеризации, секвенциального анализа. При программной

реализации разработанного метода применялись методы объектно-ориентированного программирования.

Основные положения, выносимые на защиту:

1. Формальная модель последовательностей событий в системах распределенного мониторинга.

2. Метод формирования последовательностей событий на основе информации от разнородных источников.

3. Методика решения задач интеллектуального анализа на основании информации от разнородных источников распределенной системы мониторинга.

Научная новизна:

1. Предложена формальная модель последовательностей событий в системах распределенного мониторинга, в отличие от существующих, учитывающая неопределенности в информации, поступающей от разнородных источников.

2. Разработан метод формирования последовательностей событий на основе информации от разнородных источников, обеспечивающий устранение неопределенностей, связанных с идентификацией объектов и отсутствием единого времени регистрации события.

Практическая ценность работы:

1. Предложена методика решения задач интеллектуального анализа на основании информации от разнородных источников распределенной системы мониторинга с целью поддержки принятия решений.

2. Программная реализация метода формирования последовательносте событий на основе информации от разнородных источников, позволяющая автоматизировать обработку информации о событии.

Реализация и внедрение результатов работы. Результаты исследования были использованы в работах, выполняемых в АО «НИЦ СПб ЭТУ», а также использованы при проведении практических занятий по дисциплине «Технология анализа и извлечения знаний» для студентов направления «Информатика и вычислительная техника» и чтении лекций и проведении практических занятий по дисциплине «Интеллектуальный анализ данных» для бакалавров направления

«Информационные системы и технологии», что подтверждено актами о внедрении.

Апробация работы. Основные положения и результаты диссертационной работы докладывались и обсуждались на международной конференции по передовым проводным и беспроводным сетям и системам нового поколения NEW2AN, 2016 г., международных конференциях по мягким вычислениям и измерениям SCM'2017, SCM'2018, Санкт-Петербург, 2017-2018 гг, международных конференциях по управлению качеством, транспортной и информационной безопасности и информационным технологиям IT&QM&IS 2017, 2018 гг, международной конференции по управлению в технических системах CTS 2017, международной конференции по человеческому фактору в сложных технических системах ERGO 2018, международной конференции по виброинженерии (JVE) 2017, конференциях профессорско-преподавательского состава СПбГЭТУ «ЛЭТИ», Санкт-Петербург, 2014-2019 гг, международном научном симпозиуме "INTELS-2018", Санкт-Петербург, 2018 г, международной конференции молодых ученых ElConRus 2015, 2018, 2019 гг, международной конференции по интернету вещей, умных пространств ruSMART 2019.

Обоснованность и достоверность представленных в диссертационной работе научных положений обеспечивается проведением анализа состояния исследований в данной области, подтверждается согласованностью теоретических результатов с практическими, полученными при компьютерной реализации, а также апробацией основных теоретических положений в печатных трудах и докладах на научных конференциях. Достоверность результатов диссертационной работы подтверждается корректностью применяемого математического аппарата, строгими доказательствами предложенных утверждений, результатами эксперимента.

Публикации. Основные теоретические и практические результаты диссертации опубликованы в 34 научных работах, среди которых: 10 статей - в изданиях, рекомендованных в действующем перечне ВАК, 21 работ - в материалах и трудах международных и всероссийских научно-технических

конференций и 3 свидетельства о государственной регистрации программ для ЭВМ.

Личный вклад соискателя состоит в непосредственном участии в получении исходных данных и научных экспериментах, разработке формальной модели и метода формирования последовательности событий, методики решения задач интеллектуального анализа, подготовке ключевой части публикаций по выполненной работе и представлению результатов работы на конференциях различного уровня, в том числе международных.

Структура и объем диссертации. Диссертационная работа состоит из введения, четырех глав, заключения, одного приложения, списка литературы (105 наименований). Общий объем работы составляет 154 страницы машинописного текста, который включает 28 рисунков, 12 таблиц, 2 приложения.

Соответствие паспорту специальности. Данное диссертационное исследование выполнено в соответствии с паспортом специальности 05.13.01 «Системный анализ, управление и обработка информации (технические системы)», а именно соответствует следующим областям (номера соответствуют пунктам в паспорте специальности): п. 2 - Формализация и постановка задач системного анализа, оптимизации, управления, принятия решений и обработки информации; п. 12 - Визуализация, трансформация и анализ информации на основе компьютерных методов обработки информации; п. 13 - Методы получения, анализа и обработки экспертной информации.

ГЛАВА 1. ОБЗОР СРЕДСТВ ОБРАБОТКИ И АНАЛИЗА ДАННЫХ

В СИСТЕМАХ МОНИТОРИНГА

Выявление отклонений в различных процессах требует тщательного анализа различного рода событий [1]. Решая задачу выявления отклонений в процессах, необходимо описать эталонный процесс как типовую последовательность событий [2]. В зависимости от поставленной задачи в качестве отклонений могут относиться разного рода действия, противоречащие политикам безопасности, принятым на определенном предприятии. Например, к отклонениям можно отнести события, связанные с нарушением рабочего режима на предприятии, нарушением техники безопасности, аномальными перемещениями сотрудников, несанкционированным использованием оборудования, нарушением регламента использования транспортных средств, сетевой активности сотрудников и т.д. В настоящее время существует большое количество исследований, посвященных выявлению различного рода отклонений в разных сферах человеческой деятельности. В зависимости от решаемой задачи, формата данных и источников данных авторы предлагают различные методы выявления отклонений. В данном обзоре будут рассмотрены работы, наиболее близкие к изучаемой тематике.

1.1 Постановка задачи

Современные предприятия и организации имеют сложную информационную инфраструктуру, которая, как правило, включает в себя большое количество разнородных источников данных, в том числе, связанных с мониторингом процессов. Основной задачей мониторинга является выявление отклонений в ходе различных процессов. В качестве примеров таких задач можно привести выявление отклонений в производственных процессах, нарушение регламента в технологических процессах, выявление несанкционированных вторжений в сетевую инфраструктуру и др.

Можно выделить несколько задач интеллектуального анализа, которые могут использоваться при выявлении отклонений в процессах:

1. Оценка отдельно взятых событий как элементов последовательности событий. Для решения этой задачи могут использоваться алгоритмы классификации и кластеризации.

2. Построение типовых последовательностей события для выявления отклонений в ходе процесса. Для решения этой задачи могут использоваться алгоритмы поиска ассоциативных правил.

3. Построение бизнес-процессов для оценки хода процесса и выявления отклонений в нем. Для решения этой задачи могут использоваться алгоритмы интеллектуального анализа процессов.

Как правило, для мониторинга процессов используются различные системы распределенного мониторинга, включающие в себя системы контроля доступа, средства фото- и видеофиксации и т.п. Преимущественно такие системы распределенного мониторинга используются для получения данных о таких процессах как попадание движущегося объекта на закрытую территорию (вход, въезд), перемещение из одной зоны в другую, а также покидание закрытой территории (выход, выезд). Устройства контроля разных типов имеют разные базы для записи и хранения данных.

Все данные, получаемые от систем мониторинга, направляются на центральный узел сбора данных (рис. 1.1). Такие данные поступают в разном формате, который зависит от устройства контроля, генерирующего информацию. Как правило, на центральном узле осуществляются некоторые первичные преобразования данных с целью их приведения к виду, удобному для представления и хранения, однако их формат по-прежнему остается разным и зависящим от типа источника.

Оценка событий в непрерывном потоке большого количества данных представляет собой сложную аналитическую задачу, невыполнимую для человека-оператора. Визуально отследить поток поступающих данных от разных источников и произвести их оценку на предмет наличия нарушений невозможно,

особенно в тех случаях, когда требуется сравнение показаний от нескольких источников или обращение к нужной документации. Таким образом, даже при наличии человека-оператора необходима вспомогательная система, способная осуществлять все необходимые операции по подготовке данных, их анализу и выделению подозрительных событий, которые могут указывать на отклонение в ходе процесса. В таком случае оператор сможет обратить внимание на выделенные события и осуществить их дополнительный анализ.

- ооьект наопюдения

- устройство мониторинга типа 1

Д - устройство мониторинга типа 2

- устройство мониторинга

типа 3

Рисунок 1.1 - Общая структура регистрации данных на производственных объектах

При решении задачи прогнозирования дальнейшего хода процесса такая система так же должна выделять группы подозрительных событий, которые могут в дальнейшем привести к неблагоприятному исходу выполняемого процесса. В таком случае оператор сможет предпринять какие-либо действия до того, как произойдет серьезное нарушение.

Таким образом, для решения задачи анализа данных от систем мониторинга необходимо решить следующие подзадачи:

1. Привести данные, поступающие от разных источников информации, к единому формату, пригодному для дальнейшего анализа. Следует учесть, что в качестве источников данных, помимо систем мониторинга, работающих в режиме реального времени, могут быть использованы различные учетные системы.

2. По совокупным данным описать нормальное поведение исследуемых субъектов. Полученные профили типового поведения будут использованы для обучения классификационных моделей.

3. Определить типовые последовательности событий для прогнозирования отклонений.

1.2 Формальное описание событий и их последовательностей на основе информации от систем мониторинга

Исследования, посвященные проблемам сбора данных, выявления в них нарушений или прогнозирований определенного рода событий в некоторых случаях содержат формальное описание исследуемой задачи.

В работе [3] формально описывается множество объектов, каждый из которых характеризуется определенным набором атрибутов. В данном исследовании авторы выделяют искаженные объекты, т.е. объекты, содержащие шум и характеризующиеся соответствующими искаженными атрибутами. Авторы выделяют категориальные атрибуты и предлагают формулу для оценки расстояния между значениями каждого из таких атрибутов для оценки выбросов в данных. В данном исследовании отсутствует понятие события и возможных взаимосвязей между исследуемыми объектами, т.е. такая модель является неприменимой к решаемой в данной работе задаче.

В работе [4] в общем виде описаны оценки меры близости данных, а также рассмотрены методы их последующей классификации.

В работе [5] территория объекта, на котором осуществляется наблюдение, представлена в виде графа, где его вершины - контрольно-пропускные пункты различных зон. В роли движущихся объектов выступают грузовые транспортные

средства. Автор предлагает выделить критерии нарушения первого и второго рода на основе подсчета времени, за которое транспортное средство преодолевает известное расстояние от одной вершины графа до другой. В качестве нарушений выделяются перемещения, для которых превышена допустимая задержка в пути. Предложенная модель учитывает наличие только одного типа движущихся субъектов, т.е. не предполагает наличия иных субъектов и возможных взаимосвязей между разными типами субъектов. Кроме того, в качестве нарушений выделяются только временные задержки и не учитываются возможные нарушения других типов [6].

1.3 Преобразование данных от разнородных источников

Современные предприятия и организации имеют сложную информационную инфраструктуру, которая, как правило, включает в себя большое количество разнородных источников данных, в том числе, связанных с мониторингом процессов. Разнообразные устройства контроля и контроля зачастую фиксируют определенный набор параметров при возникновении того или иного события. При этом несколько устройств контроля могут одновременно зафиксировать одно и то же событие, каждый со своим набором параметров. Как правило, получаемые от различных датчиков «сырые» данные оказываются непригодными для анализа существующими методами и нуждаются в ряде предварительных преобразований.

При подготовке данных для применения к ним средств интеллектуального анализа данных необходимо решить следующие задачи:

1. Объединить информацию от разнородных источников.

2. Интегрировать информацию, относящуюся к одному событию.

3. Устранить повторяющуюся информацию от разнородных источников.

4. Устранить неопределенности, связанные с различиями в идентификации объектов для разных устройств контроля.

5. Устранить неопределенности, связанные с неодновременностью регистрации события разными устройствами контроля.

Рассмотрим известные методы подготовки данных от разнородных источников.

Задача интеграции данных от различных источников рассматривается в работе [7], где авторы предлагают метод, основанный онтологии и определения семантической близости концептов. Предложенный метод позволяет осуществить группировку семантически близких записей и структурировать базу данных для более удобной обработки информации, однако не позволяет выявить взаимосвязи между записями, относящимися к одному событию.

В работе [8] предлагается способ приведения XML-данных к единому формату на основе теории графов, деревьев решений и XSTL-преобразований. Предложенный метод предлагается использовать для решения достаточно узкого круга задач (анализа данных, поступающих от веб-сервисов). Кроме того, предложенный метод решает лишь задачу приведения данных к единому формату.

Задача интеграции разнородных данных, поступающих от дорожных датчиков и GPS-треков решается в работе [9]. В данной работе учитываются взаимосвязи между записями от различных источников, относящиеся к одному событию. Однако, так как, авторы ставят задачу моделирования транспортных потоков на основе реальных данных, задача приведения данных к формату, удобному для последующего анализа, в рамках данного исследования не рассматривается.

В работе [10] предлагается метод объединения данных от разнородных датчиков, каждый из которых способен фиксировать разнородные параметры. Предлагаемый авторами метод, основанный на Гауссовой графической модели, предлагает сократить размерность данных, однако не предусматривает

корреляцию различных записей и предназначен лишь для сбора информации и удобного ее представления.

Задача группировки данных по атрибутам может решаться в различных сферах разными способами. Например, в исследованиях в области геолокации зачастую решаются задачи, связанные с кластеризацией объектов, в том числе по присущим им атрибутам [11, 12]. В медицине решается задача кластеризации данных, полученных в результате анализов, по набору атрибутов, при этом определенный набор атрибутов и присущих им значений у каждого кластера соответствует определенному набору диагнозов [13].

Обзор современных исследований, связанных с получением данных от источников разного типа, показал, что значительная часть исследований посвящена проблемам хранения таких данных. В некоторых работах решаются задачи использования разнородных данных для последующего моделирования различных процессов, т.е. не ставится задача анализа данных. Кроме того, в упомянутых работах не рассматривается задача возможных неопределенностей в данных.

Задача, связанная с исследованием событий, которые могут описываться одновременно с помощью нескольких записей от разнородных источников, является актуальной, так как существующие методы интеграции и корреляции данных не подходят для её решения.

1.3.1. Алгоритмы корреляции событий

Задача правильной интеграции такого рода записей в одну единственную

запись об отдельно взятом событии является актуальной в сфере сетевой безопасности. Возрастающая сложность сетевых атак повышает требования к средствам защиты компьютерных сетей. В частности, возникает задача установления взаимосвязей между событиями безопасности для анализа потенциальных угроз. В связи с этим всё большее развитие получают методики корреляции событий безопасности [14].

В последние годы для исследования событий, происходящих в сети, активно используются SIEM-системы [15]. Такие системы получают информацию о событиях из различных источников (межсетевые экраны, IPS, антивирусы, операционные системы и т.д.) и сначала осуществляют их фильтрацию и нормализацию (приведение к единому формату). Это позволяет создавать и централизованно хранить единые журналы событий. Далее SIEM-система осуществляет корреляцию события, т.е. осуществляет поиск взаимосвязей и закономерностей, что позволяет с высокой вероятностью определять аномалии, потенциальные угрозы, сбои в работе ИТ-инфраструктуры, попытки несанкционированного доступа, атаки. Кроме того, SIEM-системы позволяют автоматизировать процессы реагирования на инциденты ИБ.

Как правило, данные, анализируемые SIEM-системами, имеют достаточно схожий формат, так как описывают события, связанные с прохождением трафика в сети. При этом источники поступающих данных хоть и являются источниками различных типов, однако предназначены для фиксации событий одних и тех же типов. Поэтому все данные, исследуемые SIEM-системами, имеют достаточно схожий набор атрибутов, а преобразования для приведения их к единому формату не являются сложными.

Тем не менее, методики корреляции событий, лежащие в основе SIEM-систем, могут быть использованы в различных сферах, а потому должны быть рассмотрены подробно.

Корреляция событий предполагает рассмотрение событий не по отдельности, а как единую систему, что позволяет установить цели и свойства сетевых атак [16]. Можно выделить различные схемы классификации существующих методик корреляции событий, незначительно отличающиеся друг от друга [17].

Алгоритмы на основе подобия событий безопасности основаны на вычислении показателя подобия, одно событие безопасности с другим или с

группой событий безопасности. Если уровень подобия больше или равен некоторому заданному пороговому значению, то события необходимо объединить в одно мета-событие. Такие алгоритмы подходят для агрегирования событий во времени, а также для построения обобщающих иерархий событий.

Подобие также может быть определено на основе простых правил, которые позволяют описать взаимосвязи между атрибутами событий, которые могут быть связаны между собой. При появлении контролируемых событий срабатывают определенные правила, которые в свою очередь инициируют другие правила, на основе которых делается заключение о выполнении атаки определенного типа [18, 19].

Также существует способ определения подобия на основе кодовой книги [20] который заключается в локализации возникающих проблем в системе на основе выбора некоторого подходящего подмножества событий-«симптомов», связанных с этими проблемами. Подмножество событий-«симптомов» представляет собой содержание кодовой книги. Для каждой проблемы создается некоторый двоичный вектор, который определяет, является некоторое событие признаком некоторой проблемы или нет, и записывается в кодовую книгу. Для выявления проблем все события, представленные в кодовой книге, отслеживаются в режиме реального времени. При наступлении некоторого события, вектор события сравнивается с множеством векторов из кодовой книги, выбирается вектор, расстояние Хемминга между которым и вектором события является минимальным. Благодаря такому решению, система всегда выдает некоторое предположение о возможной проблеме. Очевидным недостатком данного подхода является невозможность учесть время между наступлением двух различных событий, что является важным параметром при установлении временных связей между событиями.

Также существуют алгоритмы, в которых мера подобия между событиями определяется автоматически с помощью алгоритмов машинного обучения. В

основном для решения этой задачи используются алгоритмы классификации [21] и нейронные сети [22].

Алгоритмы на базе предпосылок и последствий отслеживают значение возникающих событий безопасности, оценивают состояние сети, после чего диагностируют наличие вторжения или какой-либо другой проблемы. Для того чтобы установить взаимосвязи между различными этапами атак, выражаемыми в виде цепочки некоторых событий безопасности, предполагается использование (1) базы данных, описывающих топологию сети, конфигурации ее узлов; (2) базу знаний, которая для каждого события безопасности содержит описание его всех возможных предпосылок и последствий его наступления [23, 24, 25].

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Список литературы диссертационного исследования кандидат наук Бекенева Яна Андреевна, 2019 год

источников в таблицу UDS_SM

at < a[m at a\ atype a7 at a™ a™ aadd

val\ valtype1 valsm1 valsb1 - - - - - - -

- - - - valt1 valtype1 valsm2 valsb1 valsv1 - -

valt2 - - valsb1 - valtype1 - - valsv1 valsm3 valadd

В таблице показан вариант, когда в полученном файле имеется одновременно 2 атрибута, идентифицирующих субъект, инициировавший событие. Формат записи может как отличаться (один из атрибутов может указывать на субъект в виде слова, другой - указывать на идентификатор в виде номера и пр.), а может быть одинаковым для всех трех колонок. В некоторых случаях исходная строка может содержать и 2 атрибута, указывающих на субъект: например, цифровой идентификатор и соответствующая ему фамилия, номер транспортного средства и пр. Таким образом, на данном этапе необходимо сперва найти и объединить атрибуты, описывающие один и тот же смысловой параметр.

В первую очередь, необходимо объединить все повторяющиеся атрибуты, указывающие на один и тот же параметр и имеющий общий формат записи, при этом сами значения должны совпадать.

Например, при получении таблицы подобного вида необходимо выделить все атрибуты, указывающие на субъект, и объединить их в один общий атрибут. Для этого можно как создать совершенно новый атрибут, идентифицирующий субъект, так и выбрать один из уже существующих. В приведенном примере будет создан новый атрибут уа1ыв_8Ъ. Аналогично должны быть проанализированы и преобразованы все атрибуты с общим смыслом.

В задачах, связанных с перемещением грузовых транспортных средств, следует учитывать, что некоторые события могут состоять из записей, в которых зафиксированы действия разных типов субъектов. Например, для одного и того же события могут быть сгенерированы записи, одна из которых содержит регистрационный номер транспортного средства, а другая - идентификатор пропуска водителя. Таким образом, следует учесть, что в решаемой задаче события инциируются одновременно субъектами двух разных типов. Как правило, на предприятиях имеются учетные базы данных, позволяющие соотнести номера пропусков с фамилиями водителей, номера транспортных средств с фамилиями управляющих ими водителей и таким образом сопоставить субъекты разных типов.

При анализе отдельно взятых событий или отдельных типов событий важно понимать, из каких процедур, фиксируемых устройствами контроля, состоит это событие. Необходимо определить последовательность этих процедур и временные задержки между ними. Например, при входе в офисное здание сотрудник организации прикладывает пропуск на входе, а через несколько секунд его лицо попадает в объектив камеры наблюдения. Следовательно, необходимо понимать, что временные атрибуты записей, относящихся к одному событию, могут отличаться на определенное значение, а не быть одинаковыми. Поэтому на данном этапе временные атрибуты следует оставлять неизменными.

В некоторых случаях процесс может включать в себя события, совершаемые разными типами субъектов (например, автобусы и поезда), действия которых фиксируются разными средствами контроля. Параметры записей при этом могут

существенно различаться для разных типов субъектов. В таких случаях количество атрибутов, идентифицирующих субъект, будет равно количеству типов субъектов.

После преобразования записи о данном событии будут выглядеть следующем образом (табл. 2.2):

Таблица 2.2 Формат данных после объединения одинаковых по смыслу атрибутов

а[ Гурв а[т уа\ив а\ ат а™ а\т аайй

valtl valtypel valsml valsbl - - - - -

- valtypel - valsbl valtl valsm2 valsvl - -

valt2 valtypel - valsbl - - valsvl valsmз valadd

Очевидно, что при большом количестве атрибутов с одинаковым смысловым значением таблица такого вида является более наглядной и удобной. Она не перегружена лишними параметрами, а количество пропущенных значений будет существенно меньше, чем в таблице вида 1. Тем не менее, в такой таблице еще имеется некоторое количество пропущенных значений, что по-прежнему создает неудобства при её анализе.

Как было сказано ранее, любое событие имеет три наиболее важных характеристики:

• время совершения события

• место, где событие было совершено

• субъект, который инициировал событие

В тех случаях, когда одно и то же событие может быть зафиксировано разными устройствами контроля, состав этих устройств контроля в каждом отдельно взятом месте известно заранее. Таким образом, каждая точка пространства, где осуществляется наблюдение (зона), может быть охарактеризована кортежем устройств контроля, установленных в ней. Из этого следует, что при объединении записей об одном событии заранее известно, от

каких устройств контроля в какой точке пространства будут получены данные о зафиксированном событии.

В общем случае при анализе и группировке некоторого й количества записей, которые лишь частично описывают одно и то же событие, важно следовать трем основным правилам.

1. Временные атрибуты события должны совпадать или разница между ними Ах не должна превышать допустимую задержку т :

тах(Х ..ХА) - тт(Х ..ХА) = А <т (1)

2. Должны совпадать пространственные атрибуты события:

т с ^т с ^

3. Субъект должен быть одним и тем же:

а1 а1 ,..., а

Однако не всегда можно однозначно соотнести данные от разных источников, в особенности, если одно и то же событие зафиксировано разными устройствами контроля в разные моменты времени или же некоторые атрибуты (в особенности идентификаторы субъектов) были зафиксированы некорректно (например, в результате засветки объектива камеры) или же не предусмотрены для отдельных типов устройств контроля. В таком случае необходимо сопоставлять информацию от дополнительных источников данных, например, учетных систем.

Как уже было сказано выше, сложное событие может описываться записями о зафиксированных действиях разных типов субъектов. Для построения наиболее информативных профилей процессов необходимо наиболее полно описать каждое из таких событий. Например, для описания такого события как «Въезд транспортного средства в зону» необходимо интегрировать не только записи, относящиеся к определенному номеру транспортного средства, и записи, относящиеся к зафиксированным действиям водителя, управлявшим этим

транспортным средством. Для этого могут быть использованы дополнительные учетные базы данных, хранящие информацию о соответствии одного субъекта другому. Такое соответствие может быть как взаимно однозначным (один и тот же водитель управляет одним и тем же транспортным средством), так и не быть таковым (одним и тем же транспортным средством управляют разные водители по графику, один и тот же водитель управляет разными транспортными средствами в зависимости от задач и маршрутов и т.д.). Во втором случае взаимное соответствие может быть достигнуто с помощью добавления в учетную систему временных характеристик или привлечения иных учетных систем, например, графиков работы сотрудников и пр.

Однако выявить взаимное соответствие в таких случаях не всегда удается, и в общем виде при решении задачи следует рассмотреть случай, когда установить взаимное соответствие невозможно.

При классификации событий, установлении взаимосвязей между событиями могут быть исследованы действия разных типов субъектов. Например, может потребоваться отследить все действия, совершенные на определенном транспортном средстве, или, напротив, установить хронологию действий определенного водителя. Следовательно, все поля, относящиеся к разным типам субъектов, должны быть взаимно заполнены.

В случае однозначного взаимного соответствия субъектов для каждой записи, имеющий заполненный идентификатор одного субъекта, следует заполнить идентификаторы соответствующих субъектов другого типа.

Далее рассмотрим случай, когда не удается установить взаимное соответствие. Например, одному водителю соответствуют два разных транспортных средства. В таком случае для записей, содержащих данную фамилию водителя невозможно однозначно установить, какой из двух номеров транспортных средств следует записать в соответствующее поле. Однако оставлять поле незаполненным недопустимо, так как если в дальнейшем будет

осуществляться фильтрация по атрибуту, указывающему на номер транспортного средства, данная запись будет исключена из рассмотрения.

В простейшем случае все идентификаторы движущихся объектов заполнены или взаимно заполнены. В таком случае достаточно осуществить сортировку по выбранному признаку (зона или движущийся субъект), а затем для каждого значения выбранного признака осуществить сортировку по времени. При выборе сортировки по движущемуся объекту сначала будут получен набор записей, относящихся к разным событиям, совершенным в разных зонах. Далее для каждого движущегося объекта осуществляется сортировка по времени, т.е. все записи располагаются в хронологическом порядке. Далее происходит объединение записей, для которых совпадают зоны и выполняется условие одновременности. Иными словами, следует отобрать подряд расположенные записи, относящиеся к одной зоне, но при этом следует учесть временные параметры каждой записи и убедиться, что не превышена допустимая задержка. В противном случае, если имеется достаточно большая в рамках изучаемого процесса задержка, то можно говорить о начале нового события.

Разные устройства регистрируют одно и то же событие в разные моменты времени, поэтому временные значения могут отличаться друг от друга на допустимую задержку. Однако при интеграции данных об одном событии атрибут, указывающий на время совершения события, будет являться единственным и должен быть заполнен единственным значением. Возникает задача определения единого времени совершения события на основе нескольких значений, определяющих время регистрации события каждым из устройств. Минимальное значение 1тт может быть определено как время начала события, а максимальное время 1тах - как время его окончания. При этом время начала события может указывать на регистрацию события еще до его непосредственного начала, а время окончания - после его фактического окончания, т.е. подтверждать его наступление. Например, при въезде транспортного средства на территорию предприятия видеокамера может зафиксировать подъезд транспортного средства к

пропускной системе еще до его непосредственного въезда. Временные параметры записей об использовании пропуска, открытии и закрытии шлагбаума являются максимально приближенными к фактическому въезду. Аналогично при входе сотрудника на территорию организации время его фактического прохождения будет определяться данными от турникета. Таким образом, для определения времени наступления события следует определить одно или несколько устройств контроля, регистрирующих событие непосредственно во время его фактического наступления. Выбор таких устройств контроля должен осуществляться в зависимости от расположения и состава устройств контроля.

Если в зоне выбрано одно наиболее значимое устройство smb, регистрирующее событие непосредственно в момент его исполнения, то в качестве единого времени события выбирается время от данного устройства: te = ^(8шь).

Если таких устройств выбрано несколько (sm1, ... smc), то единое время

с

X1 (т)

события определяется по формуле: ^е = '=* - .

Если априори не установлены наиболее значимые устройства контроля, и показания от всех устройств контроля считаются одинаково значимыми, то единое время события на основе d записей определяется как:

а

X1 (ш)

^е =

а

Пример решения простейшей задачи формирования событий на основе информации от разнородных источников представлен на рисунке 2.4. В простейшем случае не имеется неопределенностей в информации, отсутствуют пропуски данных, нечеткость идентификации, а также возможно взаимное заполнение всех соответствующих друг другу полей на основе учетных баз данных.

Рисунок 2.4 - Преобразование данных о событиях Далее рассмотрим ситуации, когда имеется неопределенность, связанная с идентификацией.

2.2.1.1 Неопределенность, связанная с идентификацией объекта наблюдения при одном событии

В таком случае не у всех записей присутствует атрибут, связанный с идентификацией движущегося объекта, или же такой атрибут не удалось распознать. При отсутствии атрибута для записи, где он предусмотрен, невозможно также выполнить взаимное заполнение атрибутов. Кроме того,

становится невозможной предложенная в рамках решения простейшей задачи сортировка по идентификатору субъекта на первом этапе. Поэтому для всех вариантов решения задачи предлагается осуществлять сортировку по зоне наблюдения на первом этапе.

После проведения такой сортировки все записи, относящиеся к одной зоне, будут сгруппированы. Далее, после сортировки по времени, могут быть выделены группы записей, относящихся к одному событию.

Может быть рассмотрено несколько случаев, связанных с неопределенностью идентификации.

В первом, простейшем, случае (рис. 2.5) в некоторой зоне наблюдения имеется несколько подряд идущих записей, для одной из которых идентификатор субъекта отсутствует или не определен, а для остальных записей имеет значение sb1.

^Ф^бЬ^) еп12(Бт2Д2) еп1з($тз,БЬ1Дз)

-1-1-1-►

11 ^2 13 {

Рисунок 2.5 - Пример неопределенности идентификации при одном событии

Если для данной группы записей выполняется условие (1), и при этом в данном временном интервале не имеется записей с другим идентификатором субъекта, то данная группа записей может быть объединена в единое событие.

2.2.1.2 Неопределенность, связанная с идентификацией объекта наблюдения при нескольких одновременных событиях

Рассмотрим другой случай (рис. 2.6), когда в зоне одновременно происходит и фиксируется устройствами контроля несколько несвязанных друг с другом событий, инициируемых разными сущностями. В качестве примера может быть рассмотрена ситуация, когда одновременно происходит 2 независимых события e1

и е2, которые происходят в одной зоне и фиксируются тремя устройствами контроля: БШ!, БШ2 БШ3.

еп^Бт^Ь^и) еШз^т^з) еп15(5тз,БЬ1Д5)

еп12(5т1#5Ь2#12) еп14(5т2,14) еп1б(5тз,5Ь2Дб)

-1-1-1-1-1-1-►

11 12 13 14 15 *б {

Рисунок 2.6 - Пример неопределенности отнесения записей к одному из нескольких событий, происходящих одновременно

Записи, генерируемые источниками бш! и бш3, имеют заполненные значения атрибутов, указывающих на идентификатор движущегося объекта. Данные, генерируемые средством мониторинга бш2, не имеют идентификатора движущего объекта в составе атрибутов или же для данных событий он оказался не определен по какой-либо причине. Временные параметры записей еп1:3 и е^ таковы, что любая из этих записей может быть отнесена как к событию е! так и к событию е2.

В таком случае возникает неопределенность отнесения записей к какому-либо событию. Как правило, временные интервалы между фиксацией одного события разными устройствами контроля являются одинаковыми, однако не всегда это условие может быть выполнимо. В связи в этим необходимо разработать четкий механизм для определения принадлежности записи какому-либо событию на основании временных параметров всех записей.

Известно, что события е! и е2 описываются набором данных, состоящим из трех записей от разных устройств контроля. Также известно, что событие е! описывается в виде е = (еп^,етх,епгъ), а событие е2 описывается в виде

е2 = еШ2, еМу, еМ^ , где еШх = еМ3 V еп, еМу = еШ3 V еп.

Таким образом, известные временные параметры двух событий могут быть представлены в виде матрицы:

71

Г '1 ^ ]

к ХУ

1 'б J

При этом гх = '3 V г4, ^ = /3 V /4.

Таким образом, существует 2 возможные комбинации описания двух событий:

е = ( еп^, еп'3, еШъ) л е2 = ( еШ2, еп'4, еп'б) е = ( е^, еША, еп'5) л е2 = ( еп'2, еп'3, еШ6)

В качестве определения меры удаленности неопределенных записей от записей, имеющих идентификаторы объектов, выбрано евклидово расстояние. Выбор данной меры расстояния обусловлен следующими факторами. Наиболее часто встречающимися мерами расстояния являются евклидово расстояние, расстояние Хемминга и расстояние Чебышева.

Расстояние Чебышева определяется как формула, что не является подходящим решением для задачи, так как не позволяет оценить все имеющиеся

расстояния в совокупности и принять решение по группе событий.

р

Расстояние Хемминга вычисляется по формуле у хк -х]к

к=1

Распишем данную формулу подробно для решаемой задачи. Допустим, событие e1 описывается записями ent1, ent3 и ent5. Расстояние Хемминга будет определяться как:

^ = - Ч) + (*3 - О = -

То есть для решаемой задачи расстояние Хемминга будет представлять собой разность временных параметров между последней и первой записью о событии, т.е. будет является постоянной величиной и не позволит учитывать временные интервалы между промежуточными записями.

Расстояние Евклида предполагает возведение в квадрат каждого полученного расстояния между записями, что позволяет подчеркнуть меру удаленности по времени пар подряд идущих записей друг от друга:

Яйу =£>/(% - хк )2

к=1

Для иллюстрации выбранного подхода рассмотрим данную задачу на примере временных параметров записей о двух разных событиях. Исходные данные о временных параметрах записей удобнее всего представить в виде (табл. 2.3):

Таблица 2.3 Пример задачи неопределенности при одновременных событиях

Событие Запись Время

е1 еп^ 9:50:18

е2 е^2 9:50:19

Не определено еШв 9:50:20

Не определено еШ4 9:50:22

е1 еШ5 9:50:25

е2 еШе 9:50:27

Так как разница между записями определяется секундами, то в качестве единиц измерения расстояния выберем секунды.

Определим евклидово расстояние между временными значениями для каждого события по отдельности для разных комбинаций. В итоге получим 4 значения.

Если запись еп1:3 относится к событию еь то -)2 + (^ - )2 = 5,38

Если запись еп1:3 относится к событию е2, то = 7,07 Если запись еП4 относится к событию еь то distъ = 5

Если запись ent4 относится к событию e2, то й7$гА = 5,83

Если выбирать наилучшую запись для события e1, то наименьшее значение евклидового расстояния получено для записи ent4. Однако для события e2 наименьшее значение так же получено для записи ent4.

Анализ этих значений по отдельности может оказаться затруднителен, однако следует помнить, что при наличии более чем одного события, для каждого из которых имеется неопределенная запись, решается задача не отнесения одной записи к событию независимо друг от друга, а задача распределения записей среди событий, т.е. составления комбинации. Ранее было представлено 2 возможные комбинации описания события.

Первой комбинации (епх3 е е) л (еп/4 е е2) соответствуют значения евклидовых расстояний 5,38 и 5,83.

Второй комбинации (еп'3 е е2) л (еп/4 е е) соответствуют значения 7,07 и 5.

Определим усредненные значения для каждой комбинации.

Для первой комбинации среднее значение составит 5,6. Для второй комбинации среднее значение составит 6,035. То есть наименьшее среднее евклидово расстояние получено для первой комбинации. Если посмотреть на временные параметры в исходных данных, можно сделать вывод о том, что данное решение принято верно, так как именно в случае первой комбинации записи равномерно упорядочены для каждого события.

Аналогичная задача может быть рассмотрена для большего количества событий, происходящих одновременно в одной зоне и имеющих неопределенности.

Запишем формулы для определения мер расстояния в общем виде для m событий, каждое из которых описывается количеством d записей от разных устройств контроля. Для события ei расстояние будет определяться как:

d-1 .-

¿Щ = Е>/(Ь (Ъ+1) - ггЪ )2 ¿=1

Для одной комбинации распределения временных параметров среди т событий среднее евклидово расстояние определяется как:

т

X г

avdгst = —-

т

Метод формирования последовательностей событий на основе данных от разнородных источников может быть представлен в виде псевдокода.

read UDS_SM

for number of attributes n do

if (ai) describes (parj) & (ak) describes (parj) then generate ai = ai & ak; while i=n; remove useless attributes; read additional databases; add information;

if (sbk from SBm is single match to sbj from SBq) then fill mutual attributes; else next step; sort by zone; for each zone sort by time;

combine entries with sb =sbk and time parameters fulfill condition 1;

if number of entries num = d then

aggregate entries to one event;

else find entry with sb is empty;

find all entries with time fulfill condition 1;

if for all entries sb =sbk then

aggregate entries to one event; else compose possible entries combinations; for each combination

for each event in combination calculate dist; calculate avdist;

choose combination with avdist = min; calculate te;

aggregate entries to one event; form event sequences; write UDS corr

Данный метод позволяет устранить неопределенности и решить задачу отнесения записей, у которых отсутствует идентификатор объекта наблюдения в том числе в случаях, когда при регистрации нескольких событий одновременно объекты наблюдения поменялись очередностью прохождения процедур регистрации.

После выполнения над данными указанных преобразований одно событие будет описываться записью в следующем виде (табл. 2.4).

Таблица 2.4 Формат данных после преобразования

time type zone value sb as aadd

valt1 valtype1 valz valsb1 valsv1 valadd

Таким образом, если в исходных данных одно и то же событие описывалось в виде нескольких записей от разных устройств контроля, то в преобразованной таблице одному событию будет соответствовать одна запись. При этом каждое событие будет описано максимально возможным для него набором атрибутов.

Общий набор данных UDS_corr с преобразованными данными будет содержать значительно меньшее количество строк и столбцов по сравнению с набором данных UDS_SM за счет объединения одинаковых по смыслу атрибутов и объединения записей об одном событии.

По умолчанию набор данных UDS_corr представляет собой набор последовательностей событий, упорядоченных по зонам наблюдения. Под последовательностью событий понимается упорядоченное по времени множество событий, имеющих общий признак - зона наблюдения или объект наблюдения (субъект).

Таким образом, набор данных UDS_corr может быть разбит на последовательности событий в зависимости от зоны наблюдения:

кт = (^й,зЪх\е^sЪ1),...,е,бЪ,),...,ех,БЪх)),>

Если требуется сформировать последовательность событий для объектов наблюдения, то для набора данных следует применить сортировку по атрибуту sb:

ЬъЪк ==> ^Х е2^2> ^Х--е ^. ^ (tX. ^ ^ >

Тем не менее, итоговый набор данных иОЗ_согг по-прежнему содержит пропущенные значения и не является полностью готовым к применению к нему алгоритмов интеллектуального анализа данных. Это обусловлено следующими причинами:

1. Разные типы событий, генерируемые даже одной и той же сущностью, могут быть описаны с помощью разного состава атрибутов.

2. События, совершаемые разными разных типов, подчас могут описываться совершенно разными атрибутами, присущими только событиям, совершаемым сущностями данного типа.

Поэтому для применения к данным алгоритмов интеллектуального анализа необходимо разделить весь набор данных на группы с одинаковым составом атрибутов.

2.3 Выводы

1. В данной главе описана формальная модель процесса, состоящего из множества отдельных событий. Предложенная модель, в отличие от существующих, учитывает, что каждое из этих событий фиксируется одним или несколькими устройствами контроля, при этом каждое из устройств контроля имеет определенный набор фиксируемых атрибутов, присущий данному типу устройства.

2. Предложен метод подготовки данных для приведения их к виду, пригодному для анализа известными методами интеллектуального анализа данных. Предложенный метод позволяет интегрировать записи, описывающие одно и то же событие в единую запись. Кроме того, при разработке метода учитывались проблемы пропуска данных или их некорректности. Для более

точной интеграции данных предложенный метод использует дополнительные источники данных, такие как различные учетные системы.

3. Применение метода к данным позволяет снизить избыточность данных путем объединения одинаковых по смыслу атрибутов и записей, описывающих одно событие. Кроме того, метод позволяет решить проблему пропуска данных или их неточности в случае возникновения ошибок при фиксации значений атрибутов событий.

ГЛАВА 3 МЕТОДИКА АНАЛИЗА ПОСЛЕДОВТЕЛЬНОСТИ СОБЫТИЙ

Интеграция нескольких записей об одном событии в единственную запись является важным этапом подготовки данных для анализа, однако для проведения анализа требуется провести ряд дополнительных преобразований данных для выполнения конкретного типа анализа.

Во-первых, каждое событие может быть проанализировано по отдельности, с помощью методов интеллектуального анализа данных могут быть выявлены некоторые отклонения, такие как превышение допустимых пороговых значений для какого-либо параметра события, взаимное несоответствие определенных параметров и пр. Таким образом, на этом этапе могут быть выявлены некоторые отклонения, связанные, например, с соблюдением регламента, или же событие может быть признано легитимным.

Наибольший интерес представляет анализ последовательности событий. В таком случае может быть проанализирована цепочка событий, следующих одно за другим, и всех соответствующих им параметров. В таком случае могут быть выявлены отклонения в порядке выполнения действий или следования по маршруту, несоответствия определенных параметров на разных этапах процесса и пр.

В данной главе представлены требования к подготовке данных для разных типов анализа, порядок преобразования данных и выполнения их анализа известными методами.

3.1 Методика решения задач интеллектуального анализа событий

Методика формирования типовых процессов в общем виде включает в себя все этапы преобразования исходных данных для приведения их к виду, пригодному для анализа, группировки и сортировки преобразованных данных для формирования отдельных процессов и выделения типовых шаблонов процессов.

Условно можно выделить три этапа методики анализа последовательности событий (рис. 3.1). Первые два этапа направлены на преобразование данных и приведение их к формату, пригодному для применения к ним известных методов анализа данных. Третий этап направлен непосредственно на реализацию анализа данных.

Этап 2

Анализ событий

Анализ последовательностей событий

Определение событий, имеющих одинаковый состав атрибутов

Разделение данных на группы по составу атрибутов

Этап 3

Классификация Кластеризация

Выбор алгоритма классификации

Применение классификации для каждой группы данных

Оценка алгоритмов классификации

Выбор лучшего классификатора для каждой группы данных

Выделение кластеров

Частые наборы

Выбор способа формирования транзакций

Выделение последовательности событий для каждой сущности

Формирование транзакций

Кластеры

Выбор алгоритма поиска ассоциативных правил

Поиск ассоциативных правил в транзакциях

Получение ассоциативных правил

Формирование шаблонов типовых процессов

изнес-процессы

Типовые последовательности событий

Обученные классификаторы

Выбор переменных в соответствии _со структурой хез_

ктур'

Назначение атрибутов в качестве параметров журнала событий

Удаление лишних атрибутов

Выбор начального события

Выбор конечного события

Применение построения биз алгоритмов нес-процессов

Рисунок 3.1 - Методика формирования типовых последовательностей событий

Первый этап включает в себя общие преобразования данных и применяется в случае наличия разнородных средств в составе системы мониторинга. В таком случае логи зафиксированных событий имеют разный формат и требуют приведения их к единому виду. На первом этапе выполняется преобразование

исходных данных, в результате которого должен быть получен набор данных, в котором каждому зафиксированному параметру соответствует единственный атрибут. Затем выполняется объединение записей об одном событии, если одно событие может быть зафиксировано более чем одним средством мониторинга. Результатом является получение набора данных, в котором каждому отдельно взятому событию соответствует единственная запись, интегрированная из различных логов от разнородных устройств контроля. Далее события должны быть упорядочены по времени для формирования последовательностей событий.

В простейшем случае, если требуется исследование данных от однородных систем мониторинга, первый этап методики может быть сокращен или опущен.

Второй этап методики анализа последовательности событий включает в себя преобразования, необходимые для приведения данных, полученных на первом этапе, к формату, пригодному для применения к ним выбранного метода анализа. Для перехода ко второму этапу анализа требуется выбрать желаемый тип анализа событий: анализ и оценка каждого события (классификация) или последовательности событий (формирование ассоциативных правил или построение бизнес процессов). Исследователь может реализовать как один желаемый тип анализа, так и все три, выполнить их как последовательно, так и одновременно.

Для выполнения классификации событий исходные данные будут автоматически поделены на группы в зависимости от состава атрибутов записей. Полученные группы данных будут использованы на третьем этапе.

Для формирования транзакций имеющиеся записи упорядочиваются по времени, т.е. получается последовательность различных событий, относящихся к различным процессам. Сначала выбирается способ, который будет использоваться формирования транзакций, затем осуществляется сам процесс формирования. В результате будет получен набор транзакций, соответствующий заданному условию формирования. Транзакции представляют собой наборы

последовательно зафиксированных событий, относящихся к одному процессу. Полученные транзакции будут использованы для анализа и выявления типовых шаблонов.

Для построения моделей бизнес процессов следует сначала привести данные к формату, с которым способны работать алгоритмы интеллектуального анализа процессов. Для этого выбираются атрибуты, соответствующие атрибутам формата .xes. Если для анализа требуется учесть большее количество атрибутов, следует осуществить конкатенацию значимых полей, связанных друг с другом по смыслу и цели анализа, и объединить их в наиболее подходящий атрибут.

Третий этап включает в себя выполнение выбранного типа анализа данных. При осуществлении классификации событий для каждой группы данных, полученной на втором этапе, определяется наилучший алгоритм классификации. Затем каждый из выбранных классификаторов обучается на полной выборке данных и после обучения может быть использован для классификации новых данных.

При выявлении типовых шаблонов в последовательностях событий сформированные на предыдущем этапе транзакции подаются на вход выбранного алгоритма поиска частых наборов. В результате применения таких алгоритмов получаются наборы часто встречающихся элементов (событий) для различных процессов. Полученные наборы определяют последовательности ключевых событий, входящих в процессы различных типов. Такие наборы могут быть использованы для выявления аномального поведения или отклонений в ходе выполнения процесса.

При построении моделей бизнес процессов строятся модели, отвечающие целям анализа. Таких моделей может быть как одна, так и несколько, если необходимо проанализировать разные процессы или разные характеристики одного процесса. Построенные модели могут использоваться для оценки хода реального процесса.

3.2 Анализ отдельно взятых событий.

Любое отдельно взятое событие может быть проанализировано на соответствие некоторым требованиям. Наиболее удобными методами анализа такого рода данных являются классификация и кластеризация. Для применения этих методов необходимо, чтобы данные удовлетворяли нескольким условиям [102]. Во-первых, информация об классифицируемых объектах должна быть представлена в виде конечного набора признаков (атрибутов), каждый из которых должен иметь дискретное или числовое значение. Такой набор называется примером. Все примеры должны иметь одинаковое количество атрибутов, а их состав должен быть неизменным. Множество классов, на которые разбиваются примеры, должно иметь конечное число элементов, при этом каждый пример должен быть однозначно отнесет к определенному классу. Таким образом, для осуществления классификации или кластеризации данных необходимо привести данные к табличному виду, при этом данные должны иметь постоянный состав атрибутов, каждому из которых соответствует некоторое значение. Наличие пропусков данных (пустых ячеек) значительно затрудняет проведение анализа и приводит к искажению результатов и точности классификации.

При анализе различных событий, являющихся частью какого-либо процесса, может возникнуть сложность, которая заключается в разном составе атрибутов для разных типов событий. Такая проблема может быть обусловлена тем, что состав устройств мониторинга и измерительных устройств в разных точках мониторинга является разным и зависит от того, какие параметры события определенного типа следует определить и выразить через атрибуты.

В таком случае интеграция информации обо всех событиях в единую таблицу может привести к получению таблицы с некоторым количеством пропущенных значений, которое в отдельных случаях может оказаться достаточно большим. Поэтому для проведения такого рода анализа необходимо разбить данные на группы, удовлетворяющие требованиям, предъявляемым к исходным данным для классификации и кластеризации.

3.2.1 Группировка записей по составу атрибутов

В данном разделе решается задача разбиения больших наборов данных на группы для дальнейшего применения различных классификаторов. Основной целью является разработка автоматической группировки данных в зависимости от состава атрибутов записей.

Разные события, совершаемые разными сущностями, могут быть описаны с помощью разного состава атрибутов. Кроме того, некоторые типы событий могут осуществляться схожим образом и описываться одинаковым набором атрибутов (например, события «Въезд» и «Выезд»).

Ручное разделение большого объема данных на группы является трудно осуществимым, так как осуществить фильтрацию по разному набору атрибутов и с большой точностью выделить группы с полностью заполненными значениями представляет собой кропотливую задачу, требующую очень больших временных затрат.

Поэтому предлагается осуществлять автоматическое разделение данных на группы (рис. 3.2). Атрибуты из группы Асот, присущие всем без исключения записям, могут быть исключены из рассмотрения, и дальнейшая работа будет вестись с вариативными атрибутами, оставшимися или полученными в результате подготовки набора данных и08_согг.

Рисунок 3.2 - Группировка записей по составу атрибутов Разделение данных на группы позволит получить выборки, содержащие минимальное количество пропущенных значений или не содержащее их вовсе.

В общем виде разделение набора данных на группы предлагается осуществить следующим образом.

Любое событие имеет свой идентификатор и описывается определенным набором вариативных атрибутов {ауа1\,.. ,,ауаги}.

Как правило, событие определенного типа описывается одним и тем же набором атрибутов. В некоторых случаях, если событие определенного типа может быть совершено сущностями разными типов, важную роль играет тип сущности.

Таким образом, любое событие может быть описано следующим образом:

е = < 14Фреь {ауаг1,...,ауаги}>

Если записать каждое событие в таком виде, то получится набор записей, где каждому идентификатору события и его типу соответствует набор наименований атрибутов, которыми это событие описывается.

К такому набору могут быть применены различные алгоритмы классификации, позволяющие выделить часто встречающиеся наборы атрибутов.

1. Чтение данных из таблицы атрибутов.

2. Выбор атрибутов, связанных с идентификатором события, именем и значением.

3. Если идентификатор события представлен в виде числа -преобразование идентификатора инцидента из числового значения в текстовое.

4. Конкатенация полей, указывающих на имя события, для одинаковых значений идентификатора события, с ограничением не более трех значений в одну запись.

5. Объединение данных, полученных на предыдущем шаге.

6. Если выполнялся шаг 3 - обратное преобразование идентификатора события в числовое значение.

7. Чтение данных из таблицы событий.

8. Объединение двух таблиц по идентификатору события.

9. Задание целевого атрибута.

10. Выбор метода для разбиения данных на группы.

11. Выделение часто встречающихся наборов атрибутов.

12. Выделение групп наборов атрибутов и определение критериев для отнесения к каждой группе (тип события, сущность).

13. Разбиение данных на группы по составу атрибутов.

В результате будут получены группы данных с одинаковым составом атрибутов. Такие группы будут характеризоваться максимальной заполненностью и будут содержать записи, как относящиеся к одному типу событий, так и к разным типам, но описывающимся схожим образом.

Каждая из этих групп может быть проанализирована независимо от других с помощью различных методов анализа данных. Разные группы данных могут иметь атрибуты, значительно отличающиеся друг от друга по формату (например, одни группы будут содержать большое количество текстовых атрибутов, другие -численных значений). Поэтому с разными наборами данных могут использоваться различные классификаторы. Может возникнуть ситуация, когда классификатор одного типа покажет лучший результат для одной группы, при этом для другой группы окажется неприменим или же потребует ряда дополнительных преобразований.

Поэтому следует подробно рассмотреть особенности выбора алгоритмов классификации для разных групп данных.

3.2.2 Выбор модели классификации для каждой группы

Ранее было высказано предположение, что при большом количестве различных событий е^ имеющих отличные друг от друга характеристики, разным наборам данных могут подходить разные методы анализа данных. В связи с этим необходимо решить задачу выбора классификационной модели для каждой группы данных.

Решение этой задачи производится в несколько этапов:

1. Определение моделей классификации, применимых к определенной группе данных.

2. Обучение модели с помощью одного из выбранных методов классификации.

3. Оценка эффективности проверяемого метода.

На первом этапе может оказаться, что те или иные рассматриваемые алгоритмы классификации не могут быть применены к данным в текущем формате. В этом случае могут потребоваться определенные преобразования данных, например, их преобразование в другой формат представления данных. Целесообразность дополнительных преобразований данных для применения к ним определенного классификатора определяется исследователем. Если тот или иной классификатор представляет интерес, то преобразования могут осуществляться до тех пор, пока классификатор не сможет корректно их обработать. В противном случае исследователь может отказаться от оценки неприменимого классификатора и приступить к оценке следующих классификаторов. Тем не менее, в таком случае может быть отклонен классификатор, способный показать достаточно высокий или даже наилучший результат. Исследователь может вернуться к оценке ранее отклоненных классификаторов в том случае, если результаты рассмотренных классификаторов оказались неудовлетворительными. Для каждого подмножества событий Еч необходимо провести обучение подходящих классификационных моделей и провести оценку каждой из этих моделей (Рис. 3.3).

Рисунок 3.3 - Общая схема выбора модели классификации

Подобный анализ может быть проведен как для всех подмножеств Е1, так и для ограниченного количества, если отдельные подмножества не представляют интереса для анализа. Для каждого из рассмотренных подмножеств следует выбрать алгоритм анализа, показавший наибольшую эффективность.

Для удобства дальнейшего анализа может быть составлена таблица соответствия подмножеств и наиболее подходящих методов. В результате может быть получено несколько случаев:

1. Каждому подмножеству событий Е1 может соответствовать свой классификатор ^ (при малом количестве групп).

2. Один и тот же классификатор 4 может соответствовать нескольким подмножествам Еч, в то время как другой классификатор ^ может быть выбран для другого подмножества событий Е4"2

3. Один и тот же классификатор 4 может оказаться наиболее подходящим для всех подмножеств Е1

Случай 3 является простейшим и будет исключен из дальнейшего рассмотрения.

Эксперименты следует проводить отдельно для каждой группы данных, особенно если речь идет о большом объеме данных, так как оценивание алгоритмов классификации, как правило, задействует большой объем ресурсов. Каждое исследуемое подмножество данных Еч следует подвергнуть анализу последовательно с помощью каждого из выбранных алгоритмов классификации Если выбранный классификатор 4 пригоден для анализа выделенной группы данных, то далее следует перейти к его обучению. Если выбранный метод неприменим для работы с представленными данными, то исследователь может как отказаться от его использования, так и осуществить необходимые преобразования данных.

Таким образом, выбор модели классификации можно представить следующим образом (рис. 3.4):

Рисунок 3.4 - Выбор модели классификации

В случае осуществления дополнительных преобразований исследователь может отказаться от использования данного классификатора на любом этапе преобразования, если не удастся достигнуть корректной работы классификатора с представленными данными. После успешного применения выбранного классификатора ^ применительно к исследуемому подмножеству Е1, необходимо произвести его тестовое обучение и оценку его эффективности доступными средствами. Рекомендуется последовательно осуществлять оценку всех желаемых алгоритмов классификации, так как в случае получения удовлетворительного результата у одного из первых исследованных классификаторов и отказа от оценки других классификаторов может быть упущен из виду классификатор,

способный показать наилучший результат для определенной группы данных. Если оценены все желаемые методы, то из исследованных классификаторов следует выбрать классификатор, показавший наиболее высокую эффективность применительно к изучаемому подмножеству событий Е1. Если необходимо исследовать другие подмножества событий, то следует выбрать следующее подмножество Е2 и повторить процедуру тестирования классификаторов и их оценки до тех пор, пока не будут исследованы все желаемые подмножества. Если исследованы все желаемые подмножества событий, то выбор моделей классификации считать завершенным.

3.2.3 Обучение моделей классификации

После оценки эффективности и выбора классификационных моделей для каждого подмножества производится итоговое обучение классификаторов для каждого подмножества данных. Таким образом, каждому подмножеству событий Б4 будет соответствовать свой классификатор ^ при этом число групп данных будет равно числу используемых при анализе моделей классификации.

Можно было бы предположить, что подмножества, для которых наилучший результат показала одна и та же классификационная модель, могут быть объединены в одно подмножество. Однако к такого рода объединению следует подходить с осторожностью. Причиной тому является то, что изначально данные были разделены на разные подмножества в зависимости от состава атрибутов. Объединение нескольких групп данных с разным составом атрибутов влечет за собой увеличение как размерности таблиц с данными, так и числа пропущенных значений, что может негативно сказаться на качестве обучения моделей классификации. Кроме того, само наличие пропущенных значений может сделать невозможным применение выбранного классификатора к таким данным. В связи с этим рекомендуется оставлять неизменным количество групп данных и их состав.

После этого следует провести обучение моделей (рис. 3.5). Обученные классификаторы 4 на наборе данных подмножества Еч могут быть обозначены как обученные модели ТМХ:

р1

Training f -► TM

Database

CFA

E2 Training f TM2

E3 Training f TM3

Eq Training f TMx

Рисунок 3.5 - Схема обучения модели классификации

Обученные модели будут готовы к применению.

3.2.4 Применение обученных моделей к новым данным

После обучения модели TMx могут быть применены к новым поступающим данным. Такие данные, как правило, поступают не в виде объемных таблиц с данными, а либо в виде отдельных записей, поступающих от источника данных в режиме реального времени, либо в виде комбинации записей (т.е. таблиц малого объема) через определенные интервалы времени.

Для каждой вновь поступающей записи необходимо провести все предварительные преобразования для приведения к требуемому формату выявить её принадлежность к той или иной группе данных с помощью классификации CFA и в соответствии с этим выбрать для неё подходящую обученную классификационную модель. На выходе каждой примененной модели будет получена оценка конкретного инцидента в виде категорий, использованных при обучении (рис. 3.6).

Eq

Рисунок 3.6 - Применение обученных моделей классификации

Схема применения обученной модели ТМХ может быть представлена следующим образом:

1. Поступление новой записи о зафиксированном событии е^

2. Выполнение общих предварительных преобразований. Если одновременно поступило несколько записей, то данный шаг выполняется для всех записей одновременно.

3. Если требуется объединение записей об одном событии, то ожидается поступление всех необходимых записей от устройств контроля, фиксирующих событие в заданной точке.

4. Определение принадлежности каждой записи к какому-либо из ранее выделенных подмножеств событий Е1 Если записи относятся к разным подмножествам, то шаги 4-5 повторить для каждой записи отдельно. Если все записи относятся к одному подмножеству, то шаги 4-5 выполнить одновременно для всех записей.

5. Применение модели ТМХ, обученной для данного подножества, к поступившей записи.

6. Получение результата в виде оценки категории события. Если одновременно было исследовано несколько записей, то результат будет получен для всех записей одновременно.

7. Ожидание получения новых записей о зафиксированных событиях.

3.3 Анализ последовательностей событий

Анализ последовательностей событий с целью выявления типовых последовательностей и дальнейшего отклонения в ходе процесса может быть выполнен различными способами. В SIEM-системах, например, используются алгоритмы корреляции событий на основе ассоциативных правил, позволяющих выявить группы событий, взаимосвязанных друг с другом. При построении

типовых профилей поведения объектов важно выделять цепочки событий, повторяющихся для каждого типа процесса. Поэтому алгоритмы поиска ассоциативных правил или частых наборов могут быть использованы для решения такого рода задачи.

3.3.1 Задача поиска частых наборов элементов

Традиционно задача анализа частых множеств используется при анализе корзины рынка [77]. Предположим, есть база данных, состоящая из транзакций клиентов. Каждая транзакция представляет собой набор товаров, приобретенных покупателем за одно посещение. Такая сделка также называется рыночной корзиной.

Пусть 1 = {iti,it2,...,iti,...,itn} является набором товаров общим числом

n.

Пусть Dr набор транзакций Dr = {Гг^Т^,...,Trq,...,Trm} , где каждая транзакция Tr набор элементов из It. Tr = {iti I it:i e It}

Определим наборы: Fs = {Ui \tit e ft;U = 1...n} , например Fs = {хлеб, масло}. Набор из k элементов называется k-item набор.

Набор транзакций, в которые входит набор F, обозначается следующим образом:

DrFs = {Trr | Fs с Tr; r = 1...m} с Dr .

Поток данных транзакции представляет собой последовательность входящих транзакций, а выдержка из потока называется окном (Wn). Окна делятся на две модели: ориентирное окно (landmark window) и скользящее окно (sliding window). Каждая модель окна может быть либо основано на времени, либо основано на подсчете. Wn основано на времени, если Wn состоит из последовательности единиц времени фиксированной длины, где в каждую

единицу времени может поступить переменное число транзакций. Wn основано на счете, если Wn состоит из последовательности партий, где каждая партия состоит из равного количества транзакций.

Wn - Ориентирное окно, если №п =< Ттх, Тт2.., Тт >.

Wn - Скользящее окно, если №п =<Тгт_ю+1,...,Тгт > , где каждый т является единицей времени или партии и являются текущими единицами времени или партии, а ю - количество единиц времени или партий в скользящем окне, в зависимости от того, основано ли Wn на времени или на подсчете.

Окно с подсчетом также может быть захвачено временным окном, предполагая, что в каждую единицу времени поступает равномерное количество транзакций.

Наборы данных о событиях содержат записи о действиях, выполняемых различными объектами зЬ1... sbu. Чтобы определить модели поведения, необходимо проанализировать действия каждого объекта в отдельности, выделив при этом события, происходящие в разных зонах z. Группа событий, полученных путем фильтрации записей по этим параметрам, может быть выборкой данных за достаточно длительный период времени. Таким образом, данные должны быть дополнительно сгруппированы по временным атрибутам.

В данной работе предлагается подход к выявлению отклонений путем выявления моделей типичного поведения.

Основная идея этого подхода заключается в том, что для выявления моделей поведения могут использоваться алгоритмы интеллектуального анализа часто используемых множеств.

Чтобы использовать алгоритмы частого поиска для решения проблемы прогнозирования нарушений, необходимо прежде всего определить понятие транзакции и ее элементов в контексте прогнозирования нарушения. Для этого необходимо провести ряд аналогий.

В традиционной задаче поиска наборов в рыночной корзине элемент транзакции представляет собой один тип приобретенного продукта, то есть в противном случае элемент транзакции может быть представлен как событие, связанное с добавлением товара любого типа в покупательскую корзину. Транзакция представляется в виде набора товаров, приобретенных во время отдельного посещения магазина, то есть набора отдельных событий, связанных с добавлением товаров в корзину. Важной характеристикой сделки является то, что покупка совершается одним покупателем (или небольшой группой покупателей, посещающих торговую точку вместе). Другой важной характеристикой является пространственная привязка, то есть местоположение транзакции определяется границами торговой точки. Наконец, транзакция ограничена некоторым периодом времени.

Рассматривая задачу анализа событий, набор элементов П представляет собой набор событий Е, записанных системой мониторинга.

Транзакция Тг является подмножеством событий, инициируемых объектом 8ЪС в заданном интервале времени в заданном сегменте пространства.

Интервалы для анализа должны быть сформированы таким образом, чтобы последовательность событий инициировалась одним субъектом, происходила на заданной территории, упорядочивалась по времени и заканчивалась событием, представляющим либо легитимное событие, либо нарушение.

Каждая транзакция (подмножество событий) должна иметь некоторое конечное событие, которое может представлять собой как легитимное действие, так и нарушение. Задача поиска частых наборов может быть применена как к формированию шаблонов типичного поведения, так и к шаблонам поведения, которые приводят к нарушению.

Таким образом, набор транзакций, состоящий из последовательностей событий, генерируется следующим образом:

Тг = {{< /,е. >: е. е Е,зЬ=зЬ.}, ...,{< /,е >: е е Е,зЬ=зЬ.,}

/ / I у ■' ■' \ X X I

Применительно к этому набору транзакций может применяться алгоритм поиска часто встречающихся наборов, который учитывает последовательность событий в наборе. Кроме того, необходимо учитывать временные задержки между наступлением различных событий.

Получающиеся частые наборы могут быть преобразованы в ассоциативные правила, чтобы определить модели типичного поведения объекта.

Поскольку набор данных содержит записи от различных источников, относящиеся к действиям различных объектов, сначала необходимо сформировать транзакции в соответствии с заранее определенными правилами, которые представлены ниже.

Задача определения паттернов типичного поведения может быть решена с помощью алгоритмов поиска часто встречающихся множеств. Чтобы решить проблему выявления закономерностей, приводящих к нарушениям, необходимо иметь репрезентативную выборку для каждого типа нарушений.

Подход, предложенный в этой работе, определяет этапы определения наборов событий, приводящих к нарушениям. Выделены следующие этапы анализа данных:

1) разбиение последовательности событий на транзакции;

2) идентификация транзакции;

3) идентификация элемента в транзакции;

4) определение порядка элементов в транзакции;

5) определение того, приводит ли транзакция к нарушению.

Эти этапы подробно обсуждаются в следующих подразделах.

3.3.1.1 Разделение последовательности событий на транзакции

Одним из важных вопросов этого подхода является построение транзакций, поскольку они влияют на правильность поиска частых наборов нарушений.

В контексте решаемой проблемы транзакция - это набор событий, сформированный по определенным правилам. Транзакция может быть либо последовательностью действий, выполняемых объектом или выполняемых с конкретным объектом, либо последовательностью событий, произошедших в определенном месте, либо последовательностью событий, выполняемых определенным объектом в определенном месте.

Исходные данные, представляющие собой набор данных и08_согг, содержат записи обо всех зафиксированных событиях. Для того чтобы осуществить формирование транзакций, необходимо сначала определить, по какому принципу будут сформированы транзакции, а затем осуществить фильтрацию данных.

Фильтрация может осуществляться по следующим критериям:

• По идентификатору субъекта;

• По месту совершения событий;

• По идентификатору движущегося объекта и месту совершения событий.

После осуществления фильтрации будет получен набор записей, относящихся ко всем действиям, совершенным выбранным объектом или в выбранном месте. Эти записи следует упорядочить по времени, а затем осуществить разделение на транзакции.

Можно выделить три способа формирования транзакций.

• Формирование транзакций с использованием маркеров.

Основная идея заключается в том, что транзакция формируется в соответствии с типом события, генерируемого той или иной сущностью. Например, если исходная база данных с событиями содержит запись о входе определенного объекта в определенную зону через определенный вход и запись о выходе того же объекта через тот же выход, то эти записи являются маркерами, определяющими начало и окончание транзакции. Тогда обе эти записи, а также записи о событиях, совершенных между ними, образуют транзакцию.

• Формирование транзакций с использованием временной метки.

Основная идея заключается в том, что транзакция формируется на основе времени возникновения событий, генерируемых конкретным объектом или в конкретном месте. Например, если в исходных данных есть записи действий, выполненных в определенный день и время, то транзакция формируется из цепочки событий, произошедших в течение одного дня.

• Формирование транзакций с использованием скользящего окна.

Основная идея в том, что транзакция формируется путем движения по данным скользящего окна. При этом формируется окно заданного размера, которое последовательно перемещается по записям. Начальные и конечные события в транзакции определяются положением окна в конкретный момент. Данный способ не имеет место быть, потому что в процессе сдвига окна, сформируется большое количество не правильных (не полных) транзакций, которые приведут к ложным частым наборам нарушений.

При реализации предложенного подхода транзакции формируются с использованием маркеров и временных отметок событий. Скользящее окно не используется, так как в процессе сдвига окна может быть сформировано большое количество неправильных или неполных транзакций, которые могут привести к некорректным частым наборам нарушений.

3.3.1.2 Идентификация транзакции

Задача идентификации транзакции включает в себя присвоение транзакции уникального номера. Таким образом, необходимо определить атрибуты или поля в исходных данных, которые идентифицируют уникальность этой транзакции. Обычно рекомендуется определять идентификатор транзакции как совокупность нескольких полей в исходных данных, для которых может применяться метод конкатенации [14] или хеширования.

3.3.1.3 Идентификация элемента в транзакции

Идентификация элемента в транзакции включает в себя присвоение уникального номера элементу в транзакции. В рамках предложенного подхода элемент транзакции представляет собой отдельное событие, выбранное из потока данных в процессе формирования транзакции согласно заданному правилу. Для идентификации необходимо определить атрибуты или поля в исходных данных, которые указывают на уникальность этого элемента в транзакции. Идентификатор элемента транзакции, а также идентификатор транзакции могут состоять из нескольких полей в исходных данных, в этом случае их необходимо объединить.

3.3.1.4 Определение порядка элементов в транзакции

При формировании элемента в транзакции указывается порядковый номер события в транзакции, то есть номер возникновения события в конкретной транзакции. Это необходимо для дальнейшей реализации последовательного анализа, то есть для выявления частых наборов типовых последовательностей событий.

Статус транзакции используется для определения того, приводит ли данная транзакция к нарушению. Статус транзакции - это статус события, которое является последним в этой транзакции.

3.3.1.5 Применение алгоритмов частых наборов

После того как сформированы все необходимые для исследования транзакции, следует сгруппировать наборы транзакций по желаемому признаку для определения профилей типичного поведения. Наиболее часто алгоритмы поиска частых наборов могут быть использованы для построения шаблонов легитимного поведения. Однако они также могут применяться и для определения наборов событий, которые описывают типовое поведение объекта.

При построении профилей типичного поведения могут быть выявлены типовые последовательности действий конкретного движущегося объекта (маршруты его перемещений, длительность нахождения в разных зонах и пр.). Также могут быть построены профили поведения разных объектов в одной и той же зоне. В таком случае могут быть выявлены типичные последовательности действий, исполняемые всеми объектами, находящимися в выбранной зоне.

Если имеется достаточная репрезентативная выборка определенных типов нарушений, может быть проведен анализ цепочек событий, связанных с этими нарушениями. Каждому типу нарушения может предшествовать или сопутствовать та или иная последовательность действий, приводящих к этому нарушению или выполняемых одновременно с ним. Для некоторых нарушений такие действия могут указывать на отклонение процесса от его нормального хода, например, из-за возникновения неисправности. Для некоторых нарушений такие действия могут быть вызваны умышленной подготовкой к осуществлению неправомерных действий.

Решая задачу выявления отклонений в последовательности событий по сравнению с типовым поведением, следует определить сценарии поведения объектов в различных условиях и разбить наборы транзакций на смысловые группы. Затем к каждой из таких групп следует применить алгоритмы поиска частых наборов.

В результате будут выявлены наборы событий, повторяющихся для выбранных объектов в определенных условиях. При этом важно обратить внимание на последовательность возникновения событий, а не только их состав (рис. 3.7).

После обработки групп транзакций будут получены наборы событий, наиболее часто встречающихся в похожих последовательностях и описывающих типовое поведение объектов. Полученные цепочки событий могут быть использованы для выявления отклонений в ходе выполняемого процесса.

Рисунок 3.7 - Процедура формирования частых наборов

3.3.1.6 Выявление отклонений в ходе исполняемого процесса

После обучения модели прогнозирования нарушений она может быть применена к реальным данным. Работа модели строится следующим образом.

При поступлении данных о ходе процессов в режиме реального времени обученная модель сверяет каждое из событий с событиями из частых наборов событий предвестников нарушений. Если какое-либо произошедшее событие совпадает с событием, являющимся первым в одном из наборов, то это означает, что возник риск возникновения того типа или тех типов нарушений, для которых такого рода событие является начальным предвестником. Если через некоторое время возникает событие, которое является следующим в цепочке, приводящей к нарушению, то с некоторой вероятностью может быть спрогнозировано наступление определенного типа нарушения. Последовательное возникновение событий, содержащихся в цепочке событий предвестников нарушения, последовательно повышают вероятность наступления самого нарушения.

3.4 Выявление отклонений в последовательности событий методами интеллектуального анализа процессов

В последние годы набирают популярность методы интеллектуального анализа процессов [103]. С их помощью могут быть построены текущие бизнес-процессы на основе реальных данных, выявлены отклонения в бизнес-процессах, а также произведен прогноз возможных отклонений в ходе текущего процесса.

3.4.1 Подготовка данных для применения методов интеллектуального анализа процессов

В качестве исходных данных выступают журналы событий, где каждая строка соответствует одному событию, а столбы однозначно описывают определенные атрибуты.

Как правило, журналы событий условно можно представить в следующем

виде:

• Идентификатор случая (case id): хранит случаи (объекты), для которых выстраиваются последовательности событий журнала.

• Деятельность (activity name): хранит действия, выполняемые в рамках событий журнала.

• Отметка времени (timestamp): хранит дату и время регистрации событий журнала.

• Ресурс (resource): хранит основных действующих лиц событий журнала (тех, кто выполняет действия в рамках событий журнала).

• Прочее (other data): прочая информация, с помощью которой описаны события.

В качестве входных данных для алгоритмов интеллектуального анализа процессов используются файлы журналов событий [104] в формате .xes. Такие файлы содержат в себе перечисленные атрибуты журналов событий, за исключением прочих данных. Для построения бизнес-процесса используются такие атрибуты как идентификатор случая, деятельность, отметка времени и ресурс. Поэтому любой исходный набор данных должен быть приведен к такому формату с четким соответствием одного атрибута из исходного набора одному атрибуту из вышеперечисленных. Так, например, для построения профиля поведения движущихся объектов в исходных данных должен остаться только один атрибут, идентифицирующий движущийся объект, при этом каждая строка должна быть заполнена соответствующим данному событию значением. Аналогично, если в исходных данных существует несколько атрибутов, указывающих на временную метку (например, время начала события и время его окончания), то при подготовке данных необходимо выбрать наиболее значимый атрибут.

В зависимости от целей анализа процесса и ключевых характеристик процесса необходимо выбрать 4 основных атрибута и назначить каждому из них некоторую роль, предусмотренную в формате .xes.

Как было сказано в разделе 3.2.1, формирование и анализ последовательностей событий может выполняться для движущихся объектов, мест совершения события или совокупности объектов и мест, где произошло событие.

При формировании бизнес-процесса для движущихся объектов будет построен процесс, характеризующий все последовательно совершенные данным объектом действия в разных зонах наблюдения, в том числе территориально распределенных (географически удаленных друг от друга).

При формировании бизнес-процессов для отдельно взятых зон будет построен процесс, характеризующий последовательность действий, совершенных в одной и той же зоне с участием разных движущихся объектов.

Наконец, анализ процессов по совокупности движущегося объекта и места может быть использован для построения процессов, характеризующих поведение отдельно взятого движущегося объекта в пределах отдельно взятой территории.

Основные принципы назначения атрибутов для разных процессов представлены в таблице 3.1.

Таблица 3.1 Принципы назначения атрибутов журнала событий

Атрибуты case id timestamp resource activity

По sb time sb type

движущемуся объекту

По зоне zone time sb type

По sb + time sb type

движущемуся объекту в зоне zone

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.