Модель и метод кластеризации объектов с нечеткими значениями параметров

Назаров Александр Олегович

Модель и метод кластеризации объектов с нечеткими значениями параметров тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат наук Назаров Александр Олегович

Назаров Александр Олегович
кандидат наук
2015

Специальность ВАК РФ05.13.18

Количество страниц 131

Назаров Александр Олегович. Модель и метод кластеризации объектов с нечеткими значениями параметров: дис. кандидат наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. ФГБОУ ВО «Казанский национальный исследовательский технологический университет». 2015. 131 с.

Оглавление диссертации кандидат наук Назаров Александр Олегович

Оглавление

Список используемых сокращений

Введение

Глава 1. Системы распознавания и методы кластеризации

1.1. Распознавание объектов

1.1.1. Классификация систем распознавания образов

1.1.2. Классификация и кластеризация образов

1.2. Методы кластерного анализа данных

1.2.1. Общая схема работы методов кластеризации

1.2.2. Иерархические методы

1.2.3. Неиерархические методы

1.2.4. Сравнительный анализ методов кластеризации

Выводы по главе

Глава 2. Разработка нечеткого обобщения метода COBWEB

2.1. Метод концептуального кластерного анализа COBWEB

2.1.1. Общая характеристика метода COBWEB

2.1.2. Формальное представление метода COBWEB

2.1.3. Модель концептуального кластерного анализа COBWEB47

2.2. Разработка нечеткого обобщения метода COBWEB

Выводы по главе

Глава 3. Формирование функций принадлежности параметров

кластеризуемых объектов

3.1. Функции принадлежности

3.2. Численный метод формирования функций принадлежности60

3.3. Сравнение функций принадлежности

Выводы по главе

Глава 4. Решение практических задач кластеризации объектов с

нечеткими значениями параметров

3

4.1. Программный комплекс, реализующий разработанный метод

кластеризации данных

4.2. Автоматизация процесса формирования пользовательских

ролей

4.3. Выявление вредоносного программного обеспечения

4.4. Сравнительный анализ точности кластеризации

4.5. Оценка производительности разработанного программного

комплекса

Выводы по главе

Заключение

Список используемых источников

Приложение А. Листинг основных блоков разработанного

программного комплекса

Приложение Б. Свидетельство о государственной регистрации

программы для ЭВМ

Приложение В. Акт внедрения

Приложение Г. Акт внедрения

Приложение Д. Акт внедрения

Приложение Е. Статистические данные

4

Список используемых сокращений

АРМ — автоматизированное рабочее место

БД — база данных

ВПО — высшее профессиональное образование

ИБ — информационная безопасность

ИС — информационная система

ИТ — информационные технологии

КИС — корпоративная информационная система

КС — компьютерная сеть

ЛВС — локальная вычислительная сеть

МФУ — многофункциональное устройство

НСД — несанкционированный доступ

ОАО — открытое акционерное общество

ООП — объектно-ориентированное программирование

ОС — операционная система

ПО — программное обеспечение

РРД — ролевое разграничение доступа

СВТ — средство вычислительной техники

СУБД — система управления базами данных

ФГБОУ — федеральное государственное бюджетное

образовательное учреждение

ФП — функция принадлежности

ЭВМ — электронная вычислительная машина

5

Введение диссертации (часть автореферата) на тему «Модель и метод кластеризации объектов с нечеткими значениями параметров»

Введение

Актуальность. Задача кластеризации является одной из важнейших

задач интеллектуального анализа данных в различных проблемных

областях – технических, естественнонаучных, социальных. Кластеризация

является примером задачи обучения без учителя и сводится к разбиению

исходного множества объектов на подмножества классов таким образом,

чтобы элементы одного класса были максимально схожи между собой, а

элементы различных классов – отличались.

Традиционные методы кластерного анализа работают с объектами,

параметры которых заданы исключительно в четком виде, что затрудняет

их практическое использование при работе с объектами нечеткой природы.

В настоящее время для кластеризации подобных объектов активно

развиваются методы, основанные на нечеткой логике. Исследованиям в

данной области посвящены работы известных зарубежных и российских

ученых: Bezdek J.C., Pedrycz W., Zadeh L.A., Аверкина А.Н., Батыршина

И.З., Вагина В.Н., В.И. Васильева, Вятченина Д.А., Елизарова С.И.

Куприянова М.С., Холода И.И., Ярушкиной Н.Г. и др.

Существует множество методов нечеткой кластеризации, таких как

Fuzzy C-Means, Гюстафсона-Кесселя, FOPTICS и др. Данные методы

формируют кластеры, границы которых размыты, а объект может

одновременно относиться к нескольким из них с различными степенями

принадлежности. Однако следует отметить, что известные методы

нечеткой кластеризации работают с четко заданными значениями

параметров объектов, формируя кластерные решения, например, на основе

оценки расстояний между объектами и центрами кластеров. Такой подход

не позволяет эффективно осуществлять кластеризацию объектов с нечетко

заданными значениями параметров. В связи с этим, актуальной задачей

является разработка методов кластеризации, способных учитывать

нечеткую природу объектов, то есть работать с параметрами, заданными в

виде функций принадлежности.

6

Кроме этого, для решения ряда практических задач, требующих

обработки исходных данных в реальном режиме времени, актуально

использование методов концептуальной кластеризации, таких как

COBWEB. Основным преимуществом подобных методов является

отсутствие необходимости предварительного задания полного множества

объектов и числа кластеров. Классический вариант реализации метода

COBWEB не предполагает работу с нечеткими значениями параметров,

что актуализирует решение поставленной выше задачи для данного

метода.

Объект исследования: кластеризация объектов с нечеткими

значениями параметров.

Предмет исследования: модели и методы концептуальной

кластеризации объектов нечеткой природы.

Цель работы: повышение эффективности концептуальной

кластеризации путем разработки модели, метода и реализующего их

программного комплекса для кластеризации объектов с нечеткими

значениями параметров на основе метода COBWEB. Эффективность

определяется способностью предложенного метода находить кластерное

решение для объектов с нечеткими значениями параметров и достигаемой

точностью кластеризации.

Достижение поставленной цели потребовало решения следующих

задач:

 разработки модели концептуальной кластеризации объектов с

нечеткими значениями параметров;

 разработки нового метода концептуальной кластеризации,

обобщающего метод COBWEB, для работы с объектами с нечеткими

значениями параметров;

 разработки эффективного численного метода формирования

функций принадлежности параметров кластеризуемых объектов;

7

 разработки программного комплекса нечеткой концептуальной

кластеризации объектов;

 проведения исследований и экспериментов для оценки точности

разработанного метода кластеризации;

 решения практических задач концептуальной кластеризации

объектов с нечеткими значениями параметров.

Методы исследования: математическое моделирование, кластерный

анализ, теория нечетких множеств, численные методы, объектно-

ориентированное программирование.

Научная новизна работы

1. Разработан новый метод кластеризации, который, в отличие от

существующих методов, позволяет строить модель концептуальной

кластеризации для объектов нечеткой природы, а также повышать

точность кластеризации по сравнению с известными четкими методами.

2. Предложена модифицированная формула оценки полезности

концептуальной кластеризации для объектов с нечеткими значениями

параметров.

3. Разработан численный метод формирования кусочно-линейных и

П-образных функций принадлежности для параметров кластеризуемых

объектов на основе анализа исходных данных.

4. Экспериментальным путем показано, что использование кусочно-

линейных функций принадлежности для задания нечетких значений

параметров объектов позволяет увеличить разделяющую способность

кластеров по сравнению с использованием П-образных функций

принадлежности.

5. Теоретически доказан ряд утверждений, определяющих качество

разбиения объектов по кластерам для разработанного метода

кластеризации.

Достоверность результатов работы. Предложенные в диссертации

оригинальные модель и методы теоретически обоснованы и не

8

противоречат известным положениям других авторов. Достоверность

полученных результатов обеспечена математически строгим выполнением

расчетов, подтверждена вычислительными экспериментами и

результатами практического использования.

Теоретическая значимость диссертационной работы заключается в

разработке модели и метода концептуальной кластеризации объектов с

нечеткими значениями параметров и эффективного численного метода

формирования кусочно-линейных и П-образных функций принадлежности.

Практическая значимость диссертации заключается в разработке

программного комплекса в среде С#, позволяющего осуществлять

концептуальную кластеризацию объектов с нечеткими значениями

параметров, проводить исследования разработанного метода

концептуальной кластеризации, решать практические задачи по

кластеризации объектов, описанных в нечетком виде.

Публикации по теме диссертации. Основные результаты

диссертационного исследования опубликованы в 14 печатных работах, в

том числе 7 статей в российских рецензируемых научных журналах, 7

публикаций в материалах научных семинаров и конференций. Получено 1

свидетельство о регистрации программы для ЭВМ.

Апробация работы. Основные положения и результаты

диссертационной работы докладывались и обсуждались на

Международной молодежной научной конференции «Туполевские чтения»

(Казань, 2009, 2010), Всероссийской научной конференции

«Информационные технологии в системе социально-экономической

безопасности России и ее регионов» (Казань, 2010, 2012), региональном

научном семинаре «Методы моделирования» (Казань, 2013).

Реализация результатов работы. Результаты исследования:

 использованы в Министерстве внутренних дел по Республике

Татарстан для выявления вредоносного программного обеспечения на

рабочих станциях информационных систем;

9

 использованы в ОАО «Таттелеком» для решения задачи

автоматизации формирования пользовательских ролей и выявления

несанкционированных действий пользователей;

 внедрены в учебный процесс ФГБОУ ВПО «Казанский

национальный исследовательский технический университет им. А.Н.

Туполева-КАИ» и используются при изучении дисциплин

«Интеллектуальные информационные системы», «Технологии

интеллектуального анализа данных».

Положения, выносимые на защиту:

 модель и метод концептуальной кластеризации объектов с

нечеткими значениями параметров;

 формула оценки полезности концептуальной кластеризации

объектов нечеткой природы;

 численный метод формирования кусочно-линейных и П-образных

функций принадлежности параметров кластеризуемых объектов;

 программный комплекс нечеткой концептуальной кластеризации.

Структура и объем работы. Диссертация изложена на 131 страницах

машинописного текста, содержит 36 рисунков, 15 таблиц, состоит из

введения, четырех глав, заключения, списка использованной литературы

из 76 наименований на 8 страницах и 6 приложений на 16 страницах.

Во введении отражена актуальность темы исследования,

сформулированы цель и задачи диссертации, показаны научная новизна,

практическая ценность, достоверность и обоснованность результатов

диссертации, приведены основные положения, выносимые на защиту,

указана степень апробации и реализации результатов диссертационного

исследования, приведен перечень основных опубликованных работ по

теме диссертации, кратко раскрыто содержание глав диссертации.

Первая глава посвящена анализу систем распознавания объектов,

методов кластеризации данных и формулировке целей исследования.

10

Отмечено, что кластеризацию объектов с нечеткими значениями

параметров сложно провести с помощью классических (четких) методов

кластеризации. Большинство методов нечеткой кластеризации (Fuzzy C-

Means, Гюстафсона-Кесселя, FOPTICS) работают с четко описанными

параметрами.

Актуализирована задача разработки нечеткого обобщения метода

концептуальной кластеризации COBWEB, позволяющего осуществлять

кластеризацию объектов с нечеткими значениями параметров.

Вторая глава посвящена исследованию метода концептуальной

кластеризации COBWEB, разработке модели и метода концептуальной

кластеризации, обобщающих COBWEB, для объектов с нечеткими

значениями параметров.

Третья глава посвящена разработке численного метода

формирования кусочно-линейных и П-образных функций принадлежности

параметров кластеризуемых объектов, заданных в нечетком виде.

В четвертой главе представлено описание программного комплекса,

реализующего разработанный метод кластеризации объектов с нечеткими

значениями параметров. Представлена архитектура программного

комплекса. Решен ряд практических задач по кластеризации объектов и

проведены экспериментальные исследования для сравнительной оценки

точности кластеризации.

С помощью разработанного программного комплекса решена

практическая задача по автоматизации построения пользовательских ролей

в корпоративной информационной системе. На примере данной задачи

показано, что определение значений параметров объектов в виде кусочно-

линейных функций принадлежности позволяет увеличить разделяющую

способность кластеров в разработанном методе по сравнению c

использованием П-образных функций.

11

Вторая практическая задача заключалась в кластеризации

компьютерных систем на основе параметров характеризующих

вредоносное программное обеспечение.

Третья практическая задача, решенная с помощью предложенного

метода кластеризации, стояла в распределении животных по кластерам на

основе нечетких значений их параметров. Для сравнительного анализа,

данная задача также была решена с помощью известных методов

кластеризации EM и g-means. При этом выполнялась дефаззификация

параметров объектов, заданных в нечетком виде.

Проведена оценка производительности разработанного программного

комплекса.

В заключении приведены основные результаты исследований,

представленные в диссертации.

12

Глава 1. Системы распознавания и методы кластеризации

В данной главе проведен анализ систем распознавания объектов и

методов кластеризации данных. Представлена их классификация.

Проведен сравнительный анализ систем распознавания и методов

кластеризации. Сформулированы цели исследования.

1.1. Распознавание объектов

С 50-х годов прошлого столетия в науке начало активно развиваться

новое научное направление, связанное с распознаванием неизвестных

объектов, явлений и процессов, которое получило название

«распознавание образов». Распознавание образов предполагает отнесение

объекта к тому или иному классу, на основе близости их свойств [1, 11, 27,

29].

1.1.1. Классификация систем распознавания образов

Задача распознавания заключается в определении принадлежности

образа определенному классу на основе параметров, характеризуемых

данный образ (объект). В [11,27] выделяются четыре основных задачи,

решаемых при практическом использовании систем распознавания

образов.

1. Определяется весь список параметров, которые характеризуют

распознаваемый объект. При этом на основе этих параметров можно

получить априорную информацию об исходном классе объекта. Данные

параметры могут быть: детерминированными, вероятностными,

логическими и структурными.

2. Проводится первая классификация распознаваемых объектов, на

основе которой составляется априорный алфавит классов. На основе этого

алфавита формируется рабочий алфавит классов системы распознавания.

3. На данном этапе формируется априорный словарь параметров. В

этом словаре остаются только те параметры, на основании которых можно

получить априорную информацию для описания классов.

13

4. Последняя задача заключается в том, чтобы с помощью априорного

словаря параметров описать все классы априорного алфавита классов. Для

решения данной задачи используются различные алгоритмы обработки.

Использование того или иного алгоритма зависит от объема исходных

данных.

В [11] представлена классификация систем распознавания (Рис. 1.1).

Системы распознавания

Простые Сложные

Без обучения С обучением С самообучением

Детерминированные Вероятностные Логические Структурные

Комбинированные

Рис. 1.1. Классификация систем распознавания

Исходя из данной классификации, выделяют простые и сложные

системы распознавания. Если объекты описаны с помощью однородной

информации, то система называется простой. Если объекты описаны с

помощью неоднородной информации, то – сложной [27].

Характер и объем исходной информации влияет на тип системы

распознавания - без обучения, обучающаяся или самообучающаяся.

Так же выделяют логические, детерминированные, структурные,

вероятностные и комбинированные системы распознавания. Данные тип

зависит от характера языка, на котором описываются параметры.

Рассмотрим различные постановки задач распознавания согласно [10].

Системы распознавания без обучения [11, 50, 51]

14

Если мы имеем полную априорную информацию, то возможно

построить систему распознавания без обучения. Эта информация должна

представлять совокупность:

1. Сведений о среде объектов, для распознавания которых

предназначается создаваемая система. Решения, принимаемые на основе

полученных результатов распознавания. Эти сведения являются

исходными для проведения классификации, т.е. подразделения множества

объектов на классы.

2. Данных, которые обеспечивают формирование априорного словаря

параметров системы распознавания.

3. Зависимостей между параметрами априорного словаря

A j   A1 ,..., A m  и классами объектов O i .i  1 ,..., r .

Описание классов на языке параметров позволяет решить задачу

построения рабочего словаря параметров системы распознавания, и затем

вернуться к задаче описания классов на языке рабочего словаря



A j  A k 1 ,..., A k m  , где k 1 ,..., k m  1 ,..., m [11].

Обучающиеся системы распознавания [51, 56]

В случае отсутствия полной априорной информации, для построения

системы распознавания используются методы обучения. Объем данной

информации должен позволить сформировать априорный словарь

параметров и распределить объекты на классы. Но объема этой

информации не хватает для построения описания классов объектов

С 1 ,..., С n на языке параметров A1 ,..., Am . В этом случае в качестве описаний

можно использовать, априорные вероятности появления объектов

различных классов P( O i ) и условные плотности распределений

f i ( A1 ,..., A m ), i  1 ,..., r или разделяющие функции Fi ( A1 ,..., A m ), i  1 ,..., r [11].

Обучение представляет собой составления списка объектов с

отнесением к тому или иному классу. Объекты обозначаются как O 1 ,..., O r ,

а классы - С 1 ,..., С n . В этом случае исходную информацию можно описать в

15

виде:

( O 1 , O 2 ..., O t )  C 1 ; 



( O i  1 ,..., O q )  C 2 ; 

 (1.1)

.......... .......... .......... .......... 

( O g  1 , O g  2 ..., O l )  C n ; 

В соответствии с описанными параметрами, все объекты могут быть

описаны на языке параметров A1 ,..., Am . Например, O1 характеризуется

параметрами 1 1

( A1 ,..., A m ) , O 2 - 2

( A1 ,..., A m )

2

и т.д. В этом случае список

объектов может быть представлен в виде обучающей выборки:

[( A1 , A 2 ..., A m );...; ( A1 , A 2 ..., A m )]  C 1 ;

1 1 1 r r r





.......... .......... .......... .......... .......... .......... ...  (1.2)

g 1 g 1 g 1 

[( A1 , A 2 ..., A m );...; ( A1 , A 2 ..., A m )]  C n ; 

l l l

Цель обучения состоит в описании классов на основе параметров, и

обучение реализуется с помощью обучающей выборки.

Самообучающиеся системы распознавания [11, 50, 51, 56]

Часто при решении практических задач невозможно провести

классификацию объектов, либо просто нецелесообразно. Поэтому для

решения данных задач проводят классификацию объектов на основе

отдельных параметров объектов, значения которых находятся в пределах

определенного диапазона. Данные объекты помещаются в один класс.

Например, объекты описываются параметрами A1 , A 2 , A3 ,... .

Необходимо осуществить классификацию таким образом, чтобы в первый

класс попали объекты, значения параметров которых удовлетворяют,

условиям A 1  A 1 ; A 2  A 2 ; A 3  A 3  A 3 ;... ,

* * ** *

во второй класс – объекты, с

условиями A 1  A 1 ; A 2  A 2 ; A 3  A 3  A 3 ;...

** ** * ***

, где * ** * ** **

A1 , A1 , A 2 , A 2 , A 3 , A 3

***

–

фиксированные значения.

Часто количество классов заранее неизвестно, нет информации и о

принадлежности объектов к классам. В этом случае и применяются методы

самообучения, в том числе методы кластеризации или классификации без

16

учителя. Методы самообучения часто используются для решения

практических задач, когда не полностью определена обучающая выборка,

но известно число классов. В данном случае заданы объекты O  O i i  1 и их

r

параметры 1 1 2 2 r r

A1 ,..., A m ; A1 ,..., A m ;..., A1 ,..., A m , но нет информации об отношении

объектов к конкретным классам.

Задача кластеризации [5, 7, 17] – это пример задачи обучения без

учителя, которая сводится к разбиению исходного множества объектов

данных O  O i i  1 ,r на подмножества в виде классов С  C k k  1 , n так, что

элементы одного класса существенно отличались друг от друга по

заданному набору параметров A  A j  от элементов других классов, и

j  1 ,m

были максимально схожи с элементами своего класса.

1.1.2. Классификация и кластеризация образов

В рамках систем обучающихся и самообучающихся систем решение

задач производится методами классификации или кластеризации (в

самообучающихся системах).

В [48] проведено сравнение методов классификации и кластеризации

по таким параметрам, как стратегия обучения, наличие метки класса и

основание для классификации.

Таблица 1.1. Сравнение методов распознавания

Метод классификации Метод кластеризации

Стратегия Обучение с учителем Обучение без учителя

Обучающее множество

сопровождается меткой,

Метки класса обучающего

Наличие метки класса указывающей класс, к

множества неизвестны

которому относится

наблюдение

Новые данные Дано множество данных с

Основание для классифицируются на целью установления

классификации основании обучающего существования классов или

множества кластеров данных

17

Для решения задач распознавания объектов без достаточной

информации для предварительного описания классов, особо важны

параметры стратегии, наличия метки класса и основание для

классификации:

 при решении задач распознавания без предварительного описания

классов, мы не имеем никакой обучающей выборки, соответственно

обучение происходит без учителя (т.е. обучающей выборки)

 выявление схожих между собой объектов происходит не на основе

меток определенных классов, а на основе схожести параметров

объектов (классы заранее не предопределены).

 классификация данных осуществляется при отсутствии информация

о возможных распределениях объектов по классам, т.е. нет

обучающего множества, множество данных дано с целью

установления классов данных.

Как видно из таблицы 1.1 метод кластерного анализа данных наиболее

полно подходит для решения задач распознавания объектов без

достаточной информации для предварительного описания классов. В

следующем разделе проведен более подробный анализ методов

кластеризации данных.

1.2. Методы кластерного анализа данных

1.2.1. Общая схема работы методов кластеризации

Общую схему работы большинства методов кластеризации можно

представить в виде схемы на рисунке 1.2.

18

Матрица расстояний

Меры сходства

Признаковое

описание

Свойтсва Описание работы

объектов Мера сходства метода

Данные ПОДГОТОВИТЬ

ДАННЫЕ Методы Программная

ВЫБРАТЬ кластеризации среда Древовидная структура

МЕРУ

СХОДСТВА Метод

Аналитик

Иерархическая структура

ВЫБРАТЬ

МЕТОД

Дендограмма

РЕАЛИЗОВАТЬ

МЕТОД

Отформатированные Аналитик Аналитик ИНТЕРПРЕТИРОВАТЬ Знания

данные РЕЗУЛЬТАТЫ

ЭВМ

Построенная модель данных

Аналитик

ЭВМ

NODE: А0 TITLE: Общая схема методов кластеризации NO.: 1

Рис. 1.2. Общая схема работы методов кластеризации

Первый этап заключается в подготовке данных для работы метода

кластеризации. Обычно исходные данные пытаются представить в виде

таблиц, где в строках таблицы располагаются объекты, а столбцы

описывают параметры объекта.

Следующий этап состоит в выборе меры сходства объектов друг с

другом. В качестве мер сходства могут быть выбраны различные

расстояния между объектами в n-мерном пространстве. Наиболее

распространенная мера сходства – расстояние по Евклиду [26, 55].

Список литературы диссертационного исследования кандидат наук Назаров Александр Олегович, 2015 год

Список используемых источников

1. Айзерман, М.А. Метод потенциальных функций в теории

обучения машин / М.А. Айзерман, Э.М. Браверман, Л.И. Розоноэр. – М.,

«Наука», 1970. – 384 с.

2. Александров, А.Г. Оптимальные и адаптивные системы: Учеб.

пособие для вузов по спец. «Автоматика и упр. в техн. системах». – М.:

Высш. шк, 1989. – 263 с.

3. Алексеев, А.В. Интерпретация и определение функций

принадлежности нечетких множеств // Методы и системы принятия

решений: Сб. тр. / Под ред. А.Н. Борисова. – Рига: РПИ, 1979 – С. 42-50.

4. Аникин, И.В. Практическое применение метода концептуальной

кластеризации объектов, характеризуемых нечеткими параметрами / И.В.

Аникин, А.П. Кирпичников, А.О. Назаров // Вестник Казанского

технологического университета. – 2014. – Т.17. – С. 203-207.

5. Барсегян, А. А. Методы и модели анализа данных: OLAP и Data

Mining / А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод –

СПб.: БХВ-Петербург, 2004. – 336 с.

6. Борисов, А. Н. Принятие решений на основе нечетких моделей:

Примеры использования / А. Н. Борисов, О. А. Крумберг, И. П. Федоров. –

Рига: Зинатне, 1990. – 184 с.

7. Боровиков, В.П. STATISTICA. Искусство анализа данных на

компьютере: Для профессионалов – СПб.: Питер, 2003. – 688 с.

8. Вятченин, Д.А. Нечеткие методы автоматической классификации:

Монография / Д. А. Вятченин – Мн.: УП «Технопринт», 2004 – 219 с.

9. Гайдамакин, Н.А. Разграничение доступа к информации в

компьютерных системах. – Екатеринбург: изд-во Урал. Ун-та, 2003 г. – 328

с.

10. Гнеденко, Б.В. Курс теории вероятностей. – М., 2007. – 42 с.

109

11. Горелик, А.Л. Методы распознавания: Учеб. пособие / А.Л.

Горелик, В.А. Скрипкин. – 2-е изд., перераб. и доп. – М.: Высш. шк., 1984.

– 208 с., ил.

12. Грин, Д. Математические методы анализа алгоритмов / Д. Грин,

Д.Кнут. – Пер. с англ. – М.: Мир, 1987. – 120 с.

13. Грэхем, И. Объектно-ориентированные методы. Принципы и

практика. – 3-е изд. – М.: «Вильямс», 2004. – 880 с.

14. Девянин, П.Н. Анализ безопасности управления доступом и

информационными потоками в компьютерных системах. – М.: Радио и

связь, 2006г. – 176 с.

15. Девянин, П.H. Модели безопасности компьютерных систем: Учеб.

пособие для студ. высш. учеб. заведений. – М.: Издательский центр

«Академия», 2005. – 144 с.

16. Девянин, П.H. Теоретические основы компьютерной

безопасности: Учебное пособие для вузов / П.H. Девянин, О.О.

Михальский, Д.И. Правиков, А.Ю. Щербаков. – М.: Радио и связь, 2000. –

192 с.

17. Вэн Райзин, Дж. Классификация и кластер. Пер. с англ. Под ред.

Ю.И. Журавлева. – М.: Мир, 1980. – 390 с.

18. Дюк, В.А. Применение технологий интеллектуального анализа

данных в естественнонаучных, технических и гуманитарных областях /

В.А. Дюк, А.В. Флегонтов, И.К. Фомина // Известия Российского государ.

педагог. университета им. А.И.Герцена,2011. – № 138. – С.77-84.

19. Загоруйко, Н. Г. Прикладные методы анализа данных и знаний. –

Новосибирск: ИМ СО РАН, 1999. – 270 с.

20. Зегжда, Д.П. К созданию защищенных систем обработки

информации / Д.П. Зегжда, А.М. Ивашко // «Проблемы информационной

безопасности». №1. 1999. – С.99-105.

21. Зегжда, Д.П. Как построить защищенную информационную

систему / Д.П. Зегжда, А.М. Ивашко. – СПб.: Мир и семья, 1997. – 312 с.

110

22. Зегжда, Д.П. Основы безопасности информационных систем / Д.П.

Зегжда, А.М. Ивашко. – М.: Горячая линия – Телеком, 2000. – 452 с.

23. Емельянов, Г.В. Некоторые проблемы информационной

безопасности технологий 21 века / Г.В. Емельянов, П.Д. Зегжда //

«Проблемы информационной безопасности». №4. 1999. – С. 43-51.

24. Чубукова, И.А. Курс лекций «Data Mining», Интернет-университет

информационных технологий. [Электронный ресурс] – URL:

http://intuit.ru/department/database/datamining/

25. Киви, Б. «Мир ПК», № 07, 2012. – 100 с.

26. Ким, Дж.-О. Факторный, дискриминантный и кластерный анализ /

Дж.-О. Ким, Ч.У. Мьюллер, У.Р. Клекка, М.С. Олдендерфер, Р.К.

Блэшфилд. — М.: Финансы и статистика, 1989. — 215 с.

27. Ковалевский, В.А. Современное состояние проблемы

распознавания образов. Кибернетика, № 5, 1967. – С. 78-86.

28. Кошелева, В.А. Классификация знаний на основе метода

кластерного анализа / В.А. Кошелева, О.И. Федяев // III международная

научно-техническая конференция молодых учѐных и студентов. – Донецк,

2007.

29. Курилов, Б.М. Получение достаточных характеристик при

распознавании образов. Вычислительные системы. Сб. трудов ИМ СО АН

СССР, вып. 22 Н, 1966. – С. 3-19.

30. Леоненков, А. В. Нечеткое моделирование в среде MATLAB и

fuzzyTECH. – СПб.: БХВ Петербурr, 2005. – 736 с.: ил.

31. Лукацкий, А.В. Обнаружение атак. – СПб.: БХВ-Петербург, 2001.

– 624 с.

32. Назаров А.О. Выбор вида функции принадлежности в нечеткой

модификации алгоритма Cobweb для задачи формирования

пользовательских ролей / А.О. Назаров, И.В. Аникин // Вестник

Казанского государственного технического университета им. А.Н.

Туполева, 2014. – № 2. – С. 214-219.

111

33. Назаров, А.О. Модель и метод концептуальной кластеризации

объектов, характеризуемых нечеткими параметрами / А.О. Назаров //

Фундаментальные исследования. – 2014. – №9 (5). – С. 993-997.

34. Назаров, А.О. Кластеризация пользователей информационной

системы на основе их действий в компьютерной сети [Электронный

ресурс] / А.О. Назаров // Современные проблемы науки и образования. –

2014. – №4. – URL: http://www.science-education.ru/118-13961

35. Назаров, А.О. Автоматизация процесса формирования

пользовательских ролей на основе метода концептуальной кластеризации

данных / А.О. Назаров, Д.А. Токарев // Известия Института инженерной

физики. – 2014. – № 3. – С. 2-6.

36. Назаров, А.О. Формирование эталонных профилей поведения

пользователей в корпоративных информационных системах / А.О.

Назаров, И.В. Аникин // Вестник Казанского государственного

технического университета им. А.Н. Туполева. – 2012. – №3. – С. 138-142.

37. Назаров, А.О. Распознавание поведения объектов методом

нечеткой кластеризации данных / А.О. Назаров, И.В. Аникин // Вестник

Казанского государственного технического университета им. А.Н.

Туполева. – 2012. – № 4(1). – С. 222-228.

38. Назаров, А.О. Метод формирования эталонных профилей

поведения пользователей в корпоративных информационных системах

[Электронный ресурс] / А.О. Назаров // Информационные технологии в

системе соц.-экономич. безопасности России и ее регионов: Электронная

библиотека Казанского (Приволжского) Федерального Университета –

Казань, 2012. – URL: http://diglib.kpfu.ru/xmlui/handle/123456789/792

39. Назаров, А.О. Сравнительный анализ методов кластеризации

данных относительно формирования элементов ролевого разграничения

доступа [Электронный ресурс] / А.О. Назаров // Информационные

технологии в системе соц.-экономич. безопасности России и ее регионов:

Электронная библиотека Казанского (Приволжского) Федерального

112

Университета – Казань, 2012. – URL:

http://diglib.kpfu.ru/xmlui/handle/123456789/791

40. Назаров, А.О. Ролевая модель разграничения доступа в

корпоративных информационных системах / А.О. Назаров

// Информационные технологии в системе соц.-экономич. безопасности

России и ее регионов: сб. трудов III Всерос. научной конф. – Казань, 2010.

– С. 304-307.

41. Назаров, А.О. Обеспечение безопасности информационной

системы с помощью алгоритма кластеризации и нечетких параметров

пользователей / А.О. Назаров // Информационные технологии в системе

соц.-экономич. безопасности России и ее регионов: сб. трудов III Всерос.

научной конф. – Казань, 2010. – С. 206-209.

42. Назаров, А.О. Сравнительный анализ алгоритмов кластеризации /

А.О. Назаров // XVIII Туполевские чтения. Междунар. молодежная

научная конф.: тез. докл. – Казань, 2010. – С. 220-222.

43. Назаров, А.О. Формирование пользовательских ролей с помощью

алгоритма кластеризации и нечетких методов / А.О. Назаров // XVIII

Туполевские чтения. Междунар. молодежная научная конф.: тез. докл. –

Казань, 2010. – С. 218-220.

44. Назаров, А.О. Оценка рисков информационной безопасности на

базе экспертных систем / А.О. Назаров // XVII Туполевские чтения.

Междунар. молодежная научная конф.: тез. докл. – Казань, 2009. – С. 81-

82.

45. Нейгел, К. Visual C# 2010: полный курс / К. Нейгел, К. Уотсон. –

М.: Диалектика, 2010.

46. Паклин, Н. Кластеризация категорийных данных:

масштабируемый алгоритм CLOPE. [Электронный ресурс] – URL:

http://www.basegroup.ru/clusterization/clope.htm

47. Севастьянов, П.В. Конструктивная методика сравнения нечетких

чисел и ее применение в задачах оптимизации / П.В. Севастьянов, А.В.

113

Венберг // Информационные сети, системы и технологии: Тр. VII

междунар. конф., БГЭУ, 2-4 окт. 2001 г.: В 3-х томах. - Т. 3. – Минск, 2001.

– С. 52-57.

48. Технологии анализа данных. BaseGroup Labs. [Электронный

ресурс] – URL: // http://www.basegroup.ru/

49. Троелсен, Э. Язык программирования C# 2010 и платформа .NET

4.0. – 5-е изд. – М.: Вильямс, 2010. – 1392 с.

50. Цыпкин, Я.З. Адаптация и обучение в автоматических системах.

М., «Наука», 1968. – 400 с.

51. Цыпкин, Я.З. Основы теории обучающихся систем. М., «Наука»,

1970. – 252 с.

52. Чубукова, И.А. Курс лекций «Data Mining», Интернет-университет

информационных технологий. [Электронный ресурс] – URL:

http://intuit.ru/department/database/datamining/

53. Шилдт, Г. «C# 4.0: полное руководство». – М.: «Вильямс», 2010. –

1056 с.

54. Шмерлинг, Д.С. Экспертные оценки. Методы и применение

(обзор) / Д.С. Шмерлинг, С.А. Дубровский, Т.Д. Аржанова, А.А. Френкель

// Сб. «Статистические методы анализа экспертных оценок». – М., Наука,

1977. – С. 290-382.

55. Шрейдер, Ю.А. Что такое расстояние? – М.: Физматлит, 1963. – 76

с.

56. Якубович, В. А., Некоторые общие теоретические принципы

построения обучаемых опознающих систем. Сб. Вычислительная техника

и вопросы программирования. ЛГУ, 1965. – С. 72-75.

57. Banas J., Machovska-Szewczyk M. Method of Putting Trapezoidal

Fuzzy Number in Order // Advanced Computer Systems: Proceedings of the

Sixth International Conference / Technical University of Szczecin – Szczecin,

1999. – pp. 175-179.

114

58. Biswas G., Weinberg J., Li C. ITERATE: A Conceptual Clustering

Method for Knowledge Discovery in Databases. – 1995. – 29 p.

59. Black M. Vagueness: An Exercise in Logical Analysis // Philosophy of

Science. – 1937. – V. 4.– pp. 427–455

60. Chau M., Reynold Cheng, Kao B. and Ng J. Data with uncertainty

Mining: An Example in Clustering Location Data. In the Methodologies for

Knowledge Discovery and Data Mining, Pacific-Asia Conference (PAKDD

2006), Singapore, 2006.

61. Dementiev R., Processor Performance Counter Monitoring.

[Электронный ресурс] – URL: http://epic.hpi.uni-potsdam.de/

62. Dubois D. Linear Programming with fuzzy data // Analysis of Fuzzy

Information. – 1987. – V.3. – pp. 241 - 263.

63. Dunn J. A fuzzy relative of the ISODATA process and its use in

detecting compact well-separated clusters. Journal of Cybernetics. – 1987. –

V.3. – pp. 32-57.

64. Fisher, D.H. Knowledge acquisition via incremental conceptual

clustering / D.H. Fisher // Machine Learning 2, 1987. pp. 139-172.

65. Jain A.K., Murty M.N., Flynn P.J. Data Clustering. ACM Computing

Surveys. – 1999. – V.31. – pp. 264-323.

66. Mancuso M., Moretti P., Tamagnini R. Fuzzy algorithms for machine

vision // Electron. Eng. – 1995.– V. 67. – pp. 51–52

67. Ngai J., Kao B., Chui C., Cheng R., Chau M. and Yip K. Efficient

Clustering of data with uncertainty. In IEEE Intl. Conf. on Data Mining

(ICDM), 2006.

68. Osborn, S., Sandhu R., and Nunawer Q. Configuring Role-Based

Access Control To Enforce Mandatory And Discretionary Access Control

Policies. ACM Trans. Info. Syst. Security, 3, 2, 2000.

69. Ruspini E. H. A new approach to clustering. Information Control. –

1969. – V.15(1). – pp. 22-32.

115

70. Sandhu R.S., Coyne E.J., Feinstein H.L., and Youman C.E. Role-based

access control models. Computer. – 1996. – V.29. – pp. 38-47.

71. Sandhu R.S. Rationale for the RBAC96 family of access control

models // In Proceeding of the 1st ACM Workshop on Role-Based Access

Control. – ACM, 1997.

72. Sato M., Sato Y., Jain L. Fuzzy Clustering Models and Applications,

Physica-Verlag, Heidelberg, 1997. – pp. 135-148.

73. Sudipto G., Rajeev R., Kyuseok S. CURE: An Efficient Clustering

Algorithm for Large Databases // International conference on management of

data proceedings of the. – ACM, 1997.

74. Tian Z., Raghu R., Miron L.BIRCH: An Efficient DataClustering Meth

od for Very Large Databases, Proc. of ACM SIGMOD Int'l Conf. on Data

Management, Canada, June 1996.

75. Zadeh L.A. Fuzzy Sets // Information and Control. – 1965. – V.8. – pp.

338-363.

76. Zhang D. Data Mining for Role Based Access Control. Master-to-PhD

Conversion Report, 2006. – 348 p.

116

Приложение А. Листинг основных блоков разработанного

программного комплекса

Описание текстовых кодов основных блоков программного

комплекса:

При предъявлении нового объекта, метод выполняет следующие

операции: добавления этого объекта в существующий кластер, создания

нового кластера, разделения и слияния кластеров. При этом оценивается

качество разбиения с помощью полезности кластеризации согласно

выражению (2.3). В представленном коде происходит описание всех этих

операций.

 Операции метода:

public CNode findHost(Instance newInstance,

bool structureFrozen)

if (!structureFrozen)

updateStats(newInstance, false);

double[] categoryUtils =

cuScoresForChildren(newInstance);

CNode newLeaf = new CNode(m_numAttributes,

newInstance);

m_children.Add(newLeaf);

double bestHostCU = categoryUtility();

CNode finalBestHost = newLeaf;

m_children.RemoveAt(m_children.Count - 1);

int best = 0;

int secondBest = 0;

for (int i = 0; i < categoryUtils.Length; i++)

if (categoryUtils[i] > categoryUtils[secondBest])

if (categoryUtils[i] > categoryUtils[best])

secondBest = best;

117

best = i;

else

secondBest = i;

CNode a = (CNode)m_children[best];

CNode b = (CNode)m_children[secondBest];

if (categoryUtils[best] > bestHostCU)

bestHostCU = categoryUtils[best];

finalBestHost = a;

if (structureFrozen)

if (finalBestHost == newLeaf)

return null;

else

return finalBestHost;

double mergedCU = -Double.MaxValue;

CNode merged = new CNode(m_numAttributes);

if (a != b)

mergedCU = cuScoreForBestTwoMerged(merged,

a, b,

newInstance);

if (mergedCU > bestHostCU)

bestHostCU = mergedCU;

finalBestHost = merged;

double splitCU = -Double.MaxValue;

double splitBestChildCU = -Double.MaxValue;

double splitPlusNewLeafCU = -Double.MaxValue;

double splitPlusMergeBestTwoCU = -

Double.MaxValue;

if (a.m_children != null)

List<object> tempChildren = new List<object>();

for (int i = 0; i < m_children.Count; i++)

118

CNode existingChild = (CNode)m_children[i];

if (existingChild != a)

tempChildren.Add(existingChild);

for (int i = 0; i < a.m_children.Count; i++)

CNode promotedChild =

(CNode)a.m_children[i];

tempChildren.Add(promotedChild);

tempChildren.Add(newLeaf);

List<object> saveStatusQuo = m_children;

m_children = tempChildren;

splitPlusNewLeafCU = categoryUtility();

tempChildren.RemoveAt(tempChildren.Count - 1);

categoryUtils =

cuScoresForChildren(newInstance);

best = 0;

secondBest = 0;

for (int i = 0; i < categoryUtils.Length; i++)

if (categoryUtils[i] >

categoryUtils[secondBest])

if (categoryUtils[i] > categoryUtils[best])

secondBest = best;

best = i;

else

secondBest = i;

CNode sa = (CNode)m_children[best];

CNode sb = (CNode)m_children[secondBest];

splitBestChildCU = categoryUtils[best];

CNode mergedSplitChildren = new

CNode(m_numAttributes);

if (sa != sb)

119

splitPlusMergeBestTwoCU =

cuScoreForBestTwoMerged(

mergedSplitChildren, sa, sb, newInstance);

splitCU = (splitBestChildCU >

splitPlusNewLeafCU) ? splitBestChildCU

: splitPlusNewLeafCU;

splitCU = (splitCU > splitPlusMergeBestTwoCU)

? splitCU

: splitPlusMergeBestTwoCU;

if (splitCU > bestHostCU)

bestHostCU = splitCU;

finalBestHost = this;

tempChildren.removeElementAt(tempChildren.size()-1);

else

m_children = saveStatusQuo;

if (finalBestHost != this)

m_clusterInstances.add(newInstance);

else

m_numberSplits++;

if (finalBestHost == merged)

m_numberMerges++;

m_children.RemoveAt(m_children.IndexOf(a));

m_children.RemoveAt(m_children.IndexOf(b));

m_children.Add(merged);

if (finalBestHost == newLeaf)

finalBestHost = new CNode(m_numAttributes);

m_children.Add(finalBestHost);

if (bestHostCU < m_cutoff)

if (finalBestHost == this)

m_clusterInstances.add(newInstance);

120

m_children = null;

finalBestHost = null;

if (finalBestHost == this)

updateStats(newInstance, true);

return finalBestHost;

protected void addChildNode(CNode child)

for (int i = 0; i <

child.m_clusterInstances.numInstances(); i++)

Instance temp =

child.m_clusterInstances.instance(i);

m_clusterInstances.add(temp);

updateStats(temp, false);

if (m_children == null)

m_children = new List<object>();

m_children.Add(child);

С помощь текстового кода, представленного ниже, реализуется

вычисление полезности кластеризации по формуле 2.3. Полезность

кластеризации считается каждый раз после добавления нового объекта и

выполнения над ним одной из операций алгоритма.

 Вычисления полезности кластеризации:

protected double probabilityUtility()

if (m_children == null)

throw new Exception("probabilityUtility: No

children!");

double totalCU = 0;

for (int i = 0; i < m_children.Count; i++)

CNode child = (CNode)m_children[i];

totalCU += probabilityUtilityChild(child);

totalCU /= (double)m_children.Count;

121

return totalCU;

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Модель и метод кластеризации объектов с нечеткими значениями параметров тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат наук Назаров Александр Олегович

Оглавление диссертации кандидат наук Назаров Александр Олегович

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Моделирование обобщенных процедур кластеризации и анализ данных сложной структуры2007 год, кандидат технических наук Тарасова, Алина Сергеевна

Разработка математических моделей и алгоритмов классификации динамических объектов2018 год, кандидат наук Аль Хашеди Адам Абдо Ахмед

Методы построения коллективных решений задачи кластерного анализа2005 год, кандидат физико-математических наук Бирюков, Андрей Сергеевич

Методы и алгоритмы редукции нечетких правил в базах знаний интеллектуальных систем2015 год, кандидат наук Абдулхаков, Айдар Рашитович

Введение диссертации (часть автореферата) на тему «Модель и метод кластеризации объектов с нечеткими значениями параметров»

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Повышение эффективности систем сотовой связи на основе релевантной кластеризации местоположения мобильных станций2014 год, кандидат наук Зотов, Кирилл Николаевич

Алгоритмическое обеспечение нейро-нечеткой системы классификации состояний объектов сложной структуры2022 год, кандидат наук Чернобаев Игорь Дмитриевич

Исследование и разработка моделей и методов нечеткой кластеризации коротких текстов2021 год, кандидат наук Дударин Павел Владимирович

Список литературы диссертационного исследования кандидат наук Назаров Александр Олегович, 2015 год