Модели и методы гибридной реляционной кластеризации данных

Климова, Анжелика Сергеевна

Модели и методы гибридной реляционной кластеризации данных тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат технических наук Климова, Анжелика Сергеевна

Климова, Анжелика Сергеевна
кандидат технических наук
2013

Специальность ВАК РФ05.13.18

Количество страниц 105

Климова, Анжелика Сергеевна. Модели и методы гибридной реляционной кластеризации данных: дис. кандидат технических наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. Казань. 2013. 105 с.

Оглавление диссертации кандидат технических наук Климова, Анжелика Сергеевна

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ

ГЛАВА 1. ОБЗОР МЕТОДОВ КЛАСТЕРИЗАЦИИ И ВИЗУАЛИЗАЦИИ

ДАННЫХ И ПОСТАНОВКА ЗАДАЧИ ИССЛЕДОВАНИЯ

ГЛАВА 2. ИНВАРИАНТНЫЕ ПРОЦЕДУРЫ РЕЛЯЦИОННОЙ ИЕРАРХИЧЕСКОЙ КЛАСТЕРИЗАЦИИ

2.1. Нечеткие отношения сходства

2.2. Инвариантные кластерные процедуры

2.3. Общая схема инвариантных иерархических кластерных алгоритмов

2.4. Кластерные процедуры с тождественными функциями ^ - Гз

2.5. Кластерные процедуры, основанные на идее «обрыва мостов»

2.6. Гибридная процедура реляционной кластеризации с визуализацией сильных связей между объектами

ГЛАВА 3. ЭВОЛЮЦИОННЫЕ ПРОЦЕДУРЫ ВИЗУАЛИЗАЦИИ МНОГОМЕРНЫХ ДАННЫХ

3.1. Постановка задачи визуализации данных

3.2. Эволюционная процедура двумерной визуализации данных

3.3. Эволюционная процедура трехмерной визуализации данных

3.4. Гибридная кластеризация с двухмерной визуализацией результатов кластеризации данных

3.5. Гибридная кластеризация с трехмерной визуализацией результатов кластеризации данных

ГЛАВА 4. ОПИСАНИЕ КОМПЛЕКСА ПРОГРАММ ГИБРИДНОЙ КЛАСТЕРИЗАЦИИ

4.1. Описание комплекса программ

4.2. Преобразование скользящих аппроксимаций

4.3. Применение метода гибридной кластеризации с визуализацией сильных связей для исследования связей между инвестициями регионов Приволжского Федерального Округа

4.4. Применение метода гибридной кластеризации к анализу взаимодействия нефтяных скважин

4.5. Применение метода гибридной кластеризации к анализу среднего потребления электроэнергии странами бывшего Советского Союза

ЗАКЛЮЧЕНИЕ

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

Введение диссертации (часть автореферата) на тему «Модели и методы гибридной реляционной кластеризации данных»

ВВЕДЕНИЕ

Актуальность. Кластеризация данных играет большую роль в анализе данных в экономике, в социальных науках, в технике, биологии, геологии, астрономии и в других научных областях. Кластеризация позволяет представить исследуемые данные в виде разбиения на классы сходных объектов, что является одним из важных этапов формирования знаний об исследуемой предметной области, ее моделирования и анализа [1, 2, 3, 4, 5, 6-8]. Кластерный анализ активно развивается последние десятилетия, однако «идеальных» алгоритмов кластеризации до сих пор не разработано и, по-видимому, разработано быть не может, что можно объяснить следующими причинами. Во-первых, структура реальных данных не всегда может быть адекватно представлена в виде разбиения на классы сходных объектов; во-вторых, данные могут допускать различные разбиения на классы сходных объектов; в-третьих, помимо структуры классов сходства, формируемой кластерным алгоритмом, часто желательно выявить дополнительную информацию о связях между объектами. Поэтому актуальной является задача разработки гибридных методов кластеризации, дающих новые методы представления структуры данных на основе кластерного анализа. В настоящее время активно развиваются методы сочетания нескольких кластерных процедур, методы комбинирования кластеризации с визуализацией данных и др. [9-13]. При этом важным является использование кластерных алгоритмов, удовлетворяющих условиям инвариантности относительно исходной нумерации (перестановки) кластеризуемых объектов и инвариантности относительно монотонных преобразований значений сходства [14-26]. К сожалению, эти условия инвариантности не выполняются для большинства известных кластерных алгоритмов. Поэтому важной является задача разработки гибридных кластерных алгоритмов, удовлетворяющих указанным условиям инвариантности. В работах Батыршина И.З. и др. разработана реляционная схема иерархических инвариантных процедур кластеризации, основанная на преобразовании заданного взвешенного отношения сходства во взвешенное (нечеткое) отношение

эквивалентности, определяющее иерархию разбиения множества объектов на кластеры определенного типа. Перспективной является задача расширения этой схемы для выделения кластеров новых типов и разработки гибридных кластерных процедур на ее основе.

Цель работы: Разработка моделей, методов и комплекса программ гибридной кластеризации данных на основе реляционных инвариантных процедур кластеризации.

Задачи исследования.

1. Теоретическое исследование свойств реляционной схемы инвариантных иерархических кластерных процедур с целью исследования возможности ее расширения на новые типы кластеров.

2. Разработка и реализация новых реляционных инвариантных процедур иерархической кластеризации.

3. Разработка методов гибридной кластеризации на основе реляционных кластерных процедур.

4. Создание комплекса программ гибридной реляционной кластеризации данных.

Методы исследования: кластерный анализ, теория нечетких множеств, теория графов, теория генетических алгоритмов.

Научная новизна работы.

1. Получено теоретическое обоснование реляционной схемы инвариантных иерархических кластерных процедур.

2. Предложено расширение реляционной схемы инвариантных иерархических кластерных процедур, содержащее новые кластерные процедуры.

3. Разработаны методы построения моделей данных в виде инвариантных (относительно исходной нумерации и относительно монотонных преобразований значений сходства) кластеров сходных объектов, сетей сходства и их визуализации в двумерном и трехмерном пространствах.

4. Разработаны численные методы поиска оптимальных представлений данных в виде кластеров и визуализации этих кластеров.

Достоверность результатов диссертационной работы подтверждается результатами экспериментов и практического использования материалов диссертации, и разработанного пакета программ.

Практическая значимость работы состоит в разработке в среде МАТЛАБ пакета программ гибридной реляционной кластеризации данных, позволяющего исследовать инвариантные структуры сходства в задачах кластеризации данных и анализа структуры систем, в разработке методов визуализации и гибридной кластеризации данных, в разработке методов анализа взаимодействия скважин нефтяного месторождения на основе данных добычи нефти и сопутствующей воды. Результаты работы внедрены в Институте проблем информатики АН РТ, Министерстве образования и науки РТ.

Апробация работы. Основные положения и результаты работы обсуждены на международых конференциях "East West Fuzzy Colloquium" (Германия, Циттау, 2002, 2006) и "Fuzzy Sets and Soft Computing in Economics and Finance" (Санкт-Петербург, 2004, 2006), на II Всероссийской научно-технической конференции "Проблемы информатики в образовании, управлении, экономике и технике" (Пенза, 2002), III Международном научно-практическом семинаре "Интегрированные модели и мягкие вычисления в искусственном интеллекте" (Коломна, 2005), на Всероссийской конференции "Нечеткие системы и мягкие вычисления" (Тверь, 2006).

Публикации результатов работы. Основные выводы и положения диссертации изложены в 17 печатных работах. Среди них 3 статьи в журналах из перечня ВАК, 8 - в материалах конференций, 6 - в журналах и сборниках научных работ академических и центральных изданий.

Ряд результатов диссертационной работы получен в рамках проектов фонда НИОКР и АН РТ (05-5.2-173/2002) и РФФИ (03-01-96-245-р200) по теме "Разработка методов моделирования процессов и систем на основе нечеткой логики, нечетких отношений и нейронных сетей", 02-01-00092-а "Разработка моделей и методов вычисления словами на основе гранулирования информации о нечетких зависимостях и оптимизации нечетких моделей по параметрам

операций", а также совместных исследований с учеными Мексиканского нефтяного института.

Структура и объем работы. Диссертационная работа состоит из введения, обзора существующих методов кластеризации и визуализации данных, анализа традиционных подходов к классификации и визуализации, исследования свойств реляционной схемы инвариантных иерархических кластерных процедур, разработки новой инвариантной иерархической кластерной процедуры, разработки методов гибридной кластеризации с визуализацией сильных связей, разработки методов визуализации данных с использованием генетических алгоритмов оптимизации, разработки и реализации методов гибридной кластеризации с генетическими алгоритмами 2-х и 3-х мерной визуализации данных, заключения и списка литературы.

Первая глава "Обзор методов кластеризации и визуализации данных и постановка задачи исследования" посвящена анализу работ по кластерному анализу, методам визуализации многомерных данных, гибридному кластерному анализу, и формулировке целей исследования.

Вторая глава "Инвариантные процедуры реляционной иерархической кластеризации" посвящена изложению теоретического обоснования схемы инвариантных реляционных иерархических кластерных процедур, описанию новой инвариантной реляционной кластерной процедуры, основанной на идее «разрыва мостов между кластерами», описанию гибридной процедуры реляционной кластеризации с визуализацией сильных связей между объектами.

Требования инвариантности кластерных процедур относительно монотонных преобразований значений сходства между объектами и инвариантности относительно перестановки объектов являются наиболее важными требованиями к кластерным алгоритмам. Первое требование необходимо, если значения сходства измерены экспертами или могут быть выражены только в порядковой шкале. Это требование также желательно для нечувствительности результатов кластеризации к выбору меры сходства или различий. Второе требование необходимо, если мы хотим получить как результат

кластерной процедуры кластеризацию данных, которая не зависит от выбора начальной нумерации объектов.

Некоторые общие связанные подходы к построению и исследованию иерархических кластерных алгоритмов используют как начальную информацию об объектах функцию близости между ними. В данном случае используется подход, основанный на понятии нечеткого отношения сходства. Задача иерархической кластеризации рассматривается как задача преобразования взвешенного отношения сходства во взвешенное отношение эквивалентности. Рассматриваются свойства взвешенных отношений сходства. Приводится схема реляционных инвариантных иерархических кластерных процедур и ее теоретическое обоснование. Приводится расширение построения инвариантной схемы кластерных алгоритмов, позволяющее разрывать кластеры, которые можно рассматривать как мосты между "естественными" кластерами, а также методы гибридной кластеризации с визуализацией сильных связей между объектами.

Третья глава "Эволюционные процедуры визуализации данных" описывает процедуры двух- и трехмерной визуализации данных, основанные на генетических алгоритмах, и метод гибридной кластеризации с двух- и трехмерной визуализацией результатов кластеризации данных.

При классификации данных информация о расстояниях между объектами и их пространственном расположении, как правило, теряется, хотя она является важной для понимания структуры данных. Подобную информацию о взаимном пространственном расположении объектов дают методы визуализации данных -представления исходного множества объектов в двух- или трехмерном пространстве.

В данной работе задача визуализации рассматривается как задача минимизации искажений исходных расстояний между объектами, при их представлении в двух- или трехмерном пространстве. Существующие методы оптимизации, как правило, дают локальный оптимум для этой задачи. Здесь предложено применение генетического алгоритма оптимизации.

Рассмотрено совместное использование методов иерархической кластеризации с методами визуализации данных. Цель этого подхода расширить информацию о кластеризации объектов с помощью визуализации на столько, насколько это позволяют исходные расстояния между объектами внутри построенных кластеров. Потому что все кластеры, в конечном счете, будут объединены в один кластер, расстояния между объектами из разных кластеров так же будут последовательно оптимизированы, когда эти кластеры объединяться вместе на высшем уровне иерархии. Необходимо отметить, что обычно невозможно преобразовать данные из и-мерного в двумерное или трехмерное пространство без изменений значений расстояния. По этой причине второй подход к визуализации пытается уменьшить изменения расстояний между объектами внутри маленьких классов за счет увеличения изменений расстояний между объектами из разных классов на высших уровнях иерархии.

Четвертая глава "Описание комплекса программ гибридной кластеризации" содержит описание комплекса программ, реализующего разработанные методы, описание нового подхода к анализу экономических и статистических временных рядов, основанного на использовании меры ассоциаций локальных трендов [27] и процедур гибридной кластеризации. Данный подход использовался для исследования связей между динамикой инвестиций в основной капитал за 1999 - 2004 гг. на примере 14 регионов Приволжского Федерального округа, для исследования взаимодействия нефтяных скважин на примере одного из Мексиканских месторождений и для анализа уровня потребления электроэнергии странами бывшего Советского Союза за 1992-2004.

В заключении приведены основные результаты исследований, представленные в диссертационной работе.

Основные результаты работы и выводы

1. Разработана общая схема гибридных реляционных кластерных алгоритмов.

2. Получено обоснование реляционной схемы инвариантных иерархических кластерных процедур и разработана новая инвариантная иерархическая кластерная процедура этой схемы.

3. Разработан метод гибридной кластеризации с визуализацией сильных связей.

4. Разработаны и реализованы новые инвариантные процедуры иерархической кластеризации.

5. Разработаны генетические алгоритмы 2-х и 3-х мерной визуализации данных.

6. Разработаны и реализованы методы гибридной кластеризации с генетическими алгоритмами 2-х и 3-х мерной визуализации данных.

7. Разработан пакет программ гибридной кластеризации данных в ИС Ма^аЬ.

8. Разработанные в работе алгоритмы кластеризации являются инвариантными относительно монотонного преобразования значений сходства и исходной нумерации объектов (глава 1), и параметрическими, что позволяет решать широкий класс задач анализа данных.

9. Алгоритмы визуализации позволяют представить многомерные данные в пространстве размерности два или три с ошибкой аппроксимации исходной матрицы расстояний матрицей расстояний двумерного или трехмерного представления объектов, меньшей чем ошибка аппроксимации представления, полученного другими методами (например, методами неметрического шкалирования, методами оптимизации (разделы 3.2 и 3.3)).

Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Климова, Анжелика Сергеевна

ЗАКЛЮЧЕНИЕ

1. Проведен сравнительный анализ существующих методов кластеризации и визуализации данных.

2. Получено теоретическое обоснование основной схемы инвариантных иерархических кластерных алгоритмов.

3. Разработан и реализован инвариантный алгоритм иерархической кластеризации, основанный на идее «разрыва мостов между кластерами». Этот алгоритм обладает свойством инвариантности относительно нумерации объектов. В основе этого алгоритма лежит процедура транзитивного преобразования взвешенного отношения сходства во взвешенное отношение эквивалентности.

4. Адаптированы генетические алгоритмы к задаче визуализации многомерных данных.

5. Разработаны и реализованы процедуры 2-х и 3-х мерной визуализации многомерных данных и исследована их результативность. Сравнение описанных эволюционных процедур со стандартными алгоритмами оптимизации и известными методами визуализации данных показывает, что такой подход к визуализации данных с помощью генетического алгоритма обычно дает возможность получить более оптимальные решения.

6. Разработаны и реализованы процедуры гибридной кластеризации с 2-х и 3-х мерной визуализацией результатов кластеризации данных и исследована их результативность. Сочетание кластеризации с визуализацией данных, позволяет дополнять структуру классов сходных объектов визуальной информацией о взаимном расположении объектов, что предоставляет исследователю дополнительные возможности для анализа данных. При использовании данного подхода, сочетающего классификацию и визуализацию данных, генетический алгоритм, как правило, дает еще более лучшие результаты, чем при применении эволюционных процедур визуализации независимо от алгоритмов классификации. Этот метод был использован в задаче анализа уровня потребления электроэнергии странами бывшего Советского Союза за 1992-2004.

7. Разработаны и реализованы процедуры гибридной кластеризации с визуализацией сильных связей между объектами, сочетающий инвариантную кластеризацию с визуализацией сильных связей между объектами. Этот метод исходит из того, что структура данных может не содержать «естественной» кластеризации, и визуализация сильных связей может быть полезна для анализа отклонения полученной кластеризации от структуры данных. Данный подход использовался для исследования связей между динамикой инвестиций в основной капитал за 1999 - 2004 гг. на примере 14 регионов Приволжского Федерального округа и для анализа взаимодействия нефтяных скважин одного из Мексиканских месторождений.

Список литературы диссертационного исследования кандидат технических наук Климова, Анжелика Сергеевна, 2013 год

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1. Загоруйко, Н.Г. Методы распознавания и их применение/ Н.Г.Загоруйко. -М.: Советское радио, 1972. - 208 с.

2. Delgado, M. On the use of hierarchical clustering in fuzzy modeling / M. Delgado, A.F.Gómez-Skarmeta, A.Vila // International Journal of Approximate Reasoning. -1996. - № 14.-P. 237-257.

3. Барсегян, A.A. Технологии анализа данных: DataMining, VisualMining, TextMining, OLAP / А.А.Барсегян, М.С.Куприянов, В.В.Степаненко, И.И. Холод - 2-е изд., перераб. и доп. - СПб.: БХВ-Петербург, 2008. - 384 с.

4. Бериков, B.C. Современные тенденции в кластерном анализе / В.С.Бериков, Г.С. Лбов // Всероссийский конкурсный отбор обзорно-аналитических статей по приоритетному направлению «Информационно-телекоммуникационные системы». - 2008. - 26 с.

5. Härdle, W. Applied Multivariate Statistical Analysis / W. Härdle, L. Simar -Springer-Verlag, Berlin-Heidelberg, 2007. - 455 p.

6. Наместников, A.M., Филиппов, A.A. Нечеткая кластеризация концептуальных индексов проектных документов/ A.M. Наместников, A.A. Филиппов ././ Интегрированные модели и мягкие вычисления в искусственном интеллекте. Сборник научных трудов VI-й Международной научно-технической конференции. -2011. -Т2. - С. 958-969.

7. Островский, A.A. Вариант параллельного выполнения алгоритма FCM-кластеризации/ A.A. Островский// Интегрированные модели и мягкие вычисления в искусственном интеллекте. Сборник научных трудов V-й Международной научно-технической конференции- 2009. - Т2. - С. 886897.

8. Радионова, Ю.А. Методика оценки эффективности методов кластеризации при построении интеллектуального репозитария/ Ю.А. Радионова// Интегрированные модели и мягкие вычисления в искусственном интеллекте. Сборник научных трудов V-й Международной научно-технической конференции. - 2009. - Т2- С. 897-908.

9. Strehl, A. Cluster Ensembles - A Knowledge Reuse Framework for Combining Multiple Partitions / A. Strehl, J. Ghosh // Journal of Machine Learning Research. - 2002. -№3. - P. 583-617.

10. Jain, A.K. Data Clustering: A Review / A.K. Jain, M.N. Murty, P.J. Flynn // ACM Computing Surveys. - 1999. - Vol. 31, № 3. - P. 264-323.

11. Murty, M.N. Computationally efficient technique for data clustering / M.N. Murty, G. A. Krishna // Pattern Recogn. - 1980. - № 12. - P. 153-158.

12. Babu, G.P. Clustering with evolution strategies / G.P. Babu, M.N.Murty // Pattern Recogn. - 1994. -№ 27. - P. 321-329.

13. Батыршин, И.З. Нечеткие гибридные системы. Теория и практика/ И.З. Батыршин, А.О. Недосекин, А.А. Стецко, В.Б. Тарасов, А.В. Язенин, Н.Г. Ярушкина. - М.: Физматлит, 2007. - 208 с.

14. Jardine, N. Mathematical taxonomy / N. Jardine, R. Sibson//London: John Wiley & Sons. - 1971.-286 p.

15. Johnson, S.C. Hierarchical clustering schemes. // Psychometrika. - 1967. - № 32. -P. 241-254.

16. Батыршин, И.З. Методы анализа систем на основе взвешенных отношений: дис. канд. техн. наук: 05.13.17 - «Теоретические основы информатики»/ Ильдар Закирзянович Батыршин. - М., 1982. - 218 с.

17. Butyrshin, I. On two dimensional visualization of hierarchical clustering / I. Butyrshin, L. Sheremetov, A. Klimova // IEEE International Conference Сотр. Cybern, ICCC 2003. -Hungary- Siofok. - 2003. - P. 181-184.

18. Батыршин, И.З. О визуализации результатов классификации / И.З. Батыршин, А.С. Климова // Труды Международных научно-технических конференций "Интеллектуальные системы" (IEEE AIS'03) и "Интеллектуальные САПР" (CAD-2003). - М.: "Физматлит", 2003. - Т2 - С. 172-177.

19. Батыршин, И.З. Трехмерная визуализация результатов кластеризации / И.З. Батыршин, А.С.Климова// XIV Международная научно-техническая конференция «Математические методы и информационные технологии в экономике, социологии и образовании». - Пенза, 2004. - С. 272-275.

20. Климова, А.С. Методы гибридной реляционной кластеризации в анализе среднего потребления электроэнергии странами бывшего Советского Союза/ А.С. Климова// Известия высших учебных заведений. Проблемы энергетики.- 2008. -Вып. №5-6. - С. 124-127.

21. Батыршин, И.З. Гибридная кластеризация на основе реляционной схемы инвариантных кластерных процедур / И.З. Батыршин, А.С. Климова// Вестник Тверского государственного университета. Серия: Прикладная математика - 2007. - Вып. № 7. - С. 27-42.

22. Батыршин, И.З. Анализ взаимодействия нефтяных скважин на основе гибридной кластеризации временных рядов продуктивности скважин/ И.З. Батыршин, А. Кошульски, Л.Б. Шереметов, А.С. Климова, A.M. Панова// Нечёткие системы и мягкие вычисления. - 2007. - Т2.- №4. - С. 63-73.

23. Batyrshin, I.Z. Hybrid clustering of time series / I.Z. Batyrshin, L.B. Sheremetov, J.X.Velasco-Hernandez, A.S.Klimova // In: East West Fuzzy Colloquium 2006, 13th Zittau Fuzzy Colloquium. - Germany -HS Zittau - Gorlitz. - 2006. - P. 140146.

24. Batyrshin, I.Z. Combining local trend association network and clustering in visualization of relationships in time series data bases / I.Z.Batyrshin, A.S. Klimova, L.B.Sheremetov, J.X.Velasco-Hernandez // In: FSSCEF 2006, Proc. Intern. Conf. Fuzzy Sets and Soft Computing in Economics and Finance. - St. Petersburg, Russia.- 2006. - P. 242-251.

25. Батыршин, И.З. Трехмерная визуализация результатов кластеризации/ И.З. Батыршин, А.С. Климова// XIV Международная научно-техническая конференция «Математические методы и информационные технологии в экономике, социологии и образовании». - Пенза, 2004. - С. 272-275.

26. Климова, А.С. Применение методов гибридной кластеризации к анализу нефтяных скважин / А.С.Климова, И.З.Батыршин, Н.К.Шайдуллина// Вестник Казанского технологического университета. - 2013. - № 8. - С. 297301.

27. Batyrshin, I.Z. Combining local trend association network and clustering in visualization of relationships in time series data bases / I.Z. Batyrshin, A.S.Klimova, L.B.Sheremetov, J.X. Velasco-Hernandez // Proc. Int. Conf. Fuzzy Sets and Soft Computing in Economics and Finance. - St. Petersburg, Russia. -2006.-P. 242-251.

28. Hubert, J.C. Monotone invariant clustering procedures/ J.C. Hubert // Psychometrica. - 1973. -Vol. 38. - №1 - P. 47-62.

29. Классификация и кластер: пер. с англ. / Дж. Вен Райзина, П.П. Кольцов, Ю.И. Журавлева. - М.: Мир, 1980. - 392 С.

30. Batyrshin, I. On invariance of clustering procedures /1. Batyrshin, R. Khabibulin // The journal of fuzzy mathematics. - 1998. -№ 6. - P. 721-733.

31. Хабибуллин, Р.Ф. Новые методы тестирования кластерных алгоритмов на инвариантность относительно нумерации объектов/ Р.Ф. Хабибуллин// Труды международного семинара "Мягкие вычисления - 96". - Казань, 1996. -С. 209-213.

32. Batyrshin, I. Invariant clustering procedures based on corrections of similarities /1. Batyrshin, T. Rudas // In: Proceedings of East West Fuzzy Colloquium. - Zittau, Germany, 2000. - P. 302-309.

33. Kiselev, M.V. LA - a clustering algorithm with an automated selection of attributes, which is invariant to functional transformations of coordinates / M.V. Kiselev, S.M. Ananayn, S.B. Arseniev // PKDD, volume 1704 of Lecture Notes in Computer Science. - Springer, 1999. - P. 366-371.

34. Batyrshin, I.Z. On general scheme of invariant clustering procedures based on fuzzy similarity relation / I.Z. Batyrshin, T.Rudas, A.S. Klimova // In: FSSCEF 2004, Proc. Internat. Conf. on Fuzzy Sets and Soft Computing in Economics and Finance. - St. Petersburg, Russia, 2004. -Vol. I. - P. 122-129.

35. Батыршин, И.З. Тестирование кластерных алгоритмов на инвариантность относительно нумерации объектов / И.З. Батыршин, Р.Ф. Хабибуллин // Известия академии наук. Теория и системы управления. - 1997. - № 2 - С. 165-168.

36. Batyrshin, I. A new invariant relational clustering procedures / I. Batyrshin, A. Klimova I I Proceedings East West Fuzzy Colloquium. - IPM, Zittau, Germany. -2002. - P. 264-269.

37. Батыршин, И.З. Структура семантического пространства словесных оценок поступков / И.З. Батыршин, В.А. Шустер // Принципиальные вопросы теории знаний. Труды по искусственному интеллекту. Ученые записки Тартуского гос. ун-та. - Тарту, 1984. - С. 20-38.

38. Lance, G.N. A general theory of classificatory sorting strategies / G.N. Lance, W.T. Williams //1. Hierarchical systems , Comput. J. - 1969. - Vol. 9, № 4. - P. 373-380.

39. Жамбю, M. Иерархический кластерный анализ/ M. Жамбю.- М.: Финансы и статистика, 1988. - 344 с.

40. Parniczky, G. A statisztikai informatika alapjai/ G. Parniczky. - Budapest: Statisztikai Kiado Vallalat. - 1976. - P. 318-319.

41. Barthelemy, J.P. Trees and Similarity Representations/ J.P. Barthelemy, A. Guenoche. - Chichester: John Wiley & Sons, 1991. - 238 p.

42. Peay, E.R. Nonmetric grouping: clusters and cliques/ E.R. Peay// Psychometrica. -1975. -Vol. 40. - № 3. - P. 297-313.

43. Jardine, C.J. The structure and construction of taxonomic hierarchies / C.J. Jardine, N. Jardine, R. Sibson//Math. Biosci. - 1967,- Vol.1. - P. 173-179.

44. Johnson, S.C. Hierarchical clustering schemes/ S.C. Johnson // Psychometrica. -1967.-Vol. 32-P. 241-254.

45. Альпин, Ю.А. О деревьях, порождающих ультраметрические матрицы / Ю.А. Альпин, А.С. Климова // Материалы Международной научной конференции «Актуальные проблемы математики и механики». - Казань: «Унипресс». -2000.-С. 15-16.

46. Nabben, R. Generalized ultrametric matrices - A class of inverse M- matrices / R. Nabben , R. S. Varga // Linear Algebra Appl. - 1995. - Vol. 220. - P. 365-390.

47. Alpin, J. The bases of weighted graphs / J. Alpin, R. Mubarakzianow // Discrete Math. - 1997. - Vol. 175.-P. 1-11.

48. Barthélémy, Jean-Pierre. Trees and proximity representations / Jean-Pierre Barthélémy, A. Guénoche. - New York: John Wiley & Sons, 1991. - 237 p.

49. Tamura, S. Pattern classification based on fuzzy relations / S. Tamura, S. Higuchi, K. Tanaka// IEEE Trans. SMC. - 1971. -Vol.1. - P. 61-66.

50. Zadeh, L.A. Similarity relations and fuzzy orderings/ L.A. Zadeh //Information Sciences. - 1973. -Vol. 3.-P. 177-200.

51. Fodor, J.C. Structure of transitive valued binary relations / J.C. Fodor, M. Roubens // Mathematical Social Sciences. - 1995. -Vol. 30 - P. 71-94.

52. Gupta, K.C. Fuzzy equivalence relation redefined / K.C. Gupta, R.K. Gupta // Fuzzy Sets and Systems. - 1996. - № 79. - P. 227-233.

53. Boixader, D. Transitive closure and betweenness relations / D. Boixader, J. Jacas, J. Recasens // Fuzzy Sets and Systems. - 2001. - № 120. - P. 415-422.

54. Dunn, J.C. A graph-theoretic analysis of pattern classification via Tamura's fuzzy relation/ J.C. Dunn// IEEE Trans. SMC. - 1974. - Vol. 4. - P. 310-313.

55. Lee, Hsuan-Shih. An optimal algorithm for computing the max-min transitive closure of a fuzzy similarity matrix/ Hsuan-Shih Lee // Fuzzy Sets and Systems. -2001.-№ 123.-P. 129-136.

56. Батыршик, И.З. Гибридная реляционная кластеризация и визуализация данных / И.З. Батыршин, А.С. Климова // Труды Всеросс. научн. конф. по нечетким системам и мягким вычислениям НСМВ-2006. - М.: Физматлит. -2006.-С. 193-209.

57. Сокал, P.P. Кластер-анализ и классификация: предпосылки и основные направления/ P.P. Сокал // Классификация и кластер - М: Мир, 1980. - С. 719.

58. Guoyao, Fu. Optimization methods for fuzzy clustering/ Fu Guoyao // Fuzzy Sets and Systems. - 1998. - № 93. - P. 301-309.

59. Дуда, P. Распознавание образов и анализ сцен / Р. Дуда, П. Харт. - М.: Мир, 1976.-512 С.

60. Gorban, A. Principal Manifolds for Data Visualisation and Dimension Reduction / A. Gorban, B. Kegl, D. Wunsch, A. Zinovyev (Eds.) // LNCSE 58. - Springer, Berlin - Heidelberg - New York. - 2007. - P. 340.

61. Айвазян, С.А. Прикладная статистика: Классификация и снижение размерности: справочное издание / С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин. - М.: Финансы и статистика, 1989. - 608 с.

62. Терехина, А.Ю. Анализ данных методами многомерного шкалирования/ А.Ю. Терехина. - М.: Наука, 1986. - 165 с.

63. Дэйвисон, М. Многомерное шкалирование/ М. Дэйвисон. - М.: Финансы и статистика, 1988. - 128 с.

64. Толстова, Ю.Н. Основы многомерного шкалирования/ Ю.Н. Толстова. - Изд.: КДУ, 2006.- 160 с.

65. Скурихин, А.Н. Генетические алгоритмы/ А.Н. Скурихин // Новости искусственного интеллекта. - 1995. - № 4 - С. 6-46.

66. Васильев, В.И. Интеллектуальные системы управления с использованием генетических алгоритмов / В.И. Васильев, Б.Г. Ильясов. - Уфа: Редакционно-издательский комплекс УГАТУ, 1999. - 106 с.

67. Дюран, Б. Кластерный анализ / Б. Дюран, П. Оделл. - М.: Статистика, 1977. -128 с.

68. Мандель, И.Д. Кластерный анализ/ И.Д. Мандель. - М.: Финансы и статистика, 1988. - 176 с.

69. Zhou, A. A Hybrid approach to clustering in very large databases / A. Zhou, W.Qian, H.Qian, J.Wen, Sh.Zhou, Y.Fan // PAKDD 2001, LNAI 2035. - 2001. -P. 519-524.

70. Батыршин, И.З. Инвариантные иерархические алгоритмы кластеризации, основанные на коррекции значений сходства / И.З. Батыршин, A.C. Климова // Материалы Ш-го Международного научно-практического семинара "Интегрированные модели и мягкие вычисления в искусственном интеллекте". - 2005. - С. 119-125.

71. Батыршин, И.З. Эволюционные процедуры иерархической двухмерной визуализации данных / И.З.Батыршин, А.С.Климова // Исследования по информатике. Институт проблем информатики АН РТ. - Казань: Отечество. --2004.-№ 7. -С. 119-124.

72. Пегат, А. Нечеткое моделирование и управление: пер. с англ. / А. Пегат. -М.:БИНОМ. Лаборатория знаний, 2009. - 798 с.

73. Блюмин, C.JI. Нечеткая логика: алгебраические основы и приложения/ C.JI. Блюмин, И.А. Шуйкова, П.В.Сараев П.В. - Липецк: ЛЭГИ. - 2002. - 113 с.

74. Рыбин, В.В. Основы теории нечетких множеств и нечеткой логики/ В.В. Рыбин. - М.: МАИ, 2007. - 96 с.

75. Деменков, Н.П. Нечеткое управление в технических системах/ Н.П. Деменков. - Издательство: МГТУ им. Н.Э.Баумана, 2005. - 200 с.

76. Поспелов, Д.А. Логико-лингвистические модели в системах управления/ Д.А. Поспелов. - М.: Энергоиздат, 1981. - 232 с.

77. Поспелов, Д.А. Большие системы. Ситуационное управление/ Д.А. Поспелов. -М.: Знание, 1975.-62 с.

78. Batyrshin, I. Invariant clustering procedures based on corrections of similarities /1. Batyrshin, T. Rudas // In: Proceedings of East West Fuzzy Colloquium. -Germany- Zittau. - 2000. - P. 302-309.

79. Batyrshin, I. On general scheme of invariant clustering procedures based on fuzzy similarity relation / I. Batyrshin, T. Rdas, A. Klimova // Proceedings International Conference on Fuzzy Sets and Soft Computing in Economics and Finance. - Saint-Petersburg, Russia, 2004. - P. 122-129.

80. Ахо, А. Построение и анализ вычислительных алгоритмов / А. Ахо, Дж. Хопкрофт, Дж. Ульман. - М.: Мир, 1979. - 536 с.

81. Reingold, Е.М. Combinatorial Algorithms. Theory and Practice / E.M. Reingold, J. Nievergelt, N. Deo. - New Jersey: Prentice-Hall. - 1977. - 433 p.

82. Golberg, E. Genetic algorithm in search, optimization and machine learning / E. Golberg. - Addison-Wesley Publishing Company, Reading, MA. - 1989. - P. 403.

83. Лю, Б. Теория и практика неопределенного программирования: пер. с англ./ Б.Лю. - М.:БИНОМ. Лаборатория знаний, 2005. - 416 с.

84. Чекина, А.В. Генетическая кластеризация информационных ресурсов/ А.В. Чекина// Интегрированные модели и мягкие вычисления в искусственном интеллекте. Сборник научных трудов VI-й Международной научно-технической конференции. - М.:Физматлит. - 2011. - Т2. - С. 648-660.

85. Klimova, A. Evolutionary procedures of visualization of multidimensional data/

A.Klimova// Proceedings International Conference on Fuzzy Sets and Soft Computing in Economics and Finance. - Saint-Petersburg, Russia, 2004. - P. 130139.

86. World Stock Market Data Base [Электронный ресурс]. - Режим доступа: http://www.countrybriefings.com.

87. Hand, D. Principles of Data Mining / D. Hand, H. Manilla, P.Smyth. - MIT Press, Cambridge. - 2001. - 546 p.

88. KDnuggets: Polls: Time-Series Data Mining (Nov 2004). What Types of Time-Series Data Mining You've Done? [Электронный ресурс]. - Режим дocтyпa:http://www.kdnuggets.com/polls/2004/time_series_data_mining.htm.

89. Agrawal, R. Efficient similarity search in sequence databases / R. Agrawal, C. Faloutsos, A. Swami // Proc. 4th Int. Conf. Foundations of Data Organization and Algorithms. - Chicago, 1993. - P. 69-84.

90. Bollobas, B. Time-Series Similarity Problems and Well-Separated Geometric Sets/

B. Bollobas, G. Das, D. Gunopulos, H. Mannila // in Proc. of 13th Annual ACM Symposium on Computational Geometry. - 1998. - P. 454-456.

91. Wu, Y.-L. A Comparison of DFT and DWT Based Similarity Search in Time-Series Databases / Y.-L. Wu, D. Agrawal, A.E.Abbadi // in: Proceedings of the 9th ACM Int'l. Conference on Information and Knowledge Management CIKM. -McLean, VA, 2000. - P. 488-495.

92. Batyrshin, I. Moving approximations in time series data mining / I. Batyrshin, R. Herrera, L. Sheremetov, R. Suarez // in: Proc. of Int. Conference on Fuzzy Sets and

к.

Soft Computing in Economies and Finance. - St. Petersburg, Russia, June 17-20, 2004.-Vol. l.-P. 62-72.

93. Batyrshin, I. Association networks in time sériés data mining / I. Batyrshin, R.Herrera-Avelar, L. Sheremetov, A. Panova // NAFIPS 2005. Soft Computing for Real World Applications, Ann Arbor. - Michigan, USA. - 2005. - P. 754-759.

94. Батыршин, И.З. Преобразование скользящих аппроксимаций и ассоциативные сети в сравнительном анализе статистических рядов динамики / И.З. Батыршин, Л.Б. Шереметов, А.М. Панова, А.С. Климова // Исследования по информатике. - Казань: Отечество, 2006. - Вып. 11. - С. 3548.

95. Батыршин, И.З. О визуализации многомерных данных / И.З. Батыршин, А.С. Климова // Материалы II Всероссийской научно-технической конференции «Проблемы информатики в образовании, управлении, экономике и технике». -Пенза, 2002.-С. 156-158.

96. Россия в цифрах. Федеральная служба государственной статистики [Электронный ресурс]. - Режим

flocTyna:http://www.gks.ru/scripts/db_inet/dbinet.cgi?pl=2702005.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Модели и методы гибридной реляционной кластеризации данных тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат технических наук Климова, Анжелика Сергеевна

Оглавление диссертации кандидат технических наук Климова, Анжелика Сергеевна

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Исследование и разработка инвариантных кластерных алгоритмов1998 год, кандидат технических наук Хабибулин, Руслан Фаритович

Разработка и исследование методов кластерного анализа слабоструктурированных данных2012 год, кандидат физико-математических наук Хачумов, Михаил Вячеславович

Методы двухэтапной и многокритериальной кластеризации данных выборок больших объемов2008 год, кандидат технических наук Киреев, Василий Сергеевич

Введение диссертации (часть автореферата) на тему «Модели и методы гибридной реляционной кластеризации данных»

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Методы построения коллективных решений задачи кластерного анализа2005 год, кандидат физико-математических наук Бирюков, Андрей Сергеевич

Гибридные алгоритмы анализа и обработки данных в задачах поддержки принятия решений2011 год, кандидат технических наук Титов, Сергей Борисович

Моделирование обобщенных процедур кластеризации и анализ данных сложной структуры2007 год, кандидат технических наук Тарасова, Алина Сергеевна

Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Климова, Анжелика Сергеевна

Список литературы диссертационного исследования кандидат технических наук Климова, Анжелика Сергеевна, 2013 год