Разработка и исследование методов кластерного анализа слабоструктурированных данных

Хачумов, Михаил Вячеславович

Разработка и исследование методов кластерного анализа слабоструктурированных данных тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат физико-математических наук Хачумов, Михаил Вячеславович

Хачумов, Михаил Вячеславович
кандидат физико-математических наук
2012

Специальность ВАК РФ05.13.17

Количество страниц 106

Хачумов, Михаил Вячеславович. Разработка и исследование методов кластерного анализа слабоструктурированных данных: дис. кандидат физико-математических наук: 05.13.17 - Теоретические основы информатики. Москва. 2012. 106 с.

Оглавление диссертации кандидат физико-математических наук Хачумов, Михаил Вячеславович

СОДЕРЖАНИЕ

ВВЕДЕНИЕ

ГЛАВА 1. АНАЛИЗ ПРОБЛЕМНЫХ ВОПРОСОВ КЛАСТЕРИЗАЦИИ И

КЛАССИФИКАЦИИ СЛАБОСТРУКТУРИРОВАННЫХ ДАННЫХ

1Л. Модели представления слабо структурированной информации

1.1.1. Табличный способ задания исходных данных

1.1.2. Мультимножества для описания многопризнаковых данных

1.1.3. Фазовые траектории для описания многомодальных данных

1.2. Постановка задач кластеризации и классификации

1.2.1. Постановка задачи кластеризации

1.2.2. Постановка задачи классификации

1.3. Анализ мер близости и расстояний. Основные понятия и определения

1.4. Методы выбора первоначального числа кластеров

1.4.1. Метод последовательного сокращения числа кластеров

1.4.2. Метод последовательного увеличения числа кластеров

1.4.3. Метод выбора числа кластеров направленным объединением

1.5. Проблема и модели начального расположения кластеров

1.5.1. Сферическая (пространственная) модель размещения кластеров

1.5.2. Модель линейных зависимостей

1.6. Методы кластерного анализа

1.6.1. Классификация на основе метода МГУ А

1.6.2. Неиерархические методы кластеризации. Алгоритм к-теат

1.6.3. Иерархические методы кластеризации

1.6.4. Искусственные нейронные сети

1.7. Особенности задачи кластеризации документов

1.7.1.Методы кластеризации документов

1.7.2.Постановка задачи классификации текстов на естественном языке

1.7.3.Проблемные вопросы и совершенствование методов кластерного анализа

1.8. Основные выводы по Главе 1

ГЛАВА 2. АНАЛИЗ МЕТРИК И ПОСТРОЕНИЕ МОДЕЛЕЙ РАЗМЕЩЕНИЯ ТОЧЕК НА СФЕРЕ ДЛЯ РЕШЕНИЯ ЗАДАЧ ГЕОМЕТРИЧЕСКОЙ КЛАСТЕРИЗАЦИИ

2.1. Метрика Махаланобиса. Предварительные исследования

2.2. Квазиметрика для измерения расстояний между классами

2.2.1. Принцип объединения матриц ковариаций

2.2.2. Построение квазиметрики для измерения расстояния между классами

2.3. Задача об оптимальном размещении точек на сфере

2.4. Основные выводы по Главе 2

ГЛАВА 3. РАЗРАБОТКА МЕТОДОВ КЛАСТЕРНОГО АНАЛИЗА НА ОСНОВЕ СЕТЕВОЙ МОДЕЛИ И ВАРЬИРОВАНИЯ РАЗМЕРНОСТИ ПРИЗНАКОВОГО ПРОСТРАНСТВА

3.1. Метод геометрической кластеризации на основе сетевой модели

3.1.1.Постановка задачи

3.1.2. Общая схема метода

3.2. Применение сетевой модели для решения задачи коммивояжера

3.2.1. Задача коммивояжера

3.2.2. Решение задачи при равномерном размещением кчастеров

3.2.3. Стратегии движения нейронов

3.2.4. Экспериментачьные исследования сетевой модели

3.3. Оценки необходимого числа кластеров

3.3.1. Оценка числа кластеров для задачи о коммивояжере

3.3.2. Оценка числа кластеров для задачи кластеризации

3.4. Бинарная кластеризация на основе контура минимальной длины

3.5. Метод классификации на основе варьирования размерности пространства признаков

3.6. Совместное применение методов кластерного анализа

3.7. Основные выводы по Главе 3

ГЛАВА 4. ПРАКТИЧЕСКОЕ РЕШЕНИЕ ЗАДАЧ КЛАССИФИКАЦИИ И КЛАСТЕРИЗАЦИИ СЛАБОСТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

4.1. Анализ документов, представленных полутоновыми снимками

4.1.1.Постановка задачи двухэтапной кластеризации

4.1.2.Распознавание и кластеризация полутоновых изображений

4.1.3. Бинарная классификация полутоновых изображений

4.2. Особенности выделения букв и слов на полутоновых снимках

4.2.1. Особенности выделения букв

4.2.2. Особенности выделения ключевых слов

4.2.3. Применение ИНС для кластеризации текстов и изображений

4.3. Кластеризация текстовых документов на основе набора метрик

4.31. Извлечение корпуса релевантных текстовых документов

4.3.2. Образование учебной выборки и предварительный сбор статистики

4.3.3. Векторизация документов

4.3.4. Алгоритм кластеризации

4.3.5. Аннотирование кластеров

4.3.6. Распределение всех документов корпуса по кластерам (классификация)

4.3.7. Анализ качества выполнения кластеризации

Основные выводы по Главе 4

ЗАКЛЮЧЕНИЕ

Список литературы

Введение диссертации (часть автореферата) на тему «Разработка и исследование методов кластерного анализа слабоструктурированных данных»

ВВЕДЕНИЕ

Актуальность темы

В процессе поиска информации в Интернет или базах данных часто требуется найти и разбить документы на тематические группы определенного назначения - кластеры. Под кластерным анализом будем понимать решение задач кластеризации (построения классов (кластеров) по заданному множеству объектов) и классификации (распознавания), т.е. отнесения объектов к одному из классов с помощью решающего правила или измерения расстояний. Кластерный анализ предполагает также проверку гипотез и сокращение признакового пространства. Применительно к слабоструктурированным данным он предназначен для анализа текстов и изображений с помощью векторно-пространственных моделей (vector space model).

Геометрическая кластеризация (geometric clustering) относится к методам получения минимального или заданного числа компактных групп, реализуемых с помощью матриц расстояний и графов. В задаче геометрической кластеризации представлены точки потенциально высокоразмерного пространства, на котором определена метрика. Существенное значение имеет здесь сокращение размерности данных и визуализация результатов. Исследования геометрической кластеризации, в основном, представлены работами зарубежных ученых США: Still S., Bialek W., Bottou L., Sun J., Yao Y., Matousek J., Японии: Imai I., Inaba M., Imai H., Sadakane К. и др.

Большой вклад в развитие общей теории кластерного анализа внесли Moore A.W., Gray A.G., Pelleg D., Tryon R.C., Bailey D.E., Jain A.K., Dubes R.C. (алгоритмы и техника кластеризации); Ball G.H., Hall D.J., MacQueen J., Lloyd Stuart Р. (методы k-средних); Jordan M.I.; Moore A.W., Trevor H., Tibshirani R., Friedman J. (иерархические методы); Hardin R.H., Sloane N.J.A., Smith W.D., Sokal R.R., Sneath, P.H. (центроидный метод) и др. Заметный вклад в развитие методов кластерного анализа внесли и отечественные ученые: Дорофеюк A.A., Мучник И.Б., Растригин ДА., Загоруйко Н.Г и др.

Разработанные методы не учитывают возможность одновременной обработки графических и текстовых разделов документов. В то же время существенную поддержку системам поиска могут оказать подходы, использующие анализ графических образов, содержащихся во многих документах. Несмотря на разную природу текстов и изображений, многие методы их анализа являются общими. В частности, это касается моделей геометрического представления кластеров, выбора метрик и методов классификации. Большой вклад в развитие теории распознавания образов внесли зарубежные ученые Duba R., Hart Р., Той J.T., Gonsales R.C., Fukunaga К., Patrick E.,

Rosenblatt Frank (персептрон) Breiman L., Friedman J.H., Olshen R.A., Stone C.T., Quinlan J.R. (деревья решений) и отечественные ученые: Айвазян С.А., Айзерман М.А., Браверман Э.М. (метод потенциальных функций), Розоноэр Л.И., Вапник В.Н., Червоненкис А.Я. (статистическая теория распознавания). Ю.И.Журавлев (алгебраическая теория распознавания) и др. Вопросами классификации и кластеризации искусственными нейронными сетями (ИНС) занимались Rosenblatt F., Kohonen Т.К., Hopfield J. J., Verma В., HaykinS., MahoneyM., Cheng H., Wosserman F., Горбань A.H., Ясницкий JI.H. и другие исследователи. Вопросами одновременной обработки текста, графики и звука в рамках единой модели представления данных занимался отечественный исследователь Харламов A.A.

В настоящее время существует множество методик, осуществляющих кластеризацию документов. Назовем некоторые из них: Custom Search Folders, Latent Semantic Analysis/Indexing (LSA/LSI); Suffix Tree Clustering (STC); Single Link, Complete Link, Group Average; Scatter/Gather, K-means, Concept Indexing (CI); Self-Organizing Maps (SOM).

Несмотря на очевидный прогресс в этой области, до сих пор далеки от окончательного решения следующие проблемные теоретические вопросы: выбор первоначального расположения ядер кластеров, обоснование выбора метрик; создание метода унифицированной обработки текстов и графики; управление размерностью данных; ускорение процессов и повышение точности кластеризации. Это определяет актуальность темы исследования направленной на создание универсальных методов анализа слабоструктурированной информации.

Цель работы

Целью работы является развитие методов кластерного анализа слабоструктурированных данных на основе совершенствования математических моделей, метрик и инструментальных средств. Цель достигается решением следующих задач:

1 .Теоретическое исследование свойств метрик пространства Rp и построение на этой основе методов решения задач кластеризации и классификации;

2.Выдвижение гипотез и исследование теоретических вопросов первоначального размещения кластеров в многомерном пространстве;

3.Разработка и исследование методов кластерного анализа, основанных на модифицированной сетевой модели с набором метрик и способов начального размещения ядер кластеров, а также процедуре варьирования размерности пространства;

4.Применение разработанных методов для решения задач кластеризации и классификации на основе анализа текстовых и графических данных.

Методы исследования

В диссертационной работе использованы методы теории множеств, теории алгоритмов, методы обработки изображений. Исследования базируются на теории искусственных нейронных сетей, методах алгебраической теории распознавания изображений и моделирования многообъектных структур на ЭВМ.

Научная новизна

Научная новизна заключается в построении новых методов и алгоритмов, обеспечивающих решение задач кластерного анализа текстов и изображений:

1. Доказаны утверждения о том, что функции Махаланобиса и Евклида-Махаланобиса являются квазиметриками, что позволяет решать задачи измерения расстояний как внутри, так и между классами, а также между произвольной точкой и классами.

2. Доказана теорема о размещении точек в Р -мерном шаре при выполнении критерия максимального суммарного расстояния между точками. Выдвинута гипотеза о квазиравномерности размещения точек при том же критерии, которая частично подтверждена теоремами о равномерном размещении точек в круге и четырех точек в трехмерной сфере, что позволяет решать проблему первоначального размещения ядер кластеров, в том числе для задачи коммивояжера.

3. Разработан и исследован метод кластерного анализа данных, основанный на модифицированной сетевой модели с набором метрик и способов начального размещения кластеров, обеспечивающий единый подход к решению задач классификации и кластеризации слабо структурированных данных.

4. Разработан и исследован метод бинарной кластеризации, основанный на варьировании пространства признаков, который позволяет решать прямую и обратную задачи преобразования пространства признаков с представлением в них решающих функции.

Практическая значимость

Теория и алгоритмы геометрической кластеризации могут быть практически использованы в системах анализа слабоструктурированной информации. Предложенная математическая модель классификатора с набором метрик, включая квазиметрику Евклида-Махаланобиса, существенно расширяет возможности решения задач кластеризации и классификации за счет универсального представления разнородных данных и возможности выбора адекватной функции расстояния.

Разработанный метод варьирования размерности пространства признаков позволяет строить более простые модели (за счет уменьшения размерности) представления информации и разделяющих функций. Полученные результаты в целом могут найти широкое применение в современных Интернет-системах, осуществляющих поиск и

раскладку документов, обеспечивая большую релевантность за счет одновременного учета текстовой и графической информации. Кроме того, методы целесообразно использовать в системах распознавания графических образов широкого назначения.

Апробация работы

Основные результаты работы докладывались и обсуждались на следующих конференциях и семинарах:

1. Четвертая международная научно-техническая конференция «Исследование, разработка и применение высоких технологий в промышленности» (Санкт-Петербург, 02-05 октября, 2007 г.);

2. XVI Международная конференция по вычислительной механике и современным прикладным программным системам (Алушта, ВМСППС'2009, 25-31 мая 2009 г.);

3. Третья Всероссийская научная конференция «Нечеткие системы и мягкие вычисления» НСМВ-2009 (Волгоград, 21-24 сентября 2009 г.);

4. II Международная научно-практическая конференция «Наука и современность -2010» (Новосибирск, 16 апреля 2010 г.);

5. Девятая международная научно-практическая конференция «Исследование, разработка и применение высоких технологий в промышленности» (Санкт-Петербург, 22-23 апреля 2010 г.);

6. Первая всероссийская научная конференция с международным участием (ЭЛвМ-2011) «Системный анализ и семиотическое моделирование» (Казань, 24-28 февраля 2011г.);

7. Всероссийская конференция с международным участием «Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологических систем» (Москва, 18-22 апреля 2011 г.).

8. Всероссийская конференция с элементами научной школы для молодежи «Интеграция науки и образования как фактор опережающего развития профессионального образования» (Москва, 20 сентября 2011 года).

Публикации

Основные результаты диссертационной работы изложены в 13 печатных работах, в том числе четыре статьи опубликованы в рецензируемых изданиях, рекомендованных ВАК РФ.

Структура и объем диссертации. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы, включающего 85 наименований. Основная часть изложена на 106 страницах машинописного текста, иллюстрируется 25 рисунком и 19 таблицами.

Основное содержание работы

Во введении обоснована актуальность темы диссертации, сформулированы цели и задачи работы, раскрыты научная новизна и практическая ценность результатов работы, приведены данные об апробации результатов, их внедрении и о структуре работы.

В первой главе введены необходимые определения и приведен аналитический обзор проблемных актуальных вопросов кластерного анализа включая геометрическую кластеризацию и классификацию слабоструктурированной информации. Существенное внимание уделено геомерическим моделям размещения кластеров и обоснованию метрик. Приведены основные задачи и теоремы, даны предложения по усовершенствованию процедуры кластеризации и сформулированы задачи диссертационной работы. Основными задачами геометрической кластеризации являются; выбор числа кластеров, первоначальное размещение ядер, обоснование выбора метрик и методов, сокращение пространства признаков. Практическая часть работы направлена на создание технологии кластеризации слабоструктурированной информации.

Во второй главе дано обоснование математического аппарата, необходимого для решения проблемных вопросов классификации и кластеризации. Доказаны необходимые теоремы о метриках, сформулирована и доказана теорема о начальном расположении кластеров. Выдвинута гипотеза о равномерности размещения ядер кластеров и. рассмотрены некоторые геометрические случаи, когда точки кластера равномерно расположены в выпуклой оболочке на круге или сфере, даны два определения равномерного размещения ядер. Для задачи Томсона предложена модификация итерационного алгоритма практического размещения точек на сфере с трехмерной визуализацией.

Третья глава посвящена вопросам построения методов кластерного анализа. Модельная задача коммивояжера на основе сети Кохонена рассматривается как первый этап задачи кластеризации, вторым этапом которой является разбиение кортежа элементов на сфере на примерно равные подмножества. Получены оценки необходимого числа кластеров. Разработан метод решения задачи бинарной классификации на основе алгоритма варьирования размерности признакового пространства. Метод включает этапы снижения размерности п -мерного пространства признаков до двумерного, построения разделяющей гиперплоскости и ее обратном отображении в п -мерное пространство, что обеспечивает удобство решения задачи классификации непосредственно в системе исходных признаков. Предложенный подход позволяет проводить целенаправленные действия, обеспечивая отсутствие неопределенности в выборе параметров преобразования.

В четвертой главе представлены экспериментальные исследования качества алгоритмов и методов кластерного анализа слабоструктурированных данных на основе полученных теоретических результатов и разработанных программных инструментальных средств. Рассмотрены алгоритмы решения задач раздельной и совместной кластеризации и классификации текстовой и графической информации. Разработано программное обеспечение для выполнения кластерного анализа изображений и текстов. Эксперименты по одновременному обнаружению слов и изображений на скан-копии документа показали достаточно надежное выделение и распознавание целевых объектов. Выяснено, что для кластеризации лучше использовать комитет классификаторов, часть из которых настраивается на анализ текстовой части, а другая на графические элементы. Разработанные инструментальные средства могут быть применены для решения широкого класса задач (кластеризация текстов, кластеризация и распознавание графических образов, поиск целевых регионов на картах и др.).

Заключение содержит основные результаты и выводы по диссертационной работе.

Заключение диссертации по теме «Теоретические основы информатики», Хачумов, Михаил Вячеславович

Основные результаты и выводы

1.Доказаны утверждения о том, что функции Махаланобиса и Евклида-Махаланобиса являются квазиметриками. Использование набора метрик в задачах геометрической кластеризации и классификации позволяет решать задачи измерения расстояний как внутри, так и между классами, а также между произвольной точкой и классами.

2. Выдвинута гипотеза о квазиравномерности размещения точек на границе /»-шара при выполнении критерия максимального суммарного расстояния между точками, которая частично подтверждена теоремами о равномерном размещении точек в круге и четырех точек на трехмерной сфере (условию равномерности соответствует правильный тетраэдр). Это позволяет решать проблему первоначального размещения ядер кластеров, в том числе для задачи коммивояжера.

3. Доказана теорема о размещении ядер кластеров в р-мерном шаре при выполнении критерия максимального суммарного расстояния между ядрами.

4. Разработан метод кластерного анализа, основанный на применении модифицированной нейронной сети Кохонена с набором метрик и способов начального размещения ядер кластеров, что позволяет увеличить точность эвристического решения задачи коммивояжера, а также классификации изображений и аннотирования текстов.

5. Разработан метод кластерного анализа, рассчитанный на бинарную классификацию, основанный на варьировании пространства признаков и процедуре восстановления неизвестных значений таблицы признаков.

6. Разработаны алгоритмы и экспериментальное программное обеспечение для кластерного анализа слабо структурированной информации.

ЗАКЛЮЧЕНИЕ

Диссертация ставит своей целью развитие перспективного направления кластерного анализа слабоструктурированной информации, связанного с интеграцией методов интеллектуального анализа текстовых данных и графической информации. В ходе выполненных исследований решены следующие задачи:

1. Введены необходимые формальные определения, выполнены постановки задач, доказаны теоремы и леммы, обслуживающие задачу геометрической кластеризации.

3. Разработаны методы кластерного анализа для решения задач кластеризации и получены необходимые оценки выбора числа кластеров. Показана эффективность равномерного распределения кластеров для плоского случая применительно к задаче коммивояжера.

4. Решены задачи классификации графических элементов (букв, слов, локальных графических объектов) на полутоновых снимках.

5.Создано программное обеспечение и проведены эксперименты по геометрической кластеризации и классификации слабоструктурированной информации, подтверждающие основные положения сформулированных подходов.

Разработанные инструментальные средства целесообразно использовать в поисковых системах, способных одновременно анализировать текстовую и графическую информацию, содержащуюся в документах, что позволит повысить эффективность поиска и точность кластеризации.

Список литературы диссертационного исследования кандидат физико-математических наук Хачумов, Михаил Вячеславович, 2012 год

Список литературы

1. Журавлев Ю.И., Рязанов В.В., Сенько О.В. Распознавание. Математические методы. Программная система. Практические применения. — М.: Фазис, 2005. — 159 с.

2. Хачумов М.В. Задача кластеризации текстовых документов. — Информационные технологии и вычислительные системы, № 2, 2010, с.42-49.

3. Петровский А.Б. Модель оценки кредитоспособности владельцев кредитных карт по противоречивым данным. — Искусственный интеллект, Т. 2.— Донецк, Украина: Наука i освгга, 2004, с. 155-161.

4. Харламов A.A. Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах. - Автореферат диссертации на соискание ученой степени доктора технических наук. - М.: 2009. - 31 с.

5. Osipov G. Strategies for Stabilization Behaviour of Intelligent Dynamic Systems. - Proc. of 20th European Meeting on Cybernetics and Systems, Vienna, 2010, pp. 195-197.

6. Люгер Д.Ф. Искусственный интеллект: стратегии и методы решения сложных проблем. - М.: Издательский дом «Вильяме», 2003 - 864 с.

7. Петровский А.Б. Пространства множеств и мультимножеств. - М.: УРСС, 2003. -248 с. - http://www.raai.org/about/persons/petrovsky/pages/Petrovsky_2003.pdf

8. Хачумов М.В. О проблеме интеграции анализа текстовых данных и графических образов для задач поиска и кластеризации документов. — Сборник трудов Девятой международная научно-практическая конференция «Исследование, разработка и применение высоких технологий в промышленности» (г. Санкт-Петербург, 22-23 апреля 2010). - СПб: Издательство Политехнического университета, 2010, Т.З, с 157-160.

9. Хачумов М.В. Модели представления данных в задачах распознавания образов и кластеризации. - Тезисы докладов Всероссийской конференции с международным участием «Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологических систем» (18-22 апреля 2011 г, Москва). -М.: РУДН, 2011, с.146-148.

10. Amitava Datta. Efficient parallel algorithms for geometric clustering and partitioning problems.- Tech. report 64, Albert-Ludwigs-Univ. Freiburg, Inst, für Informatik. http://citeseerx.ist.psu. edu/viewdoc/summary?doi= 10.1.1.33.6433 http://www.informatik.uni-freiburg.de/TechReports/1994/abstract64.html ftp://ftp.informatik.uni-freiburg.de/documents/rep

ll.Inaba M., Imai.H., Sadakane К. Geometric clustering of multimedia databases. -Proceedings of the 10th Canadian Conference on Computatational Geometry, 1998, pp.110-111.

12. Inaba M., Imai.H. Geometric clustering for multiplicative mixtures of distributions in exponential families. — Proceedings of the 12th Canadian Conference on Computatational Geometry, 2001, pp. 195-196.

13. Pferschy U., Rudolf R., Woeginger G.J. Some geometric clustering problems. - Nordic journal of computing, Volume 1, Issue 2, 1994, pp. 246-263.

14. Ostrovsky R., Rabani Y. Polynomial time approximation schemes for geometric k-Clustering. - Proceedings of the IEEE Symposium on Foundations of computer science, November-July 2000-2001.

15. Sun J., Yao Y., Huang X., Pande V., Carlsson G., Guibas L. A fast geometric clustering method on conformation space of biomolecules. - http ://thames.cs.rhul. ac.uk/~fionn/old-articles/Survey of hierarchical clustering algorithms.pdf

16. Still S., Bialek W., Bottou L. Geometric clustering using the information Bottleneck method. - http://www.princeton.edu/~wbialek/our_papers/still+al_04.pdf

17. Cabello S., Giannopoulos P., Knauer C. Geometric clustering: fixed-parameter tractability and lower bounds with respect to the dimension. - Proceedings of the nineteenth annual ACM-SIAM symposium on discrete algorithms. - Philadelphia, PA, USA, 2008. - http://acg.cs.tau.ac.il/cg-seminar/spring-2008/giannopoulos.

18. Миркес E.M. Нейроинформатика. Учебное пособие. - Красноярск: Издательство Красноярского государственного технического университета, 2003. -http://www.softcraft.ru/neuro/ni/p00.shtml

19. Журавлев Ю.И. Об алгебраических методах в задачах распознавания и классификации. - Распознавание. Классификация. Прогноз. Математические методы и их применение. Вып. 1. - М.: Наука. 1989, с. 9-16.

20. Журавлев Ю.И., Гуревич И.Б. Распознавание образов и распознавание изображений, - Распознавание, классификация, прогноз. Математические методы и их применение. Вып. 2. -М.: Наука, 1989, с. 5-72.

21. Методы дискриминантного анализа. - http://knowledge.allbest.ru/emodel/d-3c0b65625b3ac68a5d43a88421306c37.html

22. Саутин С.Н., Пунин А.Е., Савкович-Стеванович Е. Методы искусственного интеллекта в химии и химической технологии - Л.: Издательство ЛТИ, 1989. - 96 с.

23. Айзерман М.А., Браверман Э.М., Розоноэр Л.И. Метод потенциальных функций в теории обучения машин. - М.: Наука, 1970. -384 с.

24. Каштан Р. Основные концепции нейронных сетей. - М.: Издательский дом «Вильяме», 2001. -288 с.

25. Хайкин С. Нейронные сети: полный курс. - М.: Издательский дом «Вильяме», 2006 -1104 с.

26. Суффиксные деревья, http://algolist.manual.ru/search/lrs/suffix.php,

27. Suffix Trees in Python, http://hkn.eecs.berkeiev.edu/~dvoo/python/suffix_ trees/

28. Алгоритм классификации на основе суффиксных деревьев. http://nigma.ru/index menu.php?action=click_menu&menu_element=cluster

29. Sartaj Sahni. Data Structures, Algorithms, & Applications in Java Suffix Trees, 1999. -http://www-pub.cise.ufl.edu/~sahni/dsaai/enrich/cl6/suffix.htm

30. Тулупьев A.Jl., Николенко С.И., Сироткин A.B. Байесовские сети. Логико-вероятностный подход. - СПб.: Наука, 2006. - 607 с.

31. Колмогоров, А. Н., Фомин, С. В. Элементы теории функций и функционального анализа. - М.: ФИЗМАТЛИТ, 2004. - 572 с.

32. Ackerman M.R. Algorithms for the Bregman k-Median Problem. - A dissertation submitted to the Department of Computer Science University of Paderborn, 2009.-220 p.

33. Беккенбах Э., Беллман P. Неравенства. -M.: Мир, 1965. - 276.

34. Mahalanobis Distance. - http://classifion.sicyon.com/References/M_distance.pdf

35. Амелькин C.A., Хачумов В.М.. Обобщенное расстояние Евклида -Махаланобиса и его применение в задачах распознавания образов. - Доклады 12-ой Всероссийской конференции «Математические методы распознавания образов». (20 - 26 ноября 2005 года) - М.: МАКС Пресс, 2005 с. 7-9.

36. Амелькин С.А., Захаров А.В., Хачумов В.М. Обобщенное расстояние Евклида-Махаланобиса и его свойства. - Информационные технологии и вычислительные системы, № 4, 2006, с. 40-44.

37. Grudic G., Mulligan J. Outdoor Path Labeling Using Polynomial Mahalanobis Distance, Robotics: Science and Systems II, 2006. -http://www.roboticsproceedings.org/rss02/p20.pdf

38. Хорн P., Джонсон Ч. Матричный анализ. - M.: Мир, 1989. -655 с

39. Осипов Г.С. Лекции по искусственному интеллекту - М.:КРАСАНД, 2009. - 272 с.

40. Загоруйко Н.Н. Прикладные методы анализа данных и знаний. - Новосибирск: Изд-во Института математики, 1999. - 270 с.

41.Sloane N.J.A., Hardin R.H., Duff T.S., Conway J.H. Minimal-Energy Clusters. http://www.research.att.com/~njas/cluster/index.html

42. Hardin R.H., Sloane N.J.A., Smith W.D. Tables of Spherical Codes with Icosahedral Symmetry, http://www.research.att.com/~njas/icosahedral.codes/index.html

43. Атаманов В.В., Козачок М.А., Трушков В.В., Хачумов М.В. Выбор первоначального расположения кластеров в нейронной сети Кохонена. -Нейрокомпьютеры: разработка и применение, №1, 2009, с.73-76.

44. Хачумов М.В. Расстояния, метрики и кластерный анализ. - Искусственный интеллект и принятие решений, № 1, 2012, с. 81-89.

45. Трушков В.В., Хачумов В.М. Определение ориентации объектов в трехмерном пространстве. — Автометрия, № 3, 2008, с.75-79.

46. Ивахненко. А. Г. Индуктивный метод самоорганизации моделей сложных систем. - Киев: Наукова Думка, 1981 - 296 с.

47. Паклин Н. Алгоритмы кластеризации на службе Data Mining. -http://www.basegroup.ru

48. Петровский А.Б. Кластерный анализ объектов с противоречивыми свойствами http://www.raai.org/resurs/papers/kii-2006/doklad/Petrovsky.doc

49. Алгоритмы кластерного анализа, http://www.dea-analvsis.ru/clustering-5.htm

50. Методы кластерного анализа. Итеративные методы. -http://www.intuit.ru/department/database/datamining/14/datamining_14.html

51. Круглов В.В., Борисов В.В. Искусственные нейронные сети. Теория и практика. -М.: Горячая линия - Телеком, 2001. -382 с.

52. Кириченко К.М, Герасимов М.Б. Обзор методов кластеризации текстовой информации. http://www.dialog-21.ru/Archive/2001/volume2/2_26.htm

53. Oren Eli Zamir. Clustering Web Documents: A Phrase-Based Method for Grouping Search Engine Results. - A dissertation submitted in partial fulfillment of the requirements for the degree of Doctor of Philosophy. University of Washington, 1999. -http://www.cs.washington.edu/research/proiects/WebWarel/www/metacrawler/

54. Обобщенные методы кластерного анализа (программа STATISTICA) -http://www.spc-consulting.ru/DMS/intro cl.htm

55. Орлов А.И. Эконометрика. Учебник. М.: Издательство «Экзамен», 2002. - 576 с. -http://www.aup.ru/books/ml53/

56. Андреев A.M., Березкин Д.В., Морозов В.В., Симаков К.В. Автоматическая классификация текстовых документов с использованием нейросетевых алгоритмов и семантического анализа. -http://www.inteltec.ru/publislVarticles/textan/RCDL2003.shtml.

57. Хачумов M.B. Методы совершенствования алгоритмов кластеризации текстов. -Высокие технологии, фундаментальные и прикладные исследования, образование// Сборник трудов Четвертой международной научно-технической конференции «Исследование, разработка и применение высоких технологий в промышленности» (02-05.10.2007, Санкт-Петербург). - СПб: Изд-во Политехнического университета, 2007, Т.11, с. 135-136.

58. Хачумов М.В. О выборе метрики для решения задач классификации и кластеризации. - Материалы Первой всероссийской научной конференции с международным участием (SASM-2011) «Системный анализ и семиотическое моделирование» (Казань, 24-28 февраля 2011г.) - Казань: Издательство «Фэн» Академии наук РТ, 2011, с.255-260.

59. Коровкин П. П. Неравенства. М., 1983. - 56 с.

60. Беккенбах Э., Беллман Р. Неравенства. - М.: Ком Книга, 2007. -276 с.

61. Математические этюды. Задача Томсона — http://www.etudes.ru/ru/mov/mov009/

62. Андреев H.H., Юдин В.А. Экстремальные расположения точек на сфере. -Математическое просвещение (третья серия), 1997, вып.1, с. 115-121. -http://www.etudes.ru/ru/mov/mov009/i2115125.pdf.

63. Андреев H.H. Минимальный дизайн 11 порядка на трехмерной сфере. -Математические заметки, Т. 67, Вып.4, апрель, 2000, с. 489-497.

64. Андреев H.H. Расположение точек на сфере с минимальной энергией. - Труды Математического института им. В.А. Стеклова РАН, 1997, Т. 219, с. 27-31.

65. Ежов A.A., Шумский С.А. Нейрокомпьютинг и его применения в экономике и бизнесе. Оптимизация с помощью сети Кохонена. -http://www.intuit.rU/department/expert/neurocomputing/6/4.html

66. Борисов Е.С. Кластеризатор на основе нейронной сети Кохонена. -http://mechanoid.narod.ru/nns/kohonen/index.html

67. Ежов A.A., Шумский С.А. Нейрокомпьютинг и его применения в экономике и бизнесе. Оптимизация и сеть Хопфилда. -http://www.intuit.rU/department/expert/neurocomputing/6/2.html

68. Хачумов М.В. Нейронная сеть Кохонена с универсальной метрикой. - Материалы XVI Международной конференции по вычислительной механике и современным прикладным программным системам (ВМСППС'2009, 25-31 мая 2009 г., Алушта), Изд-во МАИ - ПРИНТ, 2009, с.742-745.

69. Тищенко И.П. Алгоритмическое и программное обеспечение мультипроцессорных систем для распознавания графических образов на основе нейросетевого подхода,. - Автореферат канд. дисс.: Переславль-Залесский, 2009. - 24 с.

70. Мазуров В.Д. Метод комитетов в задачах оптимизации и классификации. - М.: Наука, 1990.

71.Хачай М.Ю. О вычислительной сложности задачи о минимальном аффинном разделяющем комитете. - «Математические методы распознавания образов (ММРО-12)», доклады 12-ой Всероссийской конференции. - М.: ВЦ РАН, 2005. С.226-229.

72. Дубров A.M. Обработка статистических данных методом главных компонент. М.: Финансы и статистика, 1978. -135 с.

73. Фраленко В.П., Хачумов М.В. Классификация на основе аппарата нейронных сетей с применением метода главных компонент и комитета большинства. - В сб. статей Третьей Всероссийской научной конференции «Нечеткие системы и мягкие вычисления» НСМВ-2009 (Волгоград, 21-24 сентября 2009 г.). - Волгоград: Волгоградский государственный технический университет, Т2, 2009, с. 70-79.

74. Кузин JI.T. Основы кибернетики. Т.1. Математические основы кибернетики -М.: Энергия, 1973.-504 с.

75. Хачумов М.В., Фраленко В.П. Графическое приложение для решения задач коммивояжера и кластеризации // Тезисы докладов Всероссийской конференции с элементами научной школы для молодежи «Интеграция науки и образования как фактор опережающего развития профессионального образования» (Москва, 20 сентября 2011 года).- М.: Изд-во Московского государственного университета тонких химических технологий имени М.В. Ломоносова, 2011- С. 241-244.

76. Метод опорных векторов. - http://ru.wikipedia.org/wiki/SVM

77. Толмачев И.Л., Хачумов М.В. Бинарная классификация на основе варьирования размерности пространства признаков и выбора эффективной метрики. -Искусственный интеллект и принятие решений, № 2, 2010, с. 3-10.

78. Хачумов М.В.Применение нейронной сети и расстояния Евклида-Махаланобиса в задаче бинарной классификации. - Сборник материалов II Международной научно-практической конференции «Наука и современность - 2010» (Новосибирск, 16 апреля 2010 года). - Новосибирск: Издательство «СИБПРИНТ», Часть 3, 2010 , с. 82-86.

79. Талалаев A.A., Тищенко И.П., Хачумов M.B. Выделение и кластеризация текстовых и графических элементов на полутоновых снимках. - Искусственный интеллект и принятие решений, № 3, 2008, с.72-84.

80. Чернышев Ю.О, Яценко Д.В. Применение алгоритмов нейронных сетей для оптимизации функции поиска в гипертекстовых гетерогенных распределенных базах данных. - http://pitis.tsure.ru/filesl0/rls2.pdf

81. Дударь З.В., Шуклин Д.Е. Семантическая нейронная сеть, как формальный язык описания и обработки смысла текстов на естественном языке. -http://www.shuklin.com/ai/ht/ru/ai00001 f.aspx

82. Лагиева М.М., Хачумов В.М., Шабалов Д.В. Метод построения линий положения для идентификации полутоновых изображений. - Автометрия, 1991, N6, с.7-12.

83. Мажуга В.В. Контроль и диагностика биологических систем на основе интеллектуального анализа данных. - Диссертация на соискание степени магистра прикладной математики и информатики. - М.:РУДН, 2011. - 65 с.

84. Талалаев A.A. Особенности архитектуры параллельной программной системы распознавания графических образов на основе искусственных нейронных сетей. -Нейрокомпьютеры: разработка и применение, № 9, 2008, с.43-51.

85. Параллельная программная система для распознавания графических образов на основе искусственных нейронных сетей (ППС ИНС). — Свидетельство о государственной регистрации программы для ЭВМ № 2010610208 от 11 января 2010 г.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат физико-математических наук Хачумов, Михаил Вячеславович

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Кластерные методы минимизации риска портфеля ценных бумаг2006 год, кандидат экономических наук Койбаева, Марина Ханджериевна

Непараметрические методы анализа кластеров высокой плотности1999 год, доктор технических наук Коваленко, Андрей Петрович

Субквадратичные алгоритмы метрического анализа данных2005 год, кандидат физико-математических наук Вальков, Антон Сергеевич

Введение диссертации (часть автореферата) на тему «Разработка и исследование методов кластерного анализа слабоструктурированных данных»

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Моделирование обобщенных процедур кластеризации и анализ данных сложной структуры2007 год, кандидат технических наук Тарасова, Алина Сергеевна

Решение задач кластеризации на основе хаотической нейронной сети2007 год, кандидат технических наук Жукова, Софья Витальевна

Выбор оптимальных метрик в задачах распознавания с порядковыми признаками2010 год, кандидат физико-математических наук Иофина, Галина Владимировна

Заключение диссертации по теме «Теоретические основы информатики», Хачумов, Михаил Вячеславович

Список литературы диссертационного исследования кандидат физико-математических наук Хачумов, Михаил Вячеславович, 2012 год