Генетическая кластеризация технической документации в проектных репозиториях САПР тема диссертации и автореферата по ВАК РФ 05.13.12, кандидат технических наук Чекина, Александра Валерьевна

  • Чекина, Александра Валерьевна
  • кандидат технических науккандидат технических наук
  • 2012, Ульяновск
  • Специальность ВАК РФ05.13.12
  • Количество страниц 212
Чекина, Александра Валерьевна. Генетическая кластеризация технической документации в проектных репозиториях САПР: дис. кандидат технических наук: 05.13.12 - Системы автоматизации проектирования (по отраслям). Ульяновск. 2012. 212 с.

Оглавление диссертации кандидат технических наук Чекина, Александра Валерьевна

СПИСОК СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.

Глава 1. Сравнительный анализ методов и средств кластеризации информационных ресурсов при автоматизированном проектировании.

1.1 Понятие информационного ресурса, проектного репозитария при автоматизированном проектировании. Место задачи кластеризации в автоматизированной обработке информационных ресурсов.

1.2 Задача кластеризации. Структура задачи.

1.2.1 Задачи классификации.

1.2.2 Постановка задачи классификации электронных информационных ресурсов

1.2.3 Формализация задачи кластеризации.

1.2.4 Классификация мер.

1.3 Классификация и анализ алгоритмов и методов.

1.3.1 Алгоритмы иерархической кластеризации.

1.3.2 Алгоритмы квадратичной ошибки.

1.3.3 Нечеткие алгоритмы.

1.3.4 Алгоритмы, основанные на теории графов.

1.3.5 Сравнение алгоритмов.

1.3.5 Обзор методов кластеризации текстовых документов.

1.4 Эффективность и качество автоматической классификации.

1.4.1 Подходы к оценке эффективности автоматической классификации.

1.4.2 Формула и методика оценки качества.

1.4.3 Функционалы качества разбиений.

1.5 Анализ применимости схемы генетического алгоритма к задаче кластеризаци

1.3.1 Схема генетического алгоритма.

1.5.2 Классификация генетических алгоритмов.

1.5.3 Анализ применимости генетического алгоритма к решению задачи классификации.

1.6 Постановка задачи исследования.

Выводы по главе.

Глава 2. Генетическая кластеризация информационных ресурсов интеллектуального проектного репозитория (ИПР).

2.1 Особенности лингвистического обеспечения ИПР.

2.1.1 Понятие информационного ресурса (ИР).

2.1.2 Индекс информационного ресурса на основе его лексического состава.

2.1.3 Особенности кластеризации информационных ресурсов.

2.2 Адаптация стандартного генетического алгоритма к задаче кластеризации ИР

2.2.1 План адаптации.

2.2.2 Структура хромосомы.

2.2.3 Селекция.

2.2.4 Кроссинговер.

2.2.5 Мутация.

2.2.6 Оценка приспособленности (Fitness-function).

2.3 Алгоритм кластеризации ИР на основе схемы генетической адаптации.

2.4 Разработка адаптивного генетического алгоритма.

2.5 Методика настройки (параметризации) генетической кластеризации.

Выводы по главе.

Глава 3. Программная система генетической кластеризации информационных ресурсов.

3.1. Информационная структура.

3.1.1 Организация электронного архива конструкторской и программной документации.

3.1.2 Структурно-функциональная схема интеллектуального хранилища.

3.2 Обоснование инструмента реализации.

3.3 Структуры данных.

3.3.1 Структура входных данных.

3.3.2 Структура выходных данных.

3.2. Иерархия классов.

3.3 Базовая реализация.

3.4. Общая архитектура.

Выводы по главе.

Глава 4. Вычислительные эксперименты.

4.1 Объект исследования.

4.1.1 Структура архива ФНПЦ НПО ОАО «МАРС».

4.1.2 Виды конструкторской, программной, технической документации.

4.1.4 Математическая модель оценки качества кластеризации.

4.2 Эксперименты по оценке качества кластеризации.

4.2.1 План проведения экспериментов.

4.2.2 Результаты экспериментов. Этап№1.

4.2.3 Результаты экспериментов. Этап №2.

4.2.4 Результаты экспериментов. Этап №3.

4.3 Эксперименты по исследованию эффективности предложенного адаптивного генетического алгоритма.

4.3.1 Исходное множество документов.

4.3.2 Структура экспериментов.

4.3.3 Результаты вычислительного эксперимента.

4.3.4 Оценка результатов вычислительного эксперимента.

Выводы по главе.

Рекомендованный список диссертаций по специальности «Системы автоматизации проектирования (по отраслям)», 05.13.12 шифр ВАК

Введение диссертации (часть автореферата) на тему «Генетическая кластеризация технической документации в проектных репозиториях САПР»

Большинство крупных проектных организаций обладает значительным архивом успешных проектов. Новые проекты должны использовать ранее разработанные решения, так как повторность использования позволяет сократить сроки проектирования. Однако для решения задачи поиска проектного прототипа при хранении больших объемов информации необходима содержательная классификация проектных документов, которая позволит реализовать поиск похожих проектных документов. Следовательно, возникает задача создания проектного репозитария, автоматизирующего процессы классификации имеющихся и вновь поступающих в архив документов, причем, построение системы классов можно выполнить с помощью методов кластеризации.

В настоящее время существующие методы классификации проектных документов в архивах конструкторско-технической документации основаны на ручной процедуре присвоения кода проектному документу на основе справочника-классификатора. Поэтому существует проблема формирования автоматизированного метода кластеризации технической документации на основе лексики документа. Следовательно, для реализации поиска прототипов проектного решения в интеллектуальном проектном репозитории САПР требуется содержательная классификация проектных документов.

Современный проектный репозитарий должен представлять собой интеллектуальное хранилище проектных документов, чтобы обеспечить поиск необходимого проектного решения. Основу индексирования проектных документов традиционно составляет лексический портрет текстового дескриптора текста.

Цель работы

Целью диссертационной работы является разработка новых и эффективных методов и алгоритмов решения задачи кластеризации проектных документов проектного репозитория САПР.

Задачи исследования

Для достижения поставленной цели необходимо решить следующие задачи:

1. Выполнить сравнительный анализ существующих методов и систем кластеризации проектных документов;

2. Адаптировать схему генетической оптимизации к прикладной задаче кластеризации проектных документов как информационных ресурсов, для чего построить меру содержательного сходства проектных документов как расстояние между ними;

3. Разработать основные генетические операторы (селекция, кроссовер, мутация, формирование начальной популяции) применительно к задаче кластеризации проектных документов;

4. Разработать адаптивный алгоритм генетической кластеризации проектных документов, обеспечивающий быструю сходимость решения;

5. Предложить методику настройки параметров генетической кластеризации, обеспечивающую быструю сходимость и высокое качество решения на основе вычислительных экспериментов;

6. Разработать и реализовать программную систему генетической кластеризации проектных документов как базовую часть интеллектуального архива проектной документации

7. Исследовать результативность и сходимость генетической оптимизации кластеризации проектных документов с помощью вычислительных экспериментов и внедрения в практику проектной организации.

Методы исследования

Для решения поставленных задач использовались следующие методы исследования: теория кластеризации, теория генетической оптимизации, методы математической статистики, методы концептуального и лексикографического анализов, метод экспертной оценки, объектно-ориентированный подход при создании комплекса программ.

Научная новизна

1. Адаптация схемы генетического алгоритма к прикладной задаче кластеризации проектных документов на основе построенной меры лексического сходства документов

2. Разработка модифицированных генетических операторов: селекции, мутации и кроссинговера

3. Разработка адаптивного управляемого генетического алгоритма обеспечивающего быструю сходимость

4. Разработка методики управления адаптивным параметризованным генетическим алгоритмом

5. Разработка структурно-функционального решения программной системы генетической кластеризации проектных документов для проектного репозитория САПР

Все перечисленные положения являются новыми.

Практическая значимость

На основе разработанных методов и алгоритмов создан программно-алгоритмический комплекс для решения задачи кластеризации информационных ресурсов. При построении программного комплекса использовался объектно-ориентированный язык Java и СУБД MS SQL Server. Программная система генетической кластеризации прошла апробацию в ФНПЦ ОАО «НПО МАРС».

Основания для выполнения работы

Данная научная работа выполнялась в рамках тематического плана научных исследований Федерального агентства по образованию в 2005, 2006, 2007, 2008 гг., была поддержана грантами РФФИ № 06-01-02012 и 0601014087 в 2006 г., № 08-01-97006 в 2008 г., ряд задач исследования решался в рамках х/д НИР № 100/05 УлГТУ по заказу ФНПЦ ОАО НПО МАРС.

Достоверность результатов диссертационной работы

Достоверность научных положений, выводов и рекомендаций подтверждена результатами вычислительных экспериментов, корректным использованием формализованных методов, а также результатами использования материалов диссертации и разработанной системы в проектной организации в соответствии с актом внедрения.

Апробация результатов исследования

Основные положения и результаты диссертации докладывались, и обсуждались на: «Interactive Systems and Technologies" (Ульяновск, 2007, 2009), на всероссийской конференции «Проведение научных исследований в области обработки, хранения, передачи и защиты информации ОИ-2009» (Ульяновск, 2009), на одиннадцатой и двенадцатой национальной конференции по искусственному интеллекту с международным участием КИИ-2008 (Дубна, 2008), КИИ-2010 (Тверь, 2010),на научных сессиях МИФИ-2007, 2008 (Москва, 2008), на второй всероссийской научной конференции с международным участием «Нечеткие системы и мягкие вычисления» НСМВ-2008 (Ульяновск, 2008), на семинаре с международным участием «Интеллектуальный анализ временных рядов» по результатам НИР, поддержанной ФЦП, проект № 02.740.11.5021 (Ульяновск, 2010), на международных «Конференции по логике, информатике, науковедению» (Ульяновск 2004, 2005, 2006, 2007)

Основные положения неоднократно докладывались и обсуждались на научно-технических конференциях УлГТУ «Вузовская наука в современных условиях».

Структура и объем диссертационного исследования

Работа изложена на 215 страницах машинописного текста, содержит 29 рисунков и 42 таблицы, состоит из введения, четырех глав, заключения, списка использованной литературы, и 4 приложений.

Во введении обоснована актуальность темы диссертационного исследования, сформулированы цели, приведены сведения о полученных научных и практических результатах, реализации и внедрении работы, апробации, дано общее описание выполненной работы.

В первой главе содержится обзор состояния исследований в области кластеризации. Приведены определения информационного поиска и информационного ресурса. Формализована задача кластеризации ИР. Поясняется структура задачи. Проведена классификация и анализ алгоритмов и методов кластеризации.

Сформулированы основные подходы к решению задачи сравнения работы автоматических классификаций, приведены характеристики оценки работы систем автоматической кластеризации ИР. Определены некоторые основные свойства идеального алгоритма автоматической классификации.

Также приведены методики оценки качества автоматической кластеризации, статистические формулы функционалов качества.

Во второй главе описываются методы, методики и алгоритмы решения задачи классификации ИР на основе эволюционных вычислений.

Рассматривается индекс ИР на основе его лексического портрета, как основа входных данных для алгоритма генетической кластеризации.

Сформулированы особенности кластеризации ИР. Приведена адаптация стандартного генетического алгоритма к решению задачи кластеризации.

Представлен алгоритм кластеризации ИР на основе схемы генетической адаптации. Описана разработка адаптивного генетического алгоритма.

Сформирована методика настройки параметров генетической кластеризации.

В третьей главе рассматривается программная система генетической кластеризации информационных ресурсов, обосновывается выбор инструмента реализации, описывается информационное обеспечение комплекса, приведены основные алгоритмы программной реализации.

В четвертой главе приведены результаты вычислительных экспериментов.

Описаны эксперименты по оценке качества кластеризации в сравнении с экспертной классификацией, проведенной сотрудником ФНПЦ ОАО НПО "МАРС". Эксперименты проводились на выборках объемом 65, 265 и 5013 9 документов. Описаны эксперименты по исследованию эффективности предложенного адаптивного генетического алгоритма.

На основе проведенных экспериментов рассчитана корреляция между величинами для обоснования предложенной в Главе 2 методики настройки параметров.

Проведено сравнение результатов кластеризации с помощью ГА с результатами кластеризации с помощью алгоритма К-средних.

Похожие диссертационные работы по специальности «Системы автоматизации проектирования (по отраслям)», 05.13.12 шифр ВАК

Заключение диссертации по теме «Системы автоматизации проектирования (по отраслям)», Чекина, Александра Валерьевна

Выводы по главе

В четвертой главе изложены результаты вычислительных экспериментов, направленные на исследование эффективности предложенных алгоритмов и методик.

Эксперименты с модифицированным генетическим алгоритмом проведены в три этапа:

На первом этапе из архива электронной технической документации выбраны 65 документов преимущественно организационно-нормативного содержания. Проведена экспертная классификация по четырем признакам, и получены следующие количества классов:

- по виду документов - 17 классов;

- по тематике работ -22 класса;

- по классу документации - 3 класса;

- по разделу документации - 22 класса.

На втором этапе из архива электронной технической документации выбраны 265 документов исключительно организационно-нормативного содержания. Проведена экспертная классификация по четырем признакам, и получены следующие количества классов:

- по виду документов - 14 классов;

- по тематике работ - 38 классов;

- по классу документации - 2 класса;

- по разделу документации - 14 класса.

На третьем этапе из архива электронной технической документации выбран 5021 документ различного содержания. Проведена экспертная классификация по четырем признакам, получены следующие количества классов:

- по виду документов - 51 классов;

- по тематике работ - 27 класса;

- по классу документации - 3 класса;

- по разделу документации - 26 классов.

При сравнении результатов автоматического разбиения с экспертным посредствам методики оценки качества автоматического разбиения, описанной в Главе 2, результат наиболее близок к экспертной кластеризации по классам документации.

Следовательно, по результатам вычислительных экспериментов можно сделать первый вывод из данной главы:

Предложенный вариант адаптации ГА к задаче кластеризации проектных документов является результативным, так как экспертная кластеризация соответствует результатам автоматизированной генетической кластеризации.

Эксперименты по оценке эффективности адаптивного генетического алгоритма проводились на выборке из 65 документов, содержащей документы преимущественно организационно-нормативного характера. Ранее комплект документации был классифицирован архивариусом-экспертом. Для обеспечения сопоставимости результатов, 65 документов всегда разбивались на 16 классов, что соответствует экспертной кластеризации по видам документации.

Было проведено 150 экспериментов, из них:

1. С использованием режима «Управление сходимостью через оператор мутации»- 75 экспериментов

• С длиной стагнации 3-25 экспериментов

• С длиной стагнации 4-25 экспериментов

• С длиной стагнации 5-25 экспериментов

2. С использованием режима «Управление сходимостью через размер «элиты»» - 75 экспериментов

• С длиной стагнации 3-25 экспериментов

• С длиной стагнации 4-25 экспериментов

• С длиной стагнации 5 - 25 экспериментов

В результате проведенных экспериментов можно придти ко второму выводу из данной главы: при использовании адаптивного генетического алгоритма среднее сокращение количества проходов генетического алгоритма снизилось в среднем на 30 % .

По результатам проведенных экспериментов, опираясь на модель, представленную в Главе 2 диссертации, для обоснования методики, сформированной во многом эмпирическим путем, была получена корреляция между скоростью сходимости V и величинами: М - вероятностью мутации, Р1- плодовитостью, а также между достигнутым уровнем фитнесс - функции и величинами: М - вероятностью мутации, Р1- плодовитостью. Данные результаты позволяют сделать третий вывод из данной главы.

Найденная корреляция составляет обоснованную основу для методики управления генетической кластеризацией проектных документов в репозитории.

В результате сравнения результатов автоматической кластеризации, полученной с помощью ГА, с результатами автоматической кластеризации, полученной с помощью алгоритма К-средних, были сделан четвертый вывод.

При кластеризации с приоритетом точности поиска (альфа=0,1) при малом количестве кластеров существенных преимуществ одного из алгоритмов не наблюдается.

При увеличении числа кластеров наблюдается существенное преимущество адаптивного генетического алгоритма.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.